مقالات في اللسانيات الحاسوبية

سبل تطوير أداء المحلل الصرفي

د. عبدالعزيز بن عبدالله المهيوبي

إنَّ العمل في إطار المعالجة الحاسوبية للُّغات الطبيعية يتطلب مراعاة أمرين أساسيين:
الأول: ضرورة الاعتماد على إطار لساني نظري صارم، يتوافر على مفاهيم قادرة على توصيف الظواهر اللغوية المبرمجة في الدماغ البشري وفق روزنامة من الخوارزميات الصورية.
الثاني: ضرورة بناء قواعد بيانات للمعطيات اللسانية المجمَّعة (مهديوي، 1999م)
وقد توافر الأمران معاً عند بناء عدد من المحللات الصرفية العربية؛ حيث اعتمد مطورو تلك البرامج على تصور لساني حديث قادر على استقراء القواعد، وتفصيلها، وفقاً لمستويات اللّغة المتفاوتة، (الصّوتي، والصّرفيّ، والنّحويّ). وانطلاقاً من هذا التصور شرع المطورون في بناء قواعد معطيات لغوية، تُعدُّ أساساً في أي عمل حاسوبي لمعالجة اللغة العربية.
ما التحديات التي تواجهها المحللات الصرفية الحاسوبية للغة العربية؟
اللغة العربية لا تُعدُّ من اللغات التي يسهل تحليلها، فهي من “الناحية الصرفية من أكثر لغات العالم تعقيداً وثراءً؛ فيمكن تشكيل العشرات، بل المئات من الكلمات عن طريق استخدام جذر واحد، ونماذج قليلة، والقليل من السوابق واللواحق. أيضاً تملك اللغة العربية درجة عالية من اللبس لأسباب عديدة، مثل حذف الحروف المتحركة، وتشابه الحروف البادئة، واللاحقة الخاصة بحروف الجذر، وعادة ما يؤثر التحليل الصرفي على المستويات الأعلى من التحليل، كتحليلات النحو أو المعنى”. (حمادة، 2009م، ص1). إنَّ الكلمة الواحدة في اللغة العربية قد يلحق بها من الزوائد في أولها، ووسطها وآخرها ما يصعب معه تمييز الحروف الأصلية من الحروف الزائدة فيها. كما أنَّ وجود ظواهر لغوية صوتية (الإعلال والإبدال والإدغام)، وفشو ظاهرة الحذف والقلب والزيادة في الكلمة عند إسنادها، أو نسبتها، أو تصغيرها، أو جمعها، تؤثر على بنية الكلمة عند عملية توليدها.
ومما لا شك فيه أن محاولة إخضاع كلمات اللغة العربية للتحليل الآلي، لابدَّ أن تعترضها العديد من الإشكاليات والعقبات، وعندما تتشابه العقبات في لغات عديدة، فإنه بلا شكّ تتشابه طرق حلها. غير أنَّ تحليل كلمات اللغة العربية آلياً يواجهها الكثير من العقبات أكثر من أي لغة أخرى، ومعظم هذه المشاكل متعلقة بالجوانب التي تختلف فيها العربية عن اللغات التي صممت معظم البرامج الحاسوبية أصلاً لمعالجتها، لذلك فإنَّ معالجة العربية حاسوبياً أضحى ضرورة ملحة لابدَّ من حشد كل الطاقات لإنتاج برامج حاسوبية قادرة على معالجة خصائص اللغة العربية”. (العيدروس، 2007م، ص123)
إنَّ عملية التحليل الصرفي للغة العربية تمثل أساساً تنبني عليه مختلف تطبيقات معالجة اللغة العربية، التي منها على سبيل المثال لا الحصر: أنظمة التصحيح الإملائي والنحوي، ولا يُعدّ المحلل الصرفي اللغوي تطبيقاً نهائياً، ولكنه أساس لمجموعة من التطبيقات، كالتشكيل الآلي، ونظم فهرسة المعلومات واسترجاعها، والتصحيح والفهم الآلي.
وتشير الدراسات الحديثة إلى أن معالجة اللغة العربية آلياً تمرُّ حالياً بنقلة نوعية ترجع إلى عدة أسباب، منها: تطّور وسائل حصر المواد اللغوية واستقصائها، وتصنيفها، وتحريرها. وكذلك التوسع في بناء قواعد معطيات معجمية ضخمة ومنظمة، والتوسع في تطوير أدوات معالجة اللغة العربية.
هل هناك خصائص للغة العربية تؤثر على نتائج تلك المحللات؟
تتميز اللغة العربية بالاطّراد الصرفي شبه المنتظم، إضافة إلى وجود التعدد الصرفي كتعدد صيغ الجمع (كاتبون، كَتَبَة، كُتّاب) مما يزيد من قابلية العربية للمعالجة الحاسوبية، هذه المعالجة مدخل طبيعي لمعالجة المنظومة الشاملة للغة العربية، وهنا يُعدُّ معالج الصرف العربي مقوماً أساسياً في مكننة المعجم، وتطوير نظم آلية للإعراب، والتشكيل التلقائي (نصير، 2006م). “وتستند العربية إلى نظام متسق، تقيده ضوابط دقيقة، وتحكمه قواعد مطَّردة، أو شبه مطَّردة، إلا أنه قد تغزوها في بعض الأحيان مظاهر شذوذ عن بنية النظام الكلي الذي يُحاول استيعابها، ويُحكم السيطرة على شبكة العلاقات التي تحدد معالمها، وتحكم ظواهرها، وتكشف عن أعماقها الغنية بالدلالات والمباني” (نبيل، 1988م، ص115)
“وما كاد الحاسوب يتهيأ في العصر الحديث لمعالجة اللغة العربية، حتى ظهر من يصف العربية بعدم صلاحيتها للمعالجة الحاسوبية بدعوى أن نُظمها -ولاسيما الكتابي- لا تُطاوع الآلة، ولا تستجيب لمتطلباتها” (العناتي وبرهومة 2007م ص50). وقد كانت هذه الدعوات منبثقة من الصعوبات التي واجهت الكتابة العربية في أول عهدها بالحوسبة، وهذه التحديات هي:
1- أن شكل الحروف في اللغة العربية يختلف عل اللاتينية؛ حيث تشتمل العربية على الحروف والحركات والأرقام.
2- أن العربية لغة كثيرة الإعراب؛ مما يعقد عملية التحليل الصرفي.
3- تداخل المستويين النحوي والصرفي.
4- تتميز كلمات اللغة العربية مقارنة بكلمات اللغات الأخرى بتركيب صرفي معقّد؛ فالتركيب المعجمي للكلمة في اللغة العربية مشتق من وحدة أصغر هي الجذر.
5- تعتمد اللغة العربية على الضبط الكامل بالشكل، لتؤدي المعنى المحدد.
6- قابلية الحروف العربية للتمدد، والاستطالة عند الكتابة.
7- تنوع أشكال الحرف العربي؛ فلكل صورة من صوره موقع مختلف عن الآخر.
8- وجود حروف تُكتب ولا تُنطق، وأخرى تُنطق ولا تُكتب.
9- تتميز اللغة العربية بالنحت، وهو بناء كلمة واحدة من كلمتين أو أكثر.
10- تتميز اللغة العربية بالإدغام، وهو إدخال حرف في حرف آخر من جنسه، بحيث يصيران حرفاً واحداً مشدداً.
لقد كانت هذه التحديات حقيقة، ولكنها بعد التجريب والتطبيق إلى زوال.”وإذا كانت هذه التحديات ومثيلاتها في معالجة العربية قد بدأت بالتلاشي، فإنَّ تحديات الحوسبة عموماً تُطلُّ بقوة حين تكون خياراً لدعم العربية، ومساندتها ونشرها في زمن تشتد فيه المنافسة، وتتعاظم هيمنة الإنجليزية وسطوتها” (العناتي وبرهومة، 2007م، ص51)
ولا يزال مطورو برامج معالجة اللغة العربية آلياً يواجهون صعوبات تتعلق بثرائها الواسع، وكان من أثر ذلك أن استعار بعض المطورين حلولاً من نظريات اللغة الإنجليزية، ولكن ذلك لم يساهم في استيعاب طاقات اللغة العربية حاسوبياً، حيث يقف المحلل الصرفي للغة الإنجليزية عند حدود ساق الكلمة نظراً لخلوها من خاصية الاشتقاق، ومن ثمَّ تنبَّه بعض المطورين العرب إلى ضرورة بناء أدوات لغوية خاصة باللغة العربية.
يُعدُّ محلل الخليل الصرفي بحق نقلة نوعية كبيرة جداً في مجال معالجة كلمات اللغة العربية حاسوبياً؛ حيث تمكن القائمون على هذا المحلل من جعل الحاسوب يتعامل مع اللغة بشكل يحاكي الطريقة التي يستخدمها الإنسان عند تحليل كلمات اللغة العربية.
يبدو أن المحلل الصرفي ذو فائدة كبيرة عند البحث في نصوص الموسوعات الكبيرة، ويتصف بكفاءة أداء جيدة، وسرعة كبيرة. غير أن ذلك لا يعني بلوغ المحلل الكمال في تحليل كلمات اللغة العربية، لوجود جملة إضافية من الثغرات التي تنتظر منطقًا برمجيًّا أكثر دقة، ومعيارًا صرفيًّا أكثر صرامة.
ولسدّ تلك الثغرات البرمجة واللغوية، نوصي باعتماد التعديلات التالية:
أ- بناء قاعدة معطيات صرفية تصاحب المحلل الصرفي الآلي، تستوعب جذور اللغة العربية، وجميع صور الكلمات المشتقة من هذه الجذور.
ب- ضرورة توفير بيانات معجمية تربط بين جذر الكلمة، والصيغ الصرفية المنطبقة عليه.
د- الاهتمام بزيادة كفاءة أداء المعالج الصرفي الآلي، بحيث يمتلك القدرة على التعامل مع الكلمات داخل سياقها.
هـ- توظيف مدقق لتمييز الأخطاء الإملائية للكلمة المدخلة إلى المعالج الآلي تلقائيًّا، في قطاعي الكلمات المشكولة وغير المشكولة.

0 Reviews

Write a Review

مقالات ذات صلة

زر الذهاب إلى الأعلى