مقالات في اللسانيات الحاسوبية

المصطلحات الأساسية في لسانيات المدونات

د. عبدالعزيز بن عبدالله المهيوبي

 

تحليل المُدَوَّنات النصّية corpus-based analysis
هو دراسة الظاهرة اللغوية من خلال مجموعة كبيرة من النصوص التي يمكن ‏قراءتها آلياً، حيث تهدفُ إلى دراسة اللغة وتحليلها كما هي ماثلة في سياقاتٍ تزودنا بها ‏النصوص المُقتبسة من العالم الحقيقي.
المدونة النصية Corpus
بناء كبير من النصوص يستخدم في تحليل اللغة كمّاً وكيفاً.
المدونات corpora
انظر – المدونة
مدونات حاسوبية computer corpora
المجموعات الكبيرة من النصوص أو الملفات الصوتية التي تمثل عينة أو تخصص أو شريحة معينة من اللغة، وهذه النصوص تكون غالبا في صيغة إلكترونية يستطيع الحاسب قراءتها والبحث فيها.
علم اللغة الحاسوبي Computational Linguistics
فرع من علم اللغة التطبيقي يُعْنى بتطويع اللغة للحاسب (الكمبيوتر) واستخدام هذا الحاسب في الدراسات اللغوية وفي دراسة اللغة ذاتها.
مدونات نصية خام Raw corpus
مجموعات كبيرة وشاملة من النصوص متوفرة إلكترونيا جمعت دون ترتيب أو منهجية
مدونات نصية موسومة Annotated corpus
مجموعات كبيرة وشاملة من النصوص محللة تحليلًا لغويًا بأية صورة من الصور أو على أي مستوى من المستويات اللغوية ( المعجمي، الصرفي، التركيبي، الأسلوبي) وهذا التحليل تم يدويا عن طريق متخصصين لغويين.
مُدَوَّنة وحيدة اللغة monolingual corpus
نصوص مكتوب بلغة واحدة فقط
مُدَوَّنة ثنائية اللغة Bilingual corpus
نصوص مكتوب بلغتين إحداهما اللغة المصدر والأخرى اللغة الهدف
مُدَوَّنة متعددة اللغات Multilingual corpus
نصوصو مكتوب بلغات متعددة بحيث يتم عمل تنظير بين الجمل المتقابلة في كل اللغات
المدونات المتوازية Parallel corpora
هي مدونات تحوي نصوصاً أصيلة من لغة من اللغات و ترجمات هذه النصوص في لغة أخرى
المدونات المتقابلة Comparable Corpus
مجموعة من النصوص بلغتين أو لهجتين مختلفتين.
المدونات العامة General Corpora
متعددة الأغراض كمُدَوَّنة مدينة الملك عبد العزيز التي تُستخدم لأغراضٍ مُتَعدِّدة، كَصَنَاعة المَعاجم وتصميم برامج مُعالَجة النُّصوص، بالإضافة إلى استخدامها لأغراض تعليميَّة
المدونات الخاصة Specialized Corpora
تُستَخدَم لِغَرَضٍ مُعَيَّن. كمُدَوَّنة معجم الثروة اللفظية لطلبة المرحلة الابتدائية في المدارس السعودية الَّتي استخدمت لصناعة معجم لتلاميذ المرحلة الابتدائية. (وكثيرٌ مِن صُنَّاع المَعاجم المُتَخَصِّصَة يستخدِمون مُدَوَّناتِهم لأغراض أخرى) كتحديد المتصاحبات، أو التعبيرات الاصطلاحية، وغيرها
مدونات اللغة المكتوبة Written Corpora
وهي مدونات نصية تحتوى على مجموعة هائلة من النصوص المكتوبة والمطبوعة مثل النصوص الكاملة للصحف والمجلات والكتب في مختلف المجالات مثل الآداب والسياسة والعلوم والفنون
مدونات اللغة المنطوقة Spoken Corpora
وهي مدونات صوتية منطوقة تحتوى على تسجيلات آلاف المحادثات والحوارات والخطب ونشرات الأخبار الإذاعية والبرامج الحوارية والمسلسلات والأفلام وغيرها
مدونات اللهجات Dialect Corpora
مثل المدونات الخاصة بلهجة واحدة كمدونات اللهجة المصرية
مدونة لغة المتعلم Learner
هي مدونات  تحوي نصوصاً أنتجها متعلمو اللغة الأجنبية التي يدرسونها ، و فائدتها هي أن يدرك الباحث الصعوبات التي يمكن أن تقابل متعلم اللغة الأجنبية نتيجة الاختلافات بين سمات لغته الأم و اللغة التي يتعلمها
مُدَوَّنة محددة زمنياً Synchronic Corpora
كمُدَوَّنة العربية الفصحى (2004) بجامعة مانشستر، وهي محددة من الفترة قبل الإسلام حتى القرن الحادي عشر
مُدَوَّنة شاملة مختلفة الفترات Diachronic Corpora
كمدونة مدينة الملك عبد العزيز للعلوم والتقنية والتي تبدأ من العصر الجاهلي وحتى العصر الحديث ومن مختلف المناطق والبلدان
المدونات الرسميَّة Standard Corpora
مدونات مصممة وفقًا لأغراض خاصة كمدونة معجم التلميذ
مُدَوَّنة حرة Free Corpora
وهي مدونات متاحة على شبكات الاتصال والتي تضم نصوصًا لا نهاية لها
مدونات تعليمية Pedagogic corpus
وتكون لأغراض تعليمية
مدونة متابعة التطورات اللغوية Monitor corpus
مثل تلك المدونات التي تهتم بمتابعة تطور المعجم
لسانيات المدونات Corpus Linguistics
هو ذلك الفرع من اللسانيات الذي يعنى بجمع المادة اللغوية لغرض وصفها وتحليلها ودراستها، وهو يقوم على منهج يرى أن ما يقوله المتكلمون السليقيون للغة المدروسة هو الحجة الحقيقية التي ينبغي الاحتكام إليها في دراسة اللغة
معالجة اللغات الطبيعية Natural Language Processing
ونعني بها معالجة اللغات البشرية آليـًا على مستوى الحرف والكلمة والجملة
المتصاحبات اللغوية ( المتلازمات اللغوية ) collocation
هناك أوصاف أو كلمات دائما تقترن بأوصاف أو كلمات أخرى دون سبب ظاهر أو منطقي، مثل تعبيرات (فتح الباب على مصراعيه) و(رأب الصدع) و (العروة الوثقى) ودراسة المدونات اللغوية تفيد للغاية في البحث عن أمثلة هذه المتصاحبات، من أجل تسجيلها في موادها بالمعجم العربي الحديث.
الكلمات المفتاحية الدالة في السياق KWIC ( Key Words In Context )
هي الكلمة أو الكلمات التي يُدخلها الباحث في محرك البحث ويتم عرضها داخل سياقاتها
كشافات سياقية concordances
يُوَفِّر الكشاف السياقي الكثيرَ مِن الوقت والجُهد، إذ يُعيد بِناء نُصُوص المُدَوَّنة اللُّغَوِيَّة لتظهَرَ في صُورةٍ مُنَظَّمةٍ، يسهل التَّعامُلُ معها آلِيّاً، سواءٌ على مُستوى المُفرَدات، أم على مُستوى الجُمَل والتَّراكيب؛ مِن ناحِيةٍ أخرى فالكشاف السياقي يقوم بِعِدَّة وظائِف، منها:

إعادة تعيين النَّصّ المُدرَج بعد حصر المُفردات وترتيبِها.

تعيين كلمات النَّصّ المُدرَج ضِمنَ سياقاتِها.

تجميع المُفرَدات المُتَماثِلة في حُقولٍ وإعادة ترتِيبِها.

كذلك.. يُعطي البَرنامَج عدداً مِن خيارات التَّرتيب (ترتيب المُفردات ألفبائيّاً ترتيباً تصاعُدِيّاً وتنازُلِيّاً، وترتيب المُفردات بحسب أكثرِها شُيُوعاً وبِحسب أقَلِّها شيوعًا).

وهُناك العديد من الكشافات السياقية المُتاحة إلكترونِيًّا، والَّتي تدعم اللُّغةَ العربِيَّة، منها على سبيل المِثال:

الكشاف السياقي الآليّ Concapp، وقد أنتَجَته مجموعة Chris Greaves.

الكشاف السياقي الآلِيّ a ConCorde، وقد صَنَعه Roberts Andrew، ضِمنَ أطروحَته الَّتي نالَ عليها درَجة الدكتوراه من جامِعة ليدز.

الكشاف السياقي الآليّ Concordance، وقد أنتَجَته مجموعة R. J. C. WATT.

الكشاف السياقي الآليّ MonoConc، وأنتَجَته مجموعة M. B. A. USA.

لكِنَّ الكشافات السياقية المُتاحة تُعانِي من مُشكِلاتٍ في تعامُلِها مع نُصُوص اللُّغة العربِيَّة، إذ تتعامَل معها بوصفها مجموعة من الرُّموز المُتلاصِقة، دون مُراعاةٍ للنِّظام الصَّرفِيّ والاشتقاقِيّ للُّغة العربِيَّة

تجميع المدونة Corpus compilation
تجميع المدونة هام جدا لارتباطه بالنتائج التي نحصل عليها. ويجب أن نعرف ما هي النصوص الموجودة بها وكيف تم ترميزهم/  كتابة رموز لهم marked up وقدر أنواع النصوص الموجودة وحجم النصوص المختلفة وكيف تم تجمعهم وغير ذلك
التعليم marked up
ونعني به تحديد بيانات المؤلف وتاريخ الإنشاء والعنوان واللغة والمجال
القارئ الآلي ( قارئة المحارف البصرية ) Optical Character Reader (OCR)
يقصد بالتعرف الضوئي على الحروف OCR التحويل الميكانيكي أو الإلكتروني لصور الكتابة اليدوية أو الكتابة بالآلة الكاتبة أو النص المطبوع، والتي يتم عادة التقاطها بالماسحة الضوئية إلى نص قابل للتحرير والقراءة في الحاسب. وقد بلغت تقنية التعرف الضوئي على الحروف شأوا كبيرا في اللغات اللاتينية بل لم تعد مشكلة على الإطلاق، وفى اللغة العربية توجد تطبيقات متطورة للتعرف الضوئي على الحروف العربية المطبوعة من صخر غير أنها باهظة التكلفة وقليلة الانتشار. وما زال التعرف الضوئي على الكتابة باليد أو الكتابة المنحنية المتصلة مجالا للبحث النشط سواء في اللغات اللاتينية أو اللغة العربية
عزل علامات الترقيم separate punctuations
 
التحشية ( التوسيم ) Annotation
ونعني بها تحديد المعلومات اللغوية وإدخالها مثل فئات أو أقسام الكلام والمشتقات والمعلومات النحوية وبناء الجملة والمعلومات الدلالية ومعلومات عن الأسلوب والصوت بصيغة يفهمها برنامج البحث في المدونة، وسائر أدوات معالجة اللغة، وتتضمن معلومات الوصف تمييز حدود الجمل والعبارات والفقرات وفك لبس حدود الجمل من خلال النقطة والمسافة وتمييز الكلمة الجذر ومشتقاتها.
المؤلف author
ونعني به كاتب النص أو الشاعر أو مؤلف الكتاب ….
تاريخ صنع المدونة date of creation
تاريخ بداية بناء المدونة
المجال domain
زنعني به المجال الذي تغطيه المدونة أفقيا ورأسيا
اللغة Language
لغة المدونة
العنوان title
عنوان القصيدة أو الكتاب أو النص
المشتقات Lemma
الاسمية والفعلية
تمييز أجزاء الكلام Part-of-Speech Tagging
يعد التمييز باستخدام أجزاء الكلام من أهم أنواع تحشية المدونات. والتذييل بأجزاء الكلام هي عملية إلحاق كل مفردة في النص بشفرة code  أو ذيل tag يشير إلى جزء الكلام الذي تنتمي إليه. وعادة ما يتم إلحاق جزء الكلام بالمفردة إما باستخدام underscore character مثال: قال_فعل أو باستخدام رمز & مثال : لون& اسم. التذييل باستخدام أقسام الكلام خطوة أولى وأساسية من أجل الإعراب
التمييز الصرفي Tokenization
يحدد الكلمات وأجزاءها
التمييز الإعرابي Parsing
عملية تقسيم الجملة إلى أجزاء الكلام التي تنتمي إليها مع توضيح الشكل والوظيفة والعلاقة النحوية للمفردات بعضها البعض. ومن أشهر المدونات المزودة بأجزاء الكلام والإعراب هي مدونة Penn Treebank  أصدرتها جامعة بنسلفانيا وتحتوي على 4.9   مليون كلمة.
تحشية الرموز الدلالية Semantic tagging
تحديد معاني الكلمات.

تحديد العلاقات الدلالية مثل الفاعل والمفعول به الحقيقي والحدث.

تحديد الأبواب الدلالية مثل الكلمات التي لا تحمل معنى (ال، وعلى، وفي، و…)- الجسم وأجزاء الجسم – الألوان

تحشية الحديث والنص اللغوي Discourse and text linguistic annotation

ترميز الأساليب مثل؛ أسلوب اعتذار مثل : آسف  ، أسلوب تحية مثل : عمت صباحاً، أسلوب متأدب : من فضلك ، أسلوب استجابة : رائع…..

ترميز مرجعية الضمائر: وهذه المهمة تصلح بشريا فقط

فقرة Paragraph
تتضمن معلومات وصف المدونة تمييز حدود الفقرات
بداية الصفحة Page breaks
تتضمن معلومات وصف المدونة تمييز بداية الصفحات ونهايتها
علامات المعلومات التعريفية Identifying information
مثل: نوع النص كتاب، عنوان النص، المؤلف، الفصل، عنوان الفصل، الفقرة …
الآليات المستخدمة في تحليل المدونات Corpus Analysis Tools
تتضمن برامج التحليل الصرفي والنحوي والدلالي …..
علامات الترقيم punctuation
نستطيع فك لبس حدود الجمل من خلال النقطة
قائمة أبجدية alphabetical list
يقوم برنامج الكشاف السياقي بعرض كلمات البحث ويرتبها ترتيبا أبجدياً أو تصاعديا أو ….
المفهرس ثنائي اللغة bilingual concordance
يعمل على النصوص المتوازية
مفهرس الموضوعات topical concordance
هو عبارة عن قائمة بالموضوعات التي يشملها الكتاب مع ربط فوري بالجزئيات التي تغطي هذه الموضوعات
تحليل الكلمات المفتاحية analyzing keywords
تحليل كلمات البحث صرفيا ونحويا ودلاليا ….
تحليل تكرار الكلمات analyzing word frequencies
تساهم المدونات اللغوية في معرفة أكثر الكلمات شيوعا في اللغة العربية على المستويين المنطوق والمكتوب، وذلك من أجل تعليم هذه الكلمات للأجانب وحتى يتمكنوا من فهم المعاجم العربية، ومما لا شك فيه أن معرفة مستوى شيوع كلمة ما يدل على أهميتها في كل اللغة المكتوبة أو المنطوقة، وبالتالي ترشد المتعلم إلى معرفة مدى ضرورة تعلمها أو إغفالها من عدمه.
التحليل الصرفي morphological analysis
أداة من أدوات التَّحليلِ اللُّغَوِيِّ للنُّصُوص، يُستَخدَم في استرداد جُذور المُفرَدات وتحديد المعلومات الصَّرفِيَّة الخاصَّة بِكُلِّ مُفردةٍ على حِدَة، كما يُستَخدَم في توليد المُشتَقَّات اللَّفظِيَّة مِن الجِذر اللُّغَوِيّ الواحِد، وهُو – بذلك – يُتَمِّم عملَ الكشاف السياقي. وهُناك العديد من المُحلِّلات الصَّرفِيَّة العربِيَّة المُتاحة إلكترونِيّاً، منها على سبيل المِثال:

المُحلِّل الصَّرفِيّ ArabMorpho، وقد أنتَجَته الشَّركة المِصرِيَّة RDI.

المُحلِّل الصَّرفِيّ Buckwalter، وقد أنتَجَته مُؤَسَّسَة شبكة البيانات اللُّغَوِيَّة LDC التَّابِعة لجامِعة بنسلفانيا.

المُحلِّل الصَّرفِيّ MLTS، وقد أنتَجَته شركة Cimos الفرنسِيَّة

معلومات التكرار Frequency information
تلك المعلومات الإحصائِيَّة الَّتي يُمكِن مِن خلالِها مَعرِفة النِّسبَة التَّقريبِيَّة لشيوع الكَلِمة والغَرَض مِن هذه المعلومات تَعلِيمِيٌّ صِرف، إذ تُوَفِّر هذه المعلومات على مُتَعَلِّم اللُّغة الكثيرَ مِن الوَقت والجُهد، إذ سيَتَّجِه أوَّلاً إلى معرِفة أكثر الجُذور اللُّغَوِيَّة شُيُوعاً، فالتي تليها.
لغة اصطناعية Artificial language
 
التحليل التقابلي Contrastive Analysis
 
التشفير الصوتي Phonetic coding
 

النص الإلكتروني

electronic text

هو أي نص مخزن على جهاز إلكتروني. هذا النص يمكن التعامل معه باستخدام الحاسب

معنى سياقي  
معنى الكلمة في السياق الذي ترد فيه، حيث لا يمكن فهم الكلمة بمعزل عن الكلمات الأخرى ذات الصلة بها.
معنى معجمي Lexica meaning
هو معنى الكلمة في المنظومة الكلامية بمعزل عن السياق
شيفرة Code
 
المكانز Thesaurus
مفردات مقيدة وديناميكية لمصطلحات متصلة مع بعضها البعض ( دلاليا وجنسا) تغطي احد حقول المعرفة مثل التكنولوجيا أو الطب أو النفط أو الزراعة، من المكانز العربية : مكنز الجامعة 1987و مكنز العمل 1989.
توليف الكلام ( إنتاج الكلام ) Speech Synthesis
من التطبيقات المهمة للمعالجة الآلية للغة، فهو يقوم بقراءة النصوص أو تحويل الكلام المكتوب إلى صوت مسموع وكلام منطوق مفهوم، ويسمى نظام الحاسب (برمجيات أو أجهزة) المستخدم لهذا الغرض بمولف الكلام، ويقوم نظام تحويل النص إلى كلام بتحويل نص اللغة العادية إلى كلام، أما الأنظمة الأخرى فتعمل على تحويل الرموز اللغوية الصوتية إلى كلام. يمكن إنشاء الكلام المولف من خلال ضم أجزاء متسلسلة من الحديث المسجل المخزن في قاعدة بيانات هي المكانز المنطوقة، وتختلف الأنظمة في حجم وحدات الحديث المخزنة، وفى مجالات استخدام معينة، يتيح تخزين كلمات كاملة أو جمل كاملة إنتاج كلام عالي الجودة. وهناك طريقة أخرى هي تضمين نموذج من جهاز النطق وغيرها من خصائص الصوت الإنساني لإنتاج صوت مولف بالكامل.

ويتم الحكم على جودة مولف الكلام بدرجة تماثله مع الصوت البشرى أو بمدى فهمه، ويتيح برنامج تحويل النصوص إلى كلام مفهوم للمكفوفين والمعاقين بصريا الاستماع إلى الأعمال المكتوبة من خلال الحاسب المنزلي، وقد تضمنت العديد من أنظمة تشغيل الحاسب مولفات كلام منذ بداية الثمانينات. المشكلة التي تواجه إنتاج مولفات كلام باللغة العربية هي غياب علامات التشكيل، ولهذا لابد من إنتاج المشكل الآلي حتى يمكن تحويل النصوص العربية إلى كلام منطوق.

تمييز الكلام ( التعرف على الكلام ) Speech Recognition
يختلف هذا التطبيق Speech Recognition  عن توليف الكلام في أنه لا يتعرف على نص مكتوب ويحوله إلى كلام منطوق، بل يستمع إلى صوت مسموع ويقوم بالتعرف عليه وتحديد هوية صاحبه، من خلال تحويل الصوت إلى رموز تفهمها الآلة وتتعرف عليه، وهو يختلف كذلك عن مصطلح التعرف على الصوت Voice Recognition ويقصد به التعرف على صوت المتحدث نفسه وليس الكلام الذي يقوله. ومن تطبيقات فهم الكلام الاتصالات الصوتية وتوجيه المكالمات والتحكم في الأجهزة المنزلية والبحث في المحتوى بالصوت وإدخال البيانات البسيطة وإعداد المستندات المنظمة وتحويل الكلام إلى نص مكتوب وفى كابينات القيادة بالطائرات.


ومن تطبيقات فهم الكلام المنطوق استخدامها في القيادة الآلية للطائرات العسكرية والتحكم في أجهزتها وخاصة في بريطانيا وفرنسا والولايات المتحدة وفى طائرات الهليكوبتر حيث مشكلة الضوضاء الخلفية بسبب صوت المروحة والهواء وفى إدارة المعارك حيث تتطلب مراكز القيادة الوصول السريع لقواعد بيانات المعلومات المتغيرة بسرعة كما تستخدم في تدريب مراقبي حركة المرور الجوي، بجانب استخدامها في مجال الاتصالات التليفونية وألعاب الحاسب والمحاكاة، ولم يتم تثبيت هذه التكنولوجيا في الأجهزة المحمولة لأنها تتطلب قوة معالجة هائلة، وهذه التكنولوجيا مفيدة للغاية لمن لا يستطيعون تحريك أيديهم، مما يتطلب وسيلة بديلة لإدخال المعلومات في الحاسب والتحكم في وظائفه

الذكاء الاصطناعي artificial intelligence
العلم الذي يجعل الآلات تقلد تفكير وسلوك البشر، بما يجعل النظام الآلي قادرا على أداء وظائف تقترن غالبا بالمفهومية البشرية والذكاء الإنساني، مثل اتخاذ القرارات نتيجة للتحليل والاستدلال الفعلي والتعلم والتعديل الذاتي. وعموما فالذكاء الاصطناعي يهتم بدراسة استخدام الكمبيوتر لمحاكاة التفكير عند الإنسان. فهو يهتم ببناء برامج للكمبيوترات يمكنها حل المشاكل بطريقة خلاقة، بدلا من تنفيذ البرامج خطوة بخطوة كالبرامج التقليدية.

ومن هذه البرامج ما يُعرف بالإجابة على الأسئلة؛ حيث يُعد هذا التطبيق من التطبيقات المنتمية لاسترجاع المعلومات، حيث يفترض بالحاسب أن يستطيع الإجابة على أية أسئلة باللغة العادية من خلال البحث في مجموعة ضخمة من المستندات والوثائق، وتتطلب الإجابة على الأسئلة وسائل معالجة آلية متقدمة للغات مثل استرجاع المستندات، ويعتبرها الكثيرون المرحلة التالية بعد محركات البحث، حيث تقوم بطرح سؤال عادى عن شيء معين، وينبغي على الحاسب أو محرك البحث أن يعرض الإجابة فقط أو المستندات التي تحوى الإجابة فقط.

الكفاية اللغوية competence
هي المعرفة الضمنية بقواعد اللغة، وهي قائمة في ذهن كل من يتكلم اللغة.
الأداء الكلامي ( الإنجاز ) Performance
هو ما يبلغه متكلم أو سامع معين عند مباشرته الفعلية للغة.
التوسيم الآلي Automatic tagging
ومن أهم برامج التوسيم الآلي التي تدعم اللغة العربية، برنامج (Arabic tagger)

يعمل مباشرة على النص العربي حيث بُني من تركيب تقنيات القواعد اللغوية والقواعد الإحصائية الرموز وهو عبارة عن 177 رمزا مبنية على توصيف النحو التقليدي للغة العربية؛ ولهذا فهي تنقسم لثلاثة أجزاء رئيسة الأسماء والأفعال والأدوات أما الظروف وحروف الجر فتعامل كجزء من الأجزاء الرئيسة. والرموز توضع على الكلمة كاملة أي الكلمة بزوائدها تم عمل مجزئ للكلمة مبني على مرمز صرفي ومرمز إحصائي. وظيفة المجزئ هي رفع الزوائد وتحديد جذر الكلمة ويتم هذا في مرحلة أخري. وبما أن الباب النحوي للكلمة يحَدَد من خلال الزوائد فإن الرموز تحدد من خلال المجزئ. وقد ثبتت دقته بنسبة 97% باستخدام قاموس يحوي 4,748 جذر ثلاثي ورباعي. أما بالنسبة للكلمات اللبسية فعولجت عن طريق الإحصاء وقد عومل عن طريق الاحتمالات المعجمية والاحتمالات السياقية. وقد نجح المرمز الإحصائي في فك اللبس بمعدل 90%. ولرفع مستوى الدقة استخدم ترميز يدوي. كما احتاج لعمليات معالجة قبلية للمركبات فوصل المستوى العام للدقة 86%.

فن صناعة المعاجم ( المعجمية التطبيقية ) Lexicography
وهو الفرع التطبيقي لعلم المعاجم Lexicology ويدرس فن صناعة المعجم وتأليفه ؛ من حيث طرق ترتيب المفردات ، واختيار المداخل ، وإعداد التعريفات والشروح للكلمات داخل المعجم ، والصور والنماذج المصاحبة للشروح ، وغير ذلك من العمليات الفنية حتى يتم إخراج المعجم في صورته النهائية.

تساعد المدونات اللغوية على معرفة معلومات غاية في الأهمية لبناء المعجم وهى متابعة الكلمات الجديدة التي تدخل اللغة وتحديد وقت دخولها، ومعرفة الكلمات الموجودة بالفعل التي اكتسبت معنى جديدا، ونجد أن أغلب قواميس ومعاجم اللغة الإنجليزية تحتوى على تواريخ مفصلة لكل كلمة وأصلها اللغوي ومتى تم نحتها أو استخدامها لأول مرة، وبمساعدة المدونات الإلكترونية يستطيع خبراء صناعة المعاجم البحث في ملايين الجمل والسياقات المختلفة واستدعاء جميع الأمثلة لكلمة معينة لمعرفة استخداماتها والألفاظ التي ترد عادة قبلها أو بعدها من أجل تحديد التعبيرات الاصطلاحية والمتتاليات اللغوية، الأمر الذي يسهل تعلم اللغة على الأجانب

عِلْمُ المعَاجِمِ النّظَرِيّ Lexicology
وهو يدرسُ ويحلِّلُ الدلالة المعجمية للكلمات؛ من حيث طبيعتها ومكوناتها وتطورها وتغيرها، ولذلك فهو يتداخل أحيانا مع علم الدلالة لاشتراكهما في بعض الموضوعات ، ولكنه أضيق مجالا من علم الدلالة إذ لا يهتم علم المعاجم بوضع النظريات الدلالية ، وإنما يكتفي بدراسة دلالة الكلمات وأنواع الدلالة وما يتصل بذلك
علم المصطلح Terminology
العِلم الذي يبحث في العلاقة بين المفاهيم العلميّة والألفاظ اللغوية التي تعبّر عنها
تحليل الخطاب Discourse Analysis
يهدف تحليل الخطاب إلى فك شفرة النص بالتعرف على ما وراءه من افتراضات أو ميول فكرية أو مفاهيم؛ فتحليل الخطاب عبارة عن محاولة للتعرف على الرسائل التي يود النص أن يرسلها، ويضعها في سياقها التاريخي والاجتماعي، وهو يضمر في داخله هدف أو أكثر، وله مرجعية أو مرجعيات وله مصادر يشتق منها مواقفه وتوجهاته.
تحليل النصوص Text Analysis
لا يختلف عن تحليل الخطاب، ولكن هناك من يجعله موجها للغة المكتوبة
تحليل كمي ( إحصائي ) آلي  
الإحصاء اللغوي الذي يتم على المدونات يمكن أن يثري معالجة اللغات الطبيعية ومن بعض إسهاماته:

1- المستوى الصرفي:

 – التحليل والتوليد الصرفي الآلي.

 –  تصحيح الأخطاء الإملائية الناتجة عن الصرف. 

2- المستوى النحوي:

– التحليل النحوي وتفكيك الجملة لعناصرها النحوية الأولية “مبتدأ، خبر، فعل، فاعل

– التشكيل الآلي للنصوص.

– تعليم النحو للصغار ولغير الناطقين بالعربية باستخدام الحاسوب.

3- المستوى الدلالي:

– الترجمة الآلية.

– الفهم الآلي للنصوص.

– دراسة الترابط النصي في النصوص الحديثة.

– تحديد المفردات الأكثر شيوعًا.

– تحديد المترادفات الأكثر شيوعًا، وكذلك الأضداد والمتضادات، وجميع الظواهر اللغوية الأخرى.

– تحديد الأخطاء اللغوية الشائعة في الكتابات المعاصرة.

تحليل نوعي  
محاولة تفسير الظاهرة اللغوية، مثل تفسير الباحث لشيوع نوع معين من الكلمات أو التراكيب في جنس معين من النصوص، ومثل تفسير ظاهرة استخدام المبني للمجهول في اللغة العلمية أكثر من غيرها
عِلْمُ النّحْوِ أو عِلْمُ النّظْم Syntax
ويدرس أحكام وقوانين نظم الكلمات داخل الجمل والعبارات ، وأنواع الجمل والعلاقات النحوية التي تربط بين مكونات الجمل ، وهو جزءٌ من علم القواعد Grammar الذي يشمل هذا العلم بالإضافة إلى علمِ الصرف

يمكن الاستفادة من المدونات في دراسة الملامح الصرفية والبحث عن السوابق واللواحق المعينة التي تدخل على الكلمة فكلمة (علم) تتعدد معانيها بإضافة سوابق أو لواحق مختلفة لتصبح (علمية، علمتنا، علماء، تعليم، علوم)، بجانب تحديد توزيع الكلمة وموقعها في الجملة، وهل تأتى قبل الاسم أم بعد الاسم، وقبل الصفة أم بعد الصفة

عِلْمُ الدّلالة Semantics
يدرس الطبيعة الرمزية للغة ، ويحلل الدلالة من حيث علاقتها بالبنية اللغوية ، وتطور الدلالة وتنوعها ، والعلاقات الدلالية بين الكلمات ، والحالات الدلالية وغير ذلك

في السنوات الأخيرة، ظهر اتجاه جديد يعتمد على استخلاص معنى الكلمة من المدونات اللغوية، وتتنوع المعلومات الدلالية بين الترادف والتضاد إلى علاقات أكثر تعقيدا، ويمكن استخلاص هذه المعلومات بسهولة من المدونات اللغوية، وينبغي التنبيه، أنه يشترط لاستخراج هذه المعلومات أن تكون المدونات شاملة وكاملة بقدر المستطاع، حتى لا يتسرب معنى أو استخدام لا توجد أمثلة له في المدونة.

عِلْمُ اللّغةِ التّعْلِيْمِيُّ Pedagogical Linguistics
ويهتم هذا العلم بالطرق والوسائل التي تساعد على تعليم اللغة الأم أو اللغات الأخرى التي يتعلمها الطلاب في المدارس ، بالاستفادة من نتائج علم اللغة ؛ الصوتية والصرفية والنحوية والدلالية ، كما يعد البرامج والخطط التي تؤهل معلم اللغة للقيام بواجبه على الوجه الأكمل سواء بنفسه أو بمساعدة المعامل اللغوية.

ويمكننا الإفادة من المدونات اللغوية في تحسين تعليم اللغات الأجنبية؛ فنقوم بتحليل مدى تكرار وشيوع الكلمات ومعرفة تأثير السياق أو الموقف على أسلوب اللغة وهى معلومات مفيدة للغاية في وضع مناهج تعليم اللغة العربية سواء للطلاب الأجانب أو العرب أنفسهم. أيضا باستخدام المدونات اللغوية، يستطيع واضع المراجع والمواد إنشاء تمرينات تعتمد على أمثلة حقيقية تقدم للطلاب فرصة اكتشاف خصائص استخدام اللغة. وبدلا من الاعتماد على البحث في معاجم تقليدية قديمة، يستطيع الطلاب البحث بأنفسهم في برامج المدونات اللغوية من خلال برنامج بحث وإحصاء لغوى متخصص (concordance) ويكتشفون بأنفسهم استخدامات اللغة وقواعدها وخصائصها، ويشجع ذلك على استقلال الطلاب في التوصل إلى نتائج جديدة بدلا من تعليمهم نتائج متوقعة أو معروفة مسبقا.

عِلْمُ اللّغةِ الاجْتِمَاعيُّ Sociolinguistics
يدرس عِلْمُ اللّغةِ الاجْتِمَاعيُّ اللهجات الاجتماعية أو الطبقية في كل مجتمع لغوي من حيث خصائصها الصوتية والصرفية والنحوية والدلالية ، وتوزيعها داخل هذا المجتمع ودلالتها على المستويات الاجتماعية المختلفة ، أي يدرس اللغة على المستوى الرأسي ، كما يدرس أيضا مشاكل الازدواج اللغوي مثل الفصحى والعامية وبصورة عامة يدرس التأثير المتبادل بين اللغة والمجتمع.

وفى عِلْمُ اللّغةِ الاجْتِمَاعيُّ، ينصب التركيز على تأثير العمر والنوع والطبقة الاجتماعية والمهنة في استخدام الأفراد للغة، ولا يمكن دراسة ذلك بشكل سريع ودقيق إلا في المدونات اللغوية التي تفيد أيضا في دراسة الأسلوب وتأثره بالمقام أو مقتضى الحال، فالكتابات الأدبية تختلف عن الكتابات السياسية، والكتابات التعليمية تختلف عن المحادثات العادية، وهكذا، وفى كل الأحوال، ينبغي أن تتسم المدونات اللغوية بالشمول، حتى تكون النتائج التي يتم استخلاصها من الدراسة دقيقة وواقعية.

المقاميات ( التداولية ) Pragmatics
فرع من علم اللغة يبحث في كيفية اكتشاف السامع مقاصد المتكلم أو هو دراسة معنى المتكلم؛ فمثلاً حين يقول شخص: أنا عطشان (فقد يعني أريد كوب ماء) وليس من الضروري أن يكون إخباراً بأنه عطشان. ومن هنا فالمتكلم كثيراً ما يعني أكثر مما تقوله كلماته.
التنقيب فى النصوص  
يقصد به عملية استخلاص معلومات عالية الجودة من النصوص، وتستمد المعلومات عالية الجودة من تقسيم الأنماط والاتجاهات من خلال وسائل مثل التعلم الإحصائي للأنماط. وتتضمن عملية التنقيب في النصوص هيكلة النصوص المدخلة من خلال الإعراب (الفك إلى الوحدات اللغوية) مع إضافة مزايا لغوية مشتقة وإزالة مزايا أخرى والإدخال التالي في قاعدة البيانات واشتقاق الأنماط داخل البيانات المهيكلة وفى النهاية تقييم وتفسير المخرجات. تتضمن مهام التنقيب في النصوص تصنيف النصوص وعنقدتها واستخراج المفاهيم والهويات وإنتاج التصنيفات المتدرجة وغيرها. وتستخدم تقنيات التنقيب في النصوص في تطبيقات الحماية والرعاية الطبية والبرمجيات والتطبيقات وتحسين نتائج البحث وأغراض التسويق والتطبيقات الأكاديمية.
   
يعتبر هذا التطبيق من التطبيقات المنتمية استرجاع المعلومات، حيث يفترض بالحاسب أن يستطيع الإجابة على أى أسئلة باللغة العادية من خلال البحث فى مجموعة ضخمة من المستندات والوثائق مثل شبكة الويب العالمية، وتتطلب الإجابة على الأسئلة وسائل معالجة آلية متقدمة للغات مثل استرجاع المستندات، ويعتبرها الكثيرون المرحلة التالية بعد محركات البحث، حيث تقوم بطرح سؤال عادى عن شىء معين، وينبغى على الحاسب أو محرك البحث أن يعرض لك الإجابة فقط أو المستندات التى تحوى الإجابة فقط، وبعض الخبراء يقولون إن الإجابة على الأسئلة لن تكون ممكنة إلا بعد تطوير الويب الدلالية خلال السنوات الخمس أو العشر المقبلة، وحتى الآن ما زالت الإجابة على الأسئلة المنطوقة شكل من أشكال الخيال العلمى حيث يسأل الكابتن السفينة الفضائية عن أى شيء وتجيبه بصوت أنثوى رصين
المترادفات  
تحوى اللغة كلمات عديدة تُعد مترادفات لبعضها البعض، ومن خلال المدونة اللغوية يستطيع الباحث بسهولة معرفة مترادفات الكلمة ومعدل شيوعها.
الشيوع  
تساهم المدونات اللغوية في معرفة أكثر الكلمات شيوعا في اللغة العربية على المستويين المنطوق والمكتوب، وذلك من أجل تعليم هذه الكلمات للأجانب وحتى يتمكنوا من فهم المعاجم العربية، ومما لا شك فيه أن معرفة مستوى شيوع كلمة ما يدل على أهميتها في كل اللغة المكتوبة أو المنطوقة، وبالتالي ترشد المتعلم إلى معرفة مدى ضرورة تعلمها أو إغفالها من عدمه.

 

0 Reviews

Write a Review

مقالات ذات صلة

زر الذهاب إلى الأعلى