دار الفكر

آفاق معرفة متجددة

ورشة إثراء المحتوى الرقمي العربي

الأربعاء, October 20, 2010
كاتب المقالة: 

 ركزت ورشة العمل إثراء المحتوى الرقمي العربي التي يقيمها المعهد العالي للعلوم التطبيقية والتكنولوجيا في جلستها الصباحية على موضوع الأنتولوجيا العربية.

 

دمشق-سانا

 

ركزت ورشة العمل إثراء المحتوى الرقمي العربي التي يقيمها المعهد العالي للعلوم التطبيقية والتكنولوجيا في جلستها الصباحية على موضوع الأنتولوجيا العربية.

 

وقدم الدكتور عبد المجيد بن حمادو مدير مختبر البحث ميراكل في جامعة صفاقس التونسية عرضا حول واقع الشبكات الدلالية والانتولوجيات العربية وافاقها مشيرا إلى ان بناء شبكات دلالية وانتولوجيات عربية يمثل مساهمة مهمة في مجهود اثراء المحتوى العربي ويعد تحديا لغويا كبيرا ووسيلة ضرورية للاستغلال الامثل للمحتوى العربي الواب الدلالي .

 

وأوضح ان البناء اليدوي للشبكات الدلالية باهظ الثمن ويستغرق وقتا كبيرا الامر الذي يتطلب ضرورة اللجوء إلى وسائل آلية أو شبه آلية لأن أغلب المنهجيات تعتمد على التعلم الآلي من النصوص.

 

بدوره قدم المهندس فاضل الحسن من المعهد العالي للعلوم التطبيقية عرضا حول نواة نظام تعلم الأنتولوجي من النصوص العربية تحدث خلاله عن الوب التقليدي والدلالي وبنيته.

 

واشار إلى العلاقات بين المفاهيم حيث صنفها بعلاقة الجزء بالكل وعلاقة السببية والعلاقات الناتجة عن الأفعال مؤكدا ضرورة اقتراح آليات بديلة لتجنب استخدام التحليل النحوي والقيام باختبار عملي لمعظم مراحل تعلم الأنتولوجي وبطرائق مختلفة وتحليل نتائج اختبار كل طريقة وتحديد أسباب الخلل أو النقص واقتراح الحلول المستقبلية ووضع خطة عمل لبناء أي تطبيق واب دلالي في اللغة العربية.

 

وعرض الحسن التحديات والرؤى المستقبلية في هذا المجال موضحا ان التحديات اللغوية البحثية تكمن في تحديد النماذج اللغوية الدلالية للغة العربية ووضع التصنيفات اللغوية المختلفة للأسماء والأفعال واجراء دراسات إحصائية لمختلف المكونات الدلالية لتحديد خصائصها في حين راى ان التحديات اللغوية التطبيقية تتمثل في التحليل النحوي ووجود محتوى لغوي كافي لاختبار هذه التطبيقات واستخدامها.

 

كما تحدث المهندس عماد قرحيلي من المعهد العالي للعلوم التطبيقية عن بناء نواة لشبكة الأطر الدلالية للغة العربية مشيرا إلى ان معالجة المحتوى العربي تتطلب عمليات وآليات متعددة على جميع مستويات التحليل من صرف ونحو ودلالة وأن علوم معالجة اللغة العربية توجه نحو المستوى الدلالي بشكل واضح بعد النجاح الذي تحققه في المستويات الأولى.

 

ولفت قرحيلي إلى ان الشبكات الدلالية تهتم بالمعنى والأنتولوجيات وشبكة الكلمات والأطر الدلالية موضحا ان ما انجز بهذا الصدد في اللغة العربية هو محاولة أولية لبناء شبكة دلالية وان المسالة المطروحة هي بناء نواة لشبكة أطر دلالية خاصة باللغة العربية وإيجاد النطاق الدلالي لمفهوم ما في اللغة العربية واكتشاف الخواص والعلاقات التي تربط إطارا ما بالاطر الأخرى.

 

واوضح ان خدمات شبكة الاطر الدلالية توفر عمليات لإدارة الشبكة من إضافة وحذف وتعديل وتزويد الشبكة بمحرّك بحث عام وتوسيع عمليات البحث وزيادة فعاليّتها عبر الربط مع المحلل الصرفي بالبحث عن مشتقات الكلمات وجذور الأفعال وإتاحة وضع قيود على الوحدات المعجمية بالتكامل مع شبكة الكلمات.

 

من جهته أشار الدكتور مراد عباس الاستاذ في مركز البحث العلمي والتقني لترقية اللغة العربية في الجزائر في عرضه حول التعرف على مواضيع النصوص العربية باستعمال المدونة وطن 2004 إلى نتائج التجارب التي قام وزملاؤه بها في مجال التعرف على مواضيع النصوص العربية مبينا وجوب توفر مجموعة كبيرة من النصوص التي تتطلب استعمال الخوارزميات من اجل الحصول على نتائج احصائية ذات مصداقية .

 

وبين ان إنجاز هذا العمل تطلب تحضير مدونة للنصوص العربية موجهة أساسا للبحث في ميدان تصنيف النصوص احتوى حوالي 9000 مقال أي ما يعادل تقريبا 10 ملايين كلمة مع إزالة حروف الجر وظروف المكان والزمان وغيرها ومن ثم تم حساب تواتر جميع كلمات المدونة ومعطيات أخرى وكانت النتائج واعدة بالمقارنة مع لغات أخرى كالفرنسية مشيرا إلى أن هذه النتائج التي تحققت باستعمال مدونة وطن 2004 تحتم ضرورة إنشاء مدونة موحدة تستعمل من طرف مجمل الباحثين حتى تكون النتائج ذات مصداقية.

 

من جهتها قدمت الدكتورة نوال الحلوة الاستاذة في جامعة الأميرة نورة بنت عبد الرحمن بالرياض عرضا حول نموذج حاسوبي مقترح لاستخدام تقنيات الويب الدلالية في تمثيل علاقتي التضمين والتقابل الدلالي وقالت ان اللغة هي مشروع ثقافي تنموي لا يمكن بناؤه بلسان الآخرين لذلك تحرص أكثر الدول تقدماً على وجود سياسات لغوية وبرامج تقنية قادرة على صقل اللغة وصيانتها ونشرها رقمياً ما يؤهلها لريادة الامر الذي يستدعي تقليل الهوة بين اللغويين والحاسوبيين .

 

وعرض الدكتور كريم بوزوبع الاستاذ في المدرسة المحمدية للمهندسين في مدينة الرباط المغربية استخدام الشبكة الكلامية العربية وسبل اثرائها والتجربة التي قدمها في هذا المجال مشيرا إلى ان عرضه يهدف إلى اقامة شبكة كلامية عربية واسعة في البناء والمضمون.

 

وأشار إلى ان الشبكة الكلامية العربية تتكون من أسماء وصفات وافعال وظروف وقواعد نحوية مختلفة مبينا ان للشبكة استخدامات عدة في الانظمة المعلوماتية من ضمنها الحس الكلامي والإيضاح والتصنيف والتلخيص الالي للنص وغيرها.

 

التجارب العربية والدولية في التحليل النحوي

 

وتناولت الجلسة الثانية موضوع التحليل النحوي والتجارب العربية والدولية في هذا المجال حيث وقدم الدكتور فتحي الدبيلي مدير البحوث بالمركز القومي للبحث العلمي في باريس عرضا حول التحليل الصرفي للغة العربية في حين تحدث المهندس رياض سنبل من المعهد العالي للعلوم التطبيقية والتكنولوجيا من سورية عن محدد أنماط الكلمات والمحلل النحوي للغة العربية وفق منهجيات التعلم التلقائي.

 

كما تحدث الدكتور التشيكي اوتاكار سميرز من شركة أي بي ام العالمية للبرمجيات عن الذخيرة اللغوية المستخدمة بالقواعد النحوية.

 

التشكيل الآلي باعتماد المحلل النحوي والمحلل الصرفي والتدقيق الإملائي لنصوص اللغة العربية

 

وتناولت الجلسة الثالثة موضوع التشكيل الآلي والتدقيق الإملائي.

 

وتحدث الدكتور رمزي عباس مؤسس الشركة المتوسطية للغة والمعلوماتية عن خطوات التشكيل الآلي باعتماد المحلل النحوي والمحلل الصرفي وذلك من خلال الكلمة وسوابقها ولواحقها إضافة إلى الاعتماد على المحلل الدلالي والإحصاء في التشكيل الآلي.

 

وقال إن معظم النصوص العربية لا تحتوي على تشكيل الأمر الذي يفرض معاينات إضافية قبل بدء إدراج اللغة العربية في برامج النطق الآلي ومحركات البحث وغيرها من التطبيقات اللغوية الحديثة مبينا أن التشكيل يعد أصعب المسائل اللغوية وأكثرها تعقيدا ما يتطلب وضع برنامج للتحليل اللغوي لإبراز مدى فعالية التشكيل الآلي للأحرف العربية.

 

وأضاف عباس أن التشكيل يتطلب قوائم معجمية للكلمة والتعرف على شكلها القاموسي وقواعد بيانات معجمية وخوارزميات لتفكيكها والتعرف على نواتها من سوابق ولواحق لافتا إلى أن وضع تشكيل آخر يحتاج إلى إدراج قواعد لغوية للتعرف على المكانة الإعرابية للكلمة.

 

بدوره تحدث المهندس وليد حسن من المعهد العالي للعلوم التطبيقية والتكنولوجيا عن مشروع التدقيق الإملائي لنصوص اللغة العربية وأهمية المجال الذي يعالجه في مواكبة اللغة العربية للتطور التقني وأهمية المحتوى العلمي للنصوص الموجودة على الانترنت والحاجة إلى نظم التدقيق في البرامج المكتبية.

 

وأوضح حسن أن مراحل معالجة اللغات الطبيعية تتمثل بالتحليل المقامي والدلالي والتحليل النحوي والتحليل الصرفي المنقسم إلى طرق طبيعية وأخرى إحصائية لافتا إلى أن نظام التدقيق الإملائي يتوزع على ثلاث طبقات أولها اكتشاف الخطأ وتصحيحه وترتيب البدائل.

 

من جانبه تحدث عز الدين المزروعي أستاذ في كلية العلوم بجامعة محمد الأول المغربية عن المقاربات الصرفية الإحصائية للتشكيل الآلي مبينا أن غياب علامات التشكيل في مجال المعالجة الآلية للغة العربية يتسبب في معضلة كبيرة لمجموعة من البرمجيات المعاصرة التي تهتم بمجالات التركيب والدلالة والنطق الآلي لذلك نشأت الحاجة الملحة لإنجاز برامج تقوم بعملية التشكيل الآلي للنصوص العربية.

 

وأشار المزروعي إلى ظهور العديد من البرمجيات المتعلقة بالتشكيل الآلي في السنوات الأخيرة من قبل شركات عالمية لافتا إلى المقاربات الثلاث التي قامت بها مدينة الملك عبد العزيز للعلوم التطبيقية مع عدد من الجهات المختصة اعتمدت الأولى على نموذج ماركوف الخفي والثانية على خوارزمية فيتربي والثالثة اعتمدت عملية إحصائية معينة.

 

وبين أن المشكل الآلي الذي تم تطويره بالتعاون بين جامعة محمد الأول في المغرب والمنظمة العربية للتربية والثقافة والعلوم ومدينة الملك عبد العزيز للعلوم والتقنية يقوم بتقطيع الكلمة إلى لبناتها الصرفية الأساسية من سابق وجذع ولاحق لتحديد مجموعة من المعلومات الصرفية المحتملة للكلمة موضحا أن المشكل الآلي يعتمد في المرحلة الثانية على نماذج ماركوف الخفية وخوارزمية فيتربي من أجل تحديد التشكيل الصحيح للكلمات داخل الجملة.

 

وتطرقت الدكتورة تغريد السيد عنبر من جامعة عين شمس بمصر إلى كيفية بناء مدقق مفردات ملائم للغة العربية مبينة أن مصطلح المدققات الإملائية يطلق على نوعية من البرمجيات تختص بالتعامل الآلي مع الكلمات المنفردة لمراجعة تلك الكلمات والتأكد من سلامتها اللغوية.

 

وقالت إن المدققات الإملائية تحظى في الوقت الحاضر بانتشار واسع حيث تعتبر مكونا مهما من مكونات معظم التطبيقات كما يعتمد حاليا معظم مستخدمي الحاسبات عليها اعتمادا كليا لتصحيح أخطاء الكلمات.

 

وأضافت أن معالجة اللغة العربية آليا عمل في غاية الصعوبة ومليء بالتحديات ومحفوف بكثير من المشاكل والقضايا كما لا يمكن تطوير أبسط التطبيقات في اللغة العربية دون معالجة آلية متعمقة حيث يعتبر المدقق الإملائي في معظم اللغات من أبسط وأسهل التطبيقات اللغوية أما في اللغة العربية فيتعذر بناء مدقق دون معالجة آلية شديدة التركيب.

 

وبينت أن منهجيات تطوير البرمجيات اللغوية الأوروبية لا تلائم اللغة العربية وان بناء تلك البرمجيات يتطلب دراسات نظرية مسبقة لطبيعة نظامها الصرفي وتكوين رؤية شاملة ومتكاملة حول هذا النظام من خلال أمهات كتب الصرف والنحو تلك مع الأخذ بالاعتبار طبيعة ونوعية متطلبات التطبيقات الجديدة التي لم تكن معروفة من قبل وعلى رأسها المعالجة اللغوية الآلية.

 

من جانبه تحدث طه الزروقي عضو المدرسة الوطنية العليا للإعلام الآلي بالجزائر عن مشروع القاموس العربي للتدقيق الإملائي مفتوح المصدر.

 

ولفت إلى أن مشروع المدقق الإملائي مفتوح المصدر يدخل ضمن مشروع آيسبل الذي يهدف إلى توفير أدوات المعالجة الآلية للغة العربية في بيئة البرامج الحرة لتحسين دعم اللغة العربية في برامج التدقيق الإملائي المتداولة وبناء قاموس التدقيق الإملائي العربي الحر.

 

وقال الزروقي إنه تم تقسيم المشروع إلى مرحلتين الأولى بناء القاموس اللغوي باستعمال الخصائص المتوفرة في برنامج هانسبال وإضافة خاصية إغفال التشكيل في مرحلة أولى وقد انتهت هذه المرحلة بإصدار القاموس ونشره على الإنترنت والثانية تحسين آلية برنامج التدقيق وإضافة المزايا العربية وإعادة هيكلة القاموس وتجريده وإثرائه.

 

وبين أن المرحلة الأخيرة ستنتهي ببناء القاموس وهيكلته هيكلة مجردة مستقلة عن برنامج التدقيق الإملائي لتسهل صيانته وإثرائه وتقديم الأدوات المستخدمة في بناء القاموس وتوليد أجزاء منه وعمليات التحويل بين الصيغ المختلفة ودعم البرامج والتطبيقات التي تخدم التدقيق الإملائي كتصميم موقع خدمي.

المصدر: 
سانا
موضوع المقالة: 

إضافة تعليق

2 + 0 =
Solve this simple math problem and enter the result. E.g. for 1+3, enter 4.