اللغة العربية

Report
‫المؤتمر الدولي لعلوم وهندسة الحاسوب باللغة العربية‬
‫جامعة األمام محمد بن سعود األسالميه – الرياض – المملكة العربية السعوديه‬
‫‪ 30 – 28‬جمادي اآلخره ‪ 1432‬هـ ‪ 13 /‬مايو – يونيو ‪ 2011‬مـ‬
‫المعالجة اآللية للغة العربية‬
‫أستاذ دكتور‪ /‬خالد شعالن‬
‫محاضرة مستضافه‬
‫كليه الحاسبات والمعلومات – جامعه القاهره‬
‫(معار الي الجامعة البريطانيه في دبي)‬
[email protected]
[email protected]
‫‪1‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫اإلطــــــــــار العــــــــام‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪2‬‬
‫لماذا المعالجه اآلليه للغه؟‬
‫اللغه العربيه‪ :‬تاريخيا ‪ -‬استراتيجيا ‪ -‬ثقافيا ‪ -‬لغويا‬
‫مفهوم معالجه اللغه‬
‫الصعوبات والغايه من معالجة اللغة العربية‬
‫تصنيف المعرفه اللغوية‬
‫مناهج معالجه اللغات‬
‫مهام معالجة اللغة العربية‬
‫تطبيقات اللغة العربية‬
‫الخالصة‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫لماذا المعالجه اآلليه للغه؟ (‪)1‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪3‬‬
‫عصر ‪ ...‬المعلومات على اإلنترنت ‪ ...‬االتصاالت‬
‫االلكترونية ‪ ...‬شبكة ويب العالمية (شبكة االتصاالت‬
‫العالمية)‪.‬‬
‫التضخم المعلوماتي ‪ ...‬يتم إنشاء الماليين من الوثائق كل‬
‫دقيقة ‪ --‬من كيلو بايت ‪ >-‬ميجابيت –> جيجابيت ‪>-‬‬
‫تيرابابيت‪.‬‬
‫ديموقراطية المعلومات (مدونات – الشبكات اإلجتماعيه ‪)...‬‬
‫يتم ترميز المعلومات باللغة الطبيعية‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫لماذا المعالجه اآلليه للغه؟ (‪)2‬‬
‫• الحكومات والصناعة واألوساط األكاديمية واألفراد ‪ ...‬في‬
‫حاجه ماسه إلى أدوات لمعالجة المعلومات‬
‫• العولمة والتحول إلي تطبيقات متعددة اللغات‬
‫• استرجاع المعلومات واستخراج المعلومات أصبحت ذات‬
‫أهمية متزايدة ‪ ...‬استرجاع وثائق متعلقه واستخراج‬
‫معلومات منمقه‬
‫‪4‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫اللغه العربيه ‪ -‬تاريخيا‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪5‬‬
‫نالها الحد األدنى من تغيير اللغة على مر الزمن‬
‫في اتصال مع الدين األكثر نموا في العالم‬
‫أصبحت لغة العالم منذ الفتوحات العربية قبل ‪ 14‬قرنا‬
‫خارج منطقة الشرق األوسط‪ ،‬أصبحت لغات األقليات في كل‬
‫بلد تقريبا في العالم‬
‫وقد القت دائما احتياجات المتحدثين بها في أزمنة متغيرة‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫اللغة العربية ‪ -‬استراتيجيا‬
‫•‬
‫•‬
‫•‬
‫•‬
‫ال يمكن تجاهلها في هذا الزمان‪.‬‬
‫لغة من لديهم اكبر احتياطي للنفط في العالم‪.‬‬
‫لغة الدين األسرع نموا في العالم‪.‬‬
‫يتحدثها مجموعة متجانسة نسبيا من الشعوب والبلدان التي‬
‫لديها إمكانات مثيرة لإلعجاب‪.‬‬
‫‪6‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫اللغة العربية ‪ -‬ثقافيا (‪)1‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪7‬‬
‫ال ينفصل اتصالها مع اإلسالم‬
‫لغات تكتب بالحروف العربية (فارسي – أردو – باشتو ‪)...‬‬
‫أكثر من مليار مسلم في العالم العربي يستخدموها في صلواتهم‬
‫اليومية‬
‫ليس فقط وسيلة لالتصال‪ ،‬بل هي خاصة بكل عربي بغض النظر‬
‫عن الدين وظيفته أو خلفيته العرقية‬
‫وتحتوي جميع األمم والشعوب التي عاشت تحت راية اإلسالم‬
‫استيعاب الثقافات المحلية مع قبول الثقافات والشعوب األخرى‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫اللغة العربية ‪ -‬ثقافيا (‪)2‬‬
‫• أي مسيحي عربي أو يهودي لديه اكثر تقارب مع العرب‬
‫اآلخرين من المسيحيين أو اليهود من الثقافات األخرى‬
‫– ال إكراه في الدين ‪ -‬سورة البقرة ‪ -‬آية ‪256‬‬
‫– لكم دينكم ولي دين ‪ -‬سورة الكافرون ‪ -‬آية ‪6‬‬
‫• الثقافات العربية واإلسالمية تقدر التعلم‬
‫– اطلبوا العلم ولو في الصيـــــن‬
‫• وتقدر األتقان واألجاده‬
‫– إن هللا يحب إذا عمل أحدكم عمالً أن يتقنه‬
‫• العلماء الموهوبين العرب تم إعطاءهم منح مدي الحياة من‬
‫الخلفاء في العهد األموي والعباسي‪.‬‬
‫‪8‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫اللغة العربية ‪ -‬لغويا (‪)1‬‬
‫• لديها أكبر عدد من المتحدثين من بين اللغات السامية‬
‫واللغات األفرو آسيوية‬
‫• أهداف العظماء من النحويين العرب‬
‫– توحيد قواعد اللغة العربية‬
‫– توثيق المرجع النحوي‬
‫– شرح التالوة الصحيحة للقرآن الكريم‬
‫– ضمان التفسير الصحيح للقرآن‬
‫• إنما يخشى هللا من عباده العلماء‬
‫‪9‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫اللغة العربية ‪ -‬لغويا (‪)1‬‬
‫• األهداف الحاليه‬
‫– االستفادة من رؤى القواعد التقليدية للغة العربية واالعتراف‬
‫بنواحي قصورها‬
‫– توصيف قواعد لغة عصريه يمكن معالجتها بواسطه الحاسوب‬
‫والتي تتمشي من النظريات التقليدية‪.‬‬
‫– التعامل مع الغموض النحوي واإلشارة والتبعيات غير المحدوده‬
‫وإسقاط بعض الضمائر‪ ...‬الخ‪.‬‬
‫‪10‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫مفهوم معالجه اللغه‬
‫• دراسة أنظمة الكمبيوتر لفهم وتوليد اللغة الطبيعية‬
‫• دراسة علمية للغة من منظور حاسوبي‬
‫• تسمي أيضا َ ”اللسانيات الحاسوبيه“‬
‫‪11‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫لماذا يكون من الصعب معالجة اللغة الطبيعية؟‬
‫• اللغة الطبيعية غنية جدا في الشكل والبنية‬
‫• اللغة الطبيعية غامضة جدا‪.‬‬
‫‪12‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫لماذا يكون من الصعب معالجة اللغة العربية؟‬
‫• اللغة العربية عادة ما تكتب مع التشكيل االختياري‬
‫• ليس هناك مفهوم لحروف تدل علي أسماء األعالم‬
‫‪13‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫ماهي الغايه من معالجه اللغه العربيه؟‬
‫• تنفيذ نظام حاسوب آلي كامل لديه القدره علي فهم والتعبير‬
‫عن نفسه باللغة العربية‪.‬‬
‫• الحلم ‪ :‬حواسب او رجال آليين لديهم القدره علي التحدث معنا‬
‫كما في أفالم الخيال العلمي (حرب النجوم ‪ ،‬ستار تريك‪،‬‬
‫الخ الخ)‪ ،‬ومع ذلك فإننا ال نرى أي منها قوية أو فعالة حقا‬
‫في هذا القرن‪.‬‬
‫‪14‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫لما نكترث؟ (‪)1‬‬
‫• هل يمكن أن نقول للحاسوب ما نريد وهو يفهمنا؟‬
‫– استرجاع المعلومات‪ ،‬واإلجابة على األسئلة‪ ،‬ونظم حوار‪ ،‬الخ‪.‬‬
‫• هل يمكن أن تملي رسالة إلى جهاز الحاسوب‪ ،‬ثم يطبعها ‪ ،‬ثم‬
‫يحفظها كملف؟‬
‫– التعرف علي الكالم من النص‬
‫• عدم وجود الوقت الكافي لقراءة كتاب من ‪ 100‬صفحة‪ ،‬هل‬
‫يمكنك أن تطلب من الكمبيوتر تلخيصه لك وانتاج ملخص من‬
‫صفحة واحدة في بضع دقائق؟‬
‫– التلخيص اآللي‬
‫‪15‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫لما نكترث؟ (‪)2‬‬
‫• هل يمكنك أن تطلب من الحاسوب أن يترجم لك نص باللغة‬
‫اليابانية التي ال تتحدثها؟‬
‫– الترجمة اآللية‬
‫• هل يمكنك أن تطلب من الحاسوب الحصول على المشورة‬
‫القانونية بلغة عادية‪ ،‬وأن يعطى لك اإلجابة على الفور؟‬
‫– استخراج المعلومات ‪ ،‬تلخيص النص‪ ،‬توليد النص‬
‫• عندما تشعر بأنك لست على ما يرام هل لك أن تقول للحاسوب ما‬
‫هي األعراض ويمكنه تشخيص حالتك؟‬
‫– استخراج المعلومات ‪ ،‬تلخيص النص‪ ،‬توليد النص‪ ،‬اإلجابة‬
‫على األسئله‪ ،‬إدارة المعرفة‪.‬‬
‫• ‪...‬‬
‫‪16‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫نطاق اللغه‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫لغة فصحي ؛ لغة عربية عصرية ؛ لهجة عامية‬
‫مكتوبه (يدويا ؛ آليا – عربيه ؛ التينيه) ؛ منطوقه ؛ صورة‬
‫ُمشكله ؛ غير مشكلة‬
‫تفهم ؛ توليد‬
‫لغة أولي ؛ لغة أجنبية ثانيه‬
‫تعتمد علي الجذر ؛ الساق‬
‫‪17‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫تصنيف المعرفه اللغوية‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫الفونولوجيا ؛ علم األصوات الكالمية‬
‫مورفولوجيا ؛ علم الصرف‬
‫بناء الجملة ؛ النحو‬
‫دالالت ؛ المعاني‬
‫البراغماتية ؛ السياق‬
‫معالجه التصريف‬
‫‪18‬‬
‫معالجه الجمله‬
‫معالجه الدالله‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫معالجه السياق‬
‫الغموض أو األلتباس‬
‫• الغموض هو المشكلة األساسية في اللسانيات الحاسوبية‬
‫تحليل صرفي‬
‫‪19‬‬
‫تحليل نحوي‬
‫تحليل نحوي‬
‫تحليل نحوي‬
‫تحليل نحوي‬
‫تحليل نحوي‬
‫تحليل نحوي‬
‫تحليل نحوي‬
‫تحليل نحوي‬
‫تحليل نحوي‬
‫تحليل نحوي‬
‫تحليل نحوي‬
‫تحليل داللي‬
‫تحليل داللي‬
‫تحليل داللي‬
‫تحليل داللي‬
‫تحليل داللي‬
‫تحليل داللي‬
‫تحليل داللي‬
‫تحليل داللي‬
‫تحليل داللي‬
‫تحليل داللي‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫التعامل مع الغموض‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫‪.4‬‬
‫بإحكام التفاعل بين مستويات المعالجه‪ .‬بحيث أن المعارف‬
‫من المستويات األخرى يمكن أن تساعد في تحديد الخيارات‬
‫بين المستويات غامضة‪.‬‬
‫تركها لكي تحل في المستوي األعلي‪.‬‬
‫االعتماد علي النهج القائمة علي االحتمالية التخاذ الخيارات‬
‫األرجح‬
‫ال تفعل أي شيء‪ ،‬ربما ان المسألة ال تؤثر‪:‬‬
‫– سأرحل عندما تعلن المدرسه نتائج االمتحان‪.‬‬
‫– أعلنت المدرسه نتائج االمتحان‪.‬‬
‫‪20‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫بعض اشكال الغموض (‪)1‬‬
‫• اللفظة متجانسة‬
‫– أسم ‪ /‬فعل‪[ :‬كتب] ؛ [ذهب]‬
‫• تقسيم الكلمه‬
‫– أسم ‪ /‬حرف‪+‬أسم ‪[ :‬بعقوبه] ‪[ /‬ب][عقوبه] ؛ [وجد] ‪[ /‬و‪+‬جد]‬
‫• معني الكلمة‬
‫– يزور ‪ /‬يزوِّ ر ؛ أرض ‪ /‬أرض‬
‫• نحوي‬
‫– خطيب المسجد الجديد‪( .‬من‪/‬ما هو الجديد؟)‬
‫– أحب أمي أكثر من أبي‪( .‬من يحب من أكثر؟)‬
‫‪21‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫بعض اشكال الغموض (‪)2‬‬
‫• عطف‪:‬‬
‫– رأيت األبنية والكباري تحت التشييد‪( .‬كالهما أم الكباري فقط؟)‬
‫• عالقات األشاره للكلمات بضمائر‬
‫– قابل الصحفي الوزير الذي انتقده‪( .‬من انتقد من؟)‬
‫• حذف الضمير‬
‫– جاء األستاذ وانصرف [هو]‪.‬‬
‫‪22‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫مناهج معالجه اللغات‬
‫• المنهج القائم علي القواعد اللغويه‬
‫• المنهج القائم علي األحصاء (البيانات ؛ المتن)‬
‫‪23‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫المنهج القائم علي القواعد اللغويه‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪24‬‬
‫سرد صريح للمعرفة اللغوية‬
‫تتألف عادة من مجموعة من القواعد اللغوية والمصاغه يدويا‬
‫سهلة االختبار والتصحيح‬
‫تتطلب جهدا كبيرا ألكتساب القواعد من خبراء اللغة‬
‫التركيز على األمثلة وليس أنماط البيانات‬
‫كثيرا ما تفشل في الوصول إلى التغطية الكاملة للنطاق‬
‫وغالبا ما تفتقر الي التعامل مع المدخالت المشوشه‬
‫يمكن استخدامها في تشخيص والتعليق علي األخطاء‬
‫غالبا ماتكون بطيئه وقد ال تلبي االحتياجات إلي استجابه سريعه‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫المنهج القائم علي األحصاء‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪25‬‬
‫سرد ضمني للمعرفة اللغوية‬
‫وغالبا ما تستخدم األساليب اإلحصائية أو أساليب تعلم اآللة‬
‫تتطلب جهد بشري أقل‬
‫التحتاج لخبراء في اللغة‬
‫هي التي تعتمد على البيانات وتحتاج إلى مصادر بيانات على‬
‫نطاق واسع‬
‫تحقيق التغطية يتناسب طرديا مع ثراء مصدر البيانات‬
‫أكثر تكيفا مع المدخالت المنقوصه أو المشوشه (أنماط غير‬
‫متجانسه)‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫مهام معالجة اللغة العربية‬
‫• تبويب أقسام الكالم‬
‫• تصريف واشتقاق الكلمات‬
‫• بنيه الجمله‬
‫‪26‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫تبويب أقسام الكالم‬
‫•تحديد اقسام الكالم لكل كلمة أو مورفيم (وحده صرفيه)‬
‫•النمط يمكن أن يستخدم للتنبوء بالكلمات وكخطوه أوليه‬
‫في معالجه اللغة‬
‫•هناك توحيد ألقسام الكالم والمستخدمه في المتن‬
‫ال‬
‫‪27‬‬
‫‪Det‬‬
‫مرأة‬
‫‪NN‬‬
‫سوف ‪MD‬‬
‫تعطي‬
‫‪VB‬‬
‫أحمد‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫‪NNP‬‬
‫ال‬
‫‪Det‬‬
‫كتب‬
‫‪NNS‬‬
‫تصريف واشتقاق الكلمات‬
‫• الكلمه العربية غنية في البناء والمعني‬
‫• تصريف الكلمات واشتقاقها هو محور معالجه اللغة العربية‬
‫– تصريف متسلسل يعتمد علي سوابق ولواحق وساق الكلمة‪.‬‬
‫– اشتقاق يعتمد علي جذر ووزن الكلمة‪.‬‬
‫‪28‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫تصريف الكلمات‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪29‬‬
‫معني الكلمة = معني الساق ‪ +‬السمات‬
‫سمات األسم (عدد؛جنس؛تعريف؛ ‪)...‬‬
‫سمات الفعل (زمن؛معلوم‪/‬مجهول؛يدل علي الفاعل؛ ‪)...‬‬
‫وللمكتبات <=> و‪+‬ل‪+‬ال‪+‬مكتبة‪+‬ات‬
‫وسنقولها <=> و‪ +‬س‪ +‬ن‪ +‬قول ‪ +‬ها‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫اشتقاق الكلمات‬
‫• معني الكلمة = معني الجذر ‪ +‬معني الوزن‬
‫ك ت ب‬
‫‪k‬‬
‫? ا َِ ?‬
‫?‬
‫كاتب‬
‫‪ā‬‬
‫‪i‬‬
‫‪kātib‬‬
‫‪writer‬‬
‫‪30‬‬
‫‪t‬‬
‫• جذر‬
‫‪b‬‬
‫مَ ? ? و ?‬
‫‪ma‬‬
‫• وزن‬
‫‪ū‬‬
‫مكتوب‬
‫‪maktūb‬‬
‫‪written‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫• ساق‬
‫تصريف واشتقاق الكلمات الحاسوبي‬
‫• تمثيل يناسب معالجه الصرف‬
‫– سوابق ‪ +‬ساق ‪ +‬لواحق‬
‫• ولل‪+‬مكتب‪+‬ات <=> وللمكتبات‬
‫– ساق ‪ +‬سمات‬
‫• مكتبة [و‪+‬ل‪ >=< ]Plural+Def+‬وللمكتبات‬
‫– جذر ‪ +‬وزن ‪ +‬سمات‬
‫• كتب ‪ +‬مفعله (ة‪a3a21a‬م) ‪[ +‬و‪+‬ل‪ >=< ]Plural+Def+‬وللمكتبات‬
‫‪31‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫بعض المشكالت‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫تحليالت كثيرة‬
‫قد نحتاج لتشكيل الحروف‬
‫كلمات متعدده أو مركبه‬
‫كلمات ليس لها مفردات في العربية‬
‫معالجة الكلمات المعيوبه‬
‫– مدقق امالئي‬
‫– هجاء متساهل (”ـه“ ؛ ”ـة“)‬
‫• منع توليد الكلمات المعيوبه‬
‫– بـ ؛ كـ <ال تلي> فـ‬
‫• توليد األرقام حرفيا يتم وفقا لقواعد معقده‬
‫• بعض الحروف يتغير شكلها (همزه ؛ تاء ؛ ل‪+‬ال=للـ)‬
‫‪32‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫بنيه الجمله‬
‫• قواعد النحو‬
‫• <الجمله األسمية> ‪< ‬مبتدأ معرف> <خبر نكره >‬
‫– البنت مجتهدة‬
‫– البنت مجتهد ‪X‬‬
‫الولد مجتهد‬
‫الولد مجتهدة ‪X‬‬
‫• نحتاج التفاق في سمات العدد والجنس (‪ 3‬عدد ‪ 2 X‬جنس = ‪ 6‬قواعد)‬
‫مذكر‬
‫مؤنث‬
‫•‬
‫– مفرد‪ :‬البنت مجتهدة‬
‫– مثني‪ :‬البنتان مجتهدتان‬
‫– جمع‪ :‬البنات مجتهدات‬
‫الولد مجتهد‬
‫الولدان مجتهدان‬
‫األوالد مجتهدون‬
‫• <الجمله األسمية[عدد‪,‬جنس]> ‪< ‬مبتدأ معرف>[عدد‪,‬جنس] <خبر نكره >‬
‫‪33‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫[عدد‪,‬جنس]‬
‫شجره التحليل‪ :‬الطالبة مجتهدة‬
‫تمثيل يناسب تحليل الجمله الحاسوبي‬
‫الجمله األسمية‬
‫<مبتدأ‬
‫<معرف‬
‫معرف>[مفرد| مؤنث]‬
‫>[مفرد| مؤنث]‬
‫<أسم>[مفرد| مؤنث|معرف]‬
‫ال‪/‬طالب‪/‬ة‬
‫‪34‬‬
‫<خبر‬
‫نكره>[مفرد| مؤنث]‬
‫<أسم>[مفرد| مؤنث]‬
‫مجتهد‪/‬ة‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫بنوك شجره الجمله‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪35‬‬
‫يتم تحليل المتن بواسطة لغويين بحيث يتم ربط كل جملة بشجرة‬
‫تحليلها‬
‫تعريف ضمني لنحو اللغة التي تشملها‬
‫تستخدم مع المنهج االحصائي لمعاجة الجملة‬
‫تبني من متن مبوب بأقسام الكالم‬
‫أمثله‬
‫)‪• Penn Arabic Treebank (PATB‬‬
‫)‪• Prague Arabic Dependency Treebank (PADT‬‬
‫)‪• Columbia Arabic Treebank (CATiB‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
PATB ‫مثال من‬
(S (VP rafaDat ‫ضت‬
َ ‫َر َف‬
(NP-SBJ Al+suluTAtu ‫) السلطات‬
(S-NOM-OBJ
(VP manoHa ‫َم ْن َح‬
(NP-SBJ *)
(NP-DTV Al>amiyri ‫األَمير‬
AlhAribi ‫) الهارب‬
َ ‫َج‬
(NP-OBJ (NP jawAza ‫واز‬
(NP safarK ‫)) َس َفر‬
(ADJP dyblwmAsy~AF ً ‫))))) ديبلوماس ّيا‬
ً ‫جواز سفر ديبلوماسيا‬
َ
‫منح األمير الهارب‬
َ ‫رفضت السلطات‬
The authorities refused to give the escaping prince a diplomatic passport
‫بعض المشكالت‬
‫• أكثر من شجره تحليل‬
‫• معالجة الكلمات المعيوبه‬
‫– مدقق نحوي‬
‫– تحليل جزئي ‪ -‬تقطيع‬
‫• مراعاه ترتيب الكلمات عند توليد الجمله‬
‫• اتفاق السمات (جزئي؛كلي)‬
‫‪37‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫اتفاق السمات‬
‫األوالد زاروا خمس متاحف قديمة‬
‫‪The boys visited five old museums‬‬
‫األوالد‬
‫زاروا‬
‫فعل‪-‬فاعل‬
‫عدد؛جنس‬
‫‪38‬‬
‫‪38‬‬
‫خمس‬
‫متاحف‬
‫عدد‪-‬معدود‬
‫جنس‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫قديمة‬
‫صفة‪-‬موصوف‬
‫جنس‬
‫تطبيقات معالجة اللغة العربية‬
‫• استخراج المعلومات (التعرف علي كينونة األسم)‬
‫• الترجمه اآللية‬
‫‪39‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫استخراج المعلومات (التعرف علي كينونة األسم)‬
‫• يتضمن تحديد أسماء األعالم في النصوص‪ ،‬وتصنيفها إلى‬
‫مجموعة من الفئات المحددة مسبقا‬
‫–‬
‫–‬
‫–‬
‫–‬
‫أسماء األشخاص‬
‫المنظمات (الشركات والمؤسسات الحكومية واللجان‪ ،‬الخ)‬
‫مواقع (المدن والبلدان واألنهار‪ ،‬الخ)‬
‫التعبيرات عن التاريخ والوقت‬
‫• وهناك أنواع أخرى شائعة ‪ :‬المقاييس (في المئة‪،‬‬
‫والمال‪ ،‬الخ الوزن)‪ ،‬وعناوين البريد اإللكتروني ‪ ،‬وعناوين‬
‫الويب ‪،‬عناوين الشوارع‪ ،‬الخ‪.‬‬
‫• بعض الكيانات المجال محددة ‪ :‬أسماء األدوية والحاالت الطبية‪،‬‬
‫وأسماء السفن ‪ ،‬والمراجع الببليوغرافية الخ‪.‬‬
‫‪40‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫مثال‬
<?xml version="1.0" encoding="UTF-8"?>
<file language="ar">
…‫<وكانَالحاكمَالعسكريَالباكستانيَالجنرال‬person>‫<برويزَمشرف‬/person> 57
َ‫عاماًَاستعدَفيَغيرَمناسبةَإلىَتقليصَالقواتَالعسكريةَعلىالحدود‬
‫<مع‬location>‫<الهند‬/location> ‫فيَ وتوقيعَاتفاقيةَعدمَاعتداءَووقفَسباقَالتسلح‬
‫َغيرَأنَرفع‬،‫<المنطقة‬location>‫<الهند‬/location> ‫موازنة‬
</file>
<?xml version="1.0" encoding="UTF-8"?>
<file language="ar">
…and the Pakistani military governor general<person>Pervez
Musharraf</person> 57 years he got ready in other than an occasion to the
reduction of military forces on the border with <location>India</location>
And signing a non-aggression pact and stopping the arms race in the region,
however raising the budget in <location>India</location> …
</file>
‫صياغه قاعده للتعرف علي أسم شخص (‪)1‬‬
‫• مثال‪:‬‬
‫– الملك األردني عبد هللاَالثاني‬
‫• نريد تكوين قاعدة تتعرف علي أسم شخص يتألف من األسم‬
‫األول قد يليه أسم العائله على أساس نمط ارشادي يسبقه‪.‬‬
‫– أسم الشخص‪ :‬عبد هللاَ‬
‫– النمط األرشادي‪:‬‬
‫• عبارات التعظيم‪ :‬الملك‬
‫• النسب‪ :‬األردني‬
‫• عدد ترتيبي في نهايه بعض األسماء‪ :‬الثاني‬
‫‪42‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫صياغه قاعده للتعرف علي أسم شخص (‪)2‬‬
‫‪))?)+‬ي|ية(‪((honorfic+(location‬‬
‫)?)‪first_Name(last_Name)?+(number‬‬
‫• يمكن لهذه القاعدة (التعبير العادية) أن تعترف بـ‪:‬‬
‫– الملك عبد هللا‬
‫– الملك األردني عبد هللا‬
‫– الملك األردني عبد هللاَالثاني‬
‫– الملكة األردنية رانيا‬
‫–…‬
‫‪43‬‬
‫المنهج القائم علي األحصاء للتعرف علي كينونة األسم‬
‫•‬
‫•‬
‫•‬
‫•‬
‫ال تعتمد علي قواعد‬
‫المشكله هي تحديد النمط االكتر احتماليا للتعرف علي األسم‬
‫ليست بالضروره أن تكون مفهومه أو مبنيه علي قاعده‬
‫لغوية‪.‬‬
‫أمثله‬
‫– شجره القرارات‬
‫– نماذج ماركوف‬
‫– المكائن ذات الدعم االتجاهي‬
‫‪44‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫بعض المشكالت (‪)1‬‬
‫• ليس هناك حروف تدل علي أسماء األعالم‪ .‬لذا نستعين بنمط‬
‫ارشادي‪.‬‬
‫– الملك‬
‫– خادم الحرمين‬
‫• تحتاج لمعاجه صرفيه‪ .‬وعاصمتها ‪...‬‬
‫• تباين‪ :‬على سبيل المثال يس وياسين‪.‬‬
‫• عدم توحيد وعدم تناسق النص العربي المكتوب (األخطاء‬
‫المطبعية‪ ،‬والمتغيرات اإلمالئية)‬
‫– لوس انجليس ؛ لوس انجلوس ؛ لوس انجيلس ؛ لوس انجيليس‬
‫– اسيا ؛ آسيا‬
‫‪45‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫بعض المشكالت (‪)2‬‬
‫• الغموض‬
‫– ماجد الفطيم (شركة مقابل شخص)‬
‫– رجب‪ /‬شعبان‪ /‬رمضان (شخص مقابل الشهر)‬
‫– أحمد أباد (شخص مقابل الموقع)‬
‫– ‪( 1945‬تاريخ مقابل الوقت)‬
‫• عدم توافر متن يحتوي علي انماط كافيه ترجح احتماليه‬
‫التعرف علي أسماء األعالم‪.‬‬
‫‪46‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫الترجمه اآللية‬
‫• يمكن اإلشارة إلي الترجمة اآللية على أنها استخدام‬
‫الحواسيب ألتمتة بعض أو كل عملية ترجمة لنص ‪ /‬لخطاب من لغة إلى‬
‫أخرى‪.‬‬
‫• لماذا؟‬
‫–‬
‫–‬
‫–‬
‫–‬
‫–‬
‫–‬
‫–‬
‫‪47‬‬
‫توافر حاسبات ذات الطاقة الرخيصة‪.‬‬
‫غالء تكلفه المترجمين‪.‬‬
‫العولمة (اإلنترنت‪ ،‬والمفوضية األوروبية‪ ،‬والشركات المتعددة الجنسيات)‪.‬‬
‫هناك العديد من اللغات المختلفة ترجع اصولها إلي أزواج ذات الصلة‪.‬‬
‫ال تستلزم أن تكون أوتوماتيكية بالكامل أو ذات جودة عالية‪.‬‬
‫الترجمة الفقيره قد تمون مفيده للتعرف علي للمحتوى‪.‬‬
‫الترجمة الفقيره مع امكانيه تحريرها قد تكون الطريق الفعال لترجمة جيدة‪.‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫الترجمه اآللية‬
‫مناهج الترجمه‬
‫اآلليه‬
‫الترجمة القائمة‬
‫على المتن‬
‫الترجمة‬
‫اإلحصائية‬
‫‪48‬‬
‫الترجمة القائمة‬
‫على القواعد‬
‫الترجمة المباشرة‬
‫النقل‪ :‬الترجمة‬
‫من التحليل‬
‫النحوي‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫إنترلينغوا‪:‬‬
‫الترجمة من‬
‫المعني‬
‫مناهج الترجمة القائمة على القواعد‬
‫إنترلينغوا‪ :‬الترجمة من المعني‬
‫هيكل جمله الهدف‬
‫لغة الهدف‬
‫‪49‬‬
‫توليد‬
‫النقل‪ :‬الترجمة من التحليل النحوي هيكل جمله المصدر‬
‫الترجمة المباشرة‬
‫لغة المصدر‬
‫تحليل‬
‫مناهج الترجمة القائمة على القواعد‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪50‬‬
‫الترجمة المباشرة‪ :‬جملة المصدر تؤدي مباشرة إلى جملة الهدف‪.‬‬
‫تنطوي علي استخدام قاموس أو معجم‪.‬‬
‫النقل ‪ :‬تنطوي على معالجه تحليل جمله المصدر وتحويل شجره‬
‫الجمله إلي لغة الهدف ثم توليد جمله الهدف‪.‬‬
‫إنترلينغوا ‪ :‬ينطوي على تحليل عميق لمعني جمله المصدر ثم‬
‫توليد جمله الهدف‪.‬‬
‫الترجمة المباشرة تعتبر بدائيه ومن الجيل األول‬
‫الترجمه بالنقل تناسب أزواج من اللغات‬
‫الترجمة بالمعني إنترلينغوا تناسب الترجمه متعددة اللغات‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫مثال ترجمه بالنقل ‪:‬الطالبة مجتهدة <=>‬
‫‪The student is diligent‬‬
‫ء‬
‫الجمله األسمية‬
‫<مبتدأ‬
‫<معرف‬
‫معرف>[مفرد| مؤنث]‬
‫نكره>[مفرد| مؤنث]‬
‫>[مفرد| مؤنث]‬
‫<أسم>[مفرد| مؤنث|معرف]‬
‫ال‪/‬طالب‪/‬ة‬
‫‪51‬‬
‫<خبر‬
‫>‪<S‬‬
‫>‪<VP‬‬
‫>‪<NP‬‬
‫<أسم>[مفرد| مؤنث]‬
‫>‪<adj‬‬
‫مجتهد‪/‬ة‬
‫‪diligent‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫>‪<NP‬‬
‫>‪<V‬‬
‫>‪<N‬‬
‫]‪Student[sg] is[sg‬‬
‫>‪<Det‬‬
‫]‪the[def‬‬
‫بعض مشكالت الترجمه بالنقل‬
‫• تحتاج لعدد ن × (ن ‪ )1-‬نظام‬
‫– للترجمة بين العربي و األنجليزي والفرنسي نحتاج ‪ 6‬نظم‬
‫• التعتمد علي المعني‬
‫‪52‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫مثال مثال ترجمه باإلنترلينغوا‬
‫ أنا أرغب في حجز غرفة في الفندق‬:‫العميل‬
‫تحليل‬
Interlingua(IF)
c:introduce-topic+reservation+disposition+room (room-spec=(room,
specifier=hote,identifiability=yes),disposition=(desire,who=i))
‫توليد‬
Customer: I want to book a room at the hotel
ICCA11, RIYADH, SAUDI ARABIA
53
‫بعض مشكالت الترجمه باإلنترلينغوا‬
‫• إنترلينغوا ‪:‬‬
‫– نحتاج إلي لغة محايدة التمثيل‬
‫– تجسد المعنى المقصود من الجملة مصدر‬
‫• يتطلب بالكامل إزالة الغموض الناتج من المحلل النحوي‬
‫‪54‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫الترجمة اإلحصائية‬
‫• تستخدم نماذج الترجمة اإلحصائية احصاءات ناتجه‬
‫من تحليل المتن ثنائية اللغة ومتعدده اللغات المتوازيه‪.‬‬
‫• الجملة تتكون من كلمات كل منها له احتمال من داخل اللغة‬
‫واحتمال عند اقترانه بكلمه من لغة أخري‪.‬‬
‫• يحتاج إلي ثالث مكونات‪:‬‬
‫– نموذج اللغه‪ :‬يعطي احتماال أكبر للجملة الصحيحة‪.‬‬
‫– نموذج الترجمه‪ :‬يعطي احتمال أكبر للترجمة الصحيحة‬
‫– خوارزم الترجمه‪ :‬اذا أعطيت جملة جديده و نموذج اللغه و نموذج‬
‫الترجمه فأنه يعطي الجملة المترجمه األكثر احتماال للترجمه والصحه‬
‫• النماذج تبني (تدريب) من احصاءات تستخدم المتن المتوازي‬
‫‪55‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫عمليه الترجمة اإلحصائية‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫‪.4‬‬
‫‪.5‬‬
‫استخراج الكلمات من نص اللغة المصدر‬
‫كلمات لغة المصدر تطابق مع متن لغة المصدر نموذج الترجمه‬
‫توليد كلمات لغة الهدف‬
‫كلمات لغة الهدف تقارن مع نموذج اللغة (ن غرام)‬
‫توليد نص لغة الهدف‬
‫‪5‬‬
‫‪56‬‬
‫‪4‬‬
‫‪3‬‬
‫‪2‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫‪1‬‬
‫بعض مشكالت الترجمه اإلحصائية‬
‫• تعتمد علي المتن‬
‫– تغطيه‬
‫– توافر المتن‬
‫– حجم المتن‬
‫– تمثيل مناسب للكلمات والتعبيرات اللغويه‬
‫– ‪...‬‬
‫‪57‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫الخالصة (‪)1‬‬
‫• اللغة العربية هي اللغة األم لحوالي ‪ 300‬مليون نسمة‪.‬‬
‫• اللغة العربية غنيه وتحتاج إلي معالجات علي جميع‬
‫المستويات ‪ :‬الصرف والنحو‪ ،‬ومعاني الكلمات‪.‬‬
‫النتائج الجهود في مجال المعالجة اآللية للغة العربية في‬
‫جميع أنحاء العالم ليست مرضية‬
‫• هناك العديد من بحوث الجيده في مجال المعالجة اآللية للغة‬
‫العربية التي نحتاج لألنتفاع بها والتعاون مع فرق العمل بها‪.‬‬
‫‪58‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫الخالصة (‪)2‬‬
‫• نفتقر إلي األدوات والمصادر اللغويه األلكترونيه المتاحة للعوام‬
‫• نحتاج إلي ترجمة كثير من البحوث والكتب الثريه‬
‫• نحتاج إلي تدريب باحثين وكوادر قادره علي المنافسة والتغلب‬
‫علي التحديات ‪...‬‬
‫• نحن بحاجة إلى دعم كبير من المؤسسات والشركات‬
‫والمنظمات والحكومة وغيرها لألرتقاء بأبحاث معالجه العربية‬
‫‪59‬‬
‫‪ICCA11, RIYADH, SAUDI ARABIA‬‬
‫المراجع‬
‫• الموقع الخاص بي‬
– http://sites.google.com/site/khaledshaalan/public
ations
ICCA11, RIYADH, SAUDI ARABIA
60
‫شكرا‬
ICCA11, RIYADH, SAUDI ARABIA
61

similar documents