Your Cart
Loading

Consultant expert, Dr. Mohamed Taha Handling Arabic Morphological and Syntactic Ambiguity within the LFG Framework with a View to Machine Translation

On Sale
$0.00
$5.99
Added to cart
Consultant expert, Dr. Mohamed Taha
Handling Arabic Morphological and
Syntactic Ambiguity within the LFG
Framework with a View to Machine
Translation

Abstract
Handling Arabic Morphological and Syntactic Ambiguity within the
LFG Framework with a View to Machine Translation
A thesis submitted to the University of Manchester for the degree of
Doctor of Philosophy in the Faculty of Humanities

This research investigates different methodologies to manage the problem of
morphological and syntactic ambiguities in Arabic. We build an Arabic parser
using XLE (Xerox Linguistics Environment) which allows writing grammar
rules and notations that follow the LFG formalisms. We also formulate a
description of main syntactic structures in Arabic within the LFG framework.
When tested on short sentences randomly selected from a corpus of news
articles, our parser achieved 92% coverage after applying robustness techniques.
Morphological ambiguity in Arabic is a notorious problem due to the richness
and complexity of Arabic morphology. We show how an ambiguity-controlled
morphological analyzer is built in a rule-based system that takes the stem as the
base form using finite state technology. We point out sources of genuine and
spurious morphological ambiguities in Arabic and show how ambiguity in our
system is reduced without compromising precision. We conduct an evaluation
experiment that shows that our morphology outperforms both Buckwalter’s and
Xerox morphologies with regard to precision and avoidance of spurious
ambiguities.
Syntactic ambiguity is also a major problem for large-scale computational
grammars which cover a realistic and representative portion of a natural
language. We identify sources of syntactic ambiguities in Arabic, focusing on
four ambiguity-generating areas which have the greatest impact. These are the
pro-drop nature of the language, word order flexibility, lack of diacritics, and the
multifunctionality of Arabic nouns. We deal with ambiguity not as one big
problem, but rather as a number of divisible problems spreading over all levels
of the analysis: pre-parsing, parsing and post-parsing stages. The pre-parsing
stage contains all the processes that feed into the parser such as tokenization,
morphological analysis or POS tagging. The parsing phase covers the topics of
granularity of phrase structure rules, lexical specifications, application of
syntactic constraints, and domain specific adaptation. The post-parsing stage
controls the selection and ranking of these solutions. We show how applying
these techniques results in reducing parse time and keeping ambiguities within a
manageable boundary.
XLE includes a parser, transfer and generator components, which makes it
suitable for Machine Translation. We demonstrate the MT component in the
ParGram project by applying simple transfer rules, and point out what needs to
be done in order to produce a fully-fledged MT system.
الخبير الاستشاري الدكتور محمد طه
التعامل مع الصرفي و
الغموض النحوي داخل LFG
إطار مع نظرة على الآلة
ترجمة

خلاصة
التعامل مع الغموض الصرفي والنحوي في اللغة العربية
إطار عمل LFG مع عرض للترجمة الآلية
أطروحة مقدمة إلى جامعة مانشستر للحصول على درجة
دكتوراه الفلسفة في كلية العلوم الإنسانية

يبحث هذا البحث في منهجيات مختلفة لإدارة مشكلة
الغموض الصرفي والنحوي في اللغة العربية. نبني محلل عربي
باستخدام XLE (بيئة Xerox اللغوية) التي تسمح لكتابة القواعد
القواعد والترميزات التي تتبع شكليات LFG. نقوم أيضًا بصياغة ملف
وصف الهياكل النحوية الرئيسية في اللغة العربية ضمن إطار عمل LFG.
عند اختبارها على جمل قصيرة يتم اختيارها عشوائيًا من مجموعة من الأخبار
المقالات ، حقق محللنا تغطية بنسبة 92٪ بعد تطبيق تقنيات المتانة.
الغموض الصرفي في اللغة العربية مشكلة سيئة السمعة بسبب الثراء
وتعقيد التشكل العربي. نظهر كيف يتم التحكم في الغموض
تم بناء المحلل المورفولوجي في نظام قائم على القواعد يأخذ الجذع باعتباره
الشكل الأساسي باستخدام تقنية الحالة المحدودة. نشير إلى مصادر حقيقية و
غموض مورفولوجي زائف في اللغة العربية ويظهر مدى الغموض في بلدنا
يتم تقليل النظام دون المساس بالدقة. نقوم بإجراء تقييم
تجربة تُظهر أن التشكل لدينا يتفوق في الأداء على كل من Buckwalter و
أشكال Xerox فيما يتعلق بالدقة وتجنب الزيف
الغموض.
الغموض النحوي هو أيضًا مشكلة رئيسية للحسابات واسعة النطاق
القواعد النحوية التي تغطي جزءًا واقعيًا وتمثيليًا من الطبيعي
لغة. نحدد مصادر الغموض النحوي في اللغة العربية ، مع التركيز على
أربعة مجالات توليد الغموض والتي لها أكبر تأثير. هذه هي
الطبيعة المؤيدة لإسقاط اللغة ، ومرونة ترتيب الكلمات ، ونقص علامات التشكيل ، و
تعدد وظائف الأسماء العربية. نحن نتعامل مع الغموض وليس الغموض الكبير
المشكلة ، ولكن على شكل عدد من المشاكل القابلة للقسمة المنتشرة على جميع المستويات
من التحليل: قبل الاعراب ، الاعراب وما بعد الاعراب. قبل الاعراب
تحتوي المرحلة على جميع العمليات التي تغذي المحلل اللغوي مثل الترميز ،
التحليل الصرفي أو علامات نقاط البيع. مرحلة الاعراب تغطي مواضيع
تفصيل قواعد هيكل العبارة ، المواصفات المعجمية ، تطبيق
القيود النحوية ، والتكيف مع المجال المحدد. مرحلة ما بعد الاعراب
يتحكم في اختيار وترتيب هذه الحلول. نظهر كيفية التقديم
تؤدي هذه التقنيات إلى تقليل وقت التحليل والحفاظ على الغموض داخل
حدود يمكن التحكم فيها.
يتضمن XLE المحلل اللغوي ، ومكونات النقل والمولد ، مما يجعله
مناسب للترجمة الآلية. نعرض مكون MT في
مشروع ParGram من خلال تطبيق قواعد نقل بسيطة ، والإشارة إلى ما يلزم
من أجل إنتاج نظام ترجمة آلي متكامل.
You will get a PDF (3MB) file

Customer Reviews

There are no reviews yet.