Consultant expert, Dr. Mohamed Taha Improving Statistical Machine Translation with Linguistic Information
On Sale
$0.00
$5.99
Consultant expert, Dr. Mohamed Taha
Improving Statistical Machine Translation with
Linguistic Information
Abstract
Statistical machine translation (SMT) should benefit from linguistic information
to improve performance but current state-of-the-art models rely purely on data-driven
models.
There are several reasons why prior efforts to build linguistically annotated models
have failed or not even been attempted. Firstly, the practical implementation often
requires too much work to be cost effective. Where ad-hoc implementations have
been created, they impose too strict constraints to be of general use. Lastly, many
linguistically-motivated approaches are language dependent, tackling peculiarities in
certain languages that do not apply to other languages.
This thesis successfully integrates linguistic information about part-of-speech tags,
lemmas and phrase structure to improve MT quality.
The major contributions of this thesis are:
1. We enhance the phrase-based model to incorporate linguistic information as additional factors in the word representation. The factored phrase-based model
allows us to make use of different types of linguistic information in a systematic
way within the predefined framework. We show how this model improves translation by as much as 0.9 BLEU for small German-English training corpora, and
0.2 BLEU for larger corpora.
2. We extend the factored model to the factored template model to focus on improving reordering. We show that by generalising translation with part-of-speech
tags, we can improve performance by as much as 1.1 BLEU on a small FrenchEnglish system.
3. Finally, we switch from the phrase-based model to a syntax-based model with
the mixed syntax model. This allows us to transition from the word-level approaches using factors to multiword linguistic information such as syntactic labels and shallow tags. The mixed syntax model uses source language syntactic
information to inform translation. We show that the model is able to explain
translation better, leading to a 0.8 BLEU improvement over the baseline hierarchical phrase-based model for a small German-English task. Also, the model
requires only labels on continuous source spans, it is not dependent on a tree
structure, therefore, other types of syntactic information can be integrated into
the model. We experimented with a shallow parser and see a gain of 0.5 BLEU
for the same dataset. Training with more training data, we improve translation
by 0.6 BLEU (1.3 BLEU out-of-domain) over the hierarchical baseline.
iii
During the development of these three models, we discover that attempting to
rigidly model translation as linguistic transfer process results in degraded performance.
However, by combining the advantages of standard SMT models with linguisticallymotivated models, we are able to achieve better translation performance. Our work
shows the importance of balancing the specificity of linguistic information with the
robustness of simpler models.
الخبير الاستشاري الدكتور محمد طه
تحسين الترجمة الآلية الإحصائية باستخدام
المعلومات اللغوية
الملخص
يجب أن تستفيد الترجمة الآلية الإحصائية (SMT) من المعلومات اللغوية
لتحسين الأداء ولكن أحدث النماذج الحالية تعتمد فقط على البيانات المدفوعة
عارضات ازياء.
هناك عدة أسباب وراء الجهود السابقة لبناء نماذج مشروحة لغويًا
قد فشلت أو لم تتم محاولتها حتى. أولا ، التنفيذ العملي في كثير من الأحيان
يتطلب الكثير من العمل ليكون فعالا من حيث التكلفة. حيث التطبيقات المخصصة لها
تم إنشاؤها ، فإنها تفرض قيودًا صارمة للغاية بحيث لا يمكن استخدامها بشكل عام. أخيرًا ، كثير
تعتمد المناهج ذات الدوافع اللغوية على اللغة وتعالج الخصائص المميزة في
لغات معينة لا تنطبق على لغات أخرى.
تدمج هذه الأطروحة بنجاح المعلومات اللغوية حول علامات جزء من الكلام ،
lemmas وبنية العبارات لتحسين جودة الترجمة الآلية.
المساهمات الرئيسية لهذه الأطروحة هي:
1. نحن نعزز النموذج القائم على العبارة لدمج المعلومات اللغوية كعوامل إضافية في تمثيل الكلمة. النموذج القائم على العبارة المحسوبة
يسمح لنا بالاستفادة من أنواع مختلفة من المعلومات اللغوية بشكل منهجي
الطريق ضمن إطار العمل المحدد مسبقًا. نوضح كيف يعمل هذا النموذج على تحسين الترجمة بما يصل إلى 0.9 BLEU لمؤسسات التدريب الألمانية الإنجليزية الصغيرة ، و
0.2 BLEU للمؤسسات الأكبر.
2. نقوم بتوسيع النموذج المحلل إلى نموذج القالب المعامل للتركيز على تحسين إعادة الترتيب. نظهر ذلك من خلال تعميم الترجمة مع جزء من الكلام
العلامات ، يمكننا تحسين الأداء بما يصل إلى 1.1 BLEU على نظام إنجليزي فرنسي صغير.
3. أخيرًا ، ننتقل من النموذج المستند إلى العبارة إلى النموذج المعتمد على النحو باستخدام
نموذج التركيب المختلط. هذا يسمح لنا بالانتقال من أساليب ap على مستوى الكلمات باستخدام عوامل إلى معلومات لغوية متعددة الكلمات مثل التركيب النحوي والعلامات الضحلة. يستخدم النموذج النحوي المختلط لغة المصدر النحوية
معلومات لإبلاغ الترجمة. نظهر أن النموذج قادر على الشرح
الترجمة أفضل ، مما يؤدي إلى تحسن بمقدار 0.8 BLEU على النموذج الأساسي المستند إلى العبارات الأرشيفية لمهمة ألمانية-إنجليزية صغيرة. أيضا ، النموذج
يتطلب فقط تسميات على نطاقات مصدر مستمرة ، ولا يعتمد على شجرة
هيكل ، لذلك ، يمكن دمج أنواع أخرى من المعلومات النحوية في
الموديل. جربنا محللًا ضحلًا ورأينا مكسبًا قدره 0.5 BLEU
لمجموعة البيانات نفسها. التدريب مع المزيد من بيانات التدريب ، نقوم بتحسين الترجمة
بواسطة 0.6 BLEU (1.3 BLEU خارج المجال) على خط الأساس الهرمي.
ثالثا
أثناء تطوير هذه النماذج الثلاثة ، نكتشف أن محاولة ذلك
ترجمة نموذج صارم حيث تؤدي عملية النقل اللغوي إلى تدهور الأداء.
ومع ذلك ، من خلال الجمع بين مزايا نماذج SMT القياسية والنماذج ذات الدوافع اللغوية ، يمكننا تحقيق أداء ترجمة أفضل. عملنا
يوضح أهمية موازنة خصوصية المعلومات اللغوية مع
متانة النماذج الأبسط.
Improving Statistical Machine Translation with
Linguistic Information
Abstract
Statistical machine translation (SMT) should benefit from linguistic information
to improve performance but current state-of-the-art models rely purely on data-driven
models.
There are several reasons why prior efforts to build linguistically annotated models
have failed or not even been attempted. Firstly, the practical implementation often
requires too much work to be cost effective. Where ad-hoc implementations have
been created, they impose too strict constraints to be of general use. Lastly, many
linguistically-motivated approaches are language dependent, tackling peculiarities in
certain languages that do not apply to other languages.
This thesis successfully integrates linguistic information about part-of-speech tags,
lemmas and phrase structure to improve MT quality.
The major contributions of this thesis are:
1. We enhance the phrase-based model to incorporate linguistic information as additional factors in the word representation. The factored phrase-based model
allows us to make use of different types of linguistic information in a systematic
way within the predefined framework. We show how this model improves translation by as much as 0.9 BLEU for small German-English training corpora, and
0.2 BLEU for larger corpora.
2. We extend the factored model to the factored template model to focus on improving reordering. We show that by generalising translation with part-of-speech
tags, we can improve performance by as much as 1.1 BLEU on a small FrenchEnglish system.
3. Finally, we switch from the phrase-based model to a syntax-based model with
the mixed syntax model. This allows us to transition from the word-level approaches using factors to multiword linguistic information such as syntactic labels and shallow tags. The mixed syntax model uses source language syntactic
information to inform translation. We show that the model is able to explain
translation better, leading to a 0.8 BLEU improvement over the baseline hierarchical phrase-based model for a small German-English task. Also, the model
requires only labels on continuous source spans, it is not dependent on a tree
structure, therefore, other types of syntactic information can be integrated into
the model. We experimented with a shallow parser and see a gain of 0.5 BLEU
for the same dataset. Training with more training data, we improve translation
by 0.6 BLEU (1.3 BLEU out-of-domain) over the hierarchical baseline.
iii
During the development of these three models, we discover that attempting to
rigidly model translation as linguistic transfer process results in degraded performance.
However, by combining the advantages of standard SMT models with linguisticallymotivated models, we are able to achieve better translation performance. Our work
shows the importance of balancing the specificity of linguistic information with the
robustness of simpler models.
الخبير الاستشاري الدكتور محمد طه
تحسين الترجمة الآلية الإحصائية باستخدام
المعلومات اللغوية
الملخص
يجب أن تستفيد الترجمة الآلية الإحصائية (SMT) من المعلومات اللغوية
لتحسين الأداء ولكن أحدث النماذج الحالية تعتمد فقط على البيانات المدفوعة
عارضات ازياء.
هناك عدة أسباب وراء الجهود السابقة لبناء نماذج مشروحة لغويًا
قد فشلت أو لم تتم محاولتها حتى. أولا ، التنفيذ العملي في كثير من الأحيان
يتطلب الكثير من العمل ليكون فعالا من حيث التكلفة. حيث التطبيقات المخصصة لها
تم إنشاؤها ، فإنها تفرض قيودًا صارمة للغاية بحيث لا يمكن استخدامها بشكل عام. أخيرًا ، كثير
تعتمد المناهج ذات الدوافع اللغوية على اللغة وتعالج الخصائص المميزة في
لغات معينة لا تنطبق على لغات أخرى.
تدمج هذه الأطروحة بنجاح المعلومات اللغوية حول علامات جزء من الكلام ،
lemmas وبنية العبارات لتحسين جودة الترجمة الآلية.
المساهمات الرئيسية لهذه الأطروحة هي:
1. نحن نعزز النموذج القائم على العبارة لدمج المعلومات اللغوية كعوامل إضافية في تمثيل الكلمة. النموذج القائم على العبارة المحسوبة
يسمح لنا بالاستفادة من أنواع مختلفة من المعلومات اللغوية بشكل منهجي
الطريق ضمن إطار العمل المحدد مسبقًا. نوضح كيف يعمل هذا النموذج على تحسين الترجمة بما يصل إلى 0.9 BLEU لمؤسسات التدريب الألمانية الإنجليزية الصغيرة ، و
0.2 BLEU للمؤسسات الأكبر.
2. نقوم بتوسيع النموذج المحلل إلى نموذج القالب المعامل للتركيز على تحسين إعادة الترتيب. نظهر ذلك من خلال تعميم الترجمة مع جزء من الكلام
العلامات ، يمكننا تحسين الأداء بما يصل إلى 1.1 BLEU على نظام إنجليزي فرنسي صغير.
3. أخيرًا ، ننتقل من النموذج المستند إلى العبارة إلى النموذج المعتمد على النحو باستخدام
نموذج التركيب المختلط. هذا يسمح لنا بالانتقال من أساليب ap على مستوى الكلمات باستخدام عوامل إلى معلومات لغوية متعددة الكلمات مثل التركيب النحوي والعلامات الضحلة. يستخدم النموذج النحوي المختلط لغة المصدر النحوية
معلومات لإبلاغ الترجمة. نظهر أن النموذج قادر على الشرح
الترجمة أفضل ، مما يؤدي إلى تحسن بمقدار 0.8 BLEU على النموذج الأساسي المستند إلى العبارات الأرشيفية لمهمة ألمانية-إنجليزية صغيرة. أيضا ، النموذج
يتطلب فقط تسميات على نطاقات مصدر مستمرة ، ولا يعتمد على شجرة
هيكل ، لذلك ، يمكن دمج أنواع أخرى من المعلومات النحوية في
الموديل. جربنا محللًا ضحلًا ورأينا مكسبًا قدره 0.5 BLEU
لمجموعة البيانات نفسها. التدريب مع المزيد من بيانات التدريب ، نقوم بتحسين الترجمة
بواسطة 0.6 BLEU (1.3 BLEU خارج المجال) على خط الأساس الهرمي.
ثالثا
أثناء تطوير هذه النماذج الثلاثة ، نكتشف أن محاولة ذلك
ترجمة نموذج صارم حيث تؤدي عملية النقل اللغوي إلى تدهور الأداء.
ومع ذلك ، من خلال الجمع بين مزايا نماذج SMT القياسية والنماذج ذات الدوافع اللغوية ، يمكننا تحقيق أداء ترجمة أفضل. عملنا
يوضح أهمية موازنة خصوصية المعلومات اللغوية مع
متانة النماذج الأبسط.