La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Un système de reconnaissance automatique des mots-outils en arabe : l’interface de saisie des données Chokri Rejili : Doctorant, Université Lumière-Lyon.

Présentations similaires


Présentation au sujet: "Un système de reconnaissance automatique des mots-outils en arabe : l’interface de saisie des données Chokri Rejili : Doctorant, Université Lumière-Lyon."— Transcription de la présentation:

1 Un système de reconnaissance automatique des mots-outils en arabe : l’interface de saisie des données Chokri Rejili : Doctorant, Université Lumière-Lyon 2 Yasser Zmantar : Doctorant, Université Lumière-Lyon 2 04/04/2008

2 Plan Introduction Le schéma du mot graphique des mots outils
Architecture de la base de données des mots outils Exploitation de la base de données des mots outils Conclusion

3 Introduction La reconnaissance automatique des différentes parties du discours passe par l’indentification des noms, des verbes et des mots outils au sein d’un corpus textuel. Les travaux menés dans ce sens présentent un certain nombre d’ambiguїtés dues à la confusion entre mots-outils / verbes et mots outils/noms. Exemple: أم أمن nom (أُمٌّ) mot-outil (أَمْ) verbe (أَمِنَ) mot-outil (أَمِنْ) mère se confier La solution envisagée est de construire d’une part une base de données des mots-outils et d’autre part un système de filtrage des résultats ambigus basé sur des règles orthographiques, morphologiques, syntaxiques et sémantiques.

4 Le schéma du mot graphique des mots outils
Représentation du mot graphique maximal: Absence de suffixe Absence de base Pas de schème et de racine pour les mots outils Schéma graphique du mot maximal Schéma graphique du mot outil Mot maximal Mot minimal ENCL SUFF BASE PREF PROC سَ تَ ضْرِب ُونَ هُمْ Post-base Pré-base Schème Racine ENCL SUFF PRO-BASE PROC أَ عَن ْ هُمْ

5 Architecture de la base de données des mots outils
Point de vue informatique: Ressource lexicale très importante pour une application de traitement automatique de la langue arabe. Elle est réalisée suivant un modèle relationnel basé sur: La définition des relations entre les tables La limitation de la redondance des données L’évolution et la maintenance rapide du contenu et de la structure

6 Architecture de la base de données des mots outils
Point de vue linguistique: La base de donnée des mots outils est composée suivant le schéma du mot graphique suivant: Enclitique + Suffixe + Mot outil + Proclitique La génération des mots maximaux passe par la concaténation des clitiques. Nous avons donc décidé d’intégrer les clitiques à la base de données et de relier chaque mot outil à la liste de particules possibles. Exemple: أَ عَن ْ هُمْ

7 Architecture de la base de données des mots outils
Les proclitiques: Ils sont en inventaire fini et se combinent entre eux pour donner les traits syntaxiques qui peuvent accompagner le mot outil arabe. Voici la liste des proclitiques simples retenus pour notre travail: أ الاستفهام و واو العطف و واو المعيّة ف العطف لَ لام التوكيد بِ حرف جر لِ حرف جر ك كاف التشبيه

8 Architecture de la base de données des mots outils
Les proclitiques se combinent entre eux pour donner une liste de 26 éléments. On s’est limité pour la construction de cette liste à la combinaison de 3 proclitiques au maximum. Exemple: أَف، أَفَبِ، أَفَلِ، وَلَ، وَلَكَ … La fusion des proclitiques est régie par deux types de contraintes: Une relation d’ordre: Dégagée suivant un vecteur d’ordre [Dichy 84, 89, 90] où chaque proclitique est incompatible, dans une relation d’ordre strict, avec un proclitique de même position. Exemple: واو العطف et فاء العطف sont incompatibles entre eux parce qu’ils occupent tous les deux la même position sur le vecteur d’ordre. De même qu’un proclitique qui occupe par rapport à un autre une position d’antériorité sur le vecteur n’a aucune chance de le suivre dans la construction d’un mot outil graphique. Exemple: همزة الاستفهام occupe toujours la première position dans la construction du mot graphique maximal et par la suite il est impossible de la trouver précédée par un autre proclitique. Des règles de compatibilité: où certains proclitiques ne sont pas compatibles entre eux pour des raisons syntaxiques et sémantiques. Exemple: بِ et لِ ne peuvent pas se combiner car se sont tous les deux حروف جر.

9 Architecture de la base de données des mots outils
Les enclitiques: Ils sont en inventaire fini et constituent une liste de 17 éléments. La compatibilité des enclitiques et des mots outils est déterminée par des critères syntaxiques et sémantiques. De même les mots outils sont incompatibles avec les enclitiques combinés. Exemple: كِلَا exprime le duel donc ce mot outil ne se combine qu’avec ‘ هُمَا’ et ‘كُمَا’ Voici la liste des enclitiques retenus pour la construction de la base de données des mots outils: نِي ي نَا كَ كِ كُمَا كُمْ كُنَّ هُ هَا هُمَا هُمْ هُنَّ هِ هِمَا هِمْ هِنَّ

10 Architecture de la base de données des mots outils
Les suffixes: Ils sont en inventaire fini et ne se combinent pas entre eux. On s’est limité à une liste de 8 suffixes pour garantir la compatibilité des ‘‘mots outils/suffixe’’ en excluant les suffixes compatibles uniquement avec les verbes (ت,ْتُمْ ,ْتُنَّ… ) et ceux compatibles uniquement avec les noms (يُّ, َاتٍ…). Voici la liste des suffixes retenus dans la base de données: ْ َ ِ ُ ًا ٌ ٍ َا

11 Architecture de la base de données des mots-outils
Les mots outils: Les mots outils sont classées en plusieurs catégories: حروف الجر (مِنَ, إلى, عن...) حروف الجزم (لم...) أسماء الاشارة(هذا, هذه, ذلك...) حروف النصب (لن...) الأسماء الموصولة(الذي, التي...) حروف الإجابة (نعم, بلى...) أسماء الاستفهام(كيف, مَنْ...) حروف التحضيض (هلّا...) أسماء الشرط(كيفما, حيثما...) حروف التوقع (قد...) أدوات الاستثناء(سوى, غير...) حروف العطف (بل...) الحروف المشبهة بالفعل(لعل, ليت...) حروف الاستفتاح (أمّا...) حروف النداء(يا, أيتها...) حروف الإستفهام (هل...) حروف التفصيل (أمّا, أيْ...) الضمائر (أنا, أنت...)

12 Architecture de la base de données des mots-outils
Ils forment un ensemble fini de mots outils simples (إلى, مع, في...) et se combinent avec les clitiques pour constituer des formes suffixées (فيهِ), affixées (وفي) ou les deux à la fois (وفيهِمْ). La liste des mots outils comprend 143 éléments. Pour constituer cette liste, on s’est limité aux mots outils appartenant aux catégories précédemment citées en excluant: Les doublons: un même mot outil peut être porteur de plusieurs indices sémantiques et syntaxiques mais son traitement que ce soit en analyse ou en génération reste inchangé. Exemple: مَا peut avoir deux significations différentes, elle peut être soit un relatif (اسم موصول ) ou exprimer la négation ( نفي). Les adverbes: qui sont en inventaire fini et qui seront traités séparément dans une autre base de données vu leurs spécificités syntaxiques différentes des mots- outils. Les particules verbales ( الأفعال الجامدة) qui seront traitées dans la base de données verbale (عسى ,ليس…).

13 Exploitation de la base de données des mots-outils
La base de données des mots outils peut être utilisée que se soit en génération ou en analyse de corpus textuels. Pour l’exploitation de la base de données, il faut spécifier un certain nombre de règles : Les règles d’écriture : L’enclitique «ي» ne se combine qu’avec des mots outils ayant au moins 3 consonnes Exemple: Le mot outil ‘مِنْ’ + l’enclitique ‘ي’ مِنِّي Le mot outil ‘عَنْ’ + l’enclitique ‘ي’ عَنِّي Le mot outil ‘دُونَ’ + l’enclitique ‘ي’ دُونِي Le mot outil ‘لَدُنْ’ + l’enclitique ‘ي’ لَدُنِي Si le mot outil contient 2 consonnes, sa concaténation avec l’enclitique ‘ي’ nécessite l’ajout de la chadda (dédoublement de la consonne)

14 Exploitation de la base de données des mots-outils
Le changement de alef maksoura ‘ى’en ya ‘ي’ Exemple: Le mot outil ‘إلَى’ + l’enclitique ‘هُمْ’ إلَيْهُمْ Le mot outil ‘عَلَى’ + l’enclitique ‘هُمْ’ عَلَيْهُمْ Le remplacement d’une double consonne par chadda Le mot outil ‘فِي’ + l’enclitique ‘ي’ فِيَّ Les règles de contexte: بالفعل الحروف المشبهة Le mot outil ‘لَعَلَّ’ + l’enclitique ‘نِي’ لَعَلَّنِي Le mot outil ‘لَعَلَّ’ + l’enclitique ‘نِي’ لَعَلِّي Le mot outil ‘إنَّ’ + l’enclitique ‘نِي’ إنَّنِي Le mot outil ‘إنَّ’ + l’enclitique ‘نِي’ إنِّي الحروف المشبهة بالفعل peuvent engendrer deux écritures différentes en se combinant avec un même enclitique.

15 Exploitation de la base de données des mots-outils
Les règles sémantiques: La compatibilité des clitiques et des mots outils est déterminée par des critères syntaxiques et sémantiques. Exemple: Le proclitique ‘لِ’ et le mot outil ‘مِنْ’ ne peuvent pas se combiner ensemble car le premier exprime « en direction de» et le deuxième exprime « en provenance de ».

16 Exploitation de la base de données des mots-outils
Pour la génération des mots maximaux nous avons relié chaque mot outil à la liste de particules possibles tout en respectant les règles précédemment citées. Nous avons obtenus le résultat suivant:

17 Cette interaction sera régie par :
Conclusion L’interaction entre la Base de données des mots outils et celle de DIINAR peut résoudre un certain nombre d’ambiguïtés et faciliter par la suite l’étiquetage de corpus textuels. Cette interaction sera régie par : Des règles de grammaire de surface afin de garantir une reconnaissance claire des différentes parties du discours. La construction de réseaux sémantiques des mots outils permettant ainsi de donner des indices sur le contexte des phrases en arabe.


Télécharger ppt "Un système de reconnaissance automatique des mots-outils en arabe : l’interface de saisie des données Chokri Rejili : Doctorant, Université Lumière-Lyon."

Présentations similaires


Annonces Google