La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon.

Présentations similaires


Présentation au sujet: "1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon."— Transcription de la présentation:

1 1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon 2 Yasser Zmantar : Doctorant, Université Lumière-Lyon 2 04/04/2008

2 2 Plan Introduction Le schéma du mot graphique des mots outils Architecture de la base de données des mots outils Exploitation de la base de données des mots outils Conclusion

3 3 Introduction La reconnaissance automatique des différentes parties du discours passe par lindentification des noms, des verbes et des mots outils au sein dun corpus textuel. Les travaux menés dans ce sens présentent un certain nombre dambigu ї tés dues à la confusion entre mots-outils / verbes et mots outils/noms. Exemple: أم أمن nom ( أُمٌّ ) mot-outil ( أَمْ ) verbe ( أَمِنَ ) mot-outil ( أَمِنْ ) mère se confier La solution envisagée est de construire dune part une base de données des mots-outils et dautre part un système de filtrage des résultats ambigus basé sur des règles orthographiques, morphologiques, syntaxiques et sémantiques.

4 4 Le schéma du mot graphique des mots outils Représentation du mot graphique maximal: Absence de suffixe Absence de base Pas de schème et de racine pour les mots outils Schéma graphique du mot maximalSchéma graphique du mot outil Mot maximal Mot minimal ENCL SUFF BASE PREF PROC سَ تَ ضْرِب ُونَ هُمْ Post-base Pré-base Schème Racine Mot maximal Mot minimal ENCL SUFF PRO-BASE PROC أَ عَن ْ هُمْ

5 5 Architecture de la base de données des mots outils o Point de vue informatique: Ressource lexicale très importante pour une application de traitement automatique de la langue arabe. Elle est réalisée suivant un modèle relationnel basé sur: La définition des relations entre les tables La limitation de la redondance des données Lévolution et la maintenance rapide du contenu et de la structure

6 6 Architecture de la base de données des mots outils o Point de vue linguistique: La base de donnée des mots outils est composée suivant le schéma du mot graphique suivant: Enclitique + Suffixe + Mot outil + Proclitique La génération des mots maximaux passe par la concaténation des clitiques. Nous avons donc décidé dintégrer les clitiques à la base de données et de relier chaque mot outil à la liste de particules possibles. Exemple: Enclitique + Suffixe + Mot outil + Proclitique أَ عَن ْ هُمْ

7 7 Architecture de la base de données des mots outils Les proclitiques: Les proclitiques: Ils sont en inventaire fini et se combinent entre eux pour donner les traits syntaxiques qui peuvent accompagner le mot outil arabe. Voici la liste des proclitiques simples retenus pour notre travail: أ الاستفهام و واو العطف و واو المعيّة ف العطف لَ لام التوكيد بِ حرف جر لِ حرف جر ك كاف التشبيه

8 8 Architecture de la base de données des mots outils Les proclitiques se combinent entre eux pour donner une liste de 26 éléments. أَف، أَفَبِ، أَفَلِ، وَلَ، وَلَكَ … On sest limité pour la construction de cette liste à la combinaison de 3 proclitiques au maximum. Exemple: أَف، أَفَبِ، أَفَلِ، وَلَ، وَلَكَ … La fusion des proclitiques est régie par deux types de contraintes: Une relation dordre: واو العطف et فاء العطف sont incompatibles entre eux parce quils occupent tous les deux la même position sur le vecteur dordre. Une relation dordre: Dégagée suivant un vecteur dordre [Dichy 84, 89, 90] où chaque proclitique est incompatible, dans une relation dordre strict, avec un proclitique de même position. Exemple: واو العطف et فاء العطف sont incompatibles entre eux parce quils occupent tous les deux la même position sur le vecteur dordre. همزة الاستفهام occupe toujours la première position dans la construction du mot graphique maximal et par la suite il est impossible de la trouver précédée par un autre proclitique. De même quun proclitique qui occupe par rapport à un autre une position dantériorité sur le vecteur na aucune chance de le suivre dans la construction dun mot outil graphique. Exemple: همزة الاستفهام occupe toujours la première position dans la construction du mot graphique maximal et par la suite il est impossible de la trouver précédée par un autre proclitique. Des règles de compatibilité: بِ et لِ ne peuvent pas se combiner car se sont tous les deux حروف جر. Des règles de compatibilité: où certains proclitiques ne sont pas compatibles entre eux pour des raisons syntaxiques et sémantiques. Exemple: بِ et لِ ne peuvent pas se combiner car se sont tous les deux حروف جر.

9 9 Architecture de la base de données des mots outils Les enclitiques: Les enclitiques: Ils sont en inventaire fini et constituent une liste de 17 éléments. La compatibilité des enclitiques et des mots outils est déterminée par des critères syntaxiques et sémantiques. De même les mots outils sont incompatibles avec les enclitiques combinés. Exemple: كِلَا exprime le duel donc ce mot outil ne se combine quavec هُمَا et كُمَا Voici la liste des enclitiques retenus pour la construction de la base de données des mots outils: نِي ي نَا كَ كِ كُمَا كُمْ كُنَّ هُ هَا هُمَا هُمْ هُنَّ هِ هِمَا هِمْ هِنَّ

10 10 Architecture de la base de données des mots outils Les suffixes: Les suffixes: Ils sont en inventaire fini et ne se combinent pas entre eux. ( ت, ْتُمْ, ْتُنَّ … ) ( يُّ, َاتٍ …). On sest limité à une liste de 8 suffixes pour garantir la compatibilité des mots outils/suffixe en excluant les suffixes compatibles uniquement avec les verbes ( ت, ْتُمْ, ْتُنَّ … ) et ceux compatibles uniquement avec les noms ( يُّ, َاتٍ …). Voici la liste des suffixes retenus dans la base de données: ْ َ ِ ُ ًا ٌ ٍ َا

11 11 Architecture de la base de données des mots-outils Les mots outils: Les mots outils: Les mots outils sont classées en plusieurs catégories: حروف الجر ( مِنَ, إلى, عن...) حروف الجزم ( لم...) أسماء الاشارة ( هذا, هذه, ذلك...) حروف النصب ( لن...) الأسماء الموصولة ( الذي, التي...) حروف الإجابة ( نعم, بلى...) أسماء الاستفهام ( كيف, مَنْ...) حروف التحضيض ( هلّا...) أسماء الشرط ( كيفما, حيثما...) حروف التوقع ( قد...) أدوات الاستثناء ( سوى, غير...) حروف العطف ( بل...) الحروف المشبهة بالفعل ( لعل, ليت...) حروف الاستفتاح ( أمّا...) حروف النداء ( يا, أيتها...) حروف الإستفهام ( هل...) حروف التفصيل ( أمّا, أيْ...) الضمائر ( أنا, أنت...)

12 12 Architecture de la base de données des mots-outils Ils forment un ensemble fini de mots outils simples ( إلى, مع, في...) et se combinent avec les clitiques pour constituer des formes suffixées ( فيهِ ), affixées ( وفي ) ou les deux à la fois ( وفيهِمْ ). La liste des mots outils comprend 143 éléments. Pour constituer cette liste, on sest limité aux mots outils appartenant aux catégories précédemment citées en excluant: Les doublons: un même mot outil peut être porteur de plusieurs indices sémantiques et syntaxiques mais son traitement que ce soit en analyse ou en génération reste inchangé. Exemple: مَا peut avoir deux significations différentes, elle peut être soit un relatif ( اسم موصول ) ou exprimer la négation ( نفي ). Les adverbes: qui sont en inventaire fini et qui seront traités séparément dans une autre base de données vu leurs spécificités syntaxiques différentes des mots- outils. Les particules verbales ( الأفعال الجامدة ) qui seront traitées dans la base de données verbale ( عسى, ليس …).

13 13 Exploitation de la base de données des mots-outils La base de données des mots outils peut être utilisée que se soit en génération ou en analyse de corpus textuels. Pour lexploitation de la base de données, il faut spécifier un certain nombre de règles : Les règles décriture : Les règles décriture : 1. Lenclitique « ي » ne se combine quavec des mots outils ayant au moins 3 consonnes Exemple: Le mot outil مِنْ + lenclitique ي مِنِّي Le mot outil عَنْ + lenclitique ي عَنِّي Le mot outil دُونَ + lenclitique ي دُونِي Le mot outil لَدُنْ + lenclitique ي لَدُنِي Si le mot outil contient 2 consonnes, sa concaténation avec lenclitique ي nécessite lajout de la chadda (dédoublement de la consonne)

14 14 Exploitation de la base de données des mots-outils 2. Le changement de alef maksoura ى en ya ي Exemple: Le mot outil إلَى + lenclitique هُمْ إلَيْهُمْ Le mot outil عَلَى + lenclitique هُمْ عَلَيْهُمْ 3. Le remplacement dune double consonne par chadda Exemple: Le mot outil فِي + lenclitique ي فِيَّ Les règles de contexte: Les règles de contexte: بالفعل الحروف المشبهة Exemple: Le mot outil لَعَلَّ + lenclitique نِي لَعَلَّنِي Le mot outil لَعَلَّ + lenclitique نِي لَعَلِّي Le mot outil إنَّ + lenclitique نِي إنَّنِي Le mot outil إنَّ + lenclitique نِي إنِّي الحروف المشبهة بالفعل peuvent engendrer deux écritures différentes en se combinant avec un même enclitique.

15 15 Exploitation de la base de données des mots-outils Les règles sémantiques: Les règles sémantiques: La compatibilité des clitiques et des mots outils est déterminée par des critères syntaxiques et sémantiques. Exemple: Le proclitique لِ et le mot outil مِنْ ne peuvent pas se combiner ensemble car le premier exprime « en direction de» et le deuxième exprime « en provenance de ».

16 16 Pour la génération des mots maximaux nous avons relié chaque mot outil à la liste de particules possibles tout en respectant les règles précédemment citées. Nous avons obtenus le résultat suivant: Exploitation de la base de données des mots-outils

17 17 Conclusion Linteraction entre la Base de données des mots outils et celle de DIINAR peut résoudre un certain nombre dambiguïtés et faciliter par la suite létiquetage de corpus textuels. Cette interaction sera régie par : Des règles de grammaire de surface afin de garantir une reconnaissance claire des différentes parties du discours. La construction de réseaux sémantiques des mots outils permettant ainsi de donner des indices sur le contexte des phrases en arabe.


Télécharger ppt "1 UN SYSTÈME DE RECONNAISSANCE AUTOMATIQUE DES MOTS-OUTILS EN ARABE : LINTERFACE DE SAISIE DES DONNÉES Chokri Rejili : Doctorant, Université Lumière-Lyon."

Présentations similaires


Annonces Google