8èmes Journées INTEX/NooJ LEXIQUE ARABE ET ANALYSE MORPHOLOGIQUE Présenté par : Slim MESFAR Encadré par : Pr. Max SILBERZTEIN
Lexique arabe La chaîne globale de génération du lexique arabe se décompose en trois sous-chaînes: Sous-chaîne de génération verbale Sous-chaîne de génération nominale Sous-chaîne de génération des particules
Chaîne de génération verbale ضَرَبَ,V+FLX=Vdaraba1 ذَكَرَ,V+FLX=Vdakara2 كَتَبَ,V+FLX=Vdakara2 عَلَّمَ,V+FLX=Valama3 … Saisie initiale Vdaraba1= # Voici les formes au présent de l’indicatif, voix active: <LW> (أَ<R><S>ْ<R><S>ِ<R><S>ُ/A+P+1+s +تَ<R><S>ْ<R><S>ِ<R><S>ُ/A+P+2+m+s) + # Voici les formes au passé, voix passive: (<L5>ُ<S><R>ِ<S><R><S>) (ْتُ/K+I+1+s + ْنَا/K+I+1+P) … ; Verbes Classes flexionnelles Conjugaison Formes verbales fléchies
Chaîne de génération nominale Verbes Saisie des primitifs Classes dérivationnelles Déverbaux Primitifs Fusion Grammaires morphologiques Formes nominales canoniques
Chaîne de génération des particules Saisie manuelle de 300 particules voyellées: Adverbes, Prépositions, Conjonctions, Interjections, Pronoms personnels, Articles, …
Informations linguistiques stockées La simple reconnaissance des formes est insuffisante Description, stockage d’informations Lemme Catégorie grammaticale Genre et nombre Transitivité …
Analyse morphologique Mot du texte Dictionnaire des particules Reconnaissance des segmentations Lexique formes simples fléchies Application des règles morpho-syntaxiques Grammaires morphologiques Informations linguistiques associées à la forme reconnue
Transitivité des verbes Possibilité de concaténer des pronoms personnels en tant que suffixes
Règles de réécriture Éliminer les incompatibilités morphologiques après décomposition Rétablir la bonne graphie On procède aux transformations suivantes: Ajout d’une lettre: parabuWhu parabuWl + hu Substitution d’une lettre: sammalni sammay + ni Suppression d’une lettre + Substitution d’une voyelle: parabotumuWha parabotumo + ha Suppression de 3 lettres: laédfaganna la + édfaga …
Règles de réécriture : exemples …
Règles d’harmonie vocalique Vérifier la compatibilité de la voyellation du radical avec celle du suffixe qui s'y rattache Exemples: kiTalBi + hi est une agglutination permise alors que kiTalBa + hi est interdite MagalNiY + hi est une agglutination permise alors que MagalNiY + hu est interdite gaçal + hu est une agglutination permise alors que gaçal + hi est interdite
Conclusion & Perspectives Reconnaissance estimée à plus de 150 millions de formes à partir de dictionnaires de 25 000 entrées Couverture autour de 80% lors de l’analyse d’un texte de 50 000 occurrences. Traitement de textes partiellement voyellés ou non voyellés