May 4th – 5th 2009, Rabat, Morocco Objet de la recherche Description du phénomène de l’ambiguïté dans la langue arabe; Proposition d’une méthodologie multicritère de désambiguïsation morphosyntaxique appliquée à la langue Arabe; Désambiguïsation morphosyntaxique automatique pour détermination de la catégorie grammaticale la plus probable du mot ambiguë en utilisant une approche décisionnel appelée AMD1. [1] A.M.D. : Aide Multicritère à la Décision; 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Étiquetage morphosyntaxique L’étiquetage consiste à attribuer à chaque unité lexicale et grammaticale un symbole (représentant sa catégorie grammaticale et les informations morphologiques), cette étiquette doit être à la fois concise et précise. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Pourquoi doit-on lever l’ambiguïté ? Pour se permettre une analyse grammaticale correcte, Pour construire des systèmes puissants pour les questions et les réponses dans les langages parlés, Pour construire des systèmes puissants pour la traduction automatique, sachant que la plupart des problèmes dans ce domaine relève de l’ambiguïté, Pour construire des systèmes puissants pour la simplification et résumé des textes, Pour construire des systèmes puissants pour la génération des textes,…etc. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Architecture de notre système Comment on a conçu le système? 3 étapes: Segmentation; Analyse; Désambiguïsation. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Architecture de notre système 2ième Partie 1iere Partie Mot reconnu (Étiqueté ) Texte Module segmentation Module Analyse Mot nom reconnu B.L.G Segments Module désambiguïsation Légende: B.L.G : Base lexicale et grammaticale. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
May 4th – 5th 2009, Rabat, Morocco Système : Description Segmentation Segmentation du texte en phrases; Segmentation de la phrase en mots: - Élimination des signes de ponctuations secondaires et le blanc. خرج عمر من البيت. Segmentation au sein du mot : M -------------> ∑ P + (R, Sch) + ∑ S. Tel que : ∑ P : élément préfixés ; ∑ S : élément suffixés ; R : Racine ; Sch : Schème. M : le mot. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
May 4th – 5th 2009, Rabat, Morocco Système : Description Analyse et étiquetage Unité= (Unité, Étiquette, désignation en français,désignation en arabe, racine*) Exemple: (ذَهَبَ, VAA3PMSIA, Verbe Accompli Actif 3ème Pers. Masc. Singulier Invariable Accusatif, . فعل ماضي مبني للمعلوم للمفرد المذكر الغائب مبني على الفتح ) 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Désambiguïsation : Principe La désambiguïsation est un moyen de lever l’ambiguïté dans le cas ou un mot reçoit plus d’une étiquette. Si Card(Etiq) = 1 alors « Pas de phase de désambiguïsation » Sinon : Si Card (Etiq) 1 alors « phase de désambiguïsation obligataire » 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Désambiguïsation : Principe (Suite) T=m1 m2 m3 ….. mi … mn CG =v1 v2 v3 ….. vi … vn Exemple: كتب الدرس في القسم. T= كَتَبَ_ فعل ماضي الدرسَ _ مفعول به في _جار القسم_مجرور كُتِبَ ف.م. مبني للمجهول الدرسَ نائب فاعل مجرور فيجار القسم CG= كُتُبُ_مبتدأ الدرسِ_مضاف إليه في_جار القسم_مجرور Légende : T : Texte (une ou plusieurs phrases), chaque phrase est constituée de mots (mi). CG : Catégorie Grammaticale, (vi) valeur correspondante au mot (mi). 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Système : Désambiguïseur Architecture module Mot Module de désambiguïsation Étiquettes candidates Étiquette élue 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Approches existantes de la levée d’ambiguïté Modèle statistique / probabiliste : qui utilise le modèle de chaines de Markov. Modèle par contraintes : qui utilise des règles pour enlever l’ambiguïté. New : Module de désambiguïsation à base d’une approche multicritère. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Désambiguïsation à base d’une approche multicritère Pourquoi une approche multicritère dans le TAL Arabe ? Enchaînement de choix. Contexte linguistique de l’arabe favorisant des critères multiples. Profit souhaité ? Réduire et classer les étiquettes selon un score globale calculé. Condition : Bonne définition des critères d’évaluation. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Approche Analyse Multicritère: Concepts de base Action/scénarios efficace; Relation de dominance; Classement des scénarios. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Approche Analyse Multicritère: Étapes Ensemble d’action (étiquettes condidates); Construction famille cohérente de critères; Génération d’une fonction d’évaluation pour chaque critère; Pondération et Agrégation des critères. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Méthode d’Agrégation TOPSIS : Fondements Historique : TOPSIS est une méthode multicritères développée par Hwang et Yoon en 1981[7]. But : Il s’agit de réduire le nombre de scénarios de désambiguïsation en écartant les scénarios dominés et de classer les scénarios efficaces selon leurs scores globaux calculés. Fondements: Choisir une solution qui se rapproche le plus de la solution idéale (la meilleure sur tous les critères); S’éloigner le plus possible de la pire solution (qui dégrade tous les critères). 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Méthode d’Agrégation TOPSIS : Algorithme Etape1 : Calcul de la matrice de décision normalisée. Etape2 : Calcul de la matrice de décision normalisée pondérée . Etape3 : Détermination des solutions (profils) idéale (a*) et des solutions anti-idéale (a*). Etape4: Calculer la distance euclidienne par rapport aux profils a* et a*; Etape5 : Calculer un coefficient de mesure du rapprochement au profil idéal (Ci*). Etape6 : Rangement des actions suivant leur ordre de préférences(i.e. en fonction des valeurs décroissantes de Ci* ; i est meilleur que j si Ci*> Cj*). 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Méthode de Pondération Entropie: Idée et Algorithme Idée : L’idée est qu’un critère j est d’autant plus important que la dispersion des évaluations des actions est importante. Ainsi les critères les plus importants sont ceux qui discriminent le plus entre les actions (dans notre cas se sont les étiquettes). Algorithme : Calcul de l’entropie d’un critère « j » par la formule (Ej); Calcul des poids en fonction de la mesure de dispersion (opposée de l’entropie) : Dj = 1 –Ej ; Normalisation des poids par la formule (Wj). 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Présentation de la solution : Démarche et application (1) Etape1 : Construction de la liste des étiquettes, ce qui va générer l’ensemble E. Exemple : "ذهب محمد إلى المدرسة" E={Non commun, Vtype1, Vtype2, Vtype3, Vtype4, Vtype5} Etape2 : Proposons des critères de base - Critère de concordance de voyelles à l’intérieur du mot; La fonction d’évaluation qui va avec c’est l’addition (+), de telle manière, qu’une bonne position d’une voyelle vaut un (1), après application du critère on aura : Non commun (1+1+1=3), Vtype1(1+1+1=3), Vtype2(1+0+1=2), Vtype3(1+0+1=2), Vtype4(0+0+1=1), Vtype5(1+0+0=0). X 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
Présentation de la solution : Démarche et application (2) Etape2 (suite) - Critère de fréquence; Le score de x selon ce critère représente son taux d’apparence calculé sur la base de l’étude statistique dans le corpus utilisé (Max). Les scores spécifiques sont : Non commun (0,75), Vtype1 (0), Vtype2(0), Vtype3(0), Vtype4(0,25), Vtype5(0,5). et Critère contexte structural. Utilisation des règles par contraintes grammaticale. Etape3 : Utilisation de la méthode d’agrégation(Topsis) et pondération (Entropie). Etape4: Classification des étiquettes selon un ordre décroissant des scores. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco
C’est Fini / Merci de votre attention. 3rd International Conference on Arabic Language Processing, الندوة الدولية الثالثة حول المعالجة الآلية للغة العربية May 4th – 5th 2009, Rabat, Morocco C’est Fini / Merci de votre attention. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco