Faculté des science Rabat - Agdal Groupe GSCM - Laboratoire LRIT Extraction des formes dérivées des mots arabes par des automates déterministes *Jamal JAIT, **Abderrahim El Qadi, *Driss Aboutajeddine
Problématique Complexe et très fluctuée, la langue arabe nécessite un outil de Racinisation robuste, Pour une meilleure performance en terme d’indexation et de recherche d’information. Extraction des formes dérivées des mots arabes par des automates déterministes
Plan Définition & Approche Rappel sur la théorie des automates Le cas du langage arabe La dérivation Automate reconnaissant le langage arabe Application java Résultats Conclusion et perspectives Extraction des formes dérivées des mots arabes par des automates déterministes
Définition & Approche Le processus de Racinisation est un processus qui permet de prendre en entrée un mot, pour en tirer la racine d’où il est dérivé. Notre approche se base sur l’association d’un automate fini déterministe pour chaque forme de mot. Extraction des formes dérivées des mots arabes par des automates déterministes
Rappel sur la théorie des automates Un automate A est défini comme suit: A = (Σ, E, Eo, F, δ) où : Σ : son alphabet E : l’ensemble des états initiaux Eo: l’ensemble des états initiaux F: l’ensemble des états finaux δ : un ensemble fini de transitions Le langage reconnu par A est noté L(A) Exemple : mots binaire ayant u = 0 ou u = 01 comme préfixe suivi d’une suite de « 01 » et ayant v = (0)* comme suffixe Σ = {a=0,b=1} E : {1;2;3;4} Eo: {1;2} F: {4} δ = {(1;0;2), (2;0; 3), (3;1;2) ,(3;1;4) ,(4;0;4)} Exemple de chaines reconnues: 001 00100000 010101000000 Ainsi L(A) = {w = umv / u = 0 | vide et m = (01)*01 et v = vide | 0*} Extraction des formes dérivées des mots arabes par des automates déterministes
Le cas du langage arabe Les mots arabes se décomposent en trois grandes catégories : Pronoms (al horouf) : fixes et dénombrables Noms (al asma-a) : fixes ou obtenus par dérivation Verbes (al af3al) : ils suivent différents schèmes : 21 schèmes. De chacun d’eux se dérive un ensemble d’autres schèmes correspondants aux : nom du sujet, nom du complément, schème d’exagération, substantif...etc. Extraction des formes dérivées des mots arabes par des automates déterministes
La dérivation en arabe(1) Les verbes : Les verbes se décomposent en deux catégories : Non dérivable (jaamid) : ليس, نعم, حبذا … Dérivables (Motassarrif) : جحد, علم... La dérivation des verbes de la 2ième catégorie peut donner naissance à d’autres verbes : كتب donne (كاتب -- تكاتب-- اكتتب ) Ainsi qu’à des noms : كتب donne كاتِبٌ كاتِبَةٌ مُتَكاتِبٌ Extraction des formes dérivées des mots arabes par des automates déterministes
La dérivation en arabe(2) Les verbes se dérivent suivant 3 temps: Le présent ou Al modari3 Le passé ou Al maadi Et l’impératif ou Al Amr Exemple: Article Verbe Al modaari3 Al maadi Al Amr هم ils/elles قتل يقتلون قتلوا اقتلوا Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(1) Soit ∑ = l’alphabet arabe ∑c = {alef, yaa, waw, alef Maqsoura, tah Marbouta} = {ة ى و ي ا} : l’ensemble des lettres communes aux mots arabes ∑m = {alef avec Hamza, noon, yaa, taa} = {ت ي ن أ}: lettres introduisant le temps présent. Soit LA = langage arabe. Et L0, L1 et L2 les trois sous langages de LA où: Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(2) L0 = {m € LA / racine(m) est constitué de lettres li appartenant à ∑ -∑c} L2 = {m € LA / m est spécifique} L1 = LA – L0 U L2 : les mots dérivés des verbes dites Mo3talla Il est facile de constater que L0, L1, L2 définissent une partition de LA : L0∩L1, L0∩L2 et L1∩L2 sont vide LA = L0 U L1 U L2 Construction de L0 : Soit L0 = L3 U L4 Où : L3 = {m € L0 / |racine(m)|=3} L4 = {m € L0 / |racine(m)|>3} Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(3) Dans notre approche, pour chaque schème de verbe on associe trois automates : A_fverbe_present A_fverbe_passé A_fverbe_Amr Et pour chaque nom un automate A_fnom Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(4) Exemple A_fa3ala_present س ت،ي،أ،ن l ف،ل l S0 S1 S f 3 l l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،س λ و ه ن ك D3 D1 D2 ه،ك ه،ك ن ه،ك ه D4 D5 ن D8 ه،ك ا D11 ن،م م D7 D10 ا ا D6 D9 Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(5) Exemple fa3ala : فَسَيُعَلِّمْكَهُمَا س ت،ي،أ،ن ع ل ف،ل S0 S1 S f 3 l م l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،س λ و ه ن ك D3 D1 D2 ه،ك ه،ك ن ه،ك ه D4 D5 ن D8 ه،ك ا D11 ن،م م D7 D10 ا ا D6 D9 Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(6) Exemple: A_infa3ala_passé و،ل،ف ا ن l l S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l D ت ن،ا D1 ن و م D2 و D4 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(7) Exemple: وانصرفوا و،ل،ف ا ن ص ر S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ف D ت ن،ا D1 ن و م D2 و D4 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(8) Exemple: A_ifta3ala_Amr و،ف ا l ت l S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l D و ا،ن،ي D2 ه D1 ه ه D3 م ا ن D3 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(9) Exemple: امتحنهما و،ف ا م ت ح S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ن D و ا،ن،ي D2 ه D1 ه ه D3 م ا ن D3 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(10) Exemple: A_fa3il ت D8 D9 ا ل ،ب ،ك ه،ك l ا l l ه،ك S f A 3 l م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك ه،ك و،ف ،ب l ا l ا S1 f A 3 ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ا l l l ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(11) Exemple: بالحاملين ت D8 D9 ا ل ،ب ،ك ه،ك l ا l l ه،ك S f A 3 l م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك l ه،ك و،ف ،ب ا l ا S1 f A 3 ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ح ا م ل ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(12) Exemple: لمالكتيكما ت D8 D9 ا ل ،ب ،ك ه،ك م ا ل ك ه،ك S f A 3 l م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك l ه،ك و،ف ،ب ا l ا S1 f A 3 ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ا م ل ح ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(13) Exemple A_Wa3ala_present س ت،ي،أ،ن l ف،ل S0 S1 S 3 l l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،س λ و ن ه،ك D1 D2 ه،ك ن ه،ك D3 D4 ه،ك ا ن،م D5 ا D6 D7 Extraction des formes dérivées des mots arabes par des automates déterministes
Automate reconnaissant le langage arabe(14) Exemple Wa3ala : فسيزنهما س ت،ي،أ،ن ز ف،ل S0 S1 S 3 l ن l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،س λ و ن ه،ك D1 D2 ه،ك ن ه،ك D3 D4 ه،ك ا ن،م D5 ا D6 D7
Classes sémantiques Ci Application java Document Di Algorithme: Raciniseur Soit m un mot 1: chercher les automates dont l ’entrée correspond à m[0] 2: si m est accepté root = getRoot(); etiquet = getEtiquette(); sinon root = m; etiquette = ‘ spécifique’; fin si 3: print root, etiquette; Prétraitement BD mots vides Raciniseur Di_INDEX Table lexicale Di (Mij,Fij) METRIQUE SC Maker Classes sémantiques Ci coMat maker Extraction des formes dérivées des mots arabes par des automates déterministes
Résultats الأهداف أهداف af3al الأشياء أشياء أطوال الأجسام أجسام الأقمار أقمار المسافة مساف fa33al المسارات مسار بيانات بيان البيانات الدراسة دراس المثال مثال أقدم قدم fa3ala تحلق حلق أبعد بعد تقدم أعظم عظم تقدمه يجعل جعل العريضة عريض fa3iil العديد عديد سريع دقيقة دقيق الطبيعية طبيع والقريب قريب صغيرة صغير شريط Extraction des formes dérivées des mots arabes par des automates déterministes
Résultats الجاذبية جاذب fa3il مائلة مائل الجانب جانب ثابت عالم الثالث المعلومات معلوم maf3oul مجموعة مجموع مشمولة مشمول مفهوم مجموعات معلومات تنتقل نتقل ifta3ala تختلف ختلف تلتقطها لتقط تشتمل شتمل تمتلك متلك انتقلت انتقل تعتمد عتمد الاقتصادية اقتصاد ifti3al والاقتصادية الالتزام التزام احتياجات احتياج الارتفاعات ارتفاع امتصاص الاكتشافات اكتشاف Extraction des formes dérivées des mots arabes par des automates déterministes
Conclusion et Perspectives Le processus de Racinisation abordé dans ce travail, consiste à représenter chaque forme des mots arabes, par un automate adéquat Et comme perspectives : Comparaison avec Darweesh; Khoja Fonction: inverse: Tassriif Incorporation du module « Raciniseur » dans un moteur de recherche pour évaluation Extraction des formes dérivées des mots arabes par des automates déterministes