La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,

Présentations similaires


Présentation au sujet: "Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,"— Transcription de la présentation:

1 Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT, **Abderrahim El Qadi, *Driss Aboutajeddine

2 Problématique Extraction des formes dérivées des mots arabes par des automates déterministes 2 Complexe et très fluctuée, la langue arabe nécessite un outil de Racinisation robuste, Pour une meilleure performance en terme dindexation et de recherche dinformation.

3 Plan Extraction des formes dérivées des mots arabes par des automates déterministes 3 Définition & Approche Rappel sur la théorie des automates Le cas du langage arabe La dérivation Automate reconnaissant le langage arabe Application java Résultats Conclusion et perspectives

4 Définition & Approche Extraction des formes dérivées des mots arabes par des automates déterministes 4 Le processus de Racinisation est un processus qui permet de prendre en entrée un mot, pour en tirer la racine doù il est dérivé. Notre approche se base sur lassociation dun automate fini déterministe pour chaque forme de mot.

5 Rappel sur la théorie des automates Extraction des formes dérivées des mots arabes par des automates déterministes 5 Un automate A est défini comme suit: A = (Σ, E, Eo, F, δ) où : Σ : son alphabet E : lensemble des états initiaux Eo: lensemble des états initiaux F: lensemble des états finaux δ : un ensemble fini de transitions Le langage reconnu par A est noté L(A) Exemple : mots binaire ayant u = 0 ou u = 01 comme préfixe suivi dune suite de « 01 » et ayant v = (0)* comme suffixe Σ = {a=0,b=1} E : {1;2;3;4} Eo: {1;2} F: {4} δ = {(1;0;2), (2;0; 3), (3;1;2),(3;1;4),(4;0;4)} Exemple de chaines reconnues: Ainsi L(A) = {w = umv / u = 0 | vide et m = (01)*01 et v = vide | 0*}

6 Le cas du langage arabe Extraction des formes dérivées des mots arabes par des automates déterministes 6 Les mots arabes se décomposent en trois grandes catégories : Pronoms (al horouf) : fixes et dénombrables Noms (al asma-a) : fixes ou obtenus par dérivation Verbes (al af3al) : i ls suivent différents schèmes : 21 schèmes. De chacun deux se dérive un ensemble dautres schèmes correspondants aux : nom du sujet, nom du complément, schème dexagération, substantif...etc.

7 La dérivation en arabe(1) Extraction des formes dérivées des mots arabes par des automates déterministes 7 Les verbes : Les verbes se décomposent en deux catégories : Non dérivable (jaamid) : ليس, نعم, حبذا … Dérivables (Motassarrif) : جحد, علم... La dérivation des verbes de la 2 ième catégorie peut donner naissance à dautres verbes : كتب donne ( كاتب -- تكاتب -- اكتتب ) Ainsi quà des noms : كتب donne كاتِبٌ كاتِبَةٌ مُتَكاتِبٌ

8 La dérivation en arabe(2) Extraction des formes dérivées des mots arabes par des automates déterministes 8 Les verbes se dérivent suivant 3 temps: 1. Le présent ou Al modari3 2. Le passé ou Al maadi 3. Et limpératif ou Al Amr Exemple: ArticleVerbeAl modaari3Al maadiAl Amr هم ils/elles قتليقتلونقتلوااقتلوا

9 Automate reconnaissant le langage arabe(1) Extraction des formes dérivées des mots arabes par des automates déterministes 9 Soit = lalphabet arabe c = {alef, yaa, waw, alef Maqsoura, tah Marbouta} = { ة ى و ي ا } : lensemble des lettres communes aux mots arabes m = {alef avec Hamza, noon, yaa, taa} = { ت ي ن أ }: lettres introduisant le temps présent. Soit LA = langage arabe. Et L0, L1 et L2 les trois sous langages de LA où:

10 Automate reconnaissant le langage arabe(2) Extraction des formes dérivées des mots arabes par des automates déterministes 10 L0 = {m LA / racine(m) est constitué de lettres li appartenant à -c} L2 = {m LA / m est spécifique} L1 = LA – L0 U L2 : les mots dérivés des verbes dites Mo3talla Il est facile de constater que L0, L1, L2 définissent une partition de LA : L0 L1, L0 L2 et L1 L2 sont vide LA = L0 U L1 U L2 Construction de L0 : Soit L0 = L3 U L4 Où : L3 = {m L0 / |racine(m)|=3} L4 = {m L0 / |racine(m)|>3}

11 Automate reconnaissant le langage arabe(3) Extraction des formes dérivées des mots arabes par des automates déterministes 11 Dans notre approche, pour chaque schème de verbe on associe trois automates : 1. A_fverbe_present 2. A_fverbe_passé 3. A_fverbe_Amr Et pour chaque nom un automate 1. A_fnom

12 Automate reconnaissant le langage arabe(4) Extraction des formes dérivées des mots arabes par des automates déterministes 12 Exemple A_fa3ala_present 3lfSS1 S0 D1D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 ف،ل ف،ل،س λ ت،ي،أ،ن l ن ه،ك ن ا س ن،م ه ن م ا ا ه،ك l : est nimporte quelle lettre de -c λ : la transition vide l l D ا،ي و ه ك

13 Automate reconnaissant le langage arabe(5) Extraction des formes dérivées des mots arabes par des automates déterministes 13 3lfSS1 S0 D1D2 D3 D4 D5 D6 D7 D8 D9 D10 D11 ف،ل ف،ل،س λ ت،ي،أ،ن ن ه،ك ن ا س ن،م ه ن م ا ا ه،ك l : est nimporte quelle lettre de -c λ : la transition vide D ا،ي و ه ك Exemple fa3ala : فَسَيُعَلِّمْكَهُمَا عل م

14 Automate reconnaissant le langage arabe(6) Extraction des formes dérivées des mots arabes par des automates déterministes 14 3lfSS1 S0 D1 D4 D3 ن l l : est nimporte quelle lettre de -c λ : la transition vide Exemple: A_infa3ala_passé ا l l D ن م ت و D2 ن،ا ا و و،ل،ف

15 Automate reconnaissant le langage arabe(7) Extraction des formes dérivées des mots arabes par des automates déterministes 15 3lfSS1 S0 D1 D4 D3 ن ف l : est nimporte quelle lettre de -c λ : la transition vide Exemple: وانصرفوا ا ر ص D ن م ت و D2 ن،ا ا و و،ل،ف

16 Automate reconnaissant le langage arabe(8) Extraction des formes dérivées des mots arabes par des automates déterministes 16 3lfSS1 S0 D1 D3 l l : est nimporte quelle lettre de -c λ : la transition vide Exemple: A_ifta3ala_Amr ا l l D ت و D2 و،ف ا،ن،ي ا D3 هه ن م ا ه

17 Automate reconnaissant le langage arabe(9) Extraction des formes dérivées des mots arabes par des automates déterministes 17 3lfSS1 S0 D1 D3 ن l : est nimporte quelle lettre de -c λ : la transition vide Exemple: امتحنهما ا ح م D ت و D2 و،ف ا،ن،ي ا D3 هه ن م ه ا

18 Automate reconnaissant le langage arabe(10) Extraction des formes dérivées des mots arabes par des automates déterministes 18 3 l A f S1 D4 D5 l l : est nimporte quelle lettre de -c λ : la transition vide Exemple: A_fa3il ا l l D و،ا D3 و،ف ،ب م،ن ه،ك ا lD63A f l ا l l S2 ل ل ،ب ة ل ،ب ،ك S l 3l Af l ا l D2 ي ه،ك ا ا ت ت D7 ت ن ا،ي ه،ك D8 ا D9 ه،ك D7 ت ي

19 Automate reconnaissant le langage arabe(11) Extraction des formes dérivées des mots arabes par des automates déterministes 19 3 l A f S1 D4 D5 l l : est nimporte quelle lettre de -c λ : la transition vide Exemple: بالحاملين ا l l D و،ا D3 و،ف ،ب م،ن ه،ك ا lD63A f لام ح S2 ل ل ،ب ة ل ،ب ،ك S l 3l Af l ا l D2 ي ه،ك ا ا ت ت D7 ت ن ا،ي ه،ك D8 ا D9 ه،ك D7 ت ي

20 Automate reconnaissant le langage arabe(12) Extraction des formes dérivées des mots arabes par des automates déterministes 20 3 l A f S1 D4 D5 l l : est nimporte quelle lettre de -c λ : la transition vide Exemple: لمالكتيكما ا l l D و،ا D3 و،ف ،ب م،ن ه،ك ا lD63A f لام ح S2 ل ل ،ب ة ل ،ب ،ك S م 3l Af كال D2 ي ه،ك ا ا ت ت D7 ت ن ا،ي ه،ك D8 ا D9 ه،ك D7 ت ي

21 Automate reconnaissant le langage arabe(13) Extraction des formes dérivées des mots arabes par des automates déterministes 21 Exemple A_Wa3ala_present 3lSS1 S0 D1D2 D3 D4 D6 D5 D7 ف،ل ف،ل،س λ ت،ي،أ،ن l ن ه،ك ن ا س ن،م ا ه،ك l : est nimporte quelle lettre de -c λ : la transition vide l D ا،ي و ه،ك

22 Automate reconnaissant le langage arabe(14) 22 l : est nimporte quelle lettre de -c λ : la transition vide Exemple Wa3ala : فسيزنهما ز ن 3lSS1 S0 D1D2 D3 D4 D6 D5 D7 ف،ل،س λ ن ه،ك ن ا ن،م ا ه،ك l : est nimporte quelle lettre de -c λ : la transition vide D ا،ي و ه،ك ف،ل ت،ي،أ،نس

23 Application java Extraction des formes dérivées des mots arabes par des automates déterministes 23 Document Di BD mots videsPrétraitement Raciniseur SC Maker Table lexicale Di (Mij,Fij) Classes sémantiques Ci coMat maker METRIQUE Di_INDEX Algorithme: Raciniseur Soit m un mot 1: chercher les automates dont l entrée correspond à m[0] 2: si m est accepté root = getRoot(); etiquet = getEtiquette(); sinon root = m; etiquette = spécifique; fin si 3: print root, etiquette;

24 Résultats Extraction des formes dérivées des mots arabes par des automates déterministes 24

25 Résultats Extraction des formes dérivées des mots arabes par des automates déterministes 25

26 Conclusion et Perspectives Extraction des formes dérivées des mots arabes par des automates déterministes 26 Le processus de Racinisation abordé dans ce travail, consiste à représenter chaque forme des mots arabes, par un automate adéquat Et comme perspectives : Comparaison avec Darweesh; Khoja Fonction: inverse: Tassriif Incorporation du module « Raciniseur » dans un moteur de recherche pour évaluation


Télécharger ppt "Extraction des formes dérivées des mots arabes par des automates déterministes Faculté des science Rabat - AgdalGroupe GSCM - Laboratoire LRIT *Jamal JAIT,"

Présentations similaires


Annonces Google