Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Faculté des science Rabat - Agdal
Groupe GSCM - Laboratoire LRIT Extraction des formes dérivées des mots arabes par des automates déterministes *Jamal JAIT, **Abderrahim El Qadi, *Driss Aboutajeddine
2
Problématique Complexe et très fluctuée, la langue arabe nécessite un outil de Racinisation robuste, Pour une meilleure performance en terme d’indexation et de recherche d’information. Extraction des formes dérivées des mots arabes par des automates déterministes
3
Plan Définition & Approche Rappel sur la théorie des automates
Le cas du langage arabe La dérivation Automate reconnaissant le langage arabe Application java Résultats Conclusion et perspectives Extraction des formes dérivées des mots arabes par des automates déterministes
4
Définition & Approche Le processus de Racinisation est un processus qui permet de prendre en entrée un mot, pour en tirer la racine d’où il est dérivé. Notre approche se base sur l’association d’un automate fini déterministe pour chaque forme de mot. Extraction des formes dérivées des mots arabes par des automates déterministes
5
Rappel sur la théorie des automates
Un automate A est défini comme suit: A = (Σ, E, Eo, F, δ) où : Σ : son alphabet E : l’ensemble des états initiaux Eo: l’ensemble des états initiaux F: l’ensemble des états finaux δ : un ensemble fini de transitions Le langage reconnu par A est noté L(A) Exemple : mots binaire ayant u = 0 ou u = 01 comme préfixe suivi d’une suite de « 01 » et ayant v = (0)* comme suffixe Σ = {a=0,b=1} E : {1;2;3;4} Eo: {1;2} F: {4} δ = {(1;0;2), (2;0; 3), (3;1;2) ,(3;1;4) ,(4;0;4)} Exemple de chaines reconnues: 001 Ainsi L(A) = {w = umv / u = 0 | vide et m = (01)*01 et v = vide | 0*} Extraction des formes dérivées des mots arabes par des automates déterministes
6
Le cas du langage arabe Les mots arabes se décomposent en trois grandes catégories : Pronoms (al horouf) : fixes et dénombrables Noms (al asma-a) : fixes ou obtenus par dérivation Verbes (al af3al) : ils suivent différents schèmes : 21 schèmes. De chacun d’eux se dérive un ensemble d’autres schèmes correspondants aux : nom du sujet, nom du complément, schème d’exagération, substantif...etc. Extraction des formes dérivées des mots arabes par des automates déterministes
7
La dérivation en arabe(1)
Les verbes : Les verbes se décomposent en deux catégories : Non dérivable (jaamid) : ليس, نعم, حبذا … Dérivables (Motassarrif) : جحد, علم... La dérivation des verbes de la 2ième catégorie peut donner naissance à d’autres verbes : كتب donne (كاتب -- تكاتب-- اكتتب ) Ainsi qu’à des noms : كتب donne كاتِبٌ كاتِبَةٌ مُتَكاتِبٌ Extraction des formes dérivées des mots arabes par des automates déterministes
8
La dérivation en arabe(2)
Les verbes se dérivent suivant 3 temps: Le présent ou Al modari3 Le passé ou Al maadi Et l’impératif ou Al Amr Exemple: Article Verbe Al modaari3 Al maadi Al Amr هم ils/elles قتل يقتلون قتلوا اقتلوا Extraction des formes dérivées des mots arabes par des automates déterministes
9
Automate reconnaissant le langage arabe(1)
Soit ∑ = l’alphabet arabe ∑c = {alef, yaa, waw, alef Maqsoura, tah Marbouta} = {ة ى و ي ا} : l’ensemble des lettres communes aux mots arabes ∑m = {alef avec Hamza, noon, yaa, taa} = {ت ي ن أ}: lettres introduisant le temps présent. Soit LA = langage arabe. Et L0, L1 et L2 les trois sous langages de LA où: Extraction des formes dérivées des mots arabes par des automates déterministes
10
Automate reconnaissant le langage arabe(2)
L0 = {m € LA / racine(m) est constitué de lettres li appartenant à ∑ -∑c} L2 = {m € LA / m est spécifique} L1 = LA – L0 U L2 : les mots dérivés des verbes dites Mo3talla Il est facile de constater que L0, L1, L2 définissent une partition de LA : L0∩L1, L0∩L2 et L1∩L2 sont vide LA = L0 U L1 U L2 Construction de L0 : Soit L0 = L3 U L4 Où : L3 = {m € L0 / |racine(m)|=3} L4 = {m € L0 / |racine(m)|>3} Extraction des formes dérivées des mots arabes par des automates déterministes
11
Automate reconnaissant le langage arabe(3)
Dans notre approche, pour chaque schème de verbe on associe trois automates : A_fverbe_present A_fverbe_passé A_fverbe_Amr Et pour chaque nom un automate A_fnom Extraction des formes dérivées des mots arabes par des automates déterministes
12
Automate reconnaissant le langage arabe(4)
Exemple A_fa3ala_present س ت،ي،أ،ن l ف،ل l S0 S1 S f 3 l l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،س λ و ه ن ك D3 D1 D2 ه،ك ه،ك ن ه،ك ه D4 D5 ن D8 ه،ك ا D11 ن،م م D7 D10 ا ا D6 D9 Extraction des formes dérivées des mots arabes par des automates déterministes
13
Automate reconnaissant le langage arabe(5)
Exemple fa3ala : فَسَيُعَلِّمْكَهُمَا س ت،ي،أ،ن ع ل ف،ل S0 S1 S f 3 l م l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،س λ و ه ن ك D3 D1 D2 ه،ك ه،ك ن ه،ك ه D4 D5 ن D8 ه،ك ا D11 ن،م م D7 D10 ا ا D6 D9 Extraction des formes dérivées des mots arabes par des automates déterministes
14
Automate reconnaissant le langage arabe(6)
Exemple: A_infa3ala_passé و،ل،ف ا ن l l S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l D ت ن،ا D1 ن و م D2 و D4 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes
15
Automate reconnaissant le langage arabe(7)
Exemple: وانصرفوا و،ل،ف ا ن ص ر S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ف D ت ن،ا D1 ن و م D2 و D4 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes
16
Automate reconnaissant le langage arabe(8)
Exemple: A_ifta3ala_Amr و،ف ا l ت l S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l D و ا،ن،ي D2 ه D1 ه ه D3 م ا ن D3 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes
17
Automate reconnaissant le langage arabe(9)
Exemple: امتحنهما و،ف ا م ت ح S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ن D و ا،ن،ي D2 ه D1 ه ه D3 م ا ن D3 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes
18
Automate reconnaissant le langage arabe(10)
Exemple: A_fa3il ت D8 D9 ا ل ،ب ،ك ه،ك l ا l l ه،ك S f A 3 l م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك ه،ك و،ف ،ب l ا l ا S1 f A 3 ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ا l l l ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes
19
Automate reconnaissant le langage arabe(11)
Exemple: بالحاملين ت D8 D9 ا ل ،ب ،ك ه،ك l ا l l ه،ك S f A 3 l م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك l ه،ك و،ف ،ب ا l ا S1 f A 3 ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ح ا م ل ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes
20
Automate reconnaissant le langage arabe(12)
Exemple: لمالكتيكما ت D8 D9 ا ل ،ب ،ك ه،ك م ا ل ك ه،ك S f A 3 l م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك l ه،ك و،ف ،ب ا l ا S1 f A 3 ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ا م ل ح ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes
21
Automate reconnaissant le langage arabe(13)
Exemple A_Wa3ala_present س ت،ي،أ،ن l ف،ل S0 S1 S 3 l l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،س λ و ن ه،ك D1 D2 ه،ك ن ه،ك D3 D4 ه،ك ا ن،م D5 ا D6 D7 Extraction des formes dérivées des mots arabes par des automates déterministes
22
Automate reconnaissant le langage arabe(14)
Exemple Wa3ala : فسيزنهما س ت،ي،أ،ن ز ف،ل S0 S1 S 3 l ن l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،س λ و ن ه،ك D1 D2 ه،ك ن ه،ك D3 D4 ه،ك ا ن،م D5 ا D6 D7
23
Classes sémantiques Ci
Application java Document Di Algorithme: Raciniseur Soit m un mot 1: chercher les automates dont l ’entrée correspond à m[0] 2: si m est accepté root = getRoot(); etiquet = getEtiquette(); sinon root = m; etiquette = ‘ spécifique’; fin si 3: print root, etiquette; Prétraitement BD mots vides Raciniseur Di_INDEX Table lexicale Di (Mij,Fij) METRIQUE SC Maker Classes sémantiques Ci coMat maker Extraction des formes dérivées des mots arabes par des automates déterministes
24
Résultats الأهداف أهداف af3al الأشياء أشياء أطوال الأجسام أجسام
الأقمار أقمار المسافة مساف fa33al المسارات مسار بيانات بيان البيانات الدراسة دراس المثال مثال أقدم قدم fa3ala تحلق حلق أبعد بعد تقدم أعظم عظم تقدمه يجعل جعل العريضة عريض fa3iil العديد عديد سريع دقيقة دقيق الطبيعية طبيع والقريب قريب صغيرة صغير شريط Extraction des formes dérivées des mots arabes par des automates déterministes
25
Résultats الجاذبية جاذب fa3il مائلة مائل الجانب جانب ثابت عالم الثالث
المعلومات معلوم maf3oul مجموعة مجموع مشمولة مشمول مفهوم مجموعات معلومات تنتقل نتقل ifta3ala تختلف ختلف تلتقطها لتقط تشتمل شتمل تمتلك متلك انتقلت انتقل تعتمد عتمد الاقتصادية اقتصاد ifti3al والاقتصادية الالتزام التزام احتياجات احتياج الارتفاعات ارتفاع امتصاص الاكتشافات اكتشاف Extraction des formes dérivées des mots arabes par des automates déterministes
26
Conclusion et Perspectives
Le processus de Racinisation abordé dans ce travail, consiste à représenter chaque forme des mots arabes, par un automate adéquat Et comme perspectives : Comparaison avec Darweesh; Khoja Fonction: inverse: Tassriif Incorporation du module « Raciniseur » dans un moteur de recherche pour évaluation Extraction des formes dérivées des mots arabes par des automates déterministes
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.