Faculté des science Rabat - Agdal

Slides:



Advertisements
Présentations similaires
EMBELLIR SA LECTURE DU SAINT CORAN (Niveau Débutant)
Advertisements

Le moteur
Est Ouest Sud 11 1 Nord 1 Howell 6½ et 7 tables 13 rondes – 26 étuis Laval Du Breuil Adstock, Québec Allez à 2 Est-Ouest Allez à 6 Est-Ouest 6 séries détuis.
Approche graphique du nombre dérivé
Fabrice Lauri, François Charpillet, Daniel Szer
Licence pro MPCQ : Cours
Calcul géométrique avec des données incertaines
Présentation de lapplication Livret personnel de compétences.
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
Classe : …………… Nom : …………………………………… Date : ………………..
Reconnaissance de la parole
Est Ouest Sud 11 1 Nord 1 Individuel 13 joueurs 13 rondes - 26 étuis Laval Du Breuil Adstock, Québec Allez à 2 Est I séries détuis entre les tables.
Est Ouest Sud 11 1 Nord 1 Individuel 17 joueurs 12 rondes - 24 étuis Laval Du Breuil Adstock, Québec I série détuis entre chaque table 5 séries.
Les Prepositions.
Les 3 dimensio ns de la morale et de léthique (activité)
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Auteurs : P. Hellier C. Barillot E. Mémin P.Pérez
1 Intégration numérique garantie de systèmes décrits par des équations différentielles non-linéaires Application à l'estimation garantie d'état et de paramètres.
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
5 Verbes au passé composé 1.Jai eu avoir 2. Jai du devoir.
Sélection automatique d’index et de vues matérialisées
1 Théorie des Graphes Cycle Eulérien. 2 Rappels de définitions On dit qu'une chaîne est un chemin passant par toutes les arêtes du graphe. On dit qu'un.
ARCHITECTURE GLOBALE CAPTAGE Traitement DES des données GRANDEURS
PAFI Référentiel de données par Sonia Watts DGIF (Direction de la gestion et de linformation forestière) 27 octobre 2010 et 3 novembre 2010.
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Analyse lexicale Généralités Expressions rationnelles Automates finis
OLAP : Un pas vers la navigation
Le point le plus près Montage préparé par : André Ross
Université Mouloud Mammeri de Tizi-Ouzou
1 Conduite du changement LA CONDUITE DU CHANGEMENT.
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
La Saint-Valentin Par Matt Maxwell.
Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.
1 Du pixel à lobjet : méthodes stochastiques X. Descombes Projet Ariana Orféo, 14 juin 2005.
Expressions régulières et hash tables
IFT Complexité et NP-complétude
3.1 DÉTERMINANTS (SUITE) Cours 6.
3.2 PRODUIT VECTORIEL Cours 7.
Universté de la Manouba
Gilbert TOUT NEST QUE CALCUL Vous vous êtes certainement déjà demandé ce que voulait dire « se donner à 100% » ?
Notre calendrier français MARS 2014
Ecriture de l’arabe (1) كتابة العربية F.MEZYANE.2006.
Chapitre 3 Syntaxe et sémantique.
Quelle heure est-il ??. THE TIME: OCLOCK IL EST HEURE IL EST + + HEURES etc.
C'est pour bientôt.....
Veuillez trouver ci-joint
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
SUJET D’ENTRAINEMENT n°4
Rappel Modèle analyse-synthèse de la compilation
La droite dans R3 Montage préparé par : André Ross
NORMALISATION DES LANGAGES DE PROGRAMMATION des Automates Programmables Industriels CEI
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
Muslim, Riyaad As-Saaliheen par Imaam An-Nawawee 183 #1012
1 Modèle pédagogique d’un système d’apprentissage (SA)
Expressions régulières et hash tables
10 paires -. 9 séries de 3 étuis ( n° 1 à 27 ) 9 positions à jouer 5 tables Réalisé par M..Chardon.
CALENDRIER-PLAYBOY 2020.
1. Présentation générale du système
USAM BRIDGE H O W E L L -CLASSIQUE
9 paires séries de 3 étuis ( n° 1 à 27 )
Quel est l’intérêt d’utiliser le diagramme de Gantt dans la démarche de projet A partir d’un exemple concret, nous allons pouvoir exploiter plusieurs parties.
Evaluation de fin de séance CORRECTION. Sur ce schéma où est localisée la zone de préparation de commandes ? A B C D A : en C B : en A C : en B D : en.
Module performances et planning du vol
Points Shu du dos Dr Patrick CASALI.
Les Chiffres Prêts?
Etude des performances cinématiques de la plateforme 6 axes
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Transcription de la présentation:

Faculté des science Rabat - Agdal Groupe GSCM - Laboratoire LRIT Extraction des formes dérivées des mots arabes par des automates déterministes *Jamal JAIT, **Abderrahim El Qadi, *Driss Aboutajeddine

Problématique Complexe et très fluctuée, la langue arabe nécessite un outil de Racinisation robuste, Pour une meilleure performance en terme d’indexation et de recherche d’information. Extraction des formes dérivées des mots arabes par des automates déterministes

Plan Définition & Approche Rappel sur la théorie des automates Le cas du langage arabe La dérivation Automate reconnaissant le langage arabe Application java Résultats Conclusion et perspectives Extraction des formes dérivées des mots arabes par des automates déterministes

Définition & Approche Le processus de Racinisation est un processus qui permet de prendre en entrée un mot, pour en tirer la racine d’où il est dérivé. Notre approche se base sur l’association d’un automate fini déterministe pour chaque forme de mot. Extraction des formes dérivées des mots arabes par des automates déterministes

Rappel sur la théorie des automates Un automate A est défini comme suit: A = (Σ, E, Eo, F, δ) où : Σ : son alphabet E : l’ensemble des états initiaux Eo: l’ensemble des états initiaux F: l’ensemble des états finaux δ : un ensemble fini de transitions Le langage reconnu par A est noté L(A) Exemple : mots binaire ayant u = 0 ou u = 01 comme préfixe suivi d’une suite de « 01 » et ayant v = (0)* comme suffixe Σ = {a=0,b=1} E : {1;2;3;4} Eo: {1;2} F: {4} δ = {(1;0;2), (2;0; 3), (3;1;2) ,(3;1;4) ,(4;0;4)} Exemple de chaines reconnues: 001 00100000 010101000000 Ainsi L(A) = {w = umv / u = 0 | vide et m = (01)*01 et v = vide | 0*} Extraction des formes dérivées des mots arabes par des automates déterministes

Le cas du langage arabe Les mots arabes se décomposent en trois grandes catégories : Pronoms (al horouf) : fixes et dénombrables Noms (al asma-a) : fixes ou obtenus par dérivation Verbes (al af3al) : ils suivent différents schèmes : 21 schèmes. De chacun d’eux se dérive un ensemble d’autres schèmes correspondants aux : nom du sujet, nom du complément, schème d’exagération, substantif...etc. Extraction des formes dérivées des mots arabes par des automates déterministes

La dérivation en arabe(1) Les verbes : Les verbes se décomposent en deux catégories : Non dérivable (jaamid) : ليس, نعم, حبذا … Dérivables (Motassarrif) : جحد, علم... La dérivation des verbes de la 2ième catégorie peut donner naissance à d’autres verbes : كتب donne (كاتب -- تكاتب-- اكتتب ) Ainsi qu’à des noms : كتب donne كاتِبٌ كاتِبَةٌ مُتَكاتِبٌ Extraction des formes dérivées des mots arabes par des automates déterministes

La dérivation en arabe(2) Les verbes se dérivent suivant 3 temps: Le présent ou Al modari3 Le passé ou Al maadi Et l’impératif ou Al Amr Exemple: Article Verbe Al modaari3 Al maadi Al Amr هم ils/elles قتل يقتلون قتلوا اقتلوا Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(1) Soit ∑ = l’alphabet arabe ∑c = {alef, yaa, waw, alef Maqsoura, tah Marbouta} = {ة ى و ي ا} : l’ensemble des lettres communes aux mots arabes ∑m = {alef avec Hamza, noon, yaa, taa}   = {ت ي ن أ}: lettres introduisant le temps présent. Soit LA = langage arabe. Et L0, L1 et L2 les trois sous langages de LA où: Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(2) L0 = {m € LA / racine(m) est constitué de lettres li appartenant à ∑ -∑c} L2 = {m € LA / m est spécifique} L1 = LA – L0 U L2 : les mots dérivés des verbes dites Mo3talla Il est facile de constater que L0, L1, L2 définissent une partition de LA : L0∩L1, L0∩L2 et L1∩L2 sont vide LA = L0 U L1 U L2 Construction de L0 : Soit L0 = L3 U L4 Où : L3 = {m € L0 / |racine(m)|=3} L4 = {m € L0 / |racine(m)|>3} Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(3) Dans notre approche, pour chaque schème de verbe on associe trois automates : A_fverbe_present A_fverbe_passé A_fverbe_Amr Et pour chaque nom un automate A_fnom  Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(4) Exemple A_fa3ala_present س ت،ي،أ،ن l ف،ل l S0 S1 S f 3 l l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،س λ و ه ن ك D3 D1 D2 ه،ك ه،ك ن ه،ك ه D4 D5 ن D8 ه،ك ا D11 ن،م م D7 D10 ا ا D6 D9 Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(5) Exemple fa3ala : فَسَيُعَلِّمْكَهُمَا س ت،ي،أ،ن ع ل ف،ل S0 S1 S f 3 l م l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،س λ و ه ن ك D3 D1 D2 ه،ك ه،ك ن ه،ك ه D4 D5 ن D8 ه،ك ا D11 ن،م م D7 D10 ا ا D6 D9 Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(6) Exemple: A_infa3ala_passé و،ل،ف ا ن l l S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l D ت ن،ا D1 ن و م D2 و D4 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(7) Exemple: وانصرفوا و،ل،ف ا ن ص ر S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ف D ت ن،ا D1 ن و م D2 و D4 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(8) Exemple: A_ifta3ala_Amr و،ف ا l ت l S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l D و ا،ن،ي D2 ه D1 ه ه D3 م ا ن D3 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(9) Exemple: امتحنهما و،ف ا م ت ح S0 S1 S f 3 l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ن D و ا،ن،ي D2 ه D1 ه ه D3 م ا ن D3 D3 ا Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(10) Exemple: A_fa3il ت D8 D9 ا ل ،ب ،ك ه،ك l ا l l ه،ك S f A 3 l م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك ه،ك و،ف ،ب l ا l ا S1 f A 3 ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ا l l l ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(11) Exemple: بالحاملين ت D8 D9 ا ل ،ب ،ك ه،ك l ا l l ه،ك S f A 3 l م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك l ه،ك و،ف ،ب ا l ا S1 f A 3 ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ح ا م ل ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(12) Exemple: لمالكتيكما ت D8 D9 ا ل ،ب ،ك ه،ك م ا ل ك ه،ك S f A 3 l م،ن D ت ي ه،ك D7 ي D2 D4 ا ه،ك l ه،ك و،ف ،ب ا l ا S1 f A 3 ت D3 D5 l و،ا ا l S2 l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ل ،ب ل ا م ل ح ا،ي f A 3 l D6 D7 ن ة ت Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(13) Exemple A_Wa3ala_present س ت،ي،أ،ن l ف،ل S0 S1 S 3 l l l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،س λ و ن ه،ك D1 D2 ه،ك ن ه،ك D3 D4 ه،ك ا ن،م D5 ا D6 D7 Extraction des formes dérivées des mots arabes par des automates déterministes

Automate reconnaissant le langage arabe(14) Exemple Wa3ala : فسيزنهما س ت،ي،أ،ن ز ف،ل S0 S1 S 3 l ن l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide l : est n’importe quelle lettre de ∑ -∑c λ : la transition vide ا،ي D ف،ل،س λ و ن ه،ك D1 D2 ه،ك ن ه،ك D3 D4 ه،ك ا ن،م D5 ا D6 D7

Classes sémantiques Ci Application java Document Di Algorithme: Raciniseur Soit m un mot 1: chercher les automates dont l ’entrée correspond à m[0] 2: si m est accepté root = getRoot(); etiquet = getEtiquette(); sinon root = m; etiquette = ‘ spécifique’; fin si 3: print root, etiquette; Prétraitement BD mots vides Raciniseur Di_INDEX Table lexicale Di (Mij,Fij) METRIQUE SC Maker Classes sémantiques Ci coMat maker Extraction des formes dérivées des mots arabes par des automates déterministes

Résultats الأهداف أهداف af3al الأشياء أشياء أطوال الأجسام أجسام الأقمار أقمار المسافة مساف fa33al المسارات مسار بيانات بيان البيانات الدراسة دراس المثال مثال أقدم قدم fa3ala تحلق حلق أبعد بعد تقدم أعظم عظم تقدمه يجعل جعل العريضة عريض fa3iil العديد عديد سريع دقيقة دقيق الطبيعية طبيع والقريب قريب صغيرة صغير شريط Extraction des formes dérivées des mots arabes par des automates déterministes

Résultats الجاذبية جاذب fa3il مائلة مائل الجانب جانب ثابت عالم الثالث المعلومات معلوم maf3oul مجموعة مجموع مشمولة مشمول مفهوم مجموعات معلومات تنتقل نتقل ifta3ala تختلف ختلف تلتقطها لتقط تشتمل شتمل تمتلك متلك انتقلت انتقل تعتمد عتمد الاقتصادية اقتصاد ifti3al والاقتصادية الالتزام التزام احتياجات احتياج الارتفاعات ارتفاع امتصاص الاكتشافات اكتشاف Extraction des formes dérivées des mots arabes par des automates déterministes

Conclusion et Perspectives Le processus de Racinisation abordé dans ce travail, consiste à représenter chaque forme des mots arabes, par un automate adéquat Et comme perspectives : Comparaison avec Darweesh; Khoja Fonction: inverse: Tassriif Incorporation du module « Raciniseur » dans un moteur de recherche pour évaluation Extraction des formes dérivées des mots arabes par des automates déterministes