La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

UNIVERSITE DE LA MANOUBA

Présentations similaires


Présentation au sujet: "UNIVERSITE DE LA MANOUBA"— Transcription de la présentation:

1 UNIVERSITE DE LA MANOUBA
ECOLE NATIONALE DES SCIENCES DE L’INFORMATIQUE LABORATOIRE RIADI Un système multi-agent pour la détection et la correction des erreurs cachées en langue Arabe Chiraz BEN OTHMANE Fériel BEN FRAJ Mohamed BEN AHMED

2 Plan Quelles difficultés pour l’arabe ? Typologie des erreurs cachées
Présentation des erreurs cachées Quelles difficultés pour l’arabe ? Typologie des erreurs cachées La solution multi-agent Expérimentation et résultats Conclusion et perspectives Le plan de cet exposé est le suivant : Après une présentation générale des erreurs cachées, je traiterai d’une manière détaillé du problème des err cachées en langue arabe En suite, je décrirai successivement la classification que nous avons adoptée pour ce err La solution multi-agent proposée À la fin je présenterai l’évaluation du système réalisé En conclusion j’exposerai le bilan de cet expérience ainsi que quelques perspectives de ce travail

3 Erreurs cachées Ce travail s’intéresse aux [COU, 94] en langue arabe:
erreurs de nature orthographique produisant des mots lexicalement valides. présentent 25% à 40% parmi l’ensemble des erreurs orthographiques dans des corpus en anglais [VER, 02]. Exemple Le jardinier utilise le gâteau pour bêcher la terre (râteau)

4 Problématique Aucune travail de recherche sur les erreurs cachées en langue arabe Particularités de la langue arabe La détection/correction des erreurs cachées touchent des niveaux d’analyse linguistique avancées: syntaxique, sémantique et pragmatique.

5 Quelles difficultés pour la langue arabe?
L’agglutination: l’ajout des enclinomènes aux formes simples Une erreur cachée peu être la conséquence d’une opération d’ajout ou d’omission d’un enclionomène L’ambiguïté grammaticale : les mots arabes sont très ambigus grammaticalement (5,63 en voyellé, 8,71 en non voyellé) [DEB, 02] Pourquoi mettre la voyellation alors que nous travaillons sur l’Arabe non voyellé Une erreur cachée peut être dûe à une confusion dans l’interprétation grammaticale des formes textuelles

6 Quelles difficultés pour la langue arabe?(suite)
La proximité lexicale: les mots en arabe sont lexicalement très voisins les uns des autres à une erreur d’édition près (ex: كتب, كسب) (nombre moyen de formes voisines : 26,5 pour l’arabe, 3,5 pour le français et 3 pour l’anglais ) Le risque de commettre une erreur cachée sera plus important en arabe que pour d’autres langues La taille de la liste des candidats à la correction d’une erreur cachée sera très grande

7 Typologie des erreurs cachées
Anomalies syntaxiques sémantiques Incomplétude sémantiques Violation des règles d’accord Erreurs liées à la transitivité des verbes Incompatibilité sémantiques Structures agrammaticales Exemple اصطاد الصياد سكة كبيرة) سمكة( Le pêcheur a pêché une grande voie (poisson) Exemple ﺍﻠﻓﺘـاﺓ ﺠﻤﻴﻞ) ﺠﻤﻴﻠﺔ( La fille est beau (belle) Exemple جلس ﺍﻠﻤدير في ﻧﻛﺘﺒﻪ ) ﻤﻛﺘﺒﻪ( Le directeur s’est assis dans nous l’écrivons (son bureau) Exemple ﻫـاﺘﻒ ﺍﻠﻮﻠﺪ لصديقه) ﺼﺪﻴﻗﻪ( Le garçon a appelé à son ami (son ami) Exemple نام الرجل يرتاح (ليرتاح) L’homme s’est endormi il se repose (pour se reposer)

8 Hypothèses de travail L’arabe non voyellé
Erreurs typographiques du type : Ajout d’un caractère, Omission d’un caractère Substitution d’un caractère par un autre Interversion de deux caractères adjacents Une seule erreur d’édition par mot (90% des cas) [HAM, 93] Un seul mot erroné par phrase

9 Architecture multi-agent
Solution proposée Architecture multi-agent Nécessité d’optimisation du temps de réponse Nécessité de collaboration, compétition et de partage d’informations au sein du système Nécessité d’interdépendance entre les différentes phases d’analyse linguistique L’application est composite, complexe et hiérarchique

10 L’architecture du système
Texte analysé Texte brut Analyseur Morpho- syntaxique Groupe sémantique d’agents Groupe syntaxique d’agents Candidats Agent Coordinateur Erreur cachée Candidats triés Agent correction Candidats minimisés

11 Le groupe syntaxique d’agents
Agent Accord Agent Accord INFORMER Agent superviseur INFORMER Agent Transitivité ALERTE Agent Compatibilité grammaticale Agent Correction

12 L’agent Accord Utilise une base de règles d’accord pour la vérification des contraintes d’accord dans la phrase. Exemple de règle d’accord: ‘Un pronom démonstratif appelé ״ إشارة اسم ״ prend le genre et le nombre du mot qu’il remplace’. La base est construite manuellement et contient environ 800 règles. VGprec VGsuiv Genre Nombre Détermination Personne P10 S20 G1 N D0 F0 P10 S23 G1 N D0 F0 P10 S34 G1 N D0 F0 P10 S37 G1 N D0 F0 P10 S48 G1 N D0 F0

13 L’agent Transitivité Utilise les règles de transitivité pour détecter les erreurs liées à la transitivité. Exemple de règle de transitivité: Si le verbe est transitif direct alors il doit être suivi d’un groupe nominal accusatif’.

14 L’agent compatibilité grammaticale
Utilise une base de trigrammes d’hyperVGs pour vérifier la validité de la structuration syntaxique d’une phrase. La forme d’un hyperVG: Une matrice ternaire de succession d’hyperVGs. VGProclitique+VGRadical+VGEnclitique HVG1 HVG HGV3 Licite P S T L1 P S T L1 P S T L1 P S T L1 P S T L1

15 Le groupe sémantique d’agents
Agent Cooccurrence INFORMER Agent Coordinateur Agent superviseur ALERTE INFORMER Agent Répétition Agent Correction

16 L’agent Cooccurrence « Chaque mot d’une phrase possède une affinité sémantique avec ses voisins » recherche d’informations collocationnelles Une association habituelle de deux ou plusieurs termes (collocats) au sein d’un discours P(mi ) la probabilité d’observer mi, P(cj ) la probabilité d’observer cj , et P(mi , cj) la probabilité de les observer ensemble. recherche des cooccurrences ordinaires La fréquence d’occurrence du mot cible au sein du contexte où il a été mis mi le mot cible de l’analyse C l’ensemble des mots du contexte qui l’entoure.

17 L’agent Répétition « Les mots ou plus précisément les lemmes des mots d’un même texte ont tendance à se répéter » recherche de répétition li le lemme du mot mi

18 L’agent Coordinateur Combine les résultats trouvés par les deux agents Cooccurrence et Répétition avec la formule linéaire: Un mot mi est considéré valide sémantiquement si sa fréquence F(mi) est supérieure à une valeur seuil F(mi ) la fréquence totale d’apparition du mot mi au sein du texte sont trois coefficients liés aux trois probabilités contextuelles calculées , et

19 L’agent Correction Agent Correction Agent Correction Agent Correction
Agent superviseur syntaxique Liste des candidats à la correction minimisée et triée Agent Correction L’erreur cachée détectée Phrases candidates à la correction Agent Correction Agent Correction L’erreur cachée détectée Agent superviseur sémantique Liste minimisée des candidats à la correction

20 Expérimentations et Résultats
L’implémentation: Le groupe syntaxique d’agents L’agent Correction (génération et tri). Le groupe sémantique d’agents Le corpus de test: 750 formes textuelles 100 erreurs cachées (du type syntaxique)

21 Evaluation de la détection
Résultats de la détection syntaxique Précision Rappel Bruit Silence 80% 77% 20% 23% Rappel 77 % Silence 23 Bruit 20 Précision 80

22 Evaluation de la correction
Avant la minimisation de la liste des candidats Couverture Précision Ambiguïté Proposition Rang 100% 82,5 8,7 Après la minimisation de la liste des candidats Couverture Précision Ambiguïté Proposition Rang 93,3% 86,6% 18,4 2,8 Minimisation de 77%

23 Conclusion et Perspectives
La partie du système implémentée a donné des résultats satisfaisants Agrandir le corpus de test Compléter et améliorer les règles syntaxiques Implémenter le groupe sémantique d’agents Cloner quelques agents

24 Merci pour votre attention

25 Anomalies syntaxiques vs sémantiques
Une anomalie syntaxique et sémantique Exemple ضربت الطفل بكى (فبكى) Une anomalie purement syntaxique أصاب الصياد ظبي) ظبيا( Une anomalie purement sémantique اصطاد الصياد سكة كبيرة) سمكة(

26 Collaboration entres les groupes d’agents
Agent superviseur sémantique Agent superviseur syntaxique Une anomalie syntaxique Une anomalie sémantique Une anomalie à la fois syntaxique et sémantique

27 Les anomalies syntaxiques
Violation des règles d’accord Contraintes spécifiques à la grammaire qui assurent la compatibilité morpho-syntaxique entre les mots d’une phrase Exemple ﺍﻠﻓﺘـاﺓ ﺠﻤﻴﻞ) ﺠﻤﻴﻠﺔ( La fille est beau (belle)

28 Les anomalies syntaxiques (2)
Erreur liée à la transitivité indique la possibilité pour un verbe d’avoir un complément d’objet Exemple ﻫـاﺘﻒ ﺍﻠﻮﻠﺪ لصديقه) ﺼﺪﻴﻗﻪ( Le garçon a appelé à son ami (son ami)

29 Les anomalies syntaxiques (3)
Structure agrammaticale ne respecte pas les règles d’agencement des catégories grammaticales au sein d’une phrase Exemple جلس ﺍﻠﻤدير في ﻧﻛﺘﺒﻪ ) ﻤﻛﺘﺒﻪ( Le directeur s’est assis dans nous l’écrivons (son bureau)

30 Les anomalies sémantiques
L’incompatibilité sémantique Injection d’un mot dans un contexte sémantique qui n’est pas le sien Exemple اصطاد الصياد سكة كبيرة) سمكة( Le pêcheur a pêché une grande voie (poisson)

31 Les anomalies sémantiques (2)
L’incomplétude sémantique L’oubli de mots ou de particules dont le sens est indispensable à l’interprétation de la phrase Exemple ضربت الطفل بكى (فبكى) J’ai frappé l’enfant il a pleuré (alors il a pleuré)


Télécharger ppt "UNIVERSITE DE LA MANOUBA"

Présentations similaires


Annonces Google