UNIVERSITE DE LA MANOUBA

Slides:



Advertisements
Présentations similaires
Aides logicielles à l'écriture
Advertisements

Objectifs de la séance Aujourd'hui, nous allons apprendre à distinguer certains homophones grammaticaux. A la fin de la séance, vous serez capables de.
E1 E1 E1 E1 E1 E1 E1 E1 E2 E2 E2 E2 E2 E2 E3 E3 E3 E3 E3 E4 E4 E4 E4
GESTION DE PORTEFEUILLE chapitre n° 7
Bilan orthophonique du langage oral
Olivier Kraif, Agnès Tutin LIDILEM
Les TESTS STATISTIQUES
M.E.D.A.L. Module dEnseignement à Distance pour lArchitecture Logicielle Alain VAILLY Diapositive n° 1 IUP MIAGE - Université de NANTES IUP-MIAGE 3ème.
Application de réseaux bayésiens à la détection de fumées polluantes
Mise en œuvre d’une démarche et d’un outil de gestion de « connaissances métier » basés sur la collaboration. Cyril BEYLIER
Les TESTS STATISTIQUES
Analyse et structuration thématiques
Par Aline Mahot et Charlyne Routier
EVALUATION DES RISQUES
Introduction : Compilation et Traduction
Cours présentielle avec 1er année.
Cordial, le TAL et les aides à la rédaction
Sélection automatique d’index et de vues matérialisées
ARC RAPSODIS Reconnaissance Automatique de la Parole Suivie et Orientée par Des Informations Syntaxico-Sémantiques PAROLE – METISS – TALARIS – TEXMEX –
L’observation réfléchie de la langue au cycle 3
Introduction : Compilation et Traduction
TAL (Traitement automatique du langage)
RÉSOLUTION DE PROBLÈMES
Revue de Projet : Sondages en Lignes 15 mars 2010 Coach : Clément CROCHEMORE Tracker : Mélissa PETIT Client : Elie LESUEUR Testeurs : Paul TOUTAIN et Thierry.
Objectifs du chapitre 12: Interprétation des résultats
Bases de données lexicales
Maîtrise de la langue française
Reconnaissance Vocale
Qu’est-ce qu’une phrase?
Le Sémiographe Outil générique pour effectuer des opérations texte sens texte ou texte sens actions
Une approche intégrée pour la normalisation des extragrammaticalités de la parole spontanée Mohamed-Zakaria KURDI CLIPS – IMAG.
Forum des Industries de la Langue, 17 mars 2010
Chapitre 3 Syntaxe et sémantique.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
COLLÈGE BOURGET         Titre du laboratoire souligné         Par: Nom 1 Nom 2 Nom 3 20_         Travail présenté à: Mme Bussières Sciences et technologies.
8èmes Journées INTEX/NooJ
Recherche par mots-clés vs recherche en langue naturelle.
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
la maîtrise de la langue française Inspection Pédagogique Régionale
Les techniques des moteurs de recherche
TRAITEMENT INSTRUMENTÉ DE CORPUS
La syntaxe du primaire au secondaire : portrait des élèves et pistes d’interventions Pascale Lefrançois, Isabelle Montésinos- Gelet, Dominic Anctil, Darrin.
Etude d’une situation d’apprentissage : un cours de grammaire Les homonymes grammaticaux.
Méthodologie pour la structuration semi- automatique d’un corpus lexicographique bilingue : le cas du dictionnaire français-kabyle Mahfoud MAHTOUT Université.
Programmation linéaire en nombres entiers
ETUDE DE LA LANGUE FRANCAISE Grammaire – Vocabulaire – Orthographe
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
Aide à la rédaction. Plan L’aide à la rédaction : principes et outils La correction orthographique –Historique –Modélisation linguistique –Evaluation.
STATISTIQUES – PROBABILITÉS
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
AMÉLIORATIONS ET ANALYSES RAPPORT : OPTIMISATION DE L’EXPLOITATION COMMERCIALE Groupe Athena.
Dominique LAURENT Patrick SEGUELA
FRANÇAIS Les items en vert et en rouge sont cliquables 0% 20% 40% 60% 80% 100%
Correspondance - Équivalence
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
L’enseignement de spécialité SLAM
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Le Traitement Automatique des Langues (TAL)
Quand j’écris un texte…
Approche de tutorat par niveaux Préparation aux rédactions littéraires Julie Beauchemin en collaboration avec Dominique Lemay.
Règles d’or à suivre en rédaction
Eliminer les fautes d’orthographe Grammaticale Lexicale
Progression/Programmation – Français (1/3)
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
Types de pronoms.
NEDERLEX : un outil en ligne d'aide à la lecture de textes en langue étrangère. G. Deville - M. Miceli (Ecole des Langues Vivantes - FUNDP) L. Dumortier.
LE COMPLÉMENT D’OBJET(CO ) GROUPE 12. DÉFINITION DU COMPLÉMENT D’OBJET(C0) Le CO ou complément du verbe est un complément essentiel qui fait partie du.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Chapitre 5 Interprétation des données d’enquête 1.
Correcteurs automatiques 25/09/2016. Nom, Prénom2 Qu'est-ce que c'est ? ● Un correcteur automatique est un outil permettant d'analyser un texte afin de.
Transcription de la présentation:

UNIVERSITE DE LA MANOUBA ECOLE NATIONALE DES SCIENCES DE L’INFORMATIQUE LABORATOIRE RIADI Un système multi-agent pour la détection et la correction des erreurs cachées en langue Arabe Chiraz BEN OTHMANE Fériel BEN FRAJ Mohamed BEN AHMED

Plan Quelles difficultés pour l’arabe ? Typologie des erreurs cachées Présentation des erreurs cachées Quelles difficultés pour l’arabe ? Typologie des erreurs cachées La solution multi-agent Expérimentation et résultats Conclusion et perspectives Le plan de cet exposé est le suivant : Après une présentation générale des erreurs cachées, je traiterai d’une manière détaillé du problème des err cachées en langue arabe En suite, je décrirai successivement la classification que nous avons adoptée pour ce err La solution multi-agent proposée À la fin je présenterai l’évaluation du système réalisé En conclusion j’exposerai le bilan de cet expérience ainsi que quelques perspectives de ce travail

Erreurs cachées Ce travail s’intéresse aux [COU, 94] en langue arabe: erreurs de nature orthographique produisant des mots lexicalement valides. présentent 25% à 40% parmi l’ensemble des erreurs orthographiques dans des corpus en anglais [VER, 02]. Exemple Le jardinier utilise le gâteau pour bêcher la terre (râteau)

Problématique Aucune travail de recherche sur les erreurs cachées en langue arabe Particularités de la langue arabe La détection/correction des erreurs cachées touchent des niveaux d’analyse linguistique avancées: syntaxique, sémantique et pragmatique.

Quelles difficultés pour la langue arabe? L’agglutination: l’ajout des enclinomènes aux formes simples Une erreur cachée peu être la conséquence d’une opération d’ajout ou d’omission d’un enclionomène L’ambiguïté grammaticale : les mots arabes sont très ambigus grammaticalement (5,63 en voyellé, 8,71 en non voyellé) [DEB, 02] Pourquoi mettre la voyellation alors que nous travaillons sur l’Arabe non voyellé Une erreur cachée peut être dûe à une confusion dans l’interprétation grammaticale des formes textuelles

Quelles difficultés pour la langue arabe?(suite) La proximité lexicale: les mots en arabe sont lexicalement très voisins les uns des autres à une erreur d’édition près (ex: كتب, كسب) (nombre moyen de formes voisines : 26,5 pour l’arabe, 3,5 pour le français et 3 pour l’anglais ) Le risque de commettre une erreur cachée sera plus important en arabe que pour d’autres langues La taille de la liste des candidats à la correction d’une erreur cachée sera très grande

Typologie des erreurs cachées Anomalies syntaxiques sémantiques Incomplétude sémantiques Violation des règles d’accord Erreurs liées à la transitivité des verbes Incompatibilité sémantiques Structures agrammaticales Exemple اصطاد الصياد سكة كبيرة) سمكة( Le pêcheur a pêché une grande voie (poisson) Exemple ﺍﻠﻓﺘـاﺓ ﺠﻤﻴﻞ) ﺠﻤﻴﻠﺔ( La fille est beau (belle) Exemple جلس ﺍﻠﻤدير في ﻧﻛﺘﺒﻪ ) ﻤﻛﺘﺒﻪ( Le directeur s’est assis dans nous l’écrivons (son bureau) Exemple ﻫـاﺘﻒ ﺍﻠﻮﻠﺪ لصديقه) ﺼﺪﻴﻗﻪ( Le garçon a appelé à son ami (son ami) Exemple نام الرجل يرتاح (ليرتاح) L’homme s’est endormi il se repose (pour se reposer)

Hypothèses de travail L’arabe non voyellé Erreurs typographiques du type : Ajout d’un caractère, Omission d’un caractère Substitution d’un caractère par un autre Interversion de deux caractères adjacents Une seule erreur d’édition par mot (90% des cas) [HAM, 93] Un seul mot erroné par phrase

Architecture multi-agent Solution proposée Architecture multi-agent Nécessité d’optimisation du temps de réponse Nécessité de collaboration, compétition et de partage d’informations au sein du système Nécessité d’interdépendance entre les différentes phases d’analyse linguistique L’application est composite, complexe et hiérarchique

L’architecture du système Texte analysé Texte brut Analyseur Morpho- syntaxique     Groupe sémantique d’agents Groupe syntaxique d’agents  Candidats Agent Coordinateur Erreur cachée   Candidats triés Agent correction  Candidats minimisés  

Le groupe syntaxique d’agents Agent Accord Agent Accord  INFORMER Agent superviseur INFORMER Agent Transitivité ALERTE Agent Compatibilité grammaticale Agent Correction

L’agent Accord Utilise une base de règles d’accord pour la vérification des contraintes d’accord dans la phrase. Exemple de règle d’accord: ‘Un pronom démonstratif appelé ״ إشارة اسم ״ prend le genre et le nombre du mot qu’il remplace’. La base est construite manuellement et contient environ 800 règles. VGprec VGsuiv Genre Nombre Détermination Personne P10 S20 G1 N1 D0 F0 P10 S23 G1 N1 D0 F0 P10 S34 G1 N1 D0 F0 P10 S37 G1 N1 D0 F0 P10 S48 G1 N1 D0 F0

L’agent Transitivité Utilise les règles de transitivité pour détecter les erreurs liées à la transitivité. Exemple de règle de transitivité: Si le verbe est transitif direct alors il doit être suivi d’un groupe nominal accusatif’.

L’agent compatibilité grammaticale Utilise une base de trigrammes d’hyperVGs pour vérifier la validité de la structuration syntaxique d’une phrase. La forme d’un hyperVG: Une matrice ternaire de succession d’hyperVGs. VGProclitique+VGRadical+VGEnclitique HVG1 HVG2 HGV3 Licite P+126+ S+154+ T+193+38 L1 P3+66+ S+14+ T+53+ L1 P+103+ S+195+41 T+80+ L1 P+195+41 S+80+ T+156+ L1 P58+53+ S+78+ T+195+ L1

Le groupe sémantique d’agents Agent Cooccurrence INFORMER Agent Coordinateur  Agent superviseur ALERTE INFORMER Agent Répétition Agent Correction

L’agent Cooccurrence « Chaque mot d’une phrase possède une affinité sémantique avec ses voisins » recherche d’informations collocationnelles Une association habituelle de deux ou plusieurs termes (collocats) au sein d’un discours P(mi ) la probabilité d’observer mi, P(cj ) la probabilité d’observer cj , et P(mi , cj) la probabilité de les observer ensemble. recherche des cooccurrences ordinaires La fréquence d’occurrence du mot cible au sein du contexte où il a été mis mi le mot cible de l’analyse C l’ensemble des mots du contexte qui l’entoure.

L’agent Répétition « Les mots ou plus précisément les lemmes des mots d’un même texte ont tendance à se répéter » recherche de répétition li le lemme du mot mi

L’agent Coordinateur Combine les résultats trouvés par les deux agents Cooccurrence et Répétition avec la formule linéaire: Un mot mi est considéré valide sémantiquement si sa fréquence F(mi) est supérieure à une valeur seuil F(mi ) la fréquence totale d’apparition du mot mi au sein du texte sont trois coefficients liés aux trois probabilités contextuelles calculées , et

L’agent Correction Agent Correction Agent Correction Agent Correction Agent superviseur syntaxique Liste des candidats à la correction minimisée et triée Agent Correction L’erreur cachée détectée Phrases candidates à la correction Agent Correction Agent Correction L’erreur cachée détectée Agent superviseur sémantique Liste minimisée des candidats à la correction

Expérimentations et Résultats L’implémentation: Le groupe syntaxique d’agents L’agent Correction (génération et tri). Le groupe sémantique d’agents Le corpus de test: 750 formes textuelles 100 erreurs cachées (du type syntaxique)

Evaluation de la détection Résultats de la détection syntaxique Précision Rappel Bruit Silence 80% 77% 20% 23% Rappel 77 % Silence 23 Bruit 20 Précision 80

Evaluation de la correction Avant la minimisation de la liste des candidats Couverture Précision Ambiguïté Proposition Rang 100% 82,5 8,7 Après la minimisation de la liste des candidats Couverture Précision Ambiguïté Proposition Rang 93,3% 86,6% 18,4 2,8 Minimisation de 77%

Conclusion et Perspectives La partie du système implémentée a donné des résultats satisfaisants Agrandir le corpus de test Compléter et améliorer les règles syntaxiques Implémenter le groupe sémantique d’agents Cloner quelques agents …

Merci pour votre attention

Anomalies syntaxiques vs sémantiques Une anomalie syntaxique et sémantique Exemple ضربت الطفل بكى (فبكى) Une anomalie purement syntaxique أصاب الصياد ظبي) ظبيا( Une anomalie purement sémantique اصطاد الصياد سكة كبيرة) سمكة(

Collaboration entres les groupes d’agents Agent superviseur sémantique Agent superviseur syntaxique Une anomalie syntaxique Une anomalie sémantique Une anomalie à la fois syntaxique et sémantique

Les anomalies syntaxiques Violation des règles d’accord Contraintes spécifiques à la grammaire qui assurent la compatibilité morpho-syntaxique entre les mots d’une phrase Exemple ﺍﻠﻓﺘـاﺓ ﺠﻤﻴﻞ) ﺠﻤﻴﻠﺔ( La fille est beau (belle)

Les anomalies syntaxiques (2) Erreur liée à la transitivité indique la possibilité pour un verbe d’avoir un complément d’objet Exemple ﻫـاﺘﻒ ﺍﻠﻮﻠﺪ لصديقه) ﺼﺪﻴﻗﻪ( Le garçon a appelé à son ami (son ami)

Les anomalies syntaxiques (3) Structure agrammaticale ne respecte pas les règles d’agencement des catégories grammaticales au sein d’une phrase Exemple جلس ﺍﻠﻤدير في ﻧﻛﺘﺒﻪ ) ﻤﻛﺘﺒﻪ( Le directeur s’est assis dans nous l’écrivons (son bureau)

Les anomalies sémantiques L’incompatibilité sémantique Injection d’un mot dans un contexte sémantique qui n’est pas le sien Exemple اصطاد الصياد سكة كبيرة) سمكة( Le pêcheur a pêché une grande voie (poisson)

Les anomalies sémantiques (2) L’incomplétude sémantique L’oubli de mots ou de particules dont le sens est indispensable à l’interprétation de la phrase Exemple ضربت الطفل بكى (فبكى) J’ai frappé l’enfant il a pleuré (alors il a pleuré)