May 4th – 5th 2009, Rabat, Morocco

Slides:



Advertisements
Présentations similaires
© 2006 Les Éditions de la Chenelière inc., La gestion dynamique: concepts, méthodes et applications, 4 e édition1/14 Chapitre 4 : Le gestionnaire en tant.
Advertisements

Deux facteurs: l’œuf et la poule Position théorique: décrire la langue au niveau de la performance Position théorique: décrire la langue au niveau de la.
Cycle élémentaire Année scolaire Classe de 6 e Discipline : Français Professeur : Andressa Bitar.
L’EIAH AMBRE- ADD 1 Mise en place d’une personnalisation du logiciel à partir de profils d’apprenants Nathalie Guin Marie Lefevre Stéphanie Jean-Daubias.
ARCHITECTURE MULTITENANT CONTAINER DATABASE ET PLUGGABLE DATABASES Pr. A. MESRAR
Calcul de probabilités
Introduction à la linguistique
Utiliser le calcul littéral pour résoudre ou démontrer
Reforme du collège physique chimie au cycle 4
Groupe Départemental Langue française
Faculté d’éducation | Faculty of Education Vidéo 1 Le texte
ELABORER UN CAHIER DES CHARGES Formuler une préconisation
Objectifs pédagogiques et structuration des contenus d’enseignement
ONEE-BE en partenariat avec le RACEE/ASAEE Formation de Formateurs
Algorithme et programmation
Forum des Industries de la Langue, 17 mars 2010
Les Bases de données Définition Architecture d’un SGBD
Politique linguistique pour le plurilinguisme
Les écolabels Ecolabel français Ecolabel européen.
MOT Éditeur de modèles de connaissances par objets typés
Contribution: Revue des études, enquêtes et systèmes d’informations disponibles au niveau de l’INS, pour alimenter la méthode d’analyse et la cartographie.
Couche limite atmosphérique
André Maïsseu et WANG Xingquan Université Versailles-Saint-Quentin-en-Yvelines France L’approche floue en tant qu’outil de la modélisation.
Les « observables » ! Situation A de CCF : de la prise d’information à la constitution d’un profil.
Plans d’expériences: Plans factoriels
Analyse du bulletin officiel Structuration des sujets,
Les synthèses Sources : Guide pédagogique et didactique d’accompagnement du programme de technologie (page 15)
STRATÉGIES ET INSTRUMENTS D´ÉVALUATION
Cyber-Sphinx Séance 2.
Apprendre des mots au cycle 2 Quelle progression ?
STAGE BASSIN Antibes/Valbonne Vendredi 10 février 2017
Semaine #4 INF130 par Frédérick Henri.
Recherches sous Elan.
Implantation d’un îlot ou d’une Chaîne de Production
Tableau de bord des risques
Techniques du Data Mining
Le logiciel HYPERBASE-LATIN :
Stabilité des porteurs horizontaux (Poutres)
Université de Djilali BOUNAAMA KHEMIS MILIANA
Réseaux de neurones appliqués à la reconnaissance de caractères
Deuxième partie LE DOSSIER TECHNIQUE DU MARINGOUIN.
Formation sur les bases de données relationnelles.
Techniques du Data Mining
Diagrammes UML 420-KE2-LG.
Chapitre 3 : Caractéristiques de tendance centrale
USER GUIDE : BASE DE DOCUMENTATION
Programmation Android Première application Android
Programme financé par l’Union européenne
Modélisation objet avec UML
Épreuve écrite E4.1 BTS CG Session /02/2017.
Programme financé par l’Union européenne
Le Diplôme National du Brevet
Pourquoi sommes-nous ici ?
Présentation 4 : Sondage stratifié
Présentation 9 : Calcul de précision des estimateurs complexes
EPITECH 2009 UML EPITECH 2009
Un Mécanisme d‘Adaptation Guidé par le Contexte en Utilisant une Représentation par Objets Manuele Kirsch Pinheiro Laboratoire LSR – IMAG, Équipe SIGMA.
LE SCHEMA CINEMATIQUE.
Le « soin » pensé au nom des personnes handicapées
CHAPITRE 6 Calcul Littéral
Chapitre 8 : Organisation et gestion de données
Reconnaissance de formes: lettres/chiffres
ACTIVITÉS EN MILIEU PROFESSIONNEL
Présenter une méthode d’apprentissage - Aider à la mise en
« L’évaluation au service de la réussite des élèves »
INTELLIGENCE ARTIFICIELLE
Modélisation des SI et de la connaissance
[Nom du club] Résultats de l’enquête.
MOT Éditeur de modèles de connaissances par objets typés
Observation Réfléchie de la Langue.
Transcription de la présentation:

May 4th – 5th 2009, Rabat, Morocco Objet de la recherche Description du phénomène de l’ambiguïté dans la langue arabe; Proposition d’une méthodologie multicritère de désambiguïsation morphosyntaxique appliquée à la langue Arabe; Désambiguïsation morphosyntaxique automatique pour détermination de la catégorie grammaticale la plus probable du mot ambiguë en utilisant une approche décisionnel appelée AMD1. [1] A.M.D. : Aide Multicritère à la Décision; 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Étiquetage morphosyntaxique L’étiquetage consiste à attribuer à chaque unité lexicale et grammaticale un symbole (représentant sa catégorie grammaticale et les informations morphologiques), cette étiquette doit être à la fois concise et précise. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Pourquoi doit-on lever l’ambiguïté ? Pour se permettre une analyse grammaticale correcte, Pour construire des systèmes puissants pour les questions et les réponses dans les langages parlés, Pour construire des systèmes puissants pour la traduction automatique, sachant que la plupart des problèmes dans ce domaine relève de l’ambiguïté, Pour construire des systèmes puissants pour la simplification et résumé des textes, Pour construire des systèmes puissants pour la génération des textes,…etc. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Architecture de notre système Comment on a conçu le système? 3 étapes: Segmentation; Analyse; Désambiguïsation. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Architecture de notre système 2ième Partie 1iere Partie Mot reconnu (Étiqueté ) Texte Module segmentation Module Analyse Mot nom reconnu B.L.G Segments Module désambiguïsation Légende: B.L.G : Base lexicale et grammaticale. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

May 4th – 5th 2009, Rabat, Morocco Système : Description Segmentation Segmentation du texte en phrases; Segmentation de la phrase en mots: - Élimination des signes de ponctuations secondaires et le blanc. خرج عمر من البيت. Segmentation au sein du mot : M -------------> ∑ P + (R, Sch) + ∑ S. Tel que : ∑ P : élément préfixés ; ∑ S : élément suffixés ; R : Racine ; Sch : Schème. M : le mot. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

May 4th – 5th 2009, Rabat, Morocco Système : Description Analyse et étiquetage Unité= (Unité, Étiquette, désignation en français,désignation en arabe, racine*) Exemple: (ذَهَبَ, VAA3PMSIA, Verbe Accompli Actif 3ème Pers. Masc. Singulier Invariable Accusatif, . فعل ماضي مبني للمعلوم للمفرد المذكر الغائب مبني على الفتح ) 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Désambiguïsation : Principe La désambiguïsation est un moyen de lever l’ambiguïté dans le cas ou un mot reçoit plus d’une étiquette. Si Card(Etiq) = 1  alors « Pas de phase de désambiguïsation » Sinon : Si Card (Etiq)  1 alors « phase de désambiguïsation obligataire » 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Désambiguïsation : Principe (Suite) T=m1 m2 m3 ….. mi … mn CG =v1 v2 v3 ….. vi … vn Exemple:  كتب الدرس في القسم. T= كَتَبَ_ فعل ماضي الدرسَ _ مفعول به في _جار القسم_مجرور كُتِبَ ف.م. مبني للمجهول الدرسَ نائب فاعل مجرور فيجار القسم CG= كُتُبُ_مبتدأ الدرسِ_مضاف إليه في_جار القسم_مجرور Légende : T : Texte (une ou plusieurs phrases), chaque phrase est constituée de mots (mi). CG : Catégorie Grammaticale, (vi) valeur correspondante au mot (mi). 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Système : Désambiguïseur Architecture module Mot Module de désambiguïsation Étiquettes candidates Étiquette élue 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Approches existantes de la levée d’ambiguïté Modèle statistique / probabiliste : qui utilise le modèle de chaines de Markov. Modèle par contraintes : qui utilise des règles pour enlever l’ambiguïté. New : Module de désambiguïsation à base d’une approche multicritère. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Désambiguïsation à base d’une approche multicritère Pourquoi une approche multicritère dans le TAL Arabe ? Enchaînement de choix. Contexte linguistique de l’arabe favorisant des critères multiples. Profit souhaité ? Réduire et classer les étiquettes selon un score globale calculé. Condition : Bonne définition des critères d’évaluation. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Approche Analyse Multicritère: Concepts de base Action/scénarios efficace; Relation de dominance; Classement des scénarios. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Approche Analyse Multicritère: Étapes Ensemble d’action (étiquettes condidates); Construction famille cohérente de critères; Génération d’une fonction d’évaluation pour chaque critère; Pondération et Agrégation des critères. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Méthode d’Agrégation TOPSIS : Fondements Historique : TOPSIS est une méthode multicritères développée par Hwang et Yoon en 1981[7]. But : Il s’agit de réduire le nombre de scénarios de désambiguïsation en écartant les scénarios dominés et de classer les scénarios efficaces selon leurs scores globaux calculés. Fondements: Choisir une solution qui se rapproche le plus de la solution idéale (la meilleure sur tous les critères); S’éloigner le plus possible de la pire solution (qui dégrade tous les critères). 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Méthode d’Agrégation TOPSIS : Algorithme Etape1 : Calcul de la matrice de décision normalisée. Etape2 : Calcul de la matrice de décision normalisée pondérée . Etape3 : Détermination des solutions (profils) idéale (a*) et des solutions anti-idéale (a*). Etape4: Calculer la distance euclidienne par rapport aux profils a* et a*; Etape5 : Calculer un coefficient de mesure du rapprochement au profil idéal  (Ci*). Etape6 : Rangement des actions suivant leur ordre de préférences(i.e. en fonction des valeurs décroissantes de Ci* ; i est meilleur que j si Ci*> Cj*). 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Méthode de Pondération Entropie: Idée et Algorithme Idée : L’idée est qu’un critère j est d’autant plus important que la dispersion des évaluations des actions est importante. Ainsi les critères les plus importants sont ceux qui discriminent le plus entre les actions (dans notre cas se sont les étiquettes). Algorithme : Calcul de l’entropie d’un critère « j » par la formule (Ej); Calcul des poids en fonction de la mesure de dispersion (opposée de l’entropie) : Dj = 1 –Ej ; Normalisation des poids par la formule (Wj). 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Présentation de la solution : Démarche et application (1) Etape1 : Construction de la liste des étiquettes, ce qui va générer l’ensemble E. Exemple : "ذهب محمد إلى المدرسة" E={Non commun, Vtype1, Vtype2, Vtype3, Vtype4, Vtype5} Etape2 : Proposons des critères de base - Critère de concordance de voyelles à l’intérieur du mot; La fonction d’évaluation qui va avec c’est l’addition (+), de telle manière, qu’une bonne position d’une voyelle vaut un (1), après application du critère on aura : Non commun (1+1+1=3), Vtype1(1+1+1=3), Vtype2(1+0+1=2), Vtype3(1+0+1=2), Vtype4(0+0+1=1), Vtype5(1+0+0=0). X 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

Présentation de la solution : Démarche et application (2) Etape2 (suite) - Critère de fréquence; Le score de x selon ce critère représente son taux d’apparence calculé sur la base de l’étude statistique dans le corpus utilisé (Max). Les scores spécifiques  sont : Non commun (0,75), Vtype1 (0), Vtype2(0), Vtype3(0), Vtype4(0,25), Vtype5(0,5). et Critère contexte structural. Utilisation des règles par contraintes grammaticale. Etape3 : Utilisation de la méthode d’agrégation(Topsis) et pondération (Entropie). Etape4: Classification des étiquettes selon un ordre décroissant des scores. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco

C’est Fini / Merci de votre attention. 3rd International Conference on Arabic Language Processing, الندوة الدولية الثالثة حول المعالجة الآلية للغة العربية May 4th – 5th 2009, Rabat, Morocco C’est Fini / Merci de votre attention. 18/11/2018 May 4th – 5th 2009, Rabat, Morocco