Université de Djilali BOUNAAMA KHEMIS MILIANA

Slides:



Advertisements
Présentations similaires
Introduction à la notion de fonction 1. Organisation et gestion de données, fonctions 1.1. Notion de fonction ● Déterminer l'image d'un nombre par une.
Advertisements

Pour comprendre comment la créativité et l’innovation sont les moteurs de l’évolution technologique La commande par la pensée ? La commande par le mouvement.
La question sur corpus.
Que faire? La recherche découverte. Dans une recherche découverte Sensibilisation ; Discussion ; Préparation-projet ; Opération-activités ; Réflexion.
Cycle élémentaire Année scolaire Classe de 6 e Discipline : Français Professeur : Andressa Bitar.
2 Outils de l’analyse textuelle « CORENLP » Ministère de l’Enseignement Supérieur et de la Recherche Scientifique Université d’Ibn Khaldoun – Tiaret faculté.
Reforme du collège physique chimie au cycle 4
Groupe Départemental Langue française
Le diplôme NATional du brevet (dnb)
ELABORER UN CAHIER DES CHARGES Formuler une préconisation

Objectifs pédagogiques et structuration des contenus d’enseignement
Un autre problème principal dans l'utilisation des sources d'information terminologique est la prolifération de vocabulaire en constante expansion cause.
Ecriture collaborative d’une dissertation en classe
ONEE-BE en partenariat avec le RACEE/ASAEE Formation de Formateurs
Les Bases de données Définition Architecture d’un SGBD
Politique linguistique pour le plurilinguisme
Algorithmique demander jeu du pendu.
Initiation aux bases de données et à la programmation événementielle
L'évaluation : FCA / 2016 Vestalys.
L’Instruction de Test Alternatif
Réussir l'épreuve composée
Activités algorithmiques
corpus spéciale et spécialisée
Plans d’expériences: Plans factoriels
Réalisé par : BENSOUDA Brahim BENMOUSSA Omar
Les Plans d’expériences: Plans Factoriels
Analyse du bulletin officiel Structuration des sujets,
Cyber-Sphinx Séance 2.
Apprendre des mots au cycle 2 Quelle progression ?
Réunion du mardi 20 septembre 2016
Le logiciel HYPERBASE-LATIN :
Problématiques/plans/rédaction
DATA WEARHOUSE 1ère année LA: Technologies systèmes d’information
Formation sur les bases de données relationnelles.
Orthographe à retenir :
Évaluation Adresse de connexion à l’application web académique
Rentrée scolaire 2018 Test de positionnement de début de Seconde
Document d'accompagnement
Programmation Android Première application Android
Programme financé par l’Union européenne
A l’aide du triangle pédagogique de Jean Houssaye
Comment penser une organisation ?
May 4th – 5th 2009, Rabat, Morocco
4°) Intervalle de fluctuation :
Introduction à l’utilisation des corpus
Université de la méditerranée
Atelier de préparation à l’examen de langue française
Rentrée scolaire 2018 Test de positionnement de début de Seconde
Explorer le monde Se repérer dans le temps et dans l'espace
Présentation 4 : Sondage stratifié
Présentation 9 : Calcul de précision des estimateurs complexes
JDepend - Analyse de la qualité du code Java -
Jean-Sébastien Provençal
Plans annuels de l’évaluation pédagogique
Elles contiennent des informations autre que géométriques
Présentation 6 : Sondage à plusieurs degrés
ENSEIGNER L’ALGORITHMIQUE ET LA PROGRAMMATION AU COLLÈGE
Rentrée scolaire 2018 Test de positionnement de début de Seconde
Points de vue et sémantiques ad hoc
Formation « Utiliser un site Internet école »
ACTIVITÉS EN MILIEU PROFESSIONNEL
Présentation des nouveaux programmes de mathématiques de première des séries technologiques Jessica Parsis.
« L’évaluation au service de la réussite des élèves »
Modélisation des SI et de la connaissance
Des évaluations au service de la réussite des élèves
Les séquences au 2e cycle du secondaire
Sigle optionnel en français FBD
Les données structurées et leur traitement
Séquence 1:Analyse du système d’information comptable
Transcription de la présentation:

Université de Djilali BOUNAAMA KHEMIS MILIANA Ministère de l’enseignement supérieur et de la recherche scientifique Université de Djilali BOUNAAMA KHEMIS MILIANA Détection automatique de la cohésion lexicale entre phrases dans les textes arabe Réalisé par: Encadré par : Mr D.BAHLOUL BRAHIMIA yamna affaf Chouchaoui maissa Année Universitaire : 2015/2016

Objectif : réaliser un système de détection automatique de la cohésion lexicale entre les différentes phrases d’un texte. Le travail est basé sur la recherche automatique des relations définissant une cohésion lexicale (mots liés), 1

Problématique: La conception et réalisation des programmes capables de traiter automatiquement la langue arabe et particulièrement l’étude des relations entre les phrases d’un texte écrit en langue arabe est très faiblement abordée par les informaticiens, alors que le besoin de développer de telles applications est devenu nécessaire par rapport aux attentes de la communauté arabe. Après finalisation, notre système constituera une bonne contribution dans ce sens. 2

Plan du travail Conception Mise en œuvre 1 Traitement automatique des langues (T.A.L) 2 Traitement automatique de l’arabe (T.A.L.A) 3 Identification automatique de la cohésion lexicale 4 Conception 5 Mise en œuvre

Comprendre le sens des phrases et Les idées qui s’en dégagent. TAL TALA Cohésion lexicale Conception Mise en ouvre Définitions la conception de programmes capables de traiter des données exprimées dans une langue naturelle . Comprendre le sens des phrases et Les idées qui s’en dégagent. Traiter de la manière la plus optimale et la plus naturelle d’un point de vue humain ces phrases. 3

TAL TALA Conception Mise en ouvre Les niveaux de TAL Syntaxique Cohésion lexicale Conception Mise en ouvre Les niveaux de TAL Morphologique Syntaxique Sémantique Pragmatique 4

Les applications de TAL TALA Cohésion lexicale Conception Mise en ouvre Les applications de TAL traduction automatique . La recherche documentaire . Le Résumé automatique . La Correction orthographique. 5

TAL TALA Cohésion lexicale Conception Mise en ouvre La langue arabe Par ses propriétés morphologiques et syntaxiques la langue arabe est considérée comme une langue difficile à maîtriser dans le domaine du traitement automatique des langues. La langue arabe se présente sous deux formes principales : l’arabe littéraire et l’arabe dialectal. 6

أَتُعَلِمِينَهُمْ أَ تُ عَلِمِ ينَ هُمْ TAL TALA Conception Cohésion lexicale Conception Mise en ouvre Structure d’un mot  أَ تُ عَلِمِ ينَ هُمْ أَتُعَلِمِينَهُمْ PROC 7 ENCL SUF BASE PREF

la segmentation du texte. l’agglutination des mots . TAL TALA Cohésion lexicale Conception Mise en ouvre Problèmes de TALA la segmentation du texte. l’agglutination des mots . détection de racine. l’absence de voyelles à l’écrit. l’étiquetage grammatical. 8

1 ) la segmentation du texte: TAL TALA Cohésion lexicale Conception Mise en ouvre Problèmes de TALA 1 ) la segmentation du texte: La segmentation d’un texte arabe est une étape fondamentale pour son traitement automatique découper le texte en unités d’un certain type (paragraphes , phrase, mots, …ect) consiste à délimiter les segments de ses éléments de base 9

Segmentation possible Traduction en français TAL TALA Cohésion lexicale Conception Mise en ouvre Problèmes de TALA 2 ) Agglutination des mots: Segmentation possible Traduction en français أ+ لم + هم A+LM+hm Les a-t-il ramassés ألم + هم ALM+hm Leur douleur Il les a fait souffrir أل + مهم Al+MHM L’important La plupart des mots arabes sont composés par agglutination d’éléments lexicaux de base (proclitique + base + enclitique). 10

TAL TALA Cohésion lexicale Conception Mise en ouvre Problèmes de TALA 3) Détecter la racine : Stem Préfixe Schème Suffixe Racine Significatio n AymAn ايمان Ø R1yR2a R3 Amn امن croyance ymAn يمان ا A R1R2a R3 Ymn يمن convenant mAn مان اي Ay R1R2R 3 mAn مان Va-t-il approvisionne r Aym ايم ان An Aym ايم Deux veuves Pour détecter la racine d’un mot, il faut connaître le schème par lequel il a été dérivé et supprimer les éléments flexionnels (proclitiques, préfixes, suffixes, enclitiques) qui ont été ajoutés. 11

TAL TALA Cohésion lexicale Conception Mise en ouvre Problèmes de TALA 4) la Voyellation : Mot Voyellé Pré-notion Notion d’écrire كَتَبَ Kataba Il a écrit كُتِبَ Kutiba Il a été écrit كُتُب Kutub Des livres كَتب Katob Un écrit كَتَّبَ Kattaba Il a fait écrire كُتِّبَ Kuttiba Faire écrire – forme factitive كَتِّبُ Kattibo Fais écrire كَتَبَّ Katabba Comme trancher … Le problème de la voyellation réside dans l’absence des signes de voyellation dans les textes arabes. 12

5) L’étiquetage grammatical : TAL TALA Cohésion lexicale Conception Mise en ouvre Problèmes de TALA 5) L’étiquetage grammatical  : L’étiquetage grammatical est l’opération qui consiste à attribuer à chacun des mots d’un texte la catégorie (nom, verbe, adjectif, article défini , etc.). La difficulté de l’étiquetage grammatical s’ amplifié lorsque les textes visés se présentent sous leur forme non pas voyellée . 13

a/ Analyseurs morphologiques : TAL TALA Cohésion lexicale Conception Mise en ouvre Les outils de T.A.L arabe  a/ Analyseurs morphologiques : AraMorph. Sebawi. Al Khalil. b/ Racineur : Racineur de larkey . Racineur de khoja . c/ Base de données lexicales : Arabic Wordnet 14

T.A.L TALA Cohésion lexicale Conception Mise en œuvre SOS: Évaluer la pertinence des phrases ou détecter les groupes de thèmes dans un texte. Solution: la détection de la cohésion lexicale constitue en effet une très bonne solution. Elle sert à identifier le maximum possible de relations entre différentes phrases afin de regrouper les plus cohérentes les unes avec les autres et des relations distributionnelles réitératives ou sémantiques sont utilisées. 15

T.A.L T.A.L.A Cohésion lexicale Conception Mise en œuvre Définitions La cohésion lexicale (التناسق المعجمي) quant à elle peut avoir plusieurs définitions : D’après Larousse : la cohésion lexicale concerne le lexique, le vocabulaire d’une langue. Selon Kushartanti : la cohésion lexicale est la relation sémantique entre les éléments qui forment un texte en utilisant l’élément lexical élémentaire ou le mot. 16

Est une approche globale; Non-linéaire et hybride; T.A.L T.A.L.A Cohésion lexicale Conception Mise en œuvre Approche Est une approche globale; Non-linéaire et hybride; 17

Filtrage et normalisation T.A.L T.A.L.A Cohésion lexicale Conception Mise en œuvre Architecture du système segmentation Liste des frontières Filtrage et normalisation code arabic stemmer Liste des mots vides Lemmatisation Pondération (TF_IDF) Calcul de la similarité (cosinus) 18

Comment l’analyseur de arabic stemmer analyse le mot : يشكركم ? T.A.L T.A.L.A Cohésion lexicale Conception Mise en œuvre Modules Comment l’analyseur de arabic stemmer analyse le mot : يشكركم ? Segmentation Lemmatisation w=يشكركم supprime le suffixe "كم" trouve dans "suffixe.txt" w=يشكر supprime le préfixe "ي" trouve dans "préfixe.txt" w=شكر w=شكر trouvé dans "root.txt" Stem= شكر Filtrage et normalisation Pondération (TF_IDF) Calcul de la similarité (cosinus) Code java 19

T.A.L T.A.L.A Conception Modules Calcul des fréquences pondérées : Cohésion lexicale Conception Mise en œuvre Modules Calcul des fréquences pondérées : Notant que tf_idf dans sa version standard calcule le poids (fréquence pondérée) d’un terme dans un document par rapport à une collection de documents. Cette métrique peut être adaptée pour considérer un terme d’une phrase par rapport à une collection de phrases (texte). segmentation Lemmatisation Filtrage et normalisation Pondération (TF_IDF) Calcul de la similarité (cosinus) 20

T.A.L T.A.L.A Conception Modules 2. Calcul de la synonymie : Cohésion lexicale Conception Conception Mise en œuvre Modules 2. Calcul de la synonymie : un score de synonymie (TF.IDFsyn ) est calculé en fonction de la distribution des synonymes de ce dernier.   Le score TF.IDFsyn quantifie l’importance d’un terme par rapport à la distribution de ses synonymes dans le texte, il est calculé comme suit : Segmentation Lemmatisation Filtrage et normalisation Pondération (TF_IDF) Calcul de la similarité (cosinus) Exécution 21

T.A.L T.A.L.A Conception Mise en œuvre Modules Score final Cohésion lexicale Conception Conception Mise en œuvre Modules Score final Le score tf.idf final est la somme des deux scores, distributionnel répétitif tf_idfdist et celui de la synonymie tf_idfsyn. segmentation Lemmatisation Filtrage et normalisation Pondération (TF_IDF) Calcul de la similarité (cosinus) 22

T.A.L T.A.L.A Cohésion lexicale Conception Mise en œuvre Modules L’équation du Cosinus mise à jour qui calcule la similarité entre une paire de phrases (x,y) est calculée par l’équation suivante : segmentation Lemmatisation Filtrage et normalisation Pondération (TF_IDF) Calcul de la similarité (cosinus) 23

T.A.L T.A.L.A Cohésion lexicale Conception Conception Mise en œuvre Modules Un seuil de cohésion pour une phrase i, SCi égal à la moyenne des valeurs de similarité de la phrase i avec les autres phrases. SCi est calculé par l’équation suivante : segmentation Lemmatisation Filtrage et normalisation Pondération (TF_IDF) Calcul de la similarité (cosinus) 24

T.A.L T.A.L.A Conception [1,2,5,7], [2,1,3], [3,2,5,8,11],… Cohésion lexicale Conception Mise en œuvre Modules [1,2,5,7], [2,1,3], [3,2,5,8,11],… Le premier groupe peut être interprété ainsi : la première phrase est plus liée avec la deuxième, la cinquième et la septième phrase qu’avec les autres phrases du texte. Lemmatisation segmentation Filtrage et normalisation Pondération (TF_IDF) Calcul de la similarité (cosinus) 25

Java comme langage de programmation T.A.L T.A.L.A Cohésion lexicale Conception Mise en œuvre Mise en œuvre Outils de développement Java comme langage de programmation Netbeans pour l’environnement de développement Une base de données .xml, générée à partir de AWN. 26

Proposition d’une approche d’évaluation T.A.L T.A.L.A Cohésion lexicale Conception Mise en œuvre Mise en œuvre Proposition d’une approche d’évaluation Présenter une collection de textes préalablement segmentés par le système à un expert humain et lui demander de regrouper avec chaque phrase les phrases les plus liées avec cette dernière afin de construire des groupes cohérents. Les groupes de phrases construits par l’expert humain sont comparés avec ceux produits automatiquement par le système. Pour chaque groupe de phrases on doit calculer les phrases correctement groupées, les phrases incorrectement groupées et les phrases oubliées. Cette technique est originalement utilisée pour évaluer des résumés automatiques mais elle peut être facilement adaptée à diverses applications. 27

T.A.L T.A.L.A Cohésion lexicale Conception Mise en œuvre Mise en œuvre Proposition d’une approche d’évaluation Les mesures Rappel, Précision sont calculées par les équations suivantes : 28

L’évaluation finale (F-Mesure) est calculée par l’équation suivante : T.A.L T.A.L.A Cohésion lexicale Conception Mise en œuvre Mise en œuvre Proposition d’une approche d’évaluation L’évaluation finale (F-Mesure) est calculée par l’équation suivante : 29

Conclusion Actuellement, la détection automatique de la cohésion lexicale se base principalement sur les répétitions des termes ayant des structures morphologiques proches. Afin de faire une évaluation adéquate d’un système de détection de cohésion, nous prévoyons compléter notre travail par une approche de segmentation thématique linéaire ou hiérarchique. 30

Merci pour votre attention