La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Détection automatique du parallélisme textuel

Présentations similaires


Présentation au sujet: "Détection automatique du parallélisme textuel"— Transcription de la présentation:

1 Détection automatique du parallélisme textuel
Stage de fin d’études, ENST Encadrant : Nicolas Hernandez Correspondant ENST : François Yvon Lieu : LIMSI-CNRS, Université d’Orsay Date : avril à août 2005 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2 Plan de la présentation
Introduction 1. Problématique : le parallélisme Contexte Exemple et définition du parallélisme Objectifs du stage 2. Détection automatique du parallélisme A. Outils et ressources B. L’annotation manuelle du corpus C. Méthodes de détection du parallélisme 3. Expériences et résultats A. Démarche et étude préliminaire B. Résultats et comparaison des mesures C. Analyse au niveau phrastique Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3 Plan de la présentation
Introduction 1. Problématique : le parallélisme Contexte Exemple et définition du parallélisme Objectifs du stage 2. Détection automatique du parallélisme A. Outils et ressources B. L’annotation manuelle du corpus C. Méthodes de détection du parallélisme 3. Expériences et résultats A. Démarche et étude préliminaire B. Résultats et comparaison des mesures C. Analyse au niveau phrastique Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

4 1. Problématique : le parallélisme
Contexte : Détection de la structure du discours Résumé automatique Questions-réponses Extraction d’information Le « parallélisme » : Idée : un auteur utilise le même schéma de phrase pour exprimer deux idées de même niveau Regroupe plusieurs phénomènes sous une définition : Enumérations, titres… Peut-il être retrouvé automatiquement ? Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

5 1. Problématique : le parallélisme
For the purposes of chaining , each type of link between WordNet synsets is assigned a direction of up, down, or horizontal : - upward links correspond to generalization. - downward links correspond to specialization. - horizontal links are very specific specializations. Définition du parallélisme Des similarités entre énoncés, A des niveaux : Typo-dispositionnel, Lexico-syntaxique, Sémantique Qui expriment une équivalence discursive des énoncés Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

6 1. Problématique : le parallélisme
Propriétés du parallélisme : Un indice de structuration du discours Des niveaux de granularité variés : phrases, paragraphes… Upward links generalization Horizontal links specific specializations Downward links specialization Each type of link is assigned a direction Objectifs du stage : Implémenter des méthodes de détection du parallélisme Comparer ces méthodes Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

7 Plan de la présentation
Introduction 1. Problématique : le parallélisme Exemple et définition du parallélisme Objectifs du stage 2. Détection automatique du parallélisme A. Outils et ressources B. L’annotation manuelle du corpus C. Méthodes de détection du parallélisme 3. Expériences et résultats A. Démarche et étude préliminaire B. Résultats et comparaison des mesures C. Analyse au niveau phrastique Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

8 2.A. Outils et ressources Programmation : le langage Perl
Les textes du corpus : 5 articles scientifiques en anglais, 10 pages chacun, découpés en phrases, 1000 phrases au total Une liste de mots vides anglais Homogénéisation lexico-sémantique des textes : Lemmatisation : TreeTagger de Schmid Construction de chaînes lexicales dans le texte : Wordnet Remplacement par le représentant de la chaîne lexicale Horizontal links are very specific specializations . horizontal connection be very specific specialization . Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

9 2.A. Outils et ressources L’analyseur syntaxique d’Eugène Charniak
Horizontal links are very specific specializations . ( S1 ( S ( NP ( JJ Horizontal ) ( NNS links ) ) ( VP ( AUX are ) ( NP ( ADJP ( RB very ) ( JJ specific ) ) ( NNS specializations ) ) ) ( SENT . ) ) ) Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

10 2.B. L’annotation manuelle du corpus
Objectifs Etre exhaustif et précis Insérer l’information dans les textes Relever des caractéristiques des parallélismes Format de l’annotation Une annotation préexistante : subordination/coordination Un formalisme inspiré du langage XML <s id=“38” sub=“?” coord=“?” parall=“?”> For the purposes of chaining , each type of link between WordNet synsets is assigned a direction of up , down , or horizontal . </s> Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

11 2.B. L’annotation manuelle du corpus
Règles définies : Parallélismes intra-phrastiques non annotés Transitivité du parallélisme Hésitation  annotation du parallélisme <s id="38" sub="" coord="" parall=""> For the purposes of chaining , each type of link between WordNet synsets is assigned a direction of up , down , or horizontal . </s> <s id="39" sub="38" coord="" parall=""> Upward links correspond to generalization . </s> <s id="40" sub="38" coord="39" parall="39"> Downward links correspond to specialization . </s> <s id="41" sub="38" coord="40" parall="40"> Horizontal links are very specific specializations . </s> Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

12 2.C. Méthodes de détection automatique
Principe des applications développées : En entrée : un texte du corpus Recherche des parallélismes à l’intérieur du texte Pour limiter la complexité : recherche de parallélisme entre phrases consécutives uniquement Chaque application attribue une valeur de parallélisme aux couples de phrases consécutives - … - Phrase n Phrase n+1 Phrase n+2 Texte Degré n Degré n+1 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

13 2.C. Méthodes de détection automatique
1. Méthode naïve (baseline) : comptage des mots en commun 2. Distance d’édition de Wagner et Fischer 3. La mesure de parallélisme proposée 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

14 2.C. Méthodes de détection automatique
1. Méthode naïve (baseline) : comptage des mots en commun 2. Distance d’édition de Wagner et Fischer 3. La mesure de parallélisme proposée 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

15 2.C. Méthodes de détection automatique
1. Baseline : comptage des mots en commun Voici la première baseline que la société nous a présentée. Par la suite , nous analyserons la seconde baseline implémentée. 4 mots en commun : la (deux fois), baseline, nous score non normalisé = 4. Moyenne des tailles des phrases : 10 mots score normalisé = 0,4. Complexité : O(n1 log n1 + n2 log n2) Application : textes non traités Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

16 2.C. Méthodes de détection automatique
1. Baseline : comptage des mots en commun 2. Distance d’édition de Wagner et Fischer 3. La mesure de parallélisme proposée 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

17 2.C. Méthodes de détection automatique
2. Distance d’édition de Wagner et Fischer Opérations d’édition entre chaînes de caractères : Insertion : bba  baba Suppression : baba  bba Substitution : baba  baaa A chaque opération, un coût d’édition Transformation la moins coûteuse Application au parallélisme : lettres > mots textes traités Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

18 2.C. Méthodes de détection automatique
2. Distance d’édition de Wagner et Fischer A = xy  yxy  yxy  yxz = B Exemple : transformation de A en B Insertion Insertion Suppression Suppression Complexité : O ( n1 x n2 ) Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

19 2.C. Méthodes de détection automatique
1. Baseline : comptage des mots en commun 2. Distance d’édition de Wagner et Fischer 3. La mesure de parallélisme proposée 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

20 2.C. Méthodes de détection automatique
3. La mesure de parallélisme proposée Deux phrases : « c a b c a d » et « a c b a e » Mots en commun (pgcd) : a, a, b, c Génération des séquences : c a b c a d  c a b a et a b c a a c b a e  a c b a Comparaison des séquences : Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

21 2.C. Méthodes de détection automatique
Proximité Poids de parallélisme dmax = 3 Poids des constituants entre 0 et 1 : p(a) = p(b) = 0,5 p(c) = 0,5 Proximité entre constituants parallèles : d(c) = d(a1) = d(b) = d(a2) = 0 d(c) = d(a1) = d(b) = d(a2) = 0 D(s1,s2) = 2,5 D(s1’,s2) = 2,67 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

22 2.C. Méthodes de détection automatique
3. La mesure de parallélisme proposée Sélection du meilleur degré obtenu : D(p1,p2) = 2,67 Normalisation par la moyenne des tailles des phrases : Dnorm(p1,p2) = 2,67 / 5,5 Dnorm(p1,p2) = 0,48 c a b c a d a c b a e Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

23 2.C. Méthodes de détection automatique
3. La mesure de parallélisme proposée Récapitulatif : Recherche des mots en commun Génération des séquences Calcul du degré de parallélisme entre les séquences Sélection du meilleur degré obtenu Normalisation Problème : Génération des séquences exponentielle Pour une phrase donnée, nombre de séquences à générer :  Heuristique Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

24 2.C. Méthodes de détection automatique
1. Baseline : comptage des mots en commun 2. Distance d’édition de Wagner et Fischer 3. La mesure de parallélisme proposée 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

25 2.C. Méthodes de détection automatique
4. Distance d’édition d’arbres de Zhang et Shasha Rappel : ( S1 ( S ( NP ( JJ Horizontal ) ( NNS links ) ) ( VP ( AUX are ) ( NP ( ADJP ( RB very ) ( JJ specific ) ) ( NNS specializations ) ) ) ( SENT . ) ) )  On conserve l’information de structure Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

26 2.C. Méthodes de détection automatique
4. Distance d’édition d’arbres de Zhang et Shasha Opérations d’édition : Insertion : Suppression : Substitution : Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

27 2.C. Méthodes de détection automatique
4. Distance d’édition d’arbres de Zhang et Shasha Distance entre deux arbres T1 et T2 : Découpage de T1 et T2 en sous-arbres Calcul des distances entre tous les sous-arbres  Distance entre T1 et T2 Exemple : T1 T2 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

28 2.C. Méthodes de détection automatique
4. Distance d’édition d’arbres de Zhang et Shasha Résultat : Insertion de c dans T1 Suppression de c dans T1 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

29 2.C. Méthodes de détection automatique
4. Distance d’édition d’arbres de Zhang et Shasha Propriétés de la méthode : Conserve l’ordre dans les relations de dominance Conserve l’ordre dans les relations de fratrie Complexité : p(Ti) : profondeur de Ti f(Ti) : nombre de feuilles de Ti Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

30 Plan de la présentation
Introduction 1. Problématique : le parallélisme Exemple et définition du parallélisme Objectifs du stage 2. Détection automatique du parallélisme A. Outils et ressources B. L’annotation manuelle du corpus C. Méthodes de détection du parallélisme 3. Expériences et résultats A. Démarche et étude préliminaire B. Résultats et comparaison des mesures C. Analyse au niveau phrastique Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

31 3.A. Démarche de l’évaluation
Précision et rappel P : les couples annotés parallèles P’ : les couples classés parallèles automatiquement Couples classés parallèles Couples classés parallèles Non parallélismes Non parallélismes Parallélismes Parallélismes Précision 100% Rappel 100% Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

32 3.A. Démarche de l’évaluation
La f-mesure Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

33 3.A. Démarche de l’évaluation
Pour chaque texte : Liste de degrés de parallélisme, un degré par couple Définition d’un seuil de parallélisme On fait varier ce seuil : pour chaque seuil, calcul de la f-mesure Sélection du meilleur seuil obtenu avec la f-mesure associée  Travail effectué aussi tous textes confondus Performance en apprentissage : Sélection du meilleur seuil obtenu tous textes confondus Application de ce seuil à chaque texte individuellement : calcul de la f-mesure associée Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

34 3.A. Etude préliminaire Répartition des phrases et des parallélismes dans le corpus Green et Oakes : forte proportion en parallélismes A priori, meilleure précision sur ces textes Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

35 3.B. Résultats et comparaison des mesures
1. Baseline : comptage des mots en commun Très faibles performances Oakes et Green se démarquent 2. Distance de Wagner et Fischer Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

36 3.B. Résultats et comparaison des mesures
3. La mesure de parallélisme proposée Quatre expériences : 1. Variation du nombre maximal de séquences à générer 2. Variation du poids lexical / syntaxique 3. Poids syntaxiques fixés par comptage dans le corpus 4. Différentiation mots vides / mots pleins Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

37 3.B. Résultats et comparaison des mesures
3. La mesure de parallélisme proposée Expérience 1 : variation du nombre maximal de séquences à générer Performances similaires : - on peut améliorer la précision - mais très coûteux en temps d’exécution Par la suite : max 30 séquences engendrées Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

38 3.B. Résultats et comparaison des mesures
3. La mesure de parallélisme proposée Expérience 2 : variation du poids lexical / syntaxique Les constituants lexicaux sont essentiels Intérêt mitigé des constituants syntaxiques Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

39 3.B. Résultats et comparaison des mesures
3. La mesure de parallélisme proposée Expérience 3 : poids syntaxiques fixés par comptage dans le corpus Performances similaires à celles des autres méthodes La mesure semble stable pour de la prédiction Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

40 3.B. Résultats et comparaison des mesures
3. La mesure de parallélisme proposée Expérience 4 : différentiation mots vides / mots pleins Expérience non concluante : par la suite, poids égaux Explication : liste de mots vides non adaptée au problème Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

41 3.B. Résultats et comparaison des mesures
4. Distance d’édition d’arbres de Zhang et Shasha a. Tout type d’opération autorisé b. Interdiction : lexical  syntaxique Performances un peu meilleures, stabilité L’interdiction améliore très légèrement les performances Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

42 3.B. Résultats et comparaison des mesures
Récapitulatif Oakes Green Kan Mitkov Sand Tous Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

43 3.C. Analyse au niveau phrastique
Parallélismes détectés par toutes les méthodes a ) " spring SPE was sown " : CORRECT b ) " spring and summer SPE was sown " : PARTIAL c ) " spring was sown " : NULL d ) " spring CV was sown " : INCORRECT e ) " spring field was sown " : INCORRECT Enumérations : puces… Forte similarité syntaxique ET lexicale Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

44 3.C. Analyse au niveau phrastique
Parallélismes non détectés Aside from the time-and-money aspects of building such large hypertexts manually , humans are inconsistent in assigning hypertext links between the paragraphs of documents ( Ellis et al. , 1994 ; Green , 1997 ) . That is , different linkers disagree with each other as to where to insert hypertext links into a document . Fort lien sémantique Mais lemmes trop différents Rear : a paragraph in which a link just stopped occurring the paragraph before . No link : any remaining paragraphs . Structure « X : Y » très spécifique pour le lecteur humain Absence du contexte énumératif Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

45 3.C. Analyse au niveau phrastique
Différences selon les méthodes Meilleur résultat pour la mesure de parallélisme : In c ) the filler corresponds to no text at all , so the match is null . In d ) and e ) the fillers " ;CV " ; and " ;field " ; do not correspond at all to the interpretation " ;SPE " ; .  Mauvaise analyse syntaxique When we consider AnsV as our dependent variable , the model for the High Web group is still not significant , and there is still a high probability that the coefficient of LI is 0 . For our Low Web group , who followed significantly more intra-article links than the High Web group , the model that results is significant and has the following equation : <EQN/> .  Inversion dans l’ordre des éléments parallèles Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

46 3.C. Analyse au niveau phrastique
Différences selon les méthodes Meilleur résultat pour les distances d’édition : Strong relations are also said to exist between words that have synsets connected by a single horizontal link or words that have synsets connected by a single IS-A or INCLUDES relation . A regular relation is said to exist between two words when there is at least one allowable path between a synset containing the first word and a synset containing the second word in the WordNet database .  Concentration des constituants parallèles  Plus robuste à des différences de taille de phrase Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

47 Plan de la présentation
Introduction 1. Problématique : le parallélisme Exemple et définition du parallélisme Objectifs du stage 2. Détection automatique du parallélisme A. Outils et ressources B. L’annotation manuelle du corpus C. Méthodes de détection du parallélisme 3. Expériences et résultats A. Démarche et étude préliminaire B. Résultats et comparaison des mesures C. Analyse au niveau phrastique Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

48 Perspectives Travail connexe : Kouylekov et Magnini
Opérations interdites entre mots de catégories grammaticales différentes Insertion d’un lemme : définie par l’idf du mot à insérer Remplacement d’un lemme : degré de similarité donné par des ressources existantes Normalisation du degré de parallélisme : par le coût de la suppression de T1 et l’insertion de T2 Autres améliorations Poids de parallélisme : établir un plan d’expérience Utiliser des règles : motifs, puces… et liste de mots clefs Prise en compte du contexte : énumérations… Nouvelle liste de mots vides Objectiver la notion de parallélisme Caractériser la classe des non-parallélismes… Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

49 Conclusions Un phénomène assez subjectif qui peut être détecté
Des méthodes « simples » et rapides finalement très concurrentielles Nécessité d’une analyse plus fine du comportement des algorithmes : faux positifs, faux négatifs De nombreuses améliorations possibles Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

50 Plan de la présentation
Introduction 1. Problématique : le parallélisme Exemple et définition du parallélisme Objectifs du stage 2. Détection automatique du parallélisme A. Outils et ressources B. L’annotation manuelle du corpus C. Méthodes de détection du parallélisme 3. Expériences et résultats A. Démarche et étude préliminaire B. Résultats et comparaison des mesures C. Analyse au niveau phrastique Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

51 Laboratoire du LIMSI-CNRS, Université d’Orsay
Département Mécanique-Energétique Département CHM, groupe LIR : traitement des données écrites, analyse, compréhension et génération Encadrant : Nicolas Hernandez Thèse au LIMSI en décembre 2004 Détection automatique de structures de textes Détection automatique du parallélisme textuel Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI


Télécharger ppt "Détection automatique du parallélisme textuel"

Présentations similaires


Annonces Google