Détection automatique du parallélisme textuel

Slides:



Advertisements
Présentations similaires
Etude de marché.
Advertisements

De la mise en page à la mise en écran : le cas des colonnes
le langage les éléments
Xialong Dai, Siamak Khorram
We are taking the language L to be a way of computing expressions, a recursive definition of a set EXP. (i) a set of features (ii) principles for assembling.
Recherche heuristique de similitudes dans les séquences dADN École Jeunes Chercheurs en Algorithmique et Calcul Formel Laurent Noé
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
LMD: Langage de Manipulation de Données
UE : 3.4. S4 Initiation à la démarche de recherche
IFT313 Introduction aux langages formels
Recherche Documentaire et traitement de l’information
UBLO Comparaison de génomes bactériens : questions méthodologiques autour de la définition du squelette et des boucles
LES ARBRES IUP 2 Génie Informatique
Détection et correction des défauts de conception
Finger Rhyme 6 Summer Term Module 6 Culturethèque-ifru2013 May not be copied for commercial purposes.
Français II H – Leçon 1B Structures
Les feuilles de style CSS
8 - XML Cours XML.
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
© Copyright Showeet.com S OCIAL M EDIA T HINKING.
CoRRecT : Démarche coopérative pour l’évaluation de systèmes de reconnaissance de termes Chantal Enguehard IRIN – Université de Nantes 2 rue de la Houssinière.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Réponse créative du “Fantôme” Comment écrire un article dans les actualités.
Nymble: High-Performance Learning Name-finder 1 Plan Introduction Modèle –Modèle conceptuel –Caractéristiques de mots –Modèle formel –Rétrogradation de.
1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR.
Français III projet cinématique (votre film). les critères Create a 3 minute film with a 1 minute introduction. The introduction must explain briefly.
Université Pierre et Marie Curie Laboratoire d’Informatique de Paris VI Département ASIM Analyse et résultats sur le dimensionnement des mémoires pour.
WALT: To talk about the internet in French.
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Le Comparatif et le Superlatif
IUT SRC Année 2004/2005Antonio Capobianco 1 HTML>Formater du texte>Les titres Définir les titres HTML distingue 6 niveaux de titre : Titre N°1 Titre N°2.
A. Le comparatif p.234 Comparative constructions are used to compare people or things. Cet hôtel est aussi moderne que l’autre. This hotel is as modern.
1 Méthode de “Fast Marching” générique pour “Shape From Shading” E. Prados & S. Soatto RFIA 2006 janvier 2006, Tours.
Modélisation N-morphes en classification des textes de Wikipedia
Le pronom « On » pour éviter la voix passive.
French II Chapter 5 Review. Relative Pronouns: qui means “who” for people means “which” “that” for places and things replaces a noun or phrase which is.
Soutenance de Stage DEA / DESS
Les verbes réfléchis -au présent -à l’impérative (command) -avec l’infinitif Rouge, Unit 1, Part 1 Page 44.
Gains from trade Principle # 5: Trades improve the well-being of all.
Questions to consider: How are French nouns different from nouns in English? What is the difference between saying, “I have a pen.” and saying, “I have.
Year 10. Bon appetit unit. Introducing ‘en’. ‘en’ – ‘some of it’ or ‘some of them’ ‘En’ is a small but important word in French that is commonly used.
2005/2006 Structures de Données Introduction à la complexité des algorithmes.
Structures de données et algorithmes – TP7 Maria-Iuliana Dascalu, PhD
Les pronoms objets Mme Zakus. Les pronoms objets When dealing with sentences, subjects are part of the action of the verb. In other words, they “ do ”
Irregular Adjectives Not all adjectives are made the same.
Les verbes réfléchis.
Bienvenue and Welcome to Our French II Live Lesson! We will begin shortly!
Combating Web Spam with TrustRank. OSINI Aurélien.
Tache 1 Construction d’un simulateur. Objectifs Disposer d’un simulateur d’une population présentant un déséquilibre de liaison historique, afin d’évaluer.
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Universal Computer Quelques éléments de Debriefing Octobre 2009.
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Le Traitement Automatique des Langues (TAL)
1. Est-ce que Est-ce que, literally translated "is it that," can be placed at the beginning of any affirmative sentence to turn it into a question: Je.
Pierre Malenfant Technologie 9 École du Carrefour
INTRODUCTION AUX BASES DE DONNEES
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR.
Un modèle flexible d'édition intelligente de documents structurés basé sur des techniques de "chart-parsing" Marc Dymetman Exposé LIMSI, 14 déc
Negative sentences Questions
The final intercalibration process Prerequisites 1. Good status boundaries have been set by Member States. 2. IC process has passed “feasibility checks“.
1 Initiation aux bases de données et à la programmation événementielle VBA sous ACCESS Cours N° 4 Support de cours rédigé par Bernard COFFIN Université.
Le Verbe Avoir L’Objectif: to learn the verb avoir in the present tense and to be able to use it in context By: B. Antoniazzi DDE French 1 U1 L2C AVOIR.
UNITÉ II: LEÇON 6 PARTIE B: LES MOIS ET LA DATE. LES MOIS DE L’ANNÉE janvier January.
Transcription de la présentation:

Détection automatique du parallélisme textuel Stage de fin d’études, ENST Encadrant : Nicolas Hernandez Correspondant ENST : François Yvon Lieu : LIMSI-CNRS, Université d’Orsay Date : avril à août 2005 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

Plan de la présentation Introduction 1. Problématique : le parallélisme Contexte Exemple et définition du parallélisme Objectifs du stage 2. Détection automatique du parallélisme A. Outils et ressources B. L’annotation manuelle du corpus C. Méthodes de détection du parallélisme 3. Expériences et résultats A. Démarche et étude préliminaire B. Résultats et comparaison des mesures C. Analyse au niveau phrastique Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

Plan de la présentation Introduction 1. Problématique : le parallélisme Contexte Exemple et définition du parallélisme Objectifs du stage 2. Détection automatique du parallélisme A. Outils et ressources B. L’annotation manuelle du corpus C. Méthodes de détection du parallélisme 3. Expériences et résultats A. Démarche et étude préliminaire B. Résultats et comparaison des mesures C. Analyse au niveau phrastique Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

1. Problématique : le parallélisme Contexte : Détection de la structure du discours Résumé automatique Questions-réponses Extraction d’information Le « parallélisme » : Idée : un auteur utilise le même schéma de phrase pour exprimer deux idées de même niveau Regroupe plusieurs phénomènes sous une définition : Enumérations, titres… Peut-il être retrouvé automatiquement ? Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

1. Problématique : le parallélisme For the purposes of chaining , each type of link between WordNet synsets is assigned a direction of up, down, or horizontal : - upward links correspond to generalization. - downward links correspond to specialization. - horizontal links are very specific specializations. Définition du parallélisme Des similarités entre énoncés, A des niveaux : Typo-dispositionnel, Lexico-syntaxique, Sémantique Qui expriment une équivalence discursive des énoncés Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

1. Problématique : le parallélisme Propriétés du parallélisme : Un indice de structuration du discours Des niveaux de granularité variés : phrases, paragraphes… Upward links generalization Horizontal links specific specializations Downward links specialization Each type of link is assigned a direction Objectifs du stage : Implémenter des méthodes de détection du parallélisme Comparer ces méthodes Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

Plan de la présentation Introduction 1. Problématique : le parallélisme Exemple et définition du parallélisme Objectifs du stage 2. Détection automatique du parallélisme A. Outils et ressources B. L’annotation manuelle du corpus C. Méthodes de détection du parallélisme 3. Expériences et résultats A. Démarche et étude préliminaire B. Résultats et comparaison des mesures C. Analyse au niveau phrastique Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.A. Outils et ressources Programmation : le langage Perl Les textes du corpus : 5 articles scientifiques en anglais, 10 pages chacun, découpés en phrases, 1000 phrases au total Une liste de mots vides anglais Homogénéisation lexico-sémantique des textes : Lemmatisation : TreeTagger de Schmid Construction de chaînes lexicales dans le texte : Wordnet Remplacement par le représentant de la chaîne lexicale Horizontal links are very specific specializations . horizontal connection be very specific specialization . Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.A. Outils et ressources L’analyseur syntaxique d’Eugène Charniak Horizontal links are very specific specializations . ( S1 ( S ( NP ( JJ Horizontal ) ( NNS links ) ) ( VP ( AUX are ) ( NP ( ADJP ( RB very ) ( JJ specific ) ) ( NNS specializations ) ) ) ( SENT . ) ) ) Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.B. L’annotation manuelle du corpus Objectifs Etre exhaustif et précis Insérer l’information dans les textes Relever des caractéristiques des parallélismes Format de l’annotation Une annotation préexistante : subordination/coordination Un formalisme inspiré du langage XML <s id=“38” sub=“?” coord=“?” parall=“?”> For the purposes of chaining , each type of link between WordNet synsets is assigned a direction of up , down , or horizontal . </s> Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.B. L’annotation manuelle du corpus Règles définies : Parallélismes intra-phrastiques non annotés Transitivité du parallélisme Hésitation  annotation du parallélisme <s id="38" sub="" coord="" parall=""> For the purposes of chaining , each type of link between WordNet synsets is assigned a direction of up , down , or horizontal . </s> <s id="39" sub="38" coord="" parall=""> Upward links correspond to generalization . </s> <s id="40" sub="38" coord="39" parall="39"> Downward links correspond to specialization . </s> <s id="41" sub="38" coord="40" parall="40"> Horizontal links are very specific specializations . </s> Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique Principe des applications développées : En entrée : un texte du corpus Recherche des parallélismes à l’intérieur du texte Pour limiter la complexité : recherche de parallélisme entre phrases consécutives uniquement Chaque application attribue une valeur de parallélisme aux couples de phrases consécutives - … - Phrase n Phrase n+1 Phrase n+2 … Texte … Degré n Degré n+1 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 1. Méthode naïve (baseline) : comptage des mots en commun 2. Distance d’édition de Wagner et Fischer 3. La mesure de parallélisme proposée 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 1. Méthode naïve (baseline) : comptage des mots en commun 2. Distance d’édition de Wagner et Fischer 3. La mesure de parallélisme proposée 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 1. Baseline : comptage des mots en commun Voici la première baseline que la société nous a présentée. Par la suite , nous analyserons la seconde baseline implémentée. 4 mots en commun : la (deux fois), baseline, nous score non normalisé = 4. Moyenne des tailles des phrases : 10 mots score normalisé = 0,4. Complexité : O(n1 log n1 + n2 log n2) Application : textes non traités Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 1. Baseline : comptage des mots en commun 2. Distance d’édition de Wagner et Fischer 3. La mesure de parallélisme proposée 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 2. Distance d’édition de Wagner et Fischer Opérations d’édition entre chaînes de caractères : Insertion : bba  baba Suppression : baba  bba Substitution : baba  baaa A chaque opération, un coût d’édition Transformation la moins coûteuse Application au parallélisme : lettres > mots textes traités Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 2. Distance d’édition de Wagner et Fischer A = xy  yxy  yxy  yxz = B Exemple : transformation de A en B Insertion Insertion Suppression Suppression Complexité : O ( n1 x n2 ) Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 1. Baseline : comptage des mots en commun 2. Distance d’édition de Wagner et Fischer 3. La mesure de parallélisme proposée 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 3. La mesure de parallélisme proposée Deux phrases : « c a b c a d » et « a c b a e » Mots en commun (pgcd) : a, a, b, c Génération des séquences : c a b c a d  c a b a et a b c a a c b a e  a c b a Comparaison des séquences : Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique Proximité Poids de parallélisme dmax = 3 Poids des constituants entre 0 et 1 : p(a) = 1 p(b) = 0,5 p(c) = 0,5 Proximité entre constituants parallèles : d(c) = 1 d(a1) = 1 d(b) = 0 d(a2) = 0 d(c) = 1 d(a1) = 0 d(b) = 1 d(a2) = 0 D(s1,s2) = 2,5 D(s1’,s2) = 2,67 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 3. La mesure de parallélisme proposée Sélection du meilleur degré obtenu : D(p1,p2) = 2,67 Normalisation par la moyenne des tailles des phrases : Dnorm(p1,p2) = 2,67 / 5,5 Dnorm(p1,p2) = 0,48 c a b c a d a c b a e Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 3. La mesure de parallélisme proposée Récapitulatif : Recherche des mots en commun Génération des séquences Calcul du degré de parallélisme entre les séquences Sélection du meilleur degré obtenu Normalisation Problème : Génération des séquences exponentielle Pour une phrase donnée, nombre de séquences à générer :  Heuristique Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 1. Baseline : comptage des mots en commun 2. Distance d’édition de Wagner et Fischer 3. La mesure de parallélisme proposée 4. Distance d’édition d’arbres de Zhang et Shasha Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 4. Distance d’édition d’arbres de Zhang et Shasha Rappel : ( S1 ( S ( NP ( JJ Horizontal ) ( NNS links ) ) ( VP ( AUX are ) ( NP ( ADJP ( RB very ) ( JJ specific ) ) ( NNS specializations ) ) ) ( SENT . ) ) )  On conserve l’information de structure Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 4. Distance d’édition d’arbres de Zhang et Shasha Opérations d’édition : Insertion : Suppression : Substitution : Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 4. Distance d’édition d’arbres de Zhang et Shasha Distance entre deux arbres T1 et T2 : Découpage de T1 et T2 en sous-arbres Calcul des distances entre tous les sous-arbres  Distance entre T1 et T2 Exemple : T1 T2 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 4. Distance d’édition d’arbres de Zhang et Shasha Résultat : Insertion de c dans T1 Suppression de c dans T1 Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

2.C. Méthodes de détection automatique 4. Distance d’édition d’arbres de Zhang et Shasha Propriétés de la méthode : Conserve l’ordre dans les relations de dominance Conserve l’ordre dans les relations de fratrie Complexité : p(Ti) : profondeur de Ti f(Ti) : nombre de feuilles de Ti Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

Plan de la présentation Introduction 1. Problématique : le parallélisme Exemple et définition du parallélisme Objectifs du stage 2. Détection automatique du parallélisme A. Outils et ressources B. L’annotation manuelle du corpus C. Méthodes de détection du parallélisme 3. Expériences et résultats A. Démarche et étude préliminaire B. Résultats et comparaison des mesures C. Analyse au niveau phrastique Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.A. Démarche de l’évaluation Précision et rappel P : les couples annotés parallèles P’ : les couples classés parallèles automatiquement Couples classés parallèles Couples classés parallèles Non parallélismes Non parallélismes Parallélismes Parallélismes Précision 100% Rappel 100% Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.A. Démarche de l’évaluation La f-mesure Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.A. Démarche de l’évaluation Pour chaque texte : Liste de degrés de parallélisme, un degré par couple Définition d’un seuil de parallélisme On fait varier ce seuil : pour chaque seuil, calcul de la f-mesure Sélection du meilleur seuil obtenu avec la f-mesure associée  Travail effectué aussi tous textes confondus Performance en apprentissage : Sélection du meilleur seuil obtenu tous textes confondus Application de ce seuil à chaque texte individuellement : calcul de la f-mesure associée Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.A. Etude préliminaire Répartition des phrases et des parallélismes dans le corpus Green et Oakes : forte proportion en parallélismes A priori, meilleure précision sur ces textes Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.B. Résultats et comparaison des mesures 1. Baseline : comptage des mots en commun Très faibles performances Oakes et Green se démarquent 2. Distance de Wagner et Fischer Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.B. Résultats et comparaison des mesures 3. La mesure de parallélisme proposée Quatre expériences : 1. Variation du nombre maximal de séquences à générer 2. Variation du poids lexical / syntaxique 3. Poids syntaxiques fixés par comptage dans le corpus 4. Différentiation mots vides / mots pleins Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.B. Résultats et comparaison des mesures 3. La mesure de parallélisme proposée Expérience 1 : variation du nombre maximal de séquences à générer Performances similaires : - on peut améliorer la précision - mais très coûteux en temps d’exécution Par la suite : max 30 séquences engendrées Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.B. Résultats et comparaison des mesures 3. La mesure de parallélisme proposée Expérience 2 : variation du poids lexical / syntaxique Les constituants lexicaux sont essentiels Intérêt mitigé des constituants syntaxiques Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.B. Résultats et comparaison des mesures 3. La mesure de parallélisme proposée Expérience 3 : poids syntaxiques fixés par comptage dans le corpus Performances similaires à celles des autres méthodes La mesure semble stable pour de la prédiction Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.B. Résultats et comparaison des mesures 3. La mesure de parallélisme proposée Expérience 4 : différentiation mots vides / mots pleins Expérience non concluante : par la suite, poids égaux Explication : liste de mots vides non adaptée au problème Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.B. Résultats et comparaison des mesures 4. Distance d’édition d’arbres de Zhang et Shasha a. Tout type d’opération autorisé b. Interdiction : lexical  syntaxique Performances un peu meilleures, stabilité L’interdiction améliore très légèrement les performances Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.B. Résultats et comparaison des mesures Récapitulatif Oakes Green Kan Mitkov Sand Tous Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.C. Analyse au niveau phrastique Parallélismes détectés par toutes les méthodes a ) " spring SPE was sown " : CORRECT b ) " spring and summer SPE was sown " : PARTIAL c ) " spring was sown " : NULL d ) " spring CV was sown " : INCORRECT e ) " spring field was sown " : INCORRECT Enumérations : puces… Forte similarité syntaxique ET lexicale Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.C. Analyse au niveau phrastique Parallélismes non détectés Aside from the time-and-money aspects of building such large hypertexts manually , humans are inconsistent in assigning hypertext links between the paragraphs of documents ( Ellis et al. , 1994 ; Green , 1997 ) . That is , different linkers disagree with each other as to where to insert hypertext links into a document . Fort lien sémantique Mais lemmes trop différents Rear : a paragraph in which a link just stopped occurring the paragraph before . No link : any remaining paragraphs . Structure « X : Y » très spécifique pour le lecteur humain Absence du contexte énumératif Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.C. Analyse au niveau phrastique Différences selon les méthodes Meilleur résultat pour la mesure de parallélisme : In c ) the filler corresponds to no text at all , so the match is null . In d ) and e ) the fillers " ;CV " ; and " ;field " ; do not correspond at all to the interpretation " ;SPE " ; .  Mauvaise analyse syntaxique When we consider AnsV as our dependent variable , the model for the High Web group is still not significant , and there is still a high probability that the coefficient of LI is 0 . For our Low Web group , who followed significantly more intra-article links than the High Web group , the model that results is significant and has the following equation : <EQN/> .  Inversion dans l’ordre des éléments parallèles Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

3.C. Analyse au niveau phrastique Différences selon les méthodes Meilleur résultat pour les distances d’édition : Strong relations are also said to exist between words that have synsets connected by a single horizontal link or words that have synsets connected by a single IS-A or INCLUDES relation . A regular relation is said to exist between two words when there is at least one allowable path between a synset containing the first word and a synset containing the second word in the WordNet database .  Concentration des constituants parallèles  Plus robuste à des différences de taille de phrase Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

Plan de la présentation Introduction 1. Problématique : le parallélisme Exemple et définition du parallélisme Objectifs du stage 2. Détection automatique du parallélisme A. Outils et ressources B. L’annotation manuelle du corpus C. Méthodes de détection du parallélisme 3. Expériences et résultats A. Démarche et étude préliminaire B. Résultats et comparaison des mesures C. Analyse au niveau phrastique Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

Perspectives Travail connexe : Kouylekov et Magnini Opérations interdites entre mots de catégories grammaticales différentes Insertion d’un lemme : définie par l’idf du mot à insérer Remplacement d’un lemme : degré de similarité donné par des ressources existantes Normalisation du degré de parallélisme : par le coût de la suppression de T1 et l’insertion de T2 Autres améliorations Poids de parallélisme : établir un plan d’expérience Utiliser des règles : motifs, puces… et liste de mots clefs Prise en compte du contexte : énumérations… Nouvelle liste de mots vides Objectiver la notion de parallélisme Caractériser la classe des non-parallélismes… Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

Conclusions Un phénomène assez subjectif qui peut être détecté Des méthodes « simples » et rapides finalement très concurrentielles Nécessité d’une analyse plus fine du comportement des algorithmes : faux positifs, faux négatifs De nombreuses améliorations possibles Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

Plan de la présentation Introduction 1. Problématique : le parallélisme Exemple et définition du parallélisme Objectifs du stage 2. Détection automatique du parallélisme A. Outils et ressources B. L’annotation manuelle du corpus C. Méthodes de détection du parallélisme 3. Expériences et résultats A. Démarche et étude préliminaire B. Résultats et comparaison des mesures C. Analyse au niveau phrastique Perspectives et conclusions Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI

Laboratoire du LIMSI-CNRS, Université d’Orsay Département Mécanique-Energétique Département CHM, groupe LIR : traitement des données écrites, analyse, compréhension et génération Encadrant : Nicolas Hernandez Thèse au LIMSI en décembre 2004 Détection automatique de structures de textes Détection automatique du parallélisme textuel Détection automatique du parallélisme textuel Marie Guégan - ENST Paris / LIMSI