1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

OPIR & SES OUTILS Mme Annick Weizman, Adjointe scientifique
IREMIA : Institut de REcherche en Mathématiques et Informatique Appliquées Université de la Réunion Uniformisation des mécanismes de conception de SMA.
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Classification et prédiction
Arrière-plan théorique Il ny a pas de conscience innée des mécanismes des divers discours et des types de textes qui les associent que ce soit pour les.
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
Urbanisation de Systèmes d'Information
Application de réseaux bayésiens à la détection de fumées polluantes
Exemple : Itinéraire de lecture.
Yann Chevaleyre et Jean-Daniel Zucker
Format dannotations génériques, multi-annotations, multi- documents Présentation ASP navigation 11 avril 2002.
Analyse et structuration thématiques
Navigation Interactive dans les documents
Navigation Interactive dans les documents Brigitte Grau et Jean-Paul Sansonnet J.P. Fournier, N. Hernandez, M. Hurault-Plantet, J-C. Martin, G. Pitel,
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Page de garde Introduction aux Design Patterns ISIA, Mars 2003
LA SEGMENTATION STRATÉGIQUE
Simulation multi-agent de phénomènes collectifs : quelques questions d’ordre épistémologique Frédéric AMBLARD Institut de Recherche en Informatique de.
UE : 3.4. S4 Initiation à la démarche de recherche
CONSTAT GENERAL Les enseignements professionnels en baccalauréat industriels sont caractérisés par une approche globale et concrète. Cela s’appuie sur.
LA COMPREHENSION EN LECTURE
Etude globale de système.
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
OIL & UPML DREVET - HUMBERT Introduction OIL : un langage de description dontologies UPML : un langage de description de systèmes à base.
MOT Éditeur de modèles de connaissances par objets typés
Mesures de performance organisationnelle Cours ICO 810 Professeur: Michel Pérusse Hiver 2005 Session 9.
COFOR 1 Période 1 COFOR 1 Période 1 Activité en télé(présence) Une approche des relations entre les unités dinformation dans les publications électroniques.
Présentation du mémoire
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
La compréhension en lecture
LA DIFFÉRENCE ENTRE L’ÉTUDE D’UNE PHRASE ET D’UN ENONCÉ
la maîtrise de la langue française Inspection Pédagogique Régionale
Le FLE en contexte migratoire
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
LA TECHNIQUE DU RÉSUMÉ Résumer un texte, c'est réduire un énoncé selon un certain nombre de mots imposé, en en restituant l'essentiel des idées et la structure.
Le processus de reconnaissance des mots La reconnaissance des mots lors de la parole continue Contexte et reconnaissance des mots.
Arkhênum Patrimoine du Futur. Répartitions par types d’erreurs mineures.
LES DEMARCHES PEDAGOGIQUES
1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR.
1 Management des unités commerciales Management des unités commerciales LANGUE VIVANTE ÉTRANGÈRE I - coefficient 3 L’usage d’un dictionnaire bilingue est.
Initiation à la conception des systèmes d'informations
2008/ Plan du cours 1.Introduction –Contenu du cours 2.Logique mathématique –Calcul propositionnel –Calcul des prédicats –Logique floue et aide à.
François CARCENAC,Frédéric BONIOL ONERA-DTIM Zoubir MAMMERI IRIT
Dominique LAURENT Patrick SEGUELA
RAISONNEMENT À PARTIR DE CAS R à PC. PLAN DU TRAVAIL Introduction Introduction Raisonnement analogique Raisonnement analogique Principe et étapes de R.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
( ) Collège de Maisonneuve
TEXT MINING Fouille de textes
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Le Traitement Automatique des Langues (TAL)
Approche de tutorat par niveaux Préparation aux rédactions littéraires Julie Beauchemin en collaboration avec Dominique Lemay.
Video.
Évaluations nationales et maîtrise de la langue Continuité et perspective.
Progressivité de l’enseignement grammatical A partir d’un document rédigé par : - Claudine GARCIA-DEBANC - Véronique PAOLICCI - Nicole RAMIREZ - Pierre.
STRATÉGIES EN LECTURE PLANIFIER MA LECTURE
Détection automatique du parallélisme textuel
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Mardi 1 février 2005 Université Paris-Sud XI LIMSI/CNRS – LIR 1 Accès au (contenu du) document.
Bilan du cours Information Spécialisée M1 RETIC. Objectifs du cours (annoncés) Acquérir une culture informationnelle en SIC ; Acquérir une culture informationnelle.
Démarche d’enseignement de l’APL : analyser
 Persuasive Essay Unité 1- Les valeurs sociales et les traditions Le Télétravail.
Modélisation des Actions Mécaniques Première sti2d
Comment faire un résumé d’article ?
Dániel Darvas (CERN BE-ICS-PCS) Spécification formelle pour les API CERN-ESTEREL séminaire 21/01/2016, CERN Travail conjoint avec B. Fernández, E. Blanco,
La rédaction d’articles scientifiques: L’article scientifique comme reflet de la démarche scientifique et comme style littéraire. Atelier ouvert, 20 avril.
MES STRATÉGIES DE LECTURE
Transcription de la présentation:

1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR

2 Objectif  Établir les conditions de vérité sémantico-rhétorique d’un contenu [Kamp 81] et [Hobbs 85; Asher & Lascarides 94]  Identifier des unités de texte (thématique, intentionnelle, visuelle, etc.) et reconnaître des relations entre ces unités [Mann & Thompson 87; Grosz & Sidner 86; Virbel 89; Danes 74; …] Accès au contenu du document i.e. la compréhension de texte i.e. la reconnaissance de la cohérence

3 Enjeux Recherche d’information, résumé automatique, aide à la lecture (visualisation et la navigation), aide à la rédaction, etc. Hiérarchiser l’information, manipuler différentes unités (i.e. degrés d’information), cibler une information, fournir un contexte, lier des parties de textes non-contiguës, etc.

4 Contexte scientifique REGAL [Couto Al 04]  LIMSI, LaLLIC, LATTICE, CEA  Détection de la macro-structure [Vigier Al 04]  Évaluation partielle  Nécessité de prendre en compte les phénomènes discursifs au niveau phrastiques (tels que énumération, transition, etc.) pour modéliser plus finement le discours Composante textuelle Articles scientifiques : genre expositif Anglais (disponibilité de ressources)

5 Sommaire 1. Objectif, Enjeux et Contexte scientifique 2. État de l’art 1. Modèles du discours 2. Systèmes automatiques 3. Notre proposition 4. Vue générale du système 1. un algorithme d’analyse du discours 5. Modèle de dépendance 1. Relations lexicales 2. Expressions clefs 3. Parallélisme syntaxico-sémantique 6. Évaluation et discussion

6 Structure visuelle (typo-dispositionnelle) [Virbel 87; Luc 00] Titre Paragraphe Structure énumérative Annonce Item 1 Item 2 Paragraphe

7 Organisation informationnelle macro. Méthodes traditionnelles Méthode alternative Définition Résumé Par extraction Par sélection et génération Par instanciation Méthodes Unité thématique U. sémantico-rhétorique

8 Organisation rhétorique macro. Méthodes traditionnelles Méthode alternative Définition Résumé Par extraction Par sélection et génération Par instanciation Jonction Arrière-Plan Unité thématique U. sémantico-rhétorique

9 Organisation informationnelle micro. Exemple 1Exemple 2 Définition Résumé par extraction Exemples Critères d’importance Problème Unité thématique U. sémantico-rhétorique

10 Organisation rhétorique micro. Exemple 1Exemple 2 Définition Exemples Critères d’importance Problème Unité thématique U. sémantico-rhétorique

11 Théories du discours – différences  Les plans d’organisation observés fortement dépendant du genre de texte manipulé  L’unité élémentaire  Contraintes d’assemblage en unités plus grandes  Type de structures de texte hiérarchique ou graphe  La nature sémantique des relations  Fondement théorique I.e. si s’appuie sur certains systèmes cohésifs ou sur l’interprétation sémantiques et pragmatiques des contenus  L’interaction entre les plans  Etc.

12 Théories du discours – point commun Les relations structurelles de  Subordination : dépendance Informationnelle (exemple, explication) Rhétorique (justification) Intentionnelle (la satisfaction d’un but de l’auteur requiert l’accomplissement d’un sous-but) Thématique (un thème se décompose en sous-thèmes)  Coordination : importance égale Informationnelle (définition, problème et solution d’un sujet) Rhétorique (items d’une liste d’arguments)

13 Systèmes de détection de micro-structures SystèmeKurohashi Al 94 Marcu 99Choi 02Polanyi Al 04 Plan Rhétorique ThématiqueSémantique Intérêt Nature de la relation (11) Schéma d’assemblage et sa nature (102) ; intra- phrastique Relation structurelle de subordination (1) 3 relations de structuration (subordination, coordination, cadrative) ; intra- phrastique Approche RèglesApprentissage Règles Indices 2789> 30 Corpus 77 paires de phrases /126 de test mots soit près de 4000 phrases 754 paires de phrases Évaluation 88% sur l’entraînement et 79% sur le test 61,5%59,81% à 73,61% PALSUMM recherche du point d’attache pour l’énoncé entrant Un connecteur ou une relation sémantique spécifique compte pour un indice

14 Proposition : unification des approches et simplification du modèle Plan informationnel (genre scientifique) Dissocier la reconnaissance de la nature des relations de leur schéma structurel  Identification des relations de subordination et de coordination Modèle prédictif plutôt que des règles  Ce qui est appris dépend de ce qui est annoté (ré-utilisation pour d’autres plans) Dissocier le modèle de prédiction (de la relation) de l’algorithme d’analyse du discours  Afin d’appréhender diverses structures du discours

15 Proposition : unification des approches et simplification du modèle Unité élémentaire :  la phrase (raison pratique) Les systèmes cohésifs  Élargir la classes des connecteurs aux expressions méta-discursives  Généraliser les liens lexicaux et les expressions clefs  Nouvel indice : le parallélisme syntaxico-sémantique

16 Algorithme d’analyse du discours (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction

17 Algorithme d’analyse du discours (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite 1 (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Prédiction (1) On empile

18 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite 2 (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Prédiction (1) On défile

19 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite 3 Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Application du modèle de prédiction (1)

20 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Application du modèle de prédiction Relation de subordination 4 (1)

21 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Application du modèle de prédiction Relation de subordination (1)(2) 5 Construction de la structure

22 Algorithme d’analyse du discours (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (1)(2) (3) Cette approche est illustrée par le système ADAM. Application du modèle de prédiction Aucune relation 4

23 Algorithme d’analyse du discours (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (1)(2) (3) Cette approche est illustrée par le système ADAM. Application du modèle de prédiction Relation de subordination 4 Construction de la structure (3)

24 Algorithme d’analyse du discours (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (1)(2) (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. Application du modèle de prédiction Relation de coordination 5 Construction de la structure (3) (4)

25 Construction d’un modèle de prédiction de relations Annotation manuelle de relations de coordination et de subordination selon le plan informationnel  5 articles scientifiques de 8 à 10 pages  1190 couples de phrases mises en relation (300 de plus que Choi 02) Caractérisation automatique des couples par 22 indices (contre 2789 pour Marcu 99 et plus de 30 pour Choi 02) Application d’un algorithme d’ apprentissage  Arbre de décision C4.5

26 Pré-traitements TreeTagger  Lemmatisation et étiquetage grammaticale WordNet et Celex (base de familles dérivationnelles)  Construction de chaînes lexicales (chaînes de mots désignant le même concept à travers le texte) Homogénéisation sémantique Même entité et antonymie Charniak  Structure syntaxique des phrases

27 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs

28 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Subordination

29 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination

30 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination

31 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination

32 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination Coordination

33 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Parallélisme syntaxico-sémantique Subordination Coordination

34 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Subordination Suivi thématique Subordination Coordination Parallélisme syntaxico-sémantique Coordination

35 Relations lexicales Lien lexical (1)  Identité, syn, hypo/hyper, méro/holo, même famille derivationnelle Antonymie (1)  relation sémantique et préfixe Lien lexical selon schéma du suivi thématique (4)  I.e. les parties sujet et prédicat liées entre 2 phrases Découpage de la phrase par heuristique

36 Expressions clefs Liste construites  Listes de connecteurs présentes dans la littérature  et par sélection d’expressions méta-discursives acquises selon la méthode de (Hernandez et Al. 03) 178 expressions classées en 5 classes Comportements discursifs (structures induites)  Subordonne/cadre (e.g. « such as », « see below », « : »)  Se subordonne (e.g. « so », « for example »)  Initie (e.g. « First », « On the one hand », « 1. »)  Continue (e.g. « second », « also », « another »)  Termine (e.g. « On the other hand », « last »)

37 Parallélisme syntaxico-sémantique Représentation du phénomène  1047 phrases,  sur 284 coordinations, 97 coordinations sont parallèles et 71 sont énumérations  120 parallèles, 150 énumérations Problème d’appariement d’arbres Solution proposée 1. Homogénéisation sémantique 2. Analyse de la structure syntaxique et aplatissement 3. Mesure de similarité (qui prend en compte la contrainte syntagmatique) Actuellement  Seule la mesure est réalisée sur les mots pleins

38 Évaluation du modèle de prédiction Validation croisée entre 10 partitions Système de base : probabilité de la relation la plus fréquente Performances > aux systèmes de base et à l’existant Coordination et subordination AlgorithmePrécision Système de Base 53,10% DST 58,57% Seulement la subordination AlgorithmePrécision Système de Base 69,83% DST 76,35% Choi 02 73,61%

39 Évaluation des systèmes cohésifs  Dissocier les différents types de relations sémantiques et heuristiques de suivi thématique plus juste  Notre mesure de parallélisme sur mots pleins comparée à une mesure de base (similarité vectorielle) n’apporte rien : requiert de prendre en compte tout le schéma proposé  La classification des expressions clefs s’avère positive Seulement la subordination (base 69,83%) Système cohésifPrécision Suivi thématique 69,83% Expressions clefs 73,14%

40 Conclusion Système de détection de l’organisation informationnelle au niveau phrastique  Fondé sur une modélisation simplifiée du discours Constitution d’un corpus décrivant les relations structurelles du plan informationnel Intérêt de classer les expressions clefs selon des « comportements discursifs »

41 Perspectives Enrichir le modèle tout en favorisant la simplicité  Considérer d’autres systèmes cohésifs (visuel)  Les interpréter selon leur « comportement discursif »  Ajouter la relation de subordination dirigée vers l’aval Consolider le corpus  Considérer plusieurs annotateurs et l’accroître Vers l’abstraction du contenu discursif, l’étude des interactions avec les autres plans…

42 Merci

43

44

45 Perspectives  Considérer plus d’indices (e.g. visuel) -> pour prendre en compte les différents plans et genres de texte  Des indices contextuels  Relation de subordination dirigée vers l’aval  Combiner structure locale et globale  Étudier les interactions entre les différents plans  Vers l’abstraction des contenus… Un énoncé entrant ne se rattache pas à un élément du discours mais à une interprétation (une abstraction)  Multi-annotateurs

46

47 Discussion Relation lexical  Dissocier les différents types de relations sémantiques et heuristiques de suivi thématique plus juste Parallélisme  Prendre en compte la structure complète Classer tous les indices selon les comportements structurels ? Traitement à la volée ?

48

49 Autres  Indices discursifs  Introduction/Transitionnel/Conclusion  Lien (e.g. chaîne anaphorique),

50 La cohérence d’un texte Cohérence :  Identifier des unités (thématique, intention, avec une mise en forme visuelle, etc.) et reconnaître des relations entre ces unités [Mann & Thompson 87; Grosz & Sidner 86; Virbel 89; Danes 74; …]  Etablir les conditions de vérité sémantico-rhétorique d’un contenu [Kamp 81] et [Hobbs 85; Asher & Lascarides 94] Un lecteur comprend un texte s’il en reconnaît la cohérence

51 Texte exemple Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride…

52 Organisation informationnelle Two traditional approaches to automatic abstracting are: 1. Extraction, whereby specific sentences are selected from the source text according to some assessment of their importance. Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. Another example was reviewed in [2]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation, whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated.

53 Organisation informationnelle Two traditional approaches to automatic abstracting are: 1. Extraction, Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation Another example was reviewed in [2]. whereby specific sentences are selected from the source text according to some assessment of their importance. whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated. [Exemples] Définition Exemples Problème Résumé par extraction Critères d’importance Résumé par abstraction

54 Propriétés structurelles communes Théories  Orientées « relation » [Mann & Thompson 87; Polanyi 88]  Orientées « segment » [Hearst 97; Daneš 74; Minel Al 01; Teufel & Moens 02; Saggion & Lapalme 02] Relations structurelles  Subordination : dépendance  Sémantique (exemple, explication),  Rhétorique (justification)  Intentionnelle (la satisfaction d’un but de l’auteur requiert l’accomplissement d’un sous-but)  Thématique (un thème se décompose en sous-thèmes)  Coordination : même importance  Informationnelle (définition, problème et solution d’un sujet)  Rhétorique (Items d’une liste d’arguments)

55 Texte exemple Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride…

56 Texte exemple Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride…

57 Différentes vues descriptives Par abstraction Par sélection et génération Résumé Par extraction Thématique

58 Différentes vues descriptives Par abstraction Par sélection et génération Résumé Par extraction Thématique

59 Organisation rhétorique

60 Différentes unités descriptives Two traditional approaches to automatic abstracting are: 1. Extraction, whereby specific sentences are selected from the source text according to some assessment of their importance. Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. Another example was reviewed in [2]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation, whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated. Résumé par extraction de phrases Critères d’importance Résumé par instanciation de pattrons Définition Exemple Problème Définition

61 Organisation informationnelle Two traditional approaches to automatic abstracting are: 1. Extraction, whereby specific sentences are selected from the source text according to some assessment of their importance. Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. Another example was reviewed in [2]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation, whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated.

62 Organisation informationnelle Two traditional approaches to automatic abstracting are: 1. Extraction, Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation Another example was reviewed in [2]. whereby specific sentences are selected from the source text according to some assessment of their importance. whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated. [Exemples] Définition Exemples Problème Résumé par extraction Critères d’importance Résumé par abstraction

63 Vue d’ensemble Caractérisation Automatique des indices Annotation manuelle De la relation de dépendance Apprentissage Application du modèle prédictif Algorithme d’analyse du discours

64 Différentes unités descriptives Méthodes traditionnelles Méthode alternative Définition Organisation logique Sémantico-rhétorique Par instanciation Par sélection et génération Résumé Par extraction Thématique

65 Définitions Un énoncé  Toute unité textuelle supérieure ou égale à la phrase (ici en générale la phrase) Discours  Unité de texte supérieure à la phrase  Si = à une phrase alors dans contexte / connaissance se trouve élément complémentaire qui permet de comprendre comment se rattache Indices discursifs  Tout élément du texte (linguistique, visuel, etc.) dont le « traitement » (nécessitant ou non des connaissances) aide à la reconnaissance d’une cohérence du discours

66 Modélisation de la structure d’un texte Plusieurs plans d’organisation concomitants  Visuel, Thématique, Rhétorique Organisation  Niveau micro (proche de la proposition selon les modèles)  Macro (le segment : unité discursive homogène selon un critère) Intertextualité  Régularités textuelles propres à un genre (i.e. type d’information) qui guident la production et l’analyse Cohésion  Indices discursifs qui expriment des relations entre les propositions

67 Recherche du point d’attache pour l’énoncé entrant À l’aide de règles/modèles obtenus par apprentissage Appliqués sur des indices linguistiques (grammaticaux, lexicales, sémantiques), visuels (typographique), etc. Présents dans les énoncés concernés ou en contexte Prédit le schéma structurel, le point d’attache optimal, la nature de la relation, la relation structurelle

68 Relation de subordination et de coordination (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës.

69 Relation de subordination et de coordination (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Subordination

70 Relation de subordination et de coordination (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Coordination Subordination

71 Texte exemple Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride…

72 Systèmes de détection de micro-structures Recherche du point d’attache pour l’énoncé entrant SystèmeApproche Kurohashi Al 94Règles qui en fonction des indices en présence donne une probabilité d’une relation rhétorique par laquelle il se rattache à une phrase (au nombre de 11) ; phrastique Marcu 99Modèle de dépendance (obtenu par apprentissage) à partir d’indices en présence et contextuels prédit le schéma structurel d’assemblage et sa nature rhétorique (102) ; intra-phrastique Choi 02Modèle de dépendance qui prédit le point d’attache selon une relation structurelle de subordination Polanyi Al 04Règles qui déterminent le point d’attache selon 3 relations de structuration possible (subordination, coordination, cadrative)

73 Systèmes automatiques 2/ SystèmeIndicesCorpusÉvaluation Kurohashi Al 94Expressions clefs, suivi thématique, similarité 2 à 2 lexicale/grammaticale 77 paires d’entraînement et 126 de test 88% sur l’entraînement et 79% sur le test Marcu mots61,5% Choi 02> 30 ; Lien lexical754 paires de phrases 59,81% à 73,61% Polanyi Al 04Lexical, syntaxique, sémantique PALSUMM

74 Problème avec l’existant Modèle trop complexe, pas assez fin (marcu) Choi : seulement relation de subordination Manque de données et de tests  (choi évalue séparément ses indices) Modèles sont souvent dépendants aux indices (Marcu)

75 Progression thématique Partition sémantique binaire des phrases  Thème : décrit le sujet et est lié au contexte  Rhème : information nouvelle associée à ce thème Type de suivi thématique [Daneš 74; Kruijff-Korbayová & Kruijff 96; Komagata 00; Steedman 00]  Progression : rhème(1) = thème(2)  Parallèle : thème(2) = thème(3) ThèmeRhème (1) Les résumés par extraction sélectionnent des phrases importantes d’un texte. (2) Cette importance peut être mesurée par la présence de termes fréquents. (3) Elle peut aussi être calculée en fonction de l’occurrence de mots clefs. ProgressionParallèle

76 Comment un énoncé se rattache t- il au discours ? Positions des indices  Interne à l’un des énoncés liés (e.g. connecteur)  Externe (e.g. titre, introducteur de cadres)  Appartenant aux deux (e.g. suivi thématique, parallélisme) Structures induites  Subordonne/cadre (e.g. rhème-thème, « : »)  Se subordonne (e.g. « ainsi », « par exemple »)  Initie (e.g. « premièrement », « D’abord », « 1. »)  Continue (e.g. thème-thème, parallélisme, « ensuite »)  Termine (e.g. « Enfin », « »)

77 Parallélisme syntaxico-sémantique Hypothèse  Des similarités syntaxico-sémantiques entre des énoncés signalent un même plan d’égalité entre ces énoncés (information, intention, temporel, etc.) Sémantique Grammatical De surface Paradigmatique Syntagmatique En Inde, les gens se saluent mains jointes sur la poitrine. Au Japon, les gens s'inclinent à plusieurs reprises. Localisation Nom propre Inde/Japon PONCT DT NOM, les gens Verbe prés plur se V+ent se saluent s'inclinent

78 Systèmes de détection de micro-structures Principe : recherche du point d’attache pour l’énoncé entrant SystèmePlanApprocheCommentaire Kurohashi Al 94 rhétoriqueRèglesNature de la relation (11) Marcu 99rhétoriqueApprentissageSchéma structurel d’assemblage et sa nature (102) ; intra-phrastique Choi 02thématiqueApprentissageRelation structurelle de subordination Polanyi Al 04 sémantiqueRègles3 relations de structuration (subordination, coordination, cadrative) ; intra-phrastique

79 Systèmes de détection de micro-structures Systèmes cohésifs principaux  Expressions clefs (connecteur)  Relations lexicales (relation sémantique, suivi thématique)  Grammaticales (temps des verbes) Utilisation singulière des indices  Un connecteur ou une relation sémantique spécifique compte pour un indice SystèmeIndicesCorpusÉvaluation Kurohashi Al paires de phrases d’entraînement et 126 de test 88% sur l’entraînement et 79% sur le test Marcu mots61,5% Choi 02> paires59,81% à 73,61% Polanyi Al 04 PALSUMM

80 Systèmes de détection de micro-structures Principe : recherche du point d’attache pour l’énoncé entrant Systèmes cohésifs principaux  Des connecteur  Relations lexicales (relation sémantique, suivi thématique)  Grammaticales (temps des verbes) Utilisation singulière des indices  Un connecteur ou une relation sémantique spécifique compte pour un indice

81 La reconnaissance de la cohérence Peut requérir des connaissances sémantiques ou pragmatiques S’appuie sur des systèmes cohésifs présents dans les énoncés liés ou dans leur contexte  I.e. tout élément du discours qui permet d’induire une relation structurelle et/ou la nature d’une relation

82 Objectif  Établir les conditions de vérité sémantico-rhétorique d’un contenu [Kamp 81] et [Hobbs 85; Asher & Lascarides 94]  Identifier des unités de texte (thématique, intentionnelle, visuelle, etc.) et reconnaître des relations entre ces unités [Mann & Thompson 87; Grosz & Sidner 86; Virbel 89; Danes 74; …] Accès au contenu du document i.e. la compréhension de texte i.e. la reconnaissance de la cohérence

83