1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR
2 Objectif Établir les conditions de vérité sémantico-rhétorique d’un contenu [Kamp 81] et [Hobbs 85; Asher & Lascarides 94] Identifier des unités de texte (thématique, intentionnelle, visuelle, etc.) et reconnaître des relations entre ces unités [Mann & Thompson 87; Grosz & Sidner 86; Virbel 89; Danes 74; …] Accès au contenu du document i.e. la compréhension de texte i.e. la reconnaissance de la cohérence
3 Enjeux Recherche d’information, résumé automatique, aide à la lecture (visualisation et la navigation), aide à la rédaction, etc. Hiérarchiser l’information, manipuler différentes unités (i.e. degrés d’information), cibler une information, fournir un contexte, lier des parties de textes non-contiguës, etc.
4 Contexte scientifique REGAL [Couto Al 04] LIMSI, LaLLIC, LATTICE, CEA Détection de la macro-structure [Vigier Al 04] Évaluation partielle Nécessité de prendre en compte les phénomènes discursifs au niveau phrastiques (tels que énumération, transition, etc.) pour modéliser plus finement le discours Composante textuelle Articles scientifiques : genre expositif Anglais (disponibilité de ressources)
5 Sommaire 1. Objectif, Enjeux et Contexte scientifique 2. État de l’art 1. Modèles du discours 2. Systèmes automatiques 3. Notre proposition 4. Vue générale du système 1. un algorithme d’analyse du discours 5. Modèle de dépendance 1. Relations lexicales 2. Expressions clefs 3. Parallélisme syntaxico-sémantique 6. Évaluation et discussion
6 Structure visuelle (typo-dispositionnelle) [Virbel 87; Luc 00] Titre Paragraphe Structure énumérative Annonce Item 1 Item 2 Paragraphe
7 Organisation informationnelle macro. Méthodes traditionnelles Méthode alternative Définition Résumé Par extraction Par sélection et génération Par instanciation Méthodes Unité thématique U. sémantico-rhétorique
8 Organisation rhétorique macro. Méthodes traditionnelles Méthode alternative Définition Résumé Par extraction Par sélection et génération Par instanciation Jonction Arrière-Plan Unité thématique U. sémantico-rhétorique
9 Organisation informationnelle micro. Exemple 1Exemple 2 Définition Résumé par extraction Exemples Critères d’importance Problème Unité thématique U. sémantico-rhétorique
10 Organisation rhétorique micro. Exemple 1Exemple 2 Définition Exemples Critères d’importance Problème Unité thématique U. sémantico-rhétorique
11 Théories du discours – différences Les plans d’organisation observés fortement dépendant du genre de texte manipulé L’unité élémentaire Contraintes d’assemblage en unités plus grandes Type de structures de texte hiérarchique ou graphe La nature sémantique des relations Fondement théorique I.e. si s’appuie sur certains systèmes cohésifs ou sur l’interprétation sémantiques et pragmatiques des contenus L’interaction entre les plans Etc.
12 Théories du discours – point commun Les relations structurelles de Subordination : dépendance Informationnelle (exemple, explication) Rhétorique (justification) Intentionnelle (la satisfaction d’un but de l’auteur requiert l’accomplissement d’un sous-but) Thématique (un thème se décompose en sous-thèmes) Coordination : importance égale Informationnelle (définition, problème et solution d’un sujet) Rhétorique (items d’une liste d’arguments)
13 Systèmes de détection de micro-structures SystèmeKurohashi Al 94 Marcu 99Choi 02Polanyi Al 04 Plan Rhétorique ThématiqueSémantique Intérêt Nature de la relation (11) Schéma d’assemblage et sa nature (102) ; intra- phrastique Relation structurelle de subordination (1) 3 relations de structuration (subordination, coordination, cadrative) ; intra- phrastique Approche RèglesApprentissage Règles Indices 2789> 30 Corpus 77 paires de phrases /126 de test mots soit près de 4000 phrases 754 paires de phrases Évaluation 88% sur l’entraînement et 79% sur le test 61,5%59,81% à 73,61% PALSUMM recherche du point d’attache pour l’énoncé entrant Un connecteur ou une relation sémantique spécifique compte pour un indice
14 Proposition : unification des approches et simplification du modèle Plan informationnel (genre scientifique) Dissocier la reconnaissance de la nature des relations de leur schéma structurel Identification des relations de subordination et de coordination Modèle prédictif plutôt que des règles Ce qui est appris dépend de ce qui est annoté (ré-utilisation pour d’autres plans) Dissocier le modèle de prédiction (de la relation) de l’algorithme d’analyse du discours Afin d’appréhender diverses structures du discours
15 Proposition : unification des approches et simplification du modèle Unité élémentaire : la phrase (raison pratique) Les systèmes cohésifs Élargir la classes des connecteurs aux expressions méta-discursives Généraliser les liens lexicaux et les expressions clefs Nouvel indice : le parallélisme syntaxico-sémantique
16 Algorithme d’analyse du discours (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction
17 Algorithme d’analyse du discours (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite 1 (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Prédiction (1) On empile
18 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite 2 (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Prédiction (1) On défile
19 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite 3 Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Application du modèle de prédiction (1)
20 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Application du modèle de prédiction Relation de subordination 4 (1)
21 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Application du modèle de prédiction Relation de subordination (1)(2) 5 Construction de la structure
22 Algorithme d’analyse du discours (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (1)(2) (3) Cette approche est illustrée par le système ADAM. Application du modèle de prédiction Aucune relation 4
23 Algorithme d’analyse du discours (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (1)(2) (3) Cette approche est illustrée par le système ADAM. Application du modèle de prédiction Relation de subordination 4 Construction de la structure (3)
24 Algorithme d’analyse du discours (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (1)(2) (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. Application du modèle de prédiction Relation de coordination 5 Construction de la structure (3) (4)
25 Construction d’un modèle de prédiction de relations Annotation manuelle de relations de coordination et de subordination selon le plan informationnel 5 articles scientifiques de 8 à 10 pages 1190 couples de phrases mises en relation (300 de plus que Choi 02) Caractérisation automatique des couples par 22 indices (contre 2789 pour Marcu 99 et plus de 30 pour Choi 02) Application d’un algorithme d’ apprentissage Arbre de décision C4.5
26 Pré-traitements TreeTagger Lemmatisation et étiquetage grammaticale WordNet et Celex (base de familles dérivationnelles) Construction de chaînes lexicales (chaînes de mots désignant le même concept à travers le texte) Homogénéisation sémantique Même entité et antonymie Charniak Structure syntaxique des phrases
27 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs
28 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Subordination
29 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination
30 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination
31 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination
32 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination Coordination
33 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Parallélisme syntaxico-sémantique Subordination Coordination
34 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Subordination Suivi thématique Subordination Coordination Parallélisme syntaxico-sémantique Coordination
35 Relations lexicales Lien lexical (1) Identité, syn, hypo/hyper, méro/holo, même famille derivationnelle Antonymie (1) relation sémantique et préfixe Lien lexical selon schéma du suivi thématique (4) I.e. les parties sujet et prédicat liées entre 2 phrases Découpage de la phrase par heuristique
36 Expressions clefs Liste construites Listes de connecteurs présentes dans la littérature et par sélection d’expressions méta-discursives acquises selon la méthode de (Hernandez et Al. 03) 178 expressions classées en 5 classes Comportements discursifs (structures induites) Subordonne/cadre (e.g. « such as », « see below », « : ») Se subordonne (e.g. « so », « for example ») Initie (e.g. « First », « On the one hand », « 1. ») Continue (e.g. « second », « also », « another ») Termine (e.g. « On the other hand », « last »)
37 Parallélisme syntaxico-sémantique Représentation du phénomène 1047 phrases, sur 284 coordinations, 97 coordinations sont parallèles et 71 sont énumérations 120 parallèles, 150 énumérations Problème d’appariement d’arbres Solution proposée 1. Homogénéisation sémantique 2. Analyse de la structure syntaxique et aplatissement 3. Mesure de similarité (qui prend en compte la contrainte syntagmatique) Actuellement Seule la mesure est réalisée sur les mots pleins
38 Évaluation du modèle de prédiction Validation croisée entre 10 partitions Système de base : probabilité de la relation la plus fréquente Performances > aux systèmes de base et à l’existant Coordination et subordination AlgorithmePrécision Système de Base 53,10% DST 58,57% Seulement la subordination AlgorithmePrécision Système de Base 69,83% DST 76,35% Choi 02 73,61%
39 Évaluation des systèmes cohésifs Dissocier les différents types de relations sémantiques et heuristiques de suivi thématique plus juste Notre mesure de parallélisme sur mots pleins comparée à une mesure de base (similarité vectorielle) n’apporte rien : requiert de prendre en compte tout le schéma proposé La classification des expressions clefs s’avère positive Seulement la subordination (base 69,83%) Système cohésifPrécision Suivi thématique 69,83% Expressions clefs 73,14%
40 Conclusion Système de détection de l’organisation informationnelle au niveau phrastique Fondé sur une modélisation simplifiée du discours Constitution d’un corpus décrivant les relations structurelles du plan informationnel Intérêt de classer les expressions clefs selon des « comportements discursifs »
41 Perspectives Enrichir le modèle tout en favorisant la simplicité Considérer d’autres systèmes cohésifs (visuel) Les interpréter selon leur « comportement discursif » Ajouter la relation de subordination dirigée vers l’aval Consolider le corpus Considérer plusieurs annotateurs et l’accroître Vers l’abstraction du contenu discursif, l’étude des interactions avec les autres plans…
42 Merci
43