1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR
2 Objectif Établir les conditions de vérité sémantico-rhétorique d’un contenu [Kamp 81] et [Hobbs 85; Asher & Lascarides 94] Identifier des unités de texte (thématique, intentionnelle, visuelle, etc.) et reconnaître des relations entre ces unités [Mann & Thompson 87; Grosz & Sidner 86; Virbel 89; Danes 74; …] Accès au contenu du document i.e. la compréhension de texte i.e. la reconnaissance de la cohérence
3 Enjeux Recherche d’information, résumé automatique, aide à la lecture (visualisation et la navigation), aide à la rédaction, etc. Hiérarchiser l’information, manipuler différentes unités (i.e. degrés d’information), cibler une information, fournir un contexte, lier des parties de textes non-contiguës, etc.
4 Contexte scientifique REGAL [Couto Al 04] LIMSI, LaLLIC, LATTICE, CEA Détection de la macro-structure [Vigier Al 04] Évaluation partielle Nécessité de prendre en compte les phénomènes discursifs au niveau phrastiques (tels que énumération, transition, etc.) pour modéliser plus finement le discours Composante textuelle Articles scientifiques : genre expositif Anglais (disponibilité de ressources)
5 Sommaire 1. Objectif, Enjeux et Contexte scientifique 2. État de l’art 1. Modèles du discours 2. Systèmes automatiques 3. Notre proposition 4. Vue générale du système 1. un algorithme d’analyse du discours 5. Modèle de dépendance 1. Relations lexicales 2. Expressions clefs 3. Parallélisme syntaxico-sémantique 6. Évaluation et discussion
6 Structure visuelle (typo-dispositionnelle) [Virbel 87; Luc 00] Titre Paragraphe Structure énumérative Annonce Item 1 Item 2 Paragraphe
7 Organisation informationnelle macro. Méthodes traditionnelles Méthode alternative Définition Résumé Par extraction Par sélection et génération Par instanciation Méthodes Unité thématique U. sémantico-rhétorique
8 Organisation rhétorique macro. Méthodes traditionnelles Méthode alternative Définition Résumé Par extraction Par sélection et génération Par instanciation Jonction Arrière-Plan Unité thématique U. sémantico-rhétorique
9 Organisation informationnelle micro. Exemple 1Exemple 2 Définition Résumé par extraction Exemples Critères d’importance Problème Unité thématique U. sémantico-rhétorique
10 Organisation rhétorique micro. Exemple 1Exemple 2 Définition Exemples Critères d’importance Problème Unité thématique U. sémantico-rhétorique
11 Théories du discours – différences Les plans d’organisation observés fortement dépendant du genre de texte manipulé L’unité élémentaire Contraintes d’assemblage en unités plus grandes Type de structures de texte hiérarchique ou graphe La nature sémantique des relations Fondement théorique I.e. si s’appuie sur certains systèmes cohésifs ou sur l’interprétation sémantiques et pragmatiques des contenus L’interaction entre les plans Etc.
12 Théories du discours – point commun Les relations structurelles de Subordination : dépendance Informationnelle (exemple, explication) Rhétorique (justification) Intentionnelle (la satisfaction d’un but de l’auteur requiert l’accomplissement d’un sous-but) Thématique (un thème se décompose en sous-thèmes) Coordination : importance égale Informationnelle (définition, problème et solution d’un sujet) Rhétorique (items d’une liste d’arguments)
13 Systèmes de détection de micro-structures SystèmeKurohashi Al 94 Marcu 99Choi 02Polanyi Al 04 Plan Rhétorique ThématiqueSémantique Intérêt Nature de la relation (11) Schéma d’assemblage et sa nature (102) ; intra- phrastique Relation structurelle de subordination (1) 3 relations de structuration (subordination, coordination, cadrative) ; intra- phrastique Approche RèglesApprentissage Règles Indices 2789> 30 Corpus 77 paires de phrases /126 de test mots soit près de 4000 phrases 754 paires de phrases Évaluation 88% sur l’entraînement et 79% sur le test 61,5%59,81% à 73,61% PALSUMM recherche du point d’attache pour l’énoncé entrant Un connecteur ou une relation sémantique spécifique compte pour un indice
14 Proposition : unification des approches et simplification du modèle Plan informationnel (genre scientifique) Dissocier la reconnaissance de la nature des relations de leur schéma structurel Identification des relations de subordination et de coordination Modèle prédictif plutôt que des règles Ce qui est appris dépend de ce qui est annoté (ré-utilisation pour d’autres plans) Dissocier le modèle de prédiction (de la relation) de l’algorithme d’analyse du discours Afin d’appréhender diverses structures du discours
15 Proposition : unification des approches et simplification du modèle Unité élémentaire : la phrase (raison pratique) Les systèmes cohésifs Élargir la classes des connecteurs aux expressions méta-discursives Généraliser les liens lexicaux et les expressions clefs Nouvel indice : le parallélisme syntaxico-sémantique
16 Algorithme d’analyse du discours (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction
17 Algorithme d’analyse du discours (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite 1 (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Prédiction (1) On empile
18 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite 2 (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Prédiction (1) On défile
19 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite 3 Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Application du modèle de prédiction (1)
20 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Application du modèle de prédiction Relation de subordination 4 (1)
21 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Application du modèle de prédiction Relation de subordination (1)(2) 5 Construction de la structure
22 Algorithme d’analyse du discours (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (1)(2) (3) Cette approche est illustrée par le système ADAM. Application du modèle de prédiction Aucune relation 4
23 Algorithme d’analyse du discours (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (1)(2) (3) Cette approche est illustrée par le système ADAM. Application du modèle de prédiction Relation de subordination 4 Construction de la structure (3)
24 Algorithme d’analyse du discours (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (1)(2) (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. Application du modèle de prédiction Relation de coordination 5 Construction de la structure (3) (4)
25 Construction d’un modèle de prédiction de relations Annotation manuelle de relations de coordination et de subordination selon le plan informationnel 5 articles scientifiques de 8 à 10 pages 1190 couples de phrases mises en relation (300 de plus que Choi 02) Caractérisation automatique des couples par 22 indices (contre 2789 pour Marcu 99 et plus de 30 pour Choi 02) Application d’un algorithme d’ apprentissage Arbre de décision C4.5
26 Pré-traitements TreeTagger Lemmatisation et étiquetage grammaticale WordNet et Celex (base de familles dérivationnelles) Construction de chaînes lexicales (chaînes de mots désignant le même concept à travers le texte) Homogénéisation sémantique Même entité et antonymie Charniak Structure syntaxique des phrases
27 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs
28 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Subordination
29 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination
30 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination
31 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination
32 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination Coordination
33 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Parallélisme syntaxico-sémantique Subordination Coordination
34 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Subordination Suivi thématique Subordination Coordination Parallélisme syntaxico-sémantique Coordination
35 Relations lexicales Lien lexical (1) Identité, syn, hypo/hyper, méro/holo, même famille derivationnelle Antonymie (1) relation sémantique et préfixe Lien lexical selon schéma du suivi thématique (4) I.e. les parties sujet et prédicat liées entre 2 phrases Découpage de la phrase par heuristique
36 Expressions clefs Liste construites Listes de connecteurs présentes dans la littérature et par sélection d’expressions méta-discursives acquises selon la méthode de (Hernandez et Al. 03) 178 expressions classées en 5 classes Comportements discursifs (structures induites) Subordonne/cadre (e.g. « such as », « see below », « : ») Se subordonne (e.g. « so », « for example ») Initie (e.g. « First », « On the one hand », « 1. ») Continue (e.g. « second », « also », « another ») Termine (e.g. « On the other hand », « last »)
37 Parallélisme syntaxico-sémantique Représentation du phénomène 1047 phrases, sur 284 coordinations, 97 coordinations sont parallèles et 71 sont énumérations 120 parallèles, 150 énumérations Problème d’appariement d’arbres Solution proposée 1. Homogénéisation sémantique 2. Analyse de la structure syntaxique et aplatissement 3. Mesure de similarité (qui prend en compte la contrainte syntagmatique) Actuellement Seule la mesure est réalisée sur les mots pleins
38 Évaluation du modèle de prédiction Validation croisée entre 10 partitions Système de base : probabilité de la relation la plus fréquente Performances > aux systèmes de base et à l’existant Coordination et subordination AlgorithmePrécision Système de Base 53,10% DST 58,57% Seulement la subordination AlgorithmePrécision Système de Base 69,83% DST 76,35% Choi 02 73,61%
39 Évaluation des systèmes cohésifs Dissocier les différents types de relations sémantiques et heuristiques de suivi thématique plus juste Notre mesure de parallélisme sur mots pleins comparée à une mesure de base (similarité vectorielle) n’apporte rien : requiert de prendre en compte tout le schéma proposé La classification des expressions clefs s’avère positive Seulement la subordination (base 69,83%) Système cohésifPrécision Suivi thématique 69,83% Expressions clefs 73,14%
40 Conclusion Système de détection de l’organisation informationnelle au niveau phrastique Fondé sur une modélisation simplifiée du discours Constitution d’un corpus décrivant les relations structurelles du plan informationnel Intérêt de classer les expressions clefs selon des « comportements discursifs »
41 Perspectives Enrichir le modèle tout en favorisant la simplicité Considérer d’autres systèmes cohésifs (visuel) Les interpréter selon leur « comportement discursif » Ajouter la relation de subordination dirigée vers l’aval Consolider le corpus Considérer plusieurs annotateurs et l’accroître Vers l’abstraction du contenu discursif, l’étude des interactions avec les autres plans…
42 Merci
43
44
45 Perspectives Considérer plus d’indices (e.g. visuel) -> pour prendre en compte les différents plans et genres de texte Des indices contextuels Relation de subordination dirigée vers l’aval Combiner structure locale et globale Étudier les interactions entre les différents plans Vers l’abstraction des contenus… Un énoncé entrant ne se rattache pas à un élément du discours mais à une interprétation (une abstraction) Multi-annotateurs
46
47 Discussion Relation lexical Dissocier les différents types de relations sémantiques et heuristiques de suivi thématique plus juste Parallélisme Prendre en compte la structure complète Classer tous les indices selon les comportements structurels ? Traitement à la volée ?
48
49 Autres Indices discursifs Introduction/Transitionnel/Conclusion Lien (e.g. chaîne anaphorique),
50 La cohérence d’un texte Cohérence : Identifier des unités (thématique, intention, avec une mise en forme visuelle, etc.) et reconnaître des relations entre ces unités [Mann & Thompson 87; Grosz & Sidner 86; Virbel 89; Danes 74; …] Etablir les conditions de vérité sémantico-rhétorique d’un contenu [Kamp 81] et [Hobbs 85; Asher & Lascarides 94] Un lecteur comprend un texte s’il en reconnaît la cohérence
51 Texte exemple Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride…
52 Organisation informationnelle Two traditional approaches to automatic abstracting are: 1. Extraction, whereby specific sentences are selected from the source text according to some assessment of their importance. Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. Another example was reviewed in [2]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation, whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated.
53 Organisation informationnelle Two traditional approaches to automatic abstracting are: 1. Extraction, Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation Another example was reviewed in [2]. whereby specific sentences are selected from the source text according to some assessment of their importance. whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated. [Exemples] Définition Exemples Problème Résumé par extraction Critères d’importance Résumé par abstraction
54 Propriétés structurelles communes Théories Orientées « relation » [Mann & Thompson 87; Polanyi 88] Orientées « segment » [Hearst 97; Daneš 74; Minel Al 01; Teufel & Moens 02; Saggion & Lapalme 02] Relations structurelles Subordination : dépendance Sémantique (exemple, explication), Rhétorique (justification) Intentionnelle (la satisfaction d’un but de l’auteur requiert l’accomplissement d’un sous-but) Thématique (un thème se décompose en sous-thèmes) Coordination : même importance Informationnelle (définition, problème et solution d’un sujet) Rhétorique (Items d’une liste d’arguments)
55 Texte exemple Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride…
56 Texte exemple Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride…
57 Différentes vues descriptives Par abstraction Par sélection et génération Résumé Par extraction Thématique
58 Différentes vues descriptives Par abstraction Par sélection et génération Résumé Par extraction Thématique
59 Organisation rhétorique
60 Différentes unités descriptives Two traditional approaches to automatic abstracting are: 1. Extraction, whereby specific sentences are selected from the source text according to some assessment of their importance. Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. Another example was reviewed in [2]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation, whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated. Résumé par extraction de phrases Critères d’importance Résumé par instanciation de pattrons Définition Exemple Problème Définition
61 Organisation informationnelle Two traditional approaches to automatic abstracting are: 1. Extraction, whereby specific sentences are selected from the source text according to some assessment of their importance. Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. Another example was reviewed in [2]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation, whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated.
62 Organisation informationnelle Two traditional approaches to automatic abstracting are: 1. Extraction, Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation Another example was reviewed in [2]. whereby specific sentences are selected from the source text according to some assessment of their importance. whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated. [Exemples] Définition Exemples Problème Résumé par extraction Critères d’importance Résumé par abstraction
63 Vue d’ensemble Caractérisation Automatique des indices Annotation manuelle De la relation de dépendance Apprentissage Application du modèle prédictif Algorithme d’analyse du discours
64 Différentes unités descriptives Méthodes traditionnelles Méthode alternative Définition Organisation logique Sémantico-rhétorique Par instanciation Par sélection et génération Résumé Par extraction Thématique
65 Définitions Un énoncé Toute unité textuelle supérieure ou égale à la phrase (ici en générale la phrase) Discours Unité de texte supérieure à la phrase Si = à une phrase alors dans contexte / connaissance se trouve élément complémentaire qui permet de comprendre comment se rattache Indices discursifs Tout élément du texte (linguistique, visuel, etc.) dont le « traitement » (nécessitant ou non des connaissances) aide à la reconnaissance d’une cohérence du discours
66 Modélisation de la structure d’un texte Plusieurs plans d’organisation concomitants Visuel, Thématique, Rhétorique Organisation Niveau micro (proche de la proposition selon les modèles) Macro (le segment : unité discursive homogène selon un critère) Intertextualité Régularités textuelles propres à un genre (i.e. type d’information) qui guident la production et l’analyse Cohésion Indices discursifs qui expriment des relations entre les propositions
67 Recherche du point d’attache pour l’énoncé entrant À l’aide de règles/modèles obtenus par apprentissage Appliqués sur des indices linguistiques (grammaticaux, lexicales, sémantiques), visuels (typographique), etc. Présents dans les énoncés concernés ou en contexte Prédit le schéma structurel, le point d’attache optimal, la nature de la relation, la relation structurelle
68 Relation de subordination et de coordination (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës.
69 Relation de subordination et de coordination (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Subordination
70 Relation de subordination et de coordination (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Coordination Subordination
71 Texte exemple Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride…
72 Systèmes de détection de micro-structures Recherche du point d’attache pour l’énoncé entrant SystèmeApproche Kurohashi Al 94Règles qui en fonction des indices en présence donne une probabilité d’une relation rhétorique par laquelle il se rattache à une phrase (au nombre de 11) ; phrastique Marcu 99Modèle de dépendance (obtenu par apprentissage) à partir d’indices en présence et contextuels prédit le schéma structurel d’assemblage et sa nature rhétorique (102) ; intra-phrastique Choi 02Modèle de dépendance qui prédit le point d’attache selon une relation structurelle de subordination Polanyi Al 04Règles qui déterminent le point d’attache selon 3 relations de structuration possible (subordination, coordination, cadrative)
73 Systèmes automatiques 2/ SystèmeIndicesCorpusÉvaluation Kurohashi Al 94Expressions clefs, suivi thématique, similarité 2 à 2 lexicale/grammaticale 77 paires d’entraînement et 126 de test 88% sur l’entraînement et 79% sur le test Marcu mots61,5% Choi 02> 30 ; Lien lexical754 paires de phrases 59,81% à 73,61% Polanyi Al 04Lexical, syntaxique, sémantique PALSUMM
74 Problème avec l’existant Modèle trop complexe, pas assez fin (marcu) Choi : seulement relation de subordination Manque de données et de tests (choi évalue séparément ses indices) Modèles sont souvent dépendants aux indices (Marcu)
75 Progression thématique Partition sémantique binaire des phrases Thème : décrit le sujet et est lié au contexte Rhème : information nouvelle associée à ce thème Type de suivi thématique [Daneš 74; Kruijff-Korbayová & Kruijff 96; Komagata 00; Steedman 00] Progression : rhème(1) = thème(2) Parallèle : thème(2) = thème(3) ThèmeRhème (1) Les résumés par extraction sélectionnent des phrases importantes d’un texte. (2) Cette importance peut être mesurée par la présence de termes fréquents. (3) Elle peut aussi être calculée en fonction de l’occurrence de mots clefs. ProgressionParallèle
76 Comment un énoncé se rattache t- il au discours ? Positions des indices Interne à l’un des énoncés liés (e.g. connecteur) Externe (e.g. titre, introducteur de cadres) Appartenant aux deux (e.g. suivi thématique, parallélisme) Structures induites Subordonne/cadre (e.g. rhème-thème, « : ») Se subordonne (e.g. « ainsi », « par exemple ») Initie (e.g. « premièrement », « D’abord », « 1. ») Continue (e.g. thème-thème, parallélisme, « ensuite ») Termine (e.g. « Enfin », « »)
77 Parallélisme syntaxico-sémantique Hypothèse Des similarités syntaxico-sémantiques entre des énoncés signalent un même plan d’égalité entre ces énoncés (information, intention, temporel, etc.) Sémantique Grammatical De surface Paradigmatique Syntagmatique En Inde, les gens se saluent mains jointes sur la poitrine. Au Japon, les gens s'inclinent à plusieurs reprises. Localisation Nom propre Inde/Japon PONCT DT NOM, les gens Verbe prés plur se V+ent se saluent s'inclinent
78 Systèmes de détection de micro-structures Principe : recherche du point d’attache pour l’énoncé entrant SystèmePlanApprocheCommentaire Kurohashi Al 94 rhétoriqueRèglesNature de la relation (11) Marcu 99rhétoriqueApprentissageSchéma structurel d’assemblage et sa nature (102) ; intra-phrastique Choi 02thématiqueApprentissageRelation structurelle de subordination Polanyi Al 04 sémantiqueRègles3 relations de structuration (subordination, coordination, cadrative) ; intra-phrastique
79 Systèmes de détection de micro-structures Systèmes cohésifs principaux Expressions clefs (connecteur) Relations lexicales (relation sémantique, suivi thématique) Grammaticales (temps des verbes) Utilisation singulière des indices Un connecteur ou une relation sémantique spécifique compte pour un indice SystèmeIndicesCorpusÉvaluation Kurohashi Al paires de phrases d’entraînement et 126 de test 88% sur l’entraînement et 79% sur le test Marcu mots61,5% Choi 02> paires59,81% à 73,61% Polanyi Al 04 PALSUMM
80 Systèmes de détection de micro-structures Principe : recherche du point d’attache pour l’énoncé entrant Systèmes cohésifs principaux Des connecteur Relations lexicales (relation sémantique, suivi thématique) Grammaticales (temps des verbes) Utilisation singulière des indices Un connecteur ou une relation sémantique spécifique compte pour un indice
81 La reconnaissance de la cohérence Peut requérir des connaissances sémantiques ou pragmatiques S’appuie sur des systèmes cohésifs présents dans les énoncés liés ou dans leur contexte I.e. tout élément du discours qui permet d’induire une relation structurelle et/ou la nature d’une relation
82 Objectif Établir les conditions de vérité sémantico-rhétorique d’un contenu [Kamp 81] et [Hobbs 85; Asher & Lascarides 94] Identifier des unités de texte (thématique, intentionnelle, visuelle, etc.) et reconnaître des relations entre ces unités [Mann & Thompson 87; Grosz & Sidner 86; Virbel 89; Danes 74; …] Accès au contenu du document i.e. la compréhension de texte i.e. la reconnaissance de la cohérence
83