La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR.

Présentations similaires


Présentation au sujet: "1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR."— Transcription de la présentation:

1 1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR

2 2 Objectif  Établir les conditions de vérité sémantico-rhétorique d’un contenu [Kamp 81] et [Hobbs 85; Asher & Lascarides 94]  Identifier des unités de texte (thématique, intentionnelle, visuelle, etc.) et reconnaître des relations entre ces unités [Mann & Thompson 87; Grosz & Sidner 86; Virbel 89; Danes 74; …] Accès au contenu du document i.e. la compréhension de texte i.e. la reconnaissance de la cohérence

3 3 Enjeux Recherche d’information, résumé automatique, aide à la lecture (visualisation et la navigation), aide à la rédaction, etc. Hiérarchiser l’information, manipuler différentes unités (i.e. degrés d’information), cibler une information, fournir un contexte, lier des parties de textes non-contiguës, etc.

4 4 Contexte scientifique REGAL [Couto Al 04]  LIMSI, LaLLIC, LATTICE, CEA  Détection de la macro-structure [Vigier Al 04]  Évaluation partielle  Nécessité de prendre en compte les phénomènes discursifs au niveau phrastiques (tels que énumération, transition, etc.) pour modéliser plus finement le discours Composante textuelle Articles scientifiques : genre expositif Anglais (disponibilité de ressources)

5 5 Sommaire 1. Objectif, Enjeux et Contexte scientifique 2. État de l’art 1. Modèles du discours 2. Systèmes automatiques 3. Notre proposition 4. Vue générale du système 1. un algorithme d’analyse du discours 5. Modèle de dépendance 1. Relations lexicales 2. Expressions clefs 3. Parallélisme syntaxico-sémantique 6. Évaluation et discussion

6 6 Structure visuelle (typo-dispositionnelle) [Virbel 87; Luc 00] Titre Paragraphe Structure énumérative Annonce Item 1 Item 2 Paragraphe

7 7 Organisation informationnelle macro. Méthodes traditionnelles Méthode alternative Définition Résumé Par extraction Par sélection et génération Par instanciation Méthodes Unité thématique U. sémantico-rhétorique

8 8 Organisation rhétorique macro. Méthodes traditionnelles Méthode alternative Définition Résumé Par extraction Par sélection et génération Par instanciation Jonction Arrière-Plan Unité thématique U. sémantico-rhétorique

9 9 Organisation informationnelle micro. Exemple 1Exemple 2 Définition Résumé par extraction Exemples Critères d’importance Problème Unité thématique U. sémantico-rhétorique

10 10 Organisation rhétorique micro. Exemple 1Exemple 2 Définition Exemples Critères d’importance Problème Unité thématique U. sémantico-rhétorique

11 11 Théories du discours – différences  Les plans d’organisation observés fortement dépendant du genre de texte manipulé  L’unité élémentaire  Contraintes d’assemblage en unités plus grandes  Type de structures de texte hiérarchique ou graphe  La nature sémantique des relations  Fondement théorique I.e. si s’appuie sur certains systèmes cohésifs ou sur l’interprétation sémantiques et pragmatiques des contenus  L’interaction entre les plans  Etc.

12 12 Théories du discours – point commun Les relations structurelles de  Subordination : dépendance Informationnelle (exemple, explication) Rhétorique (justification) Intentionnelle (la satisfaction d’un but de l’auteur requiert l’accomplissement d’un sous-but) Thématique (un thème se décompose en sous-thèmes)  Coordination : importance égale Informationnelle (définition, problème et solution d’un sujet) Rhétorique (items d’une liste d’arguments)

13 13 Systèmes de détection de micro-structures SystèmeKurohashi Al 94 Marcu 99Choi 02Polanyi Al 04 Plan Rhétorique ThématiqueSémantique Intérêt Nature de la relation (11) Schéma d’assemblage et sa nature (102) ; intra- phrastique Relation structurelle de subordination (1) 3 relations de structuration (subordination, coordination, cadrative) ; intra- phrastique Approche RèglesApprentissage Règles Indices 2789> 30 Corpus 77 paires de phrases /126 de test 99360 mots soit près de 4000 phrases 754 paires de phrases Évaluation 88% sur l’entraînement et 79% sur le test 61,5%59,81% à 73,61% PALSUMM recherche du point d’attache pour l’énoncé entrant Un connecteur ou une relation sémantique spécifique compte pour un indice

14 14 Proposition : unification des approches et simplification du modèle Plan informationnel (genre scientifique) Dissocier la reconnaissance de la nature des relations de leur schéma structurel  Identification des relations de subordination et de coordination Modèle prédictif plutôt que des règles  Ce qui est appris dépend de ce qui est annoté (ré-utilisation pour d’autres plans) Dissocier le modèle de prédiction (de la relation) de l’algorithme d’analyse du discours  Afin d’appréhender diverses structures du discours

15 15 Proposition : unification des approches et simplification du modèle Unité élémentaire :  la phrase (raison pratique) Les systèmes cohésifs  Élargir la classes des connecteurs aux expressions méta-discursives  Généraliser les liens lexicaux et les expressions clefs  Nouvel indice : le parallélisme syntaxico-sémantique

16 16 Algorithme d’analyse du discours (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction

17 17 Algorithme d’analyse du discours (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite 1 (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Prédiction (1) On empile

18 18 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite 2 (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Prédiction (1) On défile

19 19 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite 3 Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Application du modèle de prédiction (1)

20 20 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Application du modèle de prédiction Relation de subordination 4 (1)

21 21 Algorithme d’analyse du discours (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Application du modèle de prédiction Relation de subordination (1)(2) 5 Construction de la structure

22 22 Algorithme d’analyse du discours (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (1)(2) (3) Cette approche est illustrée par le système ADAM. Application du modèle de prédiction Aucune relation 4

23 23 Algorithme d’analyse du discours (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (1)(2) (3) Cette approche est illustrée par le système ADAM. Application du modèle de prédiction Relation de subordination 4 Construction de la structure (3)

24 24 Algorithme d’analyse du discours (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. TexteStructure en construction Frontière droite Prédiction (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (1)(2) (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. Application du modèle de prédiction Relation de coordination 5 Construction de la structure (3) (4)

25 25 Construction d’un modèle de prédiction de relations Annotation manuelle de relations de coordination et de subordination selon le plan informationnel  5 articles scientifiques de 8 à 10 pages  1190 couples de phrases mises en relation (300 de plus que Choi 02) Caractérisation automatique des couples par 22 indices (contre 2789 pour Marcu 99 et plus de 30 pour Choi 02) Application d’un algorithme d’ apprentissage  Arbre de décision C4.5

26 26 Pré-traitements TreeTagger  Lemmatisation et étiquetage grammaticale WordNet et Celex (base de familles dérivationnelles)  Construction de chaînes lexicales (chaînes de mots désignant le même concept à travers le texte) Homogénéisation sémantique Même entité et antonymie Charniak  Structure syntaxique des phrases

27 27 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs

28 28 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Subordination

29 29 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination

30 30 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination

31 31 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination

32 32 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Subordination Coordination

33 33 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Suivi thématique Parallélisme syntaxico-sémantique Subordination Coordination

34 34 Systèmes cohésifs et relations Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride… Expressions clefs Subordination Suivi thématique Subordination Coordination Parallélisme syntaxico-sémantique Coordination

35 35 Relations lexicales Lien lexical (1)  Identité, syn, hypo/hyper, méro/holo, même famille derivationnelle Antonymie (1)  relation sémantique et préfixe Lien lexical selon schéma du suivi thématique (4)  I.e. les parties sujet et prédicat liées entre 2 phrases Découpage de la phrase par heuristique

36 36 Expressions clefs Liste construites  Listes de connecteurs présentes dans la littérature  et par sélection d’expressions méta-discursives acquises selon la méthode de (Hernandez et Al. 03) 178 expressions classées en 5 classes Comportements discursifs (structures induites)  Subordonne/cadre (e.g. « such as », « see below », « : »)  Se subordonne (e.g. « so », « for example »)  Initie (e.g. « First », « On the one hand », « 1. »)  Continue (e.g. « second », « also », « another »)  Termine (e.g. « On the other hand », « last »)

37 37 Parallélisme syntaxico-sémantique Représentation du phénomène  1047 phrases,  sur 284 coordinations, 97 coordinations sont parallèles et 71 sont énumérations  120 parallèles, 150 énumérations Problème d’appariement d’arbres Solution proposée 1. Homogénéisation sémantique 2. Analyse de la structure syntaxique et aplatissement 3. Mesure de similarité (qui prend en compte la contrainte syntagmatique) Actuellement  Seule la mesure est réalisée sur les mots pleins

38 38 Évaluation du modèle de prédiction Validation croisée entre 10 partitions Système de base : probabilité de la relation la plus fréquente Performances > aux systèmes de base et à l’existant Coordination et subordination AlgorithmePrécision Système de Base 53,10% DST 58,57% Seulement la subordination AlgorithmePrécision Système de Base 69,83% DST 76,35% Choi 02 73,61%

39 39 Évaluation des systèmes cohésifs  Dissocier les différents types de relations sémantiques et heuristiques de suivi thématique plus juste  Notre mesure de parallélisme sur mots pleins comparée à une mesure de base (similarité vectorielle) n’apporte rien : requiert de prendre en compte tout le schéma proposé  La classification des expressions clefs s’avère positive Seulement la subordination (base 69,83%) Système cohésifPrécision Suivi thématique 69,83% Expressions clefs 73,14%

40 40 Conclusion Système de détection de l’organisation informationnelle au niveau phrastique  Fondé sur une modélisation simplifiée du discours Constitution d’un corpus décrivant les relations structurelles du plan informationnel Intérêt de classer les expressions clefs selon des « comportements discursifs »

41 41 Perspectives Enrichir le modèle tout en favorisant la simplicité  Considérer d’autres systèmes cohésifs (visuel)  Les interpréter selon leur « comportement discursif »  Ajouter la relation de subordination dirigée vers l’aval Consolider le corpus  Considérer plusieurs annotateurs et l’accroître Vers l’abstraction du contenu discursif, l’étude des interactions avec les autres plans…

42 42 Merci

43 43

44 44

45 45 Perspectives  Considérer plus d’indices (e.g. visuel) -> pour prendre en compte les différents plans et genres de texte  Des indices contextuels  Relation de subordination dirigée vers l’aval  Combiner structure locale et globale  Étudier les interactions entre les différents plans  Vers l’abstraction des contenus… Un énoncé entrant ne se rattache pas à un élément du discours mais à une interprétation (une abstraction)  Multi-annotateurs

46 46

47 47 Discussion Relation lexical  Dissocier les différents types de relations sémantiques et heuristiques de suivi thématique plus juste Parallélisme  Prendre en compte la structure complète Classer tous les indices selon les comportements structurels ? Traitement à la volée ?

48 48

49 49 Autres  Indices discursifs  Introduction/Transitionnel/Conclusion  Lien (e.g. chaîne anaphorique),

50 50 La cohérence d’un texte Cohérence :  Identifier des unités (thématique, intention, avec une mise en forme visuelle, etc.) et reconnaître des relations entre ces unités [Mann & Thompson 87; Grosz & Sidner 86; Virbel 89; Danes 74; …]  Etablir les conditions de vérité sémantico-rhétorique d’un contenu [Kamp 81] et [Hobbs 85; Asher & Lascarides 94] Un lecteur comprend un texte s’il en reconnaît la cohérence

51 51 Texte exemple Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride…

52 52 Organisation informationnelle Two traditional approaches to automatic abstracting are: 1. Extraction, whereby specific sentences are selected from the source text according to some assessment of their importance. Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. Another example was reviewed in [2]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation, whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated.

53 53 Organisation informationnelle Two traditional approaches to automatic abstracting are: 1. Extraction, Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation Another example was reviewed in [2]. whereby specific sentences are selected from the source text according to some assessment of their importance. whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated. [Exemples] Définition Exemples Problème Résumé par extraction Critères d’importance Résumé par abstraction

54 54 Propriétés structurelles communes Théories  Orientées « relation » [Mann & Thompson 87; Polanyi 88]  Orientées « segment » [Hearst 97; Daneš 74; Minel Al 01; Teufel & Moens 02; Saggion & Lapalme 02] Relations structurelles  Subordination : dépendance  Sémantique (exemple, explication),  Rhétorique (justification)  Intentionnelle (la satisfaction d’un but de l’auteur requiert l’accomplissement d’un sous-but)  Thématique (un thème se décompose en sous-thèmes)  Coordination : même importance  Informationnelle (définition, problème et solution d’un sujet)  Rhétorique (Items d’une liste d’arguments)

55 55 Texte exemple Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride…

56 56 Texte exemple Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride…

57 57 Différentes vues descriptives Par abstraction Par sélection et génération Résumé Par extraction Thématique

58 58 Différentes vues descriptives Par abstraction Par sélection et génération Résumé Par extraction Thématique

59 59 Organisation rhétorique

60 60 Différentes unités descriptives Two traditional approaches to automatic abstracting are: 1. Extraction, whereby specific sentences are selected from the source text according to some assessment of their importance. Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. Another example was reviewed in [2]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation, whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated. Résumé par extraction de phrases Critères d’importance Résumé par instanciation de pattrons Définition Exemple Problème Définition

61 61 Organisation informationnelle Two traditional approaches to automatic abstracting are: 1. Extraction, whereby specific sentences are selected from the source text according to some assessment of their importance. Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. Another example was reviewed in [2]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation, whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated.

62 62 Organisation informationnelle Two traditional approaches to automatic abstracting are: 1. Extraction, Importance indicators include terms with high frequency, occurrence of expressions, such as "important", "to sum up" etc., and the position of the sentence within the text. This approach is exemplified by Pollock and Zamora's ADAM system [1]. The problems with this approach is that the extracted sentences do not always constitute a coherent text, since they often contain dangling anaphors and other cross-references. 2. Summarisation Another example was reviewed in [2]. whereby specific sentences are selected from the source text according to some assessment of their importance. whereby detailed semantic analysis is applied to the text, and a representation such as a semantic net is produced, from which a summary is then generated. [Exemples] Définition Exemples Problème Résumé par extraction Critères d’importance Résumé par abstraction

63 63 Vue d’ensemble Caractérisation Automatique des indices Annotation manuelle De la relation de dépendance Apprentissage Application du modèle prédictif Algorithme d’analyse du discours

64 64 Différentes unités descriptives Méthodes traditionnelles Méthode alternative Définition Organisation logique Sémantico-rhétorique Par instanciation Par sélection et génération Résumé Par extraction Thématique

65 65 Définitions Un énoncé  Toute unité textuelle supérieure ou égale à la phrase (ici en générale la phrase) Discours  Unité de texte supérieure à la phrase  Si = à une phrase alors dans contexte / connaissance se trouve élément complémentaire qui permet de comprendre comment se rattache Indices discursifs  Tout élément du texte (linguistique, visuel, etc.) dont le « traitement » (nécessitant ou non des connaissances) aide à la reconnaissance d’une cohérence du discours

66 66 Modélisation de la structure d’un texte Plusieurs plans d’organisation concomitants  Visuel, Thématique, Rhétorique Organisation  Niveau micro (proche de la proposition selon les modèles)  Macro (le segment : unité discursive homogène selon un critère) Intertextualité  Régularités textuelles propres à un genre (i.e. type d’information) qui guident la production et l’analyse Cohésion  Indices discursifs qui expriment des relations entre les propositions

67 67 Recherche du point d’attache pour l’énoncé entrant À l’aide de règles/modèles obtenus par apprentissage Appliqués sur des indices linguistiques (grammaticaux, lexicales, sémantiques), visuels (typographique), etc. Présents dans les énoncés concernés ou en contexte Prédit le schéma structurel, le point d’attache optimal, la nature de la relation, la relation structurelle

68 68 Relation de subordination et de coordination (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës.

69 69 Relation de subordination et de coordination (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Subordination

70 70 Relation de subordination et de coordination (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Coordination Subordination

71 71 Texte exemple Il existe deux approches traditionnelles en résumé automatique : 1. Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Les critères d’importance incluent la présence de termes fréquents, de mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Cette approche est illustrée par le système ADAM. Un autre exemple est donné par [2]. Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. 2. Les résumés par instanciation de patrons… Le travail présenté ici repose sur une approche alternative hybride…

72 72 Systèmes de détection de micro-structures Recherche du point d’attache pour l’énoncé entrant SystèmeApproche Kurohashi Al 94Règles qui en fonction des indices en présence donne une probabilité d’une relation rhétorique par laquelle il se rattache à une phrase (au nombre de 11) ; phrastique Marcu 99Modèle de dépendance (obtenu par apprentissage) à partir d’indices en présence et contextuels prédit le schéma structurel d’assemblage et sa nature rhétorique (102) ; intra-phrastique Choi 02Modèle de dépendance qui prédit le point d’attache selon une relation structurelle de subordination Polanyi Al 04Règles qui déterminent le point d’attache selon 3 relations de structuration possible (subordination, coordination, cadrative)

73 73 Systèmes automatiques 2/ SystèmeIndicesCorpusÉvaluation Kurohashi Al 94Expressions clefs, suivi thématique, similarité 2 à 2 lexicale/grammaticale 77 paires d’entraînement et 126 de test 88% sur l’entraînement et 79% sur le test Marcu 99278999360 mots61,5% Choi 02> 30 ; Lien lexical754 paires de phrases 59,81% à 73,61% Polanyi Al 04Lexical, syntaxique, sémantique PALSUMM

74 74 Problème avec l’existant Modèle trop complexe, pas assez fin (marcu) Choi : seulement relation de subordination Manque de données et de tests  (choi évalue séparément ses indices) Modèles sont souvent dépendants aux indices (Marcu)

75 75 Progression thématique Partition sémantique binaire des phrases  Thème : décrit le sujet et est lié au contexte  Rhème : information nouvelle associée à ce thème Type de suivi thématique [Daneš 74; Kruijff-Korbayová & Kruijff 96; Komagata 00; Steedman 00]  Progression : rhème(1) = thème(2)  Parallèle : thème(2) = thème(3) ThèmeRhème (1) Les résumés par extraction sélectionnent des phrases importantes d’un texte. (2) Cette importance peut être mesurée par la présence de termes fréquents. (3) Elle peut aussi être calculée en fonction de l’occurrence de mots clefs. ProgressionParallèle

76 76 Comment un énoncé se rattache t- il au discours ? Positions des indices  Interne à l’un des énoncés liés (e.g. connecteur)  Externe (e.g. titre, introducteur de cadres)  Appartenant aux deux (e.g. suivi thématique, parallélisme) Structures induites  Subordonne/cadre (e.g. rhème-thème, « : »)  Se subordonne (e.g. « ainsi », « par exemple »)  Initie (e.g. « premièrement », « D’abord », « 1. »)  Continue (e.g. thème-thème, parallélisme, « ensuite »)  Termine (e.g. « Enfin », « »)

77 77 Parallélisme syntaxico-sémantique Hypothèse  Des similarités syntaxico-sémantiques entre des énoncés signalent un même plan d’égalité entre ces énoncés (information, intention, temporel, etc.) Sémantique Grammatical De surface Paradigmatique Syntagmatique En Inde, les gens se saluent mains jointes sur la poitrine. Au Japon, les gens s'inclinent à plusieurs reprises. Localisation Nom propre Inde/Japon PONCT DT NOM, les gens Verbe prés plur se V+ent se saluent s'inclinent

78 78 Systèmes de détection de micro-structures Principe : recherche du point d’attache pour l’énoncé entrant SystèmePlanApprocheCommentaire Kurohashi Al 94 rhétoriqueRèglesNature de la relation (11) Marcu 99rhétoriqueApprentissageSchéma structurel d’assemblage et sa nature (102) ; intra-phrastique Choi 02thématiqueApprentissageRelation structurelle de subordination Polanyi Al 04 sémantiqueRègles3 relations de structuration (subordination, coordination, cadrative) ; intra-phrastique

79 79 Systèmes de détection de micro-structures Systèmes cohésifs principaux  Expressions clefs (connecteur)  Relations lexicales (relation sémantique, suivi thématique)  Grammaticales (temps des verbes) Utilisation singulière des indices  Un connecteur ou une relation sémantique spécifique compte pour un indice SystèmeIndicesCorpusÉvaluation Kurohashi Al 94 77 paires de phrases d’entraînement et 126 de test 88% sur l’entraînement et 79% sur le test Marcu 99278999360 mots61,5% Choi 02> 30754 paires59,81% à 73,61% Polanyi Al 04 PALSUMM

80 80 Systèmes de détection de micro-structures Principe : recherche du point d’attache pour l’énoncé entrant Systèmes cohésifs principaux  Des connecteur  Relations lexicales (relation sémantique, suivi thématique)  Grammaticales (temps des verbes) Utilisation singulière des indices  Un connecteur ou une relation sémantique spécifique compte pour un indice

81 81 La reconnaissance de la cohérence Peut requérir des connaissances sémantiques ou pragmatiques S’appuie sur des systèmes cohésifs présents dans les énoncés liés ou dans leur contexte  I.e. tout élément du discours qui permet d’induire une relation structurelle et/ou la nature d’une relation

82 82 Objectif  Établir les conditions de vérité sémantico-rhétorique d’un contenu [Kamp 81] et [Hobbs 85; Asher & Lascarides 94]  Identifier des unités de texte (thématique, intentionnelle, visuelle, etc.) et reconnaître des relations entre ces unités [Mann & Thompson 87; Grosz & Sidner 86; Virbel 89; Danes 74; …] Accès au contenu du document i.e. la compréhension de texte i.e. la reconnaissance de la cohérence

83 83


Télécharger ppt "1 Détection automatique de micro-structures d’un texte TALN, session “texte“, Dourdan, le 9 juin 2005 Nicolas Hernandez et Brigitte Grau LIMSI/CNRS – LIR."

Présentations similaires


Annonces Google