Télécharger la présentation
Publié parCendrillon Colin Modifié depuis plus de 10 années
1
Comprendre pour apprendre … et apprendre pour comprendre
Habilitation à Diriger des Recherches de l’Université Paris 11 Brigitte Grau Institut d’Informatique d’Entreprise (IIE) Groupe LIR - LIMSI
2
COMPRENDRE Objectif initial : modéliser la compréhension en profondeur
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes COMPRENDRE Objectif initial : modéliser la compréhension en profondeur Compréhension humaine Modélisation des connaissances et des processus Connaissances pragmatiques : Formalismes proposés : schéma, scénarios, etc. Exemple Objectif actuel : procéder à une analyse automatique de textes selon les applications Décomposer le processus de compréhension en différents points de vue sur le texte Restituer l’information contenue dans les textes
3
Restituer l’information
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes Restituer l’information Quel accès au contenu ? Savoir de quoi parle un texte : ses thématiques Résumé automatique, visualisation de texte : résumé dynamique Exemple de présentation Trouver une information précise Question-réponse Exemple Adaptation du processus de compréhension à la tâche
4
Comprendre mais aussi apprendre
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes Comprendre mais aussi apprendre De l’analyse thématique des textes Objectif : construire des représentations structurées de connaissances pragmatiques Réutiliser le résultat des processus de compréhension pour structurer des connaissances sur les situations De Question-Réponse Q-R comme un processus itératif de recherche de la connaissance manquante au processus de résolution Acquisition de relations entre entités Validation par le résultat du processus : Réponse correcte ou non
5
Pour apprendre Les textes comme source de connaissances
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes Pour apprendre Les textes comme source de connaissances Analyse thématique et Question-Réponse pour structurer l’information contenue dans les textes
6
Analyse thématique Savoir Analyse thématique
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse thématique Savoir De quoi parle un texte : ses thèmes Ce qu’il en dit, Comment il le dit. Analyse thématique Segmentation Identification Structuration Adaptation au type de texte Texte narratif (Attentat) Texte expositif (Vin jaune)
7
Analyse thématique Fondée sur les propriétés du texte
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse thématique Fondée sur les propriétés du texte Cohésion lexicale Présence de marqueurs linguistiques Répétition de mots et chaînes anaphoriques Dépendante des connaissances Connaissances disponibles ou acquises automatiquement Réseau de cooccurrences Marques linguistiques : Meta-descripteurs introducteur de cadre (Charolles)
8
Segmentation thématique
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Segmentation thématique Méthodes développées Mesure de la cohésion avec un réseau de cooccurrences Textes narratifs (SEGCOHLEX, Olivier Ferret) Méthode mixte (projet REGAL(1)) Textes expositifs De type TextTiling (Hearst) : Pas de ressources utilisées : répétition et répartition des mots Marques linguistiques Indiquent des débuts de segment ou des regroupements (1) Projet Cognitique ( ) : CEA (O. Ferret), Lalicc (J.L. Minel), Lattice (M. Charolles)
9
SEGCOHLEX : segmentation par cohésion lexicale
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique SEGCOHLEX : segmentation par cohésion lexicale Construction du réseau de cooccurrences Corpus : 24 mois du journal « Le Monde » (entre 1990 et 1994) lemmes et 7 millions de relations pondérées par la mesure de leur information mutuelle Lemme1 Lemme2 Nombre occurrences Valeur de cohésion Type de lien imprimante ordinateur 13 0,227 pragmatique bateau voilier 125 0,224 sémantique prêtre curé 44 0,209 policier cambriolage 41 0,190 chômage emploi 1985 0,167 prendre racine 120 0,110 lexico-syntaxique collision franc 7 0,076 bruit
10
Calcul de la cohésion Réseau de cooccurrences Texte Fenêtre
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Calcul de la cohésion Réseau de cooccurrences 0,43 0,23 0,48 0,23 0,32 0,13 0,13 0,21 0,17 0,28 0,10 0,11 0,12 0,22 0,18 Texte 0,14 0,18 0,2 0,3 1,0 1,14 1,2 Fenêtre Valeurs de cohésion Rupture Positions
11
Exemple : Attentat de MLK
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Exemple : Attentat de MLK Segment 1 Séance de dédicace Segment 2 Attentat Segment 3 Hôpital
12
Courbe et segments calculés
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Courbe et segments calculés Pointu Entretenir
13
Résultat : Attentat de MLK
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Résultat : Attentat de MLK Segment 1 Séance de dédicace Segment 2 Attentat Segment 3 Hôpital
14
2 méthodes de structuration
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique 2 méthodes de structuration Structure par emboîtement de segments Projet REGAL Structure « gros grain » Exemple Structure phrase par phrase DST (Nicolas Hernandez) Structure « grain fin » Apprentissage des relations entre 2 phrases Subordination, coordination, absence de relation Critères : marques linguistiques, cohésion lexicale, suivi thème-rhème, parallélisme syntaxique
15
Analyse thématique : Conclusion et perspectives
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse thématique : Conclusion et perspectives Typage du rôle rhétorique de segments ou d’énoncés importants Identification des thèmes Structure Faire coopérer analyse globale et locale Transposer sur les textes narratifs Visualisation et navigation
16
Analyse pour l’apprentissage
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse pour l’apprentissage Apprentissage : caractéristiques Automatique Incrémental et non supervisé A partir des textes Garde la relation au texte Principe d’accumulation Similarité entre entités Agrégation de ces entités
17
Mémoire thématique Agrégation des UTS d’un même domaine
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Mémoire thématique Rosa (Olivier Ferret) Réseau de Cooccurrences Domaine sémantique UTL Agrégation Segments/UTLs Corpus Domaine structuré UTS UTS Verbe->S->Nom Verbe->COD->Nom Verbe->Prep->Nom Agrégation La segmentation se fait en mesurant la cohésion thématique en chaque point du corpus et en segmentant les textes aux endroits où cette cohésion est faible. Les UTLS sont les mots pleins lemmatisés des segments. Svetlan’ (Gael de Chalendar) Agrégation des UTS d’un même domaine Construction de classes de noms pour un même verbe et une même relation Construction des Domaines Structurés Agrégation des UTLs similaires Lemmes récurrents Domaines sémantiques : ensemble de lemmes pondérés Analyse syntaxique des phrases des segments Unités Thématiques Structurées (UTS) Ensemble de triplets <verbe, relation, nom> Filtrage des classes selon l’importance des mots dans le domaine Segmentation : lemmes du texte + lemmes inférés Unités Thématiques Lexicales (UTL) Ensemble de lemmes
18
Exemple de domaine Lemmes du texte Lemmes du texte et lemmes inférés
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Exemple de domaine Lemmes du texte Lemmes du texte et lemmes inférés 3 1 Lemmes inférés Lemmes du texte non segmenté 2 4
19
Exemple de domaine structuré
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Exemple de domaine structuré Expérimentations en français et en anglais Researcher, patient Sujet 3 Call Virus, antibody COD Carry Physician, care 4 Meet Treatment, care 11 Get Care, treatment, medication 8 Receive Care, medication Give Nurse, surgery 6 Say Care, treatment 35 Provide Surgery, illness, treatment 24 Be Classe Relation NbOcc Verbe
20
Aggrégation de graphes
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Calcul de similarité et Aggrégation de graphes MLK Circonstances a) [Être_localisé] — (objet) —> [Événement] (lieu) —> [Magasin] b) [Fou] — (source) —> [Femme] Description a) [Poignarder] — (agent) —> [Femme] (destinat.) —> [Poitrine] — (partieDe) —> [Homme: MLK] (instrument) —> [CoupePapier] (manière) —> [Brutalement] b) [Transporter] — (agent) —> [Humain] (patient) —> [Homme: MLK] (destination) —> [Hôpital] (manière) —> [Rapidement] États incidents a) [Être_blessé] — (patient) —> [Homme: MLK] b) [Être_hospitalisé] — Mémoire épisodique Texte analysé manuellement Relations causales : D.a -> I.a D.b-> I.b
21
MLK Base de connaissances sémantiques Unités thématiques
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique MLK Base de connaissances sémantiques Graphes conceptuels Unités thématiques Ensemble de graphes conceptuels Structure en : Circonstances, Description, États incidents Similarité UT – épisode en mémoire Tient compte de la structure Similarité de graphes Fondée sur l’opération de projection Agrégation Fondée sur l’opération de jointure
22
Apprentissage et Analyse : Conclusion et perspectives
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Apprentissage et Analyse : Conclusion et perspectives Analyse conceptuelle automatique des situations Affiner la délimitation automatique des situations Représentation des situations fondée sur une base de connaissances sémantique Résultats de SVETLAN : emplois des verbes contextualisés WordNet : relations hiérarchiques VerbNet : structures de cas des verbes FrameNet : situations et événements Intégrer ces différentes bases de connaissances Itérer sur l’apprentissage Généralisation des événements
23
Analyse robuste de texte pour trouver des réponses à des questions
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Analyse robuste de texte pour trouver des réponses à des questions Processus différents selon : Domaine ouvert ou domaine de spécialité Domaine ouvert : démarche analogue à l’analyse thématique Définition de processus robustes Utilisation de ressources existantes ou acquises automatiquement Stratégies différentes selon : Le type d’information cherché La ressource interrogée Les résultats obtenus par chaque processus (à développer) Évaluation des résultats
24
Répondre à des questions
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives Répondre à des questions Question Méthodes Patron d’extraction : Personne <poignarder> Henri IV Personne VerbePrincipal Focus Qui a poignardé Henri IV ? NOM de PERSONNE Entité nommée Q GN GV V Aux Prn NPr sujet COD Critères syntaxiques : Personne <poignarder> Henri IV SUJET COD … C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! …
25
Répondre à des questions
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives Répondre à des questions Questions Méthodes Critères sémantiques Tuer synonyme Poignarder Qui a tué Henri IV ? Où a été tué Henri IV ? LIEU dans le contexte plus Critères sémantiques Tuer => Mort Rendre son dernier soupir <=> Mourir LIEU (VILLE, PAYS, etc) … C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! …
26
Variations question vs passage-réponse
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives Variations question vs passage-réponse Analyse des questions Extraction de caractéristiques de la réponse Analyse des passages Entités nommées Variation au niveau des termes Règles de réécritures de Fastr (C. Jacquemin) Variation au niveau des phrases Patrons d’extraction ayant le focus de la question en élément pivot Grammaires locales utilisant Scol (Abney) Evaluation de paraphrases (A.L. Ligozat et V. Barbier) Validation par le Web
27
Systèmes monolingues QALC : anglais FRASQUES : français
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Systèmes monolingues QALC : anglais Evalué à Trec de 1998 à 2001 30-35% de réponses correctes 2 fois dans les 10 premiers 5 réponses longues : 6ème 1 réponse courte : 9ème FRASQUES : français Projet Technolangue EVALDA (2004): EQueR : 1ère évaluation sur le français 5 réponses Résultats à EQueR 2 et 3ème selon la tâche 45% réponses longues 30% réponses courtes
28
Question-Réponse multilingue
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Question-Réponse multilingue Question en français – réponse en anglais Indispensable sur le Web Variation supplémentaire Traduction des termes : choix de la traduction correcte Validation par les bi-termes MUSQAT : évaluation à CLEF 20% des réponses Parmi les premiers 1er système : 25% des réponses
29
Question-Réponse : Projet CONIQUE(1)
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Question-Réponse : Projet CONIQUE(1) 3 axes : Justification des réponses trouvées Vérification de la présence de toutes les informations données dans la question Acquisition de relations pour l’inférence Dépendante du contexte Catégorisation des réponses données à l’utilisateur Présentation interactive des résultats - Navigation Résolution itérative Les textes comme source de connaissances : Recherche de relations dans les textes à partir de leur expression en langue (1) Projet ANR non thématique ( ) : CEA (O. Ferret) et Lallic (J.L. Minel)
30
Justification de la réponse
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Justification de la réponse Quel coureur espagnol a gagné une étape du tour de France en 2003 ? coureur espagnol Pablo Lastras Justification : 25 juillet 2003 – Pablo Lastras a remporté la 18e étape du Tour de France cycliste, vendredi, entre Bordeaux et Saint-Maixent-L'École. Vendredi 15 août 2003 Les cinq étapes du Tour de Burgos 2003 ont été remportées par cinq coureurs différents : Carlos Garcia Quesada, José Vicente Garcia Acosta, Dave Bruylandts, David Millar (CLM) et enfin Gorka Gonzalez Larranaga, qui remporte dans la dernière étape sa première victoire chez les professionnels. La victoire finale revient au coureur le plus régulier, l'Espagnol Pablo Lastras, qui s'était distingué durant le Tour de France en remportant la 18e étape.
31
Bilan Perspectives Bilan
32
Bilan Perspectives Conclusion Modéliser un continuum entre processus et structuration des connaissances Stratégie d’application de processus Évaluation automatique de leurs performances Construire une plate-forme d’expérimentation et d’évaluation
33
Merci
34
personne, outil, véhicule
Une situation Ses propriétés Réparer un véhicule Rôles : personne, outil, véhicule Conditions: Rôles Véhicule en panne Véhicule = rôle (véhicule) Evénements Connaître la mécanique Agent = rôle (personne) Relations causales Description 1 Trouver panne Relations temporelles Agent = rôle (personne) 1.Résultat = pièce 2 Démonter pièce Inférence 3 Réparer pièce 4 Remonter pièce Structuration Agent = rôle (personne) Pièce = 1.résultat Résultat Véhicule fonctionne Véhicule = rôle (véhicule)
35
Pas de méthode pour élaborer et organiser les connaissances
Un graphe de schémas Remettre en état entité Avoir profession Réparer objet Soigner être-animé Etre garagiste Réparer véhicule Réparer objet-mécanique Connaître mécanique Sorte-de Trouver panne Réparer pièce Fait appel-à Pas de méthode pour élaborer et organiser les connaissances Quel niveau de granularité, quels regroupements ? Quelle structure hiérarchique ?
36
Exemple d’exploration d’un texte
Thème général : vin jaune
37
Thème général : vin jaune
Exemple d’exploration d’un texte Thème général : vin jaune Thème global : vin Thème local : mélange, composé Meta-descripteurs : analyse, technique Thème local : Thème global : Meta-descripteurs : vin goût, noisette caractéristique
38
Méta-descripteureurs :
Exemple d’exploration d’un texte Thème général : vin jaune Thème global : vin Thème local : mélange, composé Meta-descripteurs : analyse, technique Thème global : vin Thèmes local : goût, noisette Méta-descripteureurs : caractéristique
39
Réponse Justification de la réponse Question-réponse Quel coureur espagnol a gagné une étape du tour de France en 2003 ? Pablo Lastras Justification : 25 juillet 2003 – Pablo Lastras a remporté la 18e étape du Tour de France cycliste, vendredi, entre Bordeaux et Saint-Maixent-L'École.
40
Structuration fine de texte
DST – type de relations (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. Selon le type de relation ; indépendamment de sa nature
41
DST – Types de relations
Structuration fine de texte DST – Types de relations (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Subordination (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Coordination (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. Selon le type de relation ; indépendamment de sa nature Structure construite (1) (2) (3) (4)
42
REGAL - Principe de structuration
Structuration descendante de texte REGAL - Principe de structuration Repérage de structures emboîtées [Masson, 1998] Digressions, développements d’aspects particuliers Fréquent dans textes expositifs Algorithme Recherche des 2 segments non-consécutifs les plus liés Application récursive pour les segments englobés ou non englobés restant Analyse descendante Mise en évidence du niveau le + englobant Recherche des 2 segments les plus liés et non-consécutifs Ré-appliquer récursivement pour les segments englobés
43
Représentation du texte (des thèmes)
Compréhension de ce dont parle un texte Analyse thématique Texte expositif Les sujets (ex. Analyse thématique) Leur description - hypothèses - méthodes - résultats Leur structure Texte narratif Les situations (ex. Dédicace, Attentat) Leur description - conditions - description - conséquences Leur structure Connaissances Forme (du texte, marques de surface) Syntaxe (phrase) Lexico-sémantico-pragmatiques - lexique ontologie - réseau de cooccurrences - domaines - schémas Méthodes : Selon connaissances disponibles : - Cohésion lexicale - Analyses de surface - Inférences Représentation du texte (des thèmes) + ou - structurée selon structuration des connaissances
44
Représentation du texte (des thèmes)
Compréhension de ce dont parle un texte Analyse thématique Connaissances Forme (du texte, marques de surface) Syntaxe (phrase) Lexico-sémantico-pragmatiques - lexique ontologie - réseau de cooccurrences Méthodes : - Cohésion lexicale - Analyse de surface - Inférences - domaines - classes de noms/verbe - schémas Représentation du texte (des thèmes) + ou - structurée selon structuration des connaissannces Acquisition (partielle) - à partir de textes - en contexte - reste en relation avec la source Méthodes : - similarité et agrégation - analyse distributionnelle - abstraction
45
Structure rhétorico-thématique
Thèmes Structure rhétorico-thématique Introduction Résumé Résumé Méthodes existantes Résumé par extraction Résumé par extraction Définition Exemple Résumé par abstraction Définition Exemple Résumé par abstraction Méthode proposée Résumé par sélection et génération Résumé par sélection et génération
46
personne, outil, véhicule
Une situation Ses propriétés Réparer un véhicule Rôles : personne, outil, véhicule Conditions: Rôles Véhicule en panne Véhicule = rôle (véhicule) Evénements Connaître la mécanique Agent = rôle (personne) Relations causales Description 1 Trouver panne Relations temporelles Agent = rôle (personne) 1.Résultat = pièce 2 Démonter pièce Inférence 3 Réparer pièce 4 Remonter pièce Structuration Agent = rôle (personne) Pièce = 1.résultat Résultat Véhicule fonctionne Véhicule = rôle (véhicule)
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.