La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Comprendre pour apprendre … et apprendre pour comprendre

Présentations similaires


Présentation au sujet: "Comprendre pour apprendre … et apprendre pour comprendre"— Transcription de la présentation:

1 Comprendre pour apprendre … et apprendre pour comprendre
Habilitation à Diriger des Recherches de l’Université Paris 11 Brigitte Grau Institut d’Informatique d’Entreprise (IIE) Groupe LIR - LIMSI

2 COMPRENDRE Objectif initial : modéliser la compréhension en profondeur
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes COMPRENDRE Objectif initial : modéliser la compréhension en profondeur Compréhension humaine Modélisation des connaissances et des processus Connaissances pragmatiques : Formalismes proposés : schéma, scénarios, etc. Exemple Objectif actuel : procéder à une analyse automatique de textes selon les applications Décomposer le processus de compréhension en différents points de vue sur le texte Restituer l’information contenue dans les textes

3 Restituer l’information
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes Restituer l’information Quel accès au contenu ? Savoir de quoi parle un texte : ses thématiques Résumé automatique, visualisation de texte : résumé dynamique Exemple de présentation Trouver une information précise Question-réponse Exemple Adaptation du processus de compréhension à la tâche

4 Comprendre mais aussi apprendre
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes Comprendre mais aussi apprendre De l’analyse thématique des textes Objectif : construire des représentations structurées de connaissances pragmatiques Réutiliser le résultat des processus de compréhension pour structurer des connaissances sur les situations De Question-Réponse Q-R comme un processus itératif de recherche de la connaissance manquante au processus de résolution Acquisition de relations entre entités Validation par le résultat du processus : Réponse correcte ou non

5 Pour apprendre Les textes comme source de connaissances
Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes Pour apprendre Les textes comme source de connaissances Analyse thématique et Question-Réponse pour structurer l’information contenue dans les textes

6 Analyse thématique Savoir Analyse thématique
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse thématique Savoir De quoi parle un texte : ses thèmes Ce qu’il en dit, Comment il le dit. Analyse thématique Segmentation Identification Structuration Adaptation au type de texte Texte narratif (Attentat) Texte expositif (Vin jaune)

7 Analyse thématique Fondée sur les propriétés du texte
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse thématique Fondée sur les propriétés du texte Cohésion lexicale Présence de marqueurs linguistiques Répétition de mots et chaînes anaphoriques Dépendante des connaissances Connaissances disponibles ou acquises automatiquement Réseau de cooccurrences Marques linguistiques : Meta-descripteurs introducteur de cadre (Charolles)

8 Segmentation thématique
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Segmentation thématique Méthodes développées Mesure de la cohésion avec un réseau de cooccurrences Textes narratifs (SEGCOHLEX, Olivier Ferret) Méthode mixte (projet REGAL(1)) Textes expositifs De type TextTiling (Hearst) : Pas de ressources utilisées : répétition et répartition des mots Marques linguistiques Indiquent des débuts de segment ou des regroupements (1) Projet Cognitique ( ) : CEA (O. Ferret), Lalicc (J.L. Minel), Lattice (M. Charolles)

9 SEGCOHLEX : segmentation par cohésion lexicale
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique SEGCOHLEX : segmentation par cohésion lexicale Construction du réseau de cooccurrences Corpus : 24 mois du journal « Le Monde » (entre 1990 et 1994) lemmes et 7 millions de relations pondérées par la mesure de leur information mutuelle Lemme1 Lemme2 Nombre occurrences Valeur de cohésion Type de lien imprimante ordinateur 13 0,227 pragmatique bateau voilier 125 0,224 sémantique prêtre curé 44 0,209 policier cambriolage 41 0,190 chômage emploi 1985 0,167 prendre racine 120 0,110 lexico-syntaxique collision franc 7 0,076 bruit

10 Calcul de la cohésion Réseau de cooccurrences Texte Fenêtre
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Calcul de la cohésion Réseau de cooccurrences 0,43 0,23 0,48 0,23 0,32 0,13 0,13 0,21 0,17 0,28 0,10 0,11 0,12 0,22 0,18 Texte 0,14 0,18 0,2 0,3 1,0 1,14 1,2 Fenêtre Valeurs de cohésion Rupture Positions

11 Exemple : Attentat de MLK
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Exemple : Attentat de MLK Segment 1 Séance de dédicace Segment 2 Attentat Segment 3 Hôpital

12 Courbe et segments calculés
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Courbe et segments calculés Pointu Entretenir

13 Résultat : Attentat de MLK
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Résultat : Attentat de MLK Segment 1 Séance de dédicace Segment 2 Attentat Segment 3 Hôpital

14 2 méthodes de structuration
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique 2 méthodes de structuration Structure par emboîtement de segments Projet REGAL Structure « gros grain » Exemple Structure phrase par phrase DST (Nicolas Hernandez) Structure « grain fin » Apprentissage des relations entre 2 phrases Subordination, coordination, absence de relation Critères : marques linguistiques, cohésion lexicale, suivi thème-rhème, parallélisme syntaxique

15 Analyse thématique : Conclusion et perspectives
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse thématique : Conclusion et perspectives Typage du rôle rhétorique de segments ou d’énoncés importants Identification des thèmes Structure Faire coopérer analyse globale et locale Transposer sur les textes narratifs Visualisation et navigation

16 Analyse pour l’apprentissage
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Analyse pour l’apprentissage Apprentissage : caractéristiques Automatique Incrémental et non supervisé A partir des textes Garde la relation au texte Principe d’accumulation Similarité entre entités Agrégation de ces entités

17 Mémoire thématique Agrégation des UTS d’un même domaine
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Mémoire thématique Rosa (Olivier Ferret) Réseau de Cooccurrences Domaine sémantique UTL Agrégation Segments/UTLs Corpus Domaine structuré UTS UTS Verbe->S->Nom Verbe->COD->Nom Verbe->Prep->Nom Agrégation La segmentation se fait en mesurant la cohésion thématique en chaque point du corpus et en segmentant les textes aux endroits où cette cohésion est faible. Les UTLS sont les mots pleins lemmatisés des segments. Svetlan’ (Gael de Chalendar) Agrégation des UTS d’un même domaine  Construction de classes de noms pour un même verbe et une même relation  Construction des Domaines Structurés Agrégation des UTLs similaires  Lemmes récurrents  Domaines sémantiques : ensemble de lemmes pondérés Analyse syntaxique des phrases des segments  Unités Thématiques Structurées (UTS)  Ensemble de triplets <verbe, relation, nom> Filtrage des classes selon l’importance des mots dans le domaine Segmentation : lemmes du texte + lemmes inférés  Unités Thématiques Lexicales (UTL)  Ensemble de lemmes

18 Exemple de domaine Lemmes du texte Lemmes du texte et lemmes inférés
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Exemple de domaine Lemmes du texte Lemmes du texte et lemmes inférés 3 1 Lemmes inférés Lemmes du texte non segmenté 2 4

19 Exemple de domaine structuré
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Exemple de domaine structuré Expérimentations en français et en anglais Researcher, patient Sujet 3 Call Virus, antibody COD Carry Physician, care 4 Meet Treatment, care 11 Get Care, treatment, medication 8 Receive Care, medication Give Nurse, surgery 6 Say Care, treatment 35 Provide Surgery, illness, treatment 24 Be Classe Relation NbOcc Verbe

20 Aggrégation de graphes
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Calcul de similarité et Aggrégation de graphes MLK Circonstances a) [Être_localisé] — (objet) —> [Événement] (lieu) —> [Magasin] b) [Fou] — (source) —> [Femme] Description a) [Poignarder] — (agent) —> [Femme] (destinat.) —> [Poitrine] — (partieDe) —> [Homme: MLK] (instrument) —> [CoupePapier] (manière) —> [Brutalement] b) [Transporter] — (agent) —> [Humain] (patient) —> [Homme: MLK] (destination) —> [Hôpital] (manière) —> [Rapidement] États incidents a) [Être_blessé] — (patient) —> [Homme: MLK] b) [Être_hospitalisé] — Mémoire épisodique Texte analysé manuellement Relations causales : D.a -> I.a D.b-> I.b

21 MLK Base de connaissances sémantiques Unités thématiques
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique MLK Base de connaissances sémantiques Graphes conceptuels Unités thématiques Ensemble de graphes conceptuels Structure en : Circonstances, Description, États incidents Similarité UT – épisode en mémoire Tient compte de la structure Similarité de graphes Fondée sur l’opération de projection Agrégation Fondée sur l’opération de jointure

22 Apprentissage et Analyse : Conclusion et perspectives
Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Apprentissage et Analyse : Conclusion et perspectives Analyse conceptuelle automatique des situations Affiner la délimitation automatique des situations Représentation des situations fondée sur une base de connaissances sémantique Résultats de SVETLAN : emplois des verbes contextualisés WordNet : relations hiérarchiques VerbNet : structures de cas des verbes FrameNet : situations et événements Intégrer ces différentes bases de connaissances Itérer sur l’apprentissage Généralisation des événements

23 Analyse robuste de texte pour trouver des réponses à des questions
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Analyse robuste de texte pour trouver des réponses à des questions Processus différents selon : Domaine ouvert ou domaine de spécialité Domaine ouvert : démarche analogue à l’analyse thématique Définition de processus robustes Utilisation de ressources existantes ou acquises automatiquement Stratégies différentes selon : Le type d’information cherché La ressource interrogée Les résultats obtenus par chaque processus (à développer) Évaluation des résultats

24 Répondre à des questions
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives Répondre à des questions Question Méthodes Patron d’extraction : Personne <poignarder> Henri IV Personne VerbePrincipal Focus Qui a poignardé Henri IV ? NOM de PERSONNE Entité nommée Q GN GV V Aux Prn NPr sujet COD Critères syntaxiques : Personne <poignarder> Henri IV SUJET COD … C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! …

25 Répondre à des questions
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives Répondre à des questions Questions Méthodes Critères sémantiques Tuer synonyme Poignarder Qui a tué Henri IV ? Où a été tué Henri IV ? LIEU dans le contexte plus Critères sémantiques Tuer => Mort Rendre son dernier soupir <=> Mourir LIEU (VILLE, PAYS, etc) … C’est à Paris, rue de la Ferronnerie, qu’Henri IV a rendu son dernier soupir… D’autre part, on peut rappeler que les rues encombrées et étroites du Paris d’avant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! …

26 Variations question vs passage-réponse
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives Variations question vs passage-réponse Analyse des questions Extraction de caractéristiques de la réponse Analyse des passages Entités nommées Variation au niveau des termes Règles de réécritures de Fastr (C. Jacquemin) Variation au niveau des phrases Patrons d’extraction ayant le focus de la question en élément pivot Grammaires locales utilisant Scol (Abney) Evaluation de paraphrases (A.L. Ligozat et V. Barbier) Validation par le Web

27 Systèmes monolingues QALC : anglais FRASQUES : français
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Systèmes monolingues QALC : anglais Evalué à Trec de 1998 à 2001 30-35% de réponses correctes 2 fois dans les 10 premiers 5 réponses longues : 6ème 1 réponse courte : 9ème FRASQUES : français Projet Technolangue EVALDA (2004): EQueR : 1ère évaluation sur le français 5 réponses Résultats à EQueR 2 et 3ème selon la tâche 45% réponses longues 30% réponses courtes

28 Question-Réponse multilingue
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Question-Réponse multilingue Question en français – réponse en anglais Indispensable sur le Web Variation supplémentaire Traduction des termes : choix de la traduction correcte Validation par les bi-termes MUSQAT : évaluation à CLEF 20% des réponses Parmi les premiers 1er système : 25% des réponses

29 Question-Réponse : Projet CONIQUE(1)
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Question-Réponse : Projet CONIQUE(1) 3 axes : Justification des réponses trouvées Vérification de la présence de toutes les informations données dans la question Acquisition de relations pour l’inférence Dépendante du contexte Catégorisation des réponses données à l’utilisateur Présentation interactive des résultats - Navigation Résolution itérative Les textes comme source de connaissances : Recherche de relations dans les textes à partir de leur expression en langue (1) Projet ANR non thématique ( ) : CEA (O. Ferret) et Lallic (J.L. Minel)

30 Justification de la réponse
Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives Justification de la réponse Quel coureur espagnol a gagné une étape du tour de France en 2003 ?  coureur espagnol Pablo Lastras Justification : 25 juillet 2003 – Pablo Lastras a remporté la 18e étape du Tour de France cycliste, vendredi, entre Bordeaux et Saint-Maixent-L'École. Vendredi 15 août 2003 Les cinq étapes du Tour de Burgos 2003 ont été remportées par cinq coureurs différents : Carlos Garcia Quesada, José Vicente Garcia Acosta, Dave Bruylandts, David Millar (CLM) et enfin Gorka Gonzalez Larranaga, qui remporte dans la dernière étape sa première victoire chez les professionnels. La victoire finale revient au coureur le plus régulier, l'Espagnol Pablo Lastras, qui s'était distingué durant le Tour de France en remportant la 18e étape.

31 Bilan Perspectives Bilan

32 Bilan Perspectives Conclusion Modéliser un continuum entre processus et structuration des connaissances Stratégie d’application de processus Évaluation automatique de leurs performances Construire une plate-forme d’expérimentation et d’évaluation

33 Merci

34 personne, outil, véhicule
Une situation Ses propriétés Réparer un véhicule Rôles : personne, outil, véhicule Conditions: Rôles Véhicule en panne Véhicule = rôle (véhicule) Evénements Connaître la mécanique Agent = rôle (personne) Relations causales Description 1 Trouver panne Relations temporelles Agent = rôle (personne) 1.Résultat = pièce 2 Démonter pièce Inférence 3 Réparer pièce 4 Remonter pièce Structuration Agent = rôle (personne) Pièce = 1.résultat Résultat Véhicule fonctionne Véhicule = rôle (véhicule)

35 Pas de méthode pour élaborer et organiser les connaissances
Un graphe de schémas Remettre en état entité Avoir profession Réparer objet Soigner être-animé Etre garagiste Réparer véhicule Réparer objet-mécanique Connaître mécanique Sorte-de Trouver panne Réparer pièce Fait appel-à Pas de méthode pour élaborer et organiser les connaissances Quel niveau de granularité, quels regroupements ? Quelle structure hiérarchique ?

36 Exemple d’exploration d’un texte
Thème général : vin jaune

37 Thème général : vin jaune
Exemple d’exploration d’un texte Thème général : vin jaune Thème global : vin Thème local : mélange, composé Meta-descripteurs : analyse, technique Thème local : Thème global : Meta-descripteurs : vin goût, noisette caractéristique

38 Méta-descripteureurs :
Exemple d’exploration d’un texte Thème général : vin jaune Thème global : vin Thème local : mélange, composé Meta-descripteurs : analyse, technique Thème global : vin Thèmes local : goût, noisette Méta-descripteureurs : caractéristique

39 Réponse Justification de la réponse Question-réponse Quel coureur espagnol a gagné une étape du tour de France en 2003 ?  Pablo Lastras Justification : 25 juillet 2003 – Pablo Lastras a remporté la 18e étape du Tour de France cycliste, vendredi, entre Bordeaux et Saint-Maixent-L'École.

40 Structuration fine de texte
DST – type de relations (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait d’anaphores ambiguës. Selon le type de relation ; indépendamment de sa nature

41 DST – Types de relations
Structuration fine de texte DST – Types de relations (1) Les résumés par extraction sélectionnent des phrases d’un texte source selon leur importance. Subordination (2) Les critères d’importance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Coordination (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. Selon le type de relation ; indépendamment de sa nature Structure construite (1) (2) (3) (4)

42 REGAL - Principe de structuration
Structuration descendante de texte REGAL - Principe de structuration Repérage de structures emboîtées [Masson, 1998] Digressions, développements d’aspects particuliers Fréquent dans textes expositifs Algorithme Recherche des 2 segments non-consécutifs les plus liés Application récursive pour les segments englobés ou non englobés restant Analyse descendante Mise en évidence du niveau le + englobant Recherche des 2 segments les plus liés et non-consécutifs Ré-appliquer récursivement pour les segments englobés

43 Représentation du texte (des thèmes)
Compréhension de ce dont parle un texte  Analyse thématique Texte expositif  Les sujets (ex. Analyse thématique)  Leur description - hypothèses - méthodes - résultats  Leur structure Texte narratif  Les situations (ex. Dédicace, Attentat)  Leur description - conditions - description - conséquences  Leur structure Connaissances  Forme (du texte, marques de surface)  Syntaxe (phrase)  Lexico-sémantico-pragmatiques - lexique ontologie - réseau de cooccurrences - domaines - schémas Méthodes : Selon connaissances disponibles : - Cohésion lexicale - Analyses de surface - Inférences Représentation du texte (des thèmes) + ou - structurée selon structuration des connaissances

44 Représentation du texte (des thèmes)
Compréhension de ce dont parle un texte  Analyse thématique Connaissances  Forme (du texte, marques de surface)  Syntaxe (phrase)  Lexico-sémantico-pragmatiques - lexique ontologie - réseau de cooccurrences Méthodes : - Cohésion lexicale - Analyse de surface - Inférences - domaines - classes de noms/verbe - schémas Représentation du texte (des thèmes) + ou - structurée selon structuration des connaissannces Acquisition (partielle) - à partir de textes - en contexte - reste en relation avec la source Méthodes : - similarité et agrégation - analyse distributionnelle - abstraction

45 Structure rhétorico-thématique
Thèmes Structure rhétorico-thématique Introduction Résumé Résumé Méthodes existantes Résumé par extraction Résumé par extraction Définition Exemple Résumé par abstraction Définition Exemple Résumé par abstraction Méthode proposée Résumé par sélection et génération Résumé par sélection et génération

46 personne, outil, véhicule
Une situation Ses propriétés Réparer un véhicule Rôles : personne, outil, véhicule Conditions: Rôles Véhicule en panne Véhicule = rôle (véhicule) Evénements Connaître la mécanique Agent = rôle (personne) Relations causales Description 1 Trouver panne Relations temporelles Agent = rôle (personne) 1.Résultat = pièce 2 Démonter pièce Inférence 3 Réparer pièce 4 Remonter pièce Structuration Agent = rôle (personne) Pièce = 1.résultat Résultat Véhicule fonctionne Véhicule = rôle (véhicule)


Télécharger ppt "Comprendre pour apprendre … et apprendre pour comprendre"

Présentations similaires


Annonces Google