La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Comprendre pour apprendre … et apprendre pour comprendre Brigitte Grau Institut dInformatique dEntreprise (IIE) Groupe LIR - LIMSI Habilitation à Diriger.

Présentations similaires


Présentation au sujet: "Comprendre pour apprendre … et apprendre pour comprendre Brigitte Grau Institut dInformatique dEntreprise (IIE) Groupe LIR - LIMSI Habilitation à Diriger."— Transcription de la présentation:

1 Comprendre pour apprendre … et apprendre pour comprendre Brigitte Grau Institut dInformatique dEntreprise (IIE) Groupe LIR - LIMSI Habilitation à Diriger des Recherches de lUniversité Paris 11

2 2 COMPRENDRE Objectif initial : modéliser la compréhension en profondeur Compréhension humaine Modélisation des connaissances et des processus Connaissances pragmatiques : Formalismes proposés : schéma, scénarios, etc. Exemple Objectif actuel : procéder à une analyse automatique de textes selon les applications Décomposer le processus de compréhension en différents points de vue sur le texte Restituer linformation contenue dans les textes Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes

3 3 Restituer linformation Quel accès au contenu ? Savoir de quoi parle un texte : ses thématiques Résumé automatique, visualisation de texte : résumé dynamique Exemple de présentation Trouver une information précise Question-réponse Exemple Adaptation du processus de compréhension à la tâche Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes

4 4 Comprendre mais aussi apprendre De lanalyse thématique des textes Objectif : construire des représentations structurées de connaissances pragmatiques Réutiliser le résultat des processus de compréhension pour structurer des connaissances sur les situations De Question-Réponse Q-R comme un processus itératif de recherche de la connaissance manquante au processus de résolution Acquisition de relations entre entités Validation par le résultat du processus : Réponse correcte ou non Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes

5 5 Pour apprendre Les textes comme source de connaissances Analyse thématique et Question-Réponse pour structurer linformation contenue dans les textes Cadre Analyse de texte et apprentissage Question réponse Compréhension Apprendre des textes

6 6 Analyse thématique Savoir De quoi parle un texte : ses thèmes Ce quil en dit, Comment il le dit. Analyse thématique Segmentation Identification Structuration Adaptation au type de texte Texte narratif (Attentat) Texte expositif (Vin jaune) Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

7 7 Analyse thématique Fondée sur les propriétés du texte Cohésion lexicale Présence de marqueurs linguistiques Répétition de mots et chaînes anaphoriques Dépendante des connaissances Connaissances disponibles ou acquises automatiquement Réseau de cooccurrences Marques linguistiques : Meta-descripteurs introducteur de cadre (Charolles) Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

8 8 Segmentation thématique Méthodes développées Mesure de la cohésion avec un réseau de cooccurrences Textes narratifs (SEGCOHLEX, Olivier Ferret) Méthode mixte (projet REGAL (1) ) Textes expositifs De type TextTiling (Hearst) : Pas de ressources utilisées : répétition et répartition des mots Marques linguistiques Indiquent des débuts de segment ou des regroupements (1) Projet Cognitique ( ) : CEA (O. Ferret), Lalicc (J.L. Minel), Lattice (M. Charolles) Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

9 9 SEGCOHLEX : segmentation par cohésion lexicale Construction du réseau de cooccurrences Corpus : 24 mois du journal « Le Monde » (entre 1990 et 1994) lemmes et 7 millions de relations pondérées par la mesure de leur information mutuelle Lemme1Lemme2Nombre occurrences Valeur de cohésion Type de lien imprimanteordinateur130,227pragmatique bateauvoilier1250,224sémantique prêtrecuré440,209sémantique policiercambriolage410,190pragmatique chômageemploi19850,167sémantique prendreracine1200,110lexico- syntaxique collisionfranc70,076bruit Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

10 10 Calcul de la cohésion Réseau de cooccurrences Texte Valeurs de cohésion Positions Rupture 0,21 0,13 0,14 0,10 0,17 0,18 0,13 0,11 0,12 0,18 0,22 0,28 1,01,141,0 1,2 1,0 0,2 0,3 0,430,480,23 0,32 0,23 Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Fenêtre

11 11 Exemple : Attentat de MLK Segment 1 Séance de dédicace Segment 2 Attentat Segment 3 Hôpital Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

12 12 Courbe et segments calculés Pointu Entretenir Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

13 13 Résultat : Attentat de MLK Segment 1 Séance de dédicace Segment 2 Attentat Segment 3 Hôpital Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

14 14 2 méthodes de structuration Structure par emboîtement de segments Projet REGAL Structure « gros grain » Exemple Structure phrase par phrase DST (Nicolas Hernandez) Structure « grain fin » Apprentissage des relations entre 2 phrases Subordination, coordination, absence de relation Critères : marques linguistiques, cohésion lexicale, suivi thème- rhème, parallélisme syntaxique Exemple Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

15 15 Analyse thématique : Conclusion et perspectives Typage du rôle rhétorique de segments ou dénoncés importants Identification des thèmes Structure Faire coopérer analyse globale et locale Transposer sur les textes narratifs Visualisation et navigation Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

16 16 Analyse pour lapprentissage Apprentissage : caractéristiques Automatique Incrémental et non supervisé A partir des textes Garde la relation au texte Principe daccumulation Similarité entre entités Agrégation de ces entités Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

17 17 Agrégation des UTS dun même domaine Construction de classes de noms pour un même verbe et une même relation Construction des Domaines Structurés Mémoire thématique Réseau de Cooccurrences Corpus Segments/UTLs Domaine sémantique UTL Agrégation Domaine structuré UTS Agrégation UTS Verbe->S->Nom Verbe->COD->Nom Verbe->Prep->Nom Segmentation : lemmes du texte + lemmes inférés Unités Thématiques Lexicales (UTL) Ensemble de lemmes Agrégation des UTLs similaires Lemmes récurrents Domaines sémantiques : ensemble de lemmes pondérés Filtrage des classes selon limportance des mots dans le domaine Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Rosa (Olivier Ferret) Svetlan (Gael de Chalendar) Analyse syntaxique des phrases des segments Unités Thématiques Structurées (UTS) Ensemble de triplets

18 18 Exemple de domaine Lemmes du texte Lemmes du texte et lemmes inférés Lemmes inférés Lemmes du texte non segmenté Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

19 19 Exemple de domaine structuré Researcher, patientSujet3Call Virus, antibodyCOD3Carry Physician, careCOD4Meet Treatment, careSujet11Get Care, treatment, medicationCOD8Receive Care, medicationCOD4Give Nurse, surgeryCOD6Say Care, treatmentCOD35Provide Surgery, illness, treatmentSujet24Be ClasseRelationNbOc c Verbe Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique Expérimentations en français et en anglais

20 20 MLK Circonstances a) [Être_localisé] (objet) > [Événement] (lieu) > [Magasin] b) [Fou] (source) > [Femme] Description a) [Poignarder] (agent) > [Femme] (destinat.) > [Poitrine] (partieDe) > [Homme: MLK] (instrument)> [CoupePapier] (manière) > [Brutalement] b) [Transporter] (agent) > [Humain] (patient) > [Homme: MLK] (destination)> [Hôpital] (manière) > [Rapidement] États incidents a) [Être_blessé] (patient) > [Homme: MLK] b) [Être_hospitalisé] (patient) > [Homme: MLK] Relations causales : D.a -> I.a D.b-> I.b Texte analysé manuellement Calcul de similarité et Aggrégation de graphes Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

21 21 MLK Base de connaissances sémantiques Graphes conceptuels Unités thématiques Ensemble de graphes conceptuels Structure en : Circonstances, Description, États incidents Similarité UT – épisode en mémoire Tient compte de la structure Similarité de graphes Fondée sur lopération de projection Agrégation Fondée sur lopération de jointure Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

22 22 Apprentissage et Analyse : Conclusion et perspectives Analyse conceptuelle automatique des situations Affiner la délimitation automatique des situations Représentation des situations fondée sur une base de connaissances sémantique Résultats de SVETLAN : emplois des verbes contextualisés WordNet : relations hiérarchiques VerbNet : structures de cas des verbes FrameNet : situations et événements Intégrer ces différentes bases de connaissances Itérer sur lapprentissage Généralisation des événements Cadre Analyse de texte et apprentissage Question réponse Analyse thématique Apprentissage de domaine Mémoire épisodique

23 23 Analyse robuste de texte pour trouver des réponses à des questions Processus différents selon : Domaine ouvert ou domaine de spécialité Domaine ouvert : démarche analogue à lanalyse thématique Définition de processus robustes Utilisation de ressources existantes ou acquises automatiquement Stratégies différentes selon : Le type dinformation cherché La ressource interrogée Les résultats obtenus par chaque processus (à développer) Évaluation des résultats Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives

24 24 Qui a poignardé Henri IV ? NOM de PERSONNE Patron dextraction : Personne Henri IV Personne VerbePrincipal Focus Méthodes Q GNGVGN VAuxPrnNPr sujet COD Répondre à des questions Question Entité nommée Critères syntaxiques : Personne Henri IV SUJET COD Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives … Cest à Paris, rue de la Ferronnerie, quHenri IV a rendu son dernier soupir… Dautre part, on peut rappeler que les rues encombrées et étroites du Paris davant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! …

25 25 Où a été tué Henri IV ? Méthodes Répondre à des questions Questions Critères sémantiques Tuer synonyme Poignarder Qui a tué Henri IV ? LIEU dans le contexte Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives plus Critères sémantiques Tuer => Mort Rendre son dernier soupir Mourir LIEU (VILLE, PAYS, etc) … Cest à Paris, rue de la Ferronnerie, quHenri IV a rendu son dernier soupir… Dautre part, on peut rappeler que les rues encombrées et étroites du Paris davant Haussmann étaient très favorables aux guets-apens. La facilité avec laquelle Ravaillac a pu poignarder Henri IV peut paraître incroyable ! …

26 26 Variations question vs passage-réponse Analyse des questions Extraction de caractéristiques de la réponse Analyse des passages Entités nommées Variation au niveau des termes Règles de réécritures de Fastr (C. Jacquemin) Variation au niveau des phrases Patrons dextraction ayant le focus de la question en élément pivot Grammaires locales utilisant Scol (Abney) Evaluation de paraphrases (A.L. Ligozat et V. Barbier) Validation par le Web Cadre Analyse de texte et apprentissage Question réponse Problématique Méthodes de résolution Résultats et perspectives

27 27 Systèmes monolingues QALC : anglais Evalué à Trec de 1998 à % de réponses correctes 2 fois dans les 10 premiers 5 réponses longues : 6ème 1 réponse courte : 9ème FRASQUES : français Projet Technolangue EVALDA (2004): EQueR : 1ère évaluation sur le français 5 réponses Résultats à EQueR 2 et 3ème selon la tâche 45% réponses longues 30% réponses courtes Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives

28 28 Question-Réponse multilingue Question en français – réponse en anglais Indispensable sur le Web Variation supplémentaire Traduction des termes : choix de la traduction correcte Validation par les bi-termes MUSQAT : évaluation à CLEF 20% des réponses Parmi les premiers 1 er système : 25% des réponses Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives

29 29 Question-Réponse : Projet CONIQUE (1) 3 axes : Justification des réponses trouvées Vérification de la présence de toutes les informations données dans la question Acquisition de relations pour linférence Dépendante du contexte Catégorisation des réponses données à lutilisateur Présentation interactive des résultats - Navigation Résolution itérative Les textes comme source de connaissances : Recherche de relations dans les textes à partir de leur expression en langue (1) Projet ANR non thématique ( ) : CEA (O. Ferret) et Lallic (J.L. Minel) Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives

30 30 Quel coureur espagnol a gagné une étape du tour de France en 2003 ? Justification de la réponse 25 juillet 2003 – Pablo Lastras a remporté la 18e étape du Tour de France cycliste, vendredi, entre Bordeaux et Saint-Maixent-L'École. Vendredi 15 août 2003 Les cinq étapes du Tour de Burgos 2003 ont été remportées par cinq coureurs différents : Carlos Garcia Quesada, José Vicente Garcia Acosta, Dave Bruylandts, David Millar (CLM) et enfin Gorka Gonzalez Larranaga, qui remporte dans la dernière étape sa première victoire chez les professionnels. La victoire finale revient au coureur le plus régulier, l'Espagnol Pablo Lastras, qui s'était distingué durant le Tour de France en remportant la 18e étape. Pablo Lastras Justification : coureur espagnol Cadre Analyse de texte et apprentissage Question réponse Problématique Méthode Résultats et perspectives

31 31 Bilan Perspectives

32 32 Conclusion Modéliser un continuum entre processus et structuration des connaissances Stratégie dapplication de processus Évaluation automatique de leurs performances Construire une plate-forme dexpérimentation et dévaluation Bilan Perspectives

33 33 Merci

34 34 Rôles Relations causales Relations temporelles Evénements Réparer un véhicule Rôles : personne, outil, véhicule Conditions: Description Résultat Démonter pièce Trouver panne Une situation Inférence Structuration Véhicule en panne Connaître la mécanique Véhicule = rôle (véhicule) Agent = rôle (personne) Réparer pièce Remonter pièce Agent = rôle (personne) Véhicule fonctionne Véhicule = rôle (véhicule) Résultat = pièce Agent = rôle (personne) Pièce = 1.résultat Ses propriétés

35 35 Un graphe de schémas Pas de méthode pour élaborer et organiser les connaissances Quel niveau de granularité, quels regroupements ? Quelle structure hiérarchique ? Réparer véhicule Réparer objet Remettre en état entité Réparer pièce Réparer objet-mécanique Etre garagiste Avoir profession Connaître mécanique Trouver panne Soigner être-animé Sorte-de Fait appel-à

36 36 Thème général : vin jaune Exemple dexploration dun texte

37 37 Thème général : vin jaune Thème local : Thème global : Meta-descripteurs : vin mélange, composé analyse, technique Thème local : Thème global : Meta-descripteurs : vin goût, noisette caractéristique Exemple dexploration dun texte

38 38 Thème général : vin jaune Thème local : Thème global : Meta-descripteurs : vin mélange, composé analyse, technique Thèmes local : Thème global : Méta-descripteureurs : vin goût, noisette caractéristique Exemple dexploration dun texte

39 39 Question-réponse 25 juillet 2003 – Pablo Lastras a remporté la 18e étape du Tour de France cycliste, vendredi, entre Bordeaux et Saint-Maixent-L'École. Quel coureur espagnol a gagné une étape du tour de France en 2003 ? Pablo Lastras Justification : Réponse Justification de la réponse

40 40 DST – type de relations (1) Les résumés par extraction sélectionnent des phrases dun texte source selon leur importance. (2) Les critères dimportance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. (5) Le problème de cette approche est que les phrases extraites ne constituent pas toujours un texte cohérent du fait danaphores ambiguës. Structuration fine de texte

41 41 DST – Types de relations (1) Les résumés par extraction sélectionnent des phrases dun texte source selon leur importance. (2) Les critères dimportance incluent la présence de termes fréquents, des mots clefs tels que « en résumé », « meilleur », et la position de la phrase dans le texte. Subordination (3) Cette approche est illustrée par le système ADAM. (4) Un autre exemple est donné par [2]. Coordination (1)(2) (3) (4) Structure construite Structuration fine de texte

42 42 REGAL - Principe de structuration Algorithme Recherche des 2 segments non-consécutifs les plus liés Application récursive pour les segments englobés ou non englobés restant Repérage de structures emboîtées [Masson, 1998] Digressions, développements daspects particuliers Fréquent dans textes expositifs Structuration descendante de texte

43 43 Compréhension de ce dont parle un texte Analyse thématique Texte expositif Les sujets (ex. Analyse thématique) Leur description - hypothèses - méthodes - résultats Leur structure Texte narratif Les situations (ex. Dédicace, Attentat) Leur description - conditions - description - conséquences Leur structure Connaissances Forme (du texte, marques de surface) Syntaxe (phrase) Lexico-sémantico-pragmatiques - lexique - ontologie - réseau de cooccurrences - domaines - schémas Représentation du texte (des thèmes) + ou - structurée selon structuration des connaissances Méthodes : Selon connaissances disponibles : - Cohésion lexicale - Analyses de surface - Inférences

44 44 Représentation du texte (des thèmes) + ou - structurée selon structuration des connaissannces Méthodes : - Cohésion lexicale Connaissances Forme (du texte, marques de surface) Syntaxe (phrase) Lexico-sémantico-pragmatiques - lexique - ontologie - réseau de cooccurrences Acquisition (partielle) - à partir de textes - en contexte - reste en relation avec la source Méthodes : - similarité et agrégation - domaines - classes de noms/verbe- schémas - analyse distributionnelle - abstraction - Analyse de surface - Inférences Compréhension de ce dont parle un texte Analyse thématique

45 45 Résumé par abstraction Résumé par sélection et génération Résumé Résumé par extraction Thèmes Résumé par abstraction Résumé par sélection et génération Résumé par extraction Structure rhétorico-thématique Résumé Méthodes existantes Méthode proposée Introduction Définition Exemple Définition Exemple

46 46 Rôles Relations causales Relations temporelles Evénements Réparer un véhicule Rôles : personne, outil, véhicule Conditions: Description Résultat Démonter pièce Trouver panne Une situation Inférence Structuration Véhicule en panne Connaître la mécanique Véhicule = rôle (véhicule) Agent = rôle (personne) Réparer pièce Remonter pièce Agent = rôle (personne) Véhicule fonctionne Véhicule = rôle (véhicule) Résultat = pièce Agent = rôle (personne) Pièce = 1.résultat Ses propriétés


Télécharger ppt "Comprendre pour apprendre … et apprendre pour comprendre Brigitte Grau Institut dInformatique dEntreprise (IIE) Groupe LIR - LIMSI Habilitation à Diriger."

Présentations similaires


Annonces Google