Plan Génération automatique de texte (NLG) Narration en NLG

Slides:



Advertisements
Présentations similaires
Approche graphique du nombre dérivé
Advertisements

L1 Lire avec aisance (à haute voix, silencieusement) un texte
E1 E1 E1 E1 E1 E1 E1 E1 E2 E2 E2 E2 E2 E2 E3 E3 E3 E3 E3 E4 E4 E4 E4
Corese Moteur de recherche sémantique pour RDF
Affichage interactif, bidimensionnel et incrémental de formules mathématiques Hanane Naciri et Laurence Rideau INRIA Sophia Antipolis CARI'2000.
DEA - IMMW-Adaptation Adaptation des IHM et des HM Pourquoi, Quoi, Quand, Comment…
Classe : …………… Nom : …………………………………… Date : ………………..
1. 2 LE DÎNER TRADITIONNEL CHINOIS OU LIMAGE DUN MODÈLE SYSTÉMIQUE DE LAPPRENTISSAGE EN MILIEU SCOLAIRE.
JXDVDTEK – Une DVDthèque en Java et XML
Les cas d’utilisation (use cases)
Se repérer et organiser sa veille dans la recherche en éducation Module 2 « Maîtriser laccès aux ressources scientifiques en éducation » Outils de veille.
Stratégie de formation
Master Génie Biologique et Informatique, première année
La dynamique dans les modèles, méthodes et outils pour les systèmes daide à la décision : Cadre du processus dintelligence économique Amos DAVID Septembre.
Nicolas Zlatoff - Stage de DEA Sous la direction de Bruno Tellez
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
1 Placement automatique des composants lors du déploiement dapplications à base de composants Abdelkrim Beloued Chantal Taconet, Dhouha Ayed, Guy Bernard.
R. Saint-Paul, G. Raschia and N. Mouaddib IRIN, Nantes (France)
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
1 TICE 2000 / Troyes / octobre 2000 Des moteurs de recherche efficaces pour des systèmes hypertextes grâce aux contextes des nœuds Des moteurs de.
1 BiblioVIE : Un contenu recentré sur les ressources négociées et financées par le CNRS et intégrant des outils web 2.0 Le Portail dinformation scientifique.
Caroline Patenaude Bibliothécaire – responsable informatique et Web Bibliothèque des lettres et sciences humaines, Université de Montréal 4 novembre 2010.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
Cartes Conceptuelles Daniel Peraya
Journée Jeunes Chercheurs
Monique THONNAT et Nathanaël ROTA Projet ORION
Interaction Homme Robot Sujet « 16/03/2012 » Réalisé par :
Aide à la décision et à la négociation dans un problème de gestion de production distribuée Jean-Pierre Camalot et Patrick Esquirol LAAS-CNRS 7, avenue.
Administration de SharePoint
Le portail documentaire de Paris 1
Annotations sémantiques pour le domaine des biopuces
Recherche Documentaire et traitement de l’information
Doctorat/Web of Science Les nouveautés du Web of Science Formations Master et Doctorants Voir aussi
Word Gabarit les étapes à suivre? C) Synthèse /rapport personnel (disponible sur votre site dans la site section travaux) et la version graphe finale.
Des hypertextes utilisables Cours Ergonomie des Interactions Personne-Machine 15 octobre 2008 Présentation réalisée par Mireille Bétrancourt (
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Ecaterina Giacomini Pacurar
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
Web sémantique : Web de demain
Grammaire de compréhension à émission de concepts
La gestion par activités (ABM)
Introduction à lutilisation des corpus 1. Quest-ce quun corpus? Alexandra VOLANSCHI
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Introduction théorie et pratique
Conception des Réalisé par : Nassim TIGUENITINE.
1 ClassRoom 2000 (eclass) Séminaire SH pour le groupe de recherche DIVA de Fribourg Étudiant: Marco Genasci Professeurs: R. Ingold, D. Lalanne.
La face cachée des systèmes de recherche Martin Bouchard, président Janvier 2003.
BLOGS (carnets web, cybercarnets) Didactiques des NTICS.
IFT6255 – Recherche d’information Jian-Yun Nie
1 er décembre 2005IFT6010 – Jean-Yves Guyomarc’h Colorless green ideas…. Une « guerre de religion »
Bases de données phénotypique et ontologie
La veille numérique : un outil pour s'informer intelligemment &
JEE 5 F.Pfister 2 institut eerie JEE – Une plateforme serveur  Développement et exécution d'applications réparties.
Gestion de Projet avec JIRA Gantt Chart Project Yves YANG yves
1 Modèle pédagogique d’un système d’apprentissage (SA)
22/11/121 1 Plan de la présentation 1.Objectifs du groupe de travail 2.Présentation des différents types d’annotations et premier inventaire pour le français.
Réunion de lancement du 18 janvier constitution, alignement, comparaison et exploitation d’ontologies géographiques hétérogènes Réunion de lancement.
AngularJS.
PRESTO Programme d’étude de séries temporelles Projet 4 ème année Jean-Frédéric Berthelot Paul-Alain Bugnard Camille Capelle Sébastien Castiel.
Algorithmes pour le web “A Unified Approach to Personalization Based on Probabilistic Latent Semantic Models of Web Usage and Content”
10 juin 2008 Journée Technologies et Enjeux de l'Apprentissage Mobile Equipe SIMBAD.
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Intelligence artificielle
Vers une intégration plus poussée de la recherche Web avec les Systèmes d’Information Géographiques Adapté de «Toward Tighter Integration of Web Search.
TEXT MINING Fouille de textes
Introduction à l’utilisation des corpus 1. Qu’est-ce qu’un corpus?
Consolidation de grands réseaux lexicaux
Conférences (CR) PACLING'03 Pacific Association for Computational LINGuistics 22 au 25 août 2003 Halifax, côte Est Canada RANLP Recent Advances in Natural.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

La narration en génération automatique de texte IFT6010 TALN La narration en génération automatique de texte Pierre-Luc Vaudry 18 décembre 2012

Plan Génération automatique de texte (NLG) Narration en NLG Applications Phases de traitement Narration en NLG Le problème Améliorations Ressources à exploiter

Génération de texte (NLG) Intelligence artificielle et linguistique informatique Entrée : données sous forme non linguistique Connaissance de la langue Connaissance du domaine Sortie : texte en langue naturelle Produit : rapports, messages d'aide, pages web, etc.

Applications de NLG Rapports et bulletins météorologiques Description de modèles orientés objet Lettres personnalisées pour l'arrêt du tabagisme Résumés par abstraction d'articles de presse Rapports médicaux à partir de données temporelles discrètes et continues Dialogue libre dans un jeu vidéo

Phases de traitement en NLG IA Dépendant du domaine Linguistique Indépendant du domaine

Planification du document Sélection du contenu But communicatif, public cible, données disponibles, contraintes de longueur, etc. Trier les données par importance Structuration du document Regroupements Relations ➝ sélection de contenus reliés Ordre

Microplanification Lexicalisation Unités lexicales Structures syntaxiques Génération d’expressions référentielles Coréférence : anaphores, désignations variées Deixis : contexte d’énonciation Aggrégation Décider quoi factoriser Comment le factoriser

Réalisation de surface Réalisation linguistique Syntaxe Morphologie Morphophonologie Espacement, ponctuation, casse Text-to-speech Réalisation de la structure du document Paragraphes, sections, titres, sous-titres

Narration en NLG Données temporelles ➝ événements Présentation des données Graphique : courbes à interpréter Textuelle : récit fournit une interprétation Prise de décision Texte rédigé par spécialiste > graphique Particulièrement pour les novices Texte généré ≈ graphique Diagnostic : structure narrative déficiente

Améliorer la narration Situation initiale et situation finale Acteurs principaux au premier plan Marqueurs temporels Détails de mise en contexte Enchaînement des thèmes (topical flow)

Réalisation de la narration Sélection du contenu Structure du document Marqueurs de relation Selon les relations découlant de la structure Structure syntaxique Actants exprimés et mis au premier plan Coréférence

Approche ascendante insuffisante Histoire Événements importants

Un problème apparenté Génération de scénarios de fiction (Story plot generation) BD de trames narratives provenant d’histoires existantes Requête pour créer une nouvelle histoire Chercher des trames narratives semblables Modifier et combiner avec BD et ontologie Générer le texte

Ressources pour l’anglais RST Discourse Treebank Structure hiérarchique (arbre) Pas de distinction entre les niveaux Noyau ➝ Satellite Feuilles : propositions (21,789 EDU) Penn Discourse Treebank Marqueurs de relation explicites (16K) et implicites (20K) Prédicats discursifs entre deux événements, états ou propositions

Ressource pour le français Corpus ANODIS 2 annotations relations rhétoriques structures multi-échelles 4 sources, dont : Est Républicain Genre brèves, type narratif 39 articles, 10 000 mots, 250 mots/texte

Utilisation des corpus Apprentissage automatique Taille suffisante, généralisation Marqueurs de relation Microplanification (sentence planning) Occurence, sélection, positionnement Structure narrative Proposition : modèle de structure discursive Planification descendante-ascendante

Conclusion Relations entre événements Peu d’exemples Règles du domaine Ontologie Marqueurs de relation et structure discursive Corpus disponibles Moins dépendants du domaine Apprentissage automatique possible

Microsoft Excellence en ingénierie Références A Gatt, E Reiter. (2009). SimpleNLG: A realisation engine for practical applications. Proceedings of the 12th European Workshop on Natural Language Generation. ENLG 2009. A McKinlay, C McVittie, E Reiter, Y Freer, C Sykes, R Logie (2010). Design Issues for Socially Intelligent User-Interfaces: A Qualitative Analysis of a Data-to-Text System for Summarizing Clinical Data. Methods of Information in Medicine, 49:379-387. F Portet, E Reiter, A Gatt, J Hunter, S Sripada, Y Freer, C Sykes (2009). Automatic Generation of Textual Summaries from Neonatal Intensive Care Data. Artificial Intelligence, 173:789-816. JR Cristy (2011). SimpleNLG Google Code Wiki Tutorial, Appendix A, [https://code.google.com/p/simplenlg/wiki/AppendixA] (consulté le 17 décembre 2012). Microsoft Confidentiel

Microsoft Excellence en ingénierie Références P Gervás, B Díaz-Agudo, F Peinado, R Hervás (2005). Story plot generation based on CBR. Knowledge-Based Systems, 18:235-242 R Prasad, A Joshi, N Dinesh, A Lee, E Miltsakaki, B Webber (2005). The Penn Discourse TreeBank as a Resource for Natural Language Generation. Proceedings of the Corpus Linguistics Workshop on Using Corpora for Natural Language Generation. Birmingham, U.K., July 2005. L Carlson, D Marcu, ME Okurowski (2001). Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory. Proceedings of the 2nd SIGDIAL Workshop on Discourse and Dialogue. Eurospeech 2001, Denmark, September 2001. CLLE-ERSS (2012). Corpus ANODIS. [http://redac.univ-tlse2.fr/corpus/annodis/] (consulté le 18 décembre 2012) Microsoft Confidentiel