Création de résumé automatique

Slides:



Advertisements
Présentations similaires
Comment annoter un texte
Advertisements

Les formateurs en documentation Rectorat de Lille Maîtrise de linformation au collège Compétences informationnelles et disciplines partenaires.
L1 Lire avec aisance (à haute voix, silencieusement) un texte
TD METHODOLOGIE : RÉUSSIR LA PARTIE ANALYTIQUE
Exemple : Itinéraire de lecture.
Evaluer: un exemple au cycle 2
ETAPES DE LA RECHERCHE DOCUMENTAIRE
Caroline Patenaude Bibliothécaire – responsable informatique et Web Bibliothèque des lettres et sciences humaines, Université de Montréal 4 novembre 2010.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
La compréhension en lecture
> a patent search service supplied by Patents & Technology Surveys Ltd PROFESSIONAL ONLINE PATENT INFORMATION SERVICE.
d’un article scientifique
Ecrire un article de presse
UE : 3.4. S4 Initiation à la démarche de recherche
La compréhension en lecture
Blagovesta Cholova POLI-D-404: Etude approfondie de questions de science politique Groupe ‘Populisme et partis populistes’ Blagovesta.
Académie de Versailles - Inspection pédagogique régionale de lettres
Définir des caractéristiques chercher de linformation? sur un support électronique? Élaborer un cadre théorique pour comprendre les enjeux et proposer.
Les outils de la langue au service de la compréhension
Discours explicatif.
Systeme Question-Reponse SQR
Bibliothèque - UMCS Automne 2010 SOURCES ET RECHERCHE DINFORMATION Bibliothèque de lUniversité de Moncton, Campus de Shippagan
La compréhension en lecture
A. Bultot1 To present a project – To write the same thing several times!
Les ateliers d’étude de textes
Division scolaire franco-manitobaine Denine Laberge Le mardi 10 avril h 30 à 11 h 45.
REDIGER UN RAPPORT en SCIENCES APPLIQUEES
Vers un nouvel empirisme: l’ancien et le nouvel empirisme John Goldsmith Université de Chicago CNRS MoDyCo.
Département fédéral de l’intérieur DFI Office fédéral de la statistique OFS Rapport sur le développement durable 2012 – Le système d’indicateurs MONET.
LA TECHNIQUE DU RÉSUMÉ Résumer un texte, c'est réduire un énoncé selon un certain nombre de mots imposé, en en restituant l'essentiel des idées et la structure.
Un Sourire ... Texte original en français : Raoul Follereau
Méthodologie de recherche
GSD langue française - Boumerdès 19 et 30 avril 2013
Les tests adaptatifs en langue: quel est leur avenir ? Michel D. LAURIER Université de Montréal Colloque ACFAS 2006 Solutions apportées et problèmes engendrés.
Des stratégies de lecture aidantes en mathématique 15 octobre 2009 Francine Carle, conseillère pédagogique de français Jean-Luc Lemieux, conseiller pédagogique.
Réponse créative du “Fantôme” Comment écrire un article dans les actualités.
1 Registration Physique Séminaire du Master Davide Bazzi Université de Fribourg
Improving large-scale search engines with semantic annotations Damaris Fuentes-Lorenzo, Norberto Fernández, Jesús A. Fisteus, Luis Sánchez.
Dominique LAURENT Patrick SEGUELA
Recherche d’information
Reveal-This Ou comment générer des métadonnées utiles automatiquement.
Nous allons .. préparer un texte (pour écrire ou décrire)
Français 1441 Chapître 3 Révision d’Examen.  Someone tells you where things on campus are located. You listen and fill in the blank with the missing.
WALT: how to talk about your timetable
Warm Up le 5 mars Écrivez tout ce que tu sais pour la grammaire française Par exemple: DR MRS VANDERTRAMP utilise être L’Academie Française.
Construire une évaluation avec le socle commun de compétences:
Les Cartes mentent ! Pourquoi?.
Les types de publications scientifiques
Évaluations nationales et maîtrise de la langue Continuité et perspective.
A. Ce qui vous est demandé Analyse de la consigne officielle.
Unité 2 Leçon 1 I can describe myself and others Day 3 I can describe an ideal friend.
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
1ère étape : lire le sujet :
Fiche méthodologique 1: How to understand a text? (Written comprehension) General remarks: 1.It is OK NOT to understand everything…….yes, it is!! 2. You.
Etude critique de document
Par Amélie Dupuis Français 101
Persuasif. 12.5% of test (1/8) You will read a source, interpret a graphic and listen to an audio source. YOU MUST REFERENCE ALL 3 SOURCES IN YOUR ESSAY!!!!!
Démarche d’enseignement de l’APL : analyser
Faire un dossier documentaire
The 4th Power Places and Forms of power How reliable are our sources of information today ? The media.
STRUCTURE D ’ UN ARTICLE ORIGINAL Pr Ganry.
Journal Grade only – Introductory Journal Entry Mon week-end  Students were asked to write a paragraph detailing a minimum of 5 things they DID.
Comment faire un résumé d’article ?
MES STRATÉGIES DE LECTURE
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
November 9 Travelling Ontario’s highways this winter? Always keep a winter survival kit in your vehicle. ontario.ca/winterdriving How much do you know.
Conçu et animé par Geneviève Cantin-Chartré et Nicolas Beaudry-Riendeau 2015 CONCENTRATION, LECTURE ET MÉMORISATION.
Vietnam Waterfalls.
Un Sourire ... Original en français : Raoul Follereau
Vietnam Waterfalls.
Transcription de la présentation:

Création de résumé automatique Par Guillaume Blain (blaingu@lexum.umontreal.ca) & Marc-André Morissette (morissm@lexum.umontreal.ca) IFT6255 – 8 avril 2003

Qu’est-ce qu’un résumé? Une transformation réductrice d’un texte source vers un résumé par compression du contenu à l’aide d’une sélection et/ou généralisation de ce qui est important dans le texte source. - Karen Sparck Jones

Fonction AutoSummarize de MS Office Sommaires basés une requête de l’usager

Caractéristiques d’un résumé Indicatif ou Informatif Indicatif: indique la nature du texte (teaser) Informatif: tente de se substituer au texte Extrait ou abrégé Extrait: phrases ou passages tirés du texte Abrégé: reformule, compresse le texte Court ou long Taux de compression =

Mécanique de construction d’un résumé Document → Repr. interne du document Repr. interne du document → Repr. interne du résumé Repr. interne du résumé → Texte du résumé

Facteurs contextuels Facteurs d’entrée Facteurs d’intention Influence l’analyse Facteurs d’intention Influence les transformations Facteurs de sortie Influence la forme du résumé

Facteurs d’entrée - analyse (1) Today on MSN Latest war updates Iraqis swim Tigris to flee Saddam's notorious cousin may be dead Why isn't cash obsolete? Your Week Online tax helper, $30 How to make DVD flicks 6 steps to sexier legs Forme Structure Échelle Type de langue Genre littéraire

Facteur d’entrée -analyse (2) Type de sujet Ordinaire (connaisances générales) Code de la route Spécialisé (informatique, recherche d’information) Précision/Rappel Restreint (étudiant du cours ift6255) Date d’examen

Facteurs d’entrée - analyse (3) Multiplicité Simple Article de journal, rapport de recherche Multiple Journal au complet, tous les rapports d’un laboratoire de recherche

Facteurs d’intention - transformation Situation Précis, flou; qui, pourquoi, comment Audience Ciblée, non ciblée Utilisation Tâche: recherche, sommaire, mémoire, invite

Facteurs de sortie - construction Contenu Tous les sujets, le sujet central, information partielle; couverture Format Prose, informations tabulaires, phrases disparates Style Indicatif, informatif, critique, recapitulatif

Approches étalon Approche aléatoire Approche en-tête On sélectionne n phrases au hasard dans le document Approche en-tête On sélectionne les n premières phrases du document

Approche basée sur la RI Luhn 1958 Extrait = phrases significatives Une phrase significative contient des mots significatifs (mots-clés) Mots significatifs = entre A et B Stemming Stop list

Approches basée sur la structure du texte (1) Edmundson 69 Mots-repères (cues) Mots-bonus: greatest, significant, … Mots-malus: hardly, impossible, … Mots-titre Mots-clés se trouvant dans le titre et les sous-titres

Approches basée sur la structure du texte (2) Positionnement Début du texte Fin du texte Première phrase d’un paragraphe Dernière phrase d’un paragraphe Toutes les méthodes! 1Mots-repère + 2Mots-clés + 3Mots-titre + 4Positionnement

Évaluation (Edmundson) Corpus d’entraînement avec des extraits sélectionnés manuellement (compression 25%) Comparaison entre les résumés obtenus manuellement et automatiquement Précision = Quand la taille

Résultats (Edmundson) Mots-clés diminuent efficacité

Extension probabiliste Kupiec, Pederson, Chen 1995 Classification Bayesienne à partir de caractéristiques du texte En supposant les caractéristiques statistiquement indépendantes

Extension probabiliste (2) Résultats (compression 25%) Précision de 84%

Problèmes (Paice 1990) Extraits phrase par phrase sont incohérents et difficiles à lire. Solution: ajouter les phrases nécessaires pour produire un passage propre. Balance: est-ce que des parties sont sur-représentées? Couverture: est-ce qu’on a oublié quelque chose? Anaphore Connecteur rhétorique Anaphore (auteur) J’aime les bananes. Elles sont toutefois trop jaunes à mon goût.

Parsage rhétorique du discours (1) Analyse en profondeur Basé sur les relations rhétorique entre les passages. (Mann et Thompson 88) Objectif de l’auteur. Pourquoi ajouter cette phrase? Noyau – Satellite À l’origine du sens et de la cohérence d’un texte

Parsage rhétorique du discours (2) Exemple d’une relation: pièce à conviction [Noyau: En réalité, la tentation de fumer au secondaire est plus grande qu’à n’importe quel autre moment de la vie d’une personne :] [Satellite: On sait que plus de 300 adolescents commencent à fumer chaque jour.] Effet de la relation: le satellite augmente la crédibilité du noyau aux yeux du lecteur

2 Background Justification 3 Elaboration 8 Concession 10 Antithesis 8 Example 2 Background Justification 3 Elaboration 8 Concession 10 Antithesis With its distant orbit (50 percent farther from the sun than Earth) and slim atmospheric blanket, (1) Mars experiences frigid weather conditions (2) 4 5 Contrast Surface temperatures typically average about -60 degrees Celsius (-76 degrees Fahrenheit) at the equator and can dip to -123 degrees C near the poles (3) Although the atmosphere holds a small amount of water, and water-ice clouds sometimes develop, (7) Most Martian weather involves blowing dust and carbon monoxide. (8) Yet even on the summer pole, where the sun remains in the sky all day long, temperatures never warm enough to melt frozen water. (10) Each winter, for example, a blizzard of frozen carbon dioxide rages over one pole, and a few meters of this dry-ice snow accumulate as previously frozen carbon dioxide evaporates from the opposite polar cap. (9) Only the midday sun at tropical latitudes is warm enough to thaw ice on occasion, (4) 5 Evidence Cause but any liquid water formed in this way would evaporate almost instantly (5) because of the low atmospheric pressure (6)

Parsage rhétorique du discours (4) Intuition de Daniel Marcu: Résumé peut être produit à partir de l’arbre de parsage. Nœuds près de la racine correspondent aux idées centrales du texte. Performance d’environ 65% avec des textes courts. Question: est-ce que ça fonctionne avec des textes plus longs?

Chaînes lexicales (1) Établir des chaînes sur les mots qui ont un liens dans WordNet (Barzilay & Elhadad) Les chatons sont très mignons. Ces petits animaux sont si adorables qu’on en déjeunerait. Les chats eux sont plus comme leur cousins les tigres: indépendants et chasseurs. Les félins on en général une bien mauvaise réputation.

Chaînes lexicales (2) Les phrases importantes sont traversées par des chaînes fortes. Désambiguification tardive Stratégie de sélection: Première phrase avec un membre de la chaîne Première phrase avec un membre significatif de la chaîne Déterminer le segment avec la plus haute densité de termes. Première phrase de ce segment.

Résumé multidocument – SUMMONS (1) Gabarits MUC, organisés chronologiquement Opérateurs de combinaison Changement de perspective Contradiction Ajout Clarification Similarité Concaténation, généralisation Absence Tendance Favorise les combinaisons

Résumé multidocument – SUMMONS (2)

Cadre multilingue Megumi Kameyama Extraction d’information dans les discours Extraction à objectifs clos vers objectifs dynamiques 3 étapes Requête en langue usager Recherche/abstraction dans la langue du corpus Résumé en langue usager

Évaluation Mesure Accord entre les juges humains Référentiel de base Précision Rappel Accord entre les juges humains Référentiel de base Compression: C = (longueur Résumé) / (longueur Txt) Rétention: R = (info dans Résumé) / (info dans Txt)

Conférences et évaluation (1) SUMMAC (Programme TIPSTER) Ad hoc: pertinence selon une requête Catégorisation: textes sources vs résumé Question/réponse: sans lecture, lecture du résumé et lecture du texte

Conférences et évaluation (2) MUC (Message Understanding Conference) Entités nommées Coréférence des entités (anaphores) Instantiation de gabarits (templates) prédéfinis Instantiation de scénarios par gabarits

Conférences et évaluation (3) DUC (Programme TIDES) Précision/Rappel Méthode utilitaire (Radev et al.) Similarité de contenu

Discussion et analyse Top-down Bottom-up Hybride De la structure vers le contenu Bottom-up Du contenu (mots, phrases) vers la compréhension Hybride Dans les deux directions simultanément ou en complément

Évaluation formelle Toute les méthodes ne sont pas évaluées Évaluations varient Corpus de test différent 25% de taux de compression ! 2 pages incohérentes pour 8 pages cohérentes (et encore)

Avenir Abstraction Plus de rigueur Passer de l’expérimentation à l’application Améliorer la lisibilité Améliorer l’interaction avec l’usager

Conclusion Explosion du domaine Intégration des technologies connexes Traitement en langue naturelle Recherche d’information Avenir prometteur Encore beaucoup de travail