La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Création de résumé automatique Par Guillaume Blain & Marc-André Morissette IFT6255 – 8 avril.

Présentations similaires


Présentation au sujet: "Création de résumé automatique Par Guillaume Blain & Marc-André Morissette IFT6255 – 8 avril."— Transcription de la présentation:

1 Création de résumé automatique Par Guillaume Blain & Marc-André Morissette IFT6255 – 8 avril 2003

2 Quest-ce quun résumé? Une transformation réductrice dun texte source vers un résumé par compression du contenu à laide dune sélection et/ou généralisation de ce qui est important dans le texte source. - Karen Sparck Jones

3

4

5 Fonction AutoSummarize de MS Office

6 Caractéristiques dun résumé Indicatif ou Informatif Indicatif: indique la nature du texte (teaser) Informatif: tente de se substituer au texte Extrait ou abrégé Extrait: phrases ou passages tirés du texte Abrégé: reformule, compresse le texte Court ou long Taux de compression =

7 Mécanique de construction dun résumé Document Repr. interne du document Repr. interne du document Repr. interne du résumé Repr. interne du résumé Texte du résumé

8 Facteurs contextuels Facteurs dentrée Influence lanalyse Facteurs dintention Influence les transformations Facteurs de sortie Influence la forme du résumé

9 Facteurs dentrée - analyse (1) Forme Structure Échelle Type de langue Genre littéraire Today on MSN Latest war updates Iraqis swim Tigris to flee Saddam's notorious cousin may be dead Why isn't cash obsolete? Your Week Online tax helper, $30 How to make DVD flicks 6 steps to sexier legs

10 Facteur dentrée -analyse (2) Type de sujet Ordinaire (connaisances générales) Code de la route Spécialisé (informatique, recherche dinformation) Précision/Rappel Restreint (étudiant du cours ift6255) Date dexamen

11 Facteurs dentrée - analyse (3) Multiplicité Simple Article de journal, rapport de recherche Multiple Journal au complet, tous les rapports dun laboratoire de recherche

12 Facteurs dintention - transformation Situation Précis, flou; qui, pourquoi, comment Audience Ciblée, non ciblée Utilisation Tâche: recherche, sommaire, mémoire, invite

13 Facteurs de sortie - construction Contenu Tous les sujets, le sujet central, information partielle; couverture Format Prose, informations tabulaires, phrases disparates Style Indicatif, informatif, critique, recapitulatif

14 Approches étalon Approche aléatoire On sélectionne n phrases au hasard dans le document Approche en-tête On sélectionne les n premières phrases du document

15 Approche basée sur la RI Luhn 1958 Extrait = phrases significatives Une phrase significative contient des mots significatifs (mots-clés) Mots significatifs = entre A et B

16 Approches basée sur la structure du texte (1) Edmundson 69 Mots-repères (cues) Mots-bonus: greatest, significant, … Mots-malus: hardly, impossible, … Mots-titre Mots-clés se trouvant dans le titre et les sous- titres

17 Approches basée sur la structure du texte (2) Positionnement Début du texte Fin du texte Première phrase dun paragraphe Dernière phrase dun paragraphe Toutes les méthodes! 1 Mots-repère + 2 Mots-clés + 3 Mots-titre + 4 Positionnement

18 Évaluation (Edmundson) Corpus dentraînement avec des extraits sélectionnés manuellement (compression 25%) Comparaison entre les résumés obtenus manuellement et automatiquement Précision =

19 Résultats (Edmundson) Mots-clés diminuent efficacité

20 Extension probabiliste Kupiec, Pederson, Chen 1995 Classification Bayesienne à partir de caractéristiques du texte En supposant les caractéristiques statistiquement indépendantes

21 Extension probabiliste (2) Résultats (compression 25%) Précision de 84%

22 Extraits phrase par phrase sont incohérents et difficiles à lire. Solution: ajouter les phrases nécessaires pour produire un passage propre. Balance: est-ce que des parties sont sur-représentées? Couverture: est-ce quon a oublié quelque chose? Problèmes (Paice 1990) AnaphoreConnecteur rhétorique Anaphore (auteur) Jaime les bananes. Elles sont toutefois trop jaunes à mon goût.

23 Parsage rhétorique du discours (1) Analyse en profondeur Basé sur les relations rhétorique entre les passages. (Mann et Thompson 88) Objectif de lauteur. Pourquoi ajouter cette phrase? Noyau – Satellite À lorigine du sens et de la cohérence dun texte

24 Parsage rhétorique du discours (2) Exemple dune relation: pièce à conviction [Noyau: En réalité, la tentation de fumer au secondaire est plus grande quà nimporte quel autre moment de la vie dune personne :] [Satellite: On sait que plus de 300 adolescents commencent à fumer chaque jour.] Effet de la relation: le satellite augmente la crédibilité du noyau aux yeux du lecteur

25 2 Elaboration 8 Example 2 Background Justification 3 Elaboration 8 Concession 10 Antithesis Mars experiences frigid weather conditions (2) Surface temperature s typically average about -60 degrees Celsius (-76 degrees Fahrenheit) at the equator and can dip to degrees C near the poles (3) 4 5 Contrast Although the atmosphere holds a small amount of water, and water-ice clouds sometimes develop, (7) Most Martian weather involves blowing dust and carbon monoxide. (8) Each winter, for example, a blizzard of frozen carbon dioxide rages over one pole, and a few meters of this dry-ice snow accumulate as previously frozen carbon dioxide evaporates from the opposite polar cap. (9) Yet even on the summer pole, where the sun remains in the sky all day long, temperature s never warm enough to melt frozen water. (10) With its distant orbit (50 percent farther from the sun than Earth) and slim atmospheric blanket, (1) Only the midday sun at tropical latitudes is warm enough to thaw ice on occasion, (4) 5 Evidence Cause but any liquid water formed in this way would evaporate almost instantly (5) because of the low atmospheric pressure (6)

26 Parsage rhétorique du discours (4) Intuition de Daniel Marcu: Résumé peut être produit à partir de larbre de parsage. Nœuds près de la racine correspondent aux idées centrales du texte. Performance denviron 65% avec des textes courts. Question: est-ce que ça fonctionne avec des textes plus longs?

27 Chaînes lexicales (1) Établir des chaînes sur les mots qui ont un liens dans WordNet (Barzilay & Elhadad) Les chatons sont très mignons. Ces petits animaux sont si adorables quon en déjeunerait. Les chats eux sont plus comme leur cousins les tigres: indépendants et chasseurs. Les félins on en général une bien mauvaise réputation.

28 Chaînes lexicales (2) Les phrases importantes sont traversées par des chaînes fortes. Désambiguification tardive Stratégie de sélection: Première phrase avec un membre de la chaîne Première phrase avec un membre significatif de la chaîne Déterminer le segment avec la plus haute densité de termes. Première phrase de ce segment.

29 Résumé multidocument – SUMMONS (1) Gabarits MUC, organisés chronologiquement Opérateurs de combinaison Changement de perspective Contradiction Ajout Clarification Similarité Concaténation, généralisation Absence Tendance Favorise les combinaisons

30 Résumé multidocument – SUMMONS (2)

31 Cadre multilingue Megumi Kameyama Extraction dinformation dans les discours Extraction à objectifs clos vers objectifs dynamiques 3 étapes Requête en langue usager Recherche/abstraction dans la langue du corpus Résumé en langue usager

32 Évaluation Mesure Précision Rappel Accord entre les juges humains Référentiel de base Compression: C = (longueur Résumé) / (longueur Txt) Rétention: R = (info dans Résumé) / (info dans Txt)

33 Conférences et évaluation (1) SUMMAC (Programme TIPSTER) Ad hoc: pertinence selon une requête Catégorisation: textes sources vs résumé Question/réponse: sans lecture, lecture du résumé et lecture du texte

34 Conférences et évaluation (2) MUC (Message Understanding Conference) Entités nommées Coréférence des entités (anaphores) Instantiation de gabarits (templates) prédéfinis Instantiation de scénarios par gabarits

35 Conférences et évaluation (3) DUC (Programme TIDES) Précision/Rappel Méthode utilitaire (Radev et al.) Similarité de contenu

36 Discussion et analyse Top-down De la structure vers le contenu Bottom-up Du contenu (mots, phrases) vers la compréhension Hybride Dans les deux directions simultanément ou en complément

37 Évaluation formelle Toute les méthodes ne sont pas évaluées Évaluations varient Corpus de test différent 25% de taux de compression ! 2 pages incohérentes pour 8 pages cohérentes (et encore)

38 Avenir Abstraction Plus de rigueur Passer de lexpérimentation à lapplication Améliorer la lisibilité Améliorer linteraction avec lusager

39 Conclusion Explosion du domaine Intégration des technologies connexes Traitement en langue naturelle Recherche dinformation Avenir prometteur Encore beaucoup de travail


Télécharger ppt "Création de résumé automatique Par Guillaume Blain & Marc-André Morissette IFT6255 – 8 avril."

Présentations similaires


Annonces Google