1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

Slides:



Advertisements
Présentations similaires
La place accordée à l’expression des salariés sur leur travail et leurs conditions de travail dans l’entreprise Résultats sondage exclusif CSA/ANACT.
Advertisements

Mais vous comprenez qu’il s’agit d’une « tromperie ».
Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
[number 1-100].
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
M. SAILLOUR Lycée Notre Dame du Kreisker St Pol de Léon
1/29 Le modèle de l ’atome Dernière mise à jour: Le 24 Septembre 2008.
Licence pro MPCQ : Cours
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Classe : …………… Nom : …………………………………… Date : ………………..
Les numéros 70 –
Les numéros
Les identités remarquables
Le, la, les words Possessive Adjectives MINE!!. 2 My in french is mon, ma,mes... Le word/ begins with a vowel: Mon La word: Ma Les word: Mes.
Exercice #14 Quel âge as-tu? Quel âge a ton frère/ta sœur? Translate:
Cours MIAGE « Architectures Orientées Services » Henry Boccon-Gibod 1 Architectures Orientées Services Composants de Service Exemple pratique de développement.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
Description du fonctionnement d'un système 1 Clic Clic
AXES OBJECTIFS MESURES
Insertion professionnelle à PolytechLille – promo ,5 % de réponses Temps de recherche 50 % contrat signé avant sortie de Polytech 22,5 % moins de.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
Révision (p. 130, texte) Nombres (1-100).
1 7 Langues niveaux débutant à avancé. 2 Allemand.
PARTENARIAT ÉDUCATIF GRUNDTVIG PARTENARIAT ÉDUCATIF GRUNDTVIG REPERES COHESION CULTURELLE ET EXPANSION DES IDEES SUR LE TERRITOIRE EUROPEEN.
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
La méthodologie………………………………………………………….. p3 Les résultats
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
DeltaPROD Suivi des interventions Gestion de configuration
Titre : Implémentation des éléments finis sous Matlab
Pro Senectute Vaud Unité Centres de rencontre Centre Val Paisible Lausanne.
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
ACDI IUT de Paris – 05 février CR-MD - v1.20 Enquête POST-DUT Informatique 03 1 Les diplômés de 2003 Claude Ratard - Vélizy.
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
SYSTEMES D’INFORMATION
Cairn.info Chercher : Repérer : Progresser 13/01/ { } Revues et diffusion des savoirs scientifiques : retour d’expérience de Cairn.info
Partie 1: Ondes et Particules.
Les chiffres & les nombres
Unit 4: Les animaux Unit 4: Les animaux.
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
1 10 pt 15 pt 20 pt 25 pt 5 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt 10 pt 15 pt 20 pt 25 pt 5 pt Les fonctions.
Forum des Industries de la Langue, 17 mars 2010
Jean-Marc Léger Président Léger Marketing Léger Marketing Les élections présidentielles américaines.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Symposium AFMC de Durbuy mai Association Francophone des Médecins Chefs Enquête réalisée auprès des médecins-chefs n = 50.
Les Nombres 0 – 100 en français.
Copyright 2011 – Les Chiffres Copyright 2011 –
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
* Source : Étude sur la consommation de la Commission européenne, indicateur de GfK Anticipations.
Bases de données   J-L Hainaut Partie 1 - Comprendre les bases de données Partie 2 - Utiliser les bases de données Partie 3 - Développer une base.
Nom:____________ Prénom: ___________
Projet de stage d’année IIR4 sous le thème:
Les Chiffres Prêts?
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Partie II: Temps et évolution Energie et mouvements des particules
Modélisation de l’inférence et application à un système de question-réponse Anne-Laure Ligozat Groupe LIR Directrice : Michèle Jardino Encadrante : Isabelle.
Transcription de la présentation:

1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances humaines) Extraction dInformations (EI)

2 I. Tâche et architecture BUT : Extraire des informations, factuelles, à partir de textes –Un type d'informations bien spécifique, –A partir dun type de textes (corpus « homogène » - textes courts type « dépêches dagences ») –Une tâche spécifique : constituer des « fiches » (« templates ») rassemblant sous un format relationnel simple les « faits » extraits des textes. Les « MUC » (Message Understanding Conferences): dans les années 90, série de campagnes dévaluation (US) ayant joué un rôle déterminant dans le progrès des méthodes et des traitements. « On sait ce quon cherche, où le chercher, et (à peu près) sous quelle forme »

3 Exemples de textes et dinformations à extraire Exemple 1 : ( veille technologique) Corpus : Articles de revues sur l'industrie des semi-conducteurs Information extraite : Nature chimique des dépôts, épaisseur des couches, température de dépôts, dépositaires du procédé Exemple 2 : (veille économique) Corpus : articles de journaux [± spécialisés], dépêches d'agences… Information extraite : Joint ventures (MUC 5, 1993) ou autres opérations financières Mouvements dans la direction des sociétés (MUC 6, 1995)

4 Exemple 3 : (informations politiques) Corpus : Articles de presse Information extraite : Descriptifs d'attentats terroristes (MUC 3, 1991) Exemple 4 : (informations médicales, épidémiologie) Corpus : C.R. dhospitalisation Information extraite : pathologie, examens, interventions, résultats (Projet Européen Ménélas)

5 Exemples de « templates » Exemple 3 : Attentats terroristes (MUC 3, 1991)

6

7 Extraction dinformation Passer du texte à la base de données (veille technologique, économique…) Opération : nouveau produit Société: Trusted Logic Matériel : Trusted NFC platform Usage : Google Android Opération : nouveau produit Société: ASK Matériel : contactless USB reader Usage : home or desk

8 Opération : prise de participation Auteur : CDC Entreprise Cible : Nom :OpenPortal Software Activité : Editeur de logiciel Montant : 1,5 MEuros Opération : acquisition Auteur : Nom : Grand Chaix de France Activité : producteur de vins Cible : Nom : Sauvion Activité : Négociant en vins Montant :

9 Exemple 2 : Mouvements dans la direction des sociétés (MUC 6, 1995) CHARLOTTE, N.C., Sept. 13 ICNWI United Dominion Industries Ltd. (NYSE, TSE: UDI), a manufacturer of diversified engineered pro ­ ducts, today announced the appointment of John G. MacKay, 56, to the newly created position of executive vice president Europe. Mr. MacKay, who has been president of United Dominion's Industrial Products Segment, will be responsible for working with various operating units and the corporate staff to enlarge the company's presence in Europe through acquisitions, joint ventures and other strategic alliances. He will be based in Europe at a site to be determined.

10 MUC style templates can be produced in french or english language, from either input text : := ORGANIZATION: POST:"executive vice president" PERSON: VACANCY REASON:OTH UNK := NAME:"United Dominion Industries Ltd." ALIAS:"United Dominion" "UDI" TYPE:COMPANY := NAME:"John G. MacKay" ALIAS:"MacKay" TITLE: "Mr."

11 The system produces identical summaries from both these texts, in English: United Dominion Industries Ltd. appoints John G. MacKay as executive vice president. and in French: United Dominion Industries Ltd. nomme John G. MacKay vice président di ­ recteur.

12 Chaîne de traitement documentaire En amont : sélection des textes (dépêches, articles…) pertinents dans un « flux » ou une base documentaire : méthodes de RD. Traitements linguistiques, remplissage des « templates », stocké dans un format de type BD (en gardant les liens vers les textes dorigine) Interrogation possible en LN (en utilisant +/- le même analyseur)

13 Exemple de chaîne de traitements : Scisors

14 Analyse linguistique : Adapter le schéma général de la C.A. pour traiter de vrais textes Combiner approches top-down et bottom-up But: fiches à remplir Texte BOTTOM-UP Analyses linguistiques (syntaxe, sémantique…) TOP-DOWN Connaissances du domaine, Recherche d «éléments pertinents» dans le texte (« attentes ») FRUMP (1982) Lexique, apprentissage… Patrons dextraction TACITLASIE - Généricité+

15 Schéma général dun système dEI « actuel » Pr é traitements - Tokenisation - Correction orthographique - Extraction des entit é s nomm é es I Analyse linguistique - Analyse morphologique - Analyse syntaxique - Analyse s é mantique - Analyse du discours II Instantiation des formulaires - Identification des entit é s et é v é nements - Remplissage des champs - Inf é rences III

16 II. Méthode « des patrons dextraction »

17 Exemple 19 Mars – Une bombe a explosé ce matin près dune centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. Lattentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.

18 Préliminaires : Observation un corpus significatif pour définir le micro-domaine et le format des fiches Type d attentat : attentat à l explosif Date : 19 Mars 1982 Lieu : pays = El Salvador, Ville = San Salvador Auteur : FMLN Cible humaine : Non Cible physique : centrale électrique Effet : grave Engin explosif : bombe

19 Types d entités : Personnes (fonctions…) Organisations politiques. Bâtiments (installations industrielles…) Engins explosifs et armes (bombes, véhicules piégés…) Lieux géographiques, dates. Evénements : Nature : Attentats Attributs : cible (humaine/physique), instrument, auteur, gravité…

20 Analyse linguistique Analyse morphologique (lemme + flexion + catégorie) + Entités nommées (« noms propres » étendus) Analyse syntaxique et sémantique locale (groupes nominaux) --> Entités « patrons d extraction » --> Evenements Discours : Coréférence, temps …

21 Traitement linguistique (1) : Analyse Morphologique Mars – Une bombe a explosé ce matin, à 6:50 près d une centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L attentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.

22 … et Entités nommées [ e.n. Date-jour 19 Mars ] – Une bombe a explosé ce matin, à [ e.n. Date-heure 6:50 ] près d une centrale électrique à [ e.n. géo-ville/pays San Salvador ]. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L attentat est attribué au [ e.n. acro Orga.pol. FMLN ] par [ e.n. pers. M. Ramirez ], chef de la police de la ville.

23 (2) Analyse syntaxique locale : groupes nominaux (entités) [ 19 Mars ] – [ gn e1 Une bombe ] a explosé ce matin, à [ 6:50 ] près d [ gn e2 une centrale électrique ] à [ en e3 San Salvador ]. [ gn e4 La charge de forte puissance ] a gravement endommagé [ gn e5 la centrale ], …. e1 : bombe e3 : villee2 : centrale_elect e4 : charge_explosive (qualif : puissance = forte) e5 : centrale_elect

24 (3) Evénements : Recherche de « Patterns » Un mixte d analyse syntaxique et sémantique sélective orientée par le domaine et le but [ Une bombe ] a explosé ce matin, à [ 6:50 ] près_d [ une centrale électrique ] à [ San Salvador ]. [ La charge de forte puissance ] a gravement endommagé [ la centrale ], plongeant la ville dans le noir pendant plusieurs heures. Pattern 1 : { } := := | := prep_loc

25 (3) Evénements : Recherche de « Patterns » Un mixte d analyse syntaxique et sémantique sélective orientée par le domaine et le but [ Une bombe ] a explosé ce matin, à [ 6:50 ] près_d [ une centrale électrique ] à [ San Salvador ]. [ La charge de forte puissance ] a gravement endommagé [ la centrale ], plongeant la ville dans le noir pendant plusieurs heures. Pattern 2 : :=

26 (4) Coréférence Une bombe La charge de forte puissance [ e1 Une bombe ] a explosé ce matin, à [ 6:50 ] près_d [ e2 une centrale électrique ] à [ e3 San Salvador ]. [ e4 La charge de forte puissance ] a gravement endommagé [ e5 la centrale ], plongeant [ e6 la ville ] dans le noir pendant plusieurs heures. e1 = e4 e2 = e5e3=e6

27 Etape 3 : Remplissage des Fiches Une bombe [ e1 Une bombe] [ EV1 a explosé ce matin], à [6:50 ] près_d [ e2 une centrale électrique ] à [ e3 San Salvador ]. La charge de forte puissance [ e1 La charge de forte puissance ] [ EV2 a gravement endommagé] [ e2 la centrale ], plongeant [ e3 la ville] dans le noir pendant plusieurs heures. Evénements : Ev1 : exploser, engin = e1, cible :e2, lieu = e3 Ev2 : atteindre, effet : grave, engin = e1, cible : e2 Ev1 = Ev2

28 Type d attentat : attentat à l explosif (Ev1) Date : 19 Mars 1982 Lieu : pays = El Salvador, Ville = San Salvador (e3) Auteur : FMLN Cible humaine : Non Cible physique : centrale électrique (e3-e5) Effet : grave (Ev2) Engin explosif : bombe (e1) Evénements et entités extraites : Ev1 : exploser, engin = e1-e4, cible :e2-e5, lieu = e3 Ev2 : atteindre, effet : grave, engin = e1-e4, cible : e2-e5 Ev1 = Ev2 e1 : bombe e2 : centrale_electe3 : ville e4 : charge_explosive (qualif : puissance = forte) e5 : centrale_elect e1 = e4e3 = e5

29 Problème : Acquisition de ressources Un « goulot d étranglement » pour le portage sur de nouveaux corpus/tâches Outils dexploration de corpus Apprentissage de classes sémantiques et de patterns

30 Idée : élargir les patterns par « similitude » On part dun ensemble de motifs pertinents Une bombe a explosé près dune centrale… Une centrale a été la cible dun attentat à la voiture piégée… On utilise des dictionnaires « sémantiques » (word net, Dicologique…) pour repérer des « équivalents » substituables Bombe = charge (explosive) = engin explosif… Installation industrielle hypéronyme de centrale électrique… ==> des patrons de même forme, avec un lexique + riche On cherche des motifs « similaires » par des « patrons à trous » X a explosé près de Y ==> nouvelles entités engin (X) et cible(Y) Une bombe E==> nouvel événement E de type « exploser » Le système fournit un ensemble de « candidats » validés par le développeur

31 III. Autres architectures LASIE (Scheffield) : schéma « standard » de la compréhension automatique de texte –Analyse morpho-syntaxique et sémantique => Forme Quasi Logique (QLF) –Constitution des fiches Avantages/désavantages + Généricité - limites des analyses « tout venant » : syntaxe, référence…

32 TACIT (Caen) : Constats daccidents automobiles Texte A-11 Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et ma entraîné vers le mur amovible du pont de Gennevilliers que jai percuté violemment. Daprès les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après mavoir heurtée, il a pris la fuite et na pu être rejoint par le témoin cité.

33 Texte A-11 Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et ma entraîné vers le mur amovible du pont de Gennevilliers que jai percuté violemment. Daprès les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après mavoir heurtée, il a pris la fuite et na pu être rejoint par le témoin cité. Accident A-11 Impacts : I1,I2 Impact I1 Véhicules : V1,V2 Autres_entités : Impact I2 Véhicules : V1 Autres_entités : Le mur amovible du pont de Gennevillier Personne P1 Identité : Rédacteur A/B : A Véhicule : V1 Personne P2 Identité : A/B : B Véhicule : V2 Véhicule V1 Type : Conducteur: P1 Parties_touchées : Véhicule V2 Type : Conduct : P2 Parties_touchées : Constat et formulaires associés

34 Méthode : « partial (shallow) parsing » Combinaison : –danalyses linguistiques génériques « légères » et « sûres »: Analyse morpho-syntaxique partielle « sûre » (J Vergne) : chunks nominaux, rel. Sujet-Verb (± Verbe-Objet) Calcul de référence « sûr » : certains pronoms… – et de « ressources » spécifiques du corpus: schémas actanciels des « verbes de choc » => analyse syntaxico- sémantique restreinte à certaines propositions Informations sémantiques sur les EN et GN, Métonymie conducteur/véhicule …. Avantages/désavantages + exploite des analyseurs génériques fiables, et seulement ceux-ci + moins figé que les patrons (+ générique) - certaines étapes « ad hoc »

35 IV. Bilan, discussion (1) Evaluation Une nécessité (et un acquis des MUC) Mesure quantitative des performances Rappel (R) = nombre de réponses (champs slots) correctes / nombre de réponses attendues Précision (P) = nombre de réponses correctes / nombre total de réponses Meilleurs résultats : R = 50-75% P = 70-85% 70 à 80% des performances humaines Varie selon la complexité des textes et des fiches TACIT : P = 84 % R= 73% F-mesure = 78 %. A la limite des applications industrielles

36 ThèmeIndice de complexit é RappelPrécisio n F- mesure MUC-4Attentats terroristes1,8762%53%55,93% MUC-5Fusion d'entreprise2,6757%64%52,75% MUC-6Changement d'un membre de direction 2,4747%70%56,40% MUC-7Lancement d'engins spatiaux 2,4467%50%57,14%

37 (2) Améliorations linguistiques Analyse morphologique et syntaxique (?) Calcul de la coréférence Temps (scénarios complexes : trouver la succession des événements, leurs dates…), localisation…

38 (3) Portage sur de nouvelles applications Etude du corpus : estimation de faisabilité, caractéristiques exploitables (« homogénéité ») Constitution de ressources (lexicales, patrons, grammaires spécifiques, customisation danalyseurs…) Intérêt dune analyse linguistique « générique » accompagnée dune adaptation au corpus.

39 Site des conférences TAC (Text Analysis Conferences) = ± suite de MUC ex.html Et site général sur la recherche dinformations (Conférences TREC)