La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances.

Présentations similaires


Présentation au sujet: "1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances."— Transcription de la présentation:

1 1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances humaines) Extraction dInformations (EI)

2 2 I. Tâche et architecture BUT : Extraire des informations, factuelles, à partir de textes –Un type d'informations bien spécifique, –A partir dun type de textes (corpus « homogène » - textes courts type « dépêches dagences ») –Une tâche spécifique : constituer des « fiches » (« templates ») rassemblant sous un format relationnel simple les « faits » extraits des textes. Les « MUC » (Message Understanding Conferences): dans les années 90, série de campagnes dévaluation (US) ayant joué un rôle déterminant dans le progrès des méthodes et des traitements. « On sait ce quon cherche, où le chercher, et (à peu près) sous quelle forme »

3 3 Exemples de textes et dinformations à extraire Exemple 1 : ( veille technologique) Corpus : Articles de revues sur l'industrie des semi-conducteurs Information extraite : Nature chimique des dépôts, épaisseur des couches, température de dépôts, dépositaires du procédé Exemple 2 : (veille économique) Corpus : articles de journaux [± spécialisés], dépêches d'agences… Information extraite : Joint ventures (MUC 5, 1993) ou autres opérations financières Mouvements dans la direction des sociétés (MUC 6, 1995)

4 4 Exemple 3 : (informations politiques) Corpus : Articles de presse Information extraite : Descriptifs d'attentats terroristes (MUC 3, 1991) Exemple 4 : (informations médicales, épidémiologie) Corpus : C.R. dhospitalisation Information extraite : pathologie, examens, interventions, résultats (Projet Européen Ménélas)

5 5 Exemples de « templates » Exemple 3 : Attentats terroristes (MUC 3, 1991)

6 6

7 7 Extraction dinformation Passer du texte à la base de données (veille technologique, économique…) Opération : nouveau produit Société: Trusted Logic Matériel : Trusted NFC platform Usage : Google Android Opération : nouveau produit Société: ASK Matériel : contactless USB reader Usage : home or desk

8 8 Opération : prise de participation Auteur : CDC Entreprise Cible : Nom :OpenPortal Software Activité : Editeur de logiciel Montant : 1,5 MEuros Opération : acquisition Auteur : Nom : Grand Chaix de France Activité : producteur de vins Cible : Nom : Sauvion Activité : Négociant en vins Montant :

9 9 Exemple 2 : Mouvements dans la direction des sociétés (MUC 6, 1995) CHARLOTTE, N.C., Sept. 13 ICNWI United Dominion Industries Ltd. (NYSE, TSE: UDI), a manufacturer of diversified engineered pro ­ ducts, today announced the appointment of John G. MacKay, 56, to the newly created position of executive vice president Europe. Mr. MacKay, who has been president of United Dominion's Industrial Products Segment, will be responsible for working with various operating units and the corporate staff to enlarge the company's presence in Europe through acquisitions, joint ventures and other strategic alliances. He will be based in Europe at a site to be determined.

10 10 MUC style templates can be produced in french or english language, from either input text : := ORGANIZATION: POST:"executive vice president" PERSON: VACANCY REASON:OTH UNK := NAME:"United Dominion Industries Ltd." ALIAS:"United Dominion" "UDI" TYPE:COMPANY := NAME:"John G. MacKay" ALIAS:"MacKay" TITLE: "Mr."

11 11 The system produces identical summaries from both these texts, in English: United Dominion Industries Ltd. appoints John G. MacKay as executive vice president. and in French: United Dominion Industries Ltd. nomme John G. MacKay vice président di ­ recteur.

12 12 Chaîne de traitement documentaire En amont : sélection des textes (dépêches, articles…) pertinents dans un « flux » ou une base documentaire : méthodes de RD. Traitements linguistiques, remplissage des « templates », stocké dans un format de type BD (en gardant les liens vers les textes dorigine) Interrogation possible en LN (en utilisant +/- le même analyseur)

13 13 Exemple de chaîne de traitements : Scisors

14 14 Analyse linguistique : Adapter le schéma général de la C.A. pour traiter de vrais textes Combiner approches top-down et bottom-up But: fiches à remplir Texte BOTTOM-UP Analyses linguistiques (syntaxe, sémantique…) TOP-DOWN Connaissances du domaine, Recherche d «éléments pertinents» dans le texte (« attentes ») FRUMP (1982) Lexique, apprentissage… Patrons dextraction TACITLASIE - Généricité+

15 15 Schéma général dun système dEI « actuel » Pr é traitements - Tokenisation - Correction orthographique - Extraction des entit é s nomm é es I Analyse linguistique - Analyse morphologique - Analyse syntaxique - Analyse s é mantique - Analyse du discours II Instantiation des formulaires - Identification des entit é s et é v é nements - Remplissage des champs - Inf é rences III

16 16 II. Méthode « des patrons dextraction »

17 17 Exemple 19 Mars – Une bombe a explosé ce matin près dune centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. Lattentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.

18 18 Préliminaires : Observation un corpus significatif pour définir le micro-domaine et le format des fiches Type d attentat : attentat à l explosif Date : 19 Mars 1982 Lieu : pays = El Salvador, Ville = San Salvador Auteur : FMLN Cible humaine : Non Cible physique : centrale électrique Effet : grave Engin explosif : bombe

19 19 Types d entités : Personnes (fonctions…) Organisations politiques. Bâtiments (installations industrielles…) Engins explosifs et armes (bombes, véhicules piégés…) Lieux géographiques, dates. Evénements : Nature : Attentats Attributs : cible (humaine/physique), instrument, auteur, gravité…

20 20 Analyse linguistique Analyse morphologique (lemme + flexion + catégorie) + Entités nommées (« noms propres » étendus) Analyse syntaxique et sémantique locale (groupes nominaux) --> Entités « patrons d extraction » --> Evenements Discours : Coréférence, temps …

21 21 Traitement linguistique (1) : Analyse Morphologique Mars – Une bombe a explosé ce matin, à 6:50 près d une centrale électrique à San Salvador. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L attentat est attribué au FMLN par M. Ramirez, chef de la police de la ville.

22 22 … et Entités nommées [ e.n. Date-jour 19 Mars ] – Une bombe a explosé ce matin, à [ e.n. Date-heure 6:50 ] près d une centrale électrique à [ e.n. géo-ville/pays San Salvador ]. La charge de forte puissance a gravement endommagé la centrale, plongeant la ville dans le noir pendant plusieurs heures. L attentat est attribué au [ e.n. acro Orga.pol. FMLN ] par [ e.n. pers. M. Ramirez ], chef de la police de la ville.

23 23 (2) Analyse syntaxique locale : groupes nominaux (entités) [ 19 Mars ] – [ gn e1 Une bombe ] a explosé ce matin, à [ 6:50 ] près d [ gn e2 une centrale électrique ] à [ en e3 San Salvador ]. [ gn e4 La charge de forte puissance ] a gravement endommagé [ gn e5 la centrale ], …. e1 : bombe e3 : villee2 : centrale_elect e4 : charge_explosive (qualif : puissance = forte) e5 : centrale_elect

24 24 (3) Evénements : Recherche de « Patterns » Un mixte d analyse syntaxique et sémantique sélective orientée par le domaine et le but [ Une bombe ] a explosé ce matin, à [ 6:50 ] près_d [ une centrale électrique ] à [ San Salvador ]. [ La charge de forte puissance ] a gravement endommagé [ la centrale ], plongeant la ville dans le noir pendant plusieurs heures. Pattern 1 : { } := := | := prep_loc

25 25 (3) Evénements : Recherche de « Patterns » Un mixte d analyse syntaxique et sémantique sélective orientée par le domaine et le but [ Une bombe ] a explosé ce matin, à [ 6:50 ] près_d [ une centrale électrique ] à [ San Salvador ]. [ La charge de forte puissance ] a gravement endommagé [ la centrale ], plongeant la ville dans le noir pendant plusieurs heures. Pattern 2 : :=

26 26 (4) Coréférence Une bombe La charge de forte puissance [ e1 Une bombe ] a explosé ce matin, à [ 6:50 ] près_d [ e2 une centrale électrique ] à [ e3 San Salvador ]. [ e4 La charge de forte puissance ] a gravement endommagé [ e5 la centrale ], plongeant [ e6 la ville ] dans le noir pendant plusieurs heures. e1 = e4 e2 = e5e3=e6

27 27 Etape 3 : Remplissage des Fiches Une bombe [ e1 Une bombe] [ EV1 a explosé ce matin], à [6:50 ] près_d [ e2 une centrale électrique ] à [ e3 San Salvador ]. La charge de forte puissance [ e1 La charge de forte puissance ] [ EV2 a gravement endommagé] [ e2 la centrale ], plongeant [ e3 la ville] dans le noir pendant plusieurs heures. Evénements : Ev1 : exploser, engin = e1, cible :e2, lieu = e3 Ev2 : atteindre, effet : grave, engin = e1, cible : e2 Ev1 = Ev2

28 28 Type d attentat : attentat à l explosif (Ev1) Date : 19 Mars 1982 Lieu : pays = El Salvador, Ville = San Salvador (e3) Auteur : FMLN Cible humaine : Non Cible physique : centrale électrique (e3-e5) Effet : grave (Ev2) Engin explosif : bombe (e1) Evénements et entités extraites : Ev1 : exploser, engin = e1-e4, cible :e2-e5, lieu = e3 Ev2 : atteindre, effet : grave, engin = e1-e4, cible : e2-e5 Ev1 = Ev2 e1 : bombe e2 : centrale_electe3 : ville e4 : charge_explosive (qualif : puissance = forte) e5 : centrale_elect e1 = e4e3 = e5

29 29 Problème : Acquisition de ressources Un « goulot d étranglement » pour le portage sur de nouveaux corpus/tâches Outils dexploration de corpus Apprentissage de classes sémantiques et de patterns

30 30 Idée : élargir les patterns par « similitude » On part dun ensemble de motifs pertinents Une bombe a explosé près dune centrale… Une centrale a été la cible dun attentat à la voiture piégée… On utilise des dictionnaires « sémantiques » (word net, Dicologique…) pour repérer des « équivalents » substituables Bombe = charge (explosive) = engin explosif… Installation industrielle hypéronyme de centrale électrique… ==> des patrons de même forme, avec un lexique + riche On cherche des motifs « similaires » par des « patrons à trous » X a explosé près de Y ==> nouvelles entités engin (X) et cible(Y) Une bombe E==> nouvel événement E de type « exploser » Le système fournit un ensemble de « candidats » validés par le développeur

31 31 III. Autres architectures LASIE (Scheffield) : schéma « standard » de la compréhension automatique de texte –Analyse morpho-syntaxique et sémantique => Forme Quasi Logique (QLF) –Constitution des fiches Avantages/désavantages + Généricité - limites des analyses « tout venant » : syntaxe, référence…

32 32 TACIT (Caen) : Constats daccidents automobiles Texte A-11 Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et ma entraîné vers le mur amovible du pont de Gennevilliers que jai percuté violemment. Daprès les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après mavoir heurtée, il a pris la fuite et na pu être rejoint par le témoin cité.

33 33 Texte A-11 Le conducteur du véhicule B me doublant par la droite a accroché mon pare-choc avant droit et ma entraîné vers le mur amovible du pont de Gennevilliers que jai percuté violemment. Daprès les dires du témoin le conducteur du véhicule B slalomait entre les voitures qui me suivaient. Après mavoir heurtée, il a pris la fuite et na pu être rejoint par le témoin cité. Accident A-11 Impacts : I1,I2 Impact I1 Véhicules : V1,V2 Autres_entités : Impact I2 Véhicules : V1 Autres_entités : Le mur amovible du pont de Gennevillier Personne P1 Identité : Rédacteur A/B : A Véhicule : V1 Personne P2 Identité : A/B : B Véhicule : V2 Véhicule V1 Type : Conducteur: P1 Parties_touchées : Véhicule V2 Type : Conduct : P2 Parties_touchées : Constat et formulaires associés

34 34 Méthode : « partial (shallow) parsing » Combinaison : –danalyses linguistiques génériques « légères » et « sûres »: Analyse morpho-syntaxique partielle « sûre » (J Vergne) : chunks nominaux, rel. Sujet-Verb (± Verbe-Objet) Calcul de référence « sûr » : certains pronoms… – et de « ressources » spécifiques du corpus: schémas actanciels des « verbes de choc » => analyse syntaxico- sémantique restreinte à certaines propositions Informations sémantiques sur les EN et GN, Métonymie conducteur/véhicule …. Avantages/désavantages + exploite des analyseurs génériques fiables, et seulement ceux-ci + moins figé que les patrons (+ générique) - certaines étapes « ad hoc »

35 35 IV. Bilan, discussion (1) Evaluation Une nécessité (et un acquis des MUC) Mesure quantitative des performances Rappel (R) = nombre de réponses (champs slots) correctes / nombre de réponses attendues Précision (P) = nombre de réponses correctes / nombre total de réponses Meilleurs résultats : R = 50-75% P = 70-85% 70 à 80% des performances humaines Varie selon la complexité des textes et des fiches TACIT : P = 84 % R= 73% F-mesure = 78 %. A la limite des applications industrielles

36 36 ThèmeIndice de complexit é RappelPrécisio n F- mesure MUC-4Attentats terroristes1,8762%53%55,93% MUC-5Fusion d'entreprise2,6757%64%52,75% MUC-6Changement d'un membre de direction 2,4747%70%56,40% MUC-7Lancement d'engins spatiaux 2,4467%50%57,14%

37 37 (2) Améliorations linguistiques Analyse morphologique et syntaxique (?) Calcul de la coréférence Temps (scénarios complexes : trouver la succession des événements, leurs dates…), localisation…

38 38 (3) Portage sur de nouvelles applications Etude du corpus : estimation de faisabilité, caractéristiques exploitables (« homogénéité ») Constitution de ressources (lexicales, patrons, grammaires spécifiques, customisation danalyseurs…) Intérêt dune analyse linguistique « générique » accompagnée dune adaptation au corpus.

39 39 Site des conférences TAC (Text Analysis Conferences) = ± suite de MUC ex.html Et site général sur la recherche dinformations (Conférences TREC)


Télécharger ppt "1 Une version (très) affaiblie de la compréhension automatique de texte Ciblée sur une tâche précise Des résultats exploitables (80 % des performances."

Présentations similaires


Annonces Google