Équipe TexMex, IRISA, Rennes

Slides:



Advertisements
Présentations similaires
Les présentateurs doivent souvent transmettre des informations techniques à des auditeurs qui connaissent moins bien le sujet et le vocabulaire spécifique.
Advertisements

1 IXERP consulting. L archivage consiste à extraire de la base de données opérationnelle les informations qu' il n est plus nécessaire de conserver «
Relational Learning as a Search in a Critical Region Lou Fedon 9 Mars 2006.
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Classification et prédiction
Apprentissage supervisé à partir de séquences
Spécification et qualité du logiciel
RECONNAISSANCE DE FORMES
APPROCHE PAR LES COMPETENCES ET
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Urbanisation de Systèmes d'Information
Application de réseaux bayésiens à la détection de fumées polluantes
Yann Chevaleyre et Jean-Daniel Zucker
Les méthodes formelles en ingénierie des connaissances Damien Lhomme-Desages Jérémie Barlet.
Analyse et structuration thématiques
Catégoriser le lexique
Modélisation des systèmes non linéaires par des SIFs
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Recherche Sémantique d’Information
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
LES OUTILS POUR LA GOUVERNANCE DES DONNÉES LA PASSION DES DONNÉES LA PRÉCISION DES RÉSULTATS.
Le logiciel CMAP Tools : ce qu’il est, ses fonctionnalités
Apprendre à partir des observations
L'apprentissage de l'abstraction Faire acquérir des concepts Animation pédagogique 12 décembre 2012 LRO.
Démarche de résolution de problèmes
Algorithmique et Programmation
Équipe TexMex, IRISA, Rennes
Introduction à la conception de Bases de Données Relationnelles
Métagrammaire RLT, 7/02/02. Plan n Rappels : compilateur de BG n Essais sur les verbes n Questions.
Construction de modèles visuels
La segmentation
Bases de données lexicales
SYSTEMES D’INFORMATION
Entre construction théorique et mise en œuvre opérationnelle
Techniques de test Boulanger Jean-Louis.
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
Rappels de logique des prédicats du 1er ordre
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
ANALYSE METHODE & OUTILS
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
La progressivité des apprentissages par niveaux
Hatainville Les Moitiers d’Allonne – Tel : Website : stratic.online.com La démarche projet Mars 2001.
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Présentation du marché obligataire
7 mai André Revuz 1 Situations fondamentales et curriculums Guy Brousseau.
Recherche en corpus de réponses à des questions définitoires Véronique Malaisé Thierry Delbecque Pierre Zweigenbaum TALN 2005, Dourdan.
Les Techniques d’enquête quantitative
D.E ZEGOUR Ecole Supérieure d’Informatique. Problèmes de décision Concepts de base Expressions régulières Notation particulière pour exprimer certaines.
LES DEMARCHES PEDAGOGIQUES
Initiation à la conception des systèmes d'informations
Sylwia Ozdowska1, Vincent Claveau2
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Du discours aux modèles… Une tentative d’articulation
CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille Recherche Sémantique d’Information.
LE CDCF Ce document charnière entre l’analyse du besoin et la conception du produit va permettre de faire émerger les éléments fonctionnels nécessaires.
ETAPE III : LA PROBLEMATIQUE
CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille Recherche Sémantique d’Information.
Knowledge discovery in Databases (KDD)
TEXT MINING Fouille de textes
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Développement d’un système-Expert. Les bonnes raisons Conserver l’expertise dans l’entreprise roulement vulnérabilité rareté Formation de personnel qualifié.
Le Traitement Automatique des Langues (TAL)
Initiation à des recherches dans le domaine de l’enseignement
But : avoir un regard réflexif sur le métier d’enseignant
Initiation a des recherches dans domaine de l’enseignement
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Modélisation des Actions Mécaniques Première sti2d
ETUDES PRONOSTIQUES Pr Ganry.
Production de ressources pour le cycle 3 Lycée Diderot le 8 mars 2016
Transcription de la présentation:

Équipe TexMex, IRISA, Rennes Acquisition de connaissances linguistiques en corpus par apprentissage symbolique ou quand l’apprentissage perd son aspect boîte noire Pascale Sébillot Équipe TexMex, IRISA, Rennes

Plan Acquisition numérique versus symbolique Principes de la programmation logique inductive (PLI) Expérience d’acquisition de relations sémantiques nomino-verbales par PLI

Acquisition numérique versus symbolique Pas opposition numérique vs linguistique Approche numérique exploite l’aspect fréquentiel des données utilise des techniques statistiques indices statistiques, analyse distributionnelle… Approche symbolique exploite l’aspect structurel des données utilise des informations structurelles ou symboliques expertise linguistique ou apprentissage symbolique

Indices statistiques (app. num.) Cooccurrences dans une fenêtre Mots apparaissant ensemble de manière statistiquement significative Coefficients d’association table de contingence coefficient d’information mutuelle IM= log2(a/(a+b)(a+c)) test du 2 (Church-Gale 91) = (ad-bc)2/((a+b)(a+c)(b+c)(b+d)) Segments répétés (Lebart et Salem 94) m2 mk≠m2 m1 a b ml≠m1 c d

Analyse distributionnelle (app. num.) Linguistique Harrissienne (Harris et al. 89) Approches en 3 étapes extraction des cooccurrents d'un mot mise en évidence de la proximité/distance des mots 2 à 2 selon leurs cooccurrents regroupement en classes Classes sémantiques… Grefenstette 94, Bouaud et al. 97… Limites : interprétabilité, détection au niveau du corpus… mais portabilité

Approche linguistique (app. symb.) Définitions opérationnelles des éléments à acquérir, établies par expertise linguistique Patrons, marqueurs Lexter (Bourigault 94)… Seek (Jouis 95) : règles d'exploration contextuelle plus de 220 règles SI <condition de co-présence de marqueurs linguistiques> ALORS <actions> OU <conclusions> manipulant plus de 3300 marqueurs linguistiques, construites manuellement détection de couples de mots en relation binaire (localisation, tout à partie…)

Apprentissage symbolique (app. symb.) Marqueurs de la relation issus d’une analyse d’exemples et non d’une connaissance linguistique a priori  extraction de patrons à partir d’exemples Hearst (92) : méthodologie en 5 étapes choisir une relation cible R réunir une liste de paires en relation R trouver les phrases contenant ces paires ; enregistrer leurs contextes lexical et syntaxique trouver les points communs entre ces contextes ; supposer que c’est un schéma de R appliquer les schémas pour avoir de nouvelles paires et retourner en 3 Hyponymie (Morin 99) SN tel que LISTE (arbres fruitiers tels que des pommiers, des poiriers…)

Intérêt de l’approche symbolique Interprétabilité, détection au niveau de l’occurrence Définition opérationnelle d’un concept Intérêt quand une relation est connue partiellement en extension et pas en intention, c’est-à-dire non formalisée par une règle Généraliser automatiquement  apprentissage artificiel (automatique) symbolique

Principes de la PLI [Muggleton & De Raedt 94] Intérêt : exemples à manipuler contenant un nombre variables d’objets et relations entre objets importantes Technique d’apprentissage symbolique supervisée E+ et E- : exemples positifs et négatifs (contre-exemples) B : connaissances préalables (background knowledge) B, E+, E- exprimés en logique des prédicats But : l’algorithme de PLI infère, par généralisation des exemples positifs, des règles (hypothèses, clauses) H qui caractérisent les exemples positifs par rapport aux négatifs possibilité d’autoriser un peu de bruit (exemples négatifs couverts)

Exemple : apprendre quels animaux volent E+ = {vole(canari). vole(chauve-souris).} E- = {:-vole(chien).} B = {oiseau(canari). mamm(chien). mamm(chauve-souris). ailé(chauve-souris). ailé(canari).} H = {vole(X) :- ailé(X).} général vole(X). vole(X) :- oiseau(X). vole(X) :- mamm(X). vole(X) :- ailé(X). Eh vole(X) :- oiseau(X), mamm(X). spécifique

Un peu plus formellement… Choix du langage des exemples et du langage des hypothèses Lien entre les deux espaces : notion de couverture Hypothèses organisées par une notion de généralisation Algorithme de PLI (ALEPH - Srinivasan 00) choisir un exemple dans E+ ; arrêt s’il n’y en a plus définir un espace de recherche d’hypothèses à partir de E+ et du langage d’hypothèses rechercher l’hypothèse dans l’espace de solutions maximisant une fonction de score conserver cette hypothèse et ôter les exemples qu’elle couvre (explique) ; retourner en 1

Expérience d’acquisition de relations sémantiques N-V par PLI Travail réalisé avec C. Fabre (Erss), P. Bouillon (Tim/Issco) et V. Claveau (Irisa)  logiciel ASARES Acquisition de couples N-V sémantiquement liés Liens définis dans la structure des qualia du Lexique génératif (Pustejovsky 95) : rôles qualia télique : fonction ou but d’un objet (couper – couteau) agentif : mode de création d’un objet (construire – maison) couple N-V qualia par la suite Pas d’a priori sur les structures portant les rôles qualia dans un corpus Méthode symbolique d’acquisition : intérêt linguistique (schémas porteurs, verbalisation des rôles)

Extraction symbolique supervisée Concept à apprendre : distinguer les paires N-V qualia des non-qualia en contexte (en corpus) Informations utilisées contexte (informations apportées par étiquetages) ordre et distance entre N et V, succession des mots Construction d’ensembles d’exemples E+ et E- par un expert e+ : « À l’aide des manettes, déverrouiller le siège et ... » e- : « Gonfler la roue à la pression prescrite... » Règles générées = patrons d’extraction interprétables fonction ?

Extraction symbolique supervisée E+ et E- expert LG système PLI patrons d’extraction B ? corpus corpus étiqueté Étiquetages couples qualia

Corpus et étiquetages Manuel de maintenance d’hélicoptères de MATRA-CCR corpus technique : nombreux termes concrets vocabulaire et structures syntaxiques homogènes 104 000 mots, 700 Koctets Étiquetage catégoriel segmentation, lemmatisation, étiquetage (moins de 2% d’erreurs) manettes est un nom commun au pluriel Étiquetage sémantique (Bouillon et al. 00) construction d’une hiérarchie d’étiquettes (à partir de WordNet) ex : un instrument est un type d’artefact, d’objet... manettes désigne un instrument moins de 1.5% d’erreurs

Exemples et connaissances a priori description des mots de la phrase étiquettes catégorielles étiquettes sémantiques description des successions de mots distance en nombre de mots et verbes entre N et V Connaissances préalables : entre autres les hiérarchies des étiquettes catégorielles et sémantiques pour permettre des généralisations

Spécificités Hypothèse bien formée pour identifier une paire N-V qualia clause donnant des informations sur les mots (N, V, mots du contexte) ou sur les positions respectives du N et du V dans la phrase Prise en compte des connaissances hiérarchiques Règles linguistiquement pertinentes concision : au plus une information catégorielle et sémantique par mot introduction de variables si contraintes

Inférence des patrons d’extraction Supervision : 3000 exemples positifs et 3000 négatifs Apprentissage : 20min (vs 12h+ sans modifications) Résultats : 9 patrons inférés is_qualia(N,V) :- precedes(V,N), near_verb(N,V), infinitive(V), action_verb(V). V d’action à l’infinitif + (tout sauf un verbe)* + N obturer avec les bouchons is_qualia(N,V) :- precedes(V,N), suc(V,C), colon(C), pred(N,D), punctuation(D), singular_common_noun(N). V + : + (tout mot)* + [:,;] + N ouvrir : le capot coulissant, le capot droit et…

Résultats - validation Validation théorique de l’apprentissage et de ses paramétrages (validation croisée) Validation empirique  jeu de test sous-corpus de 32 000 mots focus sur 7 noms : vis, écrou, porte, voyant… 286 paires annotées par des experts du LG, dont 66 qualia

Résultats - validation Application des 9 patrons et comparaison des résultats d’extraction des patrons inférés à ceux des experts Calcul des taux de rappel, précision et F-mesure (2PR/(P+R)) Système Précision (P) Rappel (R) F-mesure PLI 62.2% 92.4% 0.744

Comparaison avec des méthodes d’extraction statistiques Système Précision (P) Rappel (R) F-mesure PLI 62.2% 92.4% 0.744 coeff Ochiai 82.4% 42.4% 0.56 coeff IM3 92.3% 36.4% 0.522 test chi2 78.1% 37.9% 0.464 coeff loglike 80% 42.4% 0.554 Cooccurrences de N et V dans une phrase, basées sur les lemmes Meilleure précision mais taux de rappel plus faible Travail uniquement sur les lemmes alors que la PLI bénéficie d’informations sémantiques et catégorielles Pas besoin de supervision

Comparaison avec une méthode syntaxique manuelle Extraction basée sur une analyse syntaxique : annotation syntaxique (sujet, objet, modifieur) manuelle des paires N-V Paire N-V détectée si en relation syntaxique Le lien qualia est plus qu’un simple lien syntaxique (rappel) (poser l’ensemble : rondelle, vis et serrer au couple) Système Précision (P) Rappel (R) F-mesure PLI 62.2% 92.4% 0.744 lien synt. 79.2% 86.4% 0.826

Pertinence linguistique des patrons d’extraction is_qualia(N,V) :- precedes(V, N), near_verb(N, V), infinitive(V), action_verb(V). is_qualia(N, V) :- contiguous(N, V). is_qualia(N, V) :- precedes(V, N), near_word(N, V), near_ verb(N, V), suc(V,C), preposition(C). is_qualia(N, V) :- near_word(N, V), sentence_beginning(N). is_qualia(N, V) :- precedes(V, N), singular_common_noun(N), suc(V,C), colon(C), pred(N,D), punctuation(D). is_qualia(N, V) :- near_word(N, V), suc(V,C), suc(C,D), action_verb(D). is_qualia(N, V) :- precedes(N, V), near_word(N, V), pred(N,C), punctuation(C). is_qualia(N, V) :- near_verb(N, V), pred(V,C), pred(C,D), pred(D,E), preposition(E), sentence_beginning(N). is_qualia(N, V) :- precedes(N, V), near_verb(N, V), pred(N,C), subordinating_conjunction(C).

Pertinence linguistique des patrons d’extraction À ce niveau de généralisation, peu de marqueurs linguistiques usuels sauf informations morphologiques et sémantiques pour les verbes infinitifs et verbes d’action privilégiés Autres critères proximité : N et V proches dans la phrase, sans verbe entre eux position : N ou V souvent en début de phrase (en particulier V) ponctuations telles que « : » « , » « ; » catégorisation morphosyntaxique 1e clause  verbe d’action à l’infinitif débrancher les prises, déposer les obturateurs…

Pertinence linguistique des patrons d’extraction Patrons propres au corpus et interprétables Recoupement en partie de structures trouvées manuellement (Galy 00) V infinitif + déterminant + N (visser le bouchon) N + V (un bouchon obture) être + V participe passé + par + déterminant + N (sont obturées par les bouchons) … Pertinence des structures infinitives, patrons avec N et V proches Généralisations des structures de Galy (actif et passif  clause 2) Non trouvés : marqueurs polylexicaux (avoir pour but de…) Mais indices nouveaux par rapport à l’analyse manuelle

Approche numérique vs symbolique méthodes portables, automatiques résultats peu interprétables détection au niveau du corpus : une occurrence (retenue ou non) pas explicable cas rares problématiques Symbolique connaissances a priori (patrons, exemples) résultats interprétables détection au niveau de l’occurrence cas rares pouvant être pris en compte

Merci de votre attention Acquisition de connaissances linguistiques en corpus par apprentissage symbolique ou quand l’apprentissage perd son aspect boîte noire Pascale Sébillot Équipe TexMex, IRISA, Rennes Merci de votre attention