Équipe TexMex, IRISA, Rennes

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Algèbre de composants : une approche fonctionnelle à la sémantique de documents Bart Lamiroy LORIA/INPL QGar - École des Mines de Nancy.
Classification et prédiction
Regroupement (clustering)
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Apprentissage supervisé à partir de séquences
Regroupement (clustering)
Spécification et qualité du logiciel
JADT'04 - Mars 2004, Belgique 1 EXIT: un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés Mathieu Roche,
RECONNAISSANCE DE FORMES
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Urbanisation de Systèmes d'Information
Entre construction théorique et mise en œuvre opérationnelle
Application de réseaux bayésiens à la détection de fumées polluantes
Yann Chevaleyre et Jean-Daniel Zucker
Les méthodes formelles en ingénierie des connaissances Damien Lhomme-Desages Jérémie Barlet.
Dr DEVILLE Emmanuelle J D V 12/07/2006
Analyse et structuration thématiques
Équipe TexMex, IRISA, Rennes
Catégoriser le lexique
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Recherche Sémantique d’Information
Initiation au système d’information et aux bases de données
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Apprendre à partir des observations
1- Accueil et introduction Cours MGP Accueil et introduction Gilles Corriveau Maîtrise en Gestion de Projet UQTR Automne 1998.
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
Un neurone élémentaire
Algorithmique et Programmation
DURIBREUX, Michèle & COCQUEBERT & HOURIEZ, Bernard,
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
Chap 4 Les bases de données et le modèle relationnel
Méthode des k plus proches voisins
Construction de modèles visuels
La segmentation
Bases de données lexicales
Entre construction théorique et mise en œuvre opérationnelle
Techniques de test Boulanger Jean-Louis.
LES FICHES POUR METTRE EN OEUVRE DES DISPOSITIFS D'AIDE ET DE SOUTIEN
MOT Éditeur de modèles de connaissances par objets typés
Reconnaissance Vocale
Algorithme pour le web Géraldine Schneider
Rappels de logique des prédicats du 1er ordre
Thales Research and Technology Filtrage et Extraction dInformation 1 Évaluation comparative de ressources générales et de ressources spécifiques pour l'extraction.
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Calcul des groupes d'homologie d’objets discrets
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
Hatainville Les Moitiers d’Allonne – Tel : Website : stratic.online.com La démarche projet Mars 2001.
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Programmation linéaire en nombres entiers
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Les Techniques d’enquête quantitative
Intégration de schémas
LES DEMARCHES PEDAGOGIQUES
Initiation à la conception des systèmes d'informations
Sylwia Ozdowska1, Vincent Claveau2
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille Recherche Sémantique d’Information.
LE CDCF Ce document charnière entre l’analyse du besoin et la conception du produit va permettre de faire émerger les éléments fonctionnels nécessaires.
ETAPE III : LA PROBLEMATIQUE
Knowledge discovery in Databases (KDD)
TEXT MINING Fouille de textes
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Développement d’un système-Expert. Les bonnes raisons Conserver l’expertise dans l’entreprise roulement vulnérabilité rareté Formation de personnel qualifié.
Le Traitement Automatique des Langues (TAL)
BACCALAUREAT PROFESSIONNEL 3 ANS MICROTECHNIQUES Quelques points clés.
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Modélisation des Actions Mécaniques Première sti2d
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Transcription de la présentation:

Équipe TexMex, IRISA, Rennes Approche numérique et approche symbolique de l’acquisition de connaissances sémantiques en corpus : opposition ou combinaison ? Pascale Sébillot Équipe TexMex, IRISA, Rennes

Plan I- Approche numérique versus symbolique précisions terminologiques principes généraux de l’approche numérique principes généraux de l’approche symbolique II- Une expérience d’acquisition de relations sémantiques nomino-verbales par programmation logique inductive (PLI) principes de la PLI expérimentation et résultats III- Opposition définitive ? quelle approche dans quels cas ? tentatives de rapprochements

Précisions terminologiques Opposition numérique vs symbolique et non numérique vs linguistique Techniques d’acquisition fondées sur la notion de classifieur couples (n-uplets) respectant ou non la relation cible classifieurs regroupables selon les attributs utilisés pour repérer les éléments respectant la relation Exploitation de l’aspect fréquentiel (app. numérique) ou d’indices structurels (app. symbolique) L’aspect des données exploitées par le classifieur ne préjuge pas de la technique qu’il utilise (techniques d’apprentissage numérique produisant des classifieurs symboliques)

Approche numérique I.e. acquisition à partir d’indices numériques Exploitation de l’aspect fréquentiel des données Utilisation de techniques statistiques Extraction d’éléments respectant la relation réalisée au niveau du corpus

Indices statistiques Cooccurrences dans une fenêtre (ou contexte syntaxique) Mots apparaissant ensemble de manière statistiquement significative Coefficients d’association table de contingence coefficient d’information mutuelle IM= log2(a/(a+b)(a+c)) test du 2 (Church-Gale 91) = (ad-bc)2/((a+b)(a+c)(b+c)(b+d)) (Church-Hanks 89) : extraction de termes complexes par variante de l’IM prenant en compte la précédence linéaire Segments répétés (Lebart-Salem 94) m2 mk≠m2 m1 a b ml≠m1 c d

Analyse distributionnelle Linguistique Harrissienne (Harris et al. 89) Approches en 3 étapes extraction des cooccurrents d'un mot mise en évidence de la proximité/distance des mots 2 à 2 selon leurs cooccurrents regroupement en classes Classes sémantiques… Grefenstette 94, Bouaud et al. 97…

Points faibles et forts de l’approche numérique Manque d’interprétabilité Détection au niveau du corpus… Caractère automatique Portabilité

Approche symbolique I.e. acquisition à partir d’indices structurels Exploitation de l’aspect structurel des données Utilisation d’indices collectés sur le contexte d’une occurrence de mots en relation Classifieur : souvent un ensemble de règles s’appuyant sur des indices lexicaux, morphosyntaxiques… Deux grandes familles approche linguistique approche par apprentissage

Approche linguistique Définitions opérationnelles des éléments à acquérir, établies par expertise linguistique Indices structurels donnés a priori Patrons, marqueurs Lexter (Bourigault 94)…

Approche linguistique Seek (Jouis 95) : règles d'exploration contextuelle plus de 220 règles SI <condition de co-présence de marqueurs linguistiques> ALORS <actions> OU <conclusions> manipulant plus de 3300 marqueurs linguistiques, construites manuellement détection de couples de mots en relation binaire (localisation, tout à partie…)

Approche par apprentissage Marqueurs de la relation issus d’une analyse d’exemples et non d’une connaissance linguistique a priori  extraction de patrons à partir d’exemples Hearst (92) : méthodologie en 5 étapes choisir une relation cible R réunir une liste de paires en relation R trouver les phrases contenant ces paires ; enregistrer leurs contextes lexical et syntaxique trouver les points communs entre ces contextes ; supposer que c’est un schéma de R appliquer les schémas pour avoir de nouvelles paires et retourner en 3

Approche par apprentissage Patrons inférés appliqués sur le corpus pour extraire des unités en relation Hearst : phase 4 manuelle Hyponymie – Prométhée (Morin 99) Automatisation par calcul de similarité entre contextes lexico-syntaxiques d’occurrences de paires N-N en relation  classes Schémas représentatifs obtenus par généralisation d’un contexte de chaque classe par suppression des attributs non communs aux autres contextes SN tel que LISTE (arbres fruitiers tels que des pommiers, des poiriers…)

Points faibles et forts de l’approche symbolique Nécessité de données en entrée (patrons, exemples) Hypothèse de l’approche linguistique : indices de relations ne dépendent pas des domaines Interprétabilité, détection au niveau de l’occurrence Définition opérationnelle d’un concept Intérêt quand une relation est connue partiellement en extension et pas en intention, c’est-à-dire non formalisée par une règle Assise théorique de la généralisation automatique à partir d’exemples  apprentissage artificiel (automatique) symbolique

Plan I- Approche numérique versus symbolique précisions terminologiques principes généraux de l’approche numérique principes généraux de l’approche symbolique II- Une expérience d’acquisition de relations sémantiques nomino-verbales par programmation logique inductive (PLI) principes de la PLI expérimentation et résultats III- Opposition définitive ? quelle approche dans quels cas ? tentatives de rapprochements

Principes de la PLI Induction – rappel a) Tous les hommes sont mortels mortel(X) :- homme(X). b) Or Socrate est un homme homme(Socrate). c) Donc Socrate est mortel mortel(Socrate). À partir de a) et b), déduction de c) (ex. démonstration automatique) À partir de a) et c), abduction de b) (ex. diagnostic automatique) À partir de b) et c), induction de a)

Principes de la PLI [Muggleton & De Raedt 94] Technique d’apprentissage symbolique supervisée E+ et E- : exemples positifs et négatifs (contre-exemples) B : connaissances préalables (background knowledge) B, E+, E- exprimés en logique des prédicats But : l’algorithme de PLI infère, par généralisation des exemples positifs, des règles (hypothèses, clauses) H qui caractérisent les exemples positifs par rapport aux négatifs possibilité d’autoriser un peu de bruit (exemples négatifs couverts) Intérêt : exemples à manipuler contenant un nombre variables d’objets et relations entre objets importantes

Exemple : apprendre quels animaux volent E+ = {vole(canari). vole(chauve-souris).} E- = {:-vole(chien).} B = {oiseau(canari). mamm(chien). mamm(chauve-souris). ailé(chauve-souris). ailé(canari).} H = {vole(X) :- ailé(X).} général vole(X). vole(X) :- oiseau(X). vole(X) :- mamm(X). vole(X) :- ailé(X). Eh vole(X) :- oiseau(X), mamm(X). spécifique

Un peu plus formellement… Choix du langage des exemples et du langage des hypothèses Lien entre les deux espaces : notion de couverture Hypothèses organisées par une notion de généralisation Algorithme de PLI (ALEPH - Srinivasan 00) choisir un exemple dans E+ ; arrêt s’il n’y en a plus définir un espace de recherche d’hypothèses à partir de l’exemple et du langage d’hypothèses rechercher l’hypothèse h dans l’espace de solutions maximisant une fonction de score Sc conserver cette hypothèse et ôter les exemples qu’elle couvre (explique) ; retourner en 1

Expérience d’acquisition de relations sémantiques N-V par PLI Travail réalisé avec C. Fabre (Erss), P. Bouillon (Tim/Issco) et V. Claveau (Olst)  logiciel ASARES Acquisition de couples N-V sémantiquement liés Liens définis dans la structure des qualia du Lexique génératif (Pustejovsky 95) : rôles qualia télique : fonction ou but d’un objet (couper – couteau) agentif : mode de création d’un objet (construire – maison) couple N-V qualia par la suite Pas d’a priori sur les structures portant les rôles qualia dans un corpus Méthode symbolique d’acquisition : intérêt linguistique (schémas porteurs, verbalisation des rôles)

Extraction symbolique supervisée Concept à apprendre : distinguer les paires N-V qualia des non-qualia en contexte (en corpus) Informations utilisées contexte (informations apportées par étiquetages) ordre et distance entre N et V, succession des mots Construction d’ensembles d’exemples E+ et E- par un expert e+ : « À l’aide des manettes, déverrouiller le siège et ... » e- : « Gonfler la roue à la pression prescrite... » Règles générées = patrons d’extraction interprétables fonction ?

Extraction symbolique supervisée E+ et E- expert LG système PLI patrons d’extraction B ? corpus corpus étiqueté Étiquetages couples qualia

Corpus et étiquetages Manuel de maintenance d’hélicoptères de MATRA-CCR corpus technique : nombreux termes concrets vocabulaire et structures syntaxiques homogènes 104 000 mots, 700 Koctets Étiquetage catégoriel segmentation, lemmatisation, étiquetage (moins de 2% d’erreurs) manettes est un nom commun au pluriel Étiquetage sémantique (Bouillon et al. 00) construction d’une hiérarchie d'étiquettes (à partir de WordNet) ex : un instrument est un type d’artefact, d’objet... manettes désigne un instrument moins de 1.5% d’erreurs

common_noun

étiquette catégorielle Corpus et étiquetages Exemple de phrase étiquetée # (SENT <S> 114\3 COMP À_l'aide_des BOS à_l'aide_de#prep\rman 114\18 TOK manettes manette#noun_pl\ins 114\26 PUNCT , ,#wpunct\virg 114\28 TOK déverrouiller déverrouiller#verb_inf\acp 114\42 TOK le le#det_sg\ddef 114\45 TOK siège siège#noun_sg\art 114\52 TOK et et#conj_coord\rconj 114\55 LSPLIT l' il#pron\ppers 114\57 TOK avancer avancer#verb_inf\acp 115\1 TOK pour pour#prep\rpour ... étiquette catégorielle étiquette sémantique identifiant lemme

Exemples et connaissances a priori description des mots de la phrase étiquettes catégorielles étiquettes sémantiques description des successions de mots distance en nombre de mots et verbes entre N et V Connaissances préalables : entre autres les hiérarchies des étiquettes catégorielles et sémantiques pour permettre des généralisations

Spécificités Hypothèse bien formée pour identifier une paire N-V qualia clause donnant des informations sur les mots (N, V, mots du contexte) ou sur les positions respectives du N et du V dans la phrase Prise en compte des connaissances hiérarchiques Règles linguistiquement pertinentes concision : au plus une information catégorielle et sémantique par mot introduction de variables uniquement si contraintes

Mise en œuvre Codage exemple Background knowledge dans E+ dans B is_qualia(m114_18, m114_28). Background knowledge instrument(M) :- tags(M,_,ins). artifact(M) :- instrument(M). object(M) :- artifact(M). ... dans B sentence_beginning(m114_ 3). tags(m114_3, prep, rman). suc(m114_3, m114_18). tags(m114_18, noun_pl, ins). suc(m114_18, m_114_26). ... À l’aide des manettes, déverrouiller le siège et l’avancer pour…

Inférence des patrons d’extraction Supervision : 3000 exemples positifs et 3000 négatifs Apprentissage : 20min (vs 12h+ sans modifications) Résultats : 9 patrons inférés is_qualia(N,V) :- precedes(V,N), near_verb(N,V), infinitive(V), action_verb(V). V d’action à l’infinitif + (tout sauf un verbe)* + N obturer avec les bouchons is_qualia(N,V) :- precedes(V,N), suc(V,C), colon(C), pred(N,D), punctuation(D), singular_common_noun(N). V + : + (tout mot)* + [:,;] + N ouvrir : le capot coulissant, le capot droit et…

Résultats - validation Validation théorique de l’apprentissage et de ses paramétrages (validation croisée) Validation empirique  jeu de test sous-corpus de 32 000 mots focus sur 7 noms : vis, écrou, porte, voyant… 286 paires annotées par des experts du LG, dont 66 qualia

Résultats - validation Application des 9 patrons et comparaison des résultats d’extraction des patrons inférés à ceux des experts Calcul taux de rappel taux de précision F-mesure (2PR/(P+R)) coefficient Φ ( ((TP*TN)-(FP*FN))/ sqr(PrP*PrN*AP*AN) )

Résultats - validation Application des 9 patrons d’extraction au sous-corpus Résultats sous forme de liste ordonnée de couples N-V associés à un score (nb de détections) un couple détecté plusieurs fois est plus « sûr » qu’un couple détecté 1 fois N1-V1 score1 N2-V2 score2 ... Ni-Vi scorei qualia précision  rappel  non-qualia qualia précision  rappel  non-qualia

Résultats - validation Application des 9 patrons d’extraction au sous-corpus Résultats sous forme de liste ordonnée de couples N-V associés à un score (nb de détections) un couple détecté plusieurs fois est plus « sûr » qu’un couple détecté 1 fois Influence du choix d’un seuil s sur R et P Rappel et précision pour toutes les valeurs de s possibles  courbe rappel-précision Choix : valeur optimisant le coefficient Φ

Résultats - validation Étalon : densité (précision moyenne obtenue par un système aléatoire)

Résultats - validation Système Précision (P) Rappel (R) F-mesure Φ PLI 62.2% 92.4% 0.744 0.671

Comparaison avec des méthodes d’extraction statistiques Système Précision (P) Rappel (R) F-mesure PLI 62.2% 92.4% 0.744 coeff Ochiai 82.4% 42.4% 0.56 coeff IM3 92.3% 36.4% 0.522 test chi2 78.1% 37.9% 0.464 coeff loglike 80% 42.4% 0.554 Cooccurrences de N et V dans une phrase, basées sur les lemmes Meilleure précision mais taux de rappel plus faible Travail uniquement sur les lemmes alors que la PLI bénéficie d’informations sémantiques et catégorielles Pas besoin de supervision

Rappel-précision Asares/IM3

Comparaison avec une méthode syntaxique manuelle Extraction basée sur une analyse syntaxique : annotation syntaxique (sujet, objet, modifieur) manuelle des paires N-V Paire N-V détectée (qualia) si en relation syntaxique Le lien qualia est plus qu’un simple lien syntaxique (rappel) (poser l’ensemble : rondelle, vis et serrer au couple) Système Précision (P) Rappel (R) F-mesure PLI 62.2% 92.4% 0.744 lien synt. 79.2% 86.4% 0.826

Pertinence linguistique des patrons d’extraction is_qualia(N,V) :- precedes(V, N), near_verb(N, V), infinitive(V), action_verb(V). is_qualia(N, V) :- contiguous(N, V). is_qualia(N, V) :- precedes(V, N), near_word(N, V), near_ verb(N, V), suc(V,C), preposition(C). is_qualia(N, V) :- near_word(N, V), sentence_beginning(N). is_qualia(N, V) :- precedes(V, N), singular_common_noun(N), suc(V,C), colon(C), pred(N,D), punctuation(D). is_qualia(N, V) :- near_word(N, V), suc(V,C), suc(C,D), action_verb(D). is_qualia(N, V) :- precedes(N, V), near_word(N, V), pred(N,C), punctuation(C). is_qualia(N, V) :- near_verb(N, V), pred(V,C), pred(C,D), pred(D,E), preposition(E), sentence_beginning(N). is_qualia(N, V) :- precedes(N, V), near_verb(N, V), pred(N,C), subordinating_conjunction(C).

Pertinence linguistique des patrons d’extraction À ce niveau de généralisation, peu de marqueurs linguistiques usuels sauf informations morphologiques et sémantiques pour les verbes infinitifs et verbes d’action privilégiés Autres critères proximité : N et V proches dans la phrase, sans verbe entre eux position : N ou V souvent en début de phrase (en particulier V) ponctuations telles que « : » « , » « ; » catégorisation morphosyntaxique 1e clause  verbe d’action à l’infinitif débrancher les prises, déposer les obturateurs…

Pertinence linguistique des patrons d’extraction Patrons propres au corpus et interprétables Recoupement en partie de structures trouvées manuellement (Galy 00) V infinitif + déterminant + N (visser le bouchon) N + V (un bouchon obture) être + V participe passé + par + déterminant + N (sont obturées par les bouchons) … Pertinence des structures infinitives, patrons avec N et V proches Généralisations des structures de Galy (actif et passif  clause 2) Non trouvés : marqueurs polylexicaux (avoir pour but de…) Mais indices nouveaux par rapport à l’analyse manuelle

Plan I- Approche numérique versus symbolique précisions terminologiques principes généraux de l’approche numérique principes généraux de l’approche symbolique II- Une expérience d’acquisition de relations sémantiques nomino-verbales par programmation logique inductive (PLI) principes de la PLI expérimentation et résultats III- Opposition définitive ? quelle approche dans quels cas ? tentatives de rapprochements

Quelle approche dans quels cas ? Numérique méthodes portables, automatiques résultats peu interprétables détection au niveau du corpus : une occurrence (retenue ou non) pas explicable cas rares potentiellement problématiques Symbolique connaissances a priori (patrons, exemples) résultats interprétables détection au niveau de l’occurrence cas rares pouvant être pris en compte

Quelle approche dans quels cas ? Approche statistique très fréquemment efficace … mais problème si relation sémantique très spécifique (cf. transparent suivant) Recours dans ce cas à une approche symbolique Idem quand besoin d’explication Autres contraintes (ou indices) taille du corpus nombre d’exemples patrons a priori

Structuration au sein d’une classe sémantique Construction automatique de classes par similarité de vecteurs de contexte Mélange de synonymes, antonymes, hyperonymes… potentiellement problématique dans un cadre applicatif Apprentissage symbolique de ces relations ou approche numérique possible ? Structuration a posteriori au sein d’une classe Résultats très préliminaires

Exemple Découpage automatique du corpus du Monde diplomatique en sous-corpus thématiquement homogènes  focus sur les nouvelles technologies Classe {bouleversement, évolution, explosion, innovation, mutation, progrès, révolution} Conservation des mots dans les contextes de tous les membres de la classe pour définir une distance Classification hiérarchique groupant d’abord les mots les moins proches des autres bouleversement, explosion, puis mutation, puis révolution, puis évolution ; {progrès, innovation} à part Pas forcément convaincant…

Idées… Appliquer des patrons connus pour structurer les éléments de la classe si nécessaire Combiner du numérique et du symbolique Cumuler les avantages des approches statistiques (automaticité) supervisées symboliques (qualité des résultats, interprétabilité) Travail effectué dans le cadre de l’apprentissage de patrons d’extraction de couples qualia

Extraction symbolique supervisée Extraction semi-supervisée Extraction symbolique supervisée Acquisition statistique couples E+ E- système PLI patrons d’extraction E+ et E- expert LG corpus B corpus étiqueté Étiquetages couples qualia Mises en pratique de la combinaison par deux algorithmes combinaison séquentielle : bootstrapping mutuel (Riloff 99) combinaison intégrée

Approches semi-supervisées Système d’extraction séquentiel combinaison séquentielle des systèmes statistique et symbolique bootstrapping mutuel (Jones et al. 990 : chaque système prend en entrées les sorties de l’autre contrainte : débuter par la méthode statistique Système d’extraction intégré intégration des résultats statistiques dans la phase d’apprentissage forte influence des paires les plus statistiquement significatives sur l’inférence une extraction statistique + une phase d’apprentissage par PLI ; moins coûteux

Extraction symbolique séquentielle Combinaison séquentielle de l’extraction statistique et symbolique Bootstrapping mutuel (Riloff 99) : chaque technique utilise en entrée la sortie de l’autre Contrainte : débuter par la méthode statistique qui ne nécessite que le corpus Mise en œuvre simple aucune modification des techniques d’extraction

Algorithme d’extraction séquentielle Initialisation LR = {is_qualia(N,V).} application des règles de LR au corpus → LPLI Itération extraction statistique à l’aide des fréquences (scores) indiquées dans LPLI → LIM3 constitution de E+ et E- à partir de LIM3 apprentissage par PLI sur E+ et E- → LR application des règles de LR au corpus → LPLI Arrêt quand LPLI identique 2 tours de suite

Extraction mixte séquentielle ens. E+ et E- système PLI + B (patrons) LR E+ E- extraction statistique LIM3 (couples) corpus étiqueté LPLI (couples) Initialisation

Extraction symbolique intégrée Retour aux pas 2 et 3 de l’algorithme de PLI 2- définir un espace de recherche d’hypothèses Eh à partir de l’exemple et du langage d’hypothèses 3- rechercher l’hypothèse h dans l’espace de solutions maximisant une fonction de score Sc Sc(h) = fct(|E+h|, |E-h|) Sc(h) = |E+h| - |E-h| Poids associé à chaque exemple ou contre-exemple selon son score IM3 : w(e) Sc(h) redéfinie en fct( w(e),  w(e)) e  Eh+ e  Eh- Sc(h) =  w(e) -  w(e) e  Eh+ e  Eh-

Espace de recherche

Extraction symbolique intégrée Intégration des résultats statistiques dans la phase d’apprentissage Forte influence des paires les plus statistiquement significatives sur l’inférence Normalisation des poids (somme de poids des exemples positifs = somme de poids des exemples négatifs) Une extraction statistique + une phase d’apprentissage par PLI ; moins coûteux

Évaluation des performances

Performances optimales des 4 systèmes Précision Rappel F-mesure Asares supervisé 62.2% 92.4% 0.744 IM3 92.3% 36.4% 0.522 mixte séquentiel 62.0% 93.9% 0.747 mixte intégré 60.2% 89.4% 0.720

Évaluation des performances Résultats d’extraction similaires à la version supervisée Grande similitude entre les patrons générés par le système supervisé et les semi-supervisés Apprentissage entièrement automatique plus de phases de supervision nécessaires

Remarques conclusives Ce que j’ai dit ne pas faire l’impasse sur l’approche symbolique Ce que je n’ai surtout pas dit oublier l’approche numérique Ce en que je crois fortement combiner

Merci de votre attention Approche numérique et approche symbolique de l’acquisition de connaissances sémantiques en corpus : opposition ou combinaison ? Pascale Sébillot Équipe TexMex, IRISA, Rennes Merci de votre attention