Consolidation de grands réseaux lexicaux Bonjour à tous. Je m’appelle Manel Zarrouk , j’effectue mes recherches au sein du laboratoire LIRMM à Montpellier et je vais vous présenter aujourd’hui une partie de nos travaux autours des inférences déductives et réconciliation dans un réseau lexico-sémantique Consolidation de grands réseaux lexicaux Thèse de Manel ZARROUK supervisée par Mathieu LAFOURCADE
Plan Contexte Contribution Perspectives Publications et activités je vais commencer par vous (mettre bien dans )présenter le contexte de ce que je fais , je vous parlerai ensuite de mes inférences déductives et de la procédure de réconciliation qui vise à identifier le problème quand une des inférences s’avère fausse, avant de terminer par quelques expérimentations et résultats. Perspectives Publications et activités
Réseau lexico-sémantique Comment les construire? •Manuellement (par des experts ou des linguistes) Long, coûteux, statique, normatif •Automatiquement (extraction à partir des corpus) Difficile + connaissances implicites absentes des corpus • Collaborativement - par externalisation ouverte (crowdsourcing)
Externalisation ouverte Externalisation ouverte (crowdsourcing) (populaire, pas chère, rapide) GWAP (game with a purpose/jeux sérieux) Contribution Le réseau lexico-sémantique JDM est construit par externalisation ouverte JeuxDeMots Diko Un outil contributif Contribution négociée Un GWAP en ligne Contribution non-négociée La construction d’un réseau lexical collaboratif (ou de n’importe quelle ressource similaire) peut étre catégorisée selon deux stratégies. SILENCE + BRUIT Relations triviales ignorées par les utilisateurs mais primordiales pour la bonne qualité de la ressource Essentiellement issu des jeux termes ou consignes difficiles contrainte de temps
Approche uniquement endogène Contribution Enrichir et consolider le réseau par le remplissage des silences Inférer des relations manquantes à partir de celles déjà existantes Approche uniquement endogène Consolidation Relations candidates Moteur d’inférences d’expliciter en quoi la relation considérée est incorrecte Moteur de réconciliation RLS JDM
Contribution ~ Déduction Schéma descendant fondé sur la transitivité de la relation ontologique is-a. générique ⇒ spécifique (A est un type de B) et (B a une relation R avec C) alors (A possède la relation R avec C) H Application sur 25 000 termes aléatoires 1 500 000 inférences (80-90% valides)
Contribution ~ Induction Schéma ascendant se basant sur la transitivité de la relation ontologique is-a. spécifique => générique (A est un type de B) et (A a une relation R avec C) alors (B possède la relation R avec C) H Application sur 25 000 termes aléatoires 360 000 inférences (80-95% valides)
Contribution ~ Abduction Sélection d’un ensemble d’exemples Les relations pas déjà partagées entre l’ensemble et A sont proposées comme potentielles pour A Présentations des relations proposées pour la validation/invalidation Une stratégie fondée sur des exemples + similarité entre ces exemples Partage d’un nombre de relations sortantes entre les termes Principe : supposer que les relations sortantes d’un ensemble de termes similaires à un terme cible A peuvent être valable pour ce dernier. Production de 629 987 relations dont 137 416 nouvelles 12 nouvelles relations/entrée (10 889 entrées lexicales)
Contribution ~ Grib Schéma qui vise à enrichir les raffinements et les utiliser pour enrichir les termes connexes Produit > 300 000 relations candidates Tableau de résultats préliminaires présentant le taux de validation des inférences de ce schéma
Récapitulatif Le système de consolidation est un : densificateur de relations ~ mais aussi ~ détecteur d’erreurs identificateur de polysémie marqueur d’exception annotateur de relations valides non pertinentes => Les premiers pas vers un raisonneur autonome
Perspectives Découverte automatique et mémorisation de règles d’inférences (schéma d’inférence à une seule inconnue et plusieurs prémisses) Avion film Pièce de théâtre roman is-a is-a is-a is-a loc A1 A2 A3 A hôtesse loc has-author has-author has-author is-a passager avion de ligne ? ? ? Indiquer une information potentielle Instancier une conclusion
un langage de modélisation spécifique Perspectives ? ? ? ? un langage de modélisation spécifique ? ? ? ?
Publications et activités ZARROUK, M., LAFOURCADE, M. et JOUBERT, A. (September 7-13, 2013). Inductive and deductive inferences in a crowdsourced lexical-semantic network. 9th International Conference on Recent Advances in Natural Language Processing (RANLP 2013), 6p. ZARROUK, M., LAFOURCADE, M. et JOUBERT, A. (Juin 2013). Inférences déductives et réconciliation dans un réseau lexico-sémantique. 20éme conférence du Traitement Automatique du Langage Naturel 2013 (TALN 2013), 14p. LAFOURCADE, M., ZARROUK, M. et JOUBERT, A. (Juin 2013). Inférence de règles déductives par abduction. Méthodes mixtes pour l’analyse syntaxique et sémantique du français (Mixer), Atelier (TALN-2013), 4p. ZARROUK, M., LAFOURCADE, M. et JOUBERT, A. (March 24–30, 2013). Inference and reconciliationin a lexical-semantic network. 14th International Conference on Intelligent Text Processing and Computational Linguistic (CILING-2013), 13p.
Publications et activités — Module doctoral : Prise de parole en public, pédagogie interactive niveau 1 (21 heures validées) — Organisation DOCTISS 2013 journée conférence des doctorants de l’école doctorale i2s (40 heures validées) — école d’été : ESSLI 2013 (The 25th European Summer School in Logic, Language and Information (ESSLLI 2013) Heinrich Heine University in Dûsseldorf, Germany, August 5-16, 2013.) — Co-encadrement d’un groupe TER M1 (sujet : Construction d’un programme qui joue à JeuxDeMots)
Publication et activités — Relectures CICLING 2013 et TALN 2013 — Participations aux conférences CICLING2013 à SAMOS et TALN2013 aux SABLES D’OLONNES — Participation aux Workshops : Workshop on The logic of the lexicon January 2013 : Toulouse Atelier Méthodes mixtes pour l’analyse syntaxique et sémantique du français (Mixer)(TALN-2013)
Merci