La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille Recherche Sémantique dInformation.

Présentations similaires


Présentation au sujet: "CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille Recherche Sémantique dInformation."— Transcription de la présentation:

1 CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille Recherche Sémantique dInformation Soutenance de Janvier

2 2 Resein = recherche sémantique dinformation (ie. Basée sur le sens) Nécessité dacquérir une représentation sémantique riche des mots. La représentation choisie est celle des couples qualia. Couple qualia : association dun nom et dun verbe qui sont liés par le sens Ex : (magasin, vendre) (magasin, acheter) etc. Intérêt de la récupération automatique de ces couples pour les linguistes. INTRODUCTION AU SUJETblabla

3 3 Fonction du prototype de recherche de Vincent Claveau : Lacquisition automatique des couples qualia contenus dans un texte But du projet : Correction des bogues du prototype Mise en place dune interface pour faciliter son utilisation par les linguistes Réalisation dune application Web utilisant les couples qualia PRÉSENTATION DU PROJETblabla

4 4 1- Présentation du projet 2- Le Prototype 2.1- Introduction 2.2- Etiquetage 2.3- Apprentissage 2.4- Extraction 2.5- Bootstrapping 2.6- Tests et Conclusion 3- La Spécification 3.1- Installation automatique 3.2- Interface du prototype 3.3- Nouveau corpus 3.4- Application Web 4- Bilan PRÉSENTATION DU PROJETPlan

5 5 LE PROTOTYPE Fonctionnement Global (1/3) Apprentissage Programmation Logique Inductive (Aleph) corpus exemples positifs Experts linguistes exemples négatifs exemple : (...) je pense aller au magasin pour acheter des disques (...) exemples : qualia(magasin, acheter). qualia(disque, acheter).... exemples : non_qualia(magasin, penser). non_qualia(disque, aller)....

6 6 LE PROTOTYPE Fonctionnement Global (2/3) Apprentissage Programmation Logique Inductive (Aleph) exemples positifs exemples négatifs exemples : qualia(magasin, acheter). qualia(disque, acheter).... exemples : non_qualia(magasin, penser). non_qualia(disque, aller).... règles exemple : est_qualia(Nom,Verbe) si : - distance entre Nom et Verbe < 4 mots - Verbe = verbe daction - Nom = lieu...

7 7 LE PROTOTYPE Fonctionnement Global (3/3) règles exemple : est_qualia(Nom,Verbe) si : - distance entre Nom et Verbe < 4 mots - Verbe = verbe daction - Nom = lieu... Extraction corpus couples qualia exemples : qualia(magasin, acheter). qualia(disque, acheter). qualia(magasin, aller).... exemple : (...) je pense aller au magasin pour acheter des disques (...)

8 8 LE PROTOTYPE Fonctionnement Global : Récapitulatif règles Extraction couples qualia Apprentissage Programmation Logique Inductive (Aleph) exemples positifs exemples négatifs Experts linguistes corpus

9 9 LE PROTOTYPE Données nécessaires en entrée dapprentissage : le Corpus corpus : texte ou recueil de textes relatif à un domaine spécifique servant à une étude linguistique. contraintes (pour le traitement par le prototype) : taille conséquente (au moins mots) en français uniquement style non-littéraire de préférence (phrases concrètes) termes techniques propres au domaine fréquemment utilisés nécessité davoir un étiquetage syntaxique et sémantique des mots

10 10 LE PROTOTYPE Données nécessaires en entrée dapprentissage : le Corpus étiqueté 1385\1 TOK Lele#det_sg\ddef 1385\4 TOK marchémarché#noun_sg\acy 1385\11 TOK dude#prep\rde 1385\14 TOK disquedisque#noun_pl\art 1385\21 TOK devraitdevoir#verb_sg\mod 1385\29 TOK reculerreculer#verb_inf\acp 1385\37 TOK cettece#det_sg\ddemon 1385\43 TOK annéeannée#noun_sg\tme 1385\48 PTERM_P.EOS.#sent\sent Exemple de phrase : Le marché du disque devrait reculer cette année. Problème : utilisation du logiciel payant Cordial7

11 11 Exemples Positifs E + (resp. Négatifs E - ) : couples Nom-Verbe présents dans le corpus et certifiés par un expert linguiste comme qualia (resp. non qualia). clauses Prolog totalement adaptées LE PROTOTYPE Données nécessaires en entrée dapprentissage : les Exemples exemple : is_qualia(magasin,acheter) :- phrase entière doù est tirée lexemple avec létiquetage associé à chaque mot. format : is_qualia(N,V) :- tags(et_debut,tc_vide,ts_vide), tags(NomN,tagSyntaxiqueN,tagSemantiqueN), pred(NomN,et_debut), tags(V,tagSyntaxiqueV,tagSemantiqueV), pred(N,V),... Pour un bon apprentissage : ex. positifs et négatifs pour mots très fastidieux pour les experts linguistes solution alternative automatisée : le Bootstrapping

12 12 LE PROTOTYPEApprentissage

13 13 LE PROTOTYPEExtraction

14 14 Apprentissage (Prolog, Aleph) Extraction couples qualia règles corpus étiqueté E+E+ E-E- paramètres Background Knowledge opérateur de raffinement Bootstrapping Nouveau schéma de fonctionnement LE PROTOTYPEBootstrapping

15 15 Présentation du module : - Prend en entrée un corpus étiqueté - Extrait les ensembles positifs et négatifs - Entièrement automatique Bootstrapping E- E+ Corpus étiqueté LE PROTOTYPEBootstrapping

16 16 Fonctionnement du module : - Calcul du score IM 3 de chaque couple N-V - Couples ayant le plus haut score = E+ - Couples ayant le plus bas score = E- Le score IM 3 : - Basé sur le nombre doccurrences du couple N-V - La formule : LE PROTOTYPEBootstrapping

17 17 Performance : Tests effectués par Vincent Claveau Tests effectués sur le corpus Matra uniquement : - Résultats équivalents avec les E+/E- extrait manuellement LE PROTOTYPEBootstrapping

18 18 Points positifs : - Prototype assez stable - Fonctionne sous Linux / Solaris - Résultats relativement bons LE PROTOTYPE Tests & Conclusion

19 19 Points négatifs : - Pour corpus de grande taille uniquement - Pour corpus de style non-littéraire - Temps dexécution très longs (de 15 min à 7 jours) - Certains paramètres codés en dur - Prototype difficile à utiliser - Prototype difficile à installer LE PROTOTYPE Tests & Conclusion

20 20 Le prototype est un programme en ligne de commande création d'une interface et d'un assistant d'installation Un seul corpus est disponible recherche et création d'un nouveau corpus Application : Spécification d'un interface Web SPÉCIFICATIONSIntroduction

21 21 Pourquoi ? - Interface du prototype en ligne de commande et rebutante. - Souci d'avoir un logiciel exploitable par un linguiste lambda. - Une valeur ajoutée pour la distibution : des fonctionnalités supplémentaires. faciliter la manipulation des données utilisées par le prototype. SPÉCIFICATIONS Interface Prototype

22 22 Conception : - Choix d'une interface avec des onglets. - Chacun des onglets représente un module précis du prototype. - Scénarios d'utilisation élaborés pour chaque onglets. SPÉCIFICATIONS Interface Prototype

23 23 Utilité : Tester le prototype en profondeur Avoir une utilisation personnelle pour notre projet Domaine plus intéressant par rapport aux hélicoptères Conditions : Textes dans un bon français Phrases stéréotypées et termes techniques fréquents Contraintes par rapport à létiquetage SPÉCIFICATIONS Nouveau Corpus

24 24 Domaine choisi : le sport Listing des sports : Sports collectifs Sports individuels Sports mécaniques Sports de combat Sports extrêmes Autres… Autres détails sur le Corpus SPÉCIFICATIONS Nouveau Corpus

25 25 Exemples dutilisation : Lutilisateur entre sa requête, Exemple : magasin disque Sa requête est traité par linterface Web et lutilisateur est renvoyé vers une autre page : SPÉCIFICATIONS Application Web

26 26 Page daide à la recherche On propose à lutilisateur de compléter sa requête, avec les couples qualia : Requête initiale : magasin disque Magasin : 1 – acheter 2 – servir 3 – vendre 4 – consommer 5 – ouvrir Disque : 1 – écouter 2 – lire 3 – acheter SPÉCIFICATIONS Application Web

27 27 Résultats : Requête initiale : magasin disque Avec ces choix, lutilisateur obtient une nouvelle requête : (magasin disque) et (acheter ou vendre) et (écouter ou lire) La nouvelle requête est directement envoyée vers la page de résultats dun moteur de recherche. SPÉCIFICATIONS Application Web

28 28 But de linterface : Aider un utilisateur dans ses recherches sur Google Lui proposer des sites plus ciblés sur sa requête Prendre en compte la généralité de certaines requêtes Avoir une application concrète pour le prototype Conception : Stockage des couples qualia dans une base de données Classement des couples en fonction de leur pertinence SPÉCIFICATIONS Application Web

29 29 Limites du projet : - lenteur du prototype pour récupérer les couples qualia - couples qualia spécifiques à un domaine précis - nécessité dutiliser Cordial7 (logiciel sous license) au préalable Interrogations sur lavenir du projet : - pertinence des couples qualia obtenus à partir de notre corpus - validation de linterface par les linguistes - efficacité de lapplication Web dans la recherche dinformations BILAN...


Télécharger ppt "CLERC Frédéric COMMEROT Sami CROGUENNEC Julien GARNIER Nicolas MIGNÉ Vincent VAILLANT Laurent Encadreur : DUCASSÉ Mireille Recherche Sémantique dInformation."

Présentations similaires


Annonces Google