La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Les supports de vocabulaires pour les systèmes de recherche dinformation orientés précision : application aux graphes pour la recherche dinformation médicale.

Présentations similaires


Présentation au sujet: "Les supports de vocabulaires pour les systèmes de recherche dinformation orientés précision : application aux graphes pour la recherche dinformation médicale."— Transcription de la présentation:

1 Les supports de vocabulaires pour les systèmes de recherche dinformation orientés précision : application aux graphes pour la recherche dinformation médicale Soutenance de thèse Loïc Maisonnasse Sous la direction de Catherine Berrut et Jean-Pierre Chevallet Équipe MRIM, laboratoire LIG Le 6 mai 2008

2 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 2 / 36 Contexte Recherche dinformation orientée précision Des besoins experts et ciblés Des besoins multilingues Les mots-clés ne suffisent plus Besoin dexpressivité Modéliser lexpressivité Comparer les modèles Choisir le modèle approprié Supports de vocabulaires "Montre-moi des images d'une pneumonie du lobe médial droit."

3 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 3 / 36 La nocivité du mercure Le mercure se retrouve concentré dans les poissons. Les plombages dentaires peuvent aussi en libérer. Je suis à la recherche des dangers des plombages au mercure chez lenfant Le mercure sans danger Les amalgames dentaires contenant du mercure ne présentent pas de risques pour la santé des enfants. Mercury in Fillings Mercury in dental work does not hinder children's development. mercure, danger, amalgame, dentaire, enfant, … Ensemble de mots Mots clefs Relations document Je suis à la recherche des dangers des plombages au mercure chez lenfant Le danger des piles Elle contient du mercure qui produit des vapeurs toxiques pour lenfant. Les piles au plomb danger, mercure, vapeur, enfant, plomb, … nocivité, mercure, poisson, plombage, dentaire, … mercury, filling, hinder, children,... {danger, risque…} {amalgame dentaire, plombage…} {mercure, vif-argent…} {nocivité, danger …}, {amalgame dentaire, plombage …} {mercure, vif-argent…} {filling, dental work, plombage, …} {mercury,mercure...} {children, enfant…} (danger - enfant) (plombage - mercure) (plombage - enfant) (mercure - danger) … (nocivité - mercure) (plombage - mercure) … {danger, risque …} {toxique, poison}, {plomb,Pb…} … (plombage - mercure) (Mercure - enfant) … (danger - pile) (Mercure - toxique) (toxique - enfant) (pile - plomb) …

4 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 4 / 36 Rendre compte de lexpressivité Lexpressivité 1.Plusieurs points de vue 2.Lespace dexpression de chacun de ces points de vue. Modéliser lexpressivité par des supports de vocabulaires 1.Plusieurs vocabulaires 2.Vocabulaire Expressivité ForteFaible Mots- Clefs Langages complexes

5 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 5 / 36 Objectifs de la thèse Modéliser lexpressivité en recherche dinformation Proposer des modèles à expressivité forte Modèle de recherche dinformation Local Modèle de recherche dinformation Global Appliquer ces modèles à la recherche dinformation Modèle global Modèle local Modélisation de lexpressivité Modèles à expressivité forte Application des modèles Système de recherche dinformation orienté précision Support de vocabulaires Cadre de Modélisation

6 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 6 / 36 Lexpressivité dans les modèles de recherche dinformation Utilisateur Besoin dinformation Corpus de documents Pertinence RequêteIndexation ? Modèle de requête Modèle de document Correspondance Expressivité Support de vocabulaires Support de vocabulaires modèle

7 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 7 / 36 ExhaustifSpécifique Portée des vocabulaires Explorer les possibilités du support de vocabulaires Deux modèles Portée des représentations de documents Document seul Vocabulaires Expressivité Modèle global Modèle local

8 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 8 / 36 Application des modèles à la recherche dinformation orienté précision Cadre de modélisation Deux Modèles dexpressivité forte Modèle local Modèle global Instanciation au texte Application au médical Modèle Représentation intermédiaire Supports de vocabulaires Corpus de documents Représentation & Correspondance Représentation & Correspondance Modélisation de lexpressivité Système orienté précision Corpus de documents Modèle intermédiaire

9 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 9 / 36 Plan État de lart à travers lexpressivité Modélisation de lexpressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche dinformation orientée précision Modèle intermédiaire Modèle local Modèle global Expérimentation Modèle intermédiaire Modèle local Modèle global Conclusion Contributions Perspectives

10 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 10 / 36 La dimension expressivité en recherche dinformation Expressivité Mots- Clefs Modèles intégrant la dépendance Informations syntaxiques Informations sémantiques Familles de langages dindexation en recherche dinformation ForteFaible (Gaussier et al., 2000) (Strzalkowski et al., 1994) (Zhai et al., 1997) Syntagmes (Ho, 2004) (Matsumura et al., 2000) (Metzler et Haas, 1989) (Smeaton, 1999) Structures syntaxiques (Losee, 1994) (Lee et Lee, 2005) (Nallapati et Allan, 2002) (Gao et al., 2004) (Vintar et al., 2003) (Aronson et al., 1994) Concepts (Sebastiani, 1994) (Berrut, 1988) (Chevallet, 1992) (Genest, 2000) (Mulhem, 2001) Structure sémantique

11 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 11 / 36 Comparer lexpressivité des modèles est difficile Quels sont les vocabulaires ? Quel est leur espace dexpression ? Comment sont-ils utilisés ? Modéliser lexpressivité Pour la recherche dinformation orientée précision Plusieurs vocabulaires Forte expressivité Graphe de concepts Difficulté dextraction Bilan Expressivité ForteFaible

12 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 12 / 36 Plan État de lart à travers lexpressivité Modélisation de lexpressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche dinformation orientée précision Modèle intermédiaire Modèle local Modèle global Expérimentation Modèle intermédiaire Modèle local Modèle global Conclusion Contributions Perspectives

13 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 13 / 36 Modélisation de lexpressivité en recherche dinformation Cadre de modélisationDeux Modèles dexpressivité forte Modèle local Modèle global Modèle Supports de vocabulaires

14 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 14 / 36 Support de vocabulaires vocabulaires Vocabulaire pondéré ( (C081(poumon), partie de, C022(cage thoracique)), 0.4, 0.7) … Vocabulaire simple C081(poumon) C022(cage thoracique),… Vocabulaire complexe ( (C081(poumon), partie de, C022(cage thoracique))… SV=(V 1, V 2, …,V n ) types Nom de relation localisation, mesure, partie de, touche, … Nom de concept C003(plèvre), C001(cœur), C022(cage thoracique),… ST=(T 1, T 2, …,T n ) V1V1 V2V2 V3V3 T2T2 T1T1 Support de vocabulaires Support de types

15 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 15 / 36 Représenter à laide dun support de vocabulaires Définir le support de vocabulaire de la représentation Un ou plusieurs vocabulaires Définir la représentation Sélection sur les vocabulaires Exemple de document indexé à laide dun support de vocabulaire

16 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 16 / 36 Relation de correspondance RC Modèle de recherche dinformation basé sur des supports de vocabulaires M= (ST, SVQ, SVD, RC) Support de types ST Utilisateur Besoin dinformation Corpus de documents Pertinence RequêteIndexation ? Modèle de requête Modèle de document Correspondance Support de vocabulaires de document SVD Support de vocabulaires de requête SVQ modèle

17 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 17 / 36 Expressivité Faible Forte Deux modèles expressifs Expressivité forte Niveau sémantique Vocabulaires complexes Même support de types Nom de concepts Nom de relations Vocabulaires de base proches Concepts Couples Relations C081(poumon) (C081(poumon), C022(cage thoracique)) (C081(poumon), partie de, C022(cage thoracique) ) ExhaustifSpécifique Portée des vocabulaires Portée des représentations de documents Document seul Vocabulaires

18 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 18 / 36 Modèle local Inspiré des graphes conceptuels Support de vocabulaires Graphe Conceptuel Pondéré Concepts Relations Relation de correspondance Projection des graphes conceptuels Degrés de correspondance partie de|0.32, 0.25 partie de | 0.4, 0.1 touche |0.82, 0.62 C081(poumon) | 0.4, 0.3 C003(plèvre) |0.6, 0.2 C022(cage thoracique) | 0.8, 0.5 ExhaustifSpécifique Portée des vocabulaires Portée des représentations de documents Document seul Vocabulaires

19 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 19 / 36 Modèle global Inspiré des modèles de langue (Ponte et Croft, 98) Support de vocabulaires de document Modélisation statistique du document : Concepts Couples Relations Support de vocabulaires de requête Un graphe : Concepts : Relations : Relation de correspondance Vraisemblance de la requête Probabilité de générer le graphe de la requête ExhaustifSpécifique Portée des vocabulaires Portée des représentations de documents Document seul Vocabulaires

20 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 20 / 36 Récapitulatif: Modélisation de lexpressivité Cadre de modélisationDeux modèles dexpressivité forte Modèle local Modèle global Modèle Supports de vocabulaires de requête Supports de vocabulaires de document Support de types Supports de vocabulaires de document Supports de vocabulaires de requête Supports de vocabulaires de document Supports de vocabulaires de requête RC

21 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 21 / 36 Plan État de lart à travers lexpressivité Modélisation de lexpressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche dinformation orientée précision Modèle intermédiaire Modèle local Modèle global Expérimentation Modèle intermédiaire Modèle local Modèle global Conclusion Contributions Perspectives

22 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 22 / 36 Système orienté précision Modèle intermédiaire Modèle local Modèle global Instanciation au texte Application au médical représentation intermédiaire Corpus de documents Représentation & Correspondance Représentation & Correspondance UMLS détection

23 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 23 / 36 Modèle intermédiaire Ensemble de graphes Un par phrase Support de vocabulaire Concepts Relations Utilise deux pondérations Fréquence Score de confiance Défini à laide dUMLS (Unified Medical Language System) Concepts : méta-thésaurus Relations : réseau sémantique partie de|1,0.25 partie de | 1,0.1 touche |1,0.62 C081(poumon) | 2,0.3 C003(plèvre) |1,0.2 C022(cage thoracique) | 1,0.5

24 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 24 / 36 Détection des concepts : 3 méthodes MapTreeTagger Analyse morphosyntaxique TreeTagger Correspondance de termes MapMiniPar Analyse morphosyntaxique MiniPar Correspondance de termes MetaMap (Aronson, 2001) Détection des relations Détection au niveau de la phrase Calcul dun score de confiance a posteriori sur MapMiniPar Méthodes de détection de la représentation intermédiaire UMLS Détection des conceptsDétection des relations phrase représentation intermédiaire

25 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 25 / 36 Modèle local Représentation Concaténation des graphes de phrases Deux pondérations pour les relations et les concepts Un poids (tf-idf) Un score de confiance Correspondance Intersection de graphe Pondération de lintersection Sans ou sans score de confiance Modèle local représentation intermédiaire Représentation & Correspondance Supports de vocabulaires

26 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 26 / 36 Modèle global Représentation Modélisation de lensemble des graphes de phrases Estimation du modèle Probabilité des concepts, des couples et des relations Lissage avec la collection Correspondance Probabilité de la requête Plusieurs modèles Sans étiquette Avec étiquettes Modèle global Supports de vocabulaires représentation intermédiaire Représentation & Correspondance

27 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 27 / 36 Plan État de lart à travers lexpressivité Modélisation de lexpressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche dinformation orientée précision Modèle intermédiaire Modèle local Modèle global Expérimentation Modèle intermédiaire Modèle local Modèle global Conclusion Contributions Perspectives

28 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 28 / 36 Plan dexpérimentation Mise en œuvre Collection CLEF médicale ( ) 85 requêtes documents Ressources UMLS 1 million de concepts pour 5 millions de termes 54 relations sémantiques Mesures Précision moyenne Précision à 5 documents Expériences Modèle intermédiaire Détection des concepts Modèle local Méthode MapMiniPar (avec confiance sur les relations) Modèle global Avec étiquettes

29 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 29 / 36 Modèle intermédiaire : détection des concepts Détection des concepts MapTreeTagger Correspondance Filtrages Comparaison des méthodes

30 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 30 / 36 Précision moyenne Collection CLEF médical 2005 niveau diagnostic (tf) Précision à 5 documents Collection CLEF médical 2005 niveau diagnostic (tf) Modèle localModèle intermédiaire Modèle local : MapMiniPar avec confiance(relation) Modèle localModèle intermédiaire

31 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 31 / 36 Précision moyenne Collection CLEF médical 2005 et 2006 Précision à 5 documents Collection CLEF médical 2005 et 2006 Modèle Global : avec étiquettes

32 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 32 / 36 Comparaison des deux modèles Meilleurs résultats des deux méthodes Collection CLEF médical 2006 Résultats Précisions moyennes fortement différentes Précisions à 5 documents proches Modèles Modèle global : adapté à des corpus stables Modèle local : bons résultats sur les premiers documents

33 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 33 / 36 Plan État de lart à travers lexpressivité Modélisation de lexpressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche dinformation orientée précision Modèle intermédiaire Modèle local Modèle global Expérimentation Modèle intermédiaire Modèle local Modèle global Conclusion Contributions Perspectives

34 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 34 / 36 Contributions (1/2) Niveau modélisation Proposition dun cadre générique pour la modélisation de lexpressivité Supports de vocabulaires Espace de positionnement Description de deux modèles dans ce cadre Modèle local Modèle global Niveau traitement Méthodes dextraction de graphe Sur-ensemble, améliore les mots-clefs Score de confiance Améliore les résultats notamment en précision Méthode générique en deux étapes Non supervisé Meilleurs résultats à CLEF 2007 sur la tâche médicale

35 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 35 / 36 Contributions (2/2) Niveau développements Programmation modulaire Basée sur XIOTA (Chevallet, 2004) Facilite les expérimentations Implémentation des modèles Détection des graphes Création des représentations finales Correspondance Exécution rapide Niveau expérimentations Différentes variations de chaque modèle Application des modèles au niveau syntaxique Participation à différentes campagnes dévaluation CLEF05, recherche dinformation multilingue DEFT05, attribution de discours DEFT06, segmentation CLEF07, recherche dinformation médicale

36 Introduction Contexte Objectifs État de lart Modélisation Cadre Modèle local Modèle global Application Modèle interm Modèle local Modèle global Expérimentation Modèle interm Modèle local Modèle global Conclusion Contributions Perspectives PLAN Loïc MAISONNASSE Page 36 / 36 Perspectives Court terme Détection des graphes Améliorer lextraction des concepts et des relations Utiliser la complémentarité des méthodes Calcul de scores de confiance Modèle Relations lexicales Score de confiance (modèle global) Autres corpus Long terme Élargir les applications Autres domaines Autres medias Explorer lespace de positionnement

37 MERCI


Télécharger ppt "Les supports de vocabulaires pour les systèmes de recherche dinformation orientés précision : application aux graphes pour la recherche dinformation médicale."

Présentations similaires


Annonces Google