Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision : application aux graphes pour la recherche d’information médicale Soutenance de thèse Loïc Maisonnasse Sous la direction de Catherine Berrut et Jean-Pierre Chevallet Équipe MRIM, laboratoire LIG Le 6 mai 2008 Dire à l’oral –IPAL et UPMF
Contexte Recherche d’information orientée précision Des besoins experts et ciblés Des besoins multilingues Les mots-clés ne suffisent plus Besoin d’expressivité Modéliser l’expressivité Comparer les modèles Choisir le modèle approprié Supports de vocabulaires "Montre-moi des images d'une pneumonie du lobe médial droit." Cette thèse se situe dans le contexte de recherche d’information orienté précision. En effet dans des domaines comme dans des domaines professionnels les utilisateur expriment des besoins d’information expert. c’est à dire détaillé et mettant en jeux de termes complexes et des relations entre ces termes et qui nécessite des réponse précises dans plusieurs langues. Pour résoudre ce type de requête représenter les document seulement à l’aide de mots ne suffit plus Par exemple sur la requête « » les mots clefs ne permettent pas de retrouver les bonne réponse Pour résoudre ces requêtes expressive il est nécessaire exprimer plus d’information que celles représenté par les simples mots clefs par exemple des groupes de mots ou des relations entre mots. Cela conduit à utiliser des représentations d’expressivité forte. L’expressivité d’une représentation de RI représente ce qu’elle est capable de décrire. Nous proposons de modéliser cette expressivité En RI ….
Je suis à la recherche des dangers des plombages au mercure chez l’enfant document Mots clefs Ensemble de mots Relations Le mercure sans danger Les amalgames dentaires contenant du mercure ne présentent pas de risques pour la santé des enfants. mercure, danger, amalgame, dentaire, enfant, … {danger, risque…} {amalgame dentaire, plombage…} {mercure, vif-argent…} (danger - enfant) (plombage - mercure) (plombage - enfant) (mercure - danger) … La nocivité du mercure Le mercure se retrouve concentré dans les poissons. Les plombages dentaires peuvent aussi en libérer. nocivité, mercure, poisson, plombage, dentaire, … {nocivité, danger …}, {amalgame dentaire, plombage …} {mercure, vif-argent…} (nocivité - mercure) (plombage - mercure) … Le danger des piles Elle contient du mercure qui produit des vapeurs toxiques pour l’enfant. Les piles au plomb danger, mercure, vapeur, enfant, plomb, … {danger, risque …} {toxique, poison}, {plomb,Pb…} … (danger - pile) (Mercure - toxique) (toxique - enfant) (pile - plomb) … En recherche d’information les documents peuvent être représenté de différentes manières, ces représentation possédent des expressivitées différentes et impact sur la pertinence système des documents en RI. Prenons le cas de la requête « » pour cette requête l’utilisateur identifie un certains nombre de document pertinent et d’autre non, cela dans plusieurs langues En recherche d’information la pertinence dépend du point de vue utiliser. Dans un système peu expressif qui utilise les mots clefs comme présenté ici … C’est point de vue peuvent exprimer plus ou moins d’informations ( les mots clef peu, le groupe de mots ou le relation +) Combiner les différents points de vue Mercury in Fillings Mercury in dental work does not hinder children's development. mercury, filling, hinder, children, ... {filling, dental work, plombage, …} {mercury,mercure...} {children, enfant…} (plombage - mercure) (Mercure - enfant) …
Rendre compte de l’expressivité Plusieurs points de vue L’espace d’expression de chacun de ces points de vue. Modéliser l’expressivité par des supports de vocabulaires Plusieurs vocabulaires Vocabulaire Mots-Clefs Langages complexes Faible Forte Expressivité Au final l’expressivité d’une représentation est définie par le nombre de points de vue qu’elle utilise et par l’espace d’expression de ces point de vue Nous simplifions la représentation de l’expressivité sur un axe qui relie les systèmes a expressivité faible tel que les mots clefs habituellement utiliser en RI et les modèles a expressivité forte tel que les langues complexes qui mixent plus point de vue (ex les graphe conceptuels) Pour modèliser l’expressivité, nous proposons …
Objectifs de la thèse Modéliser l’expressivité en recherche d’information Proposer des modèles à expressivité forte Modèle de recherche d’information Local Modèle de recherche d’information Global Appliquer ces modèles à la recherche d’information Modélisation de l’expressivité Modèles à expressivité forte Application des modèles Support de vocabulaires Cadre de Modélisation Pour modéliser et utiliser l’expressivité dans les systèmes de ri orienté précision nous suivons les trois objectifs suivant : Nous proposons une modélisation des modèle de RI qui utilisent les SV pour rendre compte de l’expressivité Ces deux modèle ont des elements communs car il utilisent un même niveau d’expressivité, par contre ils utilisent les support de vocabulaire de façon différentes Sur ces modèles nous …. Modèle global Modèle local Système de recherche d’information orienté précision
L’expressivité dans les modèles de recherche d’information ? Pertinence Utilisateur Besoin d’information Corpus de documents Modèle de requête Modèle de document modèle Support de vocabulaires Support de vocabulaires En recherche d’information le modèle de RI et utiliser pour traduire les besoin de l’utilisateur en requête cela en utilisant un modèle de requête Cette requête et ensuit emise en correspondance avec une indexation obtenue à partie du corpus de document et en appliquant un modèle de document Dans un tel système l’expresivité doit être prise en compte au niveau du modèle de la requête et du document ainsi que lors de la coress en ces deux Nous proposons ici d’utiliser des support de voc pour representer ces deux modèles Correspondance Requête Indexation Expressivité
Explorer les possibilités du support de vocabulaires Deux modèles Portée des représentations de documents Document seul Vocabulaires Modèle global Modèle local l’utilisation des support de vocabulaire permet d’explorer de nouvelles méthodes de positionnement des modèles en complément de l’axe de l’expressivité, Un premier axe positionne les modèles en fonction de la porté de leur vocabulaires Un deuxième axe positionne Sur ces deux axes nous proposons deux modèles opposé qui correspondent à des modèles de RI existant.… Exhaustif Spécifique Portée des vocabulaires Expressivité
Application des modèles à la recherche d’information orienté précision Modélisation de l’expressivité Système orienté précision Cadre de modélisation Deux Modèles d’expressivité forte Instanciation au texte Application au médical Représentation & Correspondance Modèle local Modèle intermédiaire Modèle Corpus de documents Corpus de documents Représentation intermédiaire Enfin pour mettre en ouvre des systèmes orienté précision, après avoir définit le cadre de modélisation et les deux modèle qui l’utilise, nous proposons un processus en deux étapes La première dépendante du domaine, dans notre cas le domaine médicale, génère une représentation intermédiaire des documents La seconde indépendante du domaine génère les représentation finales des documents a partir de la représentation intermédiaire. Supports de vocabulaires Modèle global Représentation & Correspondance
Plan État de l’art à travers l’expressivité Modélisation de l’expressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche d’information orientée précision Modèle intermédiaire Expérimentation Conclusion Contributions Perspectives Nous explorons l’art de l’art à travers l’axe de l’expressivité
La dimension expressivité en recherche d’information (Gaussier et al., 2000) (Strzalkowski et al., 1994) (Zhai et al., 1997) (Losee, 1994) (Lee et Lee, 2005) (Nallapati et Allan, 2002) (Gao et al., 2004) Modèles intégrant la dépendance Informations sémantiques Informations syntaxiques Familles de langages d’indexation en recherche d’information Syntagmes Structure sémantique Structures syntaxiques Concepts Mots-Clefs Nous explorons l’état de l’art à travers l’expressivité, sur cette axe les modèles de RI les + utiliser, ceux à base de mots clefs constituent des modèles peu expressifs. Faible Forte Expressivité (Sebastiani, 1994) (Berrut, 1988) (Chevallet, 1992) (Genest, 2000) (Mulhem, 2001) (Ho, 2004) (Matsumura et al., 2000) (Metzler et Haas, 1989) (Smeaton, 1999) (Vintar et al., 2003) (Aronson et al., 1994)
Bilan Comparer l’expressivité des modèles est difficile Quels sont les vocabulaires ? Quel est leur espace d’expression ? Comment sont-ils utilisés ? Modéliser l’expressivité Pour la recherche d’information orientée précision Plusieurs vocabulaires Forte expressivité Graphe de concepts Difficulté d’extraction En bilan de cet état de l’art nous Faible Forte Expressivité
Plan État de l’art à travers l’expressivité Modélisation de l’expressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche d’information orientée précision Modèle intermédiaire Expérimentation Conclusion Contributions Perspectives
Modélisation de l’expressivité en recherche d’information Cadre de modélisation Deux Modèles d’expressivité forte Modèle local Modèle Supports de vocabulaires Modèle global
Support de vocabulaires Vocabulaire simple C081(poumon) C022(cage thoracique),… Support de vocabulaires Vocabulaire complexe ( (C081(poumon), partie de, C022(cage thoracique))… V1 V2 V3 vocabulaires Vocabulaire pondéré ( (C081(poumon), partie de, C022(cage thoracique)), 0.4, 0.7) … SV=(V1, V2, …,Vn) Nom de concept C003(plèvre), C001(cœur), C022(cage thoracique),… T1 T2 types Support de types Nom de relation localisation, mesure, partie de, touche, … ST=(T1, T2, …,Tn)
Représenter à l’aide d’un support de vocabulaires Définir le support de vocabulaire de la représentation Un ou plusieurs vocabulaires Définir la représentation Sélection sur les vocabulaires Exemple de document indexé à l’aide d’un support de vocabulaire
Modèle de recherche d’information basé sur des supports de vocabulaires ? Pertinence Utilisateur Besoin d’information Corpus de documents Support de types ST modèle Support de vocabulaires de requête SVQ Support de vocabulaires de document SVD Modèle de requête Modèle de document Relation de correspondance RC Correspondance Requête Indexation M= (ST, SVQ, SVD, RC)
Deux modèles expressifs Expressivité forte Niveau sémantique Vocabulaires complexes Même support de types Nom de concepts Nom de relations Vocabulaires de base proches Concepts Couples Relations Portée des représentations de documents Expressivité Faible Forte Vocabulaires Document seul Portée des vocabulaires Exhaustif Spécifique C081(poumon) (C081(poumon), C022(cage thoracique)) (C081(poumon), partie de, C022(cage thoracique) )
Portée des représentations de documents Modèle local Vocabulaires Inspiré des graphes conceptuels Support de vocabulaires Graphe Conceptuel Pondéré Concepts Relations Relation de correspondance Projection des graphes conceptuels Degrés de correspondance Document seul Portée des vocabulaires Exhaustif Spécifique touche |0.82, 0.62 C081(poumon) | 0.4, 0.3 C003(plèvre) |0.6, 0.2 partie de | 0.4, 0.1 Intuition derrière le modèle C022(cage thoracique) | 0.8, 0.5 partie de|0.32, 0.25
Portée des représentations de documents Modèle global Vocabulaires Inspiré des modèles de langue (Ponte et Croft, 98) Support de vocabulaires de document Modélisation statistique du document : Concepts Couples Relations Support de vocabulaires de requête Un graphe : Concepts : Relations : Relation de correspondance Vraisemblance de la requête Probabilité de générer le graphe de la requête Document seul Portée des vocabulaires Exhaustif Spécifique RC : faire le parallèle avec les modèle de langue
Récapitulatif: Modélisation de l’expressivité Cadre de modélisation Deux modèles d’expressivité forte Modèle local Supports de vocabulaires de requête Supports de vocabulaires de document RC Modèle Support de types Support de types Supports de vocabulaires de requête Supports de vocabulaires de document Même expressivité ce qui ce traduit par l’utilisation d’un support de type commun aux deux modèles Supports de vocabulaires de requête Supports de vocabulaires de document RC RC Modèle global
Plan État de l’art à travers l’expressivité Modélisation de l’expressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche d’information orientée précision Modèle intermédiaire Expérimentation Conclusion Contributions Perspectives
Système orienté précision Instanciation au texte Application au médical Représentation & Correspondance Modèle local Modèle intermédiaire UMLS représentation intermédiaire détection Corpus de documents Modèle global Représentation & Correspondance
Modèle intermédiaire Ensemble de graphes Utilise deux pondérations Un par phrase Support de vocabulaire Concepts Relations Utilise deux pondérations Fréquence Score de confiance Défini à l’aide d’UMLS (Unified Medical Language System) Concepts : méta-thésaurus Relations : réseau sémantique C081(poumon) | 2 ,0.3 touche |1,0.62 C003(plèvre) |1,0.2 partie de | 1,0.1 partie de|1,0.25 C022(cage thoracique) | 1,0.5
Méthodes de détection de la représentation intermédiaire UMLS Détection des concepts : 3 méthodes MapTreeTagger Analyse morphosyntaxique TreeTagger Correspondance de termes MapMiniPar Analyse morphosyntaxique MiniPar MetaMap (Aronson, 2001) Détection des relations Détection au niveau de la phrase Calcul d’un score de confiance a posteriori sur MapMiniPar représentation intermédiaire phrase Détection des concepts Détection des relations Décrire les unes après les autres + expliquer la complementarité
Modèle local Représentation Correspondance Modèle local Concaténation des graphes de phrases Deux pondérations pour les relations et les concepts Un poids (tf-idf) Un score de confiance Correspondance Intersection de graphe Pondération de l’intersection Sans ou sans score de confiance Modèle local Supports de vocabulaires représentation intermédiaire
Modèle global Représentation Correspondance Modèle global intermédiaire Représentation Modélisation de l’ensemble des graphes de phrases Estimation du modèle Probabilité des concepts, des couples et des relations Lissage avec la collection Correspondance Probabilité de la requête Plusieurs modèles Sans étiquette Avec étiquettes Modèle global Supports de vocabulaires Représentation & Correspondance
Plan État de l’art à travers l’expressivité Modélisation de l’expressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche d’information orientée précision Modèle intermédiaire Expérimentation Conclusion Contributions Perspectives
Plan d’expérimentation Mise en œuvre Collection CLEF médicale (2005-07) 85 requêtes 50 000 documents Ressources UMLS 1 million de concepts pour 5 millions de termes 54 relations sémantiques Mesures Précision moyenne Précision à 5 documents Expériences Modèle intermédiaire Détection des concepts Modèle local Méthode MapMiniPar (avec confiance sur les relations) Modèle global Avec étiquettes Requête + documents
Modèle intermédiaire : détection des concepts Détection des concepts MapTreeTagger Correspondance Filtrages Comparaison des méthodes Nous présentons ici le résultats obtenus pour … Decrire les expérimentation = en vert les meilleurs résultats Dire qu’il n’y a que très peu de différences
Modèle local : MapMiniPar avec confiance(relation) Précision moyenne Collection CLEF médical 2005 niveau diagnostic (tf) Précision à 5 documents Collection CLEF médical 2005 niveau diagnostic (tf) Modèle intermédiaire Modèle local Modèle intermédiaire Modèle local
Modèle Global : avec étiquettes Précision moyenne Collection CLEF médical 2005 et 2006 Précision à 5 documents Collection CLEF médical 2005 et 2006 MapMiniPar donne de meilleur résultats car il détecte des termes complexes
Comparaison des deux modèles Meilleurs résultats des deux méthodes Collection CLEF médical 2006 Résultats Précisions moyennes fortement différentes Précisions à 5 documents proches Modèles Modèle global : adapté à des corpus stables Modèle local : bons résultats sur les premiers documents Tout dans le même tableau
Plan État de l’art à travers l’expressivité Modélisation de l’expressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche d’information orientée précision Modèle intermédiaire Expérimentation Conclusion Contributions Perspectives
Contributions (1/2) Niveau modélisation Niveau traitement Proposition d’un cadre générique pour la modélisation de l’expressivité Supports de vocabulaires Espace de positionnement Description de deux modèles dans ce cadre Modèle local Modèle global Niveau traitement Méthodes d’extraction de graphe Sur-ensemble, améliore les mots-clefs Score de confiance Améliore les résultats notamment en précision Méthode générique en deux étapes Non supervisé Meilleurs résultats à CLEF 2007 sur la tâche médicale DIRE + que ce qui est ecris
Contributions (2/2) Niveau développements Niveau expérimentations Programmation modulaire Basée sur XIOTA (Chevallet, 2004) Facilite les expérimentations Implémentation des modèles Détection des graphes Création des représentations finales Correspondance Exécution rapide Niveau expérimentations Différentes variations de chaque modèle Application des modèles au niveau syntaxique Participation à différentes campagnes d’évaluation CLEF’05, recherche d’information multilingue DEFT’05, attribution de discours DEFT’06, segmentation CLEF’07, recherche d’information médicale DIRE + que ce qui est ecris
Perspectives Court terme Long terme Détection des graphes Modèle Améliorer l’extraction des concepts et des relations Utiliser la complémentarité des méthodes Calcul de scores de confiance Modèle Relations lexicales Score de confiance (modèle global) Autres corpus Long terme Élargir les applications Autres domaines Autres medias Explorer l’espace de positionnement DIRE + que ce qui est ecris
MERCI