Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision : application aux graphes pour la recherche d’information.

Slides:



Advertisements
Présentations similaires
Le Nom L’adjectif Le verbe Objectif: Orthogram
Advertisements

LES NOMBRES PREMIERS ET COMPOSÉS
1. Résumé 2 Présentation du créateur 3 Présentation du projet 4.
Fabrice Lauri, François Charpillet, Daniel Szer
Licence pro MPCQ : Cours
Faculté des Sciences de la Santé
Distance inter-locuteur
1 TCHAD ATELIER PARIS21 SUR LUTILISATION DES STATISTIQUES DANS LES POLITIQUES DE LUTTE CONTRE LA PAUVRETE ET DE DEVELOPPEMENT Yaoundé 09-11/12/02 Producteurs.
1 COMMISSION AFRICAINE DES STATISTIQUES AGRICOLES (AFCAS) Accra, Ghana, 28 – 31 Octobre 2009 Paul NGOMA-KIMBATSA Statisticien Division de la Statistique.
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Classe : …………… Nom : …………………………………… Date : ………………..
Reconnaissance de la parole
Est Ouest Sud 11 1 Nord 1 Laval Du Breuil, Adstock, Québec I-17-17ACBLScore S0417 Allez à 1 Est Allez à 4 Sud Allez à 3 Est Allez à 2 Ouest RndNE
Sud Ouest Est Nord Individuel 36 joueurs
Les 3 dimensio ns de la morale et de léthique (activité)
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Indicateurs de position
La diapo suivante pour faire des algorithmes (colorier les ampoules …à varier pour éviter le « copiage ») et dénombrer (Entoure dans la bande numérique.
ESIEE Paris © Denis BUREAU I N Initiation à la programmation avec le langage Java.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Sélection automatique d’index et de vues matérialisées
Améliorer les performances du chiffrage à flot SYND
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
1 Bienvenue! Ministère de lEmploi et de la Solidarité sociale Direction des ressources humaines La conduite dun projet de refonte dun intranet Pascale.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
Application des algorithmes génétiques
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Karin Lundgren-Cayrol
1 SERVICE PUBLIC DE LEMPLOI REGION ILE DE France Tableau de bord Juillet- Août 2007.
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
OLAP : Un pas vers la navigation
Le concours d’ingénieur territorial 2006
Titre : Implémentation des éléments finis sous Matlab
Les quartiers Villeray – La Petite-Patrie et les voisinages
Université Mouloud Mammeri de Tizi-Ouzou
La voyage de Jean Pierre
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
La Saint-Valentin Par Matt Maxwell.
Interprétation de séquences dimages pour des applications MédiaSpace Alberto AVANZI François BREMOND Monique THONNAT Projet ORION INRIA de Sophia Antipolis.
1 Enseigner les mathématiques grâce à lenvironnement Cabri UREM UNIVERSITE LIBRE DE BRUXELLES 18 Avril 2007 Enseigner les mathématiques grâce à lenvironnement.
Graphe d ’interaction La réalisation du graphe d ’interaction permet d ’assurer l'uniformité des pages et de navigation qui rendent un projet plus fonctionnel.
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
Universté de la Manouba
Ecaterina Giacomini Pacurar
Tournoi de Flyball Bouin-Plumoison 2008 Tournoi de Flyball
Notre calendrier français MARS 2014
Annexe 1 VISITE SUR
Titre : Implémentation des éléments finis en Matlab
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
C'est pour bientôt.....
Veuillez trouver ci-joint
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
Équipe 2626 Octobre 2011 Jean Lavoie ing. M.Sc.A.
LA GESTION COLLABORATIVE DE PROJETS Grâce aux outils du Web /03/2011 Académie de Créteil - Nadine DUDRAGNE 1.
2 Industrialisation des développements sur SQL Server avec Visual Studio 2010 Mardi 8 Février – 17h30 Karim Zegour – Winwise Michel Perfetti – MVP VS.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
LUNDI – MARDI – MERCREDI – JEUDI – VENDREDI – SAMEDI – DIMANCHE
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
ECOLE DES HAUTES ETUDES COMMERCIALES MARKETING FONDAMENTAL
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
CALENDRIER-PLAYBOY 2020.
1. Présentation générale du système
1 L’évaluation de l’Entente entre le MCC et les CRC 19 mai 2005 Colloque SQEP Les résultats générés par la performance organisationnelle.
Les Chiffres Prêts?
Présentation Finale Spirit 07 / 03 / 2011 Groupe Vert 1 Equipe Verte.
Transcription de la présentation:

Les supports de vocabulaires pour les systèmes de recherche d’information orientés précision : application aux graphes pour la recherche d’information médicale Soutenance de thèse Loïc Maisonnasse Sous la direction de Catherine Berrut et Jean-Pierre Chevallet Équipe MRIM, laboratoire LIG Le 6 mai 2008 Dire à l’oral –IPAL et UPMF

Contexte Recherche d’information orientée précision Des besoins experts et ciblés Des besoins multilingues Les mots-clés ne suffisent plus  Besoin d’expressivité Modéliser l’expressivité Comparer les modèles Choisir le modèle approprié  Supports de vocabulaires "Montre-moi des images d'une pneumonie du lobe médial droit."  Cette thèse se situe dans le contexte de recherche d’information orienté précision. En effet dans des domaines comme dans des domaines professionnels les utilisateur expriment des besoins d’information expert. c’est à dire détaillé et mettant en jeux de termes complexes et des relations entre ces termes et qui nécessite des réponse précises dans plusieurs langues. Pour résoudre ce type de requête représenter les document seulement à l’aide de mots ne suffit plus Par exemple sur la requête «  » les mots clefs ne permettent pas de retrouver les bonne réponse Pour résoudre ces requêtes expressive il est nécessaire exprimer plus d’information que celles représenté par les simples mots clefs par exemple des groupes de mots ou des relations entre mots. Cela conduit à utiliser des représentations d’expressivité forte. L’expressivité d’une représentation de RI représente ce qu’elle est capable de décrire. Nous proposons de modéliser cette expressivité En RI ….

Je suis à la recherche des dangers des plombages au mercure chez l’enfant document Mots clefs Ensemble de mots Relations Le mercure sans danger Les amalgames dentaires contenant du mercure ne présentent pas de risques pour la santé des enfants. mercure, danger, amalgame, dentaire, enfant, … {danger, risque…} {amalgame dentaire, plombage…} {mercure, vif-argent…} (danger - enfant) (plombage - mercure) (plombage - enfant) (mercure - danger) …    La nocivité du mercure Le mercure se retrouve concentré dans les poissons. Les plombages dentaires peuvent aussi en libérer. nocivité, mercure, poisson, plombage, dentaire, … {nocivité, danger …}, {amalgame dentaire, plombage …} {mercure, vif-argent…} (nocivité - mercure) (plombage - mercure) …    Le danger des piles Elle contient du mercure qui produit des vapeurs toxiques pour l’enfant. Les piles au plomb danger, mercure, vapeur, enfant, plomb, … {danger, risque …} {toxique, poison}, {plomb,Pb…} … (danger - pile) (Mercure - toxique) (toxique - enfant) (pile - plomb) … En recherche d’information les documents peuvent être représenté de différentes manières, ces représentation possédent des expressivitées différentes et impact sur la pertinence système des documents en RI. Prenons le cas de la requête «  » pour cette requête l’utilisateur identifie un certains nombre de document pertinent et d’autre non, cela dans plusieurs langues En recherche d’information la pertinence dépend du point de vue utiliser. Dans un système peu expressif qui utilise les mots clefs comme présenté ici … C’est point de vue peuvent exprimer plus ou moins d’informations ( les mots clef peu, le groupe de mots ou le relation +) Combiner les différents points de vue    Mercury in Fillings Mercury in dental work does not hinder children's development. mercury, filling, hinder, children, ... {filling, dental work, plombage, …} {mercury,mercure...} {children, enfant…} (plombage - mercure) (Mercure - enfant) …   

Rendre compte de l’expressivité Plusieurs points de vue L’espace d’expression de chacun de ces points de vue. Modéliser l’expressivité par des supports de vocabulaires Plusieurs vocabulaires Vocabulaire Mots-Clefs Langages complexes Faible Forte Expressivité Au final l’expressivité d’une représentation est définie par le nombre de points de vue qu’elle utilise et par l’espace d’expression de ces point de vue Nous simplifions la représentation de l’expressivité sur un axe qui relie les systèmes a expressivité faible tel que les mots clefs habituellement utiliser en RI et les modèles a expressivité forte tel que les langues complexes qui mixent plus point de vue (ex les graphe conceptuels) Pour modèliser l’expressivité, nous proposons …

Objectifs de la thèse Modéliser l’expressivité en recherche d’information Proposer des modèles à expressivité forte Modèle de recherche d’information Local Modèle de recherche d’information Global Appliquer ces modèles à la recherche d’information Modélisation de l’expressivité Modèles à expressivité forte Application des modèles Support de vocabulaires Cadre de Modélisation Pour modéliser et utiliser l’expressivité dans les systèmes de ri orienté précision nous suivons les trois objectifs suivant : Nous proposons une modélisation des modèle de RI qui utilisent les SV pour rendre compte de l’expressivité Ces deux modèle ont des elements communs car il utilisent un même niveau d’expressivité, par contre ils utilisent les support de vocabulaire de façon différentes Sur ces modèles nous …. Modèle global Modèle local Système de recherche d’information orienté précision

L’expressivité dans les modèles de recherche d’information ? Pertinence Utilisateur Besoin d’information Corpus de documents Modèle de requête Modèle de document modèle Support de vocabulaires Support de vocabulaires En recherche d’information le modèle de RI et utiliser pour traduire les besoin de l’utilisateur en requête cela en utilisant un modèle de requête Cette requête et ensuit emise en correspondance avec une indexation obtenue à partie du corpus de document et en appliquant un modèle de document Dans un tel système l’expresivité doit être prise en compte au niveau du modèle de la requête et du document ainsi que lors de la coress en ces deux Nous proposons ici d’utiliser des support de voc pour representer ces deux modèles Correspondance Requête Indexation Expressivité

Explorer les possibilités du support de vocabulaires Deux modèles Portée des représentations de documents Document seul Vocabulaires Modèle global Modèle local l’utilisation des support de vocabulaire permet d’explorer de nouvelles méthodes de positionnement des modèles en complément de l’axe de l’expressivité, Un premier axe positionne les modèles en fonction de la porté de leur vocabulaires Un deuxième axe positionne Sur ces deux axes nous proposons deux modèles opposé qui correspondent à des modèles de RI existant.… Exhaustif Spécifique Portée des vocabulaires Expressivité

Application des modèles à la recherche d’information orienté précision Modélisation de l’expressivité Système orienté précision Cadre de modélisation Deux Modèles d’expressivité forte Instanciation au texte Application au médical Représentation & Correspondance Modèle local Modèle intermédiaire Modèle Corpus de documents Corpus de documents Représentation intermédiaire Enfin pour mettre en ouvre des systèmes orienté précision, après avoir définit le cadre de modélisation et les deux modèle qui l’utilise, nous proposons un processus en deux étapes La première dépendante du domaine, dans notre cas le domaine médicale, génère une représentation intermédiaire des documents La seconde indépendante du domaine génère les représentation finales des documents a partir de la représentation intermédiaire. Supports de vocabulaires Modèle global Représentation & Correspondance

Plan État de l’art à travers l’expressivité Modélisation de l’expressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche d’information orientée précision Modèle intermédiaire Expérimentation Conclusion Contributions Perspectives Nous explorons l’art de l’art à travers l’axe de l’expressivité

La dimension expressivité en recherche d’information (Gaussier et al., 2000) (Strzalkowski et al., 1994) (Zhai et al., 1997) (Losee, 1994) (Lee et Lee, 2005) (Nallapati et Allan, 2002) (Gao et al., 2004) Modèles intégrant la dépendance Informations sémantiques Informations syntaxiques Familles de langages d’indexation en recherche d’information Syntagmes Structure sémantique Structures syntaxiques Concepts Mots-Clefs Nous explorons l’état de l’art à travers l’expressivité, sur cette axe les modèles de RI les + utiliser, ceux à base de mots clefs constituent des modèles peu expressifs. Faible Forte Expressivité (Sebastiani, 1994) (Berrut, 1988) (Chevallet, 1992) (Genest, 2000) (Mulhem, 2001) (Ho, 2004) (Matsumura et al., 2000) (Metzler et Haas, 1989) (Smeaton, 1999) (Vintar et al., 2003) (Aronson et al., 1994)

Bilan Comparer l’expressivité des modèles est difficile Quels sont les vocabulaires ? Quel est leur espace d’expression ? Comment sont-ils utilisés ?  Modéliser l’expressivité Pour la recherche d’information orientée précision Plusieurs vocabulaires Forte expressivité Graphe de concepts Difficulté d’extraction En bilan de cet état de l’art nous Faible Forte Expressivité

Plan État de l’art à travers l’expressivité Modélisation de l’expressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche d’information orientée précision Modèle intermédiaire Expérimentation Conclusion Contributions Perspectives

Modélisation de l’expressivité en recherche d’information Cadre de modélisation Deux Modèles d’expressivité forte Modèle local Modèle Supports de vocabulaires Modèle global

Support de vocabulaires Vocabulaire simple C081(poumon) C022(cage thoracique),… Support de vocabulaires Vocabulaire complexe ( (C081(poumon), partie de, C022(cage thoracique))… V1 V2 V3 vocabulaires Vocabulaire pondéré ( (C081(poumon), partie de, C022(cage thoracique)), 0.4, 0.7) … SV=(V1, V2, …,Vn) Nom de concept C003(plèvre), C001(cœur), C022(cage thoracique),… T1 T2 types Support de types Nom de relation localisation, mesure, partie de, touche, … ST=(T1, T2, …,Tn)

Représenter à l’aide d’un support de vocabulaires Définir le support de vocabulaire de la représentation Un ou plusieurs vocabulaires Définir la représentation Sélection sur les vocabulaires Exemple de document indexé à l’aide d’un support de vocabulaire

Modèle de recherche d’information basé sur des supports de vocabulaires ? Pertinence Utilisateur Besoin d’information Corpus de documents Support de types ST modèle Support de vocabulaires de requête SVQ Support de vocabulaires de document SVD Modèle de requête Modèle de document Relation de correspondance RC Correspondance Requête Indexation M= (ST, SVQ, SVD, RC)

Deux modèles expressifs Expressivité forte Niveau sémantique Vocabulaires complexes Même support de types Nom de concepts Nom de relations Vocabulaires de base proches Concepts Couples Relations Portée des représentations de documents Expressivité Faible Forte Vocabulaires Document seul Portée des vocabulaires Exhaustif Spécifique C081(poumon) (C081(poumon), C022(cage thoracique)) (C081(poumon), partie de, C022(cage thoracique) )

Portée des représentations de documents Modèle local Vocabulaires Inspiré des graphes conceptuels Support de vocabulaires Graphe Conceptuel Pondéré Concepts Relations Relation de correspondance Projection des graphes conceptuels Degrés de correspondance Document seul Portée des vocabulaires Exhaustif Spécifique touche |0.82, 0.62 C081(poumon) | 0.4, 0.3 C003(plèvre) |0.6, 0.2 partie de | 0.4, 0.1 Intuition derrière le modèle C022(cage thoracique) | 0.8, 0.5 partie de|0.32, 0.25

Portée des représentations de documents Modèle global Vocabulaires Inspiré des modèles de langue (Ponte et Croft, 98) Support de vocabulaires de document Modélisation statistique du document : Concepts Couples Relations Support de vocabulaires de requête Un graphe : Concepts : Relations : Relation de correspondance Vraisemblance de la requête Probabilité de générer le graphe de la requête Document seul Portée des vocabulaires Exhaustif Spécifique RC : faire le parallèle avec les modèle de langue

Récapitulatif: Modélisation de l’expressivité Cadre de modélisation Deux modèles d’expressivité forte Modèle local Supports de vocabulaires de requête Supports de vocabulaires de document RC Modèle Support de types Support de types Supports de vocabulaires de requête Supports de vocabulaires de document Même expressivité ce qui ce traduit par l’utilisation d’un support de type commun aux deux modèles Supports de vocabulaires de requête Supports de vocabulaires de document RC RC Modèle global

Plan État de l’art à travers l’expressivité Modélisation de l’expressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche d’information orientée précision Modèle intermédiaire Expérimentation Conclusion Contributions Perspectives

Système orienté précision Instanciation au texte Application au médical Représentation & Correspondance Modèle local Modèle intermédiaire UMLS représentation intermédiaire détection Corpus de documents Modèle global Représentation & Correspondance

Modèle intermédiaire Ensemble de graphes Utilise deux pondérations Un par phrase Support de vocabulaire Concepts Relations Utilise deux pondérations Fréquence Score de confiance Défini à l’aide d’UMLS (Unified Medical Language System) Concepts : méta-thésaurus Relations : réseau sémantique C081(poumon) | 2 ,0.3 touche |1,0.62 C003(plèvre) |1,0.2 partie de | 1,0.1 partie de|1,0.25 C022(cage thoracique) | 1,0.5

Méthodes de détection de la représentation intermédiaire UMLS Détection des concepts : 3 méthodes MapTreeTagger Analyse morphosyntaxique TreeTagger Correspondance de termes MapMiniPar Analyse morphosyntaxique MiniPar MetaMap (Aronson, 2001) Détection des relations Détection au niveau de la phrase Calcul d’un score de confiance a posteriori sur MapMiniPar représentation intermédiaire phrase Détection des concepts Détection des relations Décrire les unes après les autres + expliquer la complementarité

Modèle local Représentation Correspondance Modèle local Concaténation des graphes de phrases Deux pondérations pour les relations et les concepts Un poids (tf-idf) Un score de confiance Correspondance Intersection de graphe Pondération de l’intersection Sans ou sans score de confiance Modèle local Supports de vocabulaires représentation intermédiaire

Modèle global Représentation Correspondance Modèle global intermédiaire Représentation Modélisation de l’ensemble des graphes de phrases Estimation du modèle Probabilité des concepts, des couples et des relations Lissage avec la collection Correspondance Probabilité de la requête Plusieurs modèles Sans étiquette Avec étiquettes Modèle global Supports de vocabulaires Représentation & Correspondance

Plan État de l’art à travers l’expressivité Modélisation de l’expressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche d’information orientée précision Modèle intermédiaire Expérimentation Conclusion Contributions Perspectives

Plan d’expérimentation Mise en œuvre Collection CLEF médicale (2005-07) 85 requêtes 50 000 documents Ressources UMLS 1 million de concepts pour 5 millions de termes 54 relations sémantiques Mesures Précision moyenne Précision à 5 documents Expériences Modèle intermédiaire Détection des concepts Modèle local Méthode MapMiniPar (avec confiance sur les relations) Modèle global Avec étiquettes Requête + documents

Modèle intermédiaire : détection des concepts Détection des concepts MapTreeTagger Correspondance Filtrages Comparaison des méthodes Nous présentons ici le résultats obtenus pour … Decrire les expérimentation = en vert les meilleurs résultats Dire qu’il n’y a que très peu de différences

Modèle local : MapMiniPar avec confiance(relation) Précision moyenne Collection CLEF médical 2005 niveau diagnostic (tf) Précision à 5 documents Collection CLEF médical 2005 niveau diagnostic (tf) Modèle intermédiaire Modèle local Modèle intermédiaire Modèle local

Modèle Global : avec étiquettes Précision moyenne Collection CLEF médical 2005 et 2006 Précision à 5 documents Collection CLEF médical 2005 et 2006 MapMiniPar donne de meilleur résultats car il détecte des termes complexes

Comparaison des deux modèles Meilleurs résultats des deux méthodes Collection CLEF médical 2006 Résultats Précisions moyennes fortement différentes Précisions à 5 documents proches Modèles Modèle global : adapté à des corpus stables Modèle local : bons résultats sur les premiers documents Tout dans le même tableau

Plan État de l’art à travers l’expressivité Modélisation de l’expressivité basée sur les supports de vocabulaires Cadre de formalisation Modèle local Modèle global Application à la recherche d’information orientée précision Modèle intermédiaire Expérimentation Conclusion Contributions Perspectives

Contributions (1/2) Niveau modélisation Niveau traitement Proposition d’un cadre générique pour la modélisation de l’expressivité Supports de vocabulaires Espace de positionnement Description de deux modèles dans ce cadre Modèle local Modèle global Niveau traitement Méthodes d’extraction de graphe Sur-ensemble, améliore les mots-clefs Score de confiance Améliore les résultats notamment en précision Méthode générique en deux étapes Non supervisé Meilleurs résultats à CLEF 2007 sur la tâche médicale DIRE + que ce qui est ecris

Contributions (2/2) Niveau développements Niveau expérimentations Programmation modulaire Basée sur XIOTA (Chevallet, 2004) Facilite les expérimentations Implémentation des modèles Détection des graphes Création des représentations finales Correspondance Exécution rapide Niveau expérimentations Différentes variations de chaque modèle Application des modèles au niveau syntaxique Participation à différentes campagnes d’évaluation CLEF’05, recherche d’information multilingue DEFT’05, attribution de discours DEFT’06, segmentation CLEF’07, recherche d’information médicale DIRE + que ce qui est ecris

Perspectives Court terme Long terme Détection des graphes Modèle Améliorer l’extraction des concepts et des relations Utiliser la complémentarité des méthodes Calcul de scores de confiance Modèle Relations lexicales Score de confiance (modèle global) Autres corpus Long terme Élargir les applications Autres domaines Autres medias Explorer l’espace de positionnement DIRE + que ce qui est ecris

MERCI