La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Journée RIMO du WEB Intelligence

Présentations similaires


Présentation au sujet: "Journée RIMO du WEB Intelligence"— Transcription de la présentation:

1 Journée RIMO du WEB Intelligence
Utilisation de l’UMLS dans un modèle de recherche d’information basé sur réseau bayesien de concepts Journée RIMO du WEB Intelligence Thi Hoang Diem LE

2 Plan Introduction Utilisation de ressources externes dans RI UMLS
Un modèle d’indexation conceptuelle basé sur réseau Bayesien Utilisation de connaissance du problème pour améliorer la performance de RI Évaluation Application dans la recherche d’images médicaux Conclusion et perspective

3 Introduction Indexation Information Model bayesien des concepts
Par termes simple Morphologique Grammaticale Syntaxique + précise Par multi-termes Par syntagmes + synonyme Ontology, thésaurus… Par concepts UMLS +multilingual + liens sémantiques Model bayesien des concepts - mismatch

4 Utilisation de ressources externes dans RI et RI multilingue
Les types des resources Vocabulaire contrôlé Taxonomie Thésaurus Ontologie Utilisation de ressources externes dans RI et RIM Conceptuelle indexation (Gonzalo[1],…,Baziz[2], Loïc[3]) Expansion de la requete ou des documents (Voorheer[4], Rila[5],…) Change de la nature des documents et de la requête Risque d’ajouter des termes inutiles Mesures des similarités sémantiques (Leacock[6], Hirst[7], Resnik[8], Jiang[9], Lin[10],…)

5 UMLS (Unified Medical Language System )
NLM (National Library of Medicine) 1986 Objectives: Combiner différentes ressources dans le domaine biomedical (140). Faciliter les tâche des systèmes d’information (accès, recherche, intégrer, ...) Multilingual(17) Components: Metathesaurus (>1.1 million concepts) Semantic Network SPECIALIST lexicon Natural Language Processing tools

6 Structure de l’UMLS Réseau sémantique Méta thésaurus Sources ... SUI4
STY1 STY4 Type sémantique Concept Termes Strings Sources AUI5 AUI3 AUI4 AUI6 AUI1 SUI1 SUI2 SUI3 SUI5 LUI3 LUI4 LUI5 LUI2 CUI1 CUI2 CUI3 STY2 CUI4 STY3 CUI5 LUI1 AUI7 SUI6 ICD-9CM SNOMED AUI2 MESH NCI Atoms Méta thésaurus Réseau sémantique ...

7 Le schéma général du processus de RI
Proposition d’un modèle d’indexation conceptuelle basé sur réseau Bayesien Le schéma général du processus de RI Requête (concepts) Requête (texte) Extraction de concepts Documents (concepts) Documents (texte) UMLS d1 d2 dn d1 d2 dn c1 c2 cj q ck Extraction de Relations sémantiques c1 c2 cj cj ck q Documents retrouvés Prosessus d’inférence

8 Proposition d’un modèle d’indexation conceptuelle basé sur réseau Bayesien (cont.)
Reseau bayesien: graphe acyclique oriente Réseau de documents Nœuds : concepts Arcs: index Réseau de la requete Liens entre les concepts: relations sémantiques d2 d1 dn c1 c2 ci cj ck q

9 Proposition d’un modèle d’indexation conceptuelle basé sur réseau Bayesien(cont.)
Processus de d’inférence Initiation de la probabilité antérieure: un document dk est observé: P(dk)=1 dk d2 d1 c1 c2 cn 2. Inference de la probabilité entre les concepts cj cm 3. La probabilité postérieure ou la croyance de la requête q

10 Body Location or Region
Utilisation de connaissance du problème pour améliorer la performance de RI Les types de connaissances importantes (Lin[11]): Connaissance sur la tâche d'utilisateur Connaissance sur le problème Connaissance du domaine Procedures (Modality) Disorders (Pathology) Groupes Sémantiques Anatomy T029 Body Location or Region T060 Diagnostic Procedure T047 Disease or Syndrome Concepts C C C “Show me Chest CT of emphysema ” PK inclusion PK intersection

11 Évaluation La collection CLEF images médicales
Anglais, Français, Allemand documents 30 requêtes Résultats: Comparaison entre modèle vectoriel avec termes(MVT) et avec concepts(MVC) Comparaison entre MVC et MVC utilisant de connaissance du problème Comparaison entre MVC et modèle d’indexation conceptuelle basé sur réseau Bayesien(RB) Application dans la recherche d’images médicaux Exemple: « Show me images of a knee x-ray. Zeige mir Röntgenbilder des Knies. Montre-moi des radiographies du genou. »

12 Comparaison entre modèle vectoriel avec termes(MVT) et avec concepts(MVC)
CLEFMed2006 Avec termes Avec concepts

13 Comparaison entre MVC et MVC utilisant de connaissance du problème
CLEFMed2006

14 Comparaison entre MVC et modèle d’indexation conceptuelle basé sur réseau Bayesien(RB)
CLEFMed2007

15 Application dans la recherche d’images médicaux
Image Retrieval Engine Text Retrieval Image Text Query Retrieved Documents UMLS concepts Mapping Learn & classify from image features Fusion Re-weighting

16 Conclusion et perspective
Modèle de RI qui capable d'améliorer la qualité des index ainsi que la correspondance entre les documents et la requête. Expérimentation a prouvé les avantages de: utiliser des concepts au lieu des termes à l'aide d'une ressource externe. prendre en compte les liens sémantiques entre concepts dans la requête et ceux dans les documents dans un modèle à base de réseau Bayesien. d'exploiter des connaissances dans une ressource externe pour améliorer la performance de la recherche via une fonction sur le RSV Une fusion pour la RI multi-modalité qui permet un meilleur recherche que la RI mono-modalité. Perspective Typage des relations sémantiques et leur poids

17 Références Julio Gonzalo, Felisa Verdejo, Irina Chugur, and Juan Cigarran. Indexing with wordnet synsets can improve text retrieval. In Proceedings of the COLING/ACL '98 Workshop on Usage of WordNet for NLP, pages 3844, Montreal,Canada, 1998. Mustapha Baziz, Mohand Boughanem, and Nathalie Aussenac-Gilles. Conceptual indexing based on document content representation. In CoLIS, pages , 2005. L. Maisonnasse, Les supports de vocabulaires pour les systèmes de recherche d'information orientés précision : application aux graphes pour la recherche d'information médicale, Ph.D. thesis, Université Joseph Fourier, 2008. Ellen M. Voorhees. Query expansion using lexical-semantic relations. In SIGIR '94 : Proceedings of the 17th annual international ACM SIGIR conference on Research and development in information retrieval, pages 6169, New York, NY, USA, Springer-Verlag New York, Inc. Rila Mandala, Takenobu Tokunaga, and Hozumi Tanaka. Combining multiple evidence from dierent types of thesaurus for query expansion. In Research and Development in Information Retrieval, pages , 1999. Claudia Leacock and Martin Chodorow. Combining local context and wordnet similarity for word sense identication. An Electronic Lexical Database, pages , 1998. G. Hirst and D. St-Onge. Lexical chains as representation of context for the detection and correction malapropisms, 1997. Philip Resnik. Semantic classes and syntactic ambiguity. In HLT '93 : Proceedings of the workshop on Human Language Technology, pages , Morristown, NJ, USA, Association for Computational Linguistics. Jay J. Jiang and David W. Conrath. Semantic similarity based on corpus statistics and lexical taxonomy, 1997. Dekang Lin. An information-theoretic denition of similarity. In Proc. 15th International Conf. on Machine Learning, pages Morgan Kaufmann, Bibliographie 118 San Francisco, CA, 1998. Jimmy Lin and Dina Demner-Fushman. The role of knowledge in conceptual retrieval : a study in the domain of clinical medicine. In SIGIR '06 : Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval, pages 99106, New York, NY, USA, ACM Press.


Télécharger ppt "Journée RIMO du WEB Intelligence"

Présentations similaires


Annonces Google