Indexation multi-terminologique de concepts en santé

Slides:



Advertisements
Présentations similaires
Mais vous comprenez qu’il s’agit d’une « tromperie ».
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6
M. SAILLOUR Lycée Notre Dame du Kreisker St Pol de Léon
1/29 Le modèle de l ’atome Dernière mise à jour: Le 24 Septembre 2008.
Licence pro MPCQ : Cours
Distance inter-locuteur
1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août
Les systèmes d’informations documentaires et les ENT Éléments de cahier des charges pour les projets nouveaux.
International Telecommunication Union Accra, Ghana, June 2009 Relationship between contributions submitted as input by the African region to WTSA-08,
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
1 Tournée Capital Souffle - du 03 octobre au 13 novembre Analyse des questionnaires recueillis sur les stands lors des actions régionales Capital.
Les numéros 70 –
Les numéros
Les identités remarquables
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.
AXES OBJECTIFS MESURES
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
1 7 Langues niveaux débutant à avancé. 2 Allemand.
Le Concours de Conaissance II Francais I decembre 2012.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
SERABEC Simulation sauvetage aérien avec un Hercule C130. Départ de St-Honoré le 4 octobre Durée de vol 3 heures. Premier vol en Hercule pour les.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
La méthodologie………………………………………………………….. p3 Les résultats
1 Bienvenue! Ministère de lEmploi et de la Solidarité sociale Direction des ressources humaines La conduite dun projet de refonte dun intranet Pascale.
Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.
Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.
Présentation générale
Cours de physique générale I Ph 11
1 Guide de lenseignant-concepteur Vincent Riff 27 mai 2003.
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
1. 9 juillet 2009 Portrait du financement des organismes communautaires en santé et services sociaux Année de référence Ministère de la Santé
Le Concours de Conaissance Francais I novembre 2012.
Titre : Implémentation des éléments finis sous Matlab
Tecsan Technologies pour la santé et l'autonomie
1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.
Tableaux de distributions
Projet poker 1/56. Introduction Présentation de léquipe Cadre du projet Enjeux Choix du sujet 2.
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Logiciel gratuit à télécharger à cette adresse :
Les chiffres & les nombres
1 Délégation FSA 2008: Cycle de formations prédépart __ Quest-ce que la mondialisation ?
Représentation des systèmes dynamiques dans l’espace d’état
DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.
1 Licence dinformatique Algorithmique des graphes Problèmes dordonnancement. Utilisation de ce document strictement réservée aux étudiants de l IFSIC dans.
Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
1 INETOP
Influenza: le modèle épidémiologique belge 29 Mai 2009
Formalisation de règles d'indexation MeSH pour un usage automatique
Enseigner / apprendre le calcul mental…
Aire d’une figure par encadrement
Les techniques des moteurs de recherche
Copyright 2011 – Les Chiffres Copyright 2011 –
P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)
Les fondements constitutionnels
MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.
Traitement de différentes préoccupations Le 28 octobre et 4 novembre 2010.
1/65 微距摄影 美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.
Nom:____________ Prénom: ___________
Direction de santé publique de la Montérégie PORTFOLIO THÉMATIQUE EXPÉRIENCE DE SOINS DES ANGLOPHONES DE LA MONTÉRÉGIE Direction de santé publique Surveillance.
Discussion autour du référentiel
Annexe Résultats provinciaux comparés à la moyenne canadienne
Commission paritaire de suivi des opérations de reclassement repositionnement dans le cadre du droit d’option Statistiques novembre 2010.
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
Master EISIS – Michel JOUBERT – LERTIM, Faculté de Médecine, Marseille – 2009 Interopérabilité des Données et des Terminologies dans le Domaine de la Santé.
Master EISIS – Michel JOUBERT – LERTIM, Faculté de Médecine, Marseille UMLS « Unified Medical Language System » U.S. National Library of Medicine.
Transcription de la présentation:

Indexation multi-terminologique de concepts en santé Suzanne Pereira Encadrée par : Élisabeth Serrot, Michel Joubert et Stefan J. Darmoni LITIS, Université de Rouen - Équipe CISMeF, CHU de Rouen LERTIM, Faculté de médecine, Marseille Vidal, Issy les Moulineaux Soutenance de thèse 2/12/2008 1

Plan Introduction État de l’art Indexation de documents en santé Trois contextes Vers une indexation automatique Objectifs État de l’art F-MTI, un extracteur multi-terminologique pour l’aide à l’indexation Conception Évaluation Applications Discussion Conclusion et perspectives Soutenance de thèse 2/12/2008 2

Introduction Soutenance de thèse 2/12/2008 3

Indexation de documents en santé Principe « consiste à repérer des mots ou des expressions particulièrement significatifs (appelés termes) dans un contexte donné, et à créer un lien entre ces termes et le texte original. » Terminologies adaptées Statistique, budget, suivi médical du patient Document diabète de type 2 enfant santé publique épidémie obésite Etats-Unis Royaume-Uni épidemiologiques cours diagnostique France mal prévention Indexation contrôlée De qualité Aide à la décision Recherche d’information Soutenance de thèse 2/12/2008 4

Trois contextes CISMeF (le Catalogue et Index des Sites Médicaux Francophones) Projet initié en 1995 (http://www, cismef.org) ~60 000 ressources Web  professionnels de santé, étudiants, patients Indexation manuelle à l’aide du MeSH Diffusion d’information sur les médicaments et aide à la prescription (société Vidal) Débuts en 1911 + 5 000 médicaments (RCP) Indexation manuelle à l’aide de 4 terminologies et bientôt du TUV Dossier Médicaux (travaux LERTIM) Réflexion depuis 1990 ~ 4 millions de comptes rendus hospitaliers (CRH) pour CHU de Rouen Indexation manuelle à l’aide de la CIM10, de la CCAM et bientôt de la SNOMED 3.5 Soutenance de thèse 2/12/2008 5

Cinq terminologies UMLS MeSH (Medical Subject Heading) CCAM SNOMED 3.5 CIM10 TUV MeSH UMLS MeSH (Medical Subject Heading) TUV (Thésaurus Unifié Vidal) CIM10 (Classification statistique Internationale des Maladies et des problèmes de santé connexes 10ème révision) CCAM (Classification Commune des Actes Médicaux) SNOMED 3.5 (Nomenclature Systématique de MÉdecine humaine et vétérinaire version 3.5) UMLS (Unified Medical Language System) Soutenance de thèse 2/12/2008 6

Vers une indexation automatique Indexation humaine, automatique ou semi-automatique : Semi-automatique : le compromis Critères Humaine Automatique Variabilité inter-indexeurs élevée non Synthèse oui bas Problème d’ambiguïté élevé Connaissances élevées basses Temps d’indexation L'indexation d'un texte consiste à repérer dans celui-ci certains mots ou expressions particulièrement significatifs (appelés termes) dans un contexte donné, et à créer un lien entre ces termes et le texte original, L’indexation peut être automatique ou manuelle Soutenance de thèse 2/12/2008 7

Objectifs Continuité de projets communs (CISMeF – Vidal – LERTIM) UMLF : Lexique médical unifié français (Ministère de la Recherche ACI 2002) VUMeF : Terminologies françaises et aide à l’indexation (Ministère de la Recherche RNTS 2003) Faciliter l’indexation des documents Concevoir des méthodes d’indexation automatique Évaluer ces méthodes Proposer des applications pour CISMeF, Vidal et LERTIM Soutenance de thèse 2/12/2008 8

État de l’art Soutenance de thèse 2/12/2008 9

Indexation de sites Web Outils existants CIREA SNOCODE D. Nakache (CEDRIC) Medsight ® SNOMED 3.5 Medckare A. Baneyx (SPIM) CIM10 Indexation de comptes rendus ? CCAM MAIF Indexation de sites Web A. Névéol (CISMeF) MTI Indexation de RCP A. Aronson (NLM) MeSH TUV ? Soutenance de thèse 2/12/2008 10

État de l’art Terminologie X Terminologie 1 à indexer Terminologie 1 Lien de transcodage Lien de transcodage Terminologie 1 à indexer Terminologie 2 Indexation mono-terminologie directe CIREA (CIM10), MAIF (MeSH), Snocode (SNOMED 3.5) Indexation mono-terminologie indirecte (à partir d’un transcodage) MedCKARe (ontologie pneumologie->CIM10), Indexation multi-terminologique Indexation directe et indirecte pour plusieurs terminologies (une seule terminologie considérée) MTI (UMLS) : indexation en MeSH et CIM9-CM qui sélectionne la méthode à utiliser par rapport à une entrée donnée Expliquer directe et indirecte Soutenance de thèse 2/12/2008 11

F-MTI, un extracteur multi-terminologique pour l’aide à l’indexation Soutenance de thèse 2/12/2008 12

F-MTI Indexation multi-terminologique (inspiré de MTI) Indexation directe : CIM10, SNOMED, CCAM, MeSH, TUV Projection vers les terminologies désirées grâce aux transcodages (recherche de termes équivalents) Indexation multi-document : dépendante du type de document Traitement particulier des CRH, des sites médicaux et des RCP Indexation basique pour les autres documents (convertibles au format texte) Indexation multi-tâche : dépendante de la tâche à effectuer (règles d’indexation) Paramétrable (terminologies à utiliser, terminologies en sortie) Reconnaissance de plus de formes textuelles possibles pour chaque terme Soutenance de thèse 2/12/2008 13

F-MTI Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt) Identification des rubriques, paragraphes et phrases + localisations Phrases Ensemble de phrases (corpus) Base de données multi- terminologique Algo SDM NOOJ + dico de termes NOOJ + dico de constituants Termes MeSH, CCAM, SNOMED, TUV et CIM10 Agrégation Restriction à (une ou plusieurs terminologies) Post-traitement Proposition d’indexation à l’aide d’une ou plusieurs terminologies Soutenance de thèse 2/12/2008 14

Base de données multi-terminologique Principe / Motivation Interrogation rapide des cinq terminologies Structure de données simple et générique contenant des terminologies de structure différente Méthode Modélisation de la structure de chaque terminologie Élaboration du modèle général à partir des modélisations unitaires (inspiré du metathesaurus de l’UMLS) Soutenance de thèse 2/12/2008 15

F-MTI Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt) Identification des rubriques, paragraphes et phrases + localisations Phrases Ensemble de phrases (corpus) Base de données multi- terminologique Algo SDM NOOJ + dico de termes NOOJ + dico de constituants Termes MeSH, CCAM, SNOMED, TUV et CIM10 Agrégation Restriction à (une ou plusieurs terminologies) Post-traitement Proposition d’indexation à l’aide d’une ou plusieurs terminologies Soutenance de thèse 2/12/2008 16

Découpage en rubriques, paragraphes et phrases Principe / Motivation Identifier les unités d’indexation : les phrases Prise en compte du contexte (rubriques et paragraphes) Indexation du document = agrégation de l’ensemble des indexations pour toutes les phrases du document Méthode Découpage Liste de noms de rubriques Découpage en rubriques Balises, retour chariot etc… Découpage en paragraphes Logiciel NOOJ (M, Silberztein) Découpage en phrase Transducteur NooJ Soutenance de thèse 2/12/2008 17

Découpage en rubriques, paragraphes et phrases Exemple Antécédents Ulcère gastrique opéré il y a 20 ans. Tabagisme à 40 paquets/an. Maladie d'Osler. Arythmie complète par fibrillation auriculaire en 90, 94 et en 2002. EXAMEN CLINIQUE : 12-7. Pouls à 70. 52 kg. Asymptomatique. Bruits du cœur réguliers avec un souffle d'insuffisance mitrale résiduel 1 à 2/6ème maximal au foyer mitral. Antécédents 1 1 Ulcère gastrique opéré il y a 20 ans. Antécédents 1 2 Tabagisme à 40 paquets/an. Antécédents 1 3 Maladie d'Osler. Antécédents 1 4 Arythmie complète par fibrillation auriculaire en 90, 94 et en 2002. EXAMEN CLINIQUE 1 1 12-7. EXAMEN CLINIQUE 1 2 Pouls à 70. EXAMEN CLINIQUE 1 3 52 kg. EXAMEN CLINIQUE 1 4 Asymptomatique. EXAMEN CLINIQUE 1 5 Bruits du cœur réguliers avec un souffle d'insuffisance mitrale résiduel 1 à 2/6ème maximal au foyer mitral. Soutenance de thèse 2/12/2008 18

Création de libellés d’indexation Principe / Motivation 3 méthodes de TAL basées sur les libellés des termes Libellés de chaque terme non élaborés à l’origine pour faciliter leur indexation Exemple : « angine, sans autre précision » Méthode Création de libellés d’indexation Application à la CIM10 Élimination des expressions « sans précision » « sans autre indication » Élimination des exclusions Création de 2 libellés d’indexation pour les alternatives en « ou » Traitement des précisions entre parenthèses Soutenance de thèse 2/12/2008 19

F-MTI Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt) Identification des rubriques, paragraphes et phrases + localisations Phrases Ensemble de phrases (corpus) Base de données multi- terminologique Algo SDM NOOJ + dico de termes NOOJ + dico de constituants Termes MeSH, CCAM, SNOMED, TUV et CIM10 Agrégation Restriction à (une ou plusieurs terminologies) Post-traitement Proposition d’indexation à l’aide d’une ou plusieurs terminologies Soutenance de thèse 2/12/2008 20

L’algorithme du sac de mots Principe / Motivation Utilisé à l’origine dans CISMeF pour retranscrire les requêtes des utilisateurs en termes MeSH Phrase considérée comme un sac de mots (les plus signifiants) rendus à leur forme la plus simple (lemme ou stème) Termes des différentes terminologies (TUV, SNOMED, MeSH, CIM10, CCAM) considérés comme des sacs de mots Algorithme revu pour l’indexation de documents Soutenance de thèse 2/12/2008 21

L’algorithme du sac de mots Méthode de l’algorithme du sac de mots Normalisation (ponctuation, minuscules…) Découpage en mots Élimination des mots vides et mots non pertinents Frenchstemmer (Lucene) Sémiographe (Memodata ®) Désuffixation ou lemmatisation Rangement (ordre alphabétique) Mise en correspondance avec les termes des différentes terminologies Base de données multi- terminologique Soutenance de thèse 2/12/2008 22

L’algorithme du sac de mots Exemple : Ulcère gastrique opéré il y a 20 ans. ulcère gastrique opéré il y a 20 ans ulcère gastrique opéré 20 ans Lemmatisation Désuffixation 20;an;gastrique;opérer; ulcère ou 20;an;gastric;opér; ulcèr + ajouts selon la rubrique rattachée (antécédent ou anteced) Toutes les combinaisons sont générées : 20;an;gastrique;opéré; ulcère an;gastrique;opéré; ulcère gastrique;opéré; ulcère an;gastrique;opéré etc… Et comparées aux termes des différentes terminologies traités de la même façon ulcère gastrique PE1192 TUV ;gastrique;ulcère; ;gastric;ulcer; ulcère gastrique D013276 MSH ;gastrique;ulcère; ;gastric;ulcer; ulcère gastrique D5-32100 SNMI ;gastrique;ulcère; ;gastric;ulcer; Résultats : Soutenance de thèse 2/12/2008 23

L’algorithme du sac de mots Avantages / Inconvénients Méthode simple nécessitant peu de ressources Ordre des mots non important (erreurs possibles) Méthode pour le moment limitée Gestion des termes complexes et des négations difficile Soutenance de thèse 2/12/2008 24

F-MTI Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt) Identification des rubriques, paragraphes et phrases + localisations Phrases Ensemble de phrases (corpus) Base de données multi- terminologique Algo SDM NOOJ + dico de termes NOOJ + dico de constituants Termes MeSH, CCAM, SNOMED, TUV et CIM10 Agrégation Restriction à (une ou plusieurs terminologies) Post-traitement Proposition d’indexation à l’aide d’une ou plusieurs terminologies Soutenance de thèse 2/12/2008 25

Le dictionnaire de termes Motivation Inspiré de l’approche TAL de MAIF (A.Névéol) Variantes validées en amont Contient les différentes formes textuelles des termes : leurs dérivations (ex : asthme - asthmatique), flexions (ex : bactérie - bactéries) et synonymes Méthode très rapide Possibilité de gérer les termes complexes et la négation Principe Format DELA (Dictionnaires Electroniques du LADL*) FormeTextuellePossibleDuTerme,LibelléDuTerme,InformationsDivers Application NOOJ 7 *Laboratoire d'Analyse et de Description Linguistique Soutenance de thèse 2/12/2008 26

Le dictionnaire de termes Exemple Ulcère gastrique opéré il y a 20 ans. Dictionnaire de termes ulcère gastrique,Ulcère gastrique,TUV ulcères gastriques,Ulcère gastrique,TUV ulcère de l’estomac,Ulcère gastrique,TUV ulcère gastrique,Ulcère gastrique,MSH ulcères gastriques,Ulcère gastrique,MSH ulcère de l’estomac,Ulcère gastrique,MSH ulcère gastrique,Ulcère gastrique,SNMI ulcères gastriques,Ulcère gastrique,SNMI ulcère de l’estomac,Ulcère gastrique,SNMI ulcère gastrique,Ulcère gastrique,EII2048+TUV ulcère gastrique,Ulcère gastrique,D013276+MSH ulcère gastrique,Ulcère gastrique,D5-32100 +SNMI 7 Soutenance de thèse 2/12/2008 27

Le dictionnaire de termes Constitution manuelle d’un dictionnaire = fastidieux Méthode de construction automatique de dictionnaires Reprise de l’existant Variantes des différentes terminologies Variantes provenant de précédents travaux (UMLF, dictionnaire MeSH de MAIF, lexiques du projet VUMeF) 7 Soutenance de thèse 2/12/2008 28

Construction automatique de dictionnaires Recueil automatique de nouvelles variantes Extraction de variantes à partir de corpus Utilisation de patrons d’extraction et d’un dictionnaire de mots Création de nouvelles variantes (pluriels et singuliers) Exemple : « diminution des facteurs de coagulation » Application au TUV Création de 33 719 transducteurs liés à un dictionnaire 38 219 variantes de mots Corpus de 50 000 documents : 7 800 recueillies dont 1 007 pour le TUV (validation à 55%) Création de 4 279 pluriels/singuliers (validation à 92,3%) donne « diminution des facteurs de la coagulation », « diminution du facteur de coagulation » etc… 7 Soutenance de thèse 2/12/2008 29

Prise en compte du contexte Négations Négation verbale Négation antérieure Négation postérieure Soutenance de thèse 2/12/2008 30

F-MTI Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt) Identification des rubriques, paragraphes et phrases + localisations Phrases Ensemble de phrases (corpus) Base de données multi- terminologique Algo SDM NOOJ + dico de termes NOOJ + dico de constituants Termes MeSH, CCAM, SNOMED, TUV et CIM10 Agrégation Restriction à (une ou plusieurs terminologies) Post-traitement Proposition d’indexation à l’aide d’une ou plusieurs terminologies Soutenance de thèse 2/12/2008 31

Le dictionnaire de constituants Principe / Motivation Prendre en compte les éléments constitutifs du terme et non les mots seuls ou le terme dans sa globalité Un constituant est défini comme toute variante incluse dans un terme, Ex : le terme « angine de poitrine sévère » comprend plus de 6 constituants : « angine », « angines », « poitrine », « sévère », « aigu », « angor » etc… Un terme est indexé si la phrase couvre l’ensemble des constituants requis (calcul d’un score) Application NOOJ Soutenance de thèse 2/12/2008 32

Le dictionnaire de constituants Exemple « Le patient est atteint d’un syndrome sévère, le syndrome de Down accompagné d’asthme. » Dictionnaire de constituants Base de données multi-terminologique syndrome de Down 2 syndrome de X 2 Asthme 1 syndrome, syndrome de Down, 1+TUV syndrome, syndrome de X, 1+TUV syndrome, syndrome de Down,1+TUV down, syndrome de Down, 1+TUV asthme, asthme,1+TUV Après élimination des doublons et ajout des scores pour chaque termes : – 2 pour « syndrome de Down » – 1 pour « syndrome de X » – 1 pour « asthme » Seuls les termes « syndrome de Down » et « asthme » sont indexés Soutenance de thèse 2/12/2008 33

F-MTI Un Document Un ensemble de documents (RCP, lettre de sortie, site Internet, ou autres convertis au format .txt) Identification des rubriques, paragraphes et phrases + localisations Phrases Ensemble de phrases (corpus) Base de données multi- terminologique Algo SDM NOOJ + dico de termes NOOJ + dico de constituants Termes MeSH, CCAM, SNOMED, TUV et CIM10 Agrégation Restriction à (une ou plusieurs terminologies) Post-traitement Proposition d’indexation à l’aide d’une ou plusieurs terminologies Soutenance de thèse 2/12/2008 34

Projection et restriction vers une ou plusieurs terminologies Principe Restriction aux termes équivalents appartenant aux terminologies désirées Méthode Les différents transcodages utilisés : MeSH, CIM10, SNOMED : UMLS et SFINM* CCAM->MeSH créé par CISMeF (P. Massari et B. Thirion) CIM10->CCAM de TOTHEM (enlevé) TUV->MeSH créé par CISMeF et validé par Vidal (enlevé) TUV->CIM10 créé par Vidal (enlevé) *Secrétariat Francophone International de Nomenclature Médicale Soutenance de thèse 2/12/2008 35

Projection et restriction vers une ou plusieurs terminologies Exemple : « Ulcère gastrique opéré il y a 20 ans. » ulcère gastrique PE1192 TUV ulcère gastrique D013276 MSH ulcère gastrique D5-32100 SNMI Résultats Indexation directe : ulcère de l'estomac | non précisé comme étant aigu K25.9 CIM10 ou chronique, sans hémorragie ni perforation ulcère gastrique sans hémorragie ni perforation D5-32422 SNMI ou obstruction estomac D013270 MSH tumeur maligne estomac, sans précision C16.9 CIM10 Résultats Indexation indirecte : Soutenance de thèse 2/12/2008 36

Proposition d’indexation à l’aide d’une ou plusieurs terminologies Post-traitements Post-traitement Proposition d’indexation à l’aide d’une ou plusieurs terminologies Élimination des doublons (mêmes termes ou un terme et son synonyme de la même terminologie) Application des règles d’indexation Règles générales Indexation au plus précis : père/fils, termes dont le sac de mots est inclus dans un autre Règles spécifiques à chaque terminologie MeSH : élimination des termes peu pertinents, appariement terme/qualificatif, élimination des qualificatifs non appariés Aucune pour CCAM/TUV/SNOMED 3.5/CIM10 Soutenance de thèse 2/12/2008 37

Évaluation de l’indexation de termes CIM10 et CCAM pour les dossiers patients Méthode Comparaison de l’indexation automatique (F-MTI - algorithme du sac de mots) et l’indexation medico-économique ou descriptive manuelle Matériels Corpus de 794 CRH du CHU de Rouen 490 de Cardiologie 304 de Pneumologie Indexation manuelle médico-économique CCAM et CIM10 Corpus de 100 CRH 50 de Cardiologie 50 de Pneumologie Indexation descriptive par un expert (en aveugle) Mesures Précision (inverse du bruit), rappel (inverse du silence), F-mesure Soutenance de thèse 2/12/2008 38

Évaluation de l’indexation de termes CIM10 et CCAM pour les dossiers patients Résultats Restriction des termes Cardiologie + diagnostics 15,4 76,4 Cardiologie 794 CRH 3,0 35,7 ou symptômes Précision % Rappel % 3,4 29,7 51,3 75,4 Pneumologie + diagnostics Pneumologie 41,0 96,1 4,0 19,9 ou symptômes 39,3 97,5 Indexation médico-économique descriptive Précision % Rappel % F-mesure F-mesure % 2,6 38,0 4,9 3,7 32,9 5,8 100 CRH Soutenance de thèse 2/12/2008 39

Évaluation de l’indexation de termes CIM10 et CCAM pour les dossiers patients Discussion Précision faible Problème des contextes (négations, proche concerné) Problème des transcodages Problème du nombre de termes proposés –> difficultés à déterminer ce qui est important Rappel faible Problème de la rédaction des CRH (manque précision, abréviations etc.) Dispersion des informations Méthode d’évaluation discutable 18% de consensus inter indexeur Peu de formation à l’indexation Restriction spécialité/diagnostic/symptôme : différentes vues pour l’indexation semi-automatique CCAM résultats ~0% (F-MTI inadapté) Soutenance de thèse 2/12/2008 40

Évaluation de l’indexation de termes SNOMED pour les dossiers patients Principe Comparaison de deux indexations automatiques SNOMED : F-MTI et Snocode Difficulté d’obtenir une référence manuelle (indexation manuelle fastidieuse) Choix d’un transcodage vers une terminologie moins complexe : CIM10 Matériel 100 CRH indexés manuellement à l’aide de la CIM10 Soutenance de thèse 2/12/2008 41

Évaluation de l’indexation de termes SNOMED pour les dossiers patients Résultats F-MTI extrait 2 fois plus de codes que Snocode Pourcentage de codes F-MTI couvrant les codes Snocode 29,9 Pourcentage de codes Snocode couvrant les codes F-MTI 51,5 Mesure de Hooper % 31,3 SNOMED transcodage Précision % Rappel F-mesure F-MTI 4,4 30,7 8,7 Snocode 6,1 24,7 9,8 CIM10 Soutenance de thèse 2/12/2008 42

Évaluation de l’indexation de termes MeSH pour les sites Web Principe Comparaison entre l’indexation automatique (F-MTI) pour les titres et l’indexation manuelle (indexeurs CISMeF) de la ressource Matériel Corpus CISMeF (18 814 ressources) indexé manuellement par quatre indexeurs CISMeF Soutenance de thèse 2/12/2008 43

Évaluations Lemmatisation/Désuffixation Mono/Multi-terminologie F-MTI Désuffixation F-MTI Lemmatisation (%) Précision – Rappel Termes d’indexation Tous 25,9 - 13,5 Tous 26,7 - 13,1 sous-analyse des variantes Mono/Multi-terminologie F-MTI Mono-termino F-MTI Multi-termino Termes d’indexation MC/Q Tous 29,4 - 13,0 Tous 25,9 - 13,5 Descripteurs MC Tous 37,7 - 21,3 Enseign 43,7 - 17,9 Recos 51,6 - 24,7 Patient 42,4 - 27,5 Tous 35,5 - 23,1 Enseign 39,9 - 18,7 Recos 44,4 - 25,7 Patient 38,3 - 27,8 sur-analyse des termes Évaluation secondaire (1 000 ressources) : Peu pertinent : 15,9%, pertinent : 4,5%, impact négatif : 79,6% Soutenance de thèse 2/12/2008 44

Évaluation de l’indexation de termes TUV pour les RCP Principe Évaluation du dictionnaire de terme (approche mono-teminologique) Comparaison de l’indexation automatique de F-MTI avec l’indexation manuelle de l’équipe du Vidal Matériels Corpus de 5 191 RCP indexés manuellement à l’aide des quatre thésauri Vidal Réalisation de la table de transcodage anciens thésauri – TUV Transcodage en TUV Soutenance de thèse 2/12/2008 45

Évaluation de l’indexation de termes TUV pour les RCP Résultats Rubriques concernées Précision % Rappel % Indications 48,1 21,7 Contre-indications 46,1 23,5 Effets secondaires 77,0 59,4 Précautions d’emploi 28,4 49,3 Total des 4 rubriques 52,9 46,2 Total (non prise compte des rubriques) 57,6 43,4 Terminologie en adéquation avec les documents indexés Insuffisance des variantes répertoriées dans le dictionnaire Conversion des documents pdf en txt (titres, tableaux) Soutenance de thèse 2/12/2008 46

Applications Indexation automatique de ressources Web Indexation automatique des ressources 2006 : F-MTI mono-terminologique (34 000 ressources) Indexation semi-automatique des ressources Interprétation des requêtes Vers une recherche d’information multi-terminologique Application concrète dans le PIM de CISMeF (Classification ATC, codes CAS, CIS, CIP en place) 2009 : F-MTI multi-terminologique (Autres terminologies) Indexation automatique de dossiers patients Recherche d’information Aide au codage médico-économique Structuration des dossiers Production de résumés Aide à la rédaction Soutenance de thèse 2/12/2008 47

Applications Indexation semi-automatique de RCP : BIBLIS (IMAG) RCP manuelle Indexation Automatique F-MTI Documents proches Soutenance de thèse 2/12/2008 48

Applications Outil d’aide à l’indexation généraliste Type de document Indexation multi-terminologique manuelle Document Indexation multi-terminologique automatique Serveur multi-terminologique Quelques fonctionnalités supplémentaires Soutenance de thèse 2/12/2008 49

Discussion Soutenance de thèse 2/12/2008 50

Discussion Résultats d’évaluation différents selon : la tâche d’indexation la terminologie le corpus le type de document au sein du corpus les rubriques au sein du document Aide au transcodage Soutenance de thèse 2/12/2008 51

Discussion Comment tendre vers une indexation de qualité? : Amélioration des terminologies et développement de règles d’indexation (terminologues) Formation à l’indexation, apprentissage des terminologies utilisées, et développement de règles d’indexation pour les tâches visées (indexeurs) Rédaction adaptée (auteurs de documents devant être indexés) Développement d’outils d’aide à l’indexation et à la rédaction automatiques plus performants (informaticiens) Aide au transcodage Soutenance de thèse 2/12/2008 52

Discussion Publications et valorisation Pereira S., Névéol A., Kerdelhué G., Serrot E., Joubert M., Darmoni S.J. Using multi-terminology indexing for the assignment of MeSH descriptors to health resources in a french online catalogue. AMIA Annu Symp Proc. 2008; 586-590. Pereira S., Névéol A., Massari P., Joubert M., Darmoni S.J. Construction of a semi-automated ICD-10 coding help system to optimize medical and economic coding, Proceedings of MIE2006. Stud Health Technol Inform, 2006 ;124 :845-50. Pereira S., Massari P., Joubert M., Darmoni S. Utilisation de métatermes pour la recherche d’information dans les dossiers médicaux. In Actes des journées Francophones d’Informatique Médicale. 2007. Pereira S., Massari P., Buemi A., Dahamna B., Serrot E., Darmoni S., Joubert M. F-MTI : un outil d’indexation automatique : application à l’indexation autmoatique de la SNOMED Internationale. Soumis à JFIM2009. Soutenance de thèse 2/12/2008 53

Discussion Publications et valorisation Massari P., Pereira S., Thirion B., Derville A., Darmoni S.J. Use of super–concepts to customize electronic medical records data display. Stud Health Technol Inform. 2008 ; 136 :845–850. Merabti T., Pereira S., Lecroq T., Joubert M., Darmoni S.J. Inheritance of SNOMED CT relations between concepts to two health terminologies (SNOMED International and ICD10). Proceedings of the 3rd international conference on Knowledge Representation in Medicine (KR-MED). 2008 ;118. Merabti T., Pereira S., Letord C., Lecroq T., Dahamna B., Joubert M., Darmoni J. Searching Related Resources in a Quality Controlled Health Gateway : a Feasibility Study. Proceedings of MIE2008, Stud Health Technol Inform, Volume 136, Pages 235–240, 2008 Névéol A., Pereira S., Kerdelhué G., Dahamna B., Joubert M., Darmoni S.J. Evaluation of a simple method for the automatic assignment of MeSH descriptors to health resources in a french online catalogue. Proceedings of Medinfo2007, Stud Health Technol Inform. 2007 ; 129 :407-11. Névéol A., Pereira S., Soualmia F.F., Thirion B., Darmoni S.J. A method of cross-lingual consumer health information retrieval. Proceedings of MIE2006, Stud Health Technol Inform. 2006 ; 124 :601–608. Pereira S., Névéol A., Massari P., Darmoni S., Joubert M. Evaluation de plusieurs terminologies médicales pour optimiser l’aide au codage médico-économique par analyse automatique de dossiers électroniques de patients. In Acte EMOI2006. 2006. Valorisation à l’université - Infobutton Soutenance de thèse 2/12/2008 53

Conclusion et Perspectives Soutenance de thèse 2/12/2008 54

Conclusion Notre contribution : Base de données multi-terminologique Création de libellés d’indexation Trois méthodes d’indexation complémentaires Méthode de création automatique de dictionnaires Prise en compte des contextes Outil d’indexation automatique multi-terminologique (F-MTI) Soutenance de thèse 2/12/2008 55

Perspectives Amélioration de l’outil Coopération des 3 méthodes Amélioration des transcodages Prise en compte d’autres contextes Implémentation de règles médicales Implémentation des méthodes de Metamap (MTI) Soutenance de thèse 2/12/2008 56

Perspectives CISMeF Vidal LERTIM Passage d’une stratégie mono-terminologique à une stratégie multi-terminologique Nouvelles voies de recherche : Interopérabilité sémantique inter et intra-terminologies (T. Merabti 2A) Recherche d’information multi-terminologique dans un portail de santé (S. Sakji 2A) Recherche d’information multi-terminologique dans un dossier patient électronique (A.D. Diriehdibad 1A) Vidal Aide à l’indexation TUV avec BIBLIS Exploitation d’autres terminologies pour des alertes toujours plus performantes LERTIM Nouveau pas vers l’élaboration d’un SIH performant Poursuite des travaux avec T. Merabti, S. Sakji, A.D. Diriehdibad Aide au transcodage Soutenance de thèse 2/12/2008 57

Perspectives Vers d’autres projets communs InterSTIS : Interopérabilité sémantique des terminologies dans les systèmes d’information de santé français (ANR TecSan 2007) SMTS : Serveur Multi-Terminologique en Santé PSIP : optimisation de la prescription informatisée (7ème PCRD) ALADIN-DTH : Assistant de Lutte Automatisé et de Détection des Infections Nosocomiales à partir de Documents Textuels Hospitaliers (ANR TecSan 2008) Aide au transcodage Il est sans doute probable que je continue `a travailler sur F-MTI dans le cadre de ces trois projets, Soutenance de thèse 2/12/2008 58

Remerciements L’équipe scientifique Vidal : Elisabeth, Mathilde, Josiane, Sophie, Francine, Olivier, Michelle, Blandine, Nicolas, Ghislaine, Gismonde, Jean-François L’équipe CISMeF & TIBS : Josette, Gaëtan, Catherine, Benoît, Saoussen, Tayeb, Yvan, Badisse, Philippe, Élise, Thierry, Aurélie et Stefan L’équipe du LERTIM : Michel Joubert, Mario Fieschi, Paul Avillach Les intervenants extérieurs : Antoine Buemi, Max Silberztein, Gaëlle Lortal et Lina Soualmia Soutenance de thèse 2/12/2008 59

ET VOUS !  Remerciements THE END To be continued … 60 Soutenance de thèse 2/12/2008 60