Laboratoire CEDRIC – équipe ISID – CNAM de Paris

Slides:

Advertisements

Présentations similaires

La place accordée à l’expression des salariés sur leur travail et leurs conditions de travail dans l’entreprise Résultats sondage exclusif CSA/ANACT.

Advertisements

Mais vous comprenez qu’il s’agit d’une « tromperie ».

Le Nom L’adjectif Le verbe Objectif: Orthogram

ORTHOGRAM PM 3 ou 4 Ecrire: « a » ou « à » Référentiel page 6

Reporting de la Cellule Nationale Droit dOption Situation au 31 décembre 2011.

Licence pro MPCQ : Cours

Présentation de la circonscription Année 2011/2012 Jeudi 24 novembre 2011.

Additions soustractions

Distance inter-locuteur

1 Plus loin dans lutilisation de Windows Vista ©Yves Roger Cornil - 2 août

ACTIVITES NUMERIQUES Ranger les nombres Trouver le nombre manquant

1 Tournée Capital Souffle - du 03 octobre au 13 novembre Analyse des questionnaires recueillis sur les stands lors des actions régionales Capital.

Surveillance du Sida : pourquoi le nombre de cas ne diminue-t-il plus?

Les numéros 70 –

Les identités remarquables

Xavier Mouranche Registre e-MUST Evaluation en Médecine dUrgence des Stratégies Thérapeutiques de lInfarctus du Myocarde.

1. Les caractéristiques de dispersion. 11. Utilité.

Algorithme et structure de données

LES TRIANGLES 1. Définitions 2. Constructions 3. Propriétés.

Multiplication par un entier

Données statistiques sur le droit doption au 31/01 8 février 2012.

Correspondances en Onco-Urologie - Vol. III - n° 3 – juillet-août-septembre VESSIE Daprès James ND et al., N Engl J Med 2012;366:16:

Technologies et pédagogie actives en FGA. Plan de latelier 1.Introduction 2.Les technologies en éducation 3.iPads 4.TNI 5.Ordinateurs portables 6.Téléphones.

Révision (p. 130, texte) Nombres (1-100).

La législation formation, les aides des pouvoirs publics

1 7 Langues niveaux débutant à avancé. 2 Allemand.

La méthodologie………………………………………………………….. p3 Les résultats

Structure(djs)TéléphoneFax ADRA R049,96,03,21 CHLEF027,77,22,66 /77,49, LAGHOUAT029,90,41,08029,90,42,47 OUM EL BOUAGHI032,42,16,26032,42,45,32.

Application des algorithmes génétiques

Jack Jedwab Association détudes canadiennes Le 27 septembre 2008 Sondage post-Olympique.

Le soccer & les turbans Sondage mené par lAssociation détudes canadiennes 14 juin 2013.

Présentation générale

Les quartiers Villeray – La Petite-Patrie et les voisinages

Fierté envers les symboles et institutions canadiens Jack Jedwab Association détudes canadiennes 26 novembre 2012.

1 Journée de regroupement des correspondants "Egalité et genre" - 21 novembre 2011 Rectorat de Rouen - SAIO - CD-HD Résultats scolaires, appréciations.

Conseil Administration AFRAC – 2 décembre Toulouse 1 Fermes de références Palmipèdes à foie gras Synthèse régionale – Midi Pyrénées Exercice

LES NOMBRES PREMIERS ET COMPOSÉS

CLL11 : chlorambucil (CLB) versus CLB + rituximab (R)

Logiciel gratuit à télécharger à cette adresse :

Les chiffres & les nombres

1.Un rang de données multicolores 2. Deux permutations des n premiers entiers 3. b permutations des k premiers entiers 4. Choix de n points dans [0,1]

Les Monnaies et billets du FRANC Les Monnaies Euro.

Calculs et écritures fractionnaires

RACINES CARREES Définition Développer avec la distributivité Produit 1

Représentation des systèmes dynamiques dans l’espace d’état

Représentation des systèmes dynamiques dans l’espace d’état

Représentation des systèmes dynamiques dans l’espace d’état

DUMP GAUCHE INTERFERENCES AVEC BOITIERS IFS D.G. – Le – 1/56.

La statistique descriptive

Les maths en francais 7ième année.

Année universitaire Réalisé par: Dr. Aymen Ayari Cours Réseaux étendus LATRI 3 1.

Jean-Marc Léger Président Léger Marketing Léger Marketing Les élections présidentielles américaines.

MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.

Les Nombres 0 – 100 en français.

Aire d’une figure par encadrement

Écart moyen et écart type

P.A. MARQUES S.A.S Z.I. de la Moussière F DROUE Tél.: + 33 (0) Fax + 33 (0)

Les fondements constitutionnels

MAGIE Réalisé par Mons. RITTER J-P Le 24 octobre 2004.

Mise en forme en Mathématiques

1/65 微距摄影美丽的微距摄影 Encore une belle leçon de Macrophotographies venant du Soleil Levant Louis.

Certains droits réservés pour plus d’infos, cliquer sur l’icône.

Nom:____________ Prénom: ___________

LES COURSES SUR PISTE.

Annexe Résultats provinciaux comparés à la moyenne canadienne

La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)

Transcription de la présentation:

Laboratoire CEDRIC – équipe ISID – CNAM de Paris Extraction automatique des diagnostics à partir des comptes rendus médicaux textuels Didier Nakache 26 Septembre 2007 Laboratoire CEDRIC – équipe ISID – CNAM de Paris

Didier Nakache - Soutenance de thèse Plan Présentation du projet Etat de l’art des classifications de données textuelles Algorithmes EDA et CLO3 L’évaluation Le projet Rhéa Conclusions 26/09/2007 Didier Nakache - Soutenance de thèse

1. Présentation du projet 26/09/2007 Didier Nakache - Soutenance de thèse

Présentation générale Rhea est un outil décisionnel destiné aux services de réanimation, structuré autour de 2 axes : Rhea : Entrepôt de données (datawarehouse), Cirea : Fouille de textes pour l’aide au codage. Rhéa est orienté autour de la thématique des infections nosocomiales. Le sous projet CIREA ne représente qu’une charge faible du projet Rhéa. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Le sous projet CIREA L’objectif de CIREA est de permettre de retrouver les codes diagnostics ayant motivé le séjour parmi les 52 000 de la CIM10 (Classification Internationale des Maladies), à partir des comptes rendus hospitaliers rédigés en langage naturel. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Classification CIM10 Le code CIM10 est un code hiérarchique sur 5 niveaux possibles. Il existe 52000 codes. Exemple : 26/09/2007 Didier Nakache - Soutenance de thèse

2. Etat de l’art : classification de documents textuels 26/09/2007 Didier Nakache - Soutenance de thèse

Induction par apprentissage Vue Générale Statistiques Mots clés Règles et systèmes experts Induction par apprentissage (machine learning) Traitement du langage naturel … 1970 1980 1990 2000 Aujourd’hui 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Tableaux lexicaux Le modèle vectoriel introduit par Salton (1975) représente chaque document, ainsi que le document à classifier, par un vecteur (sac de mots). Document i Concept j Effectif ij On utilise souvent une notation binaire (absence / présence) en classification automatique de documents plutôt que l’effectif. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Algorithmes majeurs Naïve Bayes, Les arbres de décision, TF/IDF, SVM (Support Vector Machine) (Vapnik 95). 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Autres méthodes De nombreuses autres méthodes ont été utilisées pour la classification automatique de documents : les réseaux de neurones, LLFS (Linear Least Squares Fit), KNN, Chaines de Markov, … etc. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Les mesures 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Mesures de distances Il existe de nombreuses formules pour mesurer la distance entre deux vecteurs. La plus utilisée est la fonction Cosine : 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Autres mesures Il existe de nombreuses autres mesures (distance de Kullback-Leibler, mesure de Jacquard, …) D’autres approches fonctionnent sur le calcul des dissimilarités (distance de SMART) L’information mutuelle (concepts proches): Le coefficient de Dice : Le gain d’information : La mesure de Salton : 26/09/2007 Didier Nakache - Soutenance de thèse

Evaluation : quels corpus et quelles mesures ? 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Les corpus On trouve principalement des comparaisons sur la base Reuters, qui est une classification de dépêches de presse. Dans le domaine médical, on se réfère également à la base OHSUMED. 26/09/2007 Didier Nakache - Soutenance de thèse

Evaluation des algorithmes Les algorithmes sont généralement évalués par la F-mesure, basée sur la précision et le rappel précision=a/(a+b), rappel=a/(a+c) F-Mesure = ((1+ß²)*Précision*Rappel) / ((ß²*Précision)+Rappel), avec ß²=1 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Exemple de F mesure Considérons que les diagnostics corrects à trouver soient : a,b,c,d Le programme propose a,b,e La précision est de 2/3=0.67 Le rappel est de 2/4=0.5 La F mesure vaut 2*p*r/(p+r)=0.57 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Micro et macro moyenne 26/09/2007 Didier Nakache - Soutenance de thèse

Comparaison des algorithmes 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse [Dumais et al. 1998] proposent également une série de comparaisons en mettant en compétition une variante de l'algorithme de Rocchio (appelée find similar), des arbres de décision, des réseaux bayésiens et des machines à vecteurs supports : Findsim NBayes BayesNets Trees SVM Earn 92.9% 95.9% 95.8% 97.8% 98.0% Acq 64.7% 87.8% 88.3% 89.7% 93.6% money-fx 46.7% 56.6% 58.8% 66.2% 74.5% Grain 67.5% 78.8% 81.4% 85.0% 94.6% Crude 70.1% 79.5% 79.6% 88.9% trade 65.1% 63.9% 69.0% 72.5% 75.9% Interest 63.4% 64.9% 71.3% 67.1% 77.7% ship 49.2% 85.4% 84.4% 74.2% 85.6% wheat 68.9% 69.7% 82.7% 92.5% 91.8% corn 48.2% 65.3% 76.4% 90.3% Avg Top10 64.6% 81.5% 88.4% 92.0% Avg All Cat 61.7% 75.2% 80.0% N/A 87.0% 26/09/2007 Didier Nakache - Soutenance de thèse

Comparaison des méthodes [Yang et Liu 1999] comparent ainsi les machines à vecteurs supports, les plus proches voisins, les réseaux de neurones, une combinaison linéaire, et des réseaux Bayesiens. Le résultat de leur comparaison est le suivant : Méthode RAPPEL PRECISION F-MESURE SVM 81.20% 91.37% 85.99% KNN 83.39% 88.07% 85.67% LLSF 85.07% 84.89% 84.98% Neural Network 78.42% 87.85% 82.87% Naïve Bayes 76.88% 82.45% 79.56% 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Comparer les méthodes ? Nb docs Apprentissage Taille test Nb catégories Nom Corpus 21450 14704 6746 135 Reuters1 10667 3680 93 Reuters2 13272 9610 3662 92 Reuters3 12902 9603 3299 90 Reuters4 10 Reuters5 13625 7437 6188 ModLewis 21578 50 Reuters6 Indicateurs utilisés : BEP, macro F mesure, micro F mesure, … 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Type Reuters1 Reuters2 Reuters3 Reuters4 Reuters5 Batch Linear FINDSIM [Dumais 1998] 0.617 0.646 ROCCHIO [Cohen et Singer 1999] 0.660 0.748 0.776 [Joachims 1998] 0.799 [Lam et Ho 1998] 0.781 [Li and Yamanishi 1999] 0.625 Bayesian Network Aucun 0.800 0.850 [Lam et al 1997] 0.542 Committee ADABOOST.MH [Schapire et Singer 2000] 0.860 [Weiss et al 1999] 0.878 Decision Rules CHARADE [Moulinier et al 1996] 0.783 0.738 DL-ESC 0.820 RIPPER 0.683 0.811 SLEEPING EXPERT 0.753 0.759 0.827 SWAP-1 [Apté et al 1994] 0.805 Decision trees 0.884 C4.5 0.794 IND [Lewis et Ringuette 1994] 0.670 Example based GIS-W KNN 0.823 [Yang 1999] 0.690 0.852 [Yang et Liu 1999] 0.856 Neural Network [Wiener et al 1995] CLASSI [Ng et al 1997] 0.802 NNET 0.838 On line linear BALANCED WINNOW [Dagan et al 1997] 0.747 0.833 WIDROW-HOFF 0.822 probabiliste 0.752 0.815 0.720 0.443 Bim 0.773 NB 0.795 PropBayes [Lewis 1992a] 0.650 Regression LLSF 0.855 0.810 0.849 sans apprentissage Word 0.150 0.310 0.290 SVM 0.870 SVMLIGHT 0.920 0.864 0.841 0.859 R E U T E R S 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Résultats sur OHSUMED Ohsumed Full range Ohsumed HD Big Ohsumed 1987 Nb Catégories 14321 49 ??? Probabilistic LSA Term ADABOOST.MH [Cai et Hofman 2003] 0.474 ADABOOST.MR Probabilistic LSA 1000A 0.497 0.495 Autres Word [Yang 1999] 0.160 0.440 KNN 0.520 0.560 Rocchio 0.460 LLFS Exponentiated Gradiant 0.540 Widrow Hoff 0.590 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse 3. Le travail réalisé 26/09/2007 Didier Nakache - Soutenance de thèse

Analyse du problème : données générales 26/09/2007 Didier Nakache - Soutenance de thèse

Constitution du corpus et des bases de données Nous avons recueilli environ 33 000 comptes rendus médicaux exploitables provenant de nombreux établissements hospitaliers en France. Nous avons constitué une base de données de 543 418 mots, 100 882 concepts médicaux, 957 acronymes médicaux fréquents, 224 mots stop (antidictionnaire), 1445 préfixes et suffixes médicaux. 26/09/2007 Didier Nakache - Soutenance de thèse

Nombre de diagnostics par CRH Chaque compte rendu compte en moyenne 4.34 codes diagnostics par patient et par séjour. La variabilité est très importante puisque l'on dénombre de 1 à 32 diagnostics par patient avec une forte concentration entre 1 et 6 : 26/09/2007 Didier Nakache - Soutenance de thèse

Spécificité du problème La distribution des codes CIM montre une forte concentration sur quelques codes usuels. Ainsi, un algorithme qui présenterait une liste fixe basée uniquement sur les codes les plus fréquents obtiendrait de bons résultats, mais pour quelle utilité ? 10% des diagnostics rencontrés sont présents dans 80% des comptes rendus 26/09/2007 Didier Nakache - Soutenance de thèse

EDA : un algorithme de désuffixation 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Contexte EDA est né d’une double observation : Il existe de nombreuses formes orthographiques, fléchies,… qui rendent différent (pour l’ordinateur) ce qui est identique, le langage médical repose sur une structure sémantique très forte, Nous avons voulu optimiser nos algorithmes en exploitant ces deux constats. EDA fonctionne en deux phases successives et indépendantes 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse EDA : étape 1 transformation en minuscules, séparation des caractères ligaturés ('cœur' devient 'coeur') et des traits d'unions, suppression des signes diacritiques (exemple : accents 'dégénéré' devient 'degenere'), suppression des doubles lettres, remplacer 'ck', 'cqu', 'qu', et 'c' par 'k', et 'y' par 'i'. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse EDA : étape 1 bis Enfin, nous appliquons, le cas échéant, un ensemble de 37 règles séquentielles, sauf si le concept restant devait avoir moins de 5 caractères. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Exemple EDA étape 1 bis Terme de départ Règles appliquées Terme obtenu INTESTIN Aucune INTESTINS 1 INTESTINAL 5 INTESTINAUX 3 et 6 INTESTINALES 1, 2, et 5 INTESTINALE 2 et 5 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse EDA : étape 2 Constatant la structure sémantique très forte du langage naturel et la structure hiérarchique de la CIM10 par organes, nous avons choisi d’enrichir le compte rendu en fonction des préfixes, suffixes et affixes. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse EDA Etape 2 : exemples Anus proct... Péritoine cœlio... Genou gon... Rate spléno... Hanche cox... Rein néphr... Bassinet pyélo... Testicule orch... Caecum typhlo... Tête céphal... Cordon funicul... Trompe salpin... Doigt dactyl... Utérus hystéro, métro... Diaphragme phréno... Vagin colpo... Foie hépat... Veine phléb..., véno... Intestin entéro... Vésicule biliaire cholécyst... Langue glosso... Vessie cysto... 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Résultats Non Enrichi Enrichi Aucune désuffixation 69.23% 71.97% Désuffixation avec Carry 72.27% 74.12% Désuffixation avec EDA 72.87% 74.72% 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Algorithme CLO3 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse CLO3 est un algorithme de classification multilabels avec ajout d’une dimension en environnement incertain 26/09/2007 Didier Nakache - Soutenance de thèse

Approche textmining CIREA Concept 1 Concept 2 … Concept i Document 1 Document 2 …. Document j Classe 1 Classe 2 …. Classe k Modèle Cirea : Un document = plusieurs classes et plusieurs concepts. L’enjeu devient de trouver un lien direct entre concepts et classes 26/09/2007 Didier Nakache - Soutenance de thèse

Un environnement incertain 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Origine de CLO3 CLO3 s’inspire à la fois de TF/IDF et de Naïve Bayes Il se base sur le principe que les termes ou concepts utilisés sont en rapport direct avec les codes diagnostics. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Calcul du poids brut Nous allons donc calculer pour chaque terme une première variable appelée 'Poids Brut', définie comme suit : Poids brut = Variance de la fréquence du concept / moyenne de fréquence du concept Il s'agit donc d'un coefficient de variation qui va nous permettre de quantifier la concentration de chaque terme. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Calcul du poids net Mais étant donné le nombre de diagnostics associés, il fallait trouver une méthode qui permette de supprimer les mots trop rares (pour ne pas leur donner un poids injustement trop fort). La seconde étape de l'algorithme consiste à calculer un second poids, appelé poids net qui permette de quantifier la relation entre un terme et un diagnostic (que nous appelons couple) : Poids net = Poids brut * fréquence(couple)*effectif(couple) Nous multiplions par la fréquence et l'effectif pour faire apparaître en priorité les occurrences fréquemment rencontrées. Ainsi, les diagnostics associés seront supprimés automatiquement. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Supposons en effet qu'un patient souffre d'un diabète et d'une crise cardiaque. Dans le compte rendu, nous trouverons par exemple le mot diabète et le mot cardiaque. Nous allons donc avoir les quatre relations suivantes : Concept Diagnostic Crise cardiaque Arrêt cardiaque Diabète Mais sur l'ensemble des comptes rendus, la fréquence d'apparition des couples 'terme cardiaque – diagnostic diabète' et 'terme diabète – diagnostic crise cardiaque' sera faible. Donc en multipliant par cette fréquence, on supprime ces relations non désirées. En multipliant par l'effectif, on amplifie la même fonctionnalité. 26/09/2007 Didier Nakache - Soutenance de thèse

Troisième étape : Poids A La troisième étape consiste à standardiser les valeurs calculées pour les poids nets, en calculant le poids final, appelé 'PoidsA'. Pour cela, nous divisons le poids de chaque couple par la moyenne du poids de chaque classe de diagnostic. Ce poids sera élevé à la puissance n pour amplifier le résultat. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Calcul du poids B La quatrième étape consiste à créer un second indicateur baptisé 'PoidsB' inspiré des probabilités simples et Naive Bayes mais en extrapolant ce raisonnement. Pour chaque couple 'terme - diagnostic', nous calculons : PoidsB = Nombre de fois ou le concept est présent dans la classe / Effectif total du concept 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Calcul du poids CLO3 A partir de ces deux termes, nous obtenons une fonction qui optimise le résultat de la classification en se basant sur la fonction suivante : Poids CLO3 = PoidsA2 * PoidsB5 26/09/2007 Didier Nakache - Soutenance de thèse

Utilisation du poids CLO3 Pour classifier un nouveau document, nous additions les poids CLO3 des concepts extrait. Les meilleurs scores sont proposés. Nous filtrons en ne retenant que ceux dont le seuil est supérieur à 5E-4 26/09/2007 Didier Nakache - Soutenance de thèse

Comparaison des résultats Méthode F-Mesure Knn 0.2779 SVM 0.3132 TF IDF 0.3169 Naive Bayes 0.3417 TF IDF (RM) 0.3825 CLO3 0.4027 26/09/2007 Didier Nakache - Soutenance de thèse

Position des bons codes Position moyenne sur 7 codes proposés TFIDF 3.53 CLO3 3.32 26/09/2007 Didier Nakache - Soutenance de thèse

Comparaison sur OHSUMED Algorithme F-Mesure Word 0.1600 TF IDF 0.4677 KNN 0.5200 Naïve Bayes 0.5300 CLO3 0.5728 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse 4. L’évaluation 26/09/2007 Didier Nakache - Soutenance de thèse

Etat de l’art : mesures de base Correct Non correct Total Proposé a b a+b Non proposé c d c+d a+c b+d a+b+c+d=N 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Mesures de base La communauté TALN utilise ce tableau de contingence pour calculer plusieurs mesures de base : précision=a/(a+b), rappel=a/(a+c), pertinence=(a+d)/(a+b+c+d), erreur=(b+c)/(a+b+c+d), taux de chute=b/(b+d), silence=c/(a+c), spécificité=d/(b+d), bruit=b/(a+b), overlap=a/(a+b+c), et la généralité=a/N 26/09/2007 Didier Nakache - Soutenance de thèse

Indicateurs de synthèse Finalement, 4 mesures (a, b, c, d) génèrent 10 indicateurs de base. Ces indicateurs sont eux- mêmes combinés pour donner d’autres mesures, en général en utilisant la précision et le rappel. L’indicateur le plus utilisé est la F-Mesure [Van Rijsbergen 79] 26/09/2007 Didier Nakache - Soutenance de thèse

La F-mesure ((1+ß²)*Précision*Rappel) / ((ß²*Précision)+Rappel) Le paramètre ß² permet de donner un poids plus important à la précision ou au rappel, mais on positionne généralement le paramètre ß² à 1. La mesure devient : Mesure F1 = (2*Précision*Rappel) / (Précision+Rappel) L’avantage de ce choix est que lorsque la précision est égale au rappel, on obtient : Précision = Rappel = F-mesure. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Analyse de la F-mesure 26/09/2007 Didier Nakache - Soutenance de thèse

F-mesure = moyenne harmonique La F-mesure est la moyenne harmonique de la précision (P) et du rappel (R) : donc soit et finalement : 26/09/2007 Didier Nakache - Soutenance de thèse

Propriétés de la F-mesure Pourquoi la moyenne harmonique ? Car elle possède des propriétés intéressantes : elle se détériore quand l’une des deux composantes diminue et augmente quand la différence diminue. Démonstration : Posons S=P+R, et D=P-R, avec P=précision R=Rappel 26/09/2007 Didier Nakache - Soutenance de thèse

Comparaison des moyennes 1 Harmonic mean Beta= 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10% 13% 15% 16% 17% 18% 20% 24% 27% 29% 30% 31% 32% 33% 34% 38% 40% 42% 44% 45% 46% 48% 51% 53% 55% 57% 50% 58% 62% 64% 67% 60% 65% 69% 72% 75% 70% 79% 82% 80% 85% 89% 90% 95% 100% Arithmetic mean 25% 35% 26/09/2007 Didier Nakache - Soutenance de thèse

Propriétés de la F-mesure Nous pouvons observer cette propriété sur les graphiques suivants, où l’on compare la moyenne harmonique avec la moyenne géométrique et arithmétique. En abcisse et en ordonnée, sont indiquées les valeurs de précision et de rappel, la couleur indique la zone du résultat (ex : vert pour une mesure comprise entre 0.6 et 0.8) 26/09/2007 Didier Nakache - Soutenance de thèse

Conclusions sur la F-mesure La F-mesure est un indicateur qui permet d’évaluer un algorithme de classification en calculant la moyenne harmonique de la précision et du rappel, mais : elle fonctionne en binaire (une solution est soit bonne soit fausse), elle ne permet pas de poser de niveau d’exigence Par contre : elle se dégrade un peu quand l’une des composantes diminue fortement, elle permet de privilégier le rappel ou la précision, c’est aujourd’hui un jalon de référence 26/09/2007 Didier Nakache - Soutenance de thèse

Vers une nouvelle approche 26/09/2007 Didier Nakache - Soutenance de thèse

Introduction de la K-mesure La F-mesure vaut : (1+ß²)*(Précision*Rappel) / ((ß²*Précision)+Rappel) sachant que : 0 <= (précision * rappel) <=1 Il faut trouver une fonction Θ (précision*rappel) qui permette de faire évoluer le résultat comme nous le désirons en fonction de seuils et dont le résultat appartienne à l’intervalle [0,1]. La fonction puissance répond parfaitement à ce besoin. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse La fonction puissance Nous observons que pour un couple (précision, rappel), nous pouvons maîtriser le résultat obtenu par l’utilisation de la fonction puissance (Précision*Rappel) α : plus α grandit, plus le résultat augmente tardivement 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse La K-mesure En transformant la F-mesure comme suit : (1+ß²)*(Précision*Rappel)α / ((ß²*Précision)+Rappel) nous obtenons la K-mesure. 26/09/2007 Didier Nakache - Soutenance de thèse

Sur ensemble de la F-mesure Nous constatons que la K-mesure est égale à la F-mesure pour α =1, c’est donc un sur ensemble de la F-mesure. Nous pourrons ainsi conserver les jalons. 26/09/2007 Didier Nakache - Soutenance de thèse

Possibilité pour le juge En augmentant la valeur de α, nous augmentons le niveau d’exigence puisque plus α est grand, plus il faut que le produit (précision * rappel) soit élevé pour que la mesure soit bonne. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Exemples de résultats α = 1 Beta = 1.4 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10% 13% 15% 16% 17% 18% 2% 3% 4% 5% 6% 7% 20% 24% 27% 29% 30% 31% 32% 33% 8% 11% 14% 34% 38% 40% 42% 44% 45% 46% 22% 25% 48% 51% 53% 55% 57% 19% 23% 37% 50% 58% 62% 64% 67% 43% 47% 60% 65% 69% 72% 75% 56% 61% 70% 79% 82% 59% 71% 80% 85% 89% 74% 81% 90% 95% 83% 91% 100% 1.8 2 0% 1% 9% 12% 21% 26% 39% 54% 76% 87% 73% 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Variations de α Voici les K-mesures résultantes pour α=1, α=1.4, et α=2 26/09/2007 Didier Nakache - Soutenance de thèse

Possibilité pour le juge En faisant varier le paramètre β², (ici α = 1.4 et β² vaut 0.2, 1 et 4) nous pouvons privilégier le rappel ou la précision 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Conclusion K-Mesure En conclusion, la K-mesure conserve toutes les qualités de la F-mesure, mais permet de positionner un niveau d’exigence minimale. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse La D-mesure pour évaluer les performances des algorithmes en recherche d’informations (IR) 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Évaluation de l’IR Pour établir un indicateur, nous sommes partis de la formule de score donnée par [Voohrees 2003] , utilisée pour les conférences TREC où n représente le nombre de réponses exactes au rang i, et Q le nombre de questions. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Formule de Voohrees Rang Contribution 1 17.99% 2 12.99% 3 10.49% 4 8.82% 5 7.57% 6 6.57% 7 5.74% 8 5.02% 9 4.40% 10 3.84% 11 3.34% 12 2.89% 13 2.47% 14 2.09% 15 1.73% 16 1.40% 17 1.09% 18 0.79% 19 0.51% 20 0.25% Cette formule se représente ainsi : Contribution au score de chaque réponse si N=20 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Recherche des poids Soit la réponse i, son poids est : avec k et l, deux paramètres (par défaut k=15, l=0.7), N représente l'effectif total, i le rang de la réponse évaluée. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Graphe sigmoïdal Observons les propriétés de cette équation en faisant varier les deux paramètres k et l (pour cette illustration, nous avons pris N=273, k=15, l=0.7) Nous remarquons que si la réponse attendue n'apparaît pas dans les 50 premières réponses proposées, le score est fortement minoré, voire quasi nul au delà de 150 26/09/2007 Didier Nakache - Soutenance de thèse

Variations de la mesure Le paramètre k modifie la pente Le paramètre l déplace le point d'inflexion : 26/09/2007 Didier Nakache - Soutenance de thèse

Indicateur : la D-mesure La D-mesure, indice global d'évaluation devient alors : 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Exemple de D Mesure Rang i Poids Wi Pertinence Poids valorisé 1 0.9890 100% 2 0.9770 0% 0.0000 3 0.9526 4 0.9047 50% 0.4523 5 0.8176 70% 0.5723 6 0.6792 80% 0.5433 7 0.5000 8 0.3208 9 0.1824 10 0.0953 11 0.0474 12 0.0230 13 0.0110 14 0.0052 15 0.0025 16 0.0012 17 0.0006 75% 0.0004 18 0.0003 19 0.0001 30% 20 Effectif N = 20 k = 15 L= 0.7 Somme poids = 6.510 Somme poids valorisés = 4.191 D-MESURE = 64.4% 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse 5. RHEA 26/09/2007 Didier Nakache - Soutenance de thèse

Les enjeux : quelques chiffres Selon l'ANAES, les infections nosocomiales représentent : 1 million de personnes atteintes chaque année en France, 5 à 10.000 décès par an selon la méthodologie retenue Sur le plan économique, on estime leur coût à environ 1 milliard d'euros. 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Architecture générale de Rhéa Grenoble Hôpital 1 Saisie/ Data Mining Assis- tance ETL BD locale Entrepôt global Codage PMSI Reporting local Reporting global 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Analyses Probabilité de décès = Exp(X) / (1 + Exp(X)) , avec X = -7.7631 + (0.0737*SAPSII) + 0.9971 * (Log(SAPSII+1) / Log(2.718282)) 26/09/2007 Didier Nakache - Soutenance de thèse

Principales fonctions 150 points de contrôle, calculs automatique de scores : SAPS II, LOD, Trio, Omega, glasgow, Sofa, graphiques avec courbes de tendances, génération du compte rendu en langage naturel à partir des faits importants génération des codes CCAM, génération du tableau de bord, conversion de la biologie, requêteur gestion des métadonnées mise à jour automatisée, comparaison de toutes les mesures avec les autres centres, etc … 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Rhéa : copie écran 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Rhéa : exemple de CCAM 26/09/2007 Didier Nakache - Soutenance de thèse

Copie d’écran courbes avec Rhéa 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Copie écran CIREA 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Conclusions 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Conclusions Nous disposons d’un ensemble de bases de données de termes médicaux, de terme du langage, d’acronymes, de mots stops, etc… Les résultats obtenus satisfont les utilisateurs et les perspectives d’optimisation sont possibles, Le projet est en phase pré-industrielle, Nous avons développé 2 algorithmes (désuffixation et classification) et 2 indicateurs (D-mesure et K-mesure). 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Bilan CIREA est implémenté dans le projet Rhéa et opérationnel, Le projet Rhéa représente 300 000 lignes de code et est implémenté dans 14 hôpitaux, Plusieurs centres brésiliens et un hollandais doivent commencer dès cette année, La base de données multicentrique comporte actuellement 80 000 journées et plus de 7800 séjours, 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse 18 articles publiés à partir de la base (dont un repris dans un rapport destiné au sénat). 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse Merci 26/09/2007 Didier Nakache - Soutenance de thèse

Didier Nakache - Soutenance de thèse 26/09/2007 Didier Nakache - Soutenance de thèse