La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Extraction automatique des diagnostics à partir des comptes rendus médicaux textuels Laboratoire CEDRIC – équipe ISID – CNAM de Paris Didier Nakache 26.

Présentations similaires


Présentation au sujet: "Extraction automatique des diagnostics à partir des comptes rendus médicaux textuels Laboratoire CEDRIC – équipe ISID – CNAM de Paris Didier Nakache 26."— Transcription de la présentation:

1 Extraction automatique des diagnostics à partir des comptes rendus médicaux textuels Laboratoire CEDRIC – équipe ISID – CNAM de Paris Didier Nakache 26 Septembre 2007

2 26/09/2007 Didier Nakache - Soutenance de thèse 2 Plan 1. Présentation du projet 2. Etat de lart des classifications de données textuelles 3. Algorithmes EDA et CLO3 4. Lévaluation 5. Le projet Rhéa 6. Conclusions

3 26/09/2007 Didier Nakache - Soutenance de thèse 3 1. Présentation du projet

4 26/09/2007 Didier Nakache - Soutenance de thèse 4 Présentation générale Rhea est un outil décisionnel destiné aux services de réanimation, structuré autour de 2 axes : – Rhea : Entrepôt de données (datawarehouse), – Cirea : Fouille de textes pour laide au codage. Rhéa est orienté autour de la thématique des infections nosocomiales. Le sous projet CIREA ne représente quune charge faible du projet Rhéa.

5 26/09/2007 Didier Nakache - Soutenance de thèse 5 Le sous projet CIREA - Lobjectif de CIREA est de permettre de retrouver les codes diagnostics ayant motivé le séjour parmi les de la CIM10 (Classification Internationale des Maladies), à partir des comptes rendus hospitaliers rédigés en langage naturel.

6 26/09/2007 Didier Nakache - Soutenance de thèse 6 Classification CIM10 Le code CIM10 est un code hiérarchique sur 5 niveaux possibles. Il existe codes. Exemple : A – Maladies infectieuses et parasitaires A0 = Maladies infectieuses intestinales A00 =Infections intestinales : choleras A00.0 = choléra classique (vibrio cholerae), biovar cholerae A00.1 = cholera (Vibrio cholerae), biovar El Tor A01=Fièvres typhoïde et paratyphoïde A1 = TurberculosesA2 = …

7 26/09/2007 Didier Nakache - Soutenance de thèse 7 2. Etat de lart : classification de documents textuels

8 26/09/2007 Didier Nakache - Soutenance de thèse 8 Vue Générale Statistiques Mots clés … Aujourdhui Traitement du langage naturel Induction par apprentissage (machine learning) Règles et systèmes systèmesexperts

9 26/09/2007 Didier Nakache - Soutenance de thèse 9 Tableaux lexicaux Le modèle vectoriel introduit par Salton (1975) représente chaque document, ainsi que le document à classifier, par un vecteur (sac de mots). Document i Concept jEffectif ij On utilise souvent une notation binaire (absence / présence) en classification automatique de documents plutôt que leffectif.

10 26/09/2007 Didier Nakache - Soutenance de thèse 10 Algorithmes majeurs - Naïve Bayes, - Les arbres de décision, - TF/IDF, - SVM (Support Vector Machine) (Vapnik 95).

11 26/09/2007 Didier Nakache - Soutenance de thèse 11 Autres méthodes De nombreuses autres méthodes ont été utilisées pour la classification automatique de documents : - les réseaux de neurones, LLFS (Linear Least Squares Fit), KNN, Chaines de Markov, … etc.

12 26/09/2007 Didier Nakache - Soutenance de thèse 12 Les mesures

13 26/09/2007 Didier Nakache - Soutenance de thèse 13 Mesures de distances - Il existe de nombreuses formules pour mesurer la distance entre deux vecteurs. La plus utilisée est la fonction Cosine :

14 26/09/2007 Didier Nakache - Soutenance de thèse 14 Autres mesures - Il existe de nombreuses autres mesures (distance de Kullback-Leibler, mesure de Jacquard, …) - Dautres approches fonctionnent sur le calcul des dissimilarités (distance de SMART) - Linformation mutuelle (concepts proches): - Le coefficient de Dice : - Le gain dinformation : - La mesure de Salton :

15 26/09/2007 Didier Nakache - Soutenance de thèse 15 Evaluation : quels corpus et quelles mesures ?

16 26/09/2007 Didier Nakache - Soutenance de thèse 16 Les corpus - On trouve principalement des comparaisons sur la base Reuters, qui est une classification de dépêches de presse. - Dans le domaine médical, on se réfère également à la base OHSUMED.

17 26/09/2007 Didier Nakache - Soutenance de thèse 17 Les algorithmes sont généralement évalués par la F-mesure, basée sur la précision et le rappel Evaluation des algorithmes précision=a/(a+b), rappel=a/(a+c) F-Mesure = ((1+ß²)*Précision*Rappel) / ((ß²*Précision)+Rappel), avec ß²=1

18 26/09/2007 Didier Nakache - Soutenance de thèse 18 Exemple de F mesure - Considérons que les diagnostics corrects à trouver soient : a,b,c,d - Le programme propose a,b,e - La précision est de 2/3= Le rappel est de 2/4=0.5 - La F mesure vaut 2*p*r/(p+r)=0.57

19 26/09/2007 Didier Nakache - Soutenance de thèse 19 Micro et macro moyenne

20 26/09/2007 Didier Nakache - Soutenance de thèse 20 Comparaison des algorithmes

21 26/09/2007 Didier Nakache - Soutenance de thèse 21 [Dumais et al. 1998] proposent également une série de comparaisons en mettant en compétition une variante de l'algorithme de Rocchio (appelée find similar), des arbres de décision, des réseaux bayésiens et des machines à vecteurs supports : FindsimNBayesBayesNetsTreesSVM Earn92.9%95.9%95.8%97.8%98.0% Acq64.7%87.8%88.3%89.7%93.6% money-fx46.7%56.6%58.8%66.2%74.5% Grain67.5%78.8%81.4%85.0%94.6% Crude70.1%79.5%79.6%85.0%88.9% trade65.1%63.9%69.0%72.5%75.9% Interest63.4%64.9%71.3%67.1%77.7% ship49.2%85.4%84.4%74.2%85.6% wheat68.9%69.7%82.7%92.5%91.8% corn48.2%65.3%76.4%91.8%90.3% Avg Top1064.6%81.5%85.0%88.4%92.0% Avg All Cat61.7%75.2%80.0%N/A87.0%

22 26/09/2007 Didier Nakache - Soutenance de thèse 22 Comparaison des méthodes [Yang et Liu 1999] comparent ainsi les machines à vecteurs supports, les plus proches voisins, les réseaux de neurones, une combinaison linéaire, et des réseaux Bayesiens. Le résultat de leur comparaison est le suivant : MéthodeRAPPELPRECISIONF-MESURE SVM81.20%91.37%85.99% KNN83.39%88.07%85.67% LLSF85.07%84.89%84.98% Neural Network78.42%87.85%82.87% Naïve Bayes76.88%82.45%79.56%

23 26/09/2007 Didier Nakache - Soutenance de thèse 23 Comparer les méthodes ? Nb docsApprentissageTaille test Nb catégories Nom Corpus Reuters Reuters Reuters Reuters Reuters ModLewis Reuters6 Indicateurs utilisés : BEP, macro F mesure, micro F mesure, …

24 26/09/2007 Didier Nakache - Soutenance de thèse 24 TypeReuters1Reuters2Reuters3Reuters4Reuters5 Batch LinearFINDSIM [Dumais 1998] ROCCHIO [Cohen et Singer 1999] [Joachims 1998] [Lam et Ho 1998] [Li and Yamanishi 1999] Bayesian NetworkAucun [Dumais 1998] [Lam et al 1997] CommitteeADABOOST.MH [Schapire et Singer 2000] Aucun [Weiss et al 1999] Decision RulesCHARADE [Moulinier et al 1996] [Moulinier et al 1996] DL-ESC [Li and Yamanishi 1999] RIPPER [Cohen et Singer 1999] SLEEPING EXPERT [Cohen et Singer 1999] SWAP-1 [Apté et al 1994] Decision trees [Dumais 1998] C4.5 [Joachims 1998] IND [Lewis et Ringuette 1994] Example basedGIS-W [Lam et Ho 1998] KNN [Joachims 1998] [Lam et Ho 1998] [Yang 1999] [Yang et Liu 1999] Neural Network [Wiener et al 1995] CLASSI [Ng et al 1997] NNET [Yang et Liu 1999] On line linear BALANCED WINNOW[Dagan et al 1997] WIDROW-HOFF [Lam et Ho 1998] probabilisteAucun [Dumais 1998] [Joachims 1998] [Lam et al 1997] Bim [Li and Yamanishi 1999] NB [Yang et Liu 1999] PropBayes [Lewis 1992a] RegressionLLSF [Yang 1999] [Yang et Liu 1999] sans apprentissage Word [Yang 1999] SVM [Dumais 1998] SVMLIGHT [Dumais 1998] [Joachims 1998] [Li and Yamanishi 1999] [Yang et Liu 1999] REUTERSREUTERS

25 26/09/2007 Didier Nakache - Soutenance de thèse 25 Résultats sur OHSUMED Ohsumed Full range Ohsumed HD Big Ohsumed 1987 Nb Catégories ??? Probabilistic LSA TermADABOOST.MH [Cai et Hofman 2003] ADABOOST.MR [Cai et Hofman 2003] Probabilistic LSA 1000AADABOOST.MH [Cai et Hofman 2003] ADABOOST.MR [Cai et Hofman 2003] AutresWord[Yang 1999] KNN[Yang 1999] Rocchio[Yang 1999]0.460 LLFS Exponentiated Gradiant[Yang 1999]0.540 Widrow Hoff[Yang 1999]0.590

26 26/09/2007 Didier Nakache - Soutenance de thèse Le travail réalisé

27 26/09/2007 Didier Nakache - Soutenance de thèse 27 Analyse du problème : données générales

28 26/09/2007 Didier Nakache - Soutenance de thèse 28 Constitution du corpus et des bases de données - Nous avons recueilli environ comptes rendus médicaux exploitables provenant de nombreux établissements hospitaliers en France. - Nous avons constitué une base de données de mots, concepts médicaux, 957 acronymes médicaux fréquents, 224 mots stop (antidictionnaire), 1445 préfixes et suffixes médicaux.

29 26/09/2007 Didier Nakache - Soutenance de thèse 29 Nombre de diagnostics par CRH - Chaque compte rendu compte en moyenne 4.34 codes diagnostics par patient et par séjour. La variabilité est très importante puisque l'on dénombre de 1 à 32 diagnostics par patient avec une forte concentration entre 1 et 6 :

30 26/09/2007 Didier Nakache - Soutenance de thèse 30 Spécificité du problème La distribution des codes CIM montre une forte concentration sur quelques codes usuels. Ainsi, un algorithme qui présenterait une liste fixe basée uniquement sur les codes les plus fréquents obtiendrait de bons résultats, mais pour quelle utilité ? 10% des diagnostics rencontrés sont présents dans 80% des comptes rendus

31 26/09/2007 Didier Nakache - Soutenance de thèse 31 EDA : un algorithme de désuffixation

32 26/09/2007 Didier Nakache - Soutenance de thèse 32 Contexte EDA est né dune double observation : - Il existe de nombreuses formes orthographiques, fléchies,… qui rendent différent (pour lordinateur) ce qui est identique, - le langage médical repose sur une structure sémantique très forte, Nous avons voulu optimiser nos algorithmes en exploitant ces deux constats. EDA fonctionne en deux phases successives et indépendantes

33 26/09/2007 Didier Nakache - Soutenance de thèse 33 EDA : étape 1 1. transformation en minuscules, 2. séparation des caractères ligaturés ('cœur' devient 'coeur') et des traits d'unions, 3. suppression des signes diacritiques (exemple : accents 'dégénéré' devient 'degenere'), 4. suppression des doubles lettres, 5. remplacer 'ck', 'cqu', 'qu', et 'c' par 'k', et 'y' par 'i'.

34 26/09/2007 Didier Nakache - Soutenance de thèse 34 EDA : étape 1 bis - Enfin, nous appliquons, le cas échéant, un ensemble de 37 règles séquentielles, sauf si le concept restant devait avoir moins de 5 caractères.

35 26/09/2007 Didier Nakache - Soutenance de thèse 35 Exemple EDA étape 1 bis Terme de départ Règles appliquées Terme obtenu INTESTINAucuneINTESTIN INTESTINS1INTESTIN INTESTINAL5INTESTIN INTESTINAUX3 et 6INTESTIN INTESTINALES1, 2, et 5INTESTIN INTESTINALE2 et 5INTESTIN

36 26/09/2007 Didier Nakache - Soutenance de thèse 36 EDA : étape 2 - Constatant la structure sémantique très forte du langage naturel et la structure hiérarchique de la CIM10 par organes, nous avons choisi denrichir le compte rendu en fonction des préfixes, suffixes et affixes.

37 26/09/2007 Didier Nakache - Soutenance de thèse 37 EDA Etape 2 : exemples Anusproct...Péritoinecœlio... Genougon...Ratespléno... Hanchecox...Reinnéphr... Bassinetpyélo...Testiculeorch... Caecumtyphlo...Têtecéphal... Cordonfunicul...Trompesalpin... Doigtdactyl...Utérushystéro, métro... Diaphragmephréno...Vagincolpo... Foiehépat...Veinephléb..., véno... Intestinentéro...Vésicule biliairecholécyst... Langueglosso...Vessiecysto...

38 26/09/2007 Didier Nakache - Soutenance de thèse 38 Résultats Non EnrichiEnrichi Aucune désuffixation 69.23%71.97% Désuffixation avec Carry 72.27%74.12% Désuffixation avec EDA 72.87%74.72%

39 26/09/2007 Didier Nakache - Soutenance de thèse 39 Algorithme CLO3

40 26/09/2007 Didier Nakache - Soutenance de thèse 40 CLO3 est un algorithme de classification multilabels avec ajout dune dimension en environnement incertain

41 26/09/2007 Didier Nakache - Soutenance de thèse 41 Approche textmining CIREA Concept 1 Concept 2 … Concept i Document 1 Document 2 …. Document j Classe 1 Classe 2 …. Classe k Modèle Cirea : Un document = plusieurs classes et plusieurs concepts. Lenjeu devient de trouver un lien direct entre concepts et classes

42 26/09/2007 Didier Nakache - Soutenance de thèse 42 Un environnement incertain

43 26/09/2007 Didier Nakache - Soutenance de thèse 43 Origine de CLO3 - CLO3 sinspire à la fois de TF/IDF et de Naïve Bayes - Il se base sur le principe que les termes ou concepts utilisés sont en rapport direct avec les codes diagnostics.

44 26/09/2007 Didier Nakache - Soutenance de thèse 44 Calcul du poids brut - Nous allons donc calculer pour chaque terme une première variable appelée 'Poids Brut', définie comme suit : - Poids brut = Variance de la fréquence du concept / moyenne de fréquence du concept - Il s'agit donc d'un coefficient de variation qui va nous permettre de quantifier la concentration de chaque terme.

45 26/09/2007 Didier Nakache - Soutenance de thèse 45 Calcul du poids net - Mais étant donné le nombre de diagnostics associés, il fallait trouver une méthode qui permette de supprimer les mots trop rares (pour ne pas leur donner un poids injustement trop fort). La seconde étape de l'algorithme consiste à calculer un second poids, appelé poids net qui permette de quantifier la relation entre un terme et un diagnostic (que nous appelons couple) : - Poids net = Poids brut * fréquence(couple)*effectif(couple) - Nous multiplions par la fréquence et l'effectif pour faire apparaître en priorité les occurrences fréquemment rencontrées. Ainsi, les diagnostics associés seront supprimés automatiquement.

46 26/09/2007 Didier Nakache - Soutenance de thèse 46 - Supposons en effet qu'un patient souffre d'un diabète et d'une crise cardiaque. Dans le compte rendu, nous trouverons par exemple le mot diabète et le mot cardiaque. Nous allons donc avoir les quatre relations suivantes : ConceptDiagnostic Crise cardiaqueArrêt cardiaque DiabèteArrêt cardiaque Crise cardiaqueDiabète Mais sur l'ensemble des comptes rendus, la fréquence d'apparition des couples 'terme cardiaque – diagnostic diabète' et 'terme diabète – diagnostic crise cardiaque' sera faible. Donc en multipliant par cette fréquence, on supprime ces relations non désirées. En multipliant par l'effectif, on amplifie la même fonctionnalité.

47 26/09/2007 Didier Nakache - Soutenance de thèse 47 Troisième étape : Poids A - La troisième étape consiste à standardiser les valeurs calculées pour les poids nets, en calculant le poids final, appelé 'PoidsA'. Pour cela, nous divisons le poids de chaque couple par la moyenne du poids de chaque classe de diagnostic. Ce poids sera élevé à la puissance n pour amplifier le résultat.

48 26/09/2007 Didier Nakache - Soutenance de thèse 48 Calcul du poids B - La quatrième étape consiste à créer un second indicateur baptisé 'PoidsB' inspiré des probabilités simples et Naive Bayes mais en extrapolant ce raisonnement. Pour chaque couple 'terme - diagnostic', nous calculons : - PoidsB = Nombre de fois ou le concept est présent dans la classe / Effectif total du concept

49 26/09/2007 Didier Nakache - Soutenance de thèse 49 Calcul du poids CLO3 - A partir de ces deux termes, nous obtenons une fonction qui optimise le résultat de la classification en se basant sur la fonction suivante : - Poids CLO3 = PoidsA 2 * PoidsB 5

50 26/09/2007 Didier Nakache - Soutenance de thèse 50 Utilisation du poids CLO3 - Pour classifier un nouveau document, nous additions les poids CLO3 des concepts extrait. Les meilleurs scores sont proposés. Nous filtrons en ne retenant que ceux dont le seuil est supérieur à 5 E -4

51 26/09/2007 Didier Nakache - Soutenance de thèse 51 Comparaison des résultats Méthode F-Mesure Knn SVM TF IDF Naive Bayes TF IDF (RM) CLO

52 26/09/2007 Didier Nakache - Soutenance de thèse 52 Position des bons codes Position moyenne sur 7 codes proposés TFIDF 3.53 CLO33.32

53 26/09/2007 Didier Nakache - Soutenance de thèse 53 Comparaison sur OHSUMED AlgorithmeF-Mesure Word TF IDF KNN Naïve Bayes CLO

54 26/09/2007 Didier Nakache - Soutenance de thèse Lévaluation

55 26/09/2007 Didier Nakache - Soutenance de thèse 55 Etat de lart : mesures de base Correct Non correct Total Proposé ab a+b Non proposé cd c+d Totala+cb+da+b+c+d=N

56 26/09/2007 Didier Nakache - Soutenance de thèse 56 Mesures de base La communauté TALN utilise ce tableau de contingence pour calculer plusieurs mesures de base : - précision=a/(a+b), rappel=a/(a+c), pertinence=(a+d)/(a+b+c+d), erreur=(b+c)/(a+b+c+d), taux de chute=b/(b+d), silence=c/(a+c), spécificité=d/(b+d), bruit=b/(a+b), overlap=a/(a+b+c), et la généralité=a/N

57 26/09/2007 Didier Nakache - Soutenance de thèse 57 - Finalement, 4 mesures (a, b, c, d) génèrent 10 indicateurs de base. Ces indicateurs sont eux- mêmes combinés pour donner dautres mesures, en général en utilisant la précision et le rappel. - Lindicateur le plus utilisé est la F-Mesure [Van Rijsbergen 79] Indicateurs de synthèse

58 26/09/2007 Didier Nakache - Soutenance de thèse 58 La F-mesure ((1+ß²)*Précision*Rappel) / ((ß²*Précision)+Rappel) - Le paramètre ß² permet de donner un poids plus important à la précision ou au rappel, mais on positionne généralement le paramètre ß² à 1. La mesure devient : Mesure F1 = (2*Précision*Rappel) / (Précision+Rappel) - Lavantage de ce choix est que lorsque la précision est égale au rappel, on obtient : Précision = Rappel = F-mesure.

59 26/09/2007 Didier Nakache - Soutenance de thèse 59 Analyse de la F-mesure

60 26/09/2007 Didier Nakache - Soutenance de thèse 60 F-mesure = moyenne harmonique La F-mesure est la moyenne harmonique de la précision (P) et du rappel (R) : donc et finalement : soit

61 26/09/2007 Didier Nakache - Soutenance de thèse 61 Propriétés de la F-mesure Pourquoi la moyenne harmonique ? Car elle possède des propriétés intéressantes : elle se détériore quand lune des deux composantes diminue et augmente quand la différence diminue. Démonstration : Posons S=P+R, et D=P-R, avec P=précision R=Rappel

62 26/09/2007 Didier Nakache - Soutenance de thèse 62 Comparaison des moyennes a=1Harmonic meanBeta= %13%15%16%17% 18% 0.213%20%24%27%29%30%31%32%33% 0.315%24%30%34%38%40%42%44%45%46% 0.416%27%34%40%44%48%51%53%55%57% 0.517%29%38%44%50%55%58%62%64%67% 0.617%30%40%48%55%60%65%69%72%75% 0.718%31%42%51%58%65%70%75%79%82% 0.818%32%44%53%62%69%75%80%85%89% 0.918%33%45%55%64%72%79%85%90%95% 118%33%46%57%67%75%82%89%95%100% Arithmetic mean %15%20%25%30%35%40%45%50%55% 0.215%20%25%30%35%40%45%50%55%60% 0.320%25%30%35%40%45%50%55%60%65% 0.425%30%35%40%45%50%55%60%65%70% 0.530%35%40%45%50%55%60%65%70%75% 0.635%40%45%50%55%60%65%70%75%80% 0.740%45%50%55%60%65%70%75%80%85% 0.845%50%55%60%65%70%75%80%85%90% 0.950%55%60%65%70%75%80%85%90%95% 155%60%65%70%75%80%85%90%95%100%

63 26/09/2007 Didier Nakache - Soutenance de thèse 63 Propriétés de la F-mesure En abcisse et en ordonnée, sont indiquées les valeurs de précision et de rappel, la couleur indique la zone du résultat (ex : vert pour une mesure comprise entre 0.6 et 0.8) Nous pouvons observer cette propriété sur les graphiques suivants, où lon compare la moyenne harmonique avec la moyenne géométrique et arithmétique.

64 26/09/2007 Didier Nakache - Soutenance de thèse 64 Conclusions sur la F-mesure La F-mesure est un indicateur qui permet dévaluer un algorithme de classification en calculant la moyenne harmonique de la précision et du rappel, mais : - elle fonctionne en binaire (une solution est soit bonne soit fausse), - elle ne permet pas de poser de niveau dexigence Par contre : - elle se dégrade un peu quand lune des composantes diminue fortement, - elle permet de privilégier le rappel ou la précision, - cest aujourdhui un jalon de référence

65 26/09/2007 Didier Nakache - Soutenance de thèse 65 Vers une nouvelle approche

66 26/09/2007 Didier Nakache - Soutenance de thèse 66 Introduction de la K-mesure - La F-mesure vaut : (1+ß²)*(Précision*Rappel) / ((ß²*Précision)+Rappel) sachant que : 0 <= (précision * rappel) <=1 Il faut trouver une fonction Θ (précision*rappel) qui permette de faire évoluer le résultat comme nous le désirons en fonction de seuils et dont le résultat appartienne à lintervalle [0,1]. La fonction puissance répond parfaitement à ce besoin.

67 26/09/2007 Didier Nakache - Soutenance de thèse 67 La fonction puissance - Nous observons que pour un couple (précision, rappel), nous pouvons maîtriser le résultat obtenu par lutilisation de la fonction puissance (Précision*Rappel) α : plus α grandit, plus le résultat augmente tardivement

68 26/09/2007 Didier Nakache - Soutenance de thèse 68 La K-mesure En transformant la F-mesure comme suit : (1+ß²)*(Précision*Rappel) α / ((ß²*Précision)+Rappel) nous obtenons la K-mesure.

69 26/09/2007 Didier Nakache - Soutenance de thèse 69 Sur ensemble de la F-mesure - Nous constatons que la K-mesure est égale à la F-mesure pour α =1, cest donc un sur ensemble de la F- mesure. Nous pourrons ainsi conserver les jalons.

70 26/09/2007 Didier Nakache - Soutenance de thèse 70 Possibilité pour le juge - En augmentant la valeur de α, nous augmentons le niveau dexigence puisque plus α est grand, plus il faut que le produit (précision * rappel) soit élevé pour que la mesure soit bonne.

71 26/09/2007 Didier Nakache - Soutenance de thèse 71 Exemples de résultats α =1Beta=1α =1.4Beta= %13%15%16%17% 18% 0.12%3%4% 5%6% 7% 0.213%20%24%27%29%30%31%32%33% 0.23%6%8%10%11%13%14%15%16%18% 0.315%24%30%34%38%40%42%44%45%46%0.34%8%11%15%18%20%22%25%27%29% 0.416%27%34%40%44%48%51%53%55%57%0.44%10%15%19%23%27%31%34%37%40% 0.517%29%38%44%50%55%58%62%64%67%0.55%11%18%23%29%34%38%43%47%51% 0.617%30%40%48%55%60%65%69%72%75%0.66%13%20%27%34%40%46%51%56%61% 0.718%31%42%51%58%65%70%75%79%82%0.76%14%22%31%38%46%53%59%65%71% 0.818%32%44%53%62%69%75%80%85%89%0.86%15%25%34%43%51%59%67%74%81% 0.918%33%45%55%64%72%79%85%90%95%0.97%16%27%37%47%56%65%74%83%91% 118%33%46%57%67%75%82%89%95%100%17%18%29%40%51%61%71%81%91%100% α =1.8Beta=1α =2Beta= %1% 2% 3% 0.10% 1% 2% 0.21%2%3%4%5%6% 7%8%9%0.20%1% 2%3%4% 5%6%7% 0.31%3%4%6%8%10%12%14%16%18%0.30%1%3%4%6%7%9%10%12%14% 0.41%4%6%9%12%15%18%21%24%27%0.41%2%4%6%9%12%14%17%20%23% 0.52%5%8%12%16%21%25%30%34%38%0.51%3%6%9%13%16%20%25%29%33% 0.62%6%10%15%21%26%32%38%44%50%0.61%4%7%12%16%22%27%33%39%45% 0.72%6%12%18%25%32%40%47%54%62%0.71%4%9%14%20%27%34%42%50%58% 0.82%7%14%21%30%38%47%56%65%74%0.81%5%10%17%25%33%42%51%61%71% 0.93%8%16%24%34%44%54%65%76%87%0.92%6%12%20%29%39%50%61%73%85% 13%9%18%27%38%50%62%74%87%100%12%7%14%23%33%45%58%71%85%100%

72 26/09/2007 Didier Nakache - Soutenance de thèse 72 Variations de α - Voici les K-mesures résultantes pour α=1, α=1.4, et α=2

73 26/09/2007 Didier Nakache - Soutenance de thèse 73 Possibilité pour le juge - En faisant varier le paramètre β², (ici α = 1.4 et β² vaut 0.2, 1 et 4) nous pouvons privilégier le rappel ou la précision

74 26/09/2007 Didier Nakache - Soutenance de thèse 74 Conclusion K-Mesure - En conclusion, la K-mesure conserve toutes les qualités de la F-mesure, mais permet de positionner un niveau dexigence minimale.

75 26/09/2007 Didier Nakache - Soutenance de thèse 75 La D-mesure pour évaluer les performances des algorithmes en recherche dinformations (IR)

76 26/09/2007 Didier Nakache - Soutenance de thèse 76 Évaluation de lIR - Pour établir un indicateur, nous sommes partis de la formule de score donnée par [Voohrees 2003], utilisée pour les conférences TREC - où n représente le nombre de réponses exactes au rang i, et Q le nombre de questions.

77 26/09/2007 Didier Nakache - Soutenance de thèse 77 Formule de Voohrees - Cette formule se représente ainsi : Contribution au score de chaque réponse si N=20 RangContribution % % % 48.82% 57.57% 66.57% 75.74% 85.02% 94.40% % % % % % % % % % % %

78 26/09/2007 Didier Nakache - Soutenance de thèse 78 Recherche des poids - Soit la réponse i, son poids est : - avec k et l, deux paramètres (par défaut k=15, l=0.7), N représente l'effectif total, i le rang de la réponse évaluée.

79 26/09/2007 Didier Nakache - Soutenance de thèse 79 Graphe sigmoïdal Nous remarquons que si la réponse attendue n'apparaît pas dans les 50 premières réponses proposées, le score est fortement minoré, voire quasi nul au delà de 150 Observons les propriétés de cette équation en faisant varier les deux paramètres k et l (pour cette illustration, nous avons pris N=273, k=15, l=0.7)

80 26/09/2007 Didier Nakache - Soutenance de thèse 80 Variations de la mesure - Le paramètre k modifie la pente - Le paramètre l déplace le point d'inflexion :

81 26/09/2007 Didier Nakache - Soutenance de thèse 81 Indicateur : la D-mesure - La D-mesure, indice global d'évaluation devient alors :

82 26/09/2007 Didier Nakache - Soutenance de thèse 82 Exemple de D Mesure Rang iPoids WiPertinence Poids valorisé % % % % % % % % % % % % % % % % % % % % Effectif N =20 k =15 L=0.7 Somme poids =6.510 Somme poids valorisés =4.191 D-MESURE =64.4%

83 26/09/2007 Didier Nakache - Soutenance de thèse RHEA

84 26/09/2007 Didier Nakache - Soutenance de thèse 84 Les enjeux : quelques chiffres Selon l'ANAES, les infections nosocomiales représentent : - 1 million de personnes atteintes chaque année en France, - 5 à décès par an selon la méthodologie retenue - Sur le plan économique, on estime leur coût à environ 1 milliard d'euros.

85 26/09/2007 Didier Nakache - Soutenance de thèse 85 Hôpital 1 Entrepôt global Data Mining ETL BD locale Architecture générale de Rhéa Grenoble Reporting local Reporting global Saisie/ Codage PMSI Assis- tance

86 26/09/2007 Didier Nakache - Soutenance de thèse 86 Analyses Probabilité de décès = Exp(X) / (1 + Exp(X)), avec X = (0.0737*SAPSII) * (Log(SAPSII+1) / Log( ))

87 26/09/2007 Didier Nakache - Soutenance de thèse 87 Principales fonctions points de contrôle, - calculs automatique de scores : SAPS II, LOD, Trio, Omega, glasgow, Sofa, - graphiques avec courbes de tendances, - génération du compte rendu en langage naturel à partir des faits importants - génération des codes CCAM, - génération du tableau de bord, - conversion de la biologie, - requêteur - gestion des métadonnées - mise à jour automatisée, - comparaison de toutes les mesures avec les autres centres, - etc …

88 26/09/2007 Didier Nakache - Soutenance de thèse 88 Rhéa : copie écran

89 26/09/2007 Didier Nakache - Soutenance de thèse 89 Rhéa : exemple de CCAM

90 26/09/2007 Didier Nakache - Soutenance de thèse 90 Copie décran courbes avec Rhéa

91 26/09/2007 Didier Nakache - Soutenance de thèse 91 Copie écran CIREA

92 26/09/2007 Didier Nakache - Soutenance de thèse 92

93 26/09/2007 Didier Nakache - Soutenance de thèse 93 Conclusions

94 26/09/2007 Didier Nakache - Soutenance de thèse 94 Conclusions - Nous disposons dun ensemble de bases de données de termes médicaux, de terme du langage, dacronymes, de mots stops, etc… - Les résultats obtenus satisfont les utilisateurs et les perspectives doptimisation sont possibles, - Le projet est en phase pré-industrielle, - Nous avons développé 2 algorithmes (désuffixation et classification) et 2 indicateurs (D-mesure et K- mesure).

95 26/09/2007 Didier Nakache - Soutenance de thèse 95 Bilan - CIREA est implémenté dans le projet Rhéa et opérationnel, - Le projet Rhéa représente lignes de code et est implémenté dans 14 hôpitaux, - Plusieurs centres brésiliens et un hollandais doivent commencer dès cette année, - La base de données multicentrique comporte actuellement journées et plus de 7800 séjours,

96 26/09/2007 Didier Nakache - Soutenance de thèse articles publiés à partir de la base (dont un repris dans un rapport destiné au sénat).

97 26/09/2007 Didier Nakache - Soutenance de thèse 97 Merci

98 26/09/2007 Didier Nakache - Soutenance de thèse 98


Télécharger ppt "Extraction automatique des diagnostics à partir des comptes rendus médicaux textuels Laboratoire CEDRIC – équipe ISID – CNAM de Paris Didier Nakache 26."

Présentations similaires


Annonces Google