Fouille de Texte (Text Mining)

Slides:



Advertisements
Présentations similaires
Sintaks : Tentative de guide de mise en œuvre Michel Hassenforder.
Advertisements

Le Nom L’adjectif Le verbe Objectif: Orthogram
LES NOMBRES PREMIERS ET COMPOSÉS
Chap. 4 Recherche en Table
M. SAILLOUR Lycée Notre Dame du Kreisker St Pol de Léon
1/29 Le modèle de l ’atome Dernière mise à jour: Le 24 Septembre 2008.
Licence pro MPCQ : Cours
Distance inter-locuteur
Analyse temps-fréquence
Proposition de recherches sur ABI (Pro Quest) Lise Herzhaft (Urfist de Lyon) et MH Prévoteau (Bibliothèque Université Paris 2) Mise en forme par Nolwenn.
Les Prepositions.
Nouveau format du RUM Ce qui change au 1er janvier
Architecture de réseaux
Génération interactive dimages projectives : Application à la Radiothérapie Pierre BLUNIER Du 01/12/2002 au 28/03/2003 Centre Léon Bérard.
Indexation textuelle : Systèmes de recherche d’informations
Description du fonctionnement d'un système 1 Clic Clic
2 1. Vos droits en tant quusagers 3 1. Vos droits en tant quusagers (suite) 4.
User management pour les entreprises et les organisations Auteur / section: Gestion des accès.
À.
ORTH 1 CE2 Je sais écrire sans erreur les pluriels des noms se terminant par s, x, z.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Mr: Lamloum Med LES NOMBRES PREMIERS ET COMPOSÉS Mr: Lamloum Med.
1 5 octobre 2011 / paw Présentation du 7 octobre 2011.
C’EST MÊME PAS VRAI !!! L’INCRÉDULITÉ. C’EST MÊME PAS VRAI !!! L’INCRÉDULITÉ.
Interagir avec un objet mixte Propriétés physiques et numériques Céline Coutrix, Laurence Nigay Équipe Ingénierie de lInteraction Homme-Machine (IIHM)
1 Cours numéro 3 Graphes et informatique Définitions Exemple de modélisation Utilisation de ce document strictement réservée aux étudiants de l IFSIC.
1 Comment utiliser votre Extranet Se connecter 2.My Site 3.Documentation 3.1 Documents dintégration 3.2 Documents types 4.Vos informations privées.
Vuibert Systèmes dinformation et management des organisations 6 e édition R. Reix – B. Fallery – M. Kalika – F. Rowe Chapitre 1 : La notion de système.
Classification Multi Source En Intégrant La Texture
Cours de physique générale I Ph 11
GRAM 1 CE2 Je sais transformer une phrase affirmative en phrase négative.
18/05/ Utiliser le cahier de texte en ligne avec lapplication SPIP Adresse du site du lycée :
Le maitre est ici, et il te demande.
Le codage des nombres en informatique
Détection de co-évolution de gènes Master 2 : Informatique à Finalité Professionnelle et Recherche Unifiée (IFPRU) Parcours Ingénierie de lIntelligence.
Méthode des k plus proches voisins
Le point le plus près Montage préparé par : André Ross
Tableaux de distributions
Tableaux de distributions
LES NOMBRES PREMIERS ET COMPOSÉS
VOC 1 CE2 Je sais utiliser des mots de la vie quotidienne.
Commission Nationale des Parents - APF Mme M.M. CARBON Service Conseil Médical et Connaissance des Handicaps P.A ENQUÊTE FRERES ET SŒURS Commission Nationale.
SCIENCES DE L ’INGENIEUR
Nature ou fonction d’un mot
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
Représentation des systèmes dynamiques dans l’espace d’état
La Distribution des Données
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
1.1 LES VECTEURS GÉOMÉTRIQUES
Résoudre une équation du 1er degré à une inconnue
F L T R Université catholique de Louvain-la-Neuve Faculté de philosophie et lettres FLTR Faculté de Philosophie et Lettres Présentation décembre 2002 Réalisation:
ASI 3 Méthodes numériques pour l’ingénieur
Mise en forme en Mathématiques
La veille numérique : un outil pour s'informer intelligemment &
Elaboré par M. NUTH Sothan 1. 2 Soit x, y et z des coordonnées cartésiennes à 3 dimension. G un ensemble de points dans le plan (u, v). Déf. : On appelle.
Nom:____________ Prénom: ___________
Paradigmes des Langages de Programmation
L'analyse doit mettre en évidence la nature et la fonction du mot
Exercice de vérification 1 p
Rappels de statistiques descriptives
La formation des maîtres et la manifestation de la compétence professionnelle à intégrer les technologies de l'information et des communications (TIC)
1 Formation à l’usage éco-performant de votre pc 1 ère Partie.
Partie II: Temps et évolution Energie et mouvements des particules
Introduction à l’informatique en gestion 1 Plan de la leçon Compagnon office Sections et Mise en page En-têtes et pieds de page Notes de bas.
LES PRONOMS THEORIE.
Dominique LAURENT Patrick SEGUELA
{ L’analyse L'analyse doit mettre en évidence la nature et la fonction du mot.
{ L’analyse L'analyse doit mettre en évidence la nature et la fonction du mot.
Transcription de la présentation:

Fouille de Texte (Text Mining) Objectifs, Applications Exemple des CRH Construction du Lexique Vectorisation des Textes Classification des vecteurs Retour sur l'exemple des CRH

Objectifs Documents électroniques Problèmes Structurés (10%) et non-structurés (90%) Beaucoup d'outils limités au structuré (BDR) Grand volume, croissance exponentielle Problèmes Recherche plein texte (IR) Extraction de connaissances (catégorie, mots-clés, …) Structuration (XML, Tables)

Qu’est-ce que le Text Mining ? Le Text Mining est l’ensemble des : Technologies et méthodes … destinées au traitement automatique … de données textuelles … disponibles sous forme informatique, … en assez grande quantité … en vue d’en dégager et structurer le contenu, les thèmes dans une perspective d’analyse rapide de découverte d’informations cachées ou de prise automatique de décision Analyse simultanée des grands groupes de documents textes afin de : Découvrir les concepts et les thèmes Établir les liens entre des groupes de documents et des thèmes

Définition Text Mining Techniques Procédé consistant à synthétiser (classer, structurer, résumer, …) les textes en analysant les relations, les patterns, et les règles entre unités textuelles (mots, groupes, phrases, documents) Techniques Classification Apprentissage Recherche d’information Statistiques Extraction de patterns et d’entités Raisonnement basé cas TALN = Techniques d’analyse du langage naturel

Processus de Text Mining: Vue simplifiée Lecture des fichiers textes Analyse syntaxique ou linguistique Réduction des dimensions des tables de fréquences Etablir le lien entre les groupes de documents et des thèmes Morphologique, linguistique, produit des vecteurs de frequence des mots importants

Analyse et Préparation Corriger l'orthographe Eliminer les mots vides Découper les textes en unités Associer des termes à une catégorie grammaticale ou sémantique Réduire le nombre de termes à traiter Ou analyse linguistique, le but de cette analyse est d’identifier les unités textuelles riches en information Découper des textes en sous éléments Par phrases, par mots et dans ce cas il faut savoir reconnaître les mots composés et les expressions (date) Associer des termes à une catégorie grammaticale Identifier les catégories grammaticales : noms, verbes, adjectifs, adverbe Réduire le nombre de termes à traiter Faire ce que on appelle la « lemmatisation » càd on ramène les mots à leur forme canonique les noms et adjectifs ramenés au masculin singulier et les verbes à l’infinitif

Calculs de fréquence des termes Une fois l’analyse syntaxique faite, on peut construire des tables de fréquences d’apparition des termes La fréquence d’un mot est calculée par une combinaison de poids (poids dans le texte et poids dans une collection de textes)

Réduction des dimensions Réduire les dimensions de la table de fréquences en déterminant les termes les plus significatifs en groupant les termes par affinité (profile) Approximation de la matrice d'origine par le produit de 2 sous matrices de petite dimension Procédure itérative jusqu'à convergence Réduire les dimensions de la table de fréquences en déterminant les termes les plus significatifs. Par ex on conserve les « n » termes les plus fréquents Ou projeter des termes et des documents dans un meme plan pr analyser leur proximité (décomposition en valeur singulière (SVD))

Classification des documents Application de méthodes classiques aux vecteurs Segmentation des documents Evaluation Segmentation des documents On regroupe les documents dans des classes homogènes en fonction de leur similarité Utiliser des techniques spécifiques pour faire des analyses de groupements de documents textes Modélisation Les dimensions qu’on aura déterminées peuvent servir comme paramètres d’entrée dans une étude de modélisation et combinées à des données structurées

Domaines d’application (1) Exploration du contenu des documents Questions ouvertes dans une enquête Commentaires et plaintes des clients Analyse des réclamations de garantie Composition de résumés de textes Méthodes descriptives On recherche les thèmes d’un ensemble de documents sans connaître à l’avance ces thèmes

Domaines d’application (2) Affectation de documents à des thèmes prédéfinis Traitement des e-mails (redirection, filtrage) Organisation des documents par catégories Classement des contacts au centre d’appel Méthodes souvent supervisées On recherche des règles qui permettent d’affecter automatiquement un document à un thème parmi plrs thèmes prédéfinis Ex la redirection et le filtrage des mails

Domaines d’application (3) Augmenter les performances des modèles prédictifs en combinant les données textuelles et les données structurées Communiqués de l’entreprise + données de la bourse prédire l’évlution de la valeur des actions Commentaires des patients + données médicales prédire l’efficacité d’un médicament

Domaines d'application (4) Recherche d’information (Information retrieval) Interrogation de textes par concepts, mots-clés, sujets, phrases visant à obtenir des résultats triés par ordre de pertineance, à la Google Construction de résumé (Summarization) Abstraction et condensation d’un texte pour élaborer une version réduite conservant au maximum la sémantique Extraction d’information (Information extraction) Identification d’éléments sémantiques dans un texte (entitées, propiétés, relations, patterns …) Catégorisation de texte (Text catégorisation) Processus consistant à déterminer des sujets dans un corpus et à classer les documents du corpus selon ces sujets Interrogation en langage naturel (Question answering) Interrogation de bases de données en langage naturel

Problèmes classiques Moteur de recherche Web (e.g., Google) Annotation d'information Classification (supervisée) et clustering (non supervisée) de documents Reconnaissance d'entités Reconnaissance de scénarios Extraction d'information Construction de résumés

Etat du sujet On est capable de: Rechercher des documents pertinents sur un sujet avec bonne précision mais faible rappel Identifier des entités avec une très bonne précision Identifier des relations entre entités avec une bonne précision Résumer des documents en compressant à 20% tout en gardant l’essentiel Classer des document dans des classes prédéfinies avec précision et rappel supérieurs à 70%

Etapes de la fouille de textes 1. Sélection du corpus de documents Documents pré-classés Documents à classer 2. Extraction des termes Analyse grammaticale et/ou lemmatisation Filtrage des termes extraits 3. Transformation Passage à un espace vectoriel Réduction des dimensions 4. Classification Automatique supervisée ou non Élaboration de taxonomie (classement) 5. Visualisation des résultats 6. Interprétation des résultats

Architecture type: Classification Termes uniques présents dans les documents Documents d’apprentissage Sélection des termes pré-traitement Termes uniques Lexique document Représentation Vecteurs des documents Vecteur des documents Calcul des similarités Apprentissage catégories affectées Calcul des scores des catégories k proches voisins Catégorisation

Exemple: Classification Google 16 classes divisées en catégories

Text Mining versus Data Mining Objet numérique & catégorique textuel Structure structuré non-structuré Représentation simple complexe Dimension milliers Maturité Implémentation vaste dès 1994 Implémentation vaste dès 2000

2. Problème: Classification de CRH Comptes Rendus Hospitaliers Divisés en sections: "MOTIF" "ANTECEDENTS" "HISTOIRE" "CLINIQUE" "EVOLUTION" "CONCLUSIONS" "LIBELLESACTES …

Exemple CRH MOTIF D'HOSPITALISATION : Décompensation respiratoire chez un patient insuffisant respiratoire chronique et insuffisant cardiaque. ANTÉCÉDENTS MÉDICAUX ET CHIRURGICAUX : ·        Notion de diabète ·        Insuffisance respiratoire chronique obstructive post-tabagique depuis 1985 sous oxygène à domicile ·        Tuberculose pulmonaire avec séquelles pleurales ·        Cardiopathie dilatée avec hypokinésie sévère (échographie cardiaque en juillet 2002 montrant une fraction d’éjection ventriculaire gauche à 35%) ·        Endoprothèse aortique sur anévrysme abdominal en juin 2002 ·        Appendicectomie Tabagisme sevré depuis 25 ans Traitement habituel : TRIATEC, KARDEGIC, LASILIX, VADILEX, DITROPAN, SYMBICORT, FORLAX et O2 1,5/mn

Exemple CRH (suite) HISTOIRE DE LA MALADIE ACTUELLE : Le 21/07/2003, le patient est adressé au Centre Hospitalier Spécialisé en Pneumologie de Chevilly Larue par le SAMU pour asthénie, somnolence, altération de l’état général et selles noires depuis une semaine. Le premier bilan montre une anémie aiguë à 4 g/dl compliquée d’une insuffisance rénale aiguë avec une créatinine à 386 micromol/l (créatinine habituelle 200 micromol/l). Le KARDEGIC est alors arrêté, le patient est mis sous MOPRAL IV 40 mg/jour, il est transfusé de 3 CG et rempli par 200 ml de solutés cristalloïdes. Le 24/07/2003, le patient est transféré à l’Hôpital Antoine Béclère pour une consultation d’anesthésie avant coloscopie sous anesthésie générale. A l’arrivée à la consultation, le patient est très dyspnéique, il est alors transféré en réanimation médicale. A l’arrivée, la pression artérielle est à 133/53 mmHg, la fréquence cardiaque à 109/mn, la fréquence respiratoire à 16/mn avec une saturation en oxygène à 100% sous 3 l/mn d’oxygène. Le patient n’est pas marbré, n’est pas cyanosé. L’abdomen est souple, indolore. …

Exemple CRH (fin) ÉVOLUTION DANS LE SERVICE : … AU TOTAL : Patient de 79 ans, aux antécédents d’insuffisance respiratoire chronique obstructive post-tabagique et d’insuffisance cardiaque sévère, hospitalisé pour détresse respiratoire, insuffisance ventriculaire gauche et insuffisance rénale, survenant au décours d’un bilan pour anémie aiguë. Insuffisance rénale oligoanurique nécessitant une hémodiafiltration. Insuffisance cardiaque sévère (FE estimée à 10%). Pneumopathie et septicémie nosocomiale à E. coli. Choc septique. Décès. TRANSFUSIONS : oui : 4 CG en Réanimation Chirurgicale. PRESENCE DE BMR : non

Les classes: La CIM Classification hiérarchique à 3 niveaux

Résultats attendus "LIBELLESCIM" et "CODESCIM" Caractérisée par: … à déduire Caractérisée par: Mots-clés Phrases clés Présence ou absence de symptômes Indicateurs techniques (température, tension, …) …

3. Construction du Lexique Elément clé dans la compréhension d'un domaine Aussi appelé dictionnaire, thésaurus, catalogue … Il existe des standards ISO Permet d'obtenir une forme canonique du document Peut contenir des entités nommées Ex: Puy de Dôme, Mont Blanc Construction manuelle difficile Différent mais voisin du concept d'ontologie

Qu'est-ce-qu'un lexique ? Définition du vocabulaire d'un domaine particulier Plus qu'une liste de mots simples ou composés Des informations linguistiques additionnelles Morphologie (chant- e/es/ant/é → chante) Patterns syntaxique (transitivité, conjugaison) Conversions en formes normales (chiffres, dates, …) Des informations sémantiques additionnelles Héritage (Is-a) Synonyme Mots préférés

Architecture: Construction du lexique Etiqueteur de Brill (tagger) Documents Dictionnaires Mais pour des personnes très spontanées ... Analyse Morphologique Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ ... Analyse Linguistique Lexique

Stop Words (de liaison) Liste de mots (ex. ceux listés par Oracle text) sont les 200 suivants : a , beaucoup, comment, encore, lequel, moyennant, près, ses, toujours, afin, ça, concernant, entre, les, ne, puis, sien, tous, ailleurs, ce, dans, et, lesquelles, ni, puisque, sienne, toute, ainsi, ceci, de, étaient, lesquels, non, quand, siennes, toutes, alors, cela, dedans, était, leur, nos, quant, siens, très, après, celle, dehors, étant, leurs, notamment, que, soi, trop, attendant, celles, déjà, etc, lors, notre, quel, soi-même, tu, au, celui, delà, eux, lorsque, notres, quelle, soit, un, aucun, cependant, depuis, furent, lui, nôtre, quelqu’un, sont, une, aucune, certain, des, grâce, ma, nôtres, quelqu’une, suis, vos, au-dessous, certaine, desquelles, hormis, mais, nous, quelque, sur, votre, au-dessus, certaines, desquels, hors, malgré, nulle, quelques-unes, ta, vôtre, auprès, certains, dessus, ici, me, nulles, quelques-uns, tandis, vôtres, auquel, ces, dès, il, même, on, quels, tant, vous, aussi, cet, donc, ils, mêmes, ou, qui, te, vu, aussitôt, cette, donné, jadis, mes, où, quiconque, telle, y, autant, ceux, dont, je, mien, par, quoi, telles, autour, chacun, du, jusqu, mienne, parce, quoique, tes, aux, chacune, duquel, jusque, miennes, parmi, sa, tienne, auxquelles, chaque, durant, la, miens, plus, sans, tiennes, auxquels, chez, elle, laquelle, moins, plusieurs, sauf, tiens, avec, combien, elles, là, moment, pour, se, toi, à, comme, en, le, mon, pourquoi, selon, ton.

Lemme et Stem Lemmatisation ~ forme canonique book, books [book] mange, mangera, mangeaient, mangeant, [manger] Nécessite une grammaire Généralement entrée de référence en dictionnaire Stemming ~ racine + dérivation [préfixe/suffixe] produire, production, productivité [produc] Calculer par un algorithme (Stemmer)

L’étiquetage (tagger) adv Adverbe subc substantif commun detp Déterminant-pronom det Déterminant subp Substantif propre adjq Adjectif qualificatif infi Infinitif ppt Participe présent ppas Participe passé verb Verbe xet Auxiliaire être xav Auxiliaire avoir pnt Point Exemple d’étiquetage Jeux de tags Fruit flies like a banana noun verb prep det Fruit flies like a banana noun verb det Word Class Label Brown Tag Word Class Det at Article N nn Noun V vb Verb Adj jj Adjective P in Preposition Card cd Number – end Sentence-ending punctuation

Analyse morphologique Lemme Forme CAT. Variables bonjour bonjour subc sin mas monsieur madame subc sin fem la la detp sin fem tre cod marquis marquise subc sin fem . . pnt voulez-vous voulez-vous cls danser danser infi ? ? pnt Voir http://www-clips.imag.fr/cgi-bin/pilaf/morpho.py

Synonymie et Polysémie Synonyme Même concept qualifié par différents terms Ex: bandit, brigand, voleur Dégrade le rappel Polysémie Termes identiques utilisés dans des contextes sémantiques différents Ex: base De données Immeuble Vectorielle Dégrade la précision

Extraction d’information: Les étapes [Roche 2004] - - - - - Corpus brut - - - - - Corpus nettoyé Etiqueteur Grammatical - - - - - Corpus étiqueté Nettoyeur Extraction des termes Extraction d’informations - - - - - Corpus composé de Termes Détection des concepts

4. Vectorisation d'un texte Présence de mots ou de phrases clés Pondération positive Négation de mots ou de phrases clés Pondération négative (rarement pris en compte) Indicateurs techniques Valuation par plage [x0,x1] Difficile à mixer à la fouille de texte

Vectorisation des documents docs Basé sur le lexique Présence (+) ou absence (-) Lexique Vecteur Réduction Vecteur Réduit

L’espace des vecteurs Chaque document est vu comme une séquence de mots Le nombre de mots du lexique présents dans les documents du corpus détermine la dimension de l’espace

Représentation des documents Vecteurs de document Matrice Terme/Document ou Document/terme Nécessité de pondérer Pondération (importance relative) Nécessité de réduire l’espace Réduction de dimension w11 w12     w1d w21 w22     w2d    wt1 wt2     wtd t1 t2  tt d1 d2    dd Freq =

Term frequency (TF) Un terme qui apparait plusieurs fois dans un document est plus important qu’un terme qui apparaît une seule fois wij = Nombre d’occurrences du terme ti dans le document dj TFij = Fréquence du terme ti dans le document dj

Inverse document frequency (IDF) Un terme qui apparaît dans peu de documents est un meilleur discriminant qu’un terme qui apparaît dans tous les documents dfi = nombre de documents contenant le terme ti d = nombre de documents du corpus Inverse document frequency

Pondération TF-IDF TF-IDF signifie Term Frequency x Inverse Document Frequency : Proposée par [Salton 1989], mesure l'importance d’un terme dans un document relativement à l’ensemble des documents. tf i,j = fréquence du terme i dans le document j df i = nombre de documents contenant le terme i N = d = nombre de documents du corpus

Similarité entre documents  >  cos()<cos() d2 est plus proche de d1 que de d3 Permet de ranger les documents par pertinence Le cosinus de l’angle est souvent utilisé   d1 d2 d3

Réduction de dimension Seuillage de fréquence Document Frequency Thresholding Test du Ki-2 Détermine les termes les plus caractéristiques de chaque catégorie LSI Latent Semantic Indexing Réduction par changement de base

Seuillage de fréquence Terms Calculates DocFreq(w) Sets threshold  Removes all words: DocFreq <  Training documents D Calculates document frequency DOCFREQU for each term in training collection. Sets a threshold  and removes all terms if its DOCFREQU <  holds. Rare terms are either non-informative for predictions or not influential in performance. It is the simplest method with the lowest cost in computation. Feature Terms

Test du Ki-2 Estimation d’indépendence entre termes et catégories Sets threshold  Removes all words: X2max(w)<  Terms Category set C={c1,c2,..cm} Term categorical score A:=|{d| d cj  w d}| B:=|{d| d cj  w d}| C:=|{d| d cj  w  d}| D:=|{d| d  cj  w  d}| N:=|{d| d D}| FEATURE TERMS Ref:[11][20][21][27]

Latent Semantic Indexing (LSI) Une technique de l’algèbre linéaire Décomposition en valeurs propres (SVD) Essaie d’estimer les relations cachés Découvre les patterns d’association entre mots et concepts conceptes Permet de réduire l’espace à K dimensions Ex: de 10**6 à 100 ou 200

Principe de LSI (1) = * S F  T D terms documents (t,d) (t,m) (m,m) (m,d) m<=min(t,d) T: t m matrice orthogonale TT*T=I D: m  N matrice orthogonale DT*D=I S: S matrice diagonale singulière non croissante

Principes de LSI (2) Soit X une matrice terme-document F = [d1 . . . dd] Latent Semantic Indexing Calcule les valeurs propres SVD de F: Matrice singulière S non croissante Met à 0 toutes les valeurs sauf les K plus grandes Obtient appr(F) par : appr(F) = Tappr(S) D

L'indexation en résumé Les étapes Eliminer les mots de liaison (stop words) Remplacer chaque mot par sa racine+ (stems) Pondérer les termes (ex: TFIDF) Sélectionner les meilleurs termes Détecter des patterns (terme composé, groupe…) Convertir les documents en vecteurs

5. Classification de documents Trois algorithmes de classification supervisée souvent considérés KNN (K Nearest Neighbor) Un document est classé dans la catégorie dominante parmi ses k plus proches voisins Centroid Sélection de la catégorie de plus proche centroïde Naïve Bayes Sélectionner la catégorie la plus probable

Principe doc classés Vectorisés Classificateur doc Non classé Vectorisation doc classé

Classificateur Centroïde Calculer le centroïde pour chaque catégorie en utilisant les exemples (training documents) Moyenner les vecteurs document pour chaque catégorie Le vecteur centroïde est utilisé comme modèle de la catégorie Sélectionner les catégories Celles de plus haut score Avec un score plus grand qu'un seuil

Classificateur KNN Calcul de similarité Entre le nouveau doc. et les exemples pré-classés Similarité(d1,d2) = cos(d1,d2) Trouve les k exemples les plus proches Recherche des catégories candidates Vote majoritaire des k exemples Somme des similarités > seuil Sélection d'une ou plusieurs catégories Plus grand nombre de votes Score supérieur à un seuil

Naïve Bayes Modèle probabiliste Basé sur l'observation de la présence des termes Etant donné un document d, on calcule : probabilité(cat Ci/doc d) = P(Ci) j P(tj/Ci) où tj est le terme j Suppose l'indépendance entre les termes La catégorie de plus grande probabilité est sélectionnée On peut utiliser un seuil pour en sélectionner plusieurs

Autres classificateurs SVM déterminer un hyperplan qui sépare au mieux les données et dont la séparation (ou marge : distance séparant la frontière du plus proche exemple) est aussi grande que possible Arbres de décisions Construire le meilleur arbre qui classe les données en fonctions de prédicats sur attributs successifs Règles associatives Trouver les produits (ici les mots) souvent employés ensemble pour caractériser une catégorie

Évaluation des résultats Mesures basés sur la table de contingences : Rappel : mesure la largeur de la catégorisation ratio des documents bien classés par rapport à l’ensemble des documents appartenant réellement à la catégorie. r=a/(a+c) Précision : mesure la qualité de la catégorisation fraction des documents bien classés sur tous les documents affectés à la catégorie. p=a/(a+b); bruit = 1-precision F-mesure mesure le compromis entre r et p: F1=2r*p/(r+p) pré-étiqueté C1 pré-étiqueté C2 Affecté à C1 a b a+b Affecté à C2 c d c+d a+c b+d a+b+c+d F-mesure = compromis entre les valeurs de r et de p Plus F1 est grand, meilleure est la qualité de la catégorisation. Si r et p ont la même valeur, il est le plus élevé et =p=r.

Précision et rappel: Exemple D’après maybury@mitre.org

6. Retour à l’exemple des CRH Corpus:= Documents d'apprentissage (CRH+CIM) + Documents de tests (CRH) Détermination des meilleurs mots Filtrage Determination Pondération

Rappel des objectifs Aider le praticien à renseigner la rubrique code CIM pour un compte rendu hospitalier (CRH) Prédire les codes CIM d’un CRH Apprentissage automatique Phase préparation : Construction d’un lexique Data mining textuel Construction de modèle (apprentissage) Exploitation du modèle (classification)

Processus de classification: Apprentissage ensemble de documents d’exemple pré-affectés pré-traiement & sélection des termes représentation des documents --La catégorisation de document en fait est un processus pour affecter à un document textuel une ou plusieurs catégories prédéfinis. La catégorisation est très utile pour traiter des documents textuels. Par exemple, la catégorisation permet de manipuler des e-catalogue de produits en analysant les contenus des documents décrivant les produits. --Du point de vue de l’apprentissage de machine, on peut considérer la catégorisation comme un processus d’apprentissage supervisé. C’est-à-dire, à partir d’un ensemble d’instances d’exemples préparées, on peut construire un classificateur comme le montre cette figure. --A l’aide du classificateur construit, on peut catégoriser un document. Pour ce faire, on doit représenter des documents sous forme adaptée pour classificateur, puis calculer les score pour les catégories. Enfin, on affecte à une ou plusieurs catégories le document. Comme le montre cette figure à droite. estimation des paramètres du classifieur Classifieur

Processus de classification: Classement nouveau document d représenter d Utiliser le classifieur score(Ci, d) affecter d à Ci --La catégorisation de document en fait est un processus pour affecter à un document textuel une ou plusieurs catégories prédéfinis. La catégorisation est très utile pour traiter des documents textuels. Par exemple, la catégorisation permet de manipuler des e-catalogue de produits en analysant les contenus des documents décrivant les produits. --Du point de vue de l’apprentissage de machine, on peut considérer la catégorisation comme un processus d’apprentissage supervisé. C’est-à-dire, à partir d’un ensemble d’instances d’exemples préparées, on peut construire un classificateur comme le montre cette figure. --A l’aide du classificateur construit, on peut catégoriser un document. Pour ce faire, on doit représenter des documents sous forme adaptée pour classificateur, puis calculer les score pour les catégories. Enfin, on affecte à une ou plusieurs catégories le document. Comme le montre cette figure à droite. document d avec la ou les catégories affectées

Application aux CRH Catégorisation Z489 CRH Moteur de catégorisation K720 C182 E834 … Ontologie des cas R042 Catégorisation Proposition d’une liste de codes CIM dans l’ordre des scores. Le praticien décide lesquels affecter au CRH.

Spécificités Catégories nombreuses Catégories non exclusives théoriquement ~30000 (en pratique ~2000). Les corpus d’apprentissage connus ont au maximum ~200 catégories Catégories non exclusives De 1 à 36 CIM par CRH (moyenne 5). L’algo. doit proposer des dizaines La plupart des travaux considère 1 ou 2 catégories. Catégories hiérarchiques Ontologie des maladies connue (Arbre CIM-10)

Nombre de catégories par document

Phase de préparation Construction du lexique Vectorisation On utilise un dictionnaire médical intégré (Dicomed) Les concepts = les termes médicaux On retient la liste des concepts associés à chaque CRH Vectorisation Basée sur TF-IDF

Méthode proposée – Régression matricielle (1) Basée sur la régression C = V * W + B B le biais est pris = 0 W est la matrice de transition des termes (V) aux catégories (C) C donne une probabilité pour chaque catégorie

Régression matricielle (2) A l’image de la régression linéaire, on cherche les paramètres d’une fonction liant les termes ti aux catégories cj à prédire. Construit une matrice de poids (termes/CIMs) Où: Wij =dk in cj(tf-idfi,k) Structure de W Termes

Algorithme d'apprentissage Entrée : collection d’apprentissage : D ={d1,.dn} ; Obtenir l’ensemble des termes de la collection d’apprentissage : T ={t1, …tm} Obtenir l’ensemble des codes CIM de la collection d’apprentissage : C={c1, …ck} Attacher la matrice W à ces deux ensembles Initialiser la matrice à zèro Pour chaque document de la collection d’apprentissage Pour chaque terme i du document courant Pour chaque code CIM j du document courant wij += TF-IDF ;

Classement d'un document En phase de classement : On fait le produit du vecteur du document et de la matrice W pour obtenir un score par catégorie On retient les scores au-delà d’un seuil donné par l’utilisateur Mesure de la qualité : Le seuil permet de jouer sur le rappel et la précision. On choisit généralement un compromis entre rappel et précision en maximisant la F-mesure.

Résultats comparatifs MR est meilleure que centroide, k-NN et SVM