La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Fouille de Texte (Text Mining)

Présentations similaires


Présentation au sujet: "Fouille de Texte (Text Mining)"— Transcription de la présentation:

1 Fouille de Texte (Text Mining)
Objectifs, Applications Exemple des CRH Construction du Lexique Vectorisation des Textes Classification des vecteurs Retour sur l'exemple des CRH

2 Objectifs Documents électroniques Problèmes
Structurés (10%) et non-structurés (90%) Beaucoup d'outils limités au structuré (BDR) Grand volume, croissance exponentielle Problèmes Recherche plein texte (IR) Extraction de connaissances (catégorie, mots-clés, …) Structuration (XML, Tables)

3 Qu’est-ce que le Text Mining ?
Le Text Mining est l’ensemble des : Technologies et méthodes … destinées au traitement automatique … de données textuelles … disponibles sous forme informatique, … en assez grande quantité … en vue d’en dégager et structurer le contenu, les thèmes dans une perspective d’analyse rapide de découverte d’informations cachées ou de prise automatique de décision Analyse simultanée des grands groupes de documents textes afin de : Découvrir les concepts et les thèmes Établir les liens entre des groupes de documents et des thèmes

4 Définition Text Mining Techniques
Procédé consistant à synthétiser (classer, structurer, résumer, …) les textes en analysant les relations, les patterns, et les règles entre unités textuelles (mots, groupes, phrases, documents) Techniques Classification Apprentissage Recherche d’information Statistiques Extraction de patterns et d’entités Raisonnement basé cas TALN = Techniques d’analyse du langage naturel

5 Processus de Text Mining: Vue simplifiée
Lecture des fichiers textes Analyse syntaxique ou linguistique Réduction des dimensions des tables de fréquences Etablir le lien entre les groupes de documents et des thèmes Morphologique, linguistique, produit des vecteurs de frequence des mots importants

6 Analyse et Préparation
Corriger l'orthographe Eliminer les mots vides Découper les textes en unités Associer des termes à une catégorie grammaticale ou sémantique Réduire le nombre de termes à traiter Ou analyse linguistique, le but de cette analyse est d’identifier les unités textuelles riches en information Découper des textes en sous éléments Par phrases, par mots et dans ce cas il faut savoir reconnaître les mots composés et les expressions (date) Associer des termes à une catégorie grammaticale Identifier les catégories grammaticales : noms, verbes, adjectifs, adverbe Réduire le nombre de termes à traiter Faire ce que on appelle la « lemmatisation » càd on ramène les mots à leur forme canonique les noms et adjectifs ramenés au masculin singulier et les verbes à l’infinitif

7 Calculs de fréquence des termes
Une fois l’analyse syntaxique faite, on peut construire des tables de fréquences d’apparition des termes La fréquence d’un mot est calculée par une combinaison de poids (poids dans le texte et poids dans une collection de textes)

8 Réduction des dimensions
Réduire les dimensions de la table de fréquences en déterminant les termes les plus significatifs en groupant les termes par affinité (profile) Approximation de la matrice d'origine par le produit de 2 sous matrices de petite dimension Procédure itérative jusqu'à convergence Réduire les dimensions de la table de fréquences en déterminant les termes les plus significatifs. Par ex on conserve les « n » termes les plus fréquents Ou projeter des termes et des documents dans un meme plan pr analyser leur proximité (décomposition en valeur singulière (SVD))

9 Classification des documents
Application de méthodes classiques aux vecteurs Segmentation des documents Evaluation Segmentation des documents On regroupe les documents dans des classes homogènes en fonction de leur similarité Utiliser des techniques spécifiques pour faire des analyses de groupements de documents textes Modélisation Les dimensions qu’on aura déterminées peuvent servir comme paramètres d’entrée dans une étude de modélisation et combinées à des données structurées

10 Domaines d’application (1)
Exploration du contenu des documents Questions ouvertes dans une enquête Commentaires et plaintes des clients Analyse des réclamations de garantie Composition de résumés de textes Méthodes descriptives On recherche les thèmes d’un ensemble de documents sans connaître à l’avance ces thèmes

11 Domaines d’application (2)
Affectation de documents à des thèmes prédéfinis Traitement des s (redirection, filtrage) Organisation des documents par catégories Classement des contacts au centre d’appel Méthodes souvent supervisées On recherche des règles qui permettent d’affecter automatiquement un document à un thème parmi plrs thèmes prédéfinis Ex la redirection et le filtrage des mails

12 Domaines d’application (3)
Augmenter les performances des modèles prédictifs en combinant les données textuelles et les données structurées Communiqués de l’entreprise + données de la bourse prédire l’évlution de la valeur des actions Commentaires des patients + données médicales prédire l’efficacité d’un médicament

13 Domaines d'application (4)
Recherche d’information (Information retrieval) Interrogation de textes par concepts, mots-clés, sujets, phrases visant à obtenir des résultats triés par ordre de pertineance, à la Google Construction de résumé (Summarization) Abstraction et condensation d’un texte pour élaborer une version réduite conservant au maximum la sémantique Extraction d’information (Information extraction) Identification d’éléments sémantiques dans un texte (entitées, propiétés, relations, patterns …) Catégorisation de texte (Text catégorisation) Processus consistant à déterminer des sujets dans un corpus et à classer les documents du corpus selon ces sujets Interrogation en langage naturel (Question answering) Interrogation de bases de données en langage naturel

14 Problèmes classiques Moteur de recherche Web (e.g., Google)
Annotation d'information Classification (supervisée) et clustering (non supervisée) de documents Reconnaissance d'entités Reconnaissance de scénarios Extraction d'information Construction de résumés

15 Etat du sujet On est capable de:
Rechercher des documents pertinents sur un sujet avec bonne précision mais faible rappel Identifier des entités avec une très bonne précision Identifier des relations entre entités avec une bonne précision Résumer des documents en compressant à 20% tout en gardant l’essentiel Classer des document dans des classes prédéfinies avec précision et rappel supérieurs à 70%

16 Etapes de la fouille de textes
1. Sélection du corpus de documents Documents pré-classés Documents à classer 2. Extraction des termes Analyse grammaticale et/ou lemmatisation Filtrage des termes extraits 3. Transformation Passage à un espace vectoriel Réduction des dimensions 4. Classification Automatique supervisée ou non Élaboration de taxonomie (classement) 5. Visualisation des résultats 6. Interprétation des résultats

17 Architecture type: Classification
Termes uniques présents dans les documents Documents d’apprentissage Sélection des termes pré-traitement Termes uniques Lexique document Représentation Vecteurs des documents Vecteur des documents Calcul des similarités Apprentissage catégories affectées Calcul des scores des catégories k proches voisins Catégorisation

18 Exemple: Classification Google
16 classes divisées en catégories

19 Text Mining versus Data Mining
Objet numérique & catégorique textuel Structure structuré non-structuré Représentation simple complexe Dimension milliers Maturité Implémentation vaste dès 1994 Implémentation vaste dès 2000

20 2. Problème: Classification de CRH
Comptes Rendus Hospitaliers Divisés en sections: "MOTIF" "ANTECEDENTS" "HISTOIRE" "CLINIQUE" "EVOLUTION" "CONCLUSIONS" "LIBELLESACTES

21 Exemple CRH MOTIF D'HOSPITALISATION :
Décompensation respiratoire chez un patient insuffisant respiratoire chronique et insuffisant cardiaque. ANTÉCÉDENTS MÉDICAUX ET CHIRURGICAUX : ·        Notion de diabète ·        Insuffisance respiratoire chronique obstructive post-tabagique depuis 1985 sous oxygène à domicile ·        Tuberculose pulmonaire avec séquelles pleurales ·        Cardiopathie dilatée avec hypokinésie sévère (échographie cardiaque en juillet 2002 montrant une fraction d’éjection ventriculaire gauche à 35%) ·        Endoprothèse aortique sur anévrysme abdominal en juin 2002 ·        Appendicectomie Tabagisme sevré depuis 25 ans Traitement habituel : TRIATEC, KARDEGIC, LASILIX, VADILEX, DITROPAN, SYMBICORT, FORLAX et O2 1,5/mn

22 Exemple CRH (suite) HISTOIRE DE LA MALADIE ACTUELLE :
Le 21/07/2003, le patient est adressé au Centre Hospitalier Spécialisé en Pneumologie de Chevilly Larue par le SAMU pour asthénie, somnolence, altération de l’état général et selles noires depuis une semaine. Le premier bilan montre une anémie aiguë à 4 g/dl compliquée d’une insuffisance rénale aiguë avec une créatinine à 386 micromol/l (créatinine habituelle 200 micromol/l). Le KARDEGIC est alors arrêté, le patient est mis sous MOPRAL IV 40 mg/jour, il est transfusé de 3 CG et rempli par 200 ml de solutés cristalloïdes. Le 24/07/2003, le patient est transféré à l’Hôpital Antoine Béclère pour une consultation d’anesthésie avant coloscopie sous anesthésie générale. A l’arrivée à la consultation, le patient est très dyspnéique, il est alors transféré en réanimation médicale. A l’arrivée, la pression artérielle est à 133/53 mmHg, la fréquence cardiaque à 109/mn, la fréquence respiratoire à 16/mn avec une saturation en oxygène à 100% sous 3 l/mn d’oxygène. Le patient n’est pas marbré, n’est pas cyanosé. L’abdomen est souple, indolore.

23 Exemple CRH (fin) ÉVOLUTION DANS LE SERVICE : … AU TOTAL :
Patient de 79 ans, aux antécédents d’insuffisance respiratoire chronique obstructive post-tabagique et d’insuffisance cardiaque sévère, hospitalisé pour détresse respiratoire, insuffisance ventriculaire gauche et insuffisance rénale, survenant au décours d’un bilan pour anémie aiguë. Insuffisance rénale oligoanurique nécessitant une hémodiafiltration. Insuffisance cardiaque sévère (FE estimée à 10%). Pneumopathie et septicémie nosocomiale à E. coli. Choc septique. Décès. TRANSFUSIONS : oui : 4 CG en Réanimation Chirurgicale. PRESENCE DE BMR : non

24 Les classes: La CIM Classification hiérarchique à 3 niveaux

25 Résultats attendus "LIBELLESCIM" et "CODESCIM" Caractérisée par: …
à déduire Caractérisée par: Mots-clés Phrases clés Présence ou absence de symptômes Indicateurs techniques (température, tension, …)

26 3. Construction du Lexique
Elément clé dans la compréhension d'un domaine Aussi appelé dictionnaire, thésaurus, catalogue … Il existe des standards ISO Permet d'obtenir une forme canonique du document Peut contenir des entités nommées Ex: Puy de Dôme, Mont Blanc Construction manuelle difficile Différent mais voisin du concept d'ontologie

27 Qu'est-ce-qu'un lexique ?
Définition du vocabulaire d'un domaine particulier Plus qu'une liste de mots simples ou composés Des informations linguistiques additionnelles Morphologie (chant- e/es/ant/é → chante) Patterns syntaxique (transitivité, conjugaison) Conversions en formes normales (chiffres, dates, …) Des informations sémantiques additionnelles Héritage (Is-a) Synonyme Mots préférés

28 Architecture: Construction du lexique
Etiqueteur de Brill (tagger) Documents Dictionnaires Mais pour des personnes très spontanées ... Analyse Morphologique Mais/COO pour/PREP des/DTN:pl personnes/SBC:pl très/ADV spontanées/ADJ ... Analyse Linguistique Lexique

29 Stop Words (de liaison)
Liste de mots (ex. ceux listés par Oracle text) sont les 200 suivants : a , beaucoup, comment, encore, lequel, moyennant, près, ses, toujours, afin, ça, concernant, entre, les, ne, puis, sien, tous, ailleurs, ce, dans, et, lesquelles, ni, puisque, sienne, toute, ainsi, ceci, de, étaient, lesquels, non, quand, siennes, toutes, alors, cela, dedans, était, leur, nos, quant, siens, très, après, celle, dehors, étant, leurs, notamment, que, soi, trop, attendant, celles, déjà, etc, lors, notre, quel, soi-même, tu, au, celui, delà, eux, lorsque, notres, quelle, soit, un, aucun, cependant, depuis, furent, lui, nôtre, quelqu’un, sont, une, aucune, certain, des, grâce, ma, nôtres, quelqu’une, suis, vos, au-dessous, certaine, desquelles, hormis, mais, nous, quelque, sur, votre, au-dessus, certaines, desquels, hors, malgré, nulle, quelques-unes, ta, vôtre, auprès, certains, dessus, ici, me, nulles, quelques-uns, tandis, vôtres, auquel, ces, dès, il, même, on, quels, tant, vous, aussi, cet, donc, ils, mêmes, ou, qui, te, vu, aussitôt, cette, donné, jadis, mes, où, quiconque, telle, y, autant, ceux, dont, je, mien, par, quoi, telles, autour, chacun, du, jusqu, mienne, parce, quoique, tes, aux, chacune, duquel, jusque, miennes, parmi, sa, tienne, auxquelles, chaque, durant, la, miens, plus, sans, tiennes, auxquels, chez, elle, laquelle, moins, plusieurs, sauf, tiens, avec, combien, elles, là, moment, pour, se, toi, à, comme, en, le, mon, pourquoi, selon, ton.

30 Lemme et Stem Lemmatisation ~ forme canonique
book, books [book] mange, mangera, mangeaient, mangeant, [manger] Nécessite une grammaire Généralement entrée de référence en dictionnaire Stemming ~ racine + dérivation [préfixe/suffixe] produire, production, productivité [produc] Calculer par un algorithme (Stemmer)

31 L’étiquetage (tagger)
adv Adverbe subc substantif commun detp Déterminant-pronom det Déterminant subp Substantif propre adjq Adjectif qualificatif infi Infinitif ppt Participe présent ppas Participe passé verb Verbe xet Auxiliaire être xav Auxiliaire avoir pnt Point Exemple d’étiquetage Jeux de tags Fruit flies like a banana noun verb prep det Fruit flies like a banana noun verb det Word Class Label Brown Tag Word Class Det at Article N nn Noun V vb Verb Adj jj Adjective P in Preposition Card cd Number end Sentence-ending punctuation

32 Analyse morphologique
Lemme Forme CAT. Variables bonjour bonjour subc sin mas monsieur madame subc sin fem la la detp sin fem tre cod marquis marquise subc sin fem pnt voulez-vous voulez-vous cls danser danser infi ? ? pnt Voir

33 Synonymie et Polysémie
Synonyme Même concept qualifié par différents terms Ex: bandit, brigand, voleur Dégrade le rappel Polysémie Termes identiques utilisés dans des contextes sémantiques différents Ex: base De données Immeuble Vectorielle Dégrade la précision

34 Extraction d’information: Les étapes [Roche 2004]
Corpus brut Corpus nettoyé Etiqueteur Grammatical Corpus étiqueté Nettoyeur Extraction des termes Extraction d’informations Corpus composé de Termes Détection des concepts

35 4. Vectorisation d'un texte
Présence de mots ou de phrases clés Pondération positive Négation de mots ou de phrases clés Pondération négative (rarement pris en compte) Indicateurs techniques Valuation par plage [x0,x1] Difficile à mixer à la fouille de texte

36 Vectorisation des documents
docs Basé sur le lexique Présence (+) ou absence (-) Lexique Vecteur Réduction Vecteur Réduit

37 L’espace des vecteurs Chaque document est vu comme une séquence de mots Le nombre de mots du lexique présents dans les documents du corpus détermine la dimension de l’espace

38 Représentation des documents
Vecteurs de document Matrice Terme/Document ou Document/terme Nécessité de pondérer Pondération (importance relative) Nécessité de réduire l’espace Réduction de dimension w11 w12     w1d w21 w22     w2d    wt1 wt2     wtd t1 t2 tt d d    dd Freq =

39 Term frequency (TF) Un terme qui apparait plusieurs fois dans un document est plus important qu’un terme qui apparaît une seule fois wij = Nombre d’occurrences du terme ti dans le document dj TFij = Fréquence du terme ti dans le document dj

40 Inverse document frequency (IDF)
Un terme qui apparaît dans peu de documents est un meilleur discriminant qu’un terme qui apparaît dans tous les documents dfi = nombre de documents contenant le terme ti d = nombre de documents du corpus Inverse document frequency

41 Pondération TF-IDF TF-IDF signifie Term Frequency x Inverse Document Frequency : Proposée par [Salton 1989], mesure l'importance d’un terme dans un document relativement à l’ensemble des documents. tf i,j = fréquence du terme i dans le document j df i = nombre de documents contenant le terme i N = d = nombre de documents du corpus

42 Similarité entre documents
 >  cos()<cos() d2 est plus proche de d que de d3 Permet de ranger les documents par pertinence Le cosinus de l’angle est souvent utilisé d1 d2 d3

43 Réduction de dimension
Seuillage de fréquence Document Frequency Thresholding Test du Ki-2 Détermine les termes les plus caractéristiques de chaque catégorie LSI Latent Semantic Indexing Réduction par changement de base

44 Seuillage de fréquence
Terms Calculates DocFreq(w) Sets threshold  Removes all words: DocFreq <  Training documents D Calculates document frequency DOCFREQU for each term in training collection. Sets a threshold  and removes all terms if its DOCFREQU <  holds. Rare terms are either non-informative for predictions or not influential in performance. It is the simplest method with the lowest cost in computation. Feature Terms

45 Test du Ki-2 Estimation d’indépendence entre termes et catégories
Sets threshold  Removes all words: X2max(w)<  Terms Category set C={c1,c2,..cm} Term categorical score A:=|{d| d cj  w d}| B:=|{d| d cj  w d}| C:=|{d| d cj  w  d}| D:=|{d| d  cj  w  d}| N:=|{d| d D}| FEATURE TERMS Ref:[11][20][21][27]

46 Latent Semantic Indexing (LSI)
Une technique de l’algèbre linéaire Décomposition en valeurs propres (SVD) Essaie d’estimer les relations cachés Découvre les patterns d’association entre mots et concepts conceptes Permet de réduire l’espace à K dimensions Ex: de 10**6 à 100 ou 200

47 Principe de LSI (1) = * S F  T D terms documents (t,d) (t,m) (m,m)
(m,d) m<=min(t,d) T: t m matrice orthogonale TT*T=I D: m  N matrice orthogonale DT*D=I S: S matrice diagonale singulière non croissante

48 Principes de LSI (2) Soit X une matrice terme-document
F = [d dd] Latent Semantic Indexing Calcule les valeurs propres SVD de F: Matrice singulière S non croissante Met à 0 toutes les valeurs sauf les K plus grandes Obtient appr(F) par : appr(F) = Tappr(S) D

49 L'indexation en résumé Les étapes
Eliminer les mots de liaison (stop words) Remplacer chaque mot par sa racine+ (stems) Pondérer les termes (ex: TFIDF) Sélectionner les meilleurs termes Détecter des patterns (terme composé, groupe…) Convertir les documents en vecteurs

50 5. Classification de documents
Trois algorithmes de classification supervisée souvent considérés KNN (K Nearest Neighbor) Un document est classé dans la catégorie dominante parmi ses k plus proches voisins Centroid Sélection de la catégorie de plus proche centroïde Naïve Bayes Sélectionner la catégorie la plus probable

51 Principe doc classés Vectorisés Classificateur doc Non classé
Vectorisation doc classé

52 Classificateur Centroïde
Calculer le centroïde pour chaque catégorie en utilisant les exemples (training documents) Moyenner les vecteurs document pour chaque catégorie Le vecteur centroïde est utilisé comme modèle de la catégorie Sélectionner les catégories Celles de plus haut score Avec un score plus grand qu'un seuil

53 Classificateur KNN Calcul de similarité
Entre le nouveau doc. et les exemples pré-classés Similarité(d1,d2) = cos(d1,d2) Trouve les k exemples les plus proches Recherche des catégories candidates Vote majoritaire des k exemples Somme des similarités > seuil Sélection d'une ou plusieurs catégories Plus grand nombre de votes Score supérieur à un seuil

54 Naïve Bayes Modèle probabiliste
Basé sur l'observation de la présence des termes Etant donné un document d, on calcule : probabilité(cat Ci/doc d) = P(Ci) j P(tj/Ci) où tj est le terme j Suppose l'indépendance entre les termes La catégorie de plus grande probabilité est sélectionnée On peut utiliser un seuil pour en sélectionner plusieurs

55 Autres classificateurs
SVM déterminer un hyperplan qui sépare au mieux les données et dont la séparation (ou marge : distance séparant la frontière du plus proche exemple) est aussi grande que possible Arbres de décisions Construire le meilleur arbre qui classe les données en fonctions de prédicats sur attributs successifs Règles associatives Trouver les produits (ici les mots) souvent employés ensemble pour caractériser une catégorie

56 Évaluation des résultats
Mesures basés sur la table de contingences : Rappel : mesure la largeur de la catégorisation ratio des documents bien classés par rapport à l’ensemble des documents appartenant réellement à la catégorie. r=a/(a+c) Précision : mesure la qualité de la catégorisation fraction des documents bien classés sur tous les documents affectés à la catégorie. p=a/(a+b); bruit = 1-precision F-mesure mesure le compromis entre r et p: F1=2r*p/(r+p) pré-étiqueté C1 pré-étiqueté C2 Affecté à C1 a b a+b Affecté à C2 c d c+d a+c b+d a+b+c+d F-mesure = compromis entre les valeurs de r et de p Plus F1 est grand, meilleure est la qualité de la catégorisation. Si r et p ont la même valeur, il est le plus élevé et =p=r.

57 Précision et rappel: Exemple
D’après

58 6. Retour à l’exemple des CRH
Corpus:= Documents d'apprentissage (CRH+CIM) + Documents de tests (CRH) Détermination des meilleurs mots Filtrage Determination Pondération

59 Rappel des objectifs Aider le praticien à renseigner la rubrique code CIM pour un compte rendu hospitalier (CRH) Prédire les codes CIM d’un CRH Apprentissage automatique Phase préparation : Construction d’un lexique Data mining textuel Construction de modèle (apprentissage) Exploitation du modèle (classification)

60 Processus de classification: Apprentissage
ensemble de documents d’exemple pré-affectés pré-traiement & sélection des termes représentation des documents --La catégorisation de document en fait est un processus pour affecter à un document textuel une ou plusieurs catégories prédéfinis. La catégorisation est très utile pour traiter des documents textuels. Par exemple, la catégorisation permet de manipuler des e-catalogue de produits en analysant les contenus des documents décrivant les produits. --Du point de vue de l’apprentissage de machine, on peut considérer la catégorisation comme un processus d’apprentissage supervisé. C’est-à-dire, à partir d’un ensemble d’instances d’exemples préparées, on peut construire un classificateur comme le montre cette figure. --A l’aide du classificateur construit, on peut catégoriser un document. Pour ce faire, on doit représenter des documents sous forme adaptée pour classificateur, puis calculer les score pour les catégories. Enfin, on affecte à une ou plusieurs catégories le document. Comme le montre cette figure à droite. estimation des paramètres du classifieur Classifieur

61 Processus de classification: Classement
nouveau document d représenter d Utiliser le classifieur score(Ci, d) affecter d à Ci --La catégorisation de document en fait est un processus pour affecter à un document textuel une ou plusieurs catégories prédéfinis. La catégorisation est très utile pour traiter des documents textuels. Par exemple, la catégorisation permet de manipuler des e-catalogue de produits en analysant les contenus des documents décrivant les produits. --Du point de vue de l’apprentissage de machine, on peut considérer la catégorisation comme un processus d’apprentissage supervisé. C’est-à-dire, à partir d’un ensemble d’instances d’exemples préparées, on peut construire un classificateur comme le montre cette figure. --A l’aide du classificateur construit, on peut catégoriser un document. Pour ce faire, on doit représenter des documents sous forme adaptée pour classificateur, puis calculer les score pour les catégories. Enfin, on affecte à une ou plusieurs catégories le document. Comme le montre cette figure à droite. document d avec la ou les catégories affectées

62 Application aux CRH Catégorisation
Z489 CRH Moteur de catégorisation K720 C182 E834 Ontologie des cas R042 Catégorisation Proposition d’une liste de codes CIM dans l’ordre des scores. Le praticien décide lesquels affecter au CRH.

63 Spécificités Catégories nombreuses Catégories non exclusives
théoriquement ~30000 (en pratique ~2000). Les corpus d’apprentissage connus ont au maximum ~200 catégories Catégories non exclusives De 1 à 36 CIM par CRH (moyenne 5). L’algo. doit proposer des dizaines La plupart des travaux considère 1 ou 2 catégories. Catégories hiérarchiques Ontologie des maladies connue (Arbre CIM-10)

64 Nombre de catégories par document

65 Phase de préparation Construction du lexique Vectorisation
On utilise un dictionnaire médical intégré (Dicomed) Les concepts = les termes médicaux On retient la liste des concepts associés à chaque CRH Vectorisation Basée sur TF-IDF

66 Méthode proposée – Régression matricielle (1)
Basée sur la régression C = V * W + B B le biais est pris = 0 W est la matrice de transition des termes (V) aux catégories (C) C donne une probabilité pour chaque catégorie

67 Régression matricielle (2)
A l’image de la régression linéaire, on cherche les paramètres d’une fonction liant les termes ti aux catégories cj à prédire. Construit une matrice de poids (termes/CIMs) Où: Wij =dk in cj(tf-idfi,k) Structure de W Termes

68 Algorithme d'apprentissage
Entrée : collection d’apprentissage : D ={d1,.dn} ; Obtenir l’ensemble des termes de la collection d’apprentissage : T ={t1, …tm} Obtenir l’ensemble des codes CIM de la collection d’apprentissage : C={c1, …ck} Attacher la matrice W à ces deux ensembles Initialiser la matrice à zèro Pour chaque document de la collection d’apprentissage Pour chaque terme i du document courant Pour chaque code CIM j du document courant wij += TF-IDF ;

69 Classement d'un document
En phase de classement : On fait le produit du vecteur du document et de la matrice W pour obtenir un score par catégorie On retient les scores au-delà d’un seuil donné par l’utilisateur Mesure de la qualité : Le seuil permet de jouer sur le rappel et la précision. On choisit généralement un compromis entre rappel et précision en maximisant la F-mesure.

70 Résultats comparatifs
MR est meilleure que centroide, k-NN et SVM


Télécharger ppt "Fouille de Texte (Text Mining)"

Présentations similaires


Annonces Google