La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Passer à la première page Classification automatique de documents Laurent Denoue Equipe Syscom.

Présentations similaires


Présentation au sujet: "Passer à la première page Classification automatique de documents Laurent Denoue Equipe Syscom."— Transcription de la présentation:

1 Passer à la première page Classification automatique de documents Laurent Denoue Equipe Syscom

2 Passer à la première page Introduction n Trop de documents à trier u les experts humains coûtent cher n « Clustering » vs. Classification u Clustering = non supervisé u Classification = supervisé n Application aux documents u Quelles représentations ? u Réduction du nombre de termes ?

3 Passer à la première page Représentation des documents (indexation) n Extraction des mots u Simple (mot=suite de lettres) u Avancé (Porter) u Sophistiqué (lemmatisation) n Représentation de chaque doc. u Par un vecteur de dimension N u N = nombre total de mots distincts n Quelles valeurs dans le vecteur ? u Binaire, TDIDF,

4 Passer à la première page Quelques remarques sur la représentation choisie n « sac de mots » u on perd l information sur la position des mots n « collocations » u on calcule les 1-gram, 2-gram, … u 3-gram = « Word Wide Web » n Taille des vecteurs et de la matrice doc/mots u ne représenter que les cases non nulles ! n Prendre en compte le format des documents u par exemple en HTML (,, …)

5 Passer à la première page Mesure de la similarité entre deux documents n Le modèle vectoriel permet d utiliser des mesures connues comme u Intersection (nombre de mots communs) u Cosinus u mesure Euclidienne à N dimensions

6 Passer à la première page Réduction du nombre de termes n Nombre de termes est très grand u ex. 100 doc. de 5000 mots => termes ! n Réduction facile pour la classification u exemple : information gain n Mais comment faire pour le « clustering » ? u Utiliser les fréquences des mots u Utiliser des bases externes ? (WordNet)

7 Passer à la première page « Clustering » n Différentes méthodes u raisonnement basé sur les cas et dérivés u méthodes probabilistes u réseaux de neurones n Différents résultats u classes séparées et plates (Kohonen) u classes séparées et hiérarchisées (HAC) u classes qui se recoupent (kNN)

8 Passer à la première page Clustering k-NN et dérivés n 1966 : K-Nearest Neighbors (kNN) en o(nK) u choix du nombre K de cluster AVANT u choix au hasard de K documents u rapprochement des documents proches u recouvrements possibles (parfois intéressant) n 1968 : Single Pass en o(n) u traitement séquentiel des documents u choix arbitraire d un seuil de similarité n Solution : best-first iterative partitioning u on cherche le plus similaire à chaque fois

9 Passer à la première page Clustering hiérarchique n Hierarchical Agglomerative Clustering (HAC) u production d une hiérarchie de classes u au départ un cluster par document u rapprochement des deux clusters les plus proches jusquà n avoir qu un seul cluster n Plusieurs versions de HAC u single-linkage (Similarité = Max des similarités) u group-average (Similarité = moyenne des sim.) u complete-linkage (Similarité = Min des sim.)

10 Passer à la première page Suffix Tree Clustering n Extraction des phrases des documents u une variante des collocations étendue au documents entiers u à chaque phrase : liste des documents u Similarité = f(longueur de la phrase) n Avantages u résultat indépendant de lordre des documents u algorithme INCREMENTAL !! u pas de choix arbitraire du nombre de clusters

11 Passer à la première page « Self Organizing Maps » (SOM) ou Cartes de Kohonen n Réseau de neurones à deux niveaux u en entrée le vecteur d un document u en sortie un réseau à deux dimensions (carte) n Allure de la carte

12 Passer à la première page Algorithme dune SOM n Algorithme u poids au hasard au départ u on soumet au réseau chaque document u on calcule le neurone vainqueur (le plus actif) u on augmente son poids ET celui de ses voisins n on répète au minimum 5 fois sur les N documents

13 Passer à la première page Utilisation dune SOM n Visualisation directe du réseau de sortie u sous forme 2D u on peut augmenter avec des couleurs et du relief n Classification de nouveaux documents u on soumet son vecteur à la SOM u on regarde les nœuds les plus actifs sur la carte u on peut décider de « valider » ce choix en modifiant les poids du réseau !

14 Passer à la première page Evaluation dun clustering n Mesure de l entropie des clusters u Entropie mesure le degré de cohérence d un cluster par rapport aux autres u ou encore des fonctions ad-hoc n Si on possède un jeu dessai u exemple avec Reuters (comme classification)

15 Passer à la première page Classification supervisée n Pourquoi ? u Yahoo! automatique u Catalogues des bibliothèques où un sché u Bookmarks u filtrage de documents ( s, news) n Différent du « clustering » u ici on connaît les classes à lavance u on a des exemples n But : découvrir le modèle derrière ces exemples pour prédir la classification de nouveaux documents

16 Passer à la première page Comment ? n Raisonnement inductif u on observe les données (documents/classes) u on induit un modèle (de la connaissance) n sauf pour raisonnement basé sur les cas u on ne cherche pas de modèle n Plusieurs méthodes u k plus proches voisins (k-NN) u arbres de décision u Naïve Bayes u Réseaux de neurones u Programmation génétique

17 Passer à la première page K plus proches voisins (ou K nearest neighbors, kNN) n Choisir K n Choisir la fonction de similarité entre deux docs. n « Vectoriser » les documents n Algorithme u trouver les K plus proches documents déjà classés u répondre la moyenne des K plus proches n Problème 1 : le choix de K est important ! u Pondération des documents en fonction de leur distance au nouveau document u prise en compte de tous les documents !

18 Passer à la première page kNN (suite…) n Problème 2 : modèle vectoriel u tous les attributs ont la même importance ! u Mais 2 mots peuvent être discriminants ! u (voir Arbres de décision) n Solution u pondération des attributs u utilisation de documents exemples + test n Problème 3 : classement d un nouveau cas u trop de calculs !! n Solution : category-based ou cluster-based

19 Passer à la première page Arbres de décision n Méthode très populaire u exemples : ID3 (1986) et C4.5 (1993)de Quinlan n Quest-ce quun arbre de décision ?

20 Passer à la première page Arbres de décision (suite 1…) n Représentation des exemples : u représenter les exemples par Attribut/Valeur u ex. pour les documents : vecteur de termes n Cœur de l algorithme = quel attribut tester ? u Entropie puis Information gain n Attention à l apprentissage par cœur u idée : réduire la profondeur de larbre n Comment ? u utiliser un jeu de test en plus du jeu d exemples

21 Passer à la première page Arbres de décision (suite 2…)

22 Passer à la première page Naïve Bayes n Naïve Bayes u Nommé d après le théorème de Bayes u méthode très bien adapté aux documents u l hypothèse d indépendance des variables du théorème ne dérange pas en réalité n Idée u utiliser les probabilités de chaque classe u et les fréquences des mots associés à chaque classe

23 Passer à la première page Naïve Bayes (suite 1…)

24 Passer à la première page Réseaux de neurones n Le perceptron u combinaison linéaire des entrées u fonction de seuil à choisir « à la main » u fonctions linéairement séparables u d où critique en 1969 par Minsky et Papert n Fonction Sigmoid u permet d apprendre des fonctions non séparables linéairement

25 Passer à la première page Le perceptron n En entrée u un vecteur de dimension n : (x1,x2,…,xn) u une valeur de seuil n En sortie : Oui/Non n Topologie (= structure du réseau) u un lien pondéré wi entre chaque entrée et la sortie n Fonction u sortie = w1x1 + w2x2 + … + wnxn

26 Passer à la première page Perceptron : apprentissage n wi = wi + n(t-o)xi u n = taux d'apprentissage (0.1 puis diminue...) u t = réponse que le perceptron aurait dû donner u o = réponse actuelle du perceptron n Problème u ne fonctionne que pour le linéaire n Solution u apprentissage « règle Delta »

27 Passer à la première page Réseaux de neurones (suite 1…) n Règle Delta (ou « Gradient Descent) u à chaque étape de l apprentissage on cherche les wi pour que l erreur E globale du réseau diminue Dwi = n * Somme sur les exemple d (td-od)xid puis wi = wi + Dwi

28 Passer à la première page Réseaux de neurones (suite 2…) n Des variantes du « Delta Rule » u pour éviter les minimum locaux de l erreur n 1985 : algorithme de « BackPropagation » u apprentissage de réseaux à plusieurs sorties et plusieurs couches u utilisation de la fonction Sigmoid dans un neurone au lieu dune simple combinaison linéaire u Sigmoid = 1 / (1 + e-net) avec net = w1x1 + w2x wnxn

29 Passer à la première page Réseaux de neurone pour la classification des documents n Coder chaque document sous forme de vecteur n Présenter chaque document en entrée n Voir la sortie n Corriger les poids du réseau n Présenter tous les exemples plusieurs fois tant quils ne sont pas tous bien classés u même remarque pour « overfitting » u utilisation dun jeu de test


Télécharger ppt "Passer à la première page Classification automatique de documents Laurent Denoue Equipe Syscom."

Présentations similaires


Annonces Google