La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Matwin 1999 1 La Classification des textes: à la recherche dune représentation Stan Matwin École dIngénierie et de technologie de linformation Université.

Présentations similaires


Présentation au sujet: "Matwin 1999 1 La Classification des textes: à la recherche dune représentation Stan Matwin École dIngénierie et de technologie de linformation Université."— Transcription de la présentation:

1 Matwin 1999 1 La Classification des textes: à la recherche dune représentation Stan Matwin École dIngénierie et de technologie de linformation Université dOttawa stan@site.uottawa.ca

2 Matwin 1999 2 Plan Apprentissage supervisé (classification) Apprentissage automatique et fouille de données (AA/FD) à l UO Lapproche classique Essais de représentation linguistique Les N-grammes: comment les obtenir? Étiquetage et co-apprentissage Recherches futures

3 Matwin 1999 3 Apprentissage supervisé (classification) étant donnés: un ensemble dexemples T={e t }, où chaque t est létiquette dune classe parmi C 1,…C k un concept contenant k classes C 1,…C k (mais la définition du concept est inconnue) Trouver: une description de chaque classe permettant une bonne prédiction de la classe de nouveaux exemples

4 Matwin 1999 4 Classification Approche habituelle: les exemples sont représentés sous forme de vecteurs de valeurs dattributs La théorie est confirmée par lexpérience: plus il y a dexemples, plus précise est la prédiction

5 Matwin 1999 5 LAA/FD à lUO apprentissage à partir de classes déséquilibrées ( imbalanced): application à la télédétection une représentation relationnelle plutôt que propositionnelle: apprentissage du concept de maintenabilité dun logiciel apprentissage avec des connaissances du domaine. Les réseaux bayesiens et comment les obtenir. Application aux bases de données distribuées.

6 Matwin 1999 6 Á quoi sert la classification de textes? Archivage automatique Filtrage de lInternet Systèmes de recommandation Extraction dinformation …

7 Matwin 1999 7 Bag of words Classification de textes: approche habituelle 1.Enlever les mots-arrêt (stop words) et les marqueurs non-textuels 2.les mots restants sont tous pris comme des attributs 3.un document devient un vecteur 4.Entraîner un classifieur booléen pour chaque classe 5.Évaluer les résultats sur un nouvel échantillon

8 Matwin 1999 8 Outils de classification des textes RIPPER un système dapprentissage ascendant (covering) Fonctionne bien sur de gros ensembles de traits binaires Réseaux bayesiens naïfs Efficaces (pas de recherche) Simples à programmer Indiquent un niveau de croyance

9 Matwin 1999 9 Autres travaux Yang: les meilleurs résultats obtenus avec k-NN: 82,3% de précision en micro-moyenne Joachim: Support Vector Machine (SVM) + données non étiquetées SVM nest pas affectée par une forte dimensionnalité ni par la rareté des exemples.

10 Matwin 1999 10 SVM en classification de textes SVM SVM transductive Séparation maximale Marge pour le jeu de test Lentraînement sur 17 exemples dans les 10 catégories les plus fréquentes donne une performance de 60% sur 3000+ cas de test disponibles pendant lentraînement.

11 Matwin 1999 11 Problème 1: sélection de traits très sélective RIPPER (BW: mots en vrac): machine & learning = AI FLIPPER (Cohen): machine & learning & near & after = AI RIPPER (expressions): machine learning = AI

12 Matwin 1999 12 Problème 2: certaines relations sémantiques sont ignorées couteau pistolet poignardépée carabine fronde arme Des mots reliés sémantiquement peuvent être dispersés dans de nombreux documents. Un classifieur statistique peut parvernir à détecter ces corrélations. Les classifieurs à règles sont désavantagés.

13 Matwin 1999 13 Solution proposée (Sam Scott) Extraire les groupes nominaux et/ou les expression-clefs (Extractor) et les ajouter à la liste de traits Ajouter les hypernymes

14 Matwin 1999 14 Hypernymes dans WordNet synset=> SYNONYME is a=> HYPERNYME instance of=> HYPONYME is a instance of Synset arme arme à feu pistolet, fusil couteau

15 Matwin 1999 15 Évaluation (Lewis) Changer le paramètre de taux de perte (loss ratio) Pour chaque valeur du paramètre, Apprendre une hypothèse pour chaque classe (classification binaire) Micro-moyenne des matrices de confusion (ajout pour chaque composant) Calculer la précision et la couverture Interpoler (ou extrapoler) pour trouver le point où la micro-moyenne de la précision et celle de la couverture sont égales.

16 Matwin 1999 16 Résultats Les représentations alternatives ne sont pas notablement meilleures que les mots en vrac (bag of words:BW) mais… la compréhensibilité… Micromoyenne b.e. ReutersDigiTrad BW.821.359 BW S.810.360 NP.827.357 NP S.819.356 KP.817.288 e KP S.816.297 e H 0.741 e.283 H 1.734 e.281 NP W.823N/A

17 Matwin 1999 17 Combination des classifieurs Comparable aux meilleurs résultats possibles (Yang) ReutersDigiTrad # représentationsb.e.représentationsb.e. 1NP.827BW S.360 3BW, NP, NP S.845BW, BW S, NP.404 e 5BW, NP, NP S, KP, KP S.849BW, BW S, NP, KP S, KP.422 e

18 Matwin 1999 18 Autres possibilités Utilisation dhypernymes avec un jeu dapprentissage réduit (évite les mots ambigus) Utilisation de Bayes+RIPPER, en cascade (Gama) Autres représentations

19 Matwin 1999 19 Co-occurrences Pas nécessairement des groupes nominaux: simplement des paires de mots, éventuellement séparés par des mots-arrêt (stop words) Seuls les plus discriminants sont retenus Ils sont mis dans lensemble non structuré (bag of words) et transmis à… RIPPER

20 Matwin 1999 20 N-grammes Les n-grammes sont des sous-chaînes dune longueur donnée Bons résultats sur Reuters [Mladenic, Grobelnik] avec Bayes. Nous testons RIPPER. Une tâche différente: la classification de fichiers attachés au texte principal audio/vidéo encodés Des n-grammes aux traits relationnels

21 Matwin 1999 21 Comment obtenir de bons n-grammes? Nous utilisons Ziv-Lempel pour la détection de sous-chaînes fréquentes (.gz!) abababa a b a a b b a

22 Matwin 1999 22 N-grammes Comptage élimination: si la fréquence dune sous-chaîne < seuil Construction de relations: la chaîne A précède presque toujours la chaîne B Transmission à un système dapprentissage relationnel (FOIL)

23 Matwin 1999 23 Utilisation de linduction grammaticale (fichiers texte) Lidée est de détecter des formes (patterns) de sous-chaînes Les formes correspondent à des langages réguliers Méthodes de déduction dautomates: un automate de reconnaissance pour chaque classe de fichiers Nous utilisons une version modifiée de RPNI2 [Dupont, Miclet]

24 Matwin 1999 24 Nouveautés Travail sur le texte marqué (Word, Web) XML avec des marqueurs sémantiques: avantages et inconvénients pour lAA/FD Co-apprentissage Fouille de textes

25 Matwin 1999 25 Co-apprentissage Comment utiliser les données non étiquetées? Ou comment limiter le nombre dexemples à étiqueter? Deux classifieurs et deux représentations redondantes et suffisantes (redundantly sufficient) entraîner les deux, appliquer les deux sur le jeu de test, ajouter les meilleures prédictions au jeu dapprentissage.

26 Matwin 1999 26 Co-apprentissage Le jeu dentraînement saccroît car … …chaque classifieur fait ses prédictions indépendemment, à cause de la suffisance redondante) (représentations différentes) Est-ce que cela marcherait avec nos classifieurs en utilisant Bayes? Marcherait pour la classification du courrier électronique

27 Matwin 1999 27 Co-apprentissage Mitchell a fait des expériences sur la classification des pages Web (profs, étudiants, cours, projets). Cest une tâche dapprentissage supervisé. Il utilise les segments de texte associés aux liens (anchor text) le contenu des pages Le taux derreur est diminué de moitié (il passe de 11% à 5%).

28 Matwin 1999 28 Sciences cognitives? Le co-apprentissage semble être justifié cognitivement Modèle: apprentissage détudiants par groupes de deux Quels autres mécanismes dapprentissage pourraient fournir des modèles de lapprentissage supervisé?

29 Matwin 1999 29 Conclusion Une tâche pratique pour laquelle il faut trouver une solution Aucune solution satisfaisante pour linstant Un domaine de recherche fertile


Télécharger ppt "Matwin 1999 1 La Classification des textes: à la recherche dune représentation Stan Matwin École dIngénierie et de technologie de linformation Université."

Présentations similaires


Annonces Google