La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La classification de texte par mixture d’experts Nathalie Japkowicz SITE, Université d’Ottawa (Travail conduit en collaboration avec Andrew Estabrooks,

Présentations similaires


Présentation au sujet: "La classification de texte par mixture d’experts Nathalie Japkowicz SITE, Université d’Ottawa (Travail conduit en collaboration avec Andrew Estabrooks,"— Transcription de la présentation:

1 La classification de texte par mixture d’experts Nathalie Japkowicz SITE, Université d’Ottawa (Travail conduit en collaboration avec Andrew Estabrooks, IBM Toronto Labs) Présenté au Workshop CONLL’01 et à la Conférence IDA’01

2 2 La classification de texte Étant donnés: Une base de donnée de documents portant sur un nombre de sujets différents. Le sujet associé à chacun de ces documents. Trouver: Un processus de classification capable de catégoriser des documents—dont les sujets sont, à l’origine, inconnus—par sujet.

3 3 Comment la catégorisation de texte est-elle faite? Un dictionnaire est formé à partir des mots- à-contenu les plus fréquents dans la base de données de documents. bird flower sun camp aspect 01 1 1 … … leisure classe Vecteur de mots work 0 Les documents sont exprimés en fonction de ce dictionnaire et de la catégorie de sujets à laquelle ils appartiennent. 1

4 4 Caractéristiques typiques de la classification de texte Les donnés ont une dimension très élevée: les documents sont représentés par de très larges vecteurs de mots. Les données présentent une imbalance de classes très importante: il existe très peu de documents couvrant les sujets qui nous intéressent alors qu’il y a une très grande quantité de textes sur des sujets non apparentés. Bien qu’une large quantité de textes soient disponible en ligne, très peu de ces textes ont été préalablement classifiés.

5 5 Pourquoi les imbalances de classes sont-elles problématiques? Les imbalances de classes causent une perte d’exactitude dans la plûpart des systèmes d’apprentissage qui ont tendence a attribuer trop d’importance à la grande classe et trop peu d’importance à la plus petite. Exemple: Si un ensemble de données contient 25 exemples positifs et 1,000 exemples négatifs, les systèmes d’apprentissage ont tendence a prédire “négatif” tout le temps car une telle prédiction est correcte dans 97.5% des cas.

6 6 Différentes approches utilisables en présence d’imbalance de classe Approches utilisable lors d’imbalance de classe Compensation Contournement Données: Stratification Classificateur: Coût Classificateur: Apprentissage sur une seule classe Classificateur: Apprentissage insensitive au coût Redistri- bution des données Modification du coût de misclassification de la grande/petite classe

7 7 Redistribution des données Il y a deux méthodes générales de re-distribution des données: Redistribution par le haut: la petite classe est agrandie, ou bien par répétition des exemples déjà présents (soit aléatoirement soit de manière heuristique) ou bien en créant de nouveaux exemples. Redistribution par le bas: la grande classe est réduite en éliminant certains exemples, ou bien aléatoirement ou bien de manière heuristique. Ces types d’approches ont été utilisées par (Lewis & Gale, 94), (Kubat & Matwin, 97) et (Domingos, 99).

8 8 Questions posées dans cette étude Doit-on utiliser la re-distribution par le haut ou par le bas? Les deux approches sont-elles aussi précises? Calculent-elles le même modèle de classification? A quel taux devons-nous re-distribuer? Devons-nous redistribuer jusqu’a ce que les deux classes contiennent le même nombre d’exemples? Ou bien devons-nous arrêter la re-distribution avant qu’une égalité cardinale soit atteinte? Serait-il utile de combiner les deux approches et leur différent taux de re-distribution?

9 9 Plan de la présentation 1ere Partie: Études expérimentale sur un domaine artificiel contrôlé: I.1 Description du Domaine Artificiel I.2 Redistribution par le haut versus par le bas I.3 Les effets des taux variables sur la re-distribution 2eme Partie: un système de Mixture d’Experts II.1 Description de la méthode de combinaison II.2 Description de la tâche de classification de texte II.3 Test de la méthode de combinaison sur la tâche de classification de texte.

10 1ere Partie Étude expérimentale sur un ensemble de données artificielles contrôlable

11 11 I.1 Description du domaine artificiel Afin de conduire nos expériences préliminaires, nous avons créé des données artificielles dans le domaine des expressions k-DNF. Par exemple:. (x 1 ^ x 3 ^ ~x 5 ) v (~x 3 ^ x 4 ^ x 5 ) Les expressions k-DNF ont été choisies à cause de leur correspondance aux données de classification de textes: Petites classes positives et grandes classes n é gatives Facilité du changement de complexité du concept reflétant la complexité des données dans les tâches de classification de texte.

12 12 I.2 Redistribution par le haut et par le bas: exactitude Observation: La re-distribution par le haut et par le bas sont toutes les deux utiles. Question: Résoudent-elles le problème de la même facon ou apprennent-elles des solutions différentes? 0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 Imbal.BasHaut 4x4 4x6 4x8 4x10 ErrorError Complexite du Concept

13 13 I.2 Redistribution par le haut et par le bas  # de règles I Par le BasPar le Haut Complexite de l’ expression Taille des règles moyenne Nombre de règles Taille des règles moyenne Nombre de règles 4x24.02.04.02.0 4x43.85.64.0 4x64.713.54.06.0 4x84.915.48.336.2 4x105.018.68.543.7 Nombre de regles positives

14 14 Par le BasPar le Haut Complexité de l’ expression Taille des règles moyenne Nombre de règles Taille des règles moyenne Nombre de règles 4x22.09.42.013.4 4x44.017.54.644.1 4x64.819.05.678.3 4x85.017.45.994.6 4x104.918.16.089.5 Nombre de regles Négatives I.2 Re-distribution par le haut et par le bas  # de règles II

15 15 I.2 Redistribution par le haut et par le bas  Analyze Dans les ensembles de données à imbalances de classes, l’exactitude détroit lorsque la complexité du concept croit. Aussi bien la re-distribution par le haut que la re- distribution par le bas sont utiles, bien que la re- distribution par le haut semble, le plus souvent, plus effective que celle par le bas. Les re-distributions par le haut et par le bas contribuent de manière différente au problème: la re- distribution par le haut apprend le concept créant beaucoup plus de règles que la re-distribution par le bas  Une combinaison peut être avantageuse.

16 16 I.3 Les effets de la re-distribution à taux variable  Par le Haut Remarque 1: L’exactitude optimale ne prend pas place lorsque les deux classes ont la même cardinalité. Remarque 2: L’exactitude optimale prend place à différent % de re-distribution dans des cas différents. 0 0.05 0.1 0.15 0.2 0.25 0.3 0 20406080 100 % de la classe Pos. Repetee Error 4x5 4x7 Imbal. Cardinale Maximale Pas d’Imbal. Cardinale

17 17 I.3 Les effets de la re-distribution à taux variable  Par le Bas 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0 20406080 100 % de la classe Neg. Eliminee Error 4x5 4x7 Imbal. Cardinale Maximale Pas d’Imbal. Cardinale Dans une certaine mesure, les mêmes remarques peuvent etre faite que dans le cas de la re-distribution par le Haut

18 18 I.3 Les effets de la re-distribution à taux variable  Analyze Différent taux de redistribution affectent l’exactitude du système de classification sur les domaines à imbalance de classe différemment. La re-distribution (par le haut ou par le bas) jusqu’à l’atteinte d’une balance cardinale des deux classes n’est pas nécessairement la meilleure stratégie: l’exactitude optimale peut-être atteinte lorsque les deux classes n’ont pas la même taille. Les taux de redistribution optimaux varient selon le domaine. Par exemple, ils sont différents pour les domaines contenant des concepts de complexité différente.

19 2eme Partie Une méthode de mixture d’experts pour la classification de texte

20 20 II.1 description de la méthode de mixture d’experts I … … Sortie Expert par le HautExpert par le Bas Classificateurs par le haut (à taux différents) Classificateurs par le bas (à taux différents) Spécialization de l’architecture générale proposée par [Shimshoni & Intrator]

21 21 II.1 Description de la méthode de mixture d’experts II Calculs aux niveau des classificateurs: Les classificateurs sont pondérés et les moins performants sont rejetés. Calculs au niveau des experts: La décision des classificateurs non rejetés sont combinées. Calculs au niveau de la Sortie: La décision des deux experts est combinée. Note: Différentes stratégies de pondération et de combinaison peuvent être choisies. Les stratégies choisies pour notre application de classification de texte sera décrite une fois cette tâche bien expliquée.

22 22 II.2 La classification de texte Classe# de Documents Earn3987 ACQ2448 MoneyFx801 Grain628 Crude634 Trade551 Interest513 Ship305 Wheat306 Corn254 Les 10 catégories principales du domaine: Reuters- 21578

23 23 II.2 La classification de texte  Division des données Afin de faciliter la comparaison entre différents classificateurs, il existe plusieurs manières standards de diviser les données. Une division commune est la division de ModApte qui divise les données comme suit: Données d’entraînement = Tous les documents catégorisés avant 07-04-87 => 9603 Documents Données de Test = Tous les documents catégorisés après 07-04-87 => 3299 Documents Autres Documents = Tous les documents non catégorisés => 8676 Documents

24 24 II.2 La classification de texte  Représentation de documents Toute la ponctuation et tous les nombres ont été éliminés. Les documents ont été filtrés à travers une liste de mots d’arrêt. Les mots de chaque document ont été tronqués en utilisant la méthode de tronquage de Lovins. Les 500 mots les plus fréquents ont été utilisés comme dictionnaire pour les vecteurs de mots [Note: 500 représente moins de mots que le nombre habituellement utilisé. Ceci a été fait de manière à réduire le temps de traitement. Cela n’a pas affecté les résultats trop négativement [Estabrooks, 00]]. Les ensembles de données ont été divisés en 10 ensembles de deux classes. De plus, nous avons réduit la classe positive a 100 documents dans chaque problème afin de rendre la tâche plus réaliste.

25 25 II.3 Tests de la méthode de combinaison  Détails de mise au point Méthode de Pondérage: L’“autre” ensemble de données non-catégorisées a été utilisé comme ensemble de pondérage. La classification de ces données a été éstimée en utilisant le classifieur le plus imbalancé et le plus balancé de chaque exèrt et en faisant la moyenne de leurs résultats. Les classifieurs au niveau expèrt ont été rejetés si le nombre de données classifiées comme positive n’ont pas atteint cette moyenne. Niveau Expèrt: Si l’un des classifieurs a voté “positif” pour un example, l’expèrt votera aussi positif Niveau Sortie: Si l’un des deux expèrts a voté “positif” pour un exemple, la sortie sera aussi positif. Note: La mixture d’expèrts est grandement biaisée vers la classe positive (la petite classe). Ce biais peut etre changé si nécéssaire.

26 26 II.3 Tests de la méthode de combinaison  Expériences Cette méthode de combinaison a été comparée à C5.0-Adaboost (avec 20 classificateurs) en fonction des mesures F B. Les mesures F B combinent la précision (la proportion d’exemples classifiés positifs réellement positifs) et rappel (la proportion d’exemples positifs réels classifiés positif) de la manière suivante: F 1  précision = rappel F 2  2 * précision = rappel F 0.5  précision = 2 * rappel

27 27 II.3 Tests de la méthode de combinaison  Résultats F-Measure (plus elle est elevée Plus le système est performant) Dans tous les cas la méthode d’experts est supérieure à Adaboost. Néanmoins, alors qu’elle aide aussi bien le rappel que la précision, elle aide plus le rappel.

28 28 Conclusions Lors de présence d’imbalances de classes, les méthodes de re-distribution différentes affectent le problème de classification différemment. En particulier, la re-distribution par le haut et par le bas apprennent des solutions différentes et sont toutes deux affectées par le taux auquel les données sont re- distribuées. Basé sur ces considérations, nous avons créé un système de combinaison utilisant le meilleur classificateur dans chaque solution sans avoir besoin de choisir un classificateur optimal avant d’utiliser le système. Nous avons biaisé ce système vers la petite classe et avons trouvé que cela a aide la classification générale.

29 29 Travail Futur Jusqu’à maintenant, seules des méthodes de re- distribution très naïves ont été utilisées. Il serait utile de tester notre approche avec des méthodes de re- distribution plus sophistiquées. Bien que notre méthode de combinaison actuelle marche bien pour notre domaine, il serait utile, également, d’expérimenter avec d’autres méthodes de pondération et de votes. Il serait aussi utile de tester notre méthode sur d’autres domaines présentant une imbalance de classe naturelle Il serait aussi désirable de tester notre méthode avec des approches basées sur la modification de co û ts plutôt que sur la re-distribution d’exemples.


Télécharger ppt "La classification de texte par mixture d’experts Nathalie Japkowicz SITE, Université d’Ottawa (Travail conduit en collaboration avec Andrew Estabrooks,"

Présentations similaires


Annonces Google