Télécharger la présentation
1
Classification thématique de courriels
5 juin 2004 Classification thématique de courriels Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze 05/06/2004 Kessler Rémy
2
Plan Problématique Méthode Méthode Hybride Résultats
Pré-traitement Apprentissage non supervisé: k-means/k-means flou supervisé: Machine à support vectoriel Méthode Hybride Résultats Conclusion et perspectives 05/06/2004 Kessler Rémy
3
Problématique Les nouvelles formes de communication sont un défi considérable pour leur traitement.. Gérer ces flux d’information devient un enjeu majeur pour les entreprises. Cela implique de : Classer les courriels en fonction de leur thématique Automatiser les réponses Corpus construit à partir de Newsletter et de listes de diffusion 05/06/2004 Kessler Rémy
4
Pré-traitement 05/06/2004 Kessler Rémy
5
Schéma du pré-traitement
05/06/2004 Kessler Rémy
6
Nettoyage du corpus Séparation de l’en-tête, du corps et des pièces jointes Génération d’un fichier XML Statistique du Corpus 05/06/2004 Kessler Rémy
7
Suppression des micro-publicités
Ajoutés au bas des courriels par les fournisseurs en service de messagerie éléctronique La micro-publicité aucune informations ajoute du bruit _____________________________________________________________________ Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger la 1ère messagerie instantanée de France 05/06/2004 Kessler Rémy
8
Traduction du phonécrit
Phonécrit: Toute forme d’écriture basée sur une écriture phonétique sans contrainte ou avec des règles établies par l’usage « Traduction » en langue française :-) → sourire A+, a+ → à plus tard @2m1 → à demain Etc. → Et cetera Premier traitement Ambiguïté dans certain cas: 7 → Cet(te) ou Sète, L → Elle 05/06/2004 Kessler Rémy
9
Filtrage & Lemmatisation
Mots composés deviennent des termes uniques pomme de terre → pomme_de_terre pique nique, pique niquons, pique niques → pique_niquer Anti-dictionnaire Suppression des verbes et des mots fonctionnels Suppression des expressions courantes Lemmatisation à partir d’un dictionnaire chante, chantaient, chanté, chanteront et éventuellement chanteur sont ramenés a chanter Réduire le nombre de dimensions de la matrice 05/06/2004 Kessler Rémy
10
Représentation vectorielle
i N-1 N Termes Mij = Fréquence du terme i dans le courriel j 1 2 3 .... 1 3 1 1 2 4 1 j 1 2 1 Courriels P 1 Matrice de fréquences Termes-Courriels 05/06/2004 Kessler Rémy
11
Réduction de la taille de la matrice
i N-1 N Termes 1 2 3 .... 1 3 1 1 2 4 1 j 1 2 1 Courriels P 1 Matrice réduite 05/06/2004 Kessler Rémy
12
Observation Répartition des termes en fonction des courriels Découpage
des classes par les densités Fortes densités des nouveaux termes dès le début d’une nouvelle classe 05/06/2004 Kessler Rémy
13
Apprentissage 05/06/2004 Kessler Rémy
14
K-Means /K-Means flou Choix de centroïdes (centre de la classe)
puis calcul de la distance entre chaque vecteur (courriel) et ces centroïdes Intérêt du flou : Le courriel X est à 0.9 pour le destinataire A et à 0.7 pour le destinataire B On le dirige vers A avec B en copie 05/06/2004 Kessler Rémy
15
K-Means /K-Means flou (2)
Problème de l’initialisation Initialisation aléatoire Minimaux locaux Initialisation semi-supervisé Une faible partie des exemples pour mieux placer les centroïdes 05/06/2004 Kessler Rémy
16
Machines à support vectoriel
Proposé par Vapnik, celles ci reposent sur : Projection des données dans un espace de grande dimension à l’aide d’une fonction noyau Classifieur permettant de maximiser les distances entre les classes et donc de trouver les hyperplans optimaux 05/06/2004 Kessler Rémy
17
Méthode hybride Combinaison des 2 méthodes
Apprentissage non supervisé par K-means/ K-means flou Apprentissage supervisé par Machines à support Vectoriel à partir des résultats obtenus par K-means Généralisation sur des ensembles de test indépendant 05/06/2004 Kessler Rémy
18
Chaîne de traitement 05/06/2004 Kessler Rémy
19
Résultats 05/06/2004 Kessler Rémy
20
Résultats Méthode Hybride Corpus de tests de P={200,500,1000}
K classes parmi : {football, jeux de rôles, cinéma, ornithologie} Écart-Type sur des séries de 10 Tests avec tirage aléatoire 05/06/2004 Kessler Rémy
21
Résultats(2) Pas de détérioration des performances en augmentant la taille du corpus La courbe hybride est très proche de celle des SVM 05/06/2004 Kessler Rémy
22
Conclusion et perspectives
particularité de langage phonécrit Euristique de pré-traitement Premiers résultats de la méthode hybride intéressants Améliorer les performance des SVM Combinaison de classifieurs (SVM, Bayes, LVQ, …) Augmenter taille et du nombre de classes des corpus 05/06/2004 Kessler Rémy
23
Merci pour votre attention
05/06/2004 Kessler Rémy
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.