Classification thématique de courriels 5 juin 2004 Classification thématique de courriels Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze 05/06/2004 Kessler Rémy
Plan Problématique Méthode Méthode Hybride Résultats Pré-traitement Apprentissage non supervisé: k-means/k-means flou supervisé: Machine à support vectoriel Méthode Hybride Résultats Conclusion et perspectives 05/06/2004 Kessler Rémy
Problématique Les nouvelles formes de communication sont un défi considérable pour leur traitement.. Gérer ces flux d’information devient un enjeu majeur pour les entreprises. Cela implique de : Classer les courriels en fonction de leur thématique Automatiser les réponses Corpus construit à partir de Newsletter et de listes de diffusion 05/06/2004 Kessler Rémy
Pré-traitement 05/06/2004 Kessler Rémy
Schéma du pré-traitement 05/06/2004 Kessler Rémy
Nettoyage du corpus Séparation de l’en-tête, du corps et des pièces jointes Génération d’un fichier XML Statistique du Corpus 05/06/2004 Kessler Rémy
Suppression des micro-publicités Ajoutés au bas des courriels par les fournisseurs en service de messagerie éléctronique La micro-publicité aucune informations ajoute du bruit _____________________________________________________________________ Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger http://www.ifrance.com/_reloc/m la 1ère messagerie instantanée de France 05/06/2004 Kessler Rémy
Traduction du phonécrit Phonécrit: Toute forme d’écriture basée sur une écriture phonétique sans contrainte ou avec des règles établies par l’usage « Traduction » en langue française :-) → sourire A+, a+ → à plus tard @2m1 → à demain Etc. → Et cetera Premier traitement Ambiguïté dans certain cas: 7 → Cet(te) ou Sète, L → Elle 05/06/2004 Kessler Rémy
Filtrage & Lemmatisation Mots composés deviennent des termes uniques pomme de terre → pomme_de_terre pique nique, pique niquons, pique niques → pique_niquer Anti-dictionnaire Suppression des verbes et des mots fonctionnels Suppression des expressions courantes Lemmatisation à partir d’un dictionnaire chante, chantaient, chanté, chanteront et éventuellement chanteur sont ramenés a chanter Réduire le nombre de dimensions de la matrice 05/06/2004 Kessler Rémy
Représentation vectorielle 1 2 3 .... i N-1 N Termes Mij = Fréquence du terme i dans le courriel j 1 2 3 .... 1 3 1 1 2 4 1 j 1 2 1 Courriels P 1 Matrice de fréquences Termes-Courriels 05/06/2004 Kessler Rémy
Réduction de la taille de la matrice 1 2 3 .... i N-1 N Termes 1 2 3 .... 1 3 1 1 2 4 1 j 1 2 1 Courriels P 1 Matrice réduite 05/06/2004 Kessler Rémy
Observation Répartition des termes en fonction des courriels Découpage des classes par les densités Fortes densités des nouveaux termes dès le début d’une nouvelle classe 05/06/2004 Kessler Rémy
Apprentissage 05/06/2004 Kessler Rémy
K-Means /K-Means flou Choix de centroïdes (centre de la classe) puis calcul de la distance entre chaque vecteur (courriel) et ces centroïdes Intérêt du flou : Le courriel X est à 0.9 pour le destinataire A et à 0.7 pour le destinataire B On le dirige vers A avec B en copie 05/06/2004 Kessler Rémy
K-Means /K-Means flou (2) Problème de l’initialisation Initialisation aléatoire Minimaux locaux Initialisation semi-supervisé Une faible partie des exemples pour mieux placer les centroïdes 05/06/2004 Kessler Rémy
Machines à support vectoriel Proposé par Vapnik, celles ci reposent sur : Projection des données dans un espace de grande dimension à l’aide d’une fonction noyau Classifieur permettant de maximiser les distances entre les classes et donc de trouver les hyperplans optimaux 05/06/2004 Kessler Rémy
Méthode hybride Combinaison des 2 méthodes Apprentissage non supervisé par K-means/ K-means flou Apprentissage supervisé par Machines à support Vectoriel à partir des résultats obtenus par K-means Généralisation sur des ensembles de test indépendant 05/06/2004 Kessler Rémy
Chaîne de traitement 05/06/2004 Kessler Rémy
Résultats 05/06/2004 Kessler Rémy
Résultats Méthode Hybride Corpus de tests de P={200,500,1000} K classes parmi : {football, jeux de rôles, cinéma, ornithologie} Écart-Type sur des séries de 10 Tests avec tirage aléatoire 05/06/2004 Kessler Rémy
Résultats(2) Pas de détérioration des performances en augmentant la taille du corpus La courbe hybride est très proche de celle des SVM 05/06/2004 Kessler Rémy
Conclusion et perspectives particularité de langage phonécrit Euristique de pré-traitement Premiers résultats de la méthode hybride intéressants Améliorer les performance des SVM Combinaison de classifieurs (SVM, Bayes, LVQ, …) Augmenter taille et du nombre de classes des corpus 05/06/2004 Kessler Rémy
Merci pour votre attention 05/06/2004 Kessler Rémy