La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Classification thématique de courriels

Présentations similaires


Présentation au sujet: "Classification thématique de courriels"— Transcription de la présentation:

1 Classification thématique de courriels
5 juin 2004 Classification thématique de courriels Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze 05/06/2004 Kessler Rémy

2 Plan Problématique Méthode Méthode Hybride Résultats
Pré-traitement Apprentissage non supervisé: k-means/k-means flou supervisé: Machine à support vectoriel Méthode Hybride Résultats Conclusion et perspectives 05/06/2004 Kessler Rémy

3 Problématique Les nouvelles formes de communication sont un défi considérable pour leur traitement.. Gérer ces flux d’information devient un enjeu majeur pour les entreprises. Cela implique de : Classer les courriels en fonction de leur thématique Automatiser les réponses Corpus construit à partir de Newsletter et de listes de diffusion 05/06/2004 Kessler Rémy

4 Pré-traitement 05/06/2004 Kessler Rémy

5 Schéma du pré-traitement
05/06/2004 Kessler Rémy

6 Nettoyage du corpus Séparation de l’en-tête, du corps et des pièces jointes Génération d’un fichier XML Statistique du Corpus 05/06/2004 Kessler Rémy

7 Suppression des micro-publicités
Ajoutés au bas des courriels par les fournisseurs en service de messagerie éléctronique La micro-publicité aucune informations ajoute du bruit _____________________________________________________________________ Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger la 1ère messagerie instantanée de France 05/06/2004 Kessler Rémy

8 Traduction du phonécrit
Phonécrit: Toute forme d’écriture basée sur une écriture phonétique sans contrainte ou avec des règles établies par l’usage « Traduction » en langue française :-) → sourire A+, a+ → à plus tard @2m1 → à demain Etc. → Et cetera Premier traitement Ambiguïté dans certain cas: 7 → Cet(te) ou Sète, L → Elle 05/06/2004 Kessler Rémy

9 Filtrage & Lemmatisation
Mots composés deviennent des termes uniques pomme de terre → pomme_de_terre pique nique, pique niquons, pique niques → pique_niquer Anti-dictionnaire Suppression des verbes et des mots fonctionnels Suppression des expressions courantes Lemmatisation à partir d’un dictionnaire chante, chantaient, chanté, chanteront et éventuellement chanteur sont ramenés a chanter Réduire le nombre de dimensions de la matrice 05/06/2004 Kessler Rémy

10 Représentation vectorielle
i N-1 N Termes Mij = Fréquence du terme i dans le courriel j 1 2 3 .... 1 3 1 1 2 4 1 j 1 2 1 Courriels P 1 Matrice de fréquences Termes-Courriels 05/06/2004 Kessler Rémy

11 Réduction de la taille de la matrice
i N-1 N Termes 1 2 3 .... 1 3 1 1 2 4 1 j 1 2 1 Courriels P 1 Matrice réduite 05/06/2004 Kessler Rémy

12 Observation Répartition des termes en fonction des courriels Découpage
des classes par les densités Fortes densités des nouveaux termes dès le début d’une nouvelle classe 05/06/2004 Kessler Rémy

13 Apprentissage 05/06/2004 Kessler Rémy

14 K-Means /K-Means flou Choix de centroïdes (centre de la classe)
puis calcul de la distance entre chaque vecteur (courriel) et ces centroïdes Intérêt du flou : Le courriel X est à 0.9 pour le destinataire A et à 0.7 pour le destinataire B On le dirige vers A avec B en copie 05/06/2004 Kessler Rémy

15 K-Means /K-Means flou (2)
Problème de l’initialisation Initialisation aléatoire Minimaux locaux Initialisation semi-supervisé Une faible partie des exemples pour mieux placer les centroïdes 05/06/2004 Kessler Rémy

16 Machines à support vectoriel
Proposé par Vapnik, celles ci reposent sur : Projection des données dans un espace de grande dimension à l’aide d’une fonction noyau Classifieur permettant de maximiser les distances entre les classes et donc de trouver les hyperplans optimaux 05/06/2004 Kessler Rémy

17 Méthode hybride Combinaison des 2 méthodes
Apprentissage non supervisé par K-means/ K-means flou Apprentissage supervisé par Machines à support Vectoriel à partir des résultats obtenus par K-means Généralisation sur des ensembles de test indépendant 05/06/2004 Kessler Rémy

18 Chaîne de traitement 05/06/2004 Kessler Rémy

19 Résultats 05/06/2004 Kessler Rémy

20 Résultats Méthode Hybride Corpus de tests de P={200,500,1000}
K classes parmi : {football, jeux de rôles, cinéma, ornithologie} Écart-Type sur des séries de 10 Tests avec tirage aléatoire 05/06/2004 Kessler Rémy

21 Résultats(2) Pas de détérioration des performances en augmentant la taille du corpus La courbe hybride est très proche de celle des SVM 05/06/2004 Kessler Rémy

22 Conclusion et perspectives
particularité de langage phonécrit Euristique de pré-traitement Premiers résultats de la méthode hybride intéressants Améliorer les performance des SVM Combinaison de classifieurs (SVM, Bayes, LVQ, …) Augmenter taille et du nombre de classes des corpus 05/06/2004 Kessler Rémy

23 Merci pour votre attention
05/06/2004 Kessler Rémy


Télécharger ppt "Classification thématique de courriels"

Présentations similaires


Annonces Google