La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Kessler Rémy1 05/06/2004 Classification thématique de courriels Méthode hybride combinant apprentissage supervisé, semi- supervisé et non supervisé Kessler.

Présentations similaires


Présentation au sujet: "Kessler Rémy1 05/06/2004 Classification thématique de courriels Méthode hybride combinant apprentissage supervisé, semi- supervisé et non supervisé Kessler."— Transcription de la présentation:

1 Kessler Rémy1 05/06/2004 Classification thématique de courriels Méthode hybride combinant apprentissage supervisé, semi- supervisé et non supervisé Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze 5 juin 2004

2 Kessler Rémy2 05/06/2004 Problématique Méthode Pré-traitement Apprentissage non supervisé: k-means/k-means flou supervisé: Machine à support vectoriel Méthode Hybride Résultats Conclusion et perspectives Plan

3 Kessler Rémy3 05/06/2004 Problématique Les nouvelles formes de communication sont un défi considérable pour leur traitement.. Gérer ces flux dinformation devient un enjeu majeur pour les entreprises. Cela implique de : Classer les courriels en fonction de leur thématique Automatiser les réponses Corpus construit à partir de Newsletter et de listes de diffusion

4 05/06/2004Kessler Rémy 4 Pré-traitement

5 Kessler Rémy5 05/06/2004 Schéma du pré-traitement

6 Kessler Rémy6 05/06/2004 Nettoyage du corpus Séparation de len-tête, du corps et des pièces jointes Génération dun fichier XML Statistique du Corpus

7 Kessler Rémy7 05/06/2004 Suppression des micro-publicités Ajoutés au bas des courriels par les fournisseurs en service de messagerie éléctronique La micro-publicité aucune informations ajoute du bruit _____________________________________________________________________ Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger la 1ère messagerie instantanée de France _____________________________________________________________________ Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger la 1ère messagerie instantanée de France

8 Kessler Rémy8 05/06/2004 Traduction du phonécrit Phonécrit: Toute forme décriture basée sur une écriture phonétique sans contrainte ou avec des règles établies par lusage « Traduction » en langue française :-) sourire A+, a+ à plus à demain Etc. Et cetera Premier traitement Ambiguïté dans certain cas: 7 Cet(te) ou Sète, L Elle

9 Kessler Rémy9 05/06/2004 Filtrage & Lemmatisation Mots composés deviennent des termes uniques pomme de terre pomme_de_terre pique nique, pique niquons, pique niques pique_niquer Anti-dictionnaire Suppression des verbes et des mots fonctionnels Suppression des expressions courantes Lemmatisation à partir dun dictionnaire chante, chantaient, chanté, chanteront et éventuellement chanteur sont ramenés a chanter Réduire le nombre de dimensions de la matrice

10 Kessler Rémy10 05/06/2004 Représentation vectorielle Matrice de fréquences Termes-Courriels N-1 N i j P Courriels Termes M ij = Fréquence du terme i dans le courriel j

11 Kessler Rémy11 05/06/2004 Réduction de la taille de la matrice Matrice réduite N-1 N i j P Courriels Termes

12 Kessler Rémy12 05/06/2004 Observation Répartition des termes en fonction des courriels Découpage des classes par les densités Fortes densités des nouveaux termes dès le début dune nouvelle classe

13 05/06/2004Kessler Rémy 13 Apprentissage

14 Kessler Rémy14 05/06/2004 K-Means /K-Means flou Choix de centroïdes (centre de la classe) puis calcul de la distance entre chaque vecteur (courriel) et ces centroïdes Intérêt du flou : Le courriel X est à 0.9 pour le destinataire A et à 0.7 pour le destinataire B On le dirige vers A avec B en copie

15 Kessler Rémy15 05/06/2004 K-Means /K-Means flou (2) Problème de linitialisation Initialisation aléatoire Minimaux locaux Initialisation semi-supervisé Une faible partie des exemples pour mieux placer les centroïdes

16 Kessler Rémy16 05/06/2004 Machines à support vectoriel Proposé par Vapnik, celles ci reposent sur : Projection des données dans un espace de grande dimension à laide dune fonction noyau Classifieur permettant de maximiser les distances entre les classes et donc de trouver les hyperplans optimaux

17 Kessler Rémy17 05/06/2004 Méthode hybride Combinaison des 2 méthodes Apprentissage non supervisé par K-means/ K-means flou Apprentissage supervisé par Machines à support Vectoriel à partir des résultats obtenus par K-means Généralisation sur des ensembles de test indépendant

18 Kessler Rémy18 05/06/2004 Chaîne de traitement

19 05/06/2004Kessler Rémy 19 Résultats

20 Kessler Rémy20 05/06/2004 Résultats Méthode Hybride Corpus de tests de P={200,500,1000} K classes parmi : {football, jeux de rôles, cinéma, ornithologie} Écart-Type sur des séries de 10 Tests avec tirage aléatoire

21 Kessler Rémy21 05/06/2004 Résultats(2) Pas de détérioration des performances en augmentant la taille du corpus La courbe hybride est très proche de celle des SVM

22 Kessler Rémy22 05/06/2004 Conclusion et perspectives particularité de langage phonécrit Euristique de pré-traitement Premiers résultats de la méthode hybride intéressants Améliorer les performance des SVM Combinaison de classifieurs (SVM, Bayes, LVQ, …) Augmenter taille et du nombre de classes des corpus

23 05/06/2004Kessler Rémy 23 Merci pour votre attention


Télécharger ppt "Kessler Rémy1 05/06/2004 Classification thématique de courriels Méthode hybride combinant apprentissage supervisé, semi- supervisé et non supervisé Kessler."

Présentations similaires


Annonces Google