Classification thématique de courriels

Slides:



Advertisements
Présentations similaires
Chaîne de Synthèse Réel Modélisation Rendu Image Fichier Scène
Advertisements

Présentation du prototype :
Distance inter-locuteur
Benoît BUISSON INSEE, Juin 2010 Enquête innovation (CIS) Pourquoi des extensions régionales ?
A. Cornuéjols IAA (basé sur Rob Schapires IJCAI99 talk) Combiner des apprenants: le boosting.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
LIRMM 1 Journée Deuxièmes années Département Microélectronique LIRMM.
RECONNAISSANCE DE FORMES
1 Réunion biblio 13/12/00 Support Vectors Présentation générale SSS Maintaining Algorithm.
06 Juillet 2009 Projet Checker daccessibilité de fichiers SVG Rami BALI Toufic HADDAD Aroussia MAADI Encadrants Annie DANZART Christine POTIER Jérôme HUGUES.
Reconnaissance d’objets par SVM et descripteurs de Fourier
Lionel Doisneau 16/12/13 Réflexions sur la notion dentreprise en lien avec les territoires Quest-ce quune entreprise régionale ?
Sélection automatique d’index et de vues matérialisées
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
Améliorer les performances du chiffrage à flot SYND
DEA instrumentation et commande
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
Etude des Technologies du Web services
Application des algorithmes génétiques
Auto-organisation dans les réseaux ad hoc
Classification Multi Source En Intégrant La Texture
Applications du perceptron multicouche
Journée thématique du GDR IFS « Réduction de modèle en IFS » ENSAM – Jeudi 18 mai 2006 Validation de l’approche de la réduction a priori - POD sur l'équation.
Partie I Enquête. Partie II Perspectives.
Démarche de spécification en cours de conception
Méthode des k plus proches voisins
Construction de modèles visuels
CLASSIFICATION DES SONS, “COMMENT CA MARCHE ?”
Luttez contre la pollution du Web par les spams
Algorithme pour le web Géraldine Schneider
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Modélisation de la topologie avec le Graphe Génératif Gaussien
Livres numériques accessibles : de Word à Daisy Cité des Sciences et de lIndustrie Le 23 juin 2008 Dolphin EasyConverter : Permettre déditer facilement.
1 Séminaire LOVe du 29/03/07 Combinaison d'objets (fusion centralisée) T3.2 Combinaison de pistages (fusion décentralisée) T3.3.
Détection du meilleur format de compression pour une matrice creuse dans un environnement parallèle hétérogène Olfa HAMDI-LARBI.
Sous-espaces vectoriels engendrés
MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS
Classification automatique de textes
Les espaces couleurs Dans le cadre du projet ALPAGE.
Fadwa AMRI Fanny COUTURIER Virginie ROMAIN.
Projet Télédétection Vidéo Surveillance Deovan Thipphavanh – Mokrani Abdeslam – Naoui Saïd Master 2 Pro SIS / 2006.
Amélioration de la simulation stochastique
StorageAcademy 21 juin 2007 StorageAcademy ® 1 StorageAcademy ITIFORUMS, 21 juin 2007 La conduite des projets d’archivage numérique Méthodes pour réussir.
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Classification : objectifs
VOUS PENSIEZ POUVOIR PROTÉGER VOS DONNÉES AVEC LE CHIFFREMENT D’OFFICE ? CRYPTANALYSE DE MICROSOFT OFFICE 2003.
Congrès AAPI Québec1 Document technologique, authenticité et intégrité Yves Marcoux - EBSI Université de Montréal.
Réseaux de neurones à base radiale
Présentation RFIA janvier 2002
Fusion de paramètres en classification Parole/Musique Julie Mauclair – Equipe Parole Julien Pinquier – Equipe SAMoVA.
Classification de données par l’algorithme FPSO-GA
Reconnaissance de chiffres manuscrits
Sujets spéciaux en informatique I
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
SVM machine à vecteurs de support ou séparateur à vaste marge
lignes de C/C++, portable
Interface de génération de blason Projet STLM.GIBERT / M.LIPPMANN.
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
TEXT MINING Fouille de textes
JDD 2005 Utilisation et Constitution de Ressources Sémantiques pour la Recherche d'Informations Précises. Vincent Barbier, groupe LIR Langues, Information.
Sabrina Tollari, Hervé Glotin, Jacques Le Maitre
ELE6306 : Test de systèmes électroniques Test intégré et Modèle de faute de délai Etudiante : S. BENCHIKH Professeur : A. Khouas Département de génie électrique.
Classification automatique des messages électroniques
Groupes appareillés.
LE COURRIER ELECTRONIQUE
Apprentissage semi-supervisé avec des modèles discriminants : application au résumé automatique de texte Massih-Réza Amini LIP6, Université de Paris VI.
Programmation par contraintes Réalisé par: WETCHA Chaima MOKDED Mohamed Ali FIA3-GL-AL 1 1.
Messagerie, liste de diffusions et espace de travail collaboratif.
1 4th International Conference on Arabic Language Processing, May 2–3, 2012, Rabat, Morocco Titre Mohamed El Amine ABDERRAHIM Mohamed Alaedine ABDERRAHIM.
Transcription de la présentation:

Classification thématique de courriels 5 juin 2004 Classification thématique de courriels Méthode hybride combinant apprentissage supervisé, semi-supervisé et non supervisé Kessler Rémy, Juan Manuel Torres-Moreno et Marc El-Bèze 05/06/2004 Kessler Rémy

Plan Problématique Méthode Méthode Hybride Résultats Pré-traitement Apprentissage non supervisé: k-means/k-means flou supervisé: Machine à support vectoriel Méthode Hybride Résultats Conclusion et perspectives 05/06/2004 Kessler Rémy

Problématique Les nouvelles formes de communication sont un défi considérable pour leur traitement.. Gérer ces flux d’information devient un enjeu majeur pour les entreprises. Cela implique de : Classer les courriels en fonction de leur thématique Automatiser les réponses Corpus construit à partir de Newsletter et de listes de diffusion 05/06/2004 Kessler Rémy

Pré-traitement 05/06/2004 Kessler Rémy

Schéma du pré-traitement 05/06/2004 Kessler Rémy

Nettoyage du corpus Séparation de l’en-tête, du corps et des pièces jointes Génération d’un fichier XML Statistique du Corpus 05/06/2004 Kessler Rémy

Suppression des micro-publicités Ajoutés au bas des courriels par les fournisseurs en service de messagerie éléctronique La micro-publicité aucune informations ajoute du bruit _____________________________________________________________________ Envie de discuter en "live" avec vos amis ? Télécharger MSN Messenger http://www.ifrance.com/_reloc/m la 1ère messagerie instantanée de France 05/06/2004 Kessler Rémy

Traduction du phonécrit Phonécrit: Toute forme d’écriture basée sur une écriture phonétique sans contrainte ou avec des règles établies par l’usage « Traduction » en langue française :-) → sourire A+, a+ → à plus tard @2m1 → à demain Etc. → Et cetera Premier traitement Ambiguïté dans certain cas: 7 → Cet(te) ou Sète, L → Elle 05/06/2004 Kessler Rémy

Filtrage & Lemmatisation Mots composés deviennent des termes uniques pomme de terre → pomme_de_terre pique nique, pique niquons, pique niques → pique_niquer Anti-dictionnaire Suppression des verbes et des mots fonctionnels Suppression des expressions courantes Lemmatisation à partir d’un dictionnaire chante, chantaient, chanté, chanteront et éventuellement chanteur sont ramenés a chanter Réduire le nombre de dimensions de la matrice 05/06/2004 Kessler Rémy

Représentation vectorielle 1 2 3 .... i N-1 N Termes Mij = Fréquence du terme i dans le courriel j 1 2 3 .... 1 3 1 1 2 4 1 j 1 2 1 Courriels P 1 Matrice de fréquences Termes-Courriels 05/06/2004 Kessler Rémy

Réduction de la taille de la matrice 1 2 3 .... i N-1 N Termes 1 2 3 .... 1 3 1 1 2 4 1 j 1 2 1 Courriels P 1 Matrice réduite 05/06/2004 Kessler Rémy

Observation Répartition des termes en fonction des courriels Découpage des classes par les densités Fortes densités des nouveaux termes dès le début d’une nouvelle classe 05/06/2004 Kessler Rémy

Apprentissage 05/06/2004 Kessler Rémy

K-Means /K-Means flou Choix de centroïdes (centre de la classe) puis calcul de la distance entre chaque vecteur (courriel) et ces centroïdes Intérêt du flou : Le courriel X est à 0.9 pour le destinataire A et à 0.7 pour le destinataire B On le dirige vers A avec B en copie 05/06/2004 Kessler Rémy

K-Means /K-Means flou (2) Problème de l’initialisation Initialisation aléatoire Minimaux locaux Initialisation semi-supervisé Une faible partie des exemples pour mieux placer les centroïdes 05/06/2004 Kessler Rémy

Machines à support vectoriel Proposé par Vapnik, celles ci reposent sur : Projection des données dans un espace de grande dimension à l’aide d’une fonction noyau Classifieur permettant de maximiser les distances entre les classes et donc de trouver les hyperplans optimaux 05/06/2004 Kessler Rémy

Méthode hybride Combinaison des 2 méthodes Apprentissage non supervisé par K-means/ K-means flou Apprentissage supervisé par Machines à support Vectoriel à partir des résultats obtenus par K-means Généralisation sur des ensembles de test indépendant 05/06/2004 Kessler Rémy

Chaîne de traitement 05/06/2004 Kessler Rémy

Résultats 05/06/2004 Kessler Rémy

Résultats Méthode Hybride Corpus de tests de P={200,500,1000} K classes parmi : {football, jeux de rôles, cinéma, ornithologie} Écart-Type sur des séries de 10 Tests avec tirage aléatoire 05/06/2004 Kessler Rémy

Résultats(2) Pas de détérioration des performances en augmentant la taille du corpus La courbe hybride est très proche de celle des SVM 05/06/2004 Kessler Rémy

Conclusion et perspectives particularité de langage phonécrit Euristique de pré-traitement Premiers résultats de la méthode hybride intéressants Améliorer les performance des SVM Combinaison de classifieurs (SVM, Bayes, LVQ, …) Augmenter taille et du nombre de classes des corpus 05/06/2004 Kessler Rémy

Merci pour votre attention 05/06/2004 Kessler Rémy