Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.

Slides:



Advertisements
Présentations similaires
Travail à réaliser Vous êtes les chefs de projet de l’entreprise qui a été retenue pour réaliser l’architecture de contrôle commande du cahier des charges.
Advertisements

Classification et prédiction
LEssentiel sur… Le filtrage de contenu Juillet 2008.
(2005) De Jacques Audran : maître de conférence
Apprécier limpact avec une perspective dacteur COTA/IRAM Hédia Hadjaj et Agnès Lambert.
INTRODUCTION Grande quantité de données
DEME - La méthode d’enquête – introduction
Application de réseaux bayésiens à la détection de fumées polluantes
C. Vezilier Installer un serveur de messagerie interne: Argomail server C. Vezilier.
Auto Apprentissage Le DSP
L’ETUDE DE MARCHE L'étude de marché permet d'évaluer les capacités de votre produit ou de votre service à se développer commercialement.
THÈSE Présentée et soutenue publiquement par Jérémie VALENTIN
Utilisation des TRODs en CDAG/CDDIST SFLS, Poitiers 24 oct 2013
MRP, MRP II, ERP : Finalités et particularités de chacun.
Apprendre à partir des observations
Initiation à la conception de systèmes d'information
DURIBREUX, Michèle & COCQUEBERT & HOURIEZ, Bernard,
UE : 3.4. S4 Initiation à la démarche de recherche
Exemple : Etude (partielle) d'un projet d'équipement informatique.
Analyse par la méthode des 5 pourquoi
La messagerie électronique
La pensée du jour « Il faut rendre mesurable ce qui est réellement important plutôt que de rendre important ce qui est facilement mesurable. » Source inconnue.
Les réseaux de neurones
Développement dun system expert daide à linterprétation de lindice matériel et à son apprentissage.
Admission Post-Bac Comment ?. 1 ère étape - L'inscription par internet 1. Enregistrez-vous sur Internet afin de constituer votre dossier électronique.
Révisions - IA Généralité: problèmes de lIA Recherche Logique Traitement de lincertitude Apprentissage Langue naturelle.
RECHERCHE COMMERCIALE
MIDI Sans Frontières Analyse des problèmes relatifs à la communication musicale sur IP Mémoire présenté en vue de lobtention du grade de Licencié en informatique.
Permet de : Modifier les propriétés du compte. Associer dautres comptes s. Changer le mot de passe du compte. Organiser le courrier électronique.
Séminaire 13 mars 2003  Mail Washer  easyLoad Michel Candeur Marc Meurrens.
Modélisation géométrique de base
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
La formation des ressources humaines
Chapitre 7 Calcul littéral.
SIO SI2 : Support Réseau des Accès Utilisateurs
Groupe Supply Chain Midi-Pyrénées Coordination d’entreprises dans la chaîne logistique au niveau du Plan Industriel et Commercial (PIC) Présenté par: Roberta.
L’EPREUVE PRATIQUE L’ETUDE LE PROJET EVALUATION 45 min à l’oral
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Thibault ROY Université de Caen / Basse-Normandie Laboratoire GREYC – Equipe ISLanD Apport d’outils d’informatique documentaire à l’analyse de forums de.
APERCU SUR LA METHODOLOGIE Rencontre avec les APERCU SUR LA METHODOLOGIE Rencontre avec les agrégatifs Professeur Moustapha Kassé
Knowledge discovery in Databases (KDD)
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
 Un spam est un message envoyé sur ton adresse mail qui a pour but de te pourrir la vie en mettant des pubs en général là ou tu clique. Ils portent un.
CONSEILS POUR LA RÉDACTION DU RAPPORT DE STAGE
Des publicités pas comme les autres….  Définition  Spams, leurs intentions  Lutter contre les Spams.
« Enquête argent de poche » en classe de seconde
Classification automatique des messages électroniques
Mines de Nancy - FI MGP Aurélien Miech
Extreemly Random Trees + SubWindows HOURRI Soufiane NAIT ABDELLAH OUALI Ismail OUFQIR Anouar OUSSAFI Mohammed.
Les newsletters d’un point de vue légal
OBJECTIFS : STOP à la recopie fastidieuse SÆCI « Recherche Structurée » permet de récupérer des informations de documents quelconques d’après leur positionnement.
UTILISATION « MAIL UNIV » Lien: Service des Ressources et de la Maintenance Informatique.
Chapitre 4 La représentation des nombres.
ECOLE DES HAUTES ETUDES COMMERCIALES RECHERCHE MARKETING Dr. KHERRI Abdenacer Mai
Jocelyne Jerdelet - Sandrine Reyes CERN-DSU-SI 1 La Théorie sur la "voie verte" de l'Open Access.
Opérations sur les nombres relatifs
Comment faire une étude de document?
Les courriels Georger Alice T.I.C. Ecole des Mines de Nancy 18/02/2013
ECOLE DES HAUTES ETUDES COMMERCIALES RECHERCHE MARKETING Dr. KHERRI Abdenacer Mai
PUBLICITE ET COMMUNICATION MARKETING MANAGEMENT 3 PC 2017 MARIE-LAURE MOURRE.
Outils et méthodes Guy Wormser 16 Octobre Principes généraux Pour un fonctionnement aussi efficace que possible, le Conseil Académique aura besoin.
12/01/20161Boulogne Informatic Club FORMATION SKYPE MICROSOFT.
Atelier - CONSTRUIRE UN QCM 2 SAPIENS 09/02/2016 9h30 – 12h30
«Net-Cotisations CDG19». Accéder à la déclaration Accéder au site de déclaration des cotisations à partir du site internet puis du bandeau.
Centre de Gestion de la Fonction Publique Territoriale de Loire-Atlantique «Net-Cotisations CdG»
Chapitre 3: Internet Messagerie électronique Courrier électronique .
Julie QUIRICO BTS IPM Session
Prédiction du niveau de certification des établissements de santé Soutenance de stage 12 septembre 2012 Benjamin Robillard.
Vous présente en quelques réalisations un réel savoir-faire, le fruit de longues années d’expériences, aujourd’hui à votre service. Toutes les fonctionnalités.
Transcription de la présentation:

Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique de l’Université de Caen

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin I.Problématique II.Présentation de SpamAssassin III.Évaluation de la qualité d’apprentissage IV.Conclusions, perspectives

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin I.Problématique

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT I. Problématique Définition : Un SPAM est un courrier électronique envoyé en très grand nombre à des personnes qui ne l’ont pas sollicité. Modèle économique : La vente de produits La collecte et la revente des adresses électroniques Les escroqueries

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT I. Problématique Domaine d’application des outils informatiques : Filtrage de flux de boîtes mails Moyens de luttes : Porter plainte Outils informatiques

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin II.Présentation de SpamAssassin

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Où est SpamAssassin ? Serveur de mails SpamAssassin Sur le poste client Internet s SpamAssassin sur le Serveur de mails client

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Caractéristiques de SpamAssassin : SpamAssassin filtre les s Comment : Règles sur la structure du mail. Exemples : Si il manque l’expéditeur… Si le mail est passé par beaucoup de routeurs… Si le sujet est entièrement en majuscules… Un outil de classification basé sur un apprentissage supervisé…

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin 1ère étape : construire l’ensemble d’apprentissage. Expert humain s Spam Non- Spam

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin 2ème étape : la phase d’apprentissage. But : Extraire des propriétés propres aux s de la classe Spams et de la classe Non-Spams. Comment faire ? En utilisant des filtres bayésiens…

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Principe général des filtres bayésiens : Déterminer, pour chaque mot présent dans les s de la base d’apprentissage, si ce mot est présent plutôt dans des s de la classe Spam ou dans des s de la classe Non- Spam.

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Fonctionnement (simplifié) de ces filtres : Pour chaque mot des s de la base d’apprentissage : 1.Compter le nombre d’occurrences de ce mot dans les s de la classe Spam, 2.Compter le nombre d’occurrences de ce mot dans les s de la classe Non-Spam, 3.On obtient ainsi, pour chaque mot, son pourcentage d’appartenance à chacune des deux classes.

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Quelques exemples : 99% des mots « viagra » sont présents dans des s de la classe Spam, 1% dans des E- Mails de la classe Non-Spam, 92% des mots « gratuit » sont présents dans des s de la classe Spam, 8% dans des E- Mails de la classe Non-Spam, 89% des mots « madame » sont présents dans des s de la classe Spam, 11% dans des E- Mails de la classe Non-Spam.

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Implantation à SpamAssassin : La méthode présentée ici est une simplification de la méthode réellement utilisée par SpamAssassin, La méthode utilisée par SpamAssassin ne considère pas uniquement qu’un seul mot mais des suites de mots présents dans les s, elle est appelée « Méthode des Règles de Bayes Chaînées ».

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin 3ème étape : la phase d’analyse / de test. Objectif de l’analyse : Déterminer si un nouvel est un Spam.

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Comment faire ? Pour chaque mot de l’ à classer : Trouver son pourcentage d’appartenance à la classe Spam. Si la moyenne de ces pourcentages est « élevée » alors cet à une forte probabilité d’être un Spam.

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin III.Évaluation de la qualité d’apprentissage

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Ce qu’il faut éviter : Les faux positifs = un courrier légitime identifié comme SPAM III. Évaluation de la qualité d’apprentissage

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT III. Évaluation de la qualité d’apprentissage Validation Croisée : Une méthode pour ne pas être dépendant du corpus. et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 1 et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 2 et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 3 et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 4 et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 5

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT III. Évaluation de la qualité d’apprentissage Différences de classement entre SpamAssassin et l’expert humain : s à classer

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT III. Évaluation de la qualité d’apprentissage Moyenne des tests : 39 faux positifs, soit 4 pour faux négatifs, soit 24 pour 1000

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Temps de réalisation de la phase d’analyse : Pour traiter s, 50 minutes de calculs sont nécessaires. Temps de réalisation de la phase d’apprentissage: Pour un corpus d’apprentissage de s (dont de la classe Spam et de la classe Non- Spam), 12 heures de calculs ont été nécessaires. III. Évaluation de la qualité d’apprentissage Sur une machine de type Pentium 4 – 1,8GHz – 768 Mo de RAM

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT III. Évaluation de la qualité d’apprentissage Pourquoi de tels résultats : Problèmes rencontrés : La publicité les lettres de diffusion Les mots décorés (ex: v1agra, v*i*a*g*r*a, …)

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin IV.Conclusions, perspectives

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT IV. Conclusions, perspectives Les résultats sont bons mais encore insuffisants dans l’optique d’une mise en production : Il n’est pas envisageable de bloquer un légitime (faux positif) Il faut déterminer un taux acceptable de faux négatifs

Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT IV. Conclusions, perspectives Que faut-il modifier à l’apprentissage pour améliorer les résultats : A part les filtres bayésiens peu de méthodes ont été testées (arbres de décision, …) Traiter autres choses que des suites de mots : Des co-présences de mots Regroupement des mots décorés Etude de la signification du message Pas de phénomène de sur-apprentissage constaté, il faudrait envisager d’apprendre plus d’ s.

Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Bibliographie Paul GRAHAM. A plan for SPAM, Août Ion ANDROUTSOPOULOS et al. An evaluation of naive Bayesian Anti-Spam filtering, 11 th european conference on machine learning, Barcelona, Spain, pp. 9-17, Olivier SAGIT. Classification d’un corpus de courriers électroniques et validation d’outils anti-SPAM, Maîtrise Informatique de l’Université de Caen, Année universitaire

Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage avec SpamAssassin Merci de votre attention. Avez-vous des questions ?