Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique de l’Université de Caen
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin I.Problématique II.Présentation de SpamAssassin III.Évaluation de la qualité d’apprentissage IV.Conclusions, perspectives
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin I.Problématique
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT I. Problématique Définition : Un SPAM est un courrier électronique envoyé en très grand nombre à des personnes qui ne l’ont pas sollicité. Modèle économique : La vente de produits La collecte et la revente des adresses électroniques Les escroqueries
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT I. Problématique Domaine d’application des outils informatiques : Filtrage de flux de boîtes mails Moyens de luttes : Porter plainte Outils informatiques
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin II.Présentation de SpamAssassin
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Où est SpamAssassin ? Serveur de mails SpamAssassin Sur le poste client Internet s SpamAssassin sur le Serveur de mails client
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Caractéristiques de SpamAssassin : SpamAssassin filtre les s Comment : Règles sur la structure du mail. Exemples : Si il manque l’expéditeur… Si le mail est passé par beaucoup de routeurs… Si le sujet est entièrement en majuscules… Un outil de classification basé sur un apprentissage supervisé…
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin 1ère étape : construire l’ensemble d’apprentissage. Expert humain s Spam Non- Spam
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin 2ème étape : la phase d’apprentissage. But : Extraire des propriétés propres aux s de la classe Spams et de la classe Non-Spams. Comment faire ? En utilisant des filtres bayésiens…
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Principe général des filtres bayésiens : Déterminer, pour chaque mot présent dans les s de la base d’apprentissage, si ce mot est présent plutôt dans des s de la classe Spam ou dans des s de la classe Non- Spam.
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Fonctionnement (simplifié) de ces filtres : Pour chaque mot des s de la base d’apprentissage : 1.Compter le nombre d’occurrences de ce mot dans les s de la classe Spam, 2.Compter le nombre d’occurrences de ce mot dans les s de la classe Non-Spam, 3.On obtient ainsi, pour chaque mot, son pourcentage d’appartenance à chacune des deux classes.
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Quelques exemples : 99% des mots « viagra » sont présents dans des s de la classe Spam, 1% dans des E- Mails de la classe Non-Spam, 92% des mots « gratuit » sont présents dans des s de la classe Spam, 8% dans des E- Mails de la classe Non-Spam, 89% des mots « madame » sont présents dans des s de la classe Spam, 11% dans des E- Mails de la classe Non-Spam.
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Implantation à SpamAssassin : La méthode présentée ici est une simplification de la méthode réellement utilisée par SpamAssassin, La méthode utilisée par SpamAssassin ne considère pas uniquement qu’un seul mot mais des suites de mots présents dans les s, elle est appelée « Méthode des Règles de Bayes Chaînées ».
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin 3ème étape : la phase d’analyse / de test. Objectif de l’analyse : Déterminer si un nouvel est un Spam.
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Comment faire ? Pour chaque mot de l’ à classer : Trouver son pourcentage d’appartenance à la classe Spam. Si la moyenne de ces pourcentages est « élevée » alors cet à une forte probabilité d’être un Spam.
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin III.Évaluation de la qualité d’apprentissage
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Ce qu’il faut éviter : Les faux positifs = un courrier légitime identifié comme SPAM III. Évaluation de la qualité d’apprentissage
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT III. Évaluation de la qualité d’apprentissage Validation Croisée : Une méthode pour ne pas être dépendant du corpus. et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 1 et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 2 et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 3 et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 4 et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 5
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT III. Évaluation de la qualité d’apprentissage Différences de classement entre SpamAssassin et l’expert humain : s à classer
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT III. Évaluation de la qualité d’apprentissage Moyenne des tests : 39 faux positifs, soit 4 pour faux négatifs, soit 24 pour 1000
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Temps de réalisation de la phase d’analyse : Pour traiter s, 50 minutes de calculs sont nécessaires. Temps de réalisation de la phase d’apprentissage: Pour un corpus d’apprentissage de s (dont de la classe Spam et de la classe Non- Spam), 12 heures de calculs ont été nécessaires. III. Évaluation de la qualité d’apprentissage Sur une machine de type Pentium 4 – 1,8GHz – 768 Mo de RAM
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT III. Évaluation de la qualité d’apprentissage Pourquoi de tels résultats : Problèmes rencontrés : La publicité les lettres de diffusion Les mots décorés (ex: v1agra, v*i*a*g*r*a, …)
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin IV.Conclusions, perspectives
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT IV. Conclusions, perspectives Les résultats sont bons mais encore insuffisants dans l’optique d’une mise en production : Il n’est pas envisageable de bloquer un légitime (faux positif) Il faut déterminer un taux acceptable de faux négatifs
Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT IV. Conclusions, perspectives Que faut-il modifier à l’apprentissage pour améliorer les résultats : A part les filtres bayésiens peu de méthodes ont été testées (arbres de décision, …) Traiter autres choses que des suites de mots : Des co-présences de mots Regroupement des mots décorés Etude de la signification du message Pas de phénomène de sur-apprentissage constaté, il faudrait envisager d’apprendre plus d’ s.
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Bibliographie Paul GRAHAM. A plan for SPAM, Août Ion ANDROUTSOPOULOS et al. An evaluation of naive Bayesian Anti-Spam filtering, 11 th european conference on machine learning, Barcelona, Spain, pp. 9-17, Olivier SAGIT. Classification d’un corpus de courriers électroniques et validation d’outils anti-SPAM, Maîtrise Informatique de l’Université de Caen, Année universitaire
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage avec SpamAssassin Merci de votre attention. Avez-vous des questions ?