La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.

Présentations similaires


Présentation au sujet: "Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique."— Transcription de la présentation:

1 Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique de l’Université de Caen

2 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin I.Problématique II.Présentation de SpamAssassin III.Évaluation de la qualité d’apprentissage IV.Conclusions, perspectives

3 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin I.Problématique

4 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT I. Problématique Définition : Un SPAM est un courrier électronique envoyé en très grand nombre à des personnes qui ne l’ont pas sollicité. Modèle économique : La vente de produits La collecte et la revente des adresses électroniques Les escroqueries

5 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT I. Problématique Domaine d’application des outils informatiques : Filtrage de flux de boîtes mails Moyens de luttes : Porter plainte Outils informatiques

6 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin II.Présentation de SpamAssassin

7 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Où est SpamAssassin ? Serveur de mails SpamAssassin Sur le poste client Internet E-mails SpamAssassin sur le Serveur de mails client

8 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Caractéristiques de SpamAssassin : SpamAssassin filtre les E-Mails Comment : Règles sur la structure du mail. Exemples : Si il manque l’expéditeur… Si le mail est passé par beaucoup de routeurs… Si le sujet est entièrement en majuscules… Un outil de classification basé sur un apprentissage supervisé…

9 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin 1ère étape : construire l’ensemble d’apprentissage. Expert humain E-Mails 49250 Spam Non- Spam 19700 29550

10 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin 2ème étape : la phase d’apprentissage. But : Extraire des propriétés propres aux E-Mails de la classe Spams et de la classe Non-Spams. Comment faire ? En utilisant des filtres bayésiens…

11 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Principe général des filtres bayésiens : Déterminer, pour chaque mot présent dans les E-Mails de la base d’apprentissage, si ce mot est présent plutôt dans des E-Mails de la classe Spam ou dans des E-Mails de la classe Non- Spam.

12 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Fonctionnement (simplifié) de ces filtres : Pour chaque mot des E-Mails de la base d’apprentissage : 1.Compter le nombre d’occurrences de ce mot dans les E-Mails de la classe Spam, 2.Compter le nombre d’occurrences de ce mot dans les E-Mails de la classe Non-Spam, 3.On obtient ainsi, pour chaque mot, son pourcentage d’appartenance à chacune des deux classes.

13 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Quelques exemples : 99% des mots « viagra » sont présents dans des E-Mails de la classe Spam, 1% dans des E- Mails de la classe Non-Spam, 92% des mots « gratuit » sont présents dans des E-Mails de la classe Spam, 8% dans des E- Mails de la classe Non-Spam, 89% des mots « madame » sont présents dans des E-Mails de la classe Spam, 11% dans des E- Mails de la classe Non-Spam.

14 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Implantation à SpamAssassin : La méthode présentée ici est une simplification de la méthode réellement utilisée par SpamAssassin, La méthode utilisée par SpamAssassin ne considère pas uniquement qu’un seul mot mais des suites de mots présents dans les E-Mails, elle est appelée « Méthode des Règles de Bayes Chaînées ».

15 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin 3ème étape : la phase d’analyse / de test. Objectif de l’analyse : Déterminer si un nouvel E-Mail est un Spam.

16 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT II. Présentation de SpamAssassin Comment faire ? Pour chaque mot de l’E-Mail à classer : Trouver son pourcentage d’appartenance à la classe Spam. Si la moyenne de ces pourcentages est « élevée » alors cet E-Mail à une forte probabilité d’être un Spam.

17 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin III.Évaluation de la qualité d’apprentissage

18 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Ce qu’il faut éviter : Les faux positifs = un courrier légitime identifié comme SPAM III. Évaluation de la qualité d’apprentissage

19 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT III. Évaluation de la qualité d’apprentissage Validation Croisée : Une méthode pour ne pas être dépendant du corpus. et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 1 et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 2 et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 3 et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 4 et Analyse sur le 1/5 ème restant. Apprentissage des 4/5 ème du corpus Test numéro 5

20 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT III. Évaluation de la qualité d’apprentissage Différences de classement entre SpamAssassin et l’expert humain : 9850 E-Mails à classer

21 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT III. Évaluation de la qualité d’apprentissage Moyenne des tests : 39 faux positifs, soit 4 pour 1000 237 faux négatifs, soit 24 pour 1000

22 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Temps de réalisation de la phase d’analyse : Pour traiter 9850 E-Mails, 50 minutes de calculs sont nécessaires. Temps de réalisation de la phase d’apprentissage: Pour un corpus d’apprentissage de 39400 E-Mails (dont 15760 de la classe Spam et 23640 de la classe Non- Spam), 12 heures de calculs ont été nécessaires. III. Évaluation de la qualité d’apprentissage Sur une machine de type Pentium 4 – 1,8GHz – 768 Mo de RAM

23 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT III. Évaluation de la qualité d’apprentissage Pourquoi de tels résultats : Problèmes rencontrés : La publicité les lettres de diffusion Les mots décorés (ex: v1agra, v*i*a*g*r*a, …)

24 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT Apprentissage avec SpamAssassin IV.Conclusions, perspectives

25 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT IV. Conclusions, perspectives Les résultats sont bons mais encore insuffisants dans l’optique d’une mise en production : Il n’est pas envisageable de bloquer un E-Mail légitime (faux positif) Il faut déterminer un taux acceptable de faux négatifs

26 Exposé du mercredi 17 décembre 2003 Thibault ROY & Olivier SAGIT IV. Conclusions, perspectives Que faut-il modifier à l’apprentissage pour améliorer les résultats : A part les filtres bayésiens peu de méthodes ont été testées (arbres de décision, …) Traiter autres choses que des suites de mots : Des co-présences de mots Regroupement des mots décorés Etude de la signification du message Pas de phénomène de sur-apprentissage constaté, il faudrait envisager d’apprendre plus d’E-Mails.

27 Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Bibliographie Paul GRAHAM. A plan for SPAM, Août 2002. Ion ANDROUTSOPOULOS et al. An evaluation of naive Bayesian Anti-Spam filtering, 11 th european conference on machine learning, Barcelona, Spain, pp. 9-17, 2000. Olivier SAGIT. Classification d’un corpus de courriers électroniques et validation d’outils anti-SPAM, Maîtrise Informatique de l’Université de Caen, Année universitaire 2002-2003.

28 Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage avec SpamAssassin Merci de votre attention. Avez-vous des questions ?


Télécharger ppt "Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique."

Présentations similaires


Annonces Google