La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

D’autres critères que le support ? Exemple avec la recherche de périodes denses : 1.Les méthodes de fouille actuelles dépendent d’un découpage arbitraire.

Présentations similaires


Présentation au sujet: "D’autres critères que le support ? Exemple avec la recherche de périodes denses : 1.Les méthodes de fouille actuelles dépendent d’un découpage arbitraire."— Transcription de la présentation:

1 D’autres critères que le support ? Exemple avec la recherche de périodes denses : 1.Les méthodes de fouille actuelles dépendent d’un découpage arbitraire des données : - “Quels sont les comportements des clients pendant la période de Noël ? ” - “Analysons le log de Janvier…” 2.D’autres découpages de ces données pourraient faire émerger de nouvelles connaissances. Découvrir ces découpages (périodes) est un problème important.

2 Illustration du Web Usage Mining à base de motifs séquentiels (encore…) : U1PublicationsPapier1Papier2Papier3 U2PublicationsPapier1ListePapier2 U3RechercheTheme1Theme3Theme4 U4PublicationsListePapier1Liste U5RechercheTheme1Theme2Theme3 Question : « Existe-t-il un comportement qui serait partagé par (au moins) 40% des utilisateurs ? » comportement : une liste de requêtes effectuées sur le site.PublicationsPapier1Papier2PublicationsPapier1Papier2 PublicationsPapier1ListePublicationsPapier1Liste RechercheTheme1Theme3RechercheTheme1Theme3

3 Log Inria de Janvier Impact du découpage : 12345…15161718 C1JobsEng1Eng2Eng4 C2JobsEng1Eng2Eng3 C3JobsRes1Res3Res4 C4JobsRes1Res2Res4 Motif extrait avec un support minimum de 100 %: Campagne de recrutement des ingénieurs : 1 er au 5 janvier Campagne de recrutement des chercheurs : 15 au 18 janvier

4 Première définition : les périodes stables. Une période p sans login/logout est une période stable P1 = [1] P2 = [2..4] P3 = [5] P4 = [15..18] Les utilisateurs qui naviguent en même temps pourraient avoir des objectifs de navigation communs Impact du découpage : Log Inria de Janvier 12345…15161718 C1JobsEng1Eng2Eng4 C2JobsEng1Eng2Eng3 C3JobsRes1Res3Res4 C4JobsRes1Res2Res4

5 Log de P1: C1, Impact du découpage : Log Inria de Janvier 12345…15161718 C1JobsEng1Eng2Eng4 C2JobsEng1Eng2Eng3 C3JobsRes1Res3Res4 C4JobsRes1Res2Res4 P1 = [1] P2 = [2..4] P3 = [5] P4 = [15..18]

6 Log de P2: C1, C2, Avec un support minimum de 100 %: Impact du découpage : Log Inria de Janvier 12345…15161718 C1JobsEng1Eng2Eng4 C2JobsEng1Eng2Eng3 C3JobsRes1Res3Res4 C4JobsRes1Res2Res4 P1 = [1] P2 = [2..4] P3 = [5] P4 = [15..18]

7 Log de P3: C2, Impact du découpage : Log Inria de Janvier 12345…15161718 C1JobsEng1Eng2Eng4 C2JobsEng1Eng2Eng3 C3JobsRes1Res3Res4 C4JobsRes1Res2Res4 P1 = [1] P2 = [2..4] P3 = [5] P4 = [15..18]

8 Log de P4: C3, C4, Avec un support minimum de 100 %: Impact du découpage : Log Inria de Janvier 12345…15161718 C1JobsEng1Eng2Eng4 C2JobsEng1Eng2Eng3 C3JobsRes1Res3Res4 C4JobsRes1Res2Res4 P1 = [1] P2 = [2..4] P3 = [5] P4 = [15..18]

9 Principe général d’une méta-heuristique pour le data mining :

10 Résumé et visualisation des résultats :

11 ⇒ Résumé et visualisation des résultats (principe de l’alignement des séquences) : Considérons le cluster suivant : On peut aligner les séquences de ce cluster :

12

13 Défi pour les méthodes : fouille de données dans les flots (Mining Data Streams) Un contexte : Des données de plus en plus volumineuses, produites à une vitesse de plus en plus grande. Production continue et potentiellement infinie. Des systèmes de gestion, de transmission et de traitement de ces données qui ne sont plus en mesure de suivre.

14 Défi pour les méthodes : fouille de données dans les flots (Mining Data Streams) Des besoins : Résumer ces données (pour les transmettre). Analyser ces données (surveiller, sécuriser, …). Fouiller ces données (extraire de la connaissance tout de même ! ).

15 Défi pour les méthodes : fouille de données dans les flots (Mining Data Streams) Des contraintes : Les données doivent être traitées le plus vite possible On ne peut pas utiliser d’opérateur bloquant (e.g. la jointure d’Apriori) “You only have one look”

16 Quelques exemples de Data Streams : Yahoo (2002): 166 millions de visiteurs par jour 48 Gb/heure de clickstream NASA:EOS (Earth Observation System) 350 Gb/jour Quelles applications ? Détection de fraudes Analyse en ligne et temps réel des usages (Web, Mail, Trafic IP, etc.) Intrusion réseau Fouille de données issues de capteurs, enchères en ligne, usage d’un opérateur télécom, etc. Surveiller les signes vitaux d’un patient

17 Détection des attaques de types DDoS Principe de l’attaque DoS (Denial of Service) « Email bombing »: saturer un serveur de mail en envoyant une très grande quantité de mails contenant une pièce attachée la plus lourde possible, vers une adresse du site visé. Le serveur s’écroule en raison de la trop grande quantité d’informations à traiter. Principe de cette attaque en DDoS : la même chose mais en version distribuée (plusieurs machine se coordonnent pour lancer l’attaque). Détection de ce type d’attaque : analyser le flot des mails (port 25 SMTP) en temps réel et détecter des comportements « déviants ». Par exemple un groupe d’adresses d’expéditeurs qui envoient des mails de plus en plus nombreux. Peut permettre de tirer le signal d’alarme…

18 Détection de nouveaux types d’attaque (http) On sait reconnaître une attaque du type « recherche d’une faille dans un script » (Mais si, souvenez vous de ce comportement au support très faible : ) Il s’agit de requêtes automatisées. On ne sait pas détecter en temps réel de nouvelles attaques… Objectif : « Des URLs jusqu’ici rarement demandées sont l’objet de requêtes successives, contenues dans une fenêtre temporelle très réduite (avec une fréquence en augmentation de 80% ces 2 dernière minutes) »

19 Extraction de motifs dans les data streams 1)Satisfaire les contraintes de cet environnement. Algorithmes très rapides. Échantillonnage + estimation de la qualité. etc. 2) Gérer l’historique des fréquents Logarithmic Tilted Time Window (Han et al.) Segment Tuning and Relaxation (Teng et al.) Frequent itemset (a b c) 0…0.050.120.250.180.17 256 days…2 hours1 hour30 min15 min time Support

20 Pourquoi l’extraction de motifs séquentiels dans les data streams est-elle si « provocante » ? Les méthodes d’extraction de motifs séquentiels sont basées sur : Largeur d’abord Profondeur d’abord Sans génération de candidats Échantillonnage Taille du résultat! Taille des données!

21 Pourquoi l’extraction de motifs séquentiels dans les data streams est-elle si « provocante » ? T1T2T3T4…T30 C11212…1 C21212…1

22 « Trouver l’équilibre entre la qualité des résultats et le temps d’exécution » Cette phrase résume assez bien les problèmes de recherche liés à la fouille de données dans les data streams. FP-stream FP-tree Tilted time windows B1B1 FP-tree FP-Growth FP-tree FP-stream

23 Data Stream Batch B n Batch B n-1 Batch B n-2 … Cluster 1 Cluster 2 Cluster m Séquence alignée : Séquence alignée : Séquence alignée : Adaptation de FP-Stream au motifs séquentiels ?


Télécharger ppt "D’autres critères que le support ? Exemple avec la recherche de périodes denses : 1.Les méthodes de fouille actuelles dépendent d’un découpage arbitraire."

Présentations similaires


Annonces Google