D’autres critères que le support ? Exemple avec la recherche de périodes denses : 1.Les méthodes de fouille actuelles dépendent d’un découpage arbitraire.

Slides:



Advertisements
Présentations similaires
C Campagne d ing Outil de routage K LETTER Des idées, une évidence.
Advertisements

GEF 435 Principes des systèmes d’exploitation
GEF 435 Principes des systèmes dexploitation Les systèmes dexploitation en général (Tanenbaum 1.1 et 1.3)
E-CRM (E-GRC) Mieux vaut fidéliser que conquérir
Botnet, défense en profondeur
A NETWORK-AWARE DISTRIBUTED STORAGE CACHE FOR DATA INTENSIVE ENVIRONMENTS Brian L. TIERNEY, Jason LEE, Brian CROWLEY, Mason HOLDING Computing Sciences.
Data Mining.
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Les étapes de conception d’un site web
De lanalyse des données … … au Datamining Aide à la prise de décision.
CORRECTION DU DEVOIR DE SYNTHESE N° 2
- Couche 7 - Couche application. Sommaire 1)Introduction 1)DNS 1)FTP et TFTP 1)HTTP 1)SNMP 1)SMTP 1)Telnet.
Stéphanie CLAPIÉ Antoine RENARD
Conception de la sécurité pour un réseau Microsoft
E-CRM (customer relationship management)
INTRODUCTION Grande quantité de données
Design Pattern MVC En PHP5.
Formulaire HTML Introduction. Définition de formulaire.
EQUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II.
PERRIN Lydie mail: Dossier TICE Le Streaming PERRIN Lydie mail:
Single Minute Exchange Die =
Département de physique/Infotronique
Simulateur de réseaux de capteurs Guillaume PANNETIER Bertrand LE MAROUILLE Paul DAVID Étienne BAALI.
« 1er outil marketing 100 % multi-canal ».
SSL (Secure Sockets Layer) (couche de sockets sécurisée)
Structuration & Organisation de Données Complexes Workshop « Fouille de données complexes » Clermont-ferrand, 20 Janvier 2004 O. Boussaid, F. Masseglia.
Etude des Technologies du Web services
SECURITE DU SYSTEME D’INFORMATION (SSI)
IDS : Intrusion Detection System
Les relations clients - serveurs
Dont loose your time ! * Ne perdez plus de temps !
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.
Date / references Systèmes Terre et Interarmées Projet OUTILEX Rapport détude final Octobre 2006.
Universté de la Manouba
1 Techniques de généralisation des URLs pour l'analyse des usages du Web Yves Lechevallier, Florent Masseglia, Doru Tanasa et Brigitte Trousse Projet AxIS,
RE161 IDS : Intrusion Detection System Le trafic habituel qui entre dans votre réseau sert à : Résoudre des requêtes DNS Accéder à des pages web La messagerie.
Mesure des performances WEB en introduisant un contrôle dadmission.
Vers l'échantillonnage d'un entrepôt de données
Segmentation (1ère partie)
Test d ’un système de détection d ’intrusions réseaux (NIDS)
Audit de réseau. Audit réseau Responsable : Jean-François RODRIGUEZ Objectif : tester les failles d’une machine ou d’un réseau Outil : nessus Audit réseau.
Mise en oeuvre et exploitation
PHP 5° PARTIE : LES COOKIES
APPLICATIONS MÉTIER COLLABORATIONSTOCKAGEPLATE-FORMEIDENTITÉCOMMUNICATIONSPRODUCTIVITÉ SUR SITE SERVICES DE « CLOUD COMPUTING »
Cours de programmation web
Atelier technique SAS – 19 juin 2001
Lyda tourisme Process en PHP. Objectif Il s’agit de construire un segment de process dans un système d’information touristique.
Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet
SOLUTION DE VIDEOSURVEILLANCE SUR IP
Présentation De NetAlert
Auvray Vincent Blanchy François Bonmariage Nicolas Mélon Laurent
Sage Contact Nouvelle Version 6.00 Dix raisons de choisir La nouvelle version 6.00 de Sage Contact (à partir de janvier 2003)
Mini Projet. Rappel : Apriori (1) Algorithme par niveau permettant l’extraction des motifs fréquents (ie. AprioriCAM appliqué à la contrainte anti-monotone.
1/17FDC janvier 2006 Alice MARASCU Florent MASSEGLIA Projet AxIS INRIA Sophia Antipolis Classification de flots de séquences basée sur une approche.
Publication Bulletin de sécurité hors cycle MS Révision Bulletin de sécurité MS
Vers une intégration plus poussée de la recherche Web avec les Systèmes d’Information Géographiques Adapté de «Toward Tighter Integration of Web Search.
JeanDo Lénard – Fondamentaux de l'Internet – Hetic –30 Janvier 2007 page 1 Fondamentaux de l'Internet (FDI) JeanDo Lénard
Étude de faisabilité Détection de piétons sur une vidéo
Services en Text Mining. Introduction : Qui est Mentis ? Mentis a été fondée en 2005 comme une société spin-off du Laboratoire d'I ntelligence Artificielle.
Portfolio.
Outil de Supervision Réseau
Les newsletters d’un point de vue légal
Table Ronde Bulletins de Sécurité MS Bulletin de sécurité hors cycle.
Architecture du Cloud RISCO
Suivi de piétons dans une vidéo
Dossier de candidature Les Prix Territoriaux récompensent les bonnes pratiques et la capacité d'innovation des services. Ils valorisent les réalisations.
SOLUTION DE VIDEOSURVEILLANCE SUR IP. Premier serveur de vidéosurveillance en réseau, CamTrace possède une architecture innovante qui permet d’isoler.
Simple, efficace et opérationnelle pour les PME 5 minutes pour découvrir ses.
Denial of Service Audit des systèmes d’information Emanuel Campos Risques inherents et risques de contro ̂ le dans le domaine IT Zozan Kolusari Damien.
Transcription de la présentation:

D’autres critères que le support ? Exemple avec la recherche de périodes denses : 1.Les méthodes de fouille actuelles dépendent d’un découpage arbitraire des données : - “Quels sont les comportements des clients pendant la période de Noël ? ” - “Analysons le log de Janvier…” 2.D’autres découpages de ces données pourraient faire émerger de nouvelles connaissances. Découvrir ces découpages (périodes) est un problème important.

Illustration du Web Usage Mining à base de motifs séquentiels (encore…) : U1PublicationsPapier1Papier2Papier3 U2PublicationsPapier1ListePapier2 U3RechercheTheme1Theme3Theme4 U4PublicationsListePapier1Liste U5RechercheTheme1Theme2Theme3 Question : « Existe-t-il un comportement qui serait partagé par (au moins) 40% des utilisateurs ? » comportement : une liste de requêtes effectuées sur le site.PublicationsPapier1Papier2PublicationsPapier1Papier2 PublicationsPapier1ListePublicationsPapier1Liste RechercheTheme1Theme3RechercheTheme1Theme3

Log Inria de Janvier Impact du découpage : 12345… C1JobsEng1Eng2Eng4 C2JobsEng1Eng2Eng3 C3JobsRes1Res3Res4 C4JobsRes1Res2Res4 Motif extrait avec un support minimum de 100 %: Campagne de recrutement des ingénieurs : 1 er au 5 janvier Campagne de recrutement des chercheurs : 15 au 18 janvier

Première définition : les périodes stables. Une période p sans login/logout est une période stable P1 = [1] P2 = [2..4] P3 = [5] P4 = [15..18] Les utilisateurs qui naviguent en même temps pourraient avoir des objectifs de navigation communs Impact du découpage : Log Inria de Janvier 12345… C1JobsEng1Eng2Eng4 C2JobsEng1Eng2Eng3 C3JobsRes1Res3Res4 C4JobsRes1Res2Res4

Log de P1: C1, Impact du découpage : Log Inria de Janvier 12345… C1JobsEng1Eng2Eng4 C2JobsEng1Eng2Eng3 C3JobsRes1Res3Res4 C4JobsRes1Res2Res4 P1 = [1] P2 = [2..4] P3 = [5] P4 = [15..18]

Log de P2: C1, C2, Avec un support minimum de 100 %: Impact du découpage : Log Inria de Janvier 12345… C1JobsEng1Eng2Eng4 C2JobsEng1Eng2Eng3 C3JobsRes1Res3Res4 C4JobsRes1Res2Res4 P1 = [1] P2 = [2..4] P3 = [5] P4 = [15..18]

Log de P3: C2, Impact du découpage : Log Inria de Janvier 12345… C1JobsEng1Eng2Eng4 C2JobsEng1Eng2Eng3 C3JobsRes1Res3Res4 C4JobsRes1Res2Res4 P1 = [1] P2 = [2..4] P3 = [5] P4 = [15..18]

Log de P4: C3, C4, Avec un support minimum de 100 %: Impact du découpage : Log Inria de Janvier 12345… C1JobsEng1Eng2Eng4 C2JobsEng1Eng2Eng3 C3JobsRes1Res3Res4 C4JobsRes1Res2Res4 P1 = [1] P2 = [2..4] P3 = [5] P4 = [15..18]

Principe général d’une méta-heuristique pour le data mining :

Résumé et visualisation des résultats :

⇒ Résumé et visualisation des résultats (principe de l’alignement des séquences) : Considérons le cluster suivant : On peut aligner les séquences de ce cluster :

Défi pour les méthodes : fouille de données dans les flots (Mining Data Streams) Un contexte : Des données de plus en plus volumineuses, produites à une vitesse de plus en plus grande. Production continue et potentiellement infinie. Des systèmes de gestion, de transmission et de traitement de ces données qui ne sont plus en mesure de suivre.

Défi pour les méthodes : fouille de données dans les flots (Mining Data Streams) Des besoins : Résumer ces données (pour les transmettre). Analyser ces données (surveiller, sécuriser, …). Fouiller ces données (extraire de la connaissance tout de même ! ).

Défi pour les méthodes : fouille de données dans les flots (Mining Data Streams) Des contraintes : Les données doivent être traitées le plus vite possible On ne peut pas utiliser d’opérateur bloquant (e.g. la jointure d’Apriori) “You only have one look”

Quelques exemples de Data Streams : Yahoo (2002): 166 millions de visiteurs par jour 48 Gb/heure de clickstream NASA:EOS (Earth Observation System) 350 Gb/jour Quelles applications ? Détection de fraudes Analyse en ligne et temps réel des usages (Web, Mail, Trafic IP, etc.) Intrusion réseau Fouille de données issues de capteurs, enchères en ligne, usage d’un opérateur télécom, etc. Surveiller les signes vitaux d’un patient

Détection des attaques de types DDoS Principe de l’attaque DoS (Denial of Service) « bombing »: saturer un serveur de mail en envoyant une très grande quantité de mails contenant une pièce attachée la plus lourde possible, vers une adresse du site visé. Le serveur s’écroule en raison de la trop grande quantité d’informations à traiter. Principe de cette attaque en DDoS : la même chose mais en version distribuée (plusieurs machine se coordonnent pour lancer l’attaque). Détection de ce type d’attaque : analyser le flot des mails (port 25 SMTP) en temps réel et détecter des comportements « déviants ». Par exemple un groupe d’adresses d’expéditeurs qui envoient des mails de plus en plus nombreux. Peut permettre de tirer le signal d’alarme…

Détection de nouveaux types d’attaque (http) On sait reconnaître une attaque du type « recherche d’une faille dans un script » (Mais si, souvenez vous de ce comportement au support très faible : ) Il s’agit de requêtes automatisées. On ne sait pas détecter en temps réel de nouvelles attaques… Objectif : « Des URLs jusqu’ici rarement demandées sont l’objet de requêtes successives, contenues dans une fenêtre temporelle très réduite (avec une fréquence en augmentation de 80% ces 2 dernière minutes) »

Extraction de motifs dans les data streams 1)Satisfaire les contraintes de cet environnement. Algorithmes très rapides. Échantillonnage + estimation de la qualité. etc. 2) Gérer l’historique des fréquents Logarithmic Tilted Time Window (Han et al.) Segment Tuning and Relaxation (Teng et al.) Frequent itemset (a b c) 0… days…2 hours1 hour30 min15 min time Support

Pourquoi l’extraction de motifs séquentiels dans les data streams est-elle si « provocante » ? Les méthodes d’extraction de motifs séquentiels sont basées sur : Largeur d’abord Profondeur d’abord Sans génération de candidats Échantillonnage Taille du résultat! Taille des données!

Pourquoi l’extraction de motifs séquentiels dans les data streams est-elle si « provocante » ? T1T2T3T4…T30 C11212…1 C21212…1

« Trouver l’équilibre entre la qualité des résultats et le temps d’exécution » Cette phrase résume assez bien les problèmes de recherche liés à la fouille de données dans les data streams. FP-stream FP-tree Tilted time windows B1B1 FP-tree FP-Growth FP-tree FP-stream

Data Stream Batch B n Batch B n-1 Batch B n-2 … Cluster 1 Cluster 2 Cluster m Séquence alignée : Séquence alignée : Séquence alignée : Adaptation de FP-Stream au motifs séquentiels ?