1/17FDC janvier 2006 Alice MARASCU Florent MASSEGLIA Projet AxIS INRIA Sophia Antipolis Classification de flots de séquences basée sur une approche centroïde
2/17FDC janvier 2006 Plan Objectif Contexte et contraintes SCDS : clustering de flots de séquences Expérimentations Conclusion Perspectives
3/17FDC janvier 2006 Objectif Travail au croisement entre: Motifs séquentiels « enchaînements fréquents de séquences dans les bases de données, avec des contraintes temporelles » Data streams « une séquence infinie de données produites sans interruption à une grande vitesse » Objectif: extraire les motifs séquentiels dans les data streams
4/17FDC janvier 2006 Contexte & Contraintes CONTEXTE Des données arrivant avec une grande rapidité. Des données en quantité potentiellement infinie. Des données que l’on ne peut pas stocker de manière exhaustive. CONTRAINTES Mémoire limitée. Algorithmes fonctionnant en une seule passe ( pas de backtracking sur les données ). Contraintes de performances : - pas de requêtes bloquantes - réaction rapide aux valeurs entrantes Les requêtes longues doivent s’adapter aux changements qui ont lieu pendant leur exécution.
5/17FDC janvier 2006 Idée générale résumés des clusters (résumé du batch)
6/17FDC janvier 2006 Affecter une séquence à un cluster Cluster 1 Cluster 2 Cluster n …… ? Cluster i séquence 1 séquence 2 séquence 3 … séquence j … séquence n i Beaucoup de temps ! Nouvelle séquence
7/17FDC janvier 2006 Affecter une séquence à un cluster Cluster i séquence 1 séquence 2 séquence 3 … séquence j … séquence n i Nouvelle séquence Résumé du cluster
8/17FDC janvier 2006 Méthode proposée Sequence Clustering in Data Streams (SCDS)
9/17FDC janvier 2006 Alignement
10/17FDC janvier 2006 Résumer un cluster Cluster i (a:2, c:1, d:1):2 (e:2):2 (h:1):1 (m:2, n:2):2 (a:3, b:1, c:1, d:1):3 (e:3):3 (h:1, i:1, j:1):2 (m:3, n:2):3 (a:3, b:2, c:1, d:1):4 (e:4):4 (h:2, i:2, j:1):3 (m:4, n:2):4 (a, c) (e) (m, n)
11/17FDC janvier 2006 Ordre de stockage des séquences Cluster i séquence j séquence 2 séquence n i … séquence 3 … séquence 1 Cluster i séquence 1 séquence 2 séquence 3 … séquence j … séquence n i temps
12/17FDC janvier 2006 Distance entre séquences s 1 : (a) (a) (c) s 2 : (a, c) … similitude (s 1, s 2 ) =1+0+1 = 2
13/17FDC janvier 2006 Affecter une séquence à un cluster Cluster 1 Cluster 2 Cluster n …… Cluster i Nouvelle séquence Centroïde du cluster 1 Centroïde du cluster 2 Centroïde du cluster i Centroïde du cluster n …… Conditions : ? dist(s 1, s 2 ) =
14/17FDC janvier 2006 Temps de réponse et robustesse de SCDS
15/17FDC janvier 2006 Qualité du clustering
16/17FDC janvier 2006 Conclusion Méthode d’extraction SCDS Méthode centroïde de clustering Analyse du temps d’exécution
17/17FDC janvier 2006 Perspectives Améliorer l’analyse de la qualité du résultat Comparer à une classification hiérarchique Autre classification ? Méthode de comparaison ?
18/17FDC janvier 2006 Détection des cluters dégradés Cluster dégradé Nouveaux clusters