La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

La fouille des flux d'informations Yves Lechevallier, Alzennyr Da Silva, Fabrice Rossi INRIA-AxIS, France Francisco De Carvalho CIn-UFPE, Brésil Rosanna.

Présentations similaires


Présentation au sujet: "La fouille des flux d'informations Yves Lechevallier, Alzennyr Da Silva, Fabrice Rossi INRIA-AxIS, France Francisco De Carvalho CIn-UFPE, Brésil Rosanna."— Transcription de la présentation:

1 La fouille des flux d'informations Yves Lechevallier, Alzennyr Da Silva, Fabrice Rossi INRIA-AxIS, France Francisco De Carvalho CIn-UFPE, Brésil Rosanna Verde, Antonio Balzanella SUN,Italie

2 AAFD Plan Introduction/ Flux dinformation Fouille de flux de données Classification de flux évolutifs Extraction des données dusage/ Web Mining Classification de données évolutives Détermination du nombre de classes Conclusions

3 AAFD Les méthodes danalyse des flux dinformations doivent résoudre les deux contraintes suivantes : l'ensemble des données ne peut pas être stocké; les résultats des analyses doivent être rapidement disponibles. Par exemple: Les opérations financières, les données du Web, les consommations d'électricité, les données des capteurs à distance Aujourd'hui, dans de nombreux domaines, dénormes quantités de données sont recueillies du fait de la rapide croissance des moyens d'acquisition de ces données. Introduction / Flux dinformations

4 AAFD Un flux dinformation est un échantillon de taille infinie dunités de collecte z m =(t m,(x m,y m )) où t m est linstant de unité de collecte x m est lunité statistique ou létiquette de cette unité statistique y m est le vecteur de description de cette unité de collecte x m est lélément dune population. On peut dire aussi que x m est un individu. Définition dun flux dinformations

5 AAFD Flux dinformations A partir de ce flux dinformations si la population est finie on peut construire un échantillon Y(x m ) sur chaque unité statistique x m de cette population. Y(x m )=((t m1,(x m1,y m1 )), …, (t mi,(x mi,y mi )),..) avec x ml =x m et l=1,…,i,… Y(x m ) est un flux de données si lensemble des unités de collecte associées à cette unité statistique est un échantillon de taille infinie, sinon cest une série temporelle.

6 AAFD Plan Introduction/ Flux dinformation Fouille de flux de données Classification de flux évolutifs Extraction des données dusage/ Web Mining Classification de données évolutives Détermination du nombre de classes Conclusions

7 AAFD Un flux Flux de données univarié Flux de données multivariés Multiples flux de données univariés est un ensemble dobservations dont les valeurs réelles sont ordonnées par une grille temporelle discrète. Flux de données

8 AAFD Flux de données / Série temporelle Léchantillonnage de ce flux de données permet de modéliser ce flux par une série temporelle. Par exemple léchantillonnage de Vitter permet de maintenir un échantillon de taille N sur ce flux de données. Lapproche de Babcock permet de maintenir un échantillonnage intégrant une fonction doubli.

9 AAFD Flux de données / fenêtre Découpage du flux en fenêtres disjointes {

10 AAFD Fouille dans un flux de données Lobjectif est dextraire des connaissances à partir dun flux de données, temporellement ordonné, et en évolution rapide;

11 AAFD Fouille dans un flux de données Temps réduit pour le traitement de nouvelles observations Utilisation de peu de mémoire Un seul passage des données Les connaissances sur ce flux doivent être disponible en permanence et/ou sur demande. Contraintes des flux sur les méthodes de fouille de donnés

12 AAFD Analyse dun ensemble de flux de données Soit un ensemble de n flux de données est un flux de données où les valeurs sont ordonnées par une discrète grille où

13 AAFD Plan Introduction/ Flux dinformation Fouille de flux de données Classification de flux évolutifs Extraction des données dusage/ Web Mining Classification de données évolutives Détermination du nombre de classes Conclusions

14 AAFD Classification dun ensemble de flux de données Trouver un ensemble de classes de flux de données homogènes formant une partition P=(C 1,..,C K ). Chaque flux est affecté à une classe C k Lobjectif est de maximiser l'homogénéité au sein de chaque classe et l'hétérogénéité entre ces classes.

15 AAFD Classification de flux évolutifs Cette classification doit contenir des résumés des données permettre de découvrir la structure de regroupement au cours du temps détecter les changements dans les proximités entre les flux au cours du temps être capable de faire face à l'évolution des flux de données.

16 AAFD Stratégie La stratégie de classification se décompose en trois étapes: On-line: Off-line – à la demande des utilisateurs classification locale réalisée sur les fenêtres disjointes Mise à jour de la matrice dadjacence Mise à jour de la partition en k classes de lensemble des flux de données.

17 AAFD Classification locale Sur chaque fenêtre la méthode des Nuées Dynamique est appliquée et fourni les résultats suivants: - une partition locale des flux - un ensemble local des prototypes (résumés des flux dans cette fenêtre) Partition locale Prototypes C1 C2 C3

18 AAFD Mise à jour de la matrice A dadjacence Pour chaque classe locale de la fenêtre courante: Sélectionner les paires (Y i,Y j ) de flux classés dans la même classe locale. Pour chaque paire (Y i,Y j ) ajouter la valeur 1 à A(i,j) et à A(j,i) de A. Y1Y 2Y 3Y 4,… Y Y Y Y Y 5,… Δt1Δt1 Δt2Δt2 Δt3Δt3 Δt4Δt4 Δt5Δt5 Δt6Δt A(2,1)=A(2,1)+1 A(1,2)=A(1,2)+1

19 AAFD Mise à jour du graphe Y 1Y 2Y 3Y n Y Y Y Y Y Y n Les nœuds du graphe sont les flux Les éléments de la matrice dadjacence représente les nombre darêtes liant les deux flux. GRAPH A = MATRICE DADJACENCE

20 AAFD La partition globale A partir de cette matrice de proximités il est possible de construire une partition de cet ensemble de flux. Cette partition peut être obtenue par : Une analyse (MDS) à partir de la matrice dadjacence A Puis faire K-means sur les coordonnées factorielles ou bien Faire K-médoides ou une MDS sur la matrice des proximités

21 AAFD Analyse multidimensionnelle MDS génère une représentation dun ensemble de points dans un espace de dimension plus réduite Sachant que la matrice dadjacence A représente une similarité entre deux flux. Il est facile de transformer cette similarité en distance par: D(i,l) = MAX(A) - A(i,l)

22 AAFD K-means sur lensemble des projections des points dans cet espace réduit K-means donne une partition à partir de ces facteurs.

23 La stratégie de classification proposée est également en mesure de fournir la structure de classification sur des intervalles de temps spécifiés par lutilisateur. { Requête de classification w91w92w93w94w95w96w97w98w99w90 Fournir des résultats au cours du temps

24 La matrice dadjacence A est stockée pour chaque fenêtre A3A3 A1A1 A(3,1)=A 3 -A 1 Fournir la classification dans lintervalle de temps [32t ; 4t] Il faut calculer la matrice A(3,1) entre les matrices A1 et A3 par Létape de classification off-line est appliquée sur cette matrice Fournir des résultats au cours du temps

25 Classification On line sur deux ensembles de données 76 séries chronologiques de Yahoo Finance, qui représentent le prix quotidien de clôture des actions ordinaires. 179 séries chronologiques qui représentent la fourniture en électricité à plusieurs endroits en Australie. Données financières Données sur la fourniture délectricité Exemples

26 Impact du nombre de classes locales sur deux indices de validation interne: Le nombre de classes dans les partitions locales n'a aucune influence sur les résultas de la classification finale en fonction des valeurs des deux indices (DB et CH) Validation interne

27 AAFD Plan Introduction/ Flux dinformation Fouille de flux de données Classification de flux évolutifs Extraction des données dusage/ Web Mining Classification de données évolutives Détermination du nombre de classes Conclusions

28 AAFD Flux dinformations Lensemble Y(x m ) des unités de collecte associées à chaque unité statistique x m est fini. Les unités statistiques sont issues dune population de taille infinie. Y(x m )=((t m1,(x m1,y m1 )), …, (t mN,(x mN,y mN )) avec x ml =x m et l=1,…,i,…N

29 AAFD Quelques mots sur le Web Mining Se décline en trois domaines dapplication : - Web Content Mining(contenu des documents) - Web Structure Mining(structure des documents) - Web Usage Mining(comportement des utilisateurs) Motivations pour le Web Usage Mining : - Cache « intelligent » - Personnalisation des pages - Reconception du site - « Comprendre » linternaute

30 AAFD Motivation La plupart des méthodes du WUM (Web Usage Mining) prennent en compte toute la période qui enregistre les traces dusage : –les résultats obtenus sont ceux qui prédominent sur la totalité de la période Inconvénients : –certains types de comportements peuvent être ignorés par les méthodes classiques

31 AAFD Objectif Réaliser une analyse portant sur des sous-périodes significatives de temps : –identifier le changement de comportement des utilisateurs –étudier lévolution temporelle des profils de ces utilisateurs Utilisation des résumés pour représenter les profils

32 AAFD Formatage des données dusage Le clic est lunité de collecte [remotehost] [name] [login] [date] [url] [status] [size] [referrer] [agent] remotehost remotehost adresse électronique de lutilisateur; cette adresse correspondant souvent au nom de domaine dun serveur si lutilisateur est connecté à internet via un fournisseur daccès ou une entreprise name/login name/loginsupposent que lutilisateur se soit lui-même identifié date date date et heure précises de réception de la requête URL URLadresse de la page visitée sur le site (www. ) status status code retour qui indique si laction sest bien déroulée size size indique la taille du fichier retourné referrer referrer signale ladresse de laquelle a effectué la requête, la page de provenance agent agent le navigateur et le type de système dexploitation de lutilisateur

33 AAFD Prétraitement de données Tanasa & Trousse (Advanced Data Preprocessing for Intersites Web Usage Mining, IEEE Intelligent Systems, vol. 19, n° 2, pp , April 2004) Tanasas Thesis (2005) Structuration et transformation des données (clic, session, navigation, url, etc.) Stockage de ces informations dans un entrepôt de données

34 AAFD Plan Introduction/ Flux dinformation Fouille de flux de données Classification de flux évolutifs Extraction des données dusage/ Web Mining Classification de données évolutives Détermination du nombre de classes Conclusions

35 AAFD Dans le cadre des flux de données temps Notre proposition (P1, P2, …, Pk) Classification locale Lévolution des classes sera détectée en comparant la classification globale avec la classification locale mois de lannée Diviser la période analysée en sous périodes significatives : mois de lannée Classification globale

36 AAFD (b) Étape daffectation Pour chaque objet s i de calculer lindice l de la classe daffectation qui vérifie (a) Initialisation Choisir K prototypes L 1,...,L K distincts de (c) Étape de représentation Pour chaque classe k rechercher le prototype L k de qui minimise Répéter (b) et (c) jusquà la convergence Algorithme des Nuées dynamiques « k-means batch »

37 AAFD Algorithme k-means Initialisation Prendre K points de Une étape t de calcul On associe à la réalisation x t la classe k dont le représentant le plus proche On modifie le représentant de la classe k par avec n k est le nombre de réalisations déjà mises dans la classe k. condition darrêt il faut On suppose que nous avons un échantillon de taille infinie. A la réalisation x t nous ne disposons que de l'information connue sur léchantillon de taille t.

38 AAFD Classification par sous-périodes de temps Paramètres de lalgorithme: –Nombre de classes –Nombre maximum dessais Classifications non supervisées proposées: 1.Classification globale (CG) 2.Classification locale précédente (CGL1) 3.Classification locale dépendante (CGL2) 4.Classification locale indépendante (CLI)

39 AAFD Classification globale (CG)

40 AAFD Classification locale précédente (CGL1)

41 AAFD eme sous-période 1 ere sous-période 3 eme sous-période 4 eme sous-période N eme sous-période P 1, P 2, …, P 10 Classification locale dépendante(CGL2)

42 AAFD Classification locale dépendante(CGL2)

43 AAFD Classification locale indépendante(CLI)

44 AAFD Comparaison des stratégies de classification

45 AAFD Analyse dun site académique

46 AAFD Analyse des résultats par les prototypes Pour comprendre lévolution des classes par sous-périodes, nous avons: –réalisé un suivi des prototypes des classes (mois par mois) pour les classifications Locale indépendante (CLI) Locale dépendante (CLG2) –projeté ces prototypes dans le plan factoriel obtenu sur la population totale

47 AAFD Suivi des prototypes des classes Classification locale indépendante (CLI)Classification locale dépendante (CLG2)

48 AAFD Variance intra-classes (W) Variance intra-classes : indépendante (trait noir), dépendante (trait rouge) et globale (trait bleu).

49 AAFD Critères dévaluation (validation interne): –Pour une analyse entre deux partitions lindice de Rand corrigé (Hubert et Arabie (1985)) –Pour une analyse classe par classe F-mesure (van Rijsbergen (1979)) Analyse des résultats par les partitions

50 AAFD Résultats avec lindice de Rand corrigé

51 AAFD Résultats avec la F-mesure

52 AAFD Détection et suivi des changements

53 AAFD Interprétation des changements

54 AAFD Interprétation des changements

55 AAFD Stratégie dévolution du nombre de classes Appliquer lalgorithme SOM (Kohonen, 1995) avec une grille contenant 200 neurones initialisés par une ACP (Elemento, 1999) Appliquer une CAH avec le critère de Ward sur les prototypes (neurones) obtenus par lalgorithme SOM (Murtagh, 1995) Tracer le graphique des gains d'inertie intra-classe obtenus à chaque itération de l'algorithme CAH Le nombre de classes à retenir sera obtenu par : - L'application des différents indices de détermination du nombre de classes [1-8] - Le coude dans la décroissance des valeurs du gain d'inertie intra-classe, repéré à l'aide des dérivées premières et secondes [D] (Lebart et al., 1995)

56 AAFD Plan Introduction/ Flux dinformation Fouille de flux de données Classification de flux évolutifs Extraction des données dusage/ Web Mining Classification de données évolutives Détermination du nombre de classes Conclusions

57 AAFD Détermination du nombre de classes Question largement exploitée dans la littérature (Milligan & Cooper, 1985), (Dubes, 1987) (Halkidi & Vazirgiannis, 2001) "Une classification ne peut pas être vraie ou fausse, ni probable ou improbable, mais seulement profitable ou non profitable" (Williams & Lance, 1965) Découverte du vrai nombre de classes ? - Nombre de clusters acceptable/utile dans un but précis

58 AAFD Les indices utilisés… la pseudo-statistique de Calinski et Harabasz (CH) [ou G1* sur R] l'indice de Baker et Hubert (BH) [ou G2* sur R] l'indice de Hubert et Levin (HL) [ou G3* sur R] l'indice Silhouette (S) l'indice de Davies et Bouldin (DB) l'indice de Krzanowski et Lai (KL) l'indice de Hartigan (H) la statistique Gap (G) stratégie de détermination du nombre de classes basée sur les dérivées première et seconde (D) *Package clusterSim de R :

59 AAFD Expérimentation sur des données artificielles

60 AAFD Expérimentation sur des données artificielles Le nombre de classes est donné pour chaque indice et pour chaque fenêtre. Meilleure performance: l'indice de Hartigan la stratégie basée sur des dérivées

61 AAFD Critère de la dérivée avec des données artificielles Les différences premières et secondes des inerties intra- classes relatives des partitions contenant de 2 à 30 classes :

62 AAFD Expérimentation sur des données réelles Nombre de classes suggéré par les différents indices pour le jeu de données d'usage du CIn-UFPE :

63 AAFD Résultat obtenu par le critère des dérivées pour la première fenêtre analysée Les différences premières et secondes des inerties intra- classes relatives des partitions contenant de 2 à 30 classes :

64 AAFD Caractéristiques et avantages de l'approche 1 Stratégie basée sur des fenêtres disjointes 2 Indépendance de la méthode de classification 3 Processus de détection des changements basé sur l'extension 4 Résumé des données au cours du temps 5 Application des algorithmes non incrémentaux dans un processus incrémental 6 Applicabilité dans un processus opérationnel 7 Généricité d'application dans d'autres domaines


Télécharger ppt "La fouille des flux d'informations Yves Lechevallier, Alzennyr Da Silva, Fabrice Rossi INRIA-AxIS, France Francisco De Carvalho CIn-UFPE, Brésil Rosanna."

Présentations similaires


Annonces Google