La fouille des flux d'informations

Slides:



Advertisements
Présentations similaires
Envie de découvrir et diversité des partenaires: Effets simples et combinés sur le transfert de connaissances entre alliés Hamid Mazloomi ERPI-INPL and.
Advertisements

Objet et définition de la comptabilité de gestion
Classification et prédiction
Classification et prédiction
Recherche de motifs par méthodes exploratoires: Comparaisons de performances et statistiques sur le score.
Regroupement (clustering)
De linformation à la gestion des connaissances Introduction J. LINK-PEZET Dess SIAD Janvier 2001.
ENQUETE ANNUELLE DENTREPRISES DANS LE SECTEUR DU COMMERCE (EXERCICE 2004) ROYAUME DU MAROC HAUT COMMISSARIAT AU PLAN DIRECTION DE LA STATISTIQUE.
Collecte de données F. Kohler.
Inférence statistique
Les TESTS STATISTIQUES
INTRODUCTION Grande quantité de données
Découverte automatique de mappings fondée sur les requêtes dans un environnement P2P Présenté Par: Lyes LIMAM Encadré Par: Mohand-Said Hacid.
2002 Compétitif XMiner : Plate-forme de structuration texte libre multi-approches par balisage XML de Tags Actifs Lobjectif du projet est de développer.
Les TESTS STATISTIQUES
Scoring Séance II.
A Pyramid Approach to Subpixel Registration Based on Intensity
Modélisation des systèmes non linéaires par des SIFs
variable aléatoire Discrète
Time Series Séries Chronologiques Georges GARDARIN.
                                        République Algérienne Démocratique et Populaire Ministère de l’Enseignement Supérieur et de la Recherche Scientifique.
Prévisions des ventes :
Concepts avancés en mathématiques et informatique appliquées
UNIVERSITE DES SCIENCES ET DE LA TECHNOLOGIE D’ORAN
LA SEGMENTATION STRATÉGIQUE
Algorithmique et Programmation
Classification Multi Source En Intégrant La Texture
Classification Ascendante 2-3 Hiérarchique: Applications au Web Mining
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Présentation Intermédiaire de Travail de Bachelor
Methode de Tri efficace
Méthode des k plus proches voisins
Régression linéaire simple
Groupe 1: Classes de même intervalle
La segmentation
RECONNAISSANCE DE FORMES
ASP.NET Par: Hugo St-Louis. C ARACTÉRISTIQUES A SP. NET Évolution, successeur plus flexible quASP (Active Server Pages). Pages web dynamiques permettant.
Présentation finale de Travail de Bachelor
Ligue de Guyenne de tennis Commission Régionale d’Arbitrage
Comprendre la variation dans les données: Notions de base
Thème 8 : l'observation et l'expérimentation
Lévolution du Web et les implications dun crawler incrémental Basé sur : « The Evolution of the Web and Implications for an Incremental Crawler», Junghoo.
Universté de la Manouba
Module 2 : Préparation de l'analyse des performances du serveur
Design dun système de vision embarqué. Application:
Mise en oeuvre des MMCs L'utilisation des MMCs en reconnaissance des formes s'effectue en trois étapes : définition de la topologie de la chaîne de Markov,
Interprétation automatique
Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.
ANALYSE METHODE & OUTILS
Votre espace Web Entreprises Article 39 Démonstration.
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Echantillonage pour une Evaluation d’Impact
Micro-intro aux stats.
Séance 8 30 novembre 2005 N. Yamaguchi
Que sont les fichiers de mobilité de l’INSEE?
INF3500 : Conception et implémentation de systèmes numériques Pierre Langlois Performance de circuits.
TNS et Analyse Spectrale
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Sujets spéciaux en informatique I
TEXT MINING Fouille de textes
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Echantillonnage optimisé de données temporelles distribuées pour l’alimentation des entrepôts de données Présenté par : - EL ISSAOUI Naoufal - ED-DAHMOUNI.
Structures de données avancées : MLH (Multidimensional linear hashing) D. E ZEGOUR Institut National d ’Informatique.
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Evaluation d’architectures pour les sites web utilisant des bases de données Article de Wen-Syan Li, Wang-Pin Hsiung, Oliver Po, K. Selcuk Candan, Divyakant.
Gestion des documents internes avec SQL Server 2005 Date de publication : janvier 2006.
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Bienvenue!  Professeur : Dr. David Beaudoin.  Disponibilité : Mardi 15h30-17h local  Disponibilité d’Antoine Gautier: Mardi et Jeudi à compter.
Classification-Segmentation
Transcription de la présentation:

La fouille des flux d'informations Yves Lechevallier, Alzennyr Da Silva, Fabrice Rossi INRIA-AxIS, France Francisco De Carvalho CIn-UFPE, Brésil Rosanna Verde, Antonio Balzanella SUN,Italie Bonjour, je voudrais vous présenter les résultats d’une étude réalisé à l’INRIA et dont le but est d’analyser les classifications non supervisées des données d’usage du Web en tant que données évolutives.

Plan Introduction/ Flux d’information Fouille de flux de données Classification de flux évolutifs Extraction des données d’usage/ Web Mining Classification de données évolutives Détermination du nombre de classes Conclusions Concernant les données d’usage du Web, nous avons ici… AAFD 2010

Introduction / Flux d’informations Aujourd'hui, dans de nombreux domaines, d’énormes quantités de données sont recueillies du fait de la rapide croissance des moyens d'acquisition de ces données. Par exemple: Les opérations financières, les données du Web, les consommations d'électricité, les données des capteurs à distance Les méthodes d’analyse des flux d’informations doivent résoudre les deux contraintes suivantes : l'ensemble des données ne peut pas être stocké; les résultats des analyses doivent être rapidement disponibles. AAFD 2010

Définition d’un flux d’informations Un flux d’information est un échantillon de taille infinie d’unités de collecte zm=(tm,(xm,ym)) où tm est l’instant de unité de collecte xm est l’unité statistique ou l’étiquette de cette unité statistique ym est le vecteur de description de cette unité de collecte xm est l’élément d’une population. On peut dire aussi que xm est un individu. AAFD 2010

Flux d’informations A partir de ce flux d’informations si la population est finie on peut construire un échantillon Y(xm) sur chaque unité statistique xm de cette population. Y(xm)=((tm1,(xm1,ym1)), …, (tmi,(xmi,ymi)), ..) avec xml=xm et l=1,…,i,… Y(xm) est un flux de données si l’ensemble des unités de collecte associées à cette unité statistique est un échantillon de taille infinie, sinon c’est une série temporelle. AAFD 2010

Plan Introduction/ Flux d’information Fouille de flux de données Classification de flux évolutifs Extraction des données d’usage/ Web Mining Classification de données évolutives Détermination du nombre de classes Conclusions Concernant les données d’usage du Web, nous avons ici… AAFD 2010

Flux de données Flux de données univarié Flux de données multivariés Un flux est un ensemble d’observations dont les valeurs réelles sont ordonnées par une grille temporelle discrète. Flux de données univarié Flux de données multivariés Multiples flux de données univariés AAFD 2010

Flux de données / Série temporelle L’échantillonnage de ce flux de données permet de modéliser ce flux par une série temporelle. Par exemple l’échantillonnage de Vitter permet de maintenir un échantillon de taille N sur ce flux de données. L’approche de Babcock permet de maintenir un échantillonnage intégrant une fonction d’oubli. AAFD 2010

Flux de données / fenêtre Découpage du flux en fenêtres disjointes { AAFD 2010

Fouille dans un flux de données L’objectif est d’extraire des connaissances à partir d’un flux de données, temporellement ordonné, et en évolution rapide; AAFD 2010

Fouille dans un flux de données Contraintes des flux sur les méthodes de fouille de donnés Temps réduit pour le traitement de nouvelles observations Utilisation de peu de mémoire Un seul passage des données Les connaissances sur ce flux doivent être disponible en permanence et/ou sur demande. AAFD 2010

Analyse d’un ensemble de flux de données Soit un ensemble de n flux de données où est un flux de données où les valeurs sont ordonnées par une discrète grille AAFD 2010

Plan Introduction/ Flux d’information Fouille de flux de données Classification de flux évolutifs Extraction des données d’usage/ Web Mining Classification de données évolutives Détermination du nombre de classes Conclusions Concernant les données d’usage du Web, nous avons ici… AAFD 2010

Classification d’un ensemble de flux de données Trouver un ensemble de classes de flux de données homogènes formant une partition P=(C1,..,CK). Chaque flux est affecté à une classe Ck L’objectif est de maximiser l'homogénéité au sein de chaque classe et l'hétérogénéité entre ces classes. AAFD 2010

Classification de flux évolutifs Cette classification doit contenir des résumés des données permettre de découvrir la structure de regroupement au cours du temps détecter les changements dans les proximités entre les flux au cours du temps être capable de faire face à l'évolution des flux de données. AAFD 2010

Stratégie La stratégie de classification se décompose en trois étapes: On-line: classification locale réalisée sur les fenêtres disjointes Mise à jour de la matrice d’adjacence Off-line – à la demande des utilisateurs Mise à jour de la partition en k classes de l’ensemble des flux de données . AAFD 2010

Classification locale Sur chaque fenêtre la méthode des Nuées Dynamique est appliquée et fourni les résultats suivants: - une partition locale des flux - un ensemble local des prototypes (résumés des flux dans cette fenêtre) Partition locale Prototypes 1 2 3 4 5 6 7 8 9 C1 C2 C3 AAFD 2010

Mise à jour de la matrice A d’adjacence Pour chaque classe locale de la fenêtre courante: Sélectionner les paires (Yi,Yj) de flux classés dans la même classe locale. Pour chaque paire (Yi,Yj) ajouter la valeur 1 à A(i,j) et à A(j,i) de A. Δt1 Δt2 Δt3 Δt4 Δt5 Δt6 1 8 7 5 4 2 6 3 A(2,1)=A(2,1)+1 Y1 Y 2 Y 3 Y 4,… 160 50 5 10 45 55 Y 4 Y 5,… A(1,2)=A(1,2)+1 AAFD 2010

Mise à jour du graphe Les nœuds du graphe sont les flux Les éléments de la matrice d’adjacence représente les nombre d’arêtes liant les deux flux. A = MATRICE D’ADJACENCE Y 1 Y 2 Y 3 Y n 160 50 1 5 10 45 55 Y 4 Y 5 40 GRAPH AAFD 2010

La partition globale A partir de cette matrice de proximités il est possible de construire une partition de cet ensemble de flux. Cette partition peut être obtenue par : Une analyse (MDS) à partir de la matrice d’adjacence A Puis faire K-means sur les coordonnées factorielles ou bien Faire K-médoides ou une MDS sur la matrice des proximités AAFD 2010

Analyse multidimensionnelle MDS génère une représentation d’un ensemble de points dans un espace de dimension plus réduite Sachant que la matrice d’adjacence A représente une similarité entre deux flux. Il est facile de transformer cette similarité en distance par: D(i,l) = MAX(A) - A(i,l) AAFD 2010

K-means sur l’ensemble des projections des points dans cet espace réduit K-means donne une partition à partir de ces facteurs. AAFD 2010

{ Fournir des résultats au cours du temps La stratégie de classification proposée est également en mesure de fournir la structure de classification sur des intervalles de temps spécifiés par l’utilisateur. Requête de classification { w90 w91 w92 w93 w94 w95 w96 w97 w98 w99

Fournir des résultats au cours du temps La matrice d’adjacence A est stockée pour chaque fenêtre A3 A1 Fournir la classification dans l’intervalle de temps [32t ; 4t] Il faut calculer la matrice A(3,1) entre les matrices A1 et A3 par L’étape de classification off-line est appliquée sur cette matrice A(3,1)=A3-A1

Classification On line sur deux ensembles de données Exemples Classification On line sur deux ensembles de données Données sur la fourniture d’électricité Données financières 76 séries chronologiques de Yahoo Finance, qui représentent le prix quotidien de clôture des actions ordinaires . 179 séries chronologiques qui représentent la fourniture en électricité à plusieurs endroits en Australie.

Validation interne Impact du nombre de classes locales sur deux indices de validation interne: Le nombre de classes dans les partitions locales n'a aucune influence sur les résultas de la classification finale en fonction des valeurs des deux indices (DB et CH)

Plan Introduction/ Flux d’information Fouille de flux de données Classification de flux évolutifs Extraction des données d’usage/ Web Mining Classification de données évolutives Détermination du nombre de classes Conclusions Concernant les données d’usage du Web, nous avons ici… AAFD 2010

Flux d’informations L’ensemble Y(xm) des unités de collecte associées à chaque unité statistique xm est fini. Les unités statistiques sont issues d’une population de taille infinie. Y(xm)=((tm1,(xm1,ym1)), …, (tmN,(xmN,ymN)) avec xml=xm et l=1,…,i,…N AAFD 2010

Quelques mots sur le Web Mining Se décline en trois domaines d’application : Web Content Mining (contenu des documents) Web Structure Mining (structure des documents) Web Usage Mining (comportement des utilisateurs) Motivations pour le Web Usage Mining : Cache « intelligent » Personnalisation des pages Reconception du site « Comprendre » l’internaute AAFD 2010

Motivation La plupart des méthodes du WUM (Web Usage Mining) prennent en compte toute la période qui enregistre les traces d’usage : les résultats obtenus sont ceux qui prédominent sur la totalité de la période Inconvénients : certains types de comportements peuvent être ignorés par les méthodes classiques Ces considérations ont donc motivé la réalisation de ce travail, une fois que les méthodes traditionnelles dans le cadre du WUM utilisent dans leur analyse toute la période qui enregistre les traces d’usage. Par conséquence, les résultats obtenus sont ceux qui prédominent sur toute la période. Comme inconvénient nous avons que certains comportements qui peuvent avoir lieu pendant de courtes sous-périodes ne sont pas pris en compte par ces méthodes. AAFD 2010

Objectif Réaliser une analyse portant sur des sous-périodes significatives de temps : identifier le changement de comportement des utilisateurs étudier l’évolution temporelle des profils de ces utilisateurs Utilisation des résumés pour représenter les profils Ceci dit, notre proposition consiste donc à effectuer une analyse portant sur des sous-périodes plus significatives de temps. Le but est d’ identifier les possibles changements d’intérêt des utilisateurs sur ces sous-périodes et d’étudier l’évolution temporelle des profils de ces utilisateurs au cours du temps. Le volume des données étant élevé, il est important d’utiliser des résumés pour représenter les profils des utilisateurs. AAFD 2010

Formatage des données d’usage Le clic est l’unité de collecte [remotehost] [name] [login] [date] [url] [status] [size] [referrer] [agent] remotehost adresse électronique de l’utilisateur; cette adresse correspondant souvent au nom de domaine d’un serveur si l’utilisateur est connecté à internet via un fournisseur d’accès ou une entreprise name/login supposent que l’utilisateur se soit lui-même identifié date  date et heure précises de réception de la requête URL adresse de la page visitée sur le site (www.<…>) status code retour qui indique si l’action s’est bien déroulée size  indique la taille du fichier retourné referrer  signale l’adresse de laquelle a effectué la requête, la page de provenance agent  le navigateur et le type de système d’exploitation de l’utilisateur Ici nous avons le format standard proposé par W3C pour le formatage de fichiers log sauvegardés par les serveurs Web. Chaque ligne du fichier log décrit une requête reçue par le serveur Web et est représentée par un ensemble de 9 champs. De gauche à droite, nous avons …. AAFD 2010

Prétraitement de données Structuration et transformation des données (clic, session, navigation, url, etc.) Stockage de ces informations dans un entrepôt de données Pour le prétraitement de données, la méthodologie proposé par Doru Tanasa a été appliquée. L’important a retenir est que nous avons ici le concept de Navigation. Une navigation représente une suite de requêtes provenant d’un même utilisateur et séparées au plus de 30 minutes. Tanasa & Trousse (Advanced Data Preprocessing for Intersites Web Usage Mining, IEEE Intelligent Systems, vol. 19, n° 2, pp. 56-65, April 2004) Tanasa’s Thesis (2005) AAFD 2010

Plan Introduction/ Flux d’information Fouille de flux de données Classification de flux évolutifs Extraction des données d’usage/ Web Mining Classification de données évolutives Détermination du nombre de classes Conclusions Concernant les données d’usage du Web, nous avons ici… AAFD 2010

Dans le cadre des flux de données Classification globale Notre proposition Classification locale temps (P1, P2, …, Pk) L’évolution des classes sera détectée en comparant la classification globale avec la classification locale Diviser la période analysée en sous périodes significatives : mois de l’année Le rapport entre notre proposition et les flux de données, est qu’on boucle notre AAFD 2010

Algorithme des Nuées dynamiques « k-means batch » (a) Initialisation Choisir K prototypes L1,...,LK distincts de L (b) Étape d’affectation Pour chaque objet si de E calculer l’indice l de la classe d’affectation qui vérifie (c) Étape de représentation Pour chaque classe k rechercher le prototype Lk de L qui minimise L’Algorithme des Nuées dynamiques est constitué par trois étapes. Dans l’étape d’initialisation on doit choisi aléatoirement un prototype pour chacune des k classes. Dans l’étape d’affectation, chaque objet est associé au prototype le plus proche, selon la fonction de distance adoptée. Et finalement, dans l’étape de représentation, les prototypes de chaque classe sont mis a jour a partir de la minimisation du critère d’adéquation w(), le prototype peut être soit le centre de gravité de la classe, soit son individu le plus représentatif. Les pas (b) et (c) sont répétés jusqu’à la convergence de l’algorithme. Le critère d’adéquation w() décroît à chaque itération. Répéter (b) et (c) jusqu’à la convergence AAFD 2010

Algorithme k-means On suppose que nous avons un échantillon de taille infinie.  A la réalisation xt nous ne disposons que de l'information connue sur l’échantillon de taille t . Initialisation Prendre K points de Une étape t de calcul On associe à la réalisation xt la classe k dont le représentant le plus proche Ici nous avons la description de l’algorithme originel du type k-means, qui a des points en commun avec l’algorithme du type nuées dynamiques. Il a été initialement désigné pour traité des données de taille infinie. On modifie le représentant de la classe k par avec nk est le nombre de réalisations déjà mises dans la classe k. condition d’arrêt il faut AAFD 2010

Classification par sous-périodes de temps Paramètres de l’algorithme: Nombre de classes Nombre maximum d’essais Classifications non supervisées proposées: Classification globale (CG) Classification locale précédente (CGL1) Classification locale dépendante (CGL2) Classification locale indépendante (CLI) Comme paramètres de l’algorithme, nous avons fixé le nombre de classes égal à 10, et le nombre initialisations aléatoires ainsi que le nombre d’itérations étant égal à 100. Le principe est de réaliser des différents classifications, puis comparer les résultats obtenus. Nous avons proposé 4 types de classifications non supervisées, nommées… Je vais vous les présenter par la suite. AAFD 2010

Classification globale (CG) Une classification traditionnelle que nous appelons « classification globale » qui va prendre en compte toute la période disponible AAFD 2010

Classification locale précédente (CGL1) Une troisième classification, appelée classification « précédente» s’agit simplement de faire l’allocation des individus du mois prochain aux classes trouvés par la classification effectué sur les individus du mois d’avant. AAFD 2010

Classification locale dépendante(CGL2) . . . Neme sous-période 4eme sous-période 1ere sous-période 3eme sous-période 2eme sous-période Voici une représentation graphique de comme se déroule la classification locale dépendante. Nous commençons par appliquer l’algorithme de classification sur la première sous-période de temps (c’est-a-dire, le premier mois). A la fin de l’exécution, nous avons une classification des navigations du mois courant. Puis, nous utilisons les prototypes des classes pour initialiser la classification du mois suivantes. Et ainsi de suite jusqu’à la dernière sous-période de temps. P1, P2, …, P10 AAFD 2010

Classification locale dépendante(CGL2) Voici une représentation graphique de comme se déroule la classification locale dépendante. Nous commençons par appliquer l’algorithme de classification sur la première sous-période de temps (c’est-a-dire, le premier mois). A la fin de l’exécution, nous avons une classification des navigations du mois courant. Puis, nous utilisons les prototypes des classes pour initialiser la classification du mois suivantes. Et ainsi de suite jusqu’à la dernière sous-période de temps. AAFD 2010

Classification locale indépendante(CLI) Une deuxième classification, appelée classification locale indépendante qui réalise des nouvelles classifications à chaque sous-période de temps, c’est-à-dire, à chaque mois, et pour cela elle utilise uniquement des navigations enregistrés pendant le mois en cours. AAFD 2010

Comparaison des stratégies de classification AAFD 2010

Analyse d’un site académique AAFD 2010

Analyse des résultats par les prototypes Pour comprendre l’évolution des classes par sous-périodes, nous avons: réalisé un suivi des prototypes des classes (mois par mois) pour les classifications Locale indépendante (CLI) Locale dépendante (CLG2) projeté ces prototypes dans le plan factoriel obtenu sur la population totale Pour comprendre l’évolution des classes par sous-périodes, nous avons réalisé un suivi des prototypes des classes pour les classifications locales indépendante et dépendante, puis nous avons projeté ces prototypes sur le plan factoriel AAFD 2010

Suivi des prototypes des classes Classification locale indépendante (CLI) Classification locale dépendante (CLG2) Sur cette représentation, chaque disque représente un prototype. Dans la classification dépendante (à droite), les dix classes sont représentées par des couleurs différentes. On note une certaine stabilité malgré la diversité de mois analysés. Dans le cas de la classification indépendante (à gauche), la trajectoire temporelle est simplement matérialisée par les lignes qui joignent un prototype à son plus proche voisin dans la période temporelle précédente. Cela ne donne pas des trajectoires parfaitement identifiées car certains prototypes partagent à un moment donné le même prédécesseur. On note en fait que seules quatre classes sont parfaitement identifiées et stables, les autres subissant des fusions et séparations au cours du temps. AAFD 2010

Variance intra-classes (W) Sur ce graphique, nous avons les valeurs de la variance intra-classe pour les trois classifications à chaque mois analysé. Le trait bleu correspond à la classification globale et est celui que présente les plus grandes valeurs, le trait rouge corresponde à la classification locale dépendant, et le trait noir corresponde à la classification locale indépendant. Comme nous pouvons constater, la classification locale indépendant est celle qui présente les plus petites valeurs de variance, et par conséquence, le plus de cohésion entre les individus de chaque cluster. Variance intra-classes : indépendante (trait noir), dépendante (trait rouge) et globale (trait bleu). AAFD 2010

Analyse des résultats par les partitions Critères d’évaluation (validation interne): Pour une analyse entre deux partitions l’indice de Rand corrigé (Hubert et Arabie (1985)) Pour une analyse classe par classe F-mesure (van Rijsbergen (1979)) Nous avons utilisé deux critères d’évaluation. Pour une analyse entre deux partitions, nous avons calculé ’indice de Rand corrigé. Pour une analyse classe par classe, nous avons utilisé la F-mesure. La F-mesure cherche la meilleure représentation d’une classe A d’une première partition par une classe B dans une seconde partition, ce qui nous donne autant de valeurs numériques qu’il y a de classes dans la première partition. Les deux indices assument des valeurs entre 0 et 1. La valeur 0 correspond à une absence totale de liaison entre les partitions considérées, alors que la valeur 1 indique une liaison parfaite. AAFD 2010

Résultats avec l’indice de Rand corrigé Sur ce transparence nous avons les valeurs de l’indice de Rand pour une comparaison entre deux partitions. Les deux derniers graphiques montrent la comparaison entre les résultats de la classification dépendant versus la classification précédant (gauche) et la classification globale (droite). On voit aussi que la classification “précédente” ne donne pas de résultats très différents de ceux obtenus par la classification dépendante. Notons que toutes les valeurs sont proches de 1, ce qui indique que les classes obtenues par ces deux classifications sont plus ou moins retrouvées. De l’autre coté quand on compare la classification indépendant avec les classifications dépendant (à gauche) et globale (à droite), nous pouvons voir qu’il y a une différence significative entre les résultats obtenus. Nous pouvons par cela confirmer que la classification locale indépendant est capable de identifié des nouvelles classes. AAFD 2010

Résultats avec la F-mesure Ces conclusions sont aussi confirmées par la F-mesure. Juste pour rappeler, la F-mesure cherche pour chaque classe dans une première partition, la classe correspondante dans une deuxième partition, en termes de maximisation de la valeur de la F-mesure. Donc, à la fin, nous aurons autant des valeurs de la F-mesure qu’on a de classes dans la première partition. A partir de ces valeurs on trace une boxplote. Encore une fois, nous avons la confirmation des résultats précédents. Ici, pareil, plus les valeurs sont proches de 1 plus les classes se rassemblent. Ce qui apparaît nettement, c’est que les classes sont très stables dans le temps si on utilise la méthode de classification dépendante. En fait, aucune classe ne descend au dessous de 0.877 pour la F-measure, ce qui représente de très bonnes valeurs. Par contre, dans le cas de la classification indépendante, on obtient au contraire des classes très différentes de celles obtenues globalement (avec des valeurs faibles de la F-measures, inférieures à 0.5). AAFD 2010

Détection et suivi des changements AAFD 2010

Interprétation des changements AAFD 2010

Interprétation des changements AAFD 2010

Stratégie d’évolution du nombre de classes Appliquer l’algorithme SOM (Kohonen, 1995) avec une grille contenant 200 neurones initialisés par une ACP (Elemento, 1999) Appliquer une CAH avec le critère de Ward sur les prototypes (neurones) obtenus par l’algorithme SOM (Murtagh, 1995) Tracer le graphique des gains d'inertie intra-classe obtenus à chaque itération de l'algorithme CAH Le nombre de classes à retenir sera obtenu par : - L'application des différents indices de détermination du nombre de classes [1-8] - Le coude dans la décroissance des valeurs du gain d'inertie intra-classe, repéré à l'aide des dérivées premières et secondes [D] (Lebart et al., 1995) AAFD 2010

Plan Introduction/ Flux d’information Fouille de flux de données Classification de flux évolutifs Extraction des données d’usage/ Web Mining Classification de données évolutives Détermination du nombre de classes Conclusions Concernant les données d’usage du Web, nous avons ici… AAFD 2010

Détermination du nombre de classes Question largement exploitée dans la littérature (Milligan & Cooper, 1985), (Dubes, 1987) (Halkidi & Vazirgiannis, 2001) "Une classification ne peut pas être vraie ou fausse, ni probable ou improbable, mais seulement profitable ou non profitable" (Williams & Lance, 1965) Découverte du vrai nombre de classes ? - Nombre de clusters acceptable/utile dans un but précis AAFD 2010

Les indices utilisés… la pseudo-statistique de Calinski et Harabasz (CH) [ou G1* sur R] l'indice de Baker et Hubert (BH) [ou G2* sur R] l'indice de Hubert et Levin (HL) [ou G3* sur R] l'indice Silhouette (S) l'indice de Davies et Bouldin (DB) l'indice de Krzanowski et Lai (KL) l'indice de Hartigan (H) la statistique Gap (G) stratégie de détermination du nombre de classes basée sur les dérivées première et seconde (D) *Package clusterSim de R : http://cran.r-project.org/web/packages/clusterSimM AAFD 2010

Expérimentation sur des données artificielles AAFD 2010

Expérimentation sur des données artificielles Le nombre de classes est donné pour chaque indice et pour chaque fenêtre. Meilleure performance: l'indice de Hartigan la stratégie basée sur des dérivées AAFD 2010

Critère de la dérivée avec des données artificielles Les différences premières et secondes des inerties intra-classes relatives des partitions contenant de 2 à 30 classes : AAFD 2010

Expérimentation sur des données réelles Nombre de classes suggéré par les différents indices pour le jeu de données d'usage du CIn-UFPE : AAFD 2010

Résultat obtenu par le critère des dérivées pour la première fenêtre analysée Les différences premières et secondes des inerties intra-classes relatives des partitions contenant de 2 à 30 classes : AAFD 2010

Caractéristiques et avantages de l'approche 1 Stratégie basée sur des fenêtres disjointes 2 Indépendance de la méthode de classification 3 Processus de détection des changements basé sur l'extension 4 Résumé des données au cours du temps 5 Application des algorithmes non incrémentaux dans un processus incrémental 6 Applicabilité dans un processus opérationnel 7 Généricité d'application dans d'autres domaines AAFD 2010