Fouille de données complexes

Slides:



Advertisements
Présentations similaires
Structures de données avancées : Principales structures de fichiers
Advertisements

Structures de données avancées : Introduction
Regroupement (clustering)
Efficient Simplification of Point-Sampled Surfaces
Regroupement (clustering)
RECONNAISSANCE DE FORMES
19 septembre 2006 Tendances Logicielles IBM Rational Data Architect Un outil complet de modélisation et de conception pour SGBD Isabelle Claverie-Berge.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Extraction des connaissances dans les bases de données
Diagram-Based Techniques
Yann Chevaleyre et Jean-Daniel Zucker
Indexation textuelle : Systèmes de recherche d’informations
Programme Introduction aux BD et aux SGBD Le modèle relationnel
EQUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II.
1 logo Céline Joiron, Dominique Leclet - Confrontation dexpériences médicales : le forum DIACOM Confrontation dexpériences médicales : le Forum DIACOM.
Christelle Scharff IFI Juin 2004
Initiation aux bases de données et à la programmation événementielle
À.
Vers une approche de construction de composants ontologiques pour le web sémantique – synthèse et discussion. Nesrine Ben Mustapha (RIADI, ENSI Tunis)
1 ARCHITECTURE DACCÈS la méthode générale modèle de données définitions module daccès / modules métiers construction des modèles les modules daccès, les.
Active Directory Windows 2003 Server
Accès à Websol Identifiant Mot de passe. Accès « grand public » Par lidentifiant.
Contrôles d'accès aux données
Initiation à la conception de systèmes d'information
Classification Multi Source En Intégrant La Texture
Les systèmes d'information géographique servent principalement à :
Chap 4 Les bases de données et le modèle relationnel
1 Bases de Données Distribuées Chapitre 22, Sections 22.6–22.14.
Administration de bases de données spatiales avec SavGIS
Développement d’IHM* et d’applicatifs spécifiques
Méthode des k plus proches voisins
Développement d’IHM* et d’applicatifs spécifiques
Le Travail Collaboratif ...
Construction de modèles visuels
L’utilisation des bases de données
Modèle Logique de Données
SYSTEMES D’INFORMATION
Gestion de Fichiers Tri Interne Efficace et Tri Externe.
Cours 2 Recherche d'informations Espace vectoriel des sacs de mots.
Gestion de Fichiers GF-10: Traitement Co-Sequentiel: Appariment et Fusion de Plusieures Listes (Base sur les sections de Folk, Zoellick & Riccardi,
Découverte de correspondances entre ontologies distribuées
1. Représentation des informations
La veille numérique : un outil pour s'informer intelligemment &
Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.
MODELE CONCEPTUEL POUR L’ANALYSE MULTIDIMENSIONELLE DE DOCUMENTS
Introduction.
1 Modèles de particules Reeves, W. T., "Particle Systems - A technique for Modeling a Class of Fuzzy Objects," SIGGRAPH 83, Reeves, W. T., and.
Création et présentation d’un tableau avec Word 2007
Le langage du Web CSS et HTML
Projet Télédétection Vidéo Surveillance Deovan Thipphavanh – Mokrani Abdeslam – Naoui Saïd Master 2 Pro SIS / 2006.
Initiation MS Access 2010 Requêtes - Sélection (travail en autonomie)
Les principes de la modélisation de systèmes
Module 8 : Surveillance des performances de SQL Server
Supports de formation au SQ Unifié
Mise-à-jour de données de haute incertitude spatiale Présentation dans le cadre du groupe de discussion sur la fusion de données géospatiales – 22 nov.
Management des Systèmes d’Information (MSI)
Hatainville Les Moitiers d’Allonne – Tel : Website : stratic.online.com La démarche projet Mars 2001.
Pr ZEGOUR DJAMEL EDDINE Ecole Supérieure d’Informatique (ESI)
Bases de données fédéréEs hétérogènes
Optimisation de requêtes
Le contenu est basé aux transparents du 7 ème édition de «Software Engineering» de Ian Sommerville«Software Engineering» de Ian Sommerville B.Shishedjiev.
DESIGN MULTIMÉDIA Initiation aux bases de La scénarisation multimédia
Techniques documentaires et veille stratégique Anne Pajard, avril 2008
Soutenance du mémoire de synthèse
1 Initiation aux bases de données et à la programmation événementielle Responsable : Souheib BAARIR. (le sujet de votre .
1 Structure en MC Principes Stockage des données dans la mémoire volatile d’un ordinateur Problèmes Stockage temporaire «Petits» volumes de données Langages.
Visualisation des flots optiques en 3D
INTRODUCTION AUX BASES DE DONNEES
Introduction Module 1.
Raison d'être de la structure de fichiers : Les premiers travaux : Début des années 1960 : En 1963 : Près de 10 ans plus tard... (à peu près 1973) : Durant.
Transcription de la présentation:

Fouille de données complexes Karine Zeitouni Master COSY – Université de Versailles Saint-Quentin Edition 2005-2006 En ligne sur : http://www.prism.uvsq.fr/users/karima/DM

Introduction De plus en plus d’entrepôts de données sont ou seront créés Raisons principales : Le tout numérique dans l’entreprise génère des données à entreposer échange et recherche de données facilités (via Internet) capteurs et numérisations de toute sorte (librairies digitales) Explosion des données multimédias SIG / Télédétection (données cartographiques, données satellitales) agence de photo de presses CAO, Bio-informatique, imagerie médicales (données techniques) finance (cours des actions= séries temporelles) GED (documents, emails) vidéo, … K. Zeitouni Cours M2 COSY - Fouille de données complexes

Plan Fouille de données spatiales Fouille de données textuelles Les Bases de données spatiales Méthodes de la FDS Fouille de données textuelles Fouille de données séquentielles K. Zeitouni Cours M2 COSY - Fouille de données complexes

Bases de données spatiales

Définition d’une BD spatiale Ensemble organisé d’objets géographiques : Chaque objet est une association d'une description qualitative ou quantitative et d’une localisation spatiale Gérée au sein d’un SIG Organisée en couches thématiques Ex : découpage administratif, Réseaux routier, Cadastre, POS, Topographie (courbes de niveau)... K. Zeitouni Cours M2 COSY - Fouille de données complexes

Interface graphique Cours M2 COSY - Fouille de données complexes K. Zeitouni Cours M2 COSY - Fouille de données complexes

Parallèle relationnel – Spatial (1) Parallèle entre Thème et table: Un thème peut être vu comme une table avec un attribut de localisation Table Id_route 1 2 3 Nom_route Av. Morane Saulnier Rue Dewoitine Av. Europe TypeSurface Goudronnée Nb_voies 4 3 1 Localisation K. Zeitouni Cours M2 COSY - Fouille de données complexes

Parallèle relationnel – Spatial (2) Requêtes spatiales Sélection Ville de plus de 10 000 Sélection spatiale Accès aux objets situés dans une fenêtre donnée Accès par relation à un objet Communes au bord de le N10 Jointure spatiale Zones d’intersection des communes et des forêts (map overlay) Agrégation Fusion des communes par département select c.nom, c.loc from commune c where c.population > 10000 select c.nom, c.loc from commune c where Intersecte (c.loc, Rectangle(xmin,ymin,xmax,ymax)) select c.* from commune c, route r where r.nom = 'N10' and adjacent(c.loc, r.loc) select c.nom, f.nom, Intersection (c.loc, f.loc) from commune c, foret f where Intersecte (c.loc, f.loc) select departement, fusion (loc) from commune group by departement K. Zeitouni Cours M2 COSY - Fouille de données complexes

Parallèle relationnel – Spatial (3) Cette comparaison montre que : les SGBD Géographiques sont spécifiques, mais ils peuvent être vus comme une extension des SGBD relationnels K. Zeitouni Cours M2 COSY - Fouille de données complexes

Exemple d’Oracle spatial Niveau de fiabilité supérieur à celui des simples fichiers (sécurité d’accès, intégrité transactionnelle…) Intégration des données géo-spatiales dans un SGBD: =>utilisation beaucoup plus efficace des données =>garantie de l’universalité et de l’interopérabilité - conforme aux normes (OpenGIS, ISO, …) =>requêtes combinées aux informations géo-spatiales et classiques - dans un langage SQL (familier aux développeurs) K. Zeitouni Cours M2 COSY - Fouille de données complexes

Fouille de données spatiales

Problème type Dr. John Snow découvre la cause probable des cas de choléra K. Zeitouni Cours M2 COSY - Fouille de données complexes

Autre application - Analyse de l’accidentologie routière Vise à décrire et expliquer le risque routier par : la description des accidents inventoriés leur contexte géographique Accidents inventoriés Fouille de Cartes et Voirie Données connaissances Spatiales extraites Activités ... K. Zeitouni Cours M2 COSY - Fouille de données complexes

Fouille de données spatiales versus Analyse spatiale Applications décisionnelles : Analyse spatiale de phénomènes localisés : risque routier, épidémiologie, criminologie, pollution, … FDS versus Analyse spatiale Fouille de données spatiales Analyse spatiale (Dr J. Snow) Découverte automatique de connaissances Découverte visuelle de connaissances Exploratoire (génère des hypothèses) Confirmatoire Opère sur des gros volumes de données Inapplicable sur des BD volumineuses K. Zeitouni Cours M2 COSY - Fouille de données complexes

Fouille de données spatiales versus Fouille de données classique BD spatiales Requêtes avec critères spatiaux Pas d’analyse exploratoires FD « classique » Batterie de méthodes exploratoires Pas de raisonnement spatial Fouille de données spatiales Intègre les techniques de BDS et de FD Explore les données et les relations spatiales d ’une BDS K. Zeitouni Cours M2 COSY - Fouille de données complexes

Fouille de données spatiales - Définition Découverte de connaissances implicites depuis une BDS toute propriété, règle ou régularité impliquant les objets de la BD spatiales et/ou les objets avoisinants et leurs relations spatiales Principales méthodes : Statistiques spatiales Clustering Règles d’association Classification K. Zeitouni Cours M2 COSY - Fouille de données complexes

Statistiques spatiales Analyse globale - Mesure d’auto-corrélation spatiale d’une variable Indice global (par carte) de Moran et Geary (en 1945 et 54) Analyse locale - Indice local d’associations spatiales (LISA) [Anselin 90] Particularités au niveau local => met en évidence les données atypiques utilise une matrice de voisinage binaire ou pondérée (wij) quantifie la contribution individuelle de chaque lieu à l’indice global K. Zeitouni Cours M2 COSY - Fouille de données complexes

Application aux sections Vert : moins corrélé que la moyenne globale Rouge : plus corrélé que l’indice global Jaune: comme l’indice global Blanc : tronçons sans calcul (pas d’accidents) Vert : moins corrélé que la moyenne globale wij= matrice de voisinage Rouge : plus corrélé que l’indice global Jaune: comme l’indice global Blanc : tronçons sans calcul (pas d’accidents) Deux particularités caractérisent cet indicateur local d'association spatiale. Au contraire de l'indice global dont les valeurs sont comprises entre -1 et 1, les valeurs du LISA varient sans limites autour de 0. Une valeur négative indique une association spatiale locale de valeurs différentes, d'autant plus importante que le résultat est fort. Une valeur positive montre, au contraire, que localement les unités spatiales ont tendance à se ressembler. La seconde caractéristique est que la somme des indices locaux est proportionnelle à l'indice global calculé sur le même espace. K. Zeitouni Cours M2 COSY - Fouille de données complexes

Application aux régions Autocorrélation locale du nombre de blessés K. Zeitouni Cours M2 COSY - Fouille de données complexes

Problèmes engendrés Problème 1: Les données spatiales sont liées Les méthodes de FD supposent les données indépendantes Problème 2: Les relations spatiales sont implicites Non stockées dans la BD Leur calcul nécessite des jointures coûteuses Leur intégration dans l’analyse est coûteuse Problème 3: Les relations spatiales sont multiples Topologiques (adjacence, intersection, …) ou métriques (distance) Le choix de la bonne relation spatiale est difficile K. Zeitouni Cours M2 COSY - Fouille de données complexes

Clustering Groupage d’objets similaires / séparation dissimilaires Similarité en spatial = distance euclidienne Utilisé moins pour classer que pour découvrir des concentrations ou des points chauds ex: criminologie, épidémiologie, accidents Méthodes en spatial : orientés perf. : CLARANS, DBSCAN, ... sur spatial & attributs : GDBSCAN, Neighborhood EM [Govaert] évitement obstacle : COE-CLARANS [Han] Concentration atypiques : machine GAM [Openshaw] K. Zeitouni Cours M2 COSY - Fouille de données complexes

Clustering spatial sous contraintes Problème : Trouver des regroupements qui respectent des contraintes et des obstacles physiques Contraintes physiques « COE-CLARANS » [Tung ICDT’01] Ex: installation de réseaux ATM doit tenir compte des obstacles géographiques (rivière, pont, etc.) Solution: calculer la distance entre p et q en considérant les obstacles K. Zeitouni Cours M2 COSY - Fouille de données complexes

Exemple avec la machine GAM : caractériser les accidents de nuit/ WE Localisations des accidents de nuit WE en rouge Recherche de concentrations spatiales locales atypiques K. Zeitouni Cours M2 COSY - Fouille de données complexes

Clustering sous Oracle 10g But: Trouver les zones de concentration de criminologie. Moyen: Grouper les données spatiales dans une table spécifiée USBG_high_crimes 1. Définir high_crimes>150 Create Table USBG_high_crimes As Select* From USBG_data Where CrimeIndex>150 2. Appliquer la méthode de clustering (k=4) Select geometry From Table(sdo_sam.spatial_cluster(‘USBG_high_crimes’,’geom’,4)) K. Zeitouni Cours M2 COSY - Fouille de données complexes

Clustering sous Oracle 10g Visualiser les clusters par Oracle MapViewer USBG_data en jaune, partie crimes élevés en bleu foncé et clusters en bleu transparent K. Zeitouni Cours M2 COSY - Fouille de données complexes

Règles d’associations spatiales Règle d’association multi-dimensionnelle Sur une table (attributs x Valeurs) en remplaçant les valeurs d ’"articles" d'une transaction par les valeurs d’attributs "A1^A2...^Am => B1^...^Bn" avec support et confiance où Ai et Bj sont des valeurs d'attributs Sur des données spatiales idem + Rel° spatiales => idem + Rel° spatiales ce qui revient à trouver des associations entre des propriétés des objets et celles de leurs "voisins" K. Zeitouni Cours M2 COSY - Fouille de données complexes

Exemple Variantes Thème de référence [Koperski] station_service ^ dans (zone_rurale) -> proche (autoroute) (25%, 80%) exprime que les stations service en zone rurales sont près des autoroutes, à 80% (confiance) et que ces stations forment 25% (support) des stations inventoriées. Variantes Thème de référence [Koperski] Règle de co-localisation quelconque [Shashi] K. Zeitouni Cours M2 COSY - Fouille de données complexes

Co-localisation Sous ensemble d’objets spatiaux fréquemment situés ensemble K. Zeitouni Cours M2 COSY - Fouille de données complexes

Arbre de décision spatial Rappel Règles de classement pour expliquer une variable « classe » par des variables explicatives. En FDS Les propriétés du voisinage peuvent être explicatives Exemple : classer les accidents selon 3 classes d’impliqués (piéton, 2 roues, véhicules) selon les propriétés des accidents et des objets voisins Découvre des liens cachés avec certains types de voisins et les illustrer sur la carte. K. Zeitouni Cours M2 COSY - Fouille de données complexes

Exemple – Spatial CART Cours M2 COSY - Fouille de données complexes K. Zeitouni Cours M2 COSY - Fouille de données complexes

Approches proposées FD spatiales FD multi-tables Algos ILP Etape 1 Index de Jointure Spatial Etape 1 Etendre les algorithmes au multi-tables Adapter les données aux algos existants Prendre en compte la duplication des objets Etape 2 Algos ILP CROISEMENT algorithme classique Programme logique Connaissances Connaissances K. Zeitouni Cours M2 COSY - Fouille de données complexes

Approche préconisée par Oracle 10g K. Zeitouni Cours M2 COSY - Fouille de données complexes

Index de jointure spatiale? Structure secondaire qui matérialise et codifie les relations spatiales Id ….. An ID1 Relation spatiale ID2 Id …. Bn 01 ….. …. 01 60 12 01 ….. …. 02 …. …. 02 45 43 02 …. …. ….. … … ….. ……. …… ….. … … ….. … … ….. ……. …… ….. … … ….. …. ….. ……. ….. ….. …. 99 … … 99 53 75 99 … … Thème 1 Index de jointure spatiale Thème 2 K. Zeitouni Cours M2 COSY - Fouille de données complexes

La FD classique est mono-table Représentation des données en FD classique 1 table unique Valeurs atomiques 1 exemple d’apprentissage par ligne K. Zeitouni Cours M2 COSY - Fouille de données complexes

Transformation préalable IndexJS … An2 2 roues 10/04/03 02 an1 Piéton 12/03/03 01 An Impliqué Date ID1 20 03 75 55 10 Dist ID2 Accident Marché Ecole Libelle ID Bâtiment Opérateur CROISEMENT ID1 Date Impliqué … An Dist_ école Dist_ marché 01 12/03/03 Piéton an1 10 Null 02 10/04/03 2 roues An2 75 20 K. Zeitouni Cours M2 COSY - Fouille de données complexes

Conclusion sur la FDS La fouille de données spatiales = prolongement de la fouille de données Tient compte des interactions dans l’espace La préparation des données peut changer la donne ? FD spatiale  FD multi-tables grâce aux index de jointures spatiales  FD classique grâce à l’opérateur C’est souvent le cas d’autres objets complexes : Fouille de texte  FD par transformation en vecteur de termes Fouille d’images  FD sur descripteurs K. Zeitouni Cours M2 COSY - Fouille de données complexes

Fouille de données textuelles

Fouille de textes Croissance phénoménale de données textuelles Documents sur Internet, mail, rapports, … Besoin d’automatiser leur recherche et leur classement Comment faire supporter à la machine le traitement rapide du langage naturel ? Techniques d’Analyse du Langage Naturel (TALN): Extraction d’éléments du langage : nom propres (personne, lieu, société) Utilise les règles de grammaire et des patrons linguistiques, des thésaurus (synonymes et hiérarchies de termes) ou des ontologies (règles en plus) Fouille de textes (si grand nombre de textes) Clustering de texte Classification (catégorisation) Associations de termes K. Zeitouni Cours M2 COSY - Fouille de données complexes

Fouille de texte versus fouille de données Data Mining Text Mining Objet numérique & catégorique textuel Structure structuré non-structuré Représentation simple complexe Dimension dizaines milliers Maturité Implémentation vaste dès 1994 Implémentation vaste dès 2000 K. Zeitouni Cours M2 COSY - Fouille de données complexes

Classification de documents textes Moteur de Catégorisation sport culture santé politic economic vacances Principe Classification (par apprentissage) de textes dans 1 ou plusieurs catégories Application en e-commerce : Relier une description de produit en texte libre à une classe de produits. Application web: les sites tels que Yahoo constituent une exellente base d’apprentissage, car les catégories y ont été générées manuellement. Sert à générer un classifieur pour classer les prochains documents. Ces classes peuvent servir comme balises sémantiques K. Zeitouni Cours M2 COSY - Fouille de données complexes

Site organisé par catégorie K. Zeitouni Cours M2 COSY - Fouille de données complexes

Processus global de catégorisation Termes uniques présents dans les documents Documents d’apprentissage Sélection des termes pré-traitement Termes uniques Dictionnaire document Représentation Vecteurs des documents Vecteur des documents Calcul des similarités Apprentissage catégories affectées Calcul des scores des catégories k proches voisins Catégorisation K. Zeitouni Cours M2 COSY - Fouille de données complexes

Prétraitement des documents Document: doc Tokenizing Removing stop words Stemming words* Calculating term frequency StemmedTermsTF* stoppedTermsTF Génère des données de type: (docID, (term, term frequency)*) K. Zeitouni Cours M2 COSY - Fouille de données complexes

Ex: Stop-words (mots chevilles) Liste de mots (ex. ceux listés par Oracle text) sont les 200 suivants : a , beaucoup, comment, encore, lequel, moyennant, près, ses, toujours, afin, ça, concernant, entre, les, ne, puis, sien, tous, ailleurs, ce, dans, et, lesquelles, ni, puisque, sienne, toute, ainsi, ceci, de, étaient, lesquels, non, quand, siennes, toutes, alors, cela, dedans, était, leur, nos, quant, siens, très, après, celle, dehors, étant, leurs, notamment, que, soi, trop, attendant, celles, déjà, etc, lors, notre, quel, soi-même, tu, au, celui, delà, eux, lorsque, notres, quelle, soit, un, aucun, cependant, depuis, furent, lui, nôtre, quelqu’un, sont, une, aucune, certain, des, grâce, ma, nôtres, quelqu’une, suis, vos, au-dessous, certaine, desquelles, hormis, mais, nous, quelque, sur, votre, au-dessus, certaines, desquels, hors, malgré, nulle, quelques-unes, ta, vôtre, auprès, certains, dessus, ici, me, nulles, quelques-uns, tandis, vôtres, auquel, ces, dès, il, même, on, quels, tant, vous, aussi, cet, donc, ils, mêmes, ou, qui, te, vu, aussitôt, cette, donné, jadis, mes, où, quiconque, telle, y, autant, ceux, dont, je, mien, par, quoi, telles, autour, chacun, du, jusqu, mienne, parce, quoique, tes, aux, chacune, duquel, jusque, miennes, parmi, sa, tienne, auxquelles, chaque, durant, la, miens, plus, sans, tiennes, auxquels, chez, elle, laquelle, moins, plusieurs, sauf, tiens, avec, combien, elles, là, moment, pour, se, toi, à, comme, en, le, mon, pourquoi, selon, ton. K. Zeitouni Cours M2 COSY - Fouille de données complexes

Représentation des documents et Mesure de similarité Vecteurs de document ou matrice Document x terme Pondération (ex: tf-idf) + Réduction de dimension Similarité : Par le cosinus : Plus il est élevé (angle obtus) plus les documents sont similaires w11 w12     w1T w21 w22     w2T    wN1 wN2     wNT d1 d2  dN t1 t2    tT K. Zeitouni Cours M2 COSY - Fouille de données complexes

Pondération TF-IDF TF-IDF signifie Term Frequency x Inverse Document Frequency : Proposée par [Salton 1989], mesure l'importance d’un terme dans un document relativement à l’ensemble des documents. Avec: tf i,j = fréquence du terme i dans le document j df i = nombre de documents du corpus contenant le terme i N = nombre de documents du corpus K. Zeitouni Cours M2 COSY - Fouille de données complexes

Évaluation de Performances Ex. pour la catégorisation binaire (Y/N): Mesures basés sur la table de contingences : Rappel mesure la largeur de la catégorisation : ratio des documents bien classés par rapport à l’ensemble des documents appartenant réellement à la catégorie. r=a/(a+c) Précision mesure la qualité de la catégorisation et correspond à la fraction des documents bien classés sur tous les documents affectés à la catégorie. p=a/(a+b) F-mesure mesure le compromis entre r et p: F1=2r*p/(r+p) pré-étiqueté Y pré-étiquetéN Affecté à Y a b a+b Affecté à N c d c+d a+c b+d a+b+c+d F-mesure = compromis entre les valeurs de r et de p Plus F1 est grand, meilleure est la qualité de la catégorisation. Si r et p ont la même valeur, il est le plus élevé et =p=r. K. Zeitouni Cours M2 COSY - Fouille de données complexes

Fouille de données séquentielles

Utilisations Panier de la ménagère en considérant l’historique des transactions des clients. Le Web Usage Mining en considérant les succession des pages accédées par un même internaute. Analyse de séquences ADN Analyse de séquences d’événements quelconques : Ex: Séquence d’activités de l’enquête «Ménages- Déplacements» Différences avec les séries temporelles Séries qualitatives et non numériques Parfois série d’ensembles, série de données multi-variées, … K. Zeitouni Cours M2 COSY - Fouille de données complexes

Ex : Le Web Usage Mining Le Weblog contient des informations riches sur la dynamique du Web => Son analyse permet de cibler les utilisateurs (clients, marchés) potentiels La recherche de régularités (séquences fréquentes de pages) permet : D’ajuster la conception des pages et des liens et d’améliorer les performances des sites Les associations de pages côté client permet d’optimiser le cache du navigateur, d’effectuer du « prefetching » L’analyse de tendance (temporelle): Indique les changements et la dynamique du web pour s’y adapter K. Zeitouni Cours M2 COSY - Fouille de données complexes

Sous-séquences fréquentes Algorithme GSP [Skirant 95]: Extension d’Apriori Génération de candidats modifiée Inconvénient : plusieurs parcours de la base => coût élevé abbc abcb bbcb cbbc cbcb abb abc bbb bbc cbb cbc aa ab ac ba bb bc ca cb cc a b c K. Zeitouni Cours M2 COSY - Fouille de données complexes

Sous-séquences fréquentes (Suite) Algorithme PrefixSpan [Pei 2001]: Inspiré de FP-tree et FP-growth de J. Han Code les données dans une structure d’arbre Plus performant que GSP si la structure tient en mémoire Problème : compacité moyenne => peut dépasser la taille de la mémoire K. Zeitouni Cours M2 COSY - Fouille de données complexes

Sous-séquences fréquentes (Suite) Algorithme TBI [Savary 2005]: Un seul parcours de la base Codage compact au fur et à mesure dans un tableau binaire Maintien des fréquences des séquences lues et d’un index pour l’accès rapide par longueur. Plus performant que PrefixSpan Méthode en 2 phases : Phase de codage dans la structure de donnée (Lit 1 fois la BD) Phase de génération de fréquents en mémoire K. Zeitouni Cours M2 COSY - Fouille de données complexes

Sous-séquences fréquentes (Suite) Structure de données M T E S M R T M 0 1 0 0 1 0 1 1 1 VS TB NB Index 4 6 8 9 240 0 1 1 0 1 0 1 1 1 0 0 0 0 0 0 0 0 1 0 0 1 0 0 1 0 1 0 0 0 0 0 0 .. .. .. .. .. .. .. .. ... 389 500 5 Pointe sur le début de séquences de taille 3 Fréquence de la séquence entière Pointe sur le début de séquences de taille 1. K. Zeitouni Cours M2 COSY - Fouille de données complexes

Sous-séquences fréquentes (Suite) Algo TBI (Seuil-support, Tmax) Pour s dans la BD Gen-vecteur-séquences (VS, s) //génère le vecteur de séquences Coder et Insérer séquence dans le TBI Décalage éventuel pour séquences déjà codées Mettre à jour NB et Index Fin pour Pour k = 1 à Tmax //taille maximale des séquences de la base - Générer Ck - Gen-séquences-fréquentes (Seuil-support, k) Fin Pour K. Zeitouni Cours M2 COSY - Fouille de données complexes

Sous-séquences fréquentes (Suite) Algo. Gen-vecteur-séquences (VS, s) --s : nouvelle séquence indice=1 -- Position courante dans VS Pour chaque article a de s Si a  (VS à partir de indice) Si  b  s tel que b  VS et position(b) > indice Insérer a avant b dans VS indice = indice + 1 Sinon insérer a à la fin de VS indice = Longueur VS+1 Fin Pour Fin K. Zeitouni Cours M2 COSY - Fouille de données complexes

Sous-séquences fréquentes (Suite) Algo. Gen-séquences-fréquentes (Seuil-support, k) : Lk =  // ensemble des séquences fréquentes de tailles k Pour toutes les sous-séquences candidates s de taille k - Pour toutes les lignes l du TBI à partir de la ligne index[k] - Si s  l - s.count = s.count + NB[k] // fréquence de s - Fin Pour - Si s.count >= Seuil-support - Lk= Lk  s Fin Pour K. Zeitouni Cours M2 COSY - Fouille de données complexes

Conclusion La recherche d’information a dominé la recherche au cours du demi-siècle passé. La découverte d’informations dominera la recherche au cours du siècle à venir. Directions de recherche Vers les outils intégrés de data mining “Vertical” (spécifique par application) data mining invisible (systèmes intelligents) Vers les méthodes intelligentes, efficaces et passant à l’échelle Réduire les accès disque Surtout réduire les calculs tels que les similarités sur des données complexes. K. Zeitouni Cours M2 COSY - Fouille de données complexes

Références Miller H.J., Han J., Geographic Data Mining and Knowledge Discovery, Research monographs in geographic information systems, 2001. Ester M., Kriegel H.-P., Sander J., Xu X.: A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise, Proc. 2nd Int. Conf. on Knowledge Discovery and Data Mining (KDD-96), Portland, 1996, pp. 226-231. Ester M., Kriegel H.P., Sander J., "Spatial Data Mining: A Database Approach", Proc. of 5th Symposium on Spatial Databases, Berlin, Germany, 1997. K. Koperski, G. B. Marchisio, « Multi-level Indexing and GIS Enhanced Learning for Satellite Imageries », In proceedings of Workshop on Multimedia Data Mining, August 20, 2000, Boston, MA, USA, pages 8-13. In conjunctions with the 6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 2000. Lu, W., Han, J. and Ooi, B.: Discovery of General Knowledge in Large Spatial Databases, in Proc. of 1993 Far East Workshop on Geographic Information Systems (FEGIS'93), Singapore, June 1993 K. Zeitouni Cours M2 COSY - Fouille de données complexes

Références (suite) R. Ng and J.Han, "Efficient and Effective Clustering Method for Spatial Data Mining'', in Proc. of Int. Conf. on Very Large Data Bases (VLDB'94), Santiago, Chile, September 1994, pp. 144-155. Tung A.KH, Ng R T., Lakshmanan L VS, Han J., Constraint-based clustering in large databases. ICDT 2001. Zeitouni K., "Data Mining Spatial" - Numéro spécial, Revue internationale de géomatique, Editions Hermès, Vol. 9, 4 (99). Zeitouni K.,Yeh L., Aufaure M-A., "Join indices as a tool for spatial data mining", Int. Workshop on Temporal, Spatial and Spatio-Temporal Data Mining, LNAI n° 2007, Springer, Lyon, September 2000. Sites web : http://www.kdnuggets.com/ http://www.cs.bham.ac.uk/~anp/TheDataMine.html Site de DBMiner/GeoMiner : http://db.cs.sfu.ca/DBMiner/index.html K. Zeitouni Cours M2 COSY - Fouille de données complexes

Références (suite) Agrawal R., Srikant R.: Mining sequential patterns. In Proc. of the 11th Int'l Conference on Data Engineering, Taipei, Taiwan, March 1995. Han, J., Jamil, H. M., Lu, Y., Chen, L., Liao, Y. and Pei, J. DNA Miner: A system prototype for mining DNA sequences. In the proc. of the ACM SIGMOD International Conference on the management of data, Day 21-24, 2001, Santa Barbara, CA, USA. M. J. Zaki. 2001. SPADE: an efficient algorithm for mining frequent sequences. Machine Learning Journal, 42 (1/2): 31-60. R. Srikant and R. Agrawal. 1996. Mining sequential patterns: generalization and performance improvements. Proceedings of the 15th International Conference on Extending Database Technology, 3-17. J. Pei, J. Han, B. Mortazavi-Asl, H. Pinto, Q. Chen, U. Dayal, and M-C. Hsu. 2001. PrefixSpan: mining sequential patterns efficiently by prefix-projected pattern growth. Proceedings of the 17th International Conference on Data Engineering (ICDE), 215-224. F.Masseglia, P.Poncelet, M.Teisseire: Incremental mining of sequential patterns in large databases. Data Knowledge Engineering 46(1): 97-121 (2003). Savary L., Zeitouni K., “Indexed Bit Map (IBM) for Mining Frequent Sequences”, 9th European Conference on Principles and Practice of Knowledge Discovery in Databases (PKDD 2005), Porto, Portugal, October 3-7, 2005. Lecture Notes in Computer Science n° 3721 / 2005, Springer-Verlag Ed, pp. 659 – 666. Vesrion en Français ”Tableau de Bits Indexé (TBI) pour la Recherche de Séquences Fréquentes », Actes de la conférenceExtraction et Gestion de connaissances (EGC) 2005. K. Zeitouni Cours M2 COSY - Fouille de données complexes