EQUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II
EQUIPE TaToo 8 Permanents (3 Pr, 5 MCF dont 1 HDR), 2 Associés, 7 Doctorants Thèmes de recherche : Fouille de données Textes (Text Mining), Arborescentes (Schema - Web Structure Mining) Multidimensionnelles (Cube - Web Usage Mining) Flots (Stream Mining) Ontologie Annotation, Indexation, Modélisation, Mise-à-jour Motifs séquentiels
Vers un nouveau processus EXPERTISE Représentation Des DONNEES Traitement Visualisation Fouille de données CONNAISSANCES aux DECISIONS PROBLEME
Résultats récents 6 thèses soutenues 2008-2007 (Jurys prestigieux : Jian Pei, Toon Calders, Osmar Zaiäne …) Publications (co-publications) avec CL sur 2008 (2007) : 5 (3) RI - 28 (14) CI DMKD, IEEE Transaction on Fuzzy Sets, ODBASE, CIKM, PAKDD, PKDD, DASFAA, BDA … Comités de Programme, Relecteur ICDM, PKDD, DEXA, IEEE TKDE, …
Domaines d’application Web Mining, Text Mining, Schema Mining, Tree Mining, Stream Mining … Santé : 3 partenariats forts (Inserm Bordeaux, Montpellier I et II) 2 Programmes Exploratoires Pluridisciplinaires 2008 PEPS ST2I « GeneMining » PEPS STI-SHS « Langage, Mémoire et Alzheimer » Environnement ….
Outils de visualisation Demon
Transferts de technologie Axiliance (Région LR) (30K) Filtrage de requêtes à risque EDF (R&D Paris) (80K) Recherche de comportements temporels atypiques ANR Midas avec ENST, INRIA, EDF R&D, Orange R&D Modélisation et fouille dans les flots de données We are cloud Calcul dans les cubes de données En cours (PIKKO, Spotter)
Conclusion Ambition (Equipe – Séminaire) Forte implication au sein de l’Université (Présidence, Direction adjointe UFR Info, Direction Dept IG, Responsable de Parcours …), de la région (IBM, cluster INTS, journées MIPS) Mais Affectation des ressources
Le Processus d’Extraction de Connaissances Identifier dans les données des schémas valides, nouveaux, potentiellement utiles et compréhensibles [Fayyad et al., 1996]
Panier de la ménagère Localisation Produits achetés Identification Date, heure
Règles d’Association vs Motifs Séquentiels Corrélation entre les produits (RA) Les personnes qui achètent des couches achètent de la bière Comportement des clients au cours du temps (MS) Les personnes qui achètent des couches achètent trois jours après de la bière
Extraction de Motifs Séquentiels Considérons la base de données D suivante avec I = {a,b,c,d} : C1 t1 t2 a,b,c,d a,b C2 t3 C3 t4 b,c,d <(a,b)> séquence fréquente [Agrawal & Srikant, 95] [Srikant & Agrawal, 96] GSP [Masseglia et al., 98] PSP [Zaki., 01] SPADE [Ayres et al. 02] SPAM [Han et al.., 00] FreeSpan [Pei et al.., 01] PrefixSpan [Zaki, 07] PRIMAL Par niveau Pattern-Growth Par niveau, représentation
Des constats Quid des nouvelles données ? des quantités ? des contraintes temporelles ? des données plus complexes ? des connaissances plus riches ?