Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parPatrice Le meur Modifié depuis plus de 10 années
1
EQUIPE TaToo Extraction de connaissances dans les bases de données : motifs séquentiels et ontologie LIRMM - CNRS - Université Montpellier II
2
EQUIPE TaToo 8 Permanents (3 Pr, 5 MCF dont 1 HDR),
2 Associés, 7 Doctorants Thèmes de recherche : Fouille de données Textes (Text Mining), Arborescentes (Schema - Web Structure Mining) Multidimensionnelles (Cube - Web Usage Mining) Flots (Stream Mining) Ontologie Annotation, Indexation, Modélisation, Mise-à-jour Motifs séquentiels
3
Vers un nouveau processus
EXPERTISE Représentation Des DONNEES Traitement Visualisation Fouille de données CONNAISSANCES aux DECISIONS PROBLEME
4
Résultats récents 6 thèses soutenues (Jurys prestigieux : Jian Pei, Toon Calders, Osmar Zaiäne …) Publications (co-publications) avec CL sur 2008 (2007) : 5 (3) RI - 28 (14) CI DMKD, IEEE Transaction on Fuzzy Sets, ODBASE, CIKM, PAKDD, PKDD, DASFAA, BDA … Comités de Programme, Relecteur ICDM, PKDD, DEXA, IEEE TKDE, …
5
Domaines d’application
Web Mining, Text Mining, Schema Mining, Tree Mining, Stream Mining … Santé : 3 partenariats forts (Inserm Bordeaux, Montpellier I et II) 2 Programmes Exploratoires Pluridisciplinaires 2008 PEPS ST2I « GeneMining » PEPS STI-SHS « Langage, Mémoire et Alzheimer » Environnement ….
6
Outils de visualisation Demon
7
Transferts de technologie
Axiliance (Région LR) (30K) Filtrage de requêtes à risque EDF (R&D Paris) (80K) Recherche de comportements temporels atypiques ANR Midas avec ENST, INRIA, EDF R&D, Orange R&D Modélisation et fouille dans les flots de données We are cloud Calcul dans les cubes de données En cours (PIKKO, Spotter)
8
Conclusion Ambition (Equipe – Séminaire)
Forte implication au sein de l’Université (Présidence, Direction adjointe UFR Info, Direction Dept IG, Responsable de Parcours …), de la région (IBM, cluster INTS, journées MIPS) Mais Affectation des ressources
9
Le Processus d’Extraction de Connaissances
Identifier dans les données des schémas valides, nouveaux, potentiellement utiles et compréhensibles [Fayyad et al., 1996]
10
Panier de la ménagère Localisation Produits achetés Identification
Date, heure
11
Règles d’Association vs Motifs Séquentiels
Corrélation entre les produits (RA) Les personnes qui achètent des couches achètent de la bière Comportement des clients au cours du temps (MS) Les personnes qui achètent des couches achètent trois jours après de la bière
12
Extraction de Motifs Séquentiels
Considérons la base de données D suivante avec I = {a,b,c,d} : C1 t1 t2 a,b,c,d a,b C2 t3 C3 t4 b,c,d <(a,b)> séquence fréquente [Agrawal & Srikant, 95] [Srikant & Agrawal, 96] GSP [Masseglia et al., 98] PSP [Zaki., 01] SPADE [Ayres et al. 02] SPAM [Han et al.., 00] FreeSpan [Pei et al.., 01] PrefixSpan [Zaki, 07] PRIMAL Par niveau Pattern-Growth Par niveau, représentation
13
Des constats Quid des nouvelles données ? des quantités ?
des contraintes temporelles ? des données plus complexes ? des connaissances plus riches ?
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.