Extraction des connaissances dans les bases de données Ansaf SALLEB salleb@lifo.univ-orleans.fr Laboratoire d ’Informatique Fondamentale d ’Orléans (LIFO) en collaboration avec: Bureau des Recherches Géologiques et Minières (BRGM) & La Région Centre
Description du problème Volume de données collectées est en croissance continue Experts dépassés par les volumes Il y en a beaucoup trop ! Ansaf SALLEB Sciences en Sologne 2000
Solution Volume de données Connaissances Extraction des connaissances dans les Bases de données Volume de données Connaissances BD Sélection Pré traitement Transformation Fouille de données Interprétation/ Evaluation Connaissances Modèles Données transformées Données prétraitées Données sélectionnées Etapes d’un processus ECD (Fayyad et al. 1996) Ansaf SALLEB Sciences en Sologne 2000
Solution Fouille de données (Data Mining) = Extraction de connaissances implicites, non connues à l'avance dans des entrepôts de données STAT BD RN VISU ASA AD FD Ansaf SALLEB Sciences en Sologne 2000
Tâches de fouille de données Description : Généralise, résume et compare des données Classification: Catégorise les données en classes Regroupement: Identifie des groupes homogènes de données Association: Extrait des corrélations entre les données Prédiction: Prédit des données manquantes etc. Ansaf SALLEB Sciences en Sologne 2000
Extraction des Associations Définition (Agrawal et al. 1993) Découverte de relations de corrélation ou d’association parmi un ensemble d’objets (items). I = ensemble d'items, T = ensemble de transactions (BD) X Y (s%, c%) / X et Y ensembles d'items Support s% Pourcentage des transaction de T qui contiennent X et Y Confidence c% Pourcentage de transactions de T qui contiennent Y parmi celles qui contiennent X. Ansaf SALLEB Sciences en Sologne 2000
Exemple: Analyse du panier de la ménagère Ansaf SALLEB Sciences en Sologne 2000
Systèmes d ’information géographiques SIG Gestion données spatiales relatives à la géographie - Objets: points, lignes, polygones - Couches thématiques Ansaf SALLEB Sciences en Sologne 2000
Exemple Ansaf SALLEB Sciences en Sologne 2000 Failles Gisements Géologie Ansaf SALLEB Sciences en Sologne 2000
Extraction des associations dans les SIG Recherche de liens possibles entre couches thématiques : - Proximités spatiales (intersection, inclusion, …) - Caractéristiques non-spatiales de ces objets Exemple Gisement(x) Geology(y) Code(y, TertiaireVolcanique) inclus(x,y) SubstancePrinc(x, Ag) (4.43%, 40.56%) Ansaf SALLEB Sciences en Sologne 2000
Conclusion et perspectives Intêret du Data Mining et des associations: Marketing Systèmes bancaires SIG Bio-Informatique Médecine Télécommunication … Plusieurs systèmes existent déjà tels que: Kefir, Skicat, Quest, Clementine, … Travaux en cours: Data Mining dans BD Spatiales, Temporelles, MultiMédia, WebMining, TextMining, ... Ansaf SALLEB Sciences en Sologne 2000