Data Mining: Définition C’est l’exploitation et l’analyse de grands volumes de données en vue d’en tirer l’information pertinente pour la compréhension du phénomène étudié , la formulation de jugements et la prise de décision.
Le Data Mining ou Extraction de Connaissance à partir de Données (ECD), a pour objet l’extraction d’un savoir ou d’une connaissance à partir de grandes quantités de données par des méthodes automatiques. On dit aussi: - Extraction de données; - fouille de données; - forage de données
Le Data Mining se distingue de l’analyse des données et de la statistique: Pas d’hypothèses à vérifier; L’intégration des connaissances obtenues dans le schéma organisationnel de l’entité étudié; Les données utilisées sont tirées des systèmes de stockage de l’entité et ne sont pas à priori destinées au Data Mining, sauf dans le cas des entrepôts de données.
Le Data Mining se situe à la croisée de la statistique et l’ analyse des données, de l’intelligence artificielle et des bases de données. Il utilise donc des algorithmes venant de ces disciplines.
Que permet le Data Mining ? Le Data Mining permet de découvrir des pépites d’informations enfouies dans une mine de données.
Qu’est ce qui est à la base du développement du Data Mining ?
1.L’augmentation des capacités de stockage des données: Les disques durs permettent aujourd’hui de stocker plusieurs Giga octets.
2. L’accroissement des capacités de traitement des données du fait de la facilité et de la vitesse d’accès aux données grâce à l’accès direct (plus de bandes magnétique)
Ecouter de la musique avec un lecteur de CD ou avec un magnétophone. Exemple Ecouter de la musique avec un lecteur de CD ou avec un magnétophone. - Pour accéder à un morceau stocké sur la bande magnétique, il faut dérouler la bande jusqu’à la zone de stockage du morceau. - Par contre, on accède directement au morceau stocké sur le CD.
3. Le développement des techniques de base de données: Le concept de base de données relationnelles permet une meilleure organisation et exploitation des bases de données.
4. La croissance exponentielle des bases de données: Les capacités des base de données sont de l’ordre de terabits (10 puissance 12 bits): Apparition d’entrepôts de données impossible à exploiter manuellement.
5. Existence de moyens de plus en plus efficaces de collecte des données (scanner dans les supermarchés, internet)
Quel est l’interet du Data Mining ?
1. Il rend possible l’exploration des entrepôts de données par les entreprises cherchant à améliorer leur rentabilité, grâce par exemple à une meilleure connaissance de la clientèle
2. Il rentabilise les systèmes d’information qui d’habitude ont été conçus et installés par des investissements coûteux.
Que permet le Data Mining ?
1. Comprendre le phénomène étudié: Savoir 2. Avoir ensuite une visibilité pour prendre des décisions: prévoir pour décider
Quel est le public Concerné ?
1. Les scientifiques: comprendre certains phénomènes 2 1.Les scientifiques: comprendre certains phénomènes 2.Les analystes: produire des rapports pour les décideurs 3.Les décideurs: prévoir pour décider
Les principaux secteurs utilisant le Data Mining Banques: 13% Télécommunications: 9% E-Commerce: 9% Détection des fraudes: 8% Etudes scientifiques: 8% Marketing: 7% Assurance: 6% Distribution: 6% Biologie: 5% Industrie pharmaceutique: 5%
Que vise le Data Mining ? 1. Classer 2. Prédire L’essentiel des techniques utilisées pour cela se trouve dans les grandes composantes de l’analyse des données: - La classification automatique L’analyse factorielle Les techniques de régression.