Knowledge discovery in Databases (KDD)

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

QUALIFICATION COMPORTEMENTALE DES BASES DE DONNEES CLIENTS
Relational Learning as a Search in a Critical Region Lou Fedon 9 Mars 2006.
Data Mining.
Classification et prédiction
Classification et prédiction
Regroupement (clustering)
Regroupement (clustering)
Apprentissage relationnel Apprentissage Data Mining ILP.
Évaluation de la qualité d'une clusterisation
La méthode Hay d'analyse du travail
Les décisions Pourquoi faut-il prendre des décisions?
Extraction des connaissances dans les bases de données
Le processus unifié UML est un langage de modélisation et n ’impose pas de démarche de développement Le processus unifié : méthodologie de développement.
INTRODUCTION Grande quantité de données
Diagram-Based Techniques
UML - Présentation.
Évaluation et scénarios territoriaux
Application de réseaux bayésiens à la détection de fumées polluantes
Modélisation des systèmes non linéaires par des SIFs
Démarches : - d’investigation de résolution… de conception - de projet
Data Mining: Définition
Mirta B. Gordon Laboratoire Leibniz-IMAG Grenoble
LA SEGMENTATION STRATÉGIQUE
Initiation à la conception de systèmes d'information
Applications du perceptron multicouche
DURIBREUX, Michèle & COCQUEBERT & HOURIEZ, Bernard,
Le Reengineering.
Séminaire de lobjectif « forage et production » Beaune, les 26,27 et 28 Avril 2000 Outils danalyse statistiques « programmation par lexemple » S. Canu,
06/12/2005 C. Massot À PROPOS DE LOGICIELS STATISTIQUES.
Méthode des k plus proches voisins
La segmentation
28/04/2003 ©PEPITe S.A.
La Classification
DataLab® Toute la connaissance client en quelques minutes
MOT Éditeur de modèles de connaissances par objets typés
Sujet : Étude de Data Mining en utilisant SAS:EM
LE DATAMINING Présenté par : Proposé par :
Le projet BENEBUS: Benchmarking of e-business solutions for Western and Eastern Europe SMEs Contract no.:IST a rassemblé des.
La gestion par activités (ABM)
Le forage de données ou data mining
Réalité virtuelle et Représentation de Données Complexes
Exposé d’article IFT – Ingénierie des connaissances Présenté par
Détecter linnovant sur le web par des techniques non booléennes : méthode, outils, application Eric Boutin, USTV, Gabriel Gallezot,
Présenté par : Attia Hamza Merzouk Abdelkrim 2003/2004
La formation des ressources humaines
Apport du Data Mining pour prédire la facture de patients hospitalisés
Méthodes de tri.
Christelle Scharff IFI 2004
Réseaux de neurones artificiels « programmation par l’exemple »
ESTIMATION / CHIFFRAGE
Sériation et traitement de données archéologiques
Apprentissage « machine »
RAISONNEMENT À PARTIR DE CAS R à PC. PLAN DU TRAVAIL Introduction Introduction Raisonnement analogique Raisonnement analogique Principe et étapes de R.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Introduction et Généralités sur l’Algorithmique
Étude bibliographique
Intelligence artificielle
LES SUPPORTS INDIVIDUELS D ’AIDE A LA DECISION UNE PRESENTATION DE : DIALLO, OUSMANE B UNE PRESENTATION DE : DIALLO, OUSMANE B.
Collège Henri BOUDON - BOLLENE
Thibault ROY & Olivier SAGIT Exposé du mercredi 17 décembre 2003 Apprentissage Interactif Apprentissage avec SpamAssassin UFR de Sciences Département d’Informatique.
Data Mining: Concepts et Techniques
1 Prédiction de mobilité basée sur la classification selon le profil DAOUI Mehammed Université Mouloud Mammeri Tizi-Ouzou Rencontres sur.
Le Marketing Prédictif
L’EXAO: Outil et Objet d’Apprentissage. Développements et Perspective.
Les Extra-Trees+SW Réalisé par : Encadrante:
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
Extreemly Random Trees + SubWindows HOURRI Soufiane NAIT ABDELLAH OUALI Ismail OUFQIR Anouar OUSSAFI Mohammed.
la reconnaissance de visages
Les dossiers patients d’un hôpital contiennent les attributs suivants : – nom – code postal – pression systolique en mm de mercure. – s’il est porteur.
Transcription de la présentation:

Knowledge discovery in Databases (KDD) Extraction des connaissances à partir des données (ECD)

Plan de travail Introduction Le processus de KDD Le concept de Data Mining Les tâches de Data Mining Les données utilisées en Data Mining Le processus de Data Mining Les techniques de Data Mining Les logiciels de Data Mining Étude de cas Conclusion

Introduction Les technologies de KDD et de Data Mining permettent de trouver dans des grandes BDDs des conaissances.

1. Le processus du KDD 1.1. Définition de KDD 1.2. Les étapes d’un processus de KDD

Les étapes de processus du KDD

2. Le concept de Data Mining 2.1. Définition 2.2. Les utilisations actuelles de Data Mining

3. Les tâches de Data Mining 3.1. La classification 3.2. L’estimation 3.3. La prédiction 3.4. Le regroupement par similitude 3.5. L’analyse des clusters 3.6. La description

4. Les données utilisées en Data Mining 4.1. Les données numériques 4.2. Les données textuelles

Tableau de données I X X1 X2 ……. XJ ……..XP 1 2 i n . ………… xij. ………...

4. Les données utilisées en Data Mining 4.1. Les données numériques 4.2. Les données textuelles

5. Le processus de Data Mining 5.1. phase 1: Poser le problème 5.2. phase 2: la recherche des données 5.3. phase 3: la sélection des données 5.4. phase 4: le nettoyage des données 5.5. phase 5: les actions sur les variables 5.6. phase 6: la recherche du modèle 5.7. phase 7: l’évaluation du résultat 5.8. phase 8: l’intégration de la connaissance

La validation par le test Base d’exemples totale 70% 30% Base d’apprentissage Base de test modèle

5. Le processus de Data Mining 5.1. phase 1: Poser le problème 5.2. phase 2: la recherche des données 5.3. phase 3: la sélection des données 5.4. phase 4: le nettoyage des données 5.5. phase 5: les actions sur les variables 5.6. phase 6: la recherche du modèle 5.7. phase 7: l’évaluation du résultat 5.8. phase 8: l’intégration de la connaissance

6. Les techniques de Data Mining 6.1. L’apprentissage supervisé 6.2. L’apprentissage non supervisé

6.1. L’apprentissage supervisé 6.1.1. La régression 6.1.2. Les arbres de décision 6.1.3. Les algorithmes génétiques 6.1.4. Les réseaux de neurones

Réseau de neurone

6.2. L’apprentissage non supervisé(clustering) 6.2.1. Les algorithmes de partitionnement 6.2.2. Les algorithmes hiérarchiques

6.2.1. Les algorithmes de partitionnement Méthode de K-means: Construire K classes non vides; Répéter Calculer le centre de chaque classe; Assigner chaque élément à la classe dont le centre est le plus proche; Jusqu’à la partition soit stable.

6.2.2. Les algorithmes hiérarchiques Méthode agglomérative : Identifier les deux points les plus proches et les combinées en une classe; Considérer les classes comme des points; Identifier et combiner les deux points les plus proches; Si plus d’une classe subsiste revenir à 2.

Matrice de positionnement des logiciels simples Les gammes de puissances complexes techniques de modélisation Intelligent miner SAS Décision séries Mineset 4thought Clementine Prédict K.seeker SPSS Alice Data mind Scenarie Utilisateurs compétence requise Experts

Étude de cas Objet: Identification de profils de clients et organisation d’une compagne de marketing direct.

Conclusion