Télécharger la présentation
Publié parFlavie Grand Modifié depuis plus de 10 années
1
28/04/2003 ©PEPITe S.A.
2
« Data Mining » En bref… Techniques informatiques d’exploration automatique de données Extraction de connaissances à partir de données assistée par ordinateur Les piliers: Visualisation d’information La statistique L’apprentissage automatique: Réseaux de neurones Arbres d’induction (décision, régression,..) L’intelligence artificielle 28/04/2003 ©PEPITe S.A.
3
Exploitation des nouvelles connaissances
Validation Apprentissage des modèles Exploration Transformation Collecte des données Spécification du problème 28/04/2003 ©PEPITe S.A.
4
CRISP-DM 28/04/2003 ©PEPITe S.A.
5
Statistique Synthétiser l’information (moyenne, écart-type, etc.)
Sélection MANUELLE des modèles Tests d’hypothèses pour valider les choix des modèles Mieux adapté pour des petites bases de données Méthodes plus complexes demandant une grande expertise pour une utilisation efficace 28/04/2003 ©PEPITe S.A.
6
Visualisation 28/04/2003 ©PEPITe S.A.
7
Apprentissage Automatique Extraction de la Connaissance
Construction de modèles à partir d’observations (ou de simulations) d’un système Dans le but de: Expliquer le comportement du système Prédire le comportement du système Pas d’hypothèses sur les modèles de départ MAIS, nécessité d’un minimum d’observations 28/04/2003 ©PEPITe S.A.
8
IA : Systèmes Experts Modélisation de la Connaissance
La machine imite le comportement de l’être humain Capacité d’apprendre et de raisonner Capacité de proposer des solutions déduites de prédicats Introduction préable des règles (IF…THEN…) et de faits par l’expert Outils d’inférence : PROLOG, CLIPS, JESS, LISP, OPENCYC,… Gestion d’alarmes, jeux,… 28/04/2003 ©PEPITe S.A.
9
Apprentissage Automatique Supervisé
Entrées Xi : données du débiteur Sortie Y : solvabilité Construction du modèle Y = F(X1,…XN) Diviser la BD en un ensemble d’apprentissage et un ensemble de test Apprendre avec EA Valider quantitativement le modèle avec ET Valider qualitativement le modèle avec expert Exploitation du modèle 28/04/2003 ©PEPITe S.A.
10
Supervisé Classement & Régression
Sortie Y continue : régression Taux de rebuts Sortie Y discrète : classement Taux de rebuts acceptable/non acceptable 28/04/2003 ©PEPITe S.A.
11
Apprentissage Automatique Non-Supervisé
Apprendre les relations entre variables Pas de distinction entre variables d’entrées et de sorties Exemple : Retrouver des journées de productions similaires Retrouver des corrélations entre attributs (mesures similaires) Méthodes : Dendrogramme, K-MEANS 28/04/2003 ©PEPITe S.A.
12
Supervisé Arbres de Décision
Apprentissage automatique supervisé pour le classement Construction A chaque noeud recherche de la meilleure entrée et de la bonne question Séparation du noeud en deux fils en fonction de la réponse à la question Arrêt du développement Utilisation Propagation d’un nouvel objet dans l’arbre, le noeud terminal indique la classe de l’objet 28/04/2003 ©PEPITe S.A.
13
Arbre de Décision Construction
Y N T° > 54°C Y N 28/04/2003 ©PEPITe S.A.
14
Atouts des Arbres Interprétable : Sélection des paramètres relevants
Lecture facile des règles Plus facile pour la validation qualitative Sélection des paramètres relevants Construction très rapide Différentes variantes : Arbres de régression (sortie continue) Arbres flous (sortie continue et discrète) Ensemble d’arbres 28/04/2003 ©PEPITe S.A.
15
Problématique des Données
Qualité: erreurs d’encodage bruits valeurs manquantes Quantité: taille minimum requise de la BD imprévisible (dépend de la complexité du problème) 28/04/2003 ©PEPITe S.A.
16
Types de Données Images Sons
Données symboliques (grand, petit, chaud, froid,…) Données numériques Données temporelles 28/04/2003 ©PEPITe S.A.
17
Méthodes Régression multivariée Arbres (régression, classif., flous,…)
Réseaux de neurones Réseaux baysiens Analyse Composantes Principales (ACP – PCA) Machines à support vectoriel … 28/04/2003 ©PEPITe S.A.
18
La Meilleure Méthode ? Toutes et aucune Dépend du type de problème
Dépend des besoins Précision : réseau de neurones Interprétabilité : arbres de décison Nécessité de disposer d’une boîte à outils robuste, flexible et adaptable 28/04/2003 ©PEPITe S.A.
19
Manufacturing Industry
1 ERP: planning, scheduling, supply and logistics 2 MES: plant-wide optimization &management 3 Automation, advanced process control, abnormality management 4 Basic control, rectification, statistical analysis 5 Measurement and sensing, on-line monitoring 28/04/2003 ©PEPITe S.A.
20
DATA EXPERT PROCESS KNOWLEDGE 28/04/2003 ©PEPITe S.A.
21
Applications en Économie
eCRM analytique : analyse du comportement des clients, des interactions & optimisation de métriques de satisfaction Détection de fraude Stratégies de trading Optimisation de portfolio Bâle II : mesure et analyse du risque dans le gestion des fonds propres des banques 28/04/2003 ©PEPITe S.A.
22
Links2go http://www.cwu.edu/~borisk/finance http://www.aaai.org
28/04/2003 ©PEPITe S.A.
23
Slides et logiciel disponibles sur www.pepite.be
Login : EAA / Mot de passe AA_1000 28/04/2003 ©PEPITe S.A.
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.