Data Mining.

Slides:



Advertisements
Présentations similaires
ELABORER ET METTRE EN ŒUVRE UN PROJET DE SOINS INDIVIDUALISE
Advertisements

S. Jouteau, A. Cornuéjols, M. Sebag (LRI)
3. Les mécanismes comptables
Classification et prédiction
Classification et prédiction
Règles d’association.
Extraction de Connaissances à partir de Données et Fouille de Données Knowledge Discovery in Data Bases and Data Mining Pascal Poncelet
Apprentissage relationnel Apprentissage Data Mining ILP.
Datamining de la Connaissance Client orienté Objectif
Extraction des connaissances dans les bases de données
INTRODUCTION Grande quantité de données
Modèle Entités-Associations
2nd thème : La notion de données à caractère personnel.
COÛT DE REVIENT Le coût de revient comme son nom l’indique, c’est le coût lié à la fabrication d’un produit ou à la production d’un service. Autrement.
Notions de variable aléatoire et de probabilité d’un événement
Règles significatives
Christelle Scharff IFI Juin 2004
L’OUTIL STATISTIQUE.
Organisation pratique du service commercial
Initiation au système d’information et aux bases de données
Etude des Technologies du Web services
LA SEGMENTATION STRATÉGIQUE
Analyse de l’offre et de la demande
Initiation à la conception de systèmes d'information
Suppression des Itemsets Clés Non- Essentiels en Classification V. Phan-Luong Université Aix-Marseille Laboratoire d'Informatique Fondamentale de Marseille.
La comptabilité par activités
Unite 2 Qui suis je?.
DEA Perception et Traitement de l’Information
DataLab® Toute la connaissance client en quelques minutes
MODELE RELATIONNEL concept mathématique de relation
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
3 () CHAPITRE Les créances Le crédit est un excellent moyen daugmenter son chiffre daffaires, et il est très difficile pour une entreprise de léviter complètement.
Les concepts et les méthodes des bases de données
Les systèmes internes d’information de marché : fichiers-clients
Initiation aux bases de données et à la programmation événementielle
Initiation à la conception des systèmes d'informations
- Apporteurs de capitaux.
Information et Système d’Information
Bernard Laflamme, consultant Georges Brissette, Commission scolaire de la Seigneurie-des-Mille-Îles Louise Michaud, MELS MESURE VOLET « CONCOMITANCE.
METHODE DESCPIPTIVE : ASSOCIATION
Travaux Pratiques Représentation des connaissances
11. 2 Contenu  La société par actions o La société par actions : une personne morale o La constitution d'une société par actions o L'organisation de.
Algorithmes sur les sons
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Fouille de données issues de capteurs : problématique et méthodes Journée “Les Capteurs en Agriculture” Paris 18 avril 2014 Pascal Poncelet
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
LE COMPTE Un compte est un registre comptable individuel faisant état des augmentations et des diminutions d’un élément particulier de l’actif, du passif.
Bureautique M1 Publipostage.
Knowledge discovery in Databases (KDD)
Le marketing : comprendre le client
Data Mining: Concepts et Techniques
CHAPITRE 3. Acquisition d’information et révision des croyances
06/04/06 LES BASES DE DONNEES INTRODUCTION CogniTIC – Bruxelles Formation - Cepegra.
Suivi simplifié d’activité
INTRODUCTION AUX BASES DE DONNEES Modèle entités-relations
Projet Acquisition de connaissances Réalisé par Anne-Laure B ERRÉE, Andra Maria B LAJ, Stéphanie C HARLET, Diana D RAGUSIN, Daphné D USSAUD, Emeline E.
Initiation aux bases de données et à la programmation événementielle
Mieux connaître la clientèle
La qualification de la clientèle
Cours 11 Entrepôts de données
LA VENTE CONSEIL REPOSE SUR :
La comptabilisation des opérations commerciales (deuxième partie)
Les systèmes comptables
Les systèmes comptables
1 Séance 13 Les sociétés de personnes. 2 Plan de la séance 13 La société de personnes –Caractéristiques de la société en nom collectif –Avantages et inconvénients.
Etude de gestion session 2016
Cours de Systèmes de Gestion de Données - Licence MIAGE – 2003/20041 Cours n°2 La conception d ’un schéma relationnel (suite) Chantal Reynaud Université.
Schéma de base de données Présentation. Conception du schéma logique  Transformation du schéma conceptuel en structures de données supportées par les.
Technologies de l’intelligence d’affaires Séance 10
Transcription de la présentation:

Data Mining

Ce qu’est le Data Mining Extraction d’informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD (Extraction de Connaissances à partir de Données) KDD (Knowledge Discovery from Databases) Analyse de données/patterns, business intelligence, fouille de données, etc.

Quels types d’information Rechercher ? La typologie de l’information que l’on veut extraire dépend du type d’action que le décideur veut entreprendre Nous allons considérer Recherche des liens entre éléments de la base de données (Règles d’association) Analyse des comportement des éléments de la base de données (prédiction) Recherche de similitudes entre éléments de la base (Regroupement)

Associations (1) Les enseignes de grands magasins proposent régulièrement des promotions sur divers produits Une promotion représente un manque à gagner pour le magasin Dilemme : Comment proposer des promotions intéressantes pour les clients tout en réduisant le manque à gagner ? Regarder les habitudes d’achats des clients : si en général, les clients qui achètent du lait achètent aussi du sucre, alors il n’est pas intéressant de faire des promotions sur les 2 produits en même temps Idée : trouver les associations entre produits pour extraire les produits à promouvoir

Associations (2) Règles d’association : motifs de la forme : Corps  Tête Exemple : Lait  sucre Etant donnés: (1) une base de transactions, (2) chaque transaction est décrite par un identifiant et une liste d’items Trouver: toutes les règles qui expriment une association entre la présence d’un item avec la présence d’un ensemble d’items Ex., 98% des personnes qui achètent du lait achètent du sucre

Clients achetant du lait Associations: Support et Confiance (3) Trouver les règles X & Y  Z avec un support > s et une confiance >c support s, probabilité qu’une transaction contienne {X, Y, Z} confiance c, probabilité conditionnelle qu’une transaction qui contient {X, Y} contienne aussi Z Clients achetant les deux Clients achetant du lait Clients achetant du sucre Confiance=support(X,Y,Z)/support(X,Y) Soit support minimum 50%, et confiance minimum 50%, A  C (50%, 66.6%) C  A (50%, 100%)

Problème algorithmique Si on a 1010 produits, on a 210^10 itemsets à vérifier ! Idée: Exploiter la propriété de non monotonicité : Si {A,B,C} n’est pas fréquent, alors {A,B,C,D} ne peut pas l’être

Prévision (1) Les établissements financiers accordent des crédits à leurs clients L’attribution d’un crédit dépend de certains critères que le client doit satisfaire Dilemme : Si on ne prête qu’aux très riches, on n’aura pas de problèmes de remboursement mais on perd les autres clients (pas de risque). Si on prête aux moins riches, on ne va pas perdre les clients mais on est exposé aux non remboursements (trop de risque) Idée : se baser sur l’historique des clients pour dresser des profils de bons clients, clients moyens, et mauvais payeurs

Prévision (2) L’organisme dispose d’un fichier décrivant ses différents clients à qui il a attribué un crédit Chaque client est décrit par un certain nombre d’attributs : Salaire, situation marital, emploi, locataire/propriétaire, personnes à charge, montant crédit, … A chaque client, on ajoute un attribut particulier qui est le nom de la classe et qui est égal à bon, mauvais ou moyen Le but consiste à extraire à partir de ce fichier un ensemble de règles qu’on va utiliser lorsqu’un nouveau client demande un crédit pour savoir si l’on peut le lui attribuer ou pas

Prévision (3) Exemples de règles de production: Si crédit > 1/3 salaire  mauvais Si crédit <1/3 salaire & charges >4  mauvais Si crédit <1/3 salaire & charges <4 & propriétaire = oui  bon Si crédit <1/3 salaire & charges <4 & propriétaire=non & cadre=oui  bon propriétaire=non & cadre = non  moyen … Ces règles peuvent être représentées par un arbre de décision

Prévision (4) Endettement >1/3 <1/3 Mauvais charges >4 <4 En pratique, les systèmes construisent d’abord les arbres d’où ils dérivent les règles >4 <4 Mauvais Propriétaire oui non Bon Cadre oui non Bon moyen

Association versus prévision Dans les deux cas, on cherche à extraire des règles Les règles d’association expriment une notion de lien entre objets de même type (ex: les produits vendus par un magasin). Attention : Une règle d’association n’exprime pas une corrélation Les règles de production expliquent le lien entre une classe particulière et la valeur des caractéristiques de plusieurs objets Les deux types de règles ne véhiculent pas le même type d’information

Regroupement (1) Considérons une entreprise de vente par correspondance qui veut envoyer des prospectus publicitaires à ses clients L’entreprise a un fichier de 100.000 clients. Le coût de la campagne est estimé à 0,5 € ce qui fait un coût global de 50.000 € D’où l’intérêt de cibler les envois : un client qui a l’habitude d’acheter du matériel de pêche n’a que faire d’une pub qui porte sur les vêtements pour le golf (en général …) Dilemme : ne pas envoyer de prospectus versus en envoyer mais en ciblant les clients Idée : construire des groupes de clients. Chaque groupe sera soit destinataire d’un prospectus ciblé soit on ne lui envoie pas du tout.

Regroupement (2) Les groupes (ou clusters) sont construits de sorte à Maximiser la similarité entre éléments d’un même groupe Maximiser la dissimilarité entre groupes Les questions auxquelles le décideur est confronté : Si chaque individu forme à lui seul un groupe, alors la similarité intra-groupe est maximale mais la dissimilarité inter-groupes peut ne pas l’être Si on ne forme qu’un seul groupe, la dissimilarité intergroupes est maximale, mais la similarité intra-groupe peut ne pas l’être  des techniques qui permettent à l’utilisateur de fixer le nombre k de groupes qu’il veut construire

Regroupement

Regroupement (3) L’information extraite se présente sous forme d’un ensemble de groupes G={G1, G2, …, Gk} Toutes les techniques utilisent une mesure de similarité ou distance entre Individus (similarité intra) Groupes d’individus (similarité inter) Les mesures dépendent du type des attributs décrivant les individus : Attributs numériques  distance au sens mathématique Ex: o1=(1,2), o2=(0,3), dist(o1,o2)= |1-0|+|2-3|=2 Attributs binaires (oui ou non)  coefficient de similarité Ex: o1=(oui, non, oui), o2=(oui, oui, non) dist(o1,o2)=1/3 Attributs catégoriels. Ex: taille : grand, petit, moyen

Prévision Versus Regroupement Dans la littérature, souvent l’un est dénommé : Apprentissage supervisé et l’autre Apprentissage non-supervisé Le regroupement pourrait être utilisé pour affecter une classe à un nouvel individu : la classe du groupe d’individus auxquels il ressemble le plus La prévision pourrait être considérée comme du regroupement : Chaque valeur de l’attribut particulier « Classe » correspond à un groupe

Autres types d’information Séquences similaires : trouver les actions boursières qui évoluent d’une manière similaire, trouver les internautes dont le comportement lors de la visite d’un site marchand est similaire, … Les exceptions : trouver les clients d’une entreprise de téléphonie dont les factures ne ressemblent pas aux autres; travail à domicile, fraude …

Conclusion Utiliser un système de datamining est intéressant quand on sait Quelles actions nous voulons entreprendre Quelles types d’information nous devons rechercher Pour chaque type d’information, il existe plusieurs techniques qui ne sont dans la plupart des cas, pas équivalentes mais complémentaires Pour bien exploiter les informations extraites, il est important de comprendre les techniques sous jacentes

Merci