La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Data Mining 2 Ce quest le Data Mining Extraction dinformations intéressantes non triviales, implicites, préalablement inconnues et potentiellement.

Présentations similaires


Présentation au sujet: "1 Data Mining 2 Ce quest le Data Mining Extraction dinformations intéressantes non triviales, implicites, préalablement inconnues et potentiellement."— Transcription de la présentation:

1

2 1 Data Mining

3 2 Ce quest le Data Mining Extraction dinformations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD (Extraction de Connaissances à partir de Données) KDD (Knowledge Discovery from Databases) Analyse de données/patterns, business intelligence, fouille de données, etc.

4 3 Quels types dinformation Rechercher ? La typologie de linformation que lon veut extraire dépend du type daction que le décideur veut entreprendre Nous allons considérer Recherche des liens entre éléments de la base de données (Règles dassociation) Analyse des comportement des éléments de la base de données (prédiction) Recherche de similitudes entre éléments de la base (Regroupement)

5 4 Associations (1) Les enseignes de grands magasins proposent régulièrement des promotions sur divers produits Une promotion représente un manque à gagner pour le magasin Dilemme : Comment proposer des promotions intéressantes pour les clients tout en réduisant le manque à gagner ? Regarder les habitudes dachats des clients : si en général, les clients qui achètent du lait achètent aussi du sucre, alors il nest pas intéressant de faire des promotions sur les 2 produits en même temps Idée : trouver les associations entre produits pour extraire les produits à promouvoir

6 5 Associations (2) Règles dassociation : motifs de la forme : Corps Tête Exemple : Lait sucre Etant donnés: (1) une base de transactions, (2) chaque transaction est décrite par un identifiant et une liste ditems Trouver: toutes les règles qui expriment une association entre la présence dun item avec la présence dun ensemble ditems Ex., 98% des personnes qui achètent du lait achètent du sucre

7 6 Associations: Support et Confiance (3) Trouver les règles X & Y Z avec un support > s et une confiance >c support s, probabilité quune transaction contienne {X, Y, Z} confiance c, probabilité conditionnelle quune transaction qui contient {X, Y} contienne aussi Z Soit support minimum 50%, et confiance minimum 50%, A C (50%, 66.6%) C A (50%, 100%) Clients achetant du lait Clients achetant les deux Clients achetant du sucre Confiance=support(X,Y,Z)/support(X,Y)

8 7 Problème algorithmique Si on a produits, on a 2 10^10 itemsets à vérifier ! Idée: Exploiter la propriété de non monotonicité : Si {A,B,C} nest pas fréquent, alors {A,B,C,D} ne peut pas lêtre

9 8 Prévision (1) Les établissements financiers accordent des crédits à leurs clients Lattribution dun crédit dépend de certains critères que le client doit satisfaire Dilemme : Si on ne prête quaux très riches, on naura pas de problèmes de remboursement mais on perd les autres clients (pas de risque). Si on prête aux moins riches, on ne va pas perdre les clients mais on est exposé aux non remboursements (trop de risque) Idée : se baser sur lhistorique des clients pour dresser des profils de bons clients, clients moyens, et mauvais payeurs

10 9 Prévision (2) Lorganisme dispose dun fichier décrivant ses différents clients à qui il a attribué un crédit Chaque client est décrit par un certain nombre dattributs : Salaire, situation marital, emploi, locataire/propriétaire, personnes à charge, montant crédit, … A chaque client, on ajoute un attribut particulier qui est le nom de la classe et qui est égal à bon, mauvais ou moyen Le but consiste à extraire à partir de ce fichier un ensemble de règles quon va utiliser lorsquun nouveau client demande un crédit pour savoir si lon peut le lui attribuer ou pas

11 10 Prévision (3) Exemples de règles de production: Si crédit > 1/3 salaire mauvais Si crédit 4 mauvais Si crédit <1/3 salaire & charges <4 & propriétaire = oui bon Si crédit <1/3 salaire & charges <4 & propriétaire=non & cadre=oui bon Si crédit <1/3 salaire & charges <4 & propriétaire=non & cadre = non moyen … Ces règles peuvent être représentées par un arbre de décision

12 11 Prévision (4) Endettement >1/3 Mauvais charges Mauvais >4 <1/3 <4 Propriétaire oui Bon non Cadre oui Bon non moyen En pratique, les systèmes construisent dabord les arbres doù ils dérivent les règles

13 12 Association versus prévision Dans les deux cas, on cherche à extraire des règles Les règles dassociation expriment une notion de lien entre objets de même type (ex: les produits vendus par un magasin). Attention : Une règle dassociation nexprime pas une corrélation Les règles de production expliquent le lien entre une classe particulière et la valeur des caractéristiques de plusieurs objets Les deux types de règles ne véhiculent pas le même type dinformation

14 13 Regroupement (1) Considérons une entreprise de vente par correspondance qui veut envoyer des prospectus publicitaires à ses clients Lentreprise a un fichier de clients. Le coût de la campagne est estimé à 0,5 ce qui fait un coût global de Doù lintérêt de cibler les envois : un client qui a lhabitude dacheter du matériel de pêche na que faire dune pub qui porte sur les vêtements pour le golf (en général …) Dilemme : ne pas envoyer de prospectus versus en envoyer mais en ciblant les clients Idée : construire des groupes de clients. Chaque groupe sera soit destinataire dun prospectus ciblé soit on ne lui envoie pas du tout.

15 14 Regroupement (2) Les groupes (ou clusters) sont construits de sorte à Maximiser la similarité entre éléments dun même groupe Maximiser la dissimilarité entre groupes Les questions auxquelles le décideur est confronté : Si chaque individu forme à lui seul un groupe, alors la similarité intra-groupe est maximale mais la dissimilarité inter-groupes peut ne pas lêtre Si on ne forme quun seul groupe, la dissimilarité intergroupes est maximale, mais la similarité intra-groupe peut ne pas lêtre des techniques qui permettent à lutilisateur de fixer le nombre k de groupes quil veut construire

16 15 Regroupement

17 16 Regroupement (3) Linformation extraite se présente sous forme dun ensemble de groupes G={G 1, G 2, …, G k } Toutes les techniques utilisent une mesure de similarité ou distance entre Individus (similarité intra) Groupes dindividus (similarité inter) Les mesures dépendent du type des attributs décrivant les individus : Attributs numériques distance au sens mathématique Ex: o1=(1,2), o2=(0,3), dist(o1,o2)= |1-0|+|2-3|=2 Attributs binaires (oui ou non) coefficient de similarité Ex: o1=(oui, non, oui), o2=(oui, oui, non) dist(o1,o2)=1/3 Attributs catégoriels. Ex: taille : grand, petit, moyen

18 17 Prévision Versus Regroupement Dans la littérature, souvent lun est dénommé : Apprentissage supervisé et lautre Apprentissage non-supervisé Le regroupement pourrait être utilisé pour affecter une classe à un nouvel individu : la classe du groupe dindividus auxquels il ressemble le plus La prévision pourrait être considérée comme du regroupement : Chaque valeur de lattribut particulier « Classe » correspond à un groupe

19 18 Autres types dinformation Séquences similaires : trouver les actions boursières qui évoluent dune manière similaire, trouver les internautes dont le comportement lors de la visite dun site marchand est similaire, … Les exceptions : trouver les clients dune entreprise de téléphonie dont les factures ne ressemblent pas aux autres; travail à domicile, fraude …

20 19 Conclusion Utiliser un système de datamining est intéressant quand on sait Quelles actions nous voulons entreprendre Quelles types dinformation nous devons rechercher Pour chaque type dinformation, il existe plusieurs techniques qui ne sont dans la plupart des cas, pas équivalentes mais complémentaires Pour bien exploiter les informations extraites, il est important de comprendre les techniques sous jacentes

21 20 Merci


Télécharger ppt "1 Data Mining 2 Ce quest le Data Mining Extraction dinformations intéressantes non triviales, implicites, préalablement inconnues et potentiellement."

Présentations similaires


Annonces Google