La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Le forage de données ou data mining Customer information Customers Time.

Présentations similaires


Présentation au sujet: "Le forage de données ou data mining Customer information Customers Time."— Transcription de la présentation:

1 Le forage de données ou data mining Customer information Customers Time

2 Définition de lexploitation des données (data mining) Lexploration et lanalyse de grandes quantités de données afin de découvrir des formes et des règles significatives en utilisant des moyens automatiques ou semi-automatiques.

3 Le data mining est utilisé b par plusieurs entreprises pour mieux connaître leur clientèle et accroître les profits:pour mieux connaître leur clientèle et accroître les profits: –Quel client restera fidèle et qui partira? –Quels produits proposés à quels clients? –Quest-ce qui détermine si une personne répondra à une offre donnée? –Quel est le prochain produit ou service quun client particulier désirera? pour mieux gérer:pour mieux gérer: –la distribution –la production –les ressources humaines

4 Lexploitation des données devenue une réalité industrielle b Les techniques dexploitation des données existent depuis des années. b Lutilisation de ces techniques dans lindustrie est cependant beaucoup plus récente parce que: Les données sont produites,Les données sont produites, Les données sont archivées,Les données sont archivées, La puissance de calcul nécessaire est abordable,La puissance de calcul nécessaire est abordable, Le contexte est ultra-concurrentiel,Le contexte est ultra-concurrentiel, Des produits commerciaux pour lexploitation des données sont devenus disponibles.Des produits commerciaux pour lexploitation des données sont devenus disponibles.

5 Entreprises courtiers en informations (données = $$$) b IMS b AC Nielson b Equifax b Info Canada b Statistique Canada b ICOM

6 Data Mining: nouveauté ou marketing? Modèles prédictifs: – Analyse discriminante – Régression logistique – Autres méthodes de régression – Arbres de régression (CHAID,CART,…) – Réseaux Neuronneaux (Neural networks) b Segmentation traditionnelle b Domaines de recherche

7 Principales méthodes multivariées utilisées pour la modélisation TechniqueDate TechniqueDate 1- Régression multiple Analyse discriminante Régression logistique1944, Modèles log-lineaires CHAID (arbres de rég.)1980

8 Data Mining: nouveauté ou marketing? b Nouveauté: logiciels informatiques. b 2 méthodes ont moins de dix ans: Réseaux neuronneaux Réseaux neuronneaux M.A.R.S. M.A.R.S. b Les deux principales méthodes utilisées dans la majorité des industries existent depuis plus de vingt ans.

9 Première étape: accès et qualité de linformation disponible b Avant de pouvoir parler de data mining, on doit avoir une base de données structurée. Accès à linformation Accès à linformation données manquantes données manquantes données aberrantes données aberrantes

10 Accès à linformation b Il existe plusieurs types de structure de bases de données: `flat file` `flat file` – Toute linformation du client est contenue dans un même ficher qui peut être de longueur variable Relationelle Relationelle – Linformation du client est contenu dans plusieurs fichiers unis par une clé commune, par exemple le numéro du client

11 Données manquantes Certaines information qui sont nécessaire pour comprendre la clientèle sont manquantes. Certaines information qui sont nécessaire pour comprendre la clientèle sont manquantes. Ex: âge Ex: âge Que faire ? Que faire ?

12 Données manquantes: solutions possibles Remplacement par la moyenne Remplacement par la moyenne Calculer la moyenne de la variable qui nous intéresse parmis les enregistrements qui ont une valeur. Cette valeur sera ensuite attribuée à tous les enregistrements où la valeur est manquante Calculer la moyenne de la variable qui nous intéresse parmis les enregistrements qui ont une valeur. Cette valeur sera ensuite attribuée à tous les enregistrements où la valeur est manquante Avantages: rapide et facile dexécution Avantages: rapide et facile dexécution Désavantages: imprécis et perte de la variabilité dans les données Désavantages: imprécis et perte de la variabilité dans les données

13 Données manquantes: solutions possibles b Remplacement aléatoire Pour chacune des valeurs manquantes, ont attribuera au hasard une des valeurs parmis lensemble des valeurs des enregistrements non-manquants Pour chacune des valeurs manquantes, ont attribuera au hasard une des valeurs parmis lensemble des valeurs des enregistrements non-manquants Avantages: Permet de garder la variabilité dans les données et la moyenne de la population Avantages: Permet de garder la variabilité dans les données et la moyenne de la population Désavantages: plus complexe à implanter et la valeur imputée pour chacun des clients nest pas plus précise que le remplacement par la moyenne. Désavantages: plus complexe à implanter et la valeur imputée pour chacun des clients nest pas plus précise que le remplacement par la moyenne.

14 Données manquantes: solutions possibles b Utilisation de la régression On utilise la régression pour obtenir un estimé de la valeur possible en utilisant les données des enregistrement complets et de toutes linformation disponible. On utilise la régression pour obtenir un estimé de la valeur possible en utilisant les données des enregistrement complets et de toutes linformation disponible. Avantages: méthode la plus précise (meilleure) Avantages: méthode la plus précise (meilleure) Désavantages: pas toujours possible (variables explicatives) et la plus complexe à implanter. Désavantages: pas toujours possible (variables explicatives) et la plus complexe à implanter.


Télécharger ppt "Le forage de données ou data mining Customer information Customers Time."

Présentations similaires


Annonces Google