Technologies d’intelligence d’affaires Leçon 3 Nettoyage et réconciliation des données
Paul Mireault - HEC Montréal Impact des erreurs Systèmes opérationnels plus « tolérants » de certains types d’erreur Un catalogue ou une facture se rendra au client même s’il y a une erreur de code postal Données mal catégorisées Un nom peut avoir une faute d’orthographe Détection de doublons difficile GIGO (c) 2002-2003 Paul Mireault - HEC Montréal
Détection d’erreurs Importance NDC/Health Information Services, Phoenix 30 employés impliqués dans le contrôle de qualité des données Logiciels (prix 1995) EXTRACT: 250000$US EDA/Copy Manager: 20-30000$US (c) 2002-2003 Paul Mireault - HEC Montréal
Paul Mireault - HEC Montréal Références Data warehouses have need for clean data, Paul Krill, InfoWorld, March 16 1998, v20 n11, p27. Don’t warehouse dirty data, Joe Celko, Datamation, Oct 15 1995, v41 n19, p42 Warehousing without borders, Ralph Kimball, Intelligent Enterprise, March 9 1999, v2 i4, p54 (c) 2002-2003 Paul Mireault - HEC Montréal
Paul Mireault - HEC Montréal Contexte Lors de la création de l’entrepôt Travail de détective Correction d’erreurs Conciliation et normalisation des données Lors de l’importation régulière des données Appliquer les transformations pré-définies Surveiller les changements dans les sources de données (c) 2002-2003 Paul Mireault - HEC Montréal
Normalisation des données Processus de transformation des données en des valeurs et des structures pré-établies Exemple: Sexe M, F H, F M, W 0, 1 1, 2 Que faire si on ne le connaît pas? (c) 2002-2003 Paul Mireault - HEC Montréal
Normalisation des données Transformer les données codifiées en données qui font du sens pour l’utilisateur / analyste Exemples: codes des types de produits 01 électrique 03 chasse 15 nettoyage (c) 2002-2003 Paul Mireault - HEC Montréal
Paul Mireault - HEC Montréal Valeur nulle Valeur nulle = absence de valeur Signification peut être double, et c’est dangereux! La valeur ne s’applique pas La valeur n’est pas connue Exemple:fichier des employés avec un champ BONUS. Ce n’est pas tous les employés qui peuvent avoir un bonus. (c) 2002-2003 Paul Mireault - HEC Montréal
Normalisation: Adresse Exercice: décrivez tous les éléments d’une adresse d’une personne (avec le type de donnée approprié) À la maison Au bureau (c) 2002-2003 Paul Mireault - HEC Montréal
Éléments d’une adresse Salutation First name Middle names Last name Degrees (such as M.S., Ph.D., and other honorary titles) Ethnicity Company name Department name (c) 2002-2003 Paul Mireault - HEC Montréal
Éléments d’une adresse Job title Building Floor Mail stop Address type (such as headquarters office, secondary field office, and parcel delivery address) Intended use (such as domestic or foreign mail) (c) 2002-2003 Paul Mireault - HEC Montréal
Éléments d’une adresse Street number Street name Street direction Post office box Locality City State Postal code (c) 2002-2003 Paul Mireault - HEC Montréal
Éléments d’une adresse Region Country Assembled address block Written greeting Verbal greeting Unique personal individual identifier Unique commercial individual identifier Unique commercial entity identifier. (c) 2002-2003 Paul Mireault - HEC Montréal
Paul Mireault - HEC Montréal Doublons Deux enregistrements qui représentent la même entité, mais dont les valeurs (même la clé) peuvent être différentes. Si on ne les élimine pas, on fausse notre analyse. Comment identifier et éliminer les doublons? (c) 2002-2003 Paul Mireault - HEC Montréal
Détection des doublons Technique manuelle Tri selon des champs dont on croit que les valeurs devraient être identiques dans des doublons Examen visuel de tous les enregistrements en ordre trié (c) 2002-2003 Paul Mireault - HEC Montréal
Détection des doublons Exemple Fichier des parents des élèves, créé à partir du fichier des élèves (mal normalisé) Tri (NomPère, PrénomPère) Bill Smith et William Smith sont la même personne Tri (Adresse) La nouvelle adresse n’a pas été modifiée pour un des 5 enfants de la même famille (c) 2002-2003 Paul Mireault - HEC Montréal
Détection des doublons Exemple Tri (NotelM) ou (NotelP) Changement mal fait chez un frère Changement de type d’appareil (cellulaire) Tri (CodePostal) (c) 2002-2003 Paul Mireault - HEC Montréal
Détection d’erreurs Outils automatiques Data migration 1 Male, 2 Femelle Data scrubbing Découvre que « Grossesse » est associé à « Femelle » dans 99% des cas. Donc 1% des cas ont des erreurs Data auditing Découvre que les colonnes « Sex » et « Gender » dans deux sources différentes contiennent la même information (c) 2002-2003 Paul Mireault - HEC Montréal
Paul Mireault - HEC Montréal Fusion de données Sources différentes = clés différentes (même, absence de clé) A (0,1) (0,1) B Exemple: Parents et Donnateurs Il faut identifier les (1)(1), sinon on crée des doublons (c) 2002-2003 Paul Mireault - HEC Montréal
Fusion de données Erreurs potentielles Unités de mesure Litres et gallons, kilomètres et milles Codification Ré-utilisation de codes périmés, même officiels (c) 2002-2003 Paul Mireault - HEC Montréal
Examen des données INTERURB Deuxième partie Examen des données INTERURB
Paul Mireault - HEC Montréal Tables APPELS Les données de chaque appel interurbain sont enregistrées TELEPHONES Chaque numéro de téléphone a un compte budgétaire SERVICE Chaque compte budgétaire appartient à un service (c) 2002-2003 Paul Mireault - HEC Montréal
Paul Mireault - HEC Montréal SERVICE Clé primaire: noserv Clés étrangères: aucune Taille: 98 enr Découvertes intéressantes Sedesc est unique (c) 2002-2003 Paul Mireault - HEC Montréal
Paul Mireault - HEC Montréal TELEPHONES Clé primaire: notel Clés étrangères: noserv Taille: 1235 enr. Découvertes intéressantes Tous les notel commencent par 514340- (c) 2002-2003 Paul Mireault - HEC Montréal
Paul Mireault - HEC Montréal APPELS Clé primaire Clés étrangères : factno Taille: 124673 enr. Découvertes intéressantes Facturedate: 24 valeurs (= le 19 de chaque mois) (c) 2002-2003 Paul Mireault - HEC Montréal
SAS Warehouse Administrator Création de l’entrepôt Troisième partie SAS Warehouse Administrator Création de l’entrepôt
Paul Mireault - HEC Montréal Tutoriel À l’adresse suivante: http://www.hec.ca/mireault/tia/tutoriels/tutoriel2/ (c) 2002-2003 Paul Mireault - HEC Montréal