Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parFabrice Jean-Paul Desjardins Modifié depuis plus de 6 années
1
Technologies d’intelligence d’affaires
Leçon 3 Nettoyage et réconciliation des données
2
Paul Mireault - HEC Montréal
Impact des erreurs Systèmes opérationnels plus « tolérants » de certains types d’erreur Un catalogue ou une facture se rendra au client même s’il y a une erreur de code postal Données mal catégorisées Un nom peut avoir une faute d’orthographe Détection de doublons difficile GIGO (c) Paul Mireault - HEC Montréal
3
Détection d’erreurs Importance
NDC/Health Information Services, Phoenix 30 employés impliqués dans le contrôle de qualité des données Logiciels (prix 1995) EXTRACT: $US EDA/Copy Manager: $US (c) Paul Mireault - HEC Montréal
4
Paul Mireault - HEC Montréal
Références Data warehouses have need for clean data, Paul Krill, InfoWorld, March , v20 n11, p27. Don’t warehouse dirty data, Joe Celko, Datamation, Oct , v41 n19, p42 Warehousing without borders, Ralph Kimball, Intelligent Enterprise, March , v2 i4, p54 (c) Paul Mireault - HEC Montréal
5
Paul Mireault - HEC Montréal
Contexte Lors de la création de l’entrepôt Travail de détective Correction d’erreurs Conciliation et normalisation des données Lors de l’importation régulière des données Appliquer les transformations pré-définies Surveiller les changements dans les sources de données (c) Paul Mireault - HEC Montréal
6
Normalisation des données
Processus de transformation des données en des valeurs et des structures pré-établies Exemple: Sexe M, F H, F M, W 0, 1 1, 2 Que faire si on ne le connaît pas? (c) Paul Mireault - HEC Montréal
7
Normalisation des données
Transformer les données codifiées en données qui font du sens pour l’utilisateur / analyste Exemples: codes des types de produits 01 électrique 03 chasse 15 nettoyage (c) Paul Mireault - HEC Montréal
8
Paul Mireault - HEC Montréal
Valeur nulle Valeur nulle = absence de valeur Signification peut être double, et c’est dangereux! La valeur ne s’applique pas La valeur n’est pas connue Exemple:fichier des employés avec un champ BONUS. Ce n’est pas tous les employés qui peuvent avoir un bonus. (c) Paul Mireault - HEC Montréal
9
Normalisation: Adresse
Exercice: décrivez tous les éléments d’une adresse d’une personne (avec le type de donnée approprié) À la maison Au bureau (c) Paul Mireault - HEC Montréal
10
Éléments d’une adresse
Salutation First name Middle names Last name Degrees (such as M.S., Ph.D., and other honorary titles) Ethnicity Company name Department name (c) Paul Mireault - HEC Montréal
11
Éléments d’une adresse
Job title Building Floor Mail stop Address type (such as headquarters office, secondary field office, and parcel delivery address) Intended use (such as domestic or foreign mail) (c) Paul Mireault - HEC Montréal
12
Éléments d’une adresse
Street number Street name Street direction Post office box Locality City State Postal code (c) Paul Mireault - HEC Montréal
13
Éléments d’une adresse
Region Country Assembled address block Written greeting Verbal greeting Unique personal individual identifier Unique commercial individual identifier Unique commercial entity identifier. (c) Paul Mireault - HEC Montréal
14
Paul Mireault - HEC Montréal
Doublons Deux enregistrements qui représentent la même entité, mais dont les valeurs (même la clé) peuvent être différentes. Si on ne les élimine pas, on fausse notre analyse. Comment identifier et éliminer les doublons? (c) Paul Mireault - HEC Montréal
15
Détection des doublons Technique manuelle
Tri selon des champs dont on croit que les valeurs devraient être identiques dans des doublons Examen visuel de tous les enregistrements en ordre trié (c) Paul Mireault - HEC Montréal
16
Détection des doublons Exemple
Fichier des parents des élèves, créé à partir du fichier des élèves (mal normalisé) Tri (NomPère, PrénomPère) Bill Smith et William Smith sont la même personne Tri (Adresse) La nouvelle adresse n’a pas été modifiée pour un des 5 enfants de la même famille (c) Paul Mireault - HEC Montréal
17
Détection des doublons Exemple
Tri (NotelM) ou (NotelP) Changement mal fait chez un frère Changement de type d’appareil (cellulaire) Tri (CodePostal) (c) Paul Mireault - HEC Montréal
18
Détection d’erreurs Outils automatiques
Data migration 1 Male, 2 Femelle Data scrubbing Découvre que « Grossesse » est associé à « Femelle » dans 99% des cas. Donc 1% des cas ont des erreurs Data auditing Découvre que les colonnes « Sex » et « Gender » dans deux sources différentes contiennent la même information (c) Paul Mireault - HEC Montréal
19
Paul Mireault - HEC Montréal
Fusion de données Sources différentes = clés différentes (même, absence de clé) A (0,1) (0,1) B Exemple: Parents et Donnateurs Il faut identifier les (1)(1), sinon on crée des doublons (c) Paul Mireault - HEC Montréal
20
Fusion de données Erreurs potentielles
Unités de mesure Litres et gallons, kilomètres et milles Codification Ré-utilisation de codes périmés, même officiels (c) Paul Mireault - HEC Montréal
21
Examen des données INTERURB
Deuxième partie Examen des données INTERURB
22
Paul Mireault - HEC Montréal
Tables APPELS Les données de chaque appel interurbain sont enregistrées TELEPHONES Chaque numéro de téléphone a un compte budgétaire SERVICE Chaque compte budgétaire appartient à un service (c) Paul Mireault - HEC Montréal
23
Paul Mireault - HEC Montréal
SERVICE Clé primaire: noserv Clés étrangères: aucune Taille: 98 enr Découvertes intéressantes Sedesc est unique (c) Paul Mireault - HEC Montréal
24
Paul Mireault - HEC Montréal
TELEPHONES Clé primaire: notel Clés étrangères: noserv Taille: 1235 enr. Découvertes intéressantes Tous les notel commencent par (c) Paul Mireault - HEC Montréal
25
Paul Mireault - HEC Montréal
APPELS Clé primaire Clés étrangères : factno Taille: enr. Découvertes intéressantes Facturedate: 24 valeurs (= le 19 de chaque mois) (c) Paul Mireault - HEC Montréal
26
SAS Warehouse Administrator Création de l’entrepôt
Troisième partie SAS Warehouse Administrator Création de l’entrepôt
27
Paul Mireault - HEC Montréal
Tutoriel À l’adresse suivante: (c) Paul Mireault - HEC Montréal
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.