Technologies d’intelligence d’affaires

Slides:



Advertisements
Présentations similaires
Présentation du fonctionnement de la « liste premium » Alexis OLLIER 11 juin 2012.
Advertisements

La base de données de jurisprudence francophone.  Juricaf est composé de deux parties : - Le menu de gauche avec les différentes fonctions - La partie.
SQL : 4 fonctions d'exploitation de SGBD SQL (Structured Query Language, traduisez Langage de requêtes structuré) est un langage informatique ayant pour.
Logiciel Assistant Gestion d’Événement Rémi Papillie (Chef d’équipe) Maxime Brodeur Xavier Pajani Gabriel Rolland David St-Jean.
SQL partie 1 Langage de Définition de Données. SQL est un langage de définition de données  SQL est un langage de définition de données (LDD), c'est-à-dire.
Cahier des charges.
Nouveautés Version 4.1 et mai 2017.
AMUE – SIFAC Gestion des services fait sur SIFAC WEB
E-Prelude.com Importation de nomenclatures issues de divers logiciels de CAO… … via un fichier « neutre » de type EXCEL.
Utilisation des Gammes La chaîne numérique en Productique
Cahier des clauses techniques particulières
LES TABLEAUX EN JAVA.
Table passage en caisse
Séminaire Novembre 2006 Zephir : Déploiement et supervision des serveurs Eole.
Plateforme CountrySTAT Aperçu global de la préparation des tableaux dans la nouvelle plateforme CountrySTAT FORMATION DES POINTS FOCAUX SUR LE SYSTEME.
Les Bases de données Définition Architecture d’un SGBD
e-Prelude.com Visite guidée - session 1 Les articles
AMUE – SIFAC Les concepts de SIFAC WEB HISTORIQUE DES MISES A JOUR
Généralité sur les bases de données
MARKETING MANAGEMENT Semestre 2
Création et gestion d’un entrepôt de données
Collecte de données CAPI
Technologies d’intelligence d’affaires
Technologies d’intelligence d’affaires
Algorithmique & Langage C
INRODUCTION a la comptabilité générale
Echanges de données entre Nabuco et Xlab
  EXCEL FORMATION d'introduction.
Technologies d’intelligence d’affaires
SIT Prestataires OT MASSIF DU SANCY MOD OP 000 – 214
Alma - Analytics Formation avancée
MODULE MARKETING DIRECT
Notion De Gestion De Bases De Données
Création Et Modification De La Structure De La Base De Données
LE NUMERIQUE À STENDHAL pour les élèves et les parents
Guide Utilisateur. Guide Utilisateur.
Technologies « Smart Manufacturing »
DATA WEARHOUSE 1ère année LA: Technologies systèmes d’information
STSWEB Présentation générale STSWEB connecté à un logiciel privé de gestion des élèves Diffusion Nationale TOULOUSE -Avril 2006.
Formation sur les bases de données relationnelles.
L1 Technique informatique
Proposition de réponses attendues
Exercice : le jeu. Vous devez concevoir l’algorithme permettant de jouer avec votre calculatrice : elle détermine au hasard un nombre caché entier entre.
CountrySTAT / FENIX Aperçu globale de la préparation des tableaux dans la nouvelle plateforme CountrySTAT FORMATION DES POINTS FOCAUX SUR LE SYSTEME.
EDITEUR:HIGH SYSTEM INFO
L1 Technique informatique
La Mobilité Bancaire.
Fiche de présélection Appel à exposition Colloque Eco-innovation 2018
Le logiciel de calcul de Reynaers
DOSSIER 07 – Interroger une base de données
4°) Intervalle de fluctuation :
7 Contraintes d’intégrité en SQL
Zeendoc et les logiciels comptables
Langages de programmation TP11
03- Evaluation Access 2003 Cette évaluation comporte des QCM (1 seule réponse) et des Zones à déterminer dans des copies d’écran.
FORMATION SUR LE SERVICE DE DÉPANNAGE
Chapitre V La Procédure Comptable
Recensement de la Population de 2011
Elles contiennent des informations autre que géométriques
2. Organisation comptable 2.1 Les comptes
Opérateurs et fonctions arithmétiques Opérateurs de relation Opérateurs logiques Cours 02.
Enseignement de spécialité
Tableaux croisés dynamiques sous Excel: des outils simples pour une analyse rapide de jeux de données en cytométrie Camille SANTA MARIA Ingénieur d’étude.
Arbre binaire.
Exploitation de vos données
Technologies d’intelligence d’affaires
Direction des Éditions et Services de dépôt
Gestion des destinataires (recipients)
Séquence 1:Analyse du système d’information comptable
Transcription de la présentation:

Technologies d’intelligence d’affaires Leçon 3 Nettoyage et réconciliation des données

Paul Mireault - HEC Montréal Impact des erreurs Systèmes opérationnels plus « tolérants » de certains types d’erreur Un catalogue ou une facture se rendra au client même s’il y a une erreur de code postal Données mal catégorisées Un nom peut avoir une faute d’orthographe Détection de doublons difficile GIGO (c) 2002-2003 Paul Mireault - HEC Montréal

Détection d’erreurs Importance NDC/Health Information Services, Phoenix 30 employés impliqués dans le contrôle de qualité des données Logiciels (prix 1995) EXTRACT: 250000$US EDA/Copy Manager: 20-30000$US (c) 2002-2003 Paul Mireault - HEC Montréal

Paul Mireault - HEC Montréal Références Data warehouses have need for clean data, Paul Krill, InfoWorld, March 16 1998, v20 n11, p27. Don’t warehouse dirty data, Joe Celko, Datamation, Oct 15 1995, v41 n19, p42 Warehousing without borders, Ralph Kimball, Intelligent Enterprise, March 9 1999, v2 i4, p54 (c) 2002-2003 Paul Mireault - HEC Montréal

Paul Mireault - HEC Montréal Contexte Lors de la création de l’entrepôt Travail de détective Correction d’erreurs Conciliation et normalisation des données Lors de l’importation régulière des données Appliquer les transformations pré-définies Surveiller les changements dans les sources de données (c) 2002-2003 Paul Mireault - HEC Montréal

Normalisation des données Processus de transformation des données en des valeurs et des structures pré-établies Exemple: Sexe M, F H, F M, W 0, 1 1, 2 Que faire si on ne le connaît pas? (c) 2002-2003 Paul Mireault - HEC Montréal

Normalisation des données Transformer les données codifiées en données qui font du sens pour l’utilisateur / analyste Exemples: codes des types de produits 01  électrique 03  chasse 15  nettoyage (c) 2002-2003 Paul Mireault - HEC Montréal

Paul Mireault - HEC Montréal Valeur nulle Valeur nulle = absence de valeur Signification peut être double, et c’est dangereux! La valeur ne s’applique pas La valeur n’est pas connue Exemple:fichier des employés avec un champ BONUS. Ce n’est pas tous les employés qui peuvent avoir un bonus. (c) 2002-2003 Paul Mireault - HEC Montréal

Normalisation: Adresse Exercice: décrivez tous les éléments d’une adresse d’une personne (avec le type de donnée approprié) À la maison Au bureau (c) 2002-2003 Paul Mireault - HEC Montréal

Éléments d’une adresse Salutation First name Middle names Last name Degrees (such as M.S., Ph.D., and other honorary titles) Ethnicity Company name Department name (c) 2002-2003 Paul Mireault - HEC Montréal

Éléments d’une adresse Job title Building Floor Mail stop Address type (such as headquarters office, secondary field office, and parcel delivery address) Intended use (such as domestic or foreign mail) (c) 2002-2003 Paul Mireault - HEC Montréal

Éléments d’une adresse Street number Street name Street direction Post office box Locality City State Postal code (c) 2002-2003 Paul Mireault - HEC Montréal

Éléments d’une adresse Region Country Assembled address block Written greeting Verbal greeting Unique personal individual identifier Unique commercial individual identifier Unique commercial entity identifier. (c) 2002-2003 Paul Mireault - HEC Montréal

Paul Mireault - HEC Montréal Doublons Deux enregistrements qui représentent la même entité, mais dont les valeurs (même la clé) peuvent être différentes. Si on ne les élimine pas, on fausse notre analyse. Comment identifier et éliminer les doublons? (c) 2002-2003 Paul Mireault - HEC Montréal

Détection des doublons Technique manuelle Tri selon des champs dont on croit que les valeurs devraient être identiques dans des doublons Examen visuel de tous les enregistrements en ordre trié (c) 2002-2003 Paul Mireault - HEC Montréal

Détection des doublons Exemple Fichier des parents des élèves, créé à partir du fichier des élèves (mal normalisé) Tri (NomPère, PrénomPère) Bill Smith et William Smith sont la même personne Tri (Adresse) La nouvelle adresse n’a pas été modifiée pour un des 5 enfants de la même famille (c) 2002-2003 Paul Mireault - HEC Montréal

Détection des doublons Exemple Tri (NotelM) ou (NotelP) Changement mal fait chez un frère Changement de type d’appareil (cellulaire) Tri (CodePostal) (c) 2002-2003 Paul Mireault - HEC Montréal

Détection d’erreurs Outils automatiques Data migration 1 Male, 2  Femelle Data scrubbing Découvre que « Grossesse » est associé à « Femelle » dans 99% des cas. Donc 1% des cas ont des erreurs Data auditing Découvre que les colonnes « Sex » et « Gender » dans deux sources différentes contiennent la même information (c) 2002-2003 Paul Mireault - HEC Montréal

Paul Mireault - HEC Montréal Fusion de données Sources différentes = clés différentes (même, absence de clé) A (0,1) (0,1) B Exemple: Parents et Donnateurs Il faut identifier les (1)(1), sinon on crée des doublons (c) 2002-2003 Paul Mireault - HEC Montréal

Fusion de données Erreurs potentielles Unités de mesure Litres et gallons, kilomètres et milles Codification Ré-utilisation de codes périmés, même officiels (c) 2002-2003 Paul Mireault - HEC Montréal

Examen des données INTERURB Deuxième partie Examen des données INTERURB

Paul Mireault - HEC Montréal Tables APPELS Les données de chaque appel interurbain sont enregistrées TELEPHONES Chaque numéro de téléphone a un compte budgétaire SERVICE Chaque compte budgétaire appartient à un service (c) 2002-2003 Paul Mireault - HEC Montréal

Paul Mireault - HEC Montréal SERVICE Clé primaire: noserv Clés étrangères: aucune Taille: 98 enr Découvertes intéressantes Sedesc est unique (c) 2002-2003 Paul Mireault - HEC Montréal

Paul Mireault - HEC Montréal TELEPHONES Clé primaire: notel Clés étrangères: noserv Taille: 1235 enr. Découvertes intéressantes Tous les notel commencent par 514340- (c) 2002-2003 Paul Mireault - HEC Montréal

Paul Mireault - HEC Montréal APPELS Clé primaire Clés étrangères : factno Taille: 124673 enr. Découvertes intéressantes Facturedate: 24 valeurs (= le 19 de chaque mois) (c) 2002-2003 Paul Mireault - HEC Montréal

SAS Warehouse Administrator Création de l’entrepôt Troisième partie SAS Warehouse Administrator Création de l’entrepôt

Paul Mireault - HEC Montréal Tutoriel À l’adresse suivante: http://www.hec.ca/mireault/tia/tutoriels/tutoriel2/ (c) 2002-2003 Paul Mireault - HEC Montréal