Spécificités du Data Mining

Slides:



Advertisements
Présentations similaires
Démarrage d’un dispositif de connaissance des démarches de contrôle qualité des banques de données du SIE.
Advertisements

Page 1 La problématique du décideur La solution du « décisionnel » Les outils existants Mener un projet décisionnel Démo on line Sommaire.
Présentation du programme
STAGE INGENIEUR ETUDES & DEVELOPPEMENT Business Intelligence Saint-Avertin (37550) Créée en 1990, Umanis est le leader français en Data (Big Data, Business.
13. Diriger : finaliser, animer et contrôler 1. La décision dans la direction de l’organisation 1.1 En quoi la direction repose-t-elle sur la décision.
ALLOU Franck SERVICE COMMERCIAL Date de prise de fonction: 11 Avril 2013.
Optimisation des services TIC offerts par le VRSI Session de travail no 1 12 Novembre 2015.
Système d’aide à la décision Business Intelligence
Augmenter la productivité de vos Services Généraux avec ServiceNow !
Veille sur l’orientation
Du plan de diagnostic à la planification des études
Négociation commerciale et relation clients
Le suivi évaluation : de quoi s'agit-il et à quoi cela sert-il ?
E.R.P. ou Progiciels de Gestion Intégrés
CONSEILLER ET ACCOMPAGNER LES CHEFS D’ENTREPRISE AU QUOTIDIEN
2-Missions de la LOGISTIQUE
Spécificités du Data Mining
Les P G I Les Progiciels de Gestion Intégrés
BILAN D’ACTIVITES SEMESTRIEL 2014
Information et Système d’Information
Marketing opérationnel et stratégique
LE PASSAGE À L’EURO DE L’APPLICATION ICARE
SPECIALITE MARKETING.
TS en gestion des entreprises
Centralisation de logs
Evaluer les politiques publiques
Négociation commerciale et relation clients
le plan de continuité d’activité ( le pca )
Thème Thème : Les Outils du contrôle budgétaire Présenté par : Encadré par: M. AMDJAR LANGHA KANGALA LOUIS MARIE ASSIA ENNAKI Amine OUAZZANI TOUHAMI Gestion.
Développement d’une application Android destinée aux commerciaux
Planification de la production
Le système d’information dans l’organisation
la structure de l’entreprise: Définition : La structure organisationnelle d’une entreprise définie le mode d’organisation entre les différentes unités.
1 La gestion par activités (ABM) pour mieux gérer les coûts et les processus dans l’organisation. S o l u t i o n s `
Université sultan Moulay Slimane Faculté Polydisciplinaire Béni Mellal MASTER SPÉCIALISÉ MANAGEMENT DES RESSOURCES HUMAINES MODULE :La Gestion Prévisionnelle.
Les applications de groupware
Hajri khalil Seyah mohamed Aziz El aid Oussama Mejri abir
L’USAGE DE L ’OUTIL INFORMATIQUE EN PREMIERE INFORMATION ET GESTION & EN TERMINALE COMPTABILITE ET FINANCE D’ENTREPRISE Le traitement de l’information.
DATA WEARHOUSE 1ère année LA: Technologies systèmes d’information
BANQUE DES DONNEES FINANCIERES CÔTE D’IVOIRE
GOUVERNANCE DES SYSTEMES D’INFORMATION IS governance.
Conception des SIG Entre construction théorique et mise en œuvre opérationnelle.
IDCE – BBA – 1 ère année Module 3 : Techniques comptables et financières Année 2008/2009 COMPTABILITE GENERALE CHAPITRE 1 : INTRODUCTION A LA COMPTABILITE.
SYSTEME DE MANAGEMENT DE LA QUALITE : LA NOUVELLE NORME ISO 9001 version 2015.
Chapitre2: SGBD et Datawarehouse. On pourrait se demander pourquoi ne pas utiliser un SGBD pour réaliser cette structure d'informatique décisionnelle.
République Algérienne Démocratique et Populaire Ministère de l'enseignement supérieur et de la recherche scientifique Université Mustapha Stambouli de.
LES CONTENUS DISCIPLINAIRES
LE RÉFÉRENTIEL LES 4 BLOCS DE COMPÉTENCES
Business Intelligence
Mise en place d’une gestion de type ERP
Réunion des directeurs
La démarche de projet industriel
Le département QIF Qualité, Innovation, Fiabilité
BTS Aéronautique Les stages en entreprise En 2 ème année : stage d’ingénierie. Deux stages en entreprise, à finalités différentes, sont organisés au cours.
Data Mining Fait par : Belhaj Nadia Derouich Maryem.
Conseils d’utilisation
PLATE FORME DE GESTION ÉLECTRONIQUE DE DOCUMENTS Présenté par: Amine LARIBI.
1. Organiser le système d’information commerciale 1.1. Le contenu
Gestion des stocks Cartographie du flux de valeur
Présentation résumée Partenariat Régional Innovation
Prélude ERP 6 Présentation 01/05/2019 © Gérard Baglin,
Service de consultation en ligne
4. Système d’information fournisseurs (SIF)
Présentation résumée Concours d’Innovation Thématique du concours visé
Evaluation et SGB(m) : quels enjeux et quelles possibilités ?
1.
Présentation PISTE pour les partenaires raccordés en API
1 Système de Management Intégré Professeur : Préparé par : Mme. El AOUFIR KHOUAKHI Daoud Mme. El AOUFIR KHOUAKHI Daoud MEGDOUBI Zouhair MEGDOUBI Zouhair.
UX DESIGN User exprérience en anglais Expérience Utilisateur en français Concevoir, Créer, dessiner UX DESIGN, consiste à penser et concevoir un site web.
BTS Aéronautique Les stages en entreprise En 2 ème année : stage d’ingénierie. Deux stages en entreprise, à finalités différentes, sont organisés au cours.
Transcription de la présentation:

Spécificités du Data Mining Année universitaire 2017/2018 Spécificités du Data Mining Ingénierie Economique et Financière Fahmi Ben Rejab FBR.2016-2017.ISG Tunis. FBR.2016-2017.ISG Tunis.

Contexte Besoin: prise de décisions stratégiques et tactiques Pourquoi: besoin de réactivité Qui: les décideurs (non informaticiens) Comment: répondre aux demandes d’analyse des données, dégager des informations qualitatives nouvelles Pourquoi et comment le chiffre d’affaire a baissé? Qui sont mes meilleurs clients? Quels français consomment beaucoup de poisson?

La solution BI Contexte Obtenir une vision synthétique d’un service ou de l’ensemble de l’entreprise Centraliser les données dans un entrepôt de données Aider à la décision via une exploitation efficace des données  prendre connaissance des données à un niveau global et ainsi prendre des décisions plus pertinentes, d’où le nom d’informatique décisionnelle  ces données soient filtrées, croisées et reclassées dans un entrepôt de données central  compréhension du fonctionnement actuel de l’entreprise jusqu'à l’anticipation des actions a venir Transition : La BI désigne donc les moyens, les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les données d'une entreprise en vue d'offrir une aide à la décision.

Spécif 1: Source de données Intégration L'intégration consiste à concentrer les données collectées dans un espace unifié, dont le socle informatique essentiel est l'entrepôt de données. Élément central du dispositif, il permet aux applications décisionnelles de bénéficier d'une source d'information commune, homogène, normalisée et fiable, susceptible de masquer la diversité de l'origine des données. Au passage les données sont épurées ou transformées par : un filtrage et une validation des données en vue du maintien de la cohérence d'ensemble une synchronisation (s'il y a nécessité d'intégrer en même temps ou à la même « date de valeur » des événements reçus ou constatés de manière décalée ou déphasée) une certification (pour rapprocher les données de l'entrepôt des autres systèmes « légaux » de l'entreprise comme la comptabilité ou les déclarations réglementaires). C'est également dans cette fonction que sont effectués éventuellement les calculs et les agrégations (cumuls) communs à l'ensemble du projet. a) Collecte Finances Marketing 1.0 Organiser les données via ETL Comptoir de données Contrôle Qualité Ressources humaines Production c) Diffusion 3.0 Diffuser l’information stratégique Analyses OLAP d) Présentation Usager 4.0 Activer une requête 1 Requêtes Résultats b) Intégration 2.0 Gérer les métadonnées Entrepôt central de données Collecte La collecte (parfois appelée datapumping) est l'ensemble des tâches consistant à détecter, à sélectionner, à extraire et à filtrer les données brutes issues des environnements pertinents compte tenu du périmètre du SID. Les sources de données internes et/ou externes étant souvent hétérogènes tant sur le plan technique que sur le plan sémantique, cette fonction est la plus délicate à mettre en place dans un système décisionnel complexe. Elle s'appuie notamment sur des outils d'ETL (extract-transform-load pour extraction-transformation-chargement). Cette alimentation utilise les données sources issues des systèmes transactionnels de production, le plus souvent sous forme de : compte-rendu d'événement ou compte-rendu d'opération : c'est le constat au fil du temps des opérations (achats, ventes, écritures comptables, ...) ou le film de l'activité de l'entreprise compte-rendu d'inventaire ou compte-rendu de stock : c'est l'image photo prise à un instant donné (à une fin de période : mois, trimestre, ...) de l'ensemble du stock (les clients, les contrats, les commandes, les encours, ...). La fonction de collecte joue également, au besoin, un rôle de recodage. Une donnée représentée différemment d'une source à une autre impose le choix d'une représentation unique pour les futures analyses. Présentation Cette quatrième fonction, la plus visible pour l'utilisateur, régit les conditions d'accès de l'utilisateur aux informations. Elle assure le fonctionnement du poste de travail, le contrôle d'accès, la prise en charge des requêtes, la visualisation des résultats sous une forme ou une autre. Elle utilise toutes les techniques de communication possibles (outils bureautiques, requêteurs et générateurs d'états spécialisés, infrastructure web, télécommunications mobiles, etc). Diffusion (ou distribution) La diffusion met les données à la disposition des utilisateurs, selon des schémas correspondant au profil ou au métier de chacun, sachant que l'accès direct à l'entrepôt de données ne correspondrait généralement pas aux besoins d'un décideur ou d'un analyste. L'objectif prioritaire est de segmenter les données en contextes informationnels fortement cohérents, simples à utiliser et correspondant à une activité décisionnelle particulière. . Chaque contexte peut correspondre à un datamart, bien qu'il n'y ait pas de règles générales concernant le stockage physique. Très souvent, un contexte de diffusion est multidimensionnel, c'est-à-dire modélisable sous la forme d'un hypercube; il peut alors être mis à disposition à l'aide d'un outil OLAP.

Spécif 1: Source de données e) Administration a) Collecte Finances Marketing 1.0 Organiser les données via ETL Comptoir de données Contrôle Qualité Ressources humaines Production b) Intégration 2.0 Gérer les métadonnées Entrepôt central de données c) Diffusion 3.0 Diffuser l’information stratégique Analyses OLAP d) Présentation Usager 4.0 Activer une requête 1 Requêtes Résultats Administration C'est la fonction transversale qui supervise la bonne exécution de toutes les autres. Elle pilote le processus de mise à jour des données, la documentation sur les données (les méta-données), la sécurité, les sauvegardes, la gestion des incidents. Sources: - Richardson, James, Schlegel, Kurt, Sallam, Rita L., Hostmann, Bill, Gartner Inc, Magic Quadrant for Business Intelligence Platforms, 16 janvier 2009. Wikipédia, Informatique décisionnelle, http://fr.wikipedia.org/wiki/Informatique_décisionnelle.

Spécif 1: Source de données Entrepôt de données Datawarehouse Globalisation des données de l’entreprise Centralisation d’applications diverses Datamarts Alimentés depuis le datawarehouse Sous-ensemble concernant les métiers de l’entreprise Spécifique suivant une fonction Alimentation des bases de données multidimensionnelles Transition : Après avoir expliquer les notions indispensables nous allons maintenant voir les étapes du processus décisionnel qui les utilise. L'entrepôt de données, ou datawarehouse, est un concept spécifique de l'informatique décisionnelle, issu du constat suivant : les données de l'informatique de production (également appelée « informatique transactionnelle »), notamment les progiciels de gestion intégrés (ou ERP, Enterprise Resource Planning) ne se prêtent pas à une exploitation dans un cadre d'analyse décisionnelle. Les systèmes de production sont en effet construits dans le but de traiter des opérations individuelles qui peuvent impliquer différents métiers de l'entreprise et surtout, ne se préoccupent pas de leur compilation ou historisation dans le temps. À l'inverse, les systèmes décisionnels doivent permettre l'analyse par métiers ou par sujets et le suivi dans le temps d'indicateurs calculés ou agrégés. Il est donc souvent indispensable de séparer ces deux mondes et de repenser les schémas de données, ce qui implique l'unification des différents gisements de données de l'entreprise en un entrepôt de données global (datawarehouse) ou dédié à un sujet/métiers (datamart). datamarts (généralement alimentés depuis les données du datawarehouse) sont des sous-ensembles d’informations concernant un métier particulier de l’entreprise (marketing, risque, contrôle de gestion, ... Les datamart et/ou les datawarehouses peuvent aussi alimenter des bases de données multidimensionnelles, qui permettent l’analyse très approfondie de l’activité de l’entreprise, grâce à des statistiques recoupant des informations relatives à des activités apparemment très différentes ou très éloignées les unes des autres, mais dont l’étude fait souvent apparaître des dysfonctionnements, des corrélations ou des possibilités d’améliorations très sensibles. Multidimensionnelle : ex : Le chiffre d'affaires par catégorie de client sur un produit donné se décline en trois axes au minimum : chiffre d'affaires, catégorie de clients, et produit. De nombreux autres axes peuvent être définis, notamment en fonction de la zone géographique, du prix, ou d'un commercial de l'équipe en charge des opérations.

Spécif 1: Source de données Les données seront: 1- formatées, nettoyées et consolidées 2- stockées dans une base spécialisée : data warehouse 3- accessibles selon les fonctions et les types d'utilisation 4- utilisables

Spécif 1: Source de données B.D. de gestion vs. B.D. décisionnelles Systèmes de gestion (opérationnel) Systèmes décisionnels (analyse) Objectif dédié au métier et à la production ex: facturation, stock, personnel dédié au management de l'entreprise (pilotage et prise de décision) Volatilité (perennité) données volatiles ex: le prix d'un produit évolue dans le temps données historisées ex: garder la trace des évolutions des prix, introduction d'une information daté Optimisation pour les opérations associées ex: passage en caisse (lecture de code barre) pour l'analyse et la récapitulation ex: quels les produits achetés ensembles Granularité des données totale, on accède directement aux informations atomiques agrégats, niveau de synthèse selon les besoins de l'analyse

Spécif 2: Techniques utilisées Très souvent, ces méthodes se rejoignent, mais avec des philosophies / approches / formulations différentes

Spécif 2: Techniques utilisées Les méthodes selon les finalités Les méthodes sont le plus souvent complémentaires !

Spécif 3: Multiplicité des supports et des sources  Radio Network Temporary Identifier FBR.2016-2017.ISG Tunis.

Résumé Ca ne marchera jamais si : La démarche DATA MINING • formalisation des objectifs • acquisition des données • préparation des données • apprentissage – application des méthodes • interprétation – explication • évaluation et validation • déploiement Ca ne marchera jamais si : Le « métier » n’adhère pas à ce que vous faites Les objectifs sont mal définis Les données disponibles ne conviennent pas Les données sont mal « préparées » On n’utilise pas les techniques appropriées

Résumé

Source: Ricco Rakotomalala http://tutoriels-data-mining.blogspot.fr/