Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.

Slides:



Advertisements
Présentations similaires
Datamining de la Connaissance Client orienté Objectif
Advertisements

De lanalyse des données … … au Datamining Aide à la prise de décision.
Introduction Pour concrétiser l’enseignement assisté par ordinateur
Organisation de Nations Unis pour léducation, la science et la culture IDAMS Logiciel développé internationalement pour la gestion et lanalyse de données.
Le processus unifié UML est un langage de modélisation et n ’impose pas de démarche de développement Le processus unifié : méthodologie de développement.
INTRODUCTION Grande quantité de données
1 Séminaire de travail « Indicateur de croissance en France et/ou en zone euro : méthodologie et évaluation » 14 juin 2006 Indicator Models of Real GDP.
HORAIRES HEBDOMADAIRES PROPOSES Spécialité Gestion 3 heures en classe entière 2 heures en demi - groupe Soit 5 heures - élève Spécialité Communication.
Rational Unified Process (RUP)
Plate-forme pour l’étude et la conception de systèmes automatisés
Journée de Travail Groupe “Bermudes”
Copyright © 2004, SAS Institute Inc. All rights reserved. Processus Stockés SAS une perspective analytique Sylvain Tremblay SAS Canada 25 avril 2006.
Réalisé avec le soutien de 2005 FAROS : composition de contrats pour la Fiabilité d'ARchitectures Orientées Services Définir un environnement de composition.
introduction à la sociologie générale, cours 3
L ’enseignement de la construction en BEP industriel
Estella Annoni, Franck Ravat, Olivier Teste, Gilles Zurfluh
Data Mining: Définition
LES OUTILS POUR LA GOUVERNANCE DES DONNÉES LA PASSION DES DONNÉES LA PRÉCISION DES RÉSULTATS.
Amélioration de la sécurité des données à l'aide de SQL Server 2005
Les Systèmes Multi-Agents pour la Gestion de Production
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Le Reengineering.
Auto Exterior Scoop SQP PROCESSUS 24 juillet 2006 Version validée V01.
J.B. Lagrange J.M. Gélis Bernard Le Feuvre Xavier Meyrier …..
1.1.3 La démarche scientifique
La Démarche Scientifique
DataLab® Toute la connaissance client en quelques minutes
un montage de roulement
FICHIERS : Définition : Algorithme général:
POLI-D-208 Introduction à la recherche en sciences politiques Partie Exercices Titulaire: Jean-Benoit Pilet.
Présentation du mémoire
Universté de la Manouba
Riadh Ben Messaoud Kamel Aouiche Cécile Favre
Le projet BENEBUS: Benchmarking of e-business solutions for Western and Eastern Europe SMEs Contract no.:IST a rassemblé des.
Le forage de données ou data mining
La résolution de problèmes grâce à la technologie de l'information
Tolerance Manager Un concept métier
Évolution de schémas par classification automatique dans les entrepôts de données 3ème journée francophone sur les Entrepôts de Données et l'Analyse en.
Présentation de la méthode des Eléments Finis
Mise en oeuvre et exploitation
Amélioration de la simulation stochastique
Supports de formation au SQ Unifié
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
Réalisé par : Mr IRZIM Hédi Mr JRAD Firas
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
1 BEP métiers de l’électronique Déroulement de l’examen (Candidats scolarisés)
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
© Petko ValtchevUniversité de Montréal Février IFT 2251 Génie Logiciel Conception Hiver 2002 Petko Valtchev.
Introduction au Génie Logiciel
Travaux Pratiques Optimisation Combinatoire
Initiation à la conception des systèmes d'informations
Présentation AICHA REVEL INGENIEUR D’ÉTUDE STERIA DEPARTEMENT TRD
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
Suivi rapide d’objet en mouvement
1 Vers la gestion de la cohérence dans les processus multi-modèles métier Wolfgang THEURER Ecole Nationale Supérieure d’Ingénieurs des Etudes et Techniques.
Cours MIAGE « Architectures Orientées Services »Henry Boccon-GibodCours MIAGE « Architectures Orientées Services »Henry Boccon-Gibod 1 Architectures Orientées.
Knowledge discovery in Databases (KDD)
Le Marketing Prédictif
Intégration des Tableaux Multidimensionnels en Pig pour
Logiciel pour la résolution des programmes linéaires : « LINDO »
GESTIONNAIRE PLANIFICATION ET LOGISTIQUE PRÉSENTÉ PAR SAID GUERFI.
OPTIMISATION DES PERFORMANCES DES ENTREPÔTS DE DONNÉES VIA LES INDEX
Présenté par : Benoit Frédéricque Directrice : Sylvie Daniel Co-directeur : Yvan Bédard UNIVERSITÉ LAVAL Gestion contextuelle des méthodes de saisie volumétrique.
Introduction à la recherche en science politique
Révision des processus de Gestion de projet
Les bases de données Séance 2 Méthodologies d’analyse.
PROJET DE SESSION PRÉSENTÉ PAR : Rosemarie McHugh DANS LE CADRE DU COURS : SCG Réalisation d’applications en SIG 16 avril 2007.
Coltier Yves Division des prix 14/05/2014 Les remplacements de type EC Les modèles hédoniques.
PROJET DE SESSION DANS LE CADRE DU COURS: SCG Réalisation d’applications en SIG PRÉSENTÉ PAR: Marie-Andrée Levesque 18 AVRIL 2006.
Transcription de la présentation:

Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc Boullé Françoise Fessant,Fabrice Clérot Université Sidi Mohamed ben Abdellah Faculté des Sciences et Techniques Fès France Télécom R&D, avenue Pierre Marzin, Lannion

Introduction Le modèle CRISP-DM Automatisation de la phase de préparation de données La phase de déploiement Experimentation Conclusion et perspective 2

3 Comment exploiter au maximum, les informations dans un entrepôt de données ?

4  C’est une méthode mise à l’ épreuve sur le terrain permettant d’orienter les travaux du data-mining, ainsi de créer un modèle adapté à nos besoins.  De quoi il s’agit ?

5  Compréhension métier :  Déterminer les objectives commerciaux.  Evaluater de la situation.  Déterminer les objectives du Data Mining.  Produire d'un plan du projet.  Compréhension des données :  Collecte des données initiales  Description des données  Exploration des données  Vérification de la qualité des données  Préparation des données :  Sélection des données  Nettoyage des données  Construction de nouvelles données  Modélisation des données :  Sélection des techniques de modélisation.  Génération d'une conception de test.  Création des modèles.  Evaluation de modèles.  Evaluation des données :  Evaluation de résultats  Processus de révision  Détermination des étapes suivantes  Déploiement :  Planification du déploiemnt  Planification de surveillance et maintenance  Production de rapport final  Exécution d'une révision de projet final

6 Les logiciels utilisés pour l’analyse statistiques:  SAS : ( Statistical Analysis System )  SPSS : ( Statistical Package for the Social Sciences ) Le nombre de variables explicatives est limité. La mise à plat de données relationnelles

7  Destiné à compléter les solutions analytiques avancées de SAP, « Predictive Analysis », un plan de travail pour la définition, l'exécution et la visualisation de l'analyse prédictive.  C’est un fournisseur leader de la technologie d'analyse prédictive pour les utilisateurs et les analystes line-of-business. Technologie KXEN :

8 Les données permettant de construire les variables explicatives sont stockées dans une base de données relationnelle simple, le data folder.Les variables explicatives sont construites et sélectionnées automatiquement en fonction de l'étude menée. Le modèle de données du data folder permet d'assurer une normalisation des différentes sources de données qui seront toujours présentées sous la forme d'un schéma en étoile.  Architecture de traitement :

9 La table principale est la table client

10  Sélection des représentations : L’approche enveloppe L’approche filtre L’approche MODL(Minimum Optimized Description Length) ( Kohavi et John, 1997 )

11  L’approche MODL : Une méthode robuste et rapide utilisée pour sélectionner la meilleur représentation

12  Cas de variable numérique :  Cas de variable catégorielle :

13  Exemples : Largeur de sépale : (cas numérique) Discrétisation MODL de la variable largeur de sépale en trois intervalles pour la classification de la base Iris en trois classes.

14  Exemples : Couleur : (cas catégoriel) Groupement de valeurs MODL de la variable couleur de chapeau pour la classification de la base Mushroom en deux classes

15  Sélection des parangons: La table des parangons contient les individus représentatifs des variables explicatives utilisées par le modèle.

16  Algorithme : Deterministic Reservoir Sampling (Akcan et al 2006) : 1.Le réservoir est initialisé par les K premières instances rencontrées. 2.Pour p allant de K à P : une instance est choisie dans une fenêtre de recherche de taille M de manière à minimiser C(p) le critère de qualité de l'échantillon. la fenêtre est ensuite décalée de L instances de manière à obtenir un échantillon de taille P lorsque la table complète de taille N sera parcourue, avec L = (N-M)/P.

17 Analyse des données de de clients du groupe France Télécom sur un passé récent entre janvier et juin 2005, avec et sans cette technologie afin de mesurer la fiabilité de notre approche

18 Courbe de gain des différents modèles pour la résiliation ADSL

19