Françoise Soulié Fogelman

Slides:



Advertisements
Présentations similaires
ISO Lignes directrices relatives à la responsabilité sociétale
Advertisements

CRÉER UNE APPLICATION INTERNET RELIEE A UNE BASE DE DONNEES
Scénarisation d’un produit pédagogique multimédia
DTD Sylvain Salvati
Utiliser autrement des données de Base Elèves 1) Choisir les données Base Élèves propose 3 sortes de listes, par exemple dans le menu : Elèves : Liste.
Reconstitution de la courbe des taux David Co-Van Gildas Colin Sébastien Garon.
Collecte de données F. Kohler.
INTRODUCTION Grande quantité de données
1 Séminaire de travail « Indicateur de croissance en France et/ou en zone euro : méthodologie et évaluation » 14 juin 2006 Indicator Models of Real GDP.
Formation WIMS Jeudi 9 juillet 2009
Méthodes statistiques. Ajustements et corrélation
le langage les éléments
Design Pattern MVC En PHP5.
Le modèle de Bayes Christelle Scharff IFI La classification de Bayes Une méthode simple de classification supervisée Basée sur lutilisation du Théorème.
Microsoft Excel Avancé
Vers un indicateur de la qualité des cours d’ eau…
FAIRE SON RAPPORT MENSUEL EN LIGNE ET PRENDRE DU BON TEMPS Lion Roland Pelletier District U-3.
Database B2 2 MIP Paris.
5. Algorithme à estimation de distribution
Algorithmes Branch & Bound
Climate Prediction Tool
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
Méthode des k plus proches voisins
Analyse par la méthode des 5 pourquoi
Jessica Monhart Camille Pitteloud Supervisé par Micha Hersch.
DataLab® Toute la connaissance client en quelques minutes
Projet “Evaluation de Performance”
Sujet : Étude de Data Mining en utilisant SAS:EM
La régression logistique
La corrélation et la régression
TEMPLATE DESIGN © Les impacts de la recherche scientifique: Comment les mesurer et maximiser Yassine GARGOURI 1 & Stevan.
PhP-MySQL Pagora 2012/2013 CTD 1 - Presentation de moi ^^
Le forage de données ou data mining
Les Arbres de décision ou régression
Un algorithme de prédiction de lheure darrivée de bus utilisant un système de localisation automatique.
Structure discriminante (analyse discriminante)
Diffusion Nationale TOULOUSE -Mai 2006 STSWEB Rattacher Services et ARE Gestion des pondérations.
Échantillonnage (STT-2000) Section 2 Tirage aléatoire simple (plan SI). Version: 22 août 2003.
Diffusion Nationale TOULOUSE -Mars 2006 Structure et Services « STS » Documentation et suivi.
Exploitation de Tickets de Caisse Pour Score d’Appétence
PHP & My SQL.
JavaScript.
Théorème de la limite centrale l’inférence statistique
Utilisation du portail de données du GBIF. data.gbif.org Sur la page d’accueil ou n’importe quelle autre page du portail, tapez un nom scientifique ou.
Master HTTP Créator LARNS Corporation Membres : ALFOSEAJean-FabienChef de Projet LEROGNONRenaudDesigner N'DOYEAssaneWebmestre RONCAGLIAThomasRelation Publique.
STATISTIQUES – PROBABILITÉS
Intervalles de confiance pour des proportions L’inférence statistique
Statistique Cours #4 Régression linéaire simple et multiple
L’empreinte écologique La consommation avertie. La situation actuelle Comment va l’environnement à l’heure où on se parle?Comment va l’environnement à.
S'initier au HTML et aux feuilles de style CSS Cours 5.
V. M.-R. Arnould 1,2,*, E. Froidmont 3, H. N. Nguyen 4, F. Dehareng 4, P. Dardenne 4, A. Gillon 2,5, N. Gengler 2,6 et H. Soyeurt 2,6 1 CONVIS, Zone Artisanale.
Olivier Leclair, Université Laval Un algorithme de fouille dans une représentation des données par objets: une application médicale SIMON, Arnaud.
TICE 2 ième Semestre TD6 - Récapitulatif. Mars 2006TICE 2ième Semestre - Révisions2 Evaluation La semaine prochaine Deux demi groupes, minutes d’examen.
S'initier au HTML et aux feuilles de style CSS Cours 5.
Exemple complexe Impression d’étiquettes pour produits chimiques Les étiquettes destinées aux produits chimiques doivent comporter des instructions concernant.
 Formulaires HTML : traiter les entrées utilisateur
LES SUPPORTS INDIVIDUELS D ’AIDE A LA DECISION UNE PRESENTATION DE : DIALLO, OUSMANE B UNE PRESENTATION DE : DIALLO, OUSMANE B.
PPE 2 : Val Lamartinien Passion
Knowledge discovery in Databases (KDD)
Le Marketing Prédictif
Course à pied : Plans d’entraînement, conseils… Du 1er jogging au marathon Présentation des packs publicitaires Jogging-Plus pour les organisateurs de.
Page : 1 / 7 Conduite de projet Examen du 16 mai 2001 Durée : 3h30mn Le support de cours et les notes sont nécessaires La notation tiendra compte très.
SDTICE « Site C2i » Site web : c2i.education.fr Plate-forme d’évaluation automatique Mutualisation des ressources … EL BOUSSARGHINI Rachid DT SDTICE B3.
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
QCM VBA.
Échantillonnage (STT-2000)
Distribution à deux variables
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Claude Chappert – DG FCS IDEX et Université Paris- Saclay CONSEIL ACADÉMIQUE – 03/12/2015.
Transcription de la présentation:

Françoise Soulié Fogelman francoise@kxen.com Data Mining Projets Françoise Soulié Fogelman francoise@kxen.com Master MI2 Pro EID - Université Paris 13 Data mining et Business Intelligence FDON

Projet Cross-Validation 8 Projet Binning/Banding 6 Liste des projets Groupe Projet Cross-Validation 8 Projet Binning/Banding 6 Projet Bootstrap & bagging 10 Produits bancaires 4 Projet TIS : série temporelle 3 Projet Feature Selection Challenge 1 Projet Evaluating Predictive Uncertainty Challenge 7 classification Projet Evaluating Predictive Uncertainty Challenge 2 régression Projet Performance Prediction Challenge 9 Projet ré-équilibrage de classe 5

Projet Cross-Validation Projets Projet Cross-Validation Fichier CocoaBank.txt Construire un score avec KXEN et écrire un rapport Sélectionner les 7 à 10 variables les plus significatives Cross-validation Réaliser un script KXEN pour mettre en œuvre la cross-validation Utiliser une k-fold cross-validation pour produire 5 modèles Md, utilisant des polynômes de degré d = 1 à 5. Choisir le meilleur modèle En utilisant la technique de cross-validation. En utilisant le KI / KR Écrire un rapport décrivant la méthode, les résultats obtenus et comparer ces résultats à ceux du modèle standard KXEN obtenu en 1/ Référence Utiliser l’article scientifique décrivant la cross-validation : http://www.autonlab.org/tutorials/overfit10.pdf Groupe 8

Projet Binning/Banding Projets Projet Binning/Banding Fichier CocoaBank.txt Construire un score avec KXEN et écrire un rapport Binning et banding Rechercher des stratégies de binning et banding Réaliser un script KXEN pour mettre en œuvre binning et banding Écrire un rapport décrivant la méthode, les résultats obtenus et comparer ces résultats à ceux du modèle standard KXEN obtenu en 1/ Groupe 6

Projet Bootstrap & bagging Projets Projet Bootstrap & bagging Fichiers ftp://ftp.ics.uci.edu/pub/machine-learning-databases/ heart-disease, breast-cancer-wisconsin, ionosphere, diabetes Construire un score avec KXEN et écrire un rapport Pour chacun des 4 ensembles de données Bagging Réaliser un script KXEN pour mettre en œuvre le bagging Pour chaque ensemble de données, appliquer le bagging sur un ensemble de k échantillons de boot-strap Mettre de côté un échantillon de test Tirer les échantillons de boot-strap sur les donénes restantes Écrire un rapport décrivant la méthode, les résultats obtenus et comparer ces résultats à ceux du modèle standard KXEN obtenu en 1/ Référence Utiliser l’article scientifique décrivant le bagging http://citeseer.csail.mit.edu/breiman96bagging.html Groupe 10

Projets Produits bancaires Fichier Banking Products.csv Construire un score d'appétence pour la détention de au moins 1, au moins 2 et au moins 3 produits et écrire un rapport Construire un score d'appétence produit et écrire un rapport 1 modèle par produit, Prévoir pour chaque individu le ou les produits qui doivent être proposés (calcul des probabilités d'appétence)  Fournir un fichier Excel contenant toutes les données et 2 colonnes supplémentaires Le produit à proposer (en dehors de celui qu'il possède) et sa probabilité. Utiliser les résultats de 1. pour affiner les propositions obtenues en 2. Faire une segmentation selon la valeur Client (par exemple en utilisant la variable : tot_amt_balance). Même question que 2. Comparer les résultats obtenus par les différentes méthodes Groupe 4

Projet TIS : série temporelle Projets Projet TIS : série temporelle Fichier bicup2006english.xls http://www.tis.cl/2006//futurosTalleres/2006/Taller_1/BICUP2006-ENGLISH/?Taller_12006 Construire un modèle de prévisions temporelles avec KTS et écrire un rapport Comment enrichir ce modèle en utilisant des variables supplémentaires : Jour de la semaine, numéro de jour … ? Que se passe-t-il si on demande des prévisions à 1, 2 ou 3 jours (court terme) versus moyen terme (10, 11, 12 jours?) ou long terme (> 15 jours) Que se passe-t-il si au lieu de travailler au 1/4 d'heure, nous travaillons à la 1/2 heure ou à l'heure? Comparer les résultats obtenus par les différentes méthodes Groupe 3

Projet Feature Selection Challenge Projets Projet Feature Selection Challenge Site du challenge http://www.nipsfsc.ecs.soton.ac.uk/datasets/ Choisir un des problèmes proposés Construire un score avec KXEN et écrire un rapport Comparer les résultats obtenus à ceux des concurrents du challenge Groupe 1

Projet Evaluating Predictive Uncertainty Challenge Projets Projet Evaluating Predictive Uncertainty Challenge Site du challenge http://predict.kyb.tuebingen.mpg.de/pages/home.php Choisir un des problèmes proposés (classification) Construire un score avec KXEN et écrire un rapport Comparer les résultats obtenus à ceux des concurrents du challenge Groupe 7

Projet Evaluating Predictive Uncertainty Challenge Projets Projet Evaluating Predictive Uncertainty Challenge Site du challenge http://predict.kyb.tuebingen.mpg.de/pages/home.php Choisir un des problèmes proposés (régression) Construire un score avec KXEN et écrire un rapport Comparer les résultats obtenus à ceux des concurrents du challenge Groupe 2

Projet Performance Prediction Challenge Projets Projet Performance Prediction Challenge Site du challenge http://www.modelselect.inf.ethz.ch/ Choisir un des problèmes proposés Construire un score avec KXEN et écrire un rapport Comparer les résultats obtenus à ceux des concurrents du challenge Groupe 9

Projet ré-équilibrage de classe Projets Projet ré-équilibrage de classe Fichier CocoaBank.txt Construire un score avec KXEN et écrire un rapport Déterminer le nombre de cas positifs (1) et négatifs (0) Ré-équilibrage Construire un échantillon comprenant P cas positifs et N cas négatifs de la façon suivante On prend tous les cas positifs (p) et on pondère chaque cas par un poids w Ceci est équivalent à prendre P = pw Tirer N = P cas négatifs parmi les cas négatifs disponibles Réaliser un script KXEN pour mettre en œuvre cet échantillonnage (pour w = 1 à 30) Produire 30 modèles Mw, pour chaque w. Écrire un rapport décrivant la méthode, les résultats obtenus et comparer ces résultats à ceux du modèle standard KXEN obtenu en 1/ Groupe 5