Introduction KXEN Analytic Framework. Sommaire Le data mining dans l’entreprise KXEN & Vapnik : la nouvelle donne Démonstration.

Slides:



Advertisements
Présentations similaires
MOT Éditeur de modèles de connaissances par objets typés
Advertisements

Les technologies décisionnelles et le portail
Les Excel Services de Office 2007
Processus d'expression du besoin
Classification et prédiction
Datamining de la Connaissance Client orienté Objectif
De lanalyse des données … … au Datamining Aide à la prise de décision.
INTRODUCTION Grande quantité de données
LES BASES DU MARKETING IUT SRC, SEMESTRES 1 & 2
UML (Unified Modeling Langage)
La prévision de la demande
Le Workflow et ses outils
Application à la méthode des
Business Intelligence CLSO – 24 février Jean-Pierre Riehl
LES OUTILS POUR LA GOUVERNANCE DES DONNÉES LA PASSION DES DONNÉES LA PRÉCISION DES RÉSULTATS.
MRP, MRP II, ERP : Finalités et particularités de chacun.
Traitement de données socio-économiques et techniques d’analyse :
Prévision de la Demande
Marketing Engineering
le profil UML en temps réel MARTE
Simulation multi-agent de phénomènes collectifs : quelques questions d’ordre épistémologique Frédéric AMBLARD Institut de Recherche en Informatique de.
Sommaire Objectif de Peakup Principes de fonctionnement
Plan du Cours Définition de la BI Objectif de la BI Fonctionnement d’une plateforme BI Technologies de la BI Composantes de la BI Les caractéristiques.
06/12/2005 C. Massot À PROPOS DE LOGICIELS STATISTIQUES.
Renouveau : Développement de ressources Étude de cas « Ferme Kimbercote » Conférence canadienne sur lentreprise sociale 19 novembre 2009.
La gestion de la relation client
DataLab® Toute la connaissance client en quelques minutes
MOT Éditeur de modèles de connaissances par objets typés
Mesures de performance organisationnelle Cours ICO 810 Professeur: Michel Pérusse Hiver 2005 Session 9.
© Petko ValtchevUniversité de Montréal Janvier IFT 2251 Génie Logiciel Notions de Base Hiver 2002 Petko Valtchev.
Les prévisions et la gestion de la demande
RECHERCHE COMMERCIALE
Le forage de données ou data mining
Réalité virtuelle et Représentation de Données Complexes
Systèmes d’informations : Définition, Composantes, Rôles et Approches.
Sensibilisation a la modelisation
Exploitation de Tickets de Caisse Pour Score d’Appétence
Présentation corporate société xxx
Supports de formation au SQ Unifié
Institut Supérieur des Sciences Appliquées et de Technologie Sousse
1 Alain Casali Christian Ernst Extraction de Règles de Corrélation Décisionnelles 29 Janvier 2009.
Introduction au Génie Logiciel
Françoise Soulié Fogelman
VERS « UNE NORME EUROPEENE » SUR LE MANAGEMENT DE L’INTELLIGENCE STRATEGIQUE Philippe CLERC LOUVAIN-LA-NEUVE 15 novembre 2013.
1.1 Définition d’un « service informatique » Un service informatique est un moyen permettant de générer une valeur ajoutée sans que le client ait à supporter.
Initiation à la conception des systèmes d'informations
Ce qu’est l’Amélioration continue
Concept Marketing Interactif Forum Marketing 2000 La promotion d’un site Internet Québec 12 avril 2000 Présentation: Allain Lagadic Concept Marketing Interactif.
Amélioration de la Performance des Systèmes d’Information de Routine (SISR) et de l’Utilisation de l’Information pour la Gestion des Systèmes de Santé.
LE DATA WAREHOUSE.
Présentation AICHA REVEL INGENIEUR D’ÉTUDE STERIA DEPARTEMENT TRD
Améliorer la performance des organisations en apportant à toutes les équipes la meilleure compréhension de leur activité pour des décisions plus rapides.
Management de la qualité
Présentation février 2002 Relations Visiblement Meilleures.
FILIERE « SCIENCES DE LA PRODUCTION INDUSTRIELLE »
LES SUPPORTS INDIVIDUELS D ’AIDE A LA DECISION UNE PRESENTATION DE : DIALLO, OUSMANE B UNE PRESENTATION DE : DIALLO, OUSMANE B.
Développement de la méthode de relevés Du réel au virtuel
Institut Régional pour la Création et le développement des Entreprises Présentation de l’IRCE.
Knowledge discovery in Databases (KDD)
( ) Collège de Maisonneuve
21/02/2003DEA DISIC 1 Grid Computing Programming the grid: Distributed Software Components, P2P and Grid Web Services for Scientific Applications Tarak.
Le Marketing Prédictif
Synthèse de notions “fondamentales” par Guillaume Feutren, Stagiaire
Contrôle des coûts.
Kapiat – Gestion Stocks
Vers l’exploitation de grandes masses de données Encadré par : Mme L.Lamarini Présenté par: Rhaz Yassine Smiri Safae Un article de: Raphaeil Féraud,Maroc.
INTRODUCTION AUX BASES DE DONNEES
Bienvenue!  Professeur : Dr. David Beaudoin.  Disponibilité : Mardi 15h30-17h local  Disponibilité d’Antoine Gautier: Mardi et Jeudi à compter.
Application ADEE-Bât Enjeu Energie – Groupe ENE_15 1 Pierre CORDESSE Alexis FILIPOZZI Olivier MARTIN Denis RAVERA Ramon RODRIGANEZ.
© Copyright IKAYROS 2014 SARL IKAYROS - 51, Rue du Rocher Paris - Tél. : + 33 (0) (0) – ProdInsight.
Transcription de la présentation:

Introduction KXEN Analytic Framework

Sommaire Le data mining dans l’entreprise KXEN & Vapnik : la nouvelle donne Démonstration

Le constat du Gartner Volume Time Source: Gartner The Business Intelligence “Gap” Available Information Numbers of critical decisions Business Intelligence Aptitude Ex : Une grande entreprise française en a réalisé 900 campagnes marketing - a fait un modèle de ciblage pour 20 campagnes seulement

Les opportunités du marché n’attendent pas Les opportunités du marché n’attendent pas  La transformation des données en connaissance prend des semaines.  Les ressources des experts sont rares – pouvez-vous attendre? => Vous ne pouvez appliquer les techniques de modélisation avancées qu’aux projets stratégiques. Les opportunités du marché n’attendent pas Les opportunités du marché n’attendent pas  La transformation des données en connaissance prend des semaines.  Les ressources des experts sont rares – pouvez-vous attendre? => Vous ne pouvez appliquer les techniques de modélisation avancées qu’aux projets stratégiques. Le facteur Gourou  Les outils statistiques actuels demandent une forte expertise pour être bien utilisés  Les Experts en Statistiques sont chers et très occupés Le facteur Gourou  Les outils statistiques actuels demandent une forte expertise pour être bien utilisés  Les Experts en Statistiques sont chers et très occupés Une industrialisation complexe Une industrialisation complexe  Informatique très sollicitée : duplication des données, mise en œuvre des modèles  Multiplicité des acteurs : analystes, utilisateurs métier, informaticiens Une industrialisation complexe Une industrialisation complexe  Informatique très sollicitée : duplication des données, mise en œuvre des modèles  Multiplicité des acteurs : analystes, utilisateurs métier, informaticiens Qu’est ce qui empêchent les gens aujourd’hui d’analyser leurs données? => Un coût par modèle élevé

Une nécessaire expertise  Méthodologie en statistiques classiques Prepare Data Build Model Test Model Analyse des corrélations entre variables Choix d’un algorithme Codage des variables après analyse des distributions Choix et compréhension des tests Méthode empirique de vérification de la robustesse

Challenge de la modélisation prédictive (1/2) Construction du modèle sur des individus avec la variable cible connue Application du modèle sur des individus avec la variable cible inconnue Risque empirique Risque attendu

x Modèle très robusteModèle très précis x Tradeoff fit-robustesse Y F 1 (X ) F 2 (X) F 3 (X) Y Y X X X Challenge de la modélisation prédictive (2/2) Challenge : construire à partir d’un échantillon un modèle qui soit aussi bon sur l’échantillon que sur de nouvelles données.

Sommaire Le data mining dans l’entreprise KXEN & Vapnik : la nouvelle donne Démonstration

Apport de Vladimir Vapnik  Vladimir Vapnik  énonce un cadre théorique rigoureux dans lequel fit et robustesse d’un modèle sont clairement définis.  Il ouvre la voie à une nouvelle branche formelle de la statistique : la théorie statistique de l’apprentissage. (excelente synthèse = livre de Friedmann, Springer Series in statistics, 2001 : « Elements of Statistical Learning »)  Vladimir Vapnik : mathématicien russe arrivé aux US en 92, aux Bell (aujourd’hui AT&T) Labs pendant 10 ans puis depuis 2001 chez NEC.  Premiers papiers en russe dès  US Medal en sciences en  Plusieurs livres chez Springer Verlag et J. Wiley dès 1982  Enseigné par Gilbert Saporta au CNAM, ENSAE, ISUP depuis 2001  Information : nov 2002 : conférence organisée par Saporta au CNAM avec Vapnik, Friedmann, Schoelkopf

Avec ou sans le SRM de Vapnik Faible besoin d’expertise en statistique; automatisation possible Fort besoin d’expertise en statistique et de temps Les outils cherchent le modèle apportant le meilleur compromis entre précision et robustesse Les outils cherchent le modèle le plus précis Le nombre de variables peut être élevé car la généralisation est contrôlée (h) Problème de robustesse des modèles utilisant un grand nombre de variables Étude des familles de modèles par l’étude de leur VC dimension (h) Hypothèse sur les distributions statistiques des données Avec la SRMStatistiques appliquées

Sommaire Le data mining dans l’entreprise KXEN & Vapnik : la nouvelle donne Démonstration

Components made to be embedded Components made to be embedded Written around API Written around API Industry standards for easy integration Industry standards for easy integration Components made to be embedded Components made to be embedded Written around API Written around API Industry standards for easy integration Industry standards for easy integration Indirect Indirect Leading SI’s & OEM’s Leading SI’s & OEM’s “KXEN Inside” “KXEN Inside” Indirect Indirect Leading SI’s & OEM’s Leading SI’s & OEM’s “KXEN Inside” “KXEN Inside” Breakthrough theory allows automation Breakthrough theory allows automation R&D backed by strong scientific committee R&D backed by strong scientific committee Breakthrough theory allows automation Breakthrough theory allows automation R&D backed by strong scientific committee R&D backed by strong scientific committee Positionnement KXEN Architecture Mathematics Business model

Le Pouvoir de Comprendre Le Datamining avec KXEN c’est … Classification Régression Prévisions avec séries temporelles Analyse Multi-variable Clustering Corrélation iOLAP Modèles Prédictifs Modèles Descriptifs  Prédire l’Inconnu  Quels sont les facteurs explicatifs ? Intégrations Théorie Les composants Applications Introduction

Vitesse  Construction de modèles analytiques complexes en minutes au lieu d’heures ou jours  Utilisation plus fréquente, en temps réel pour prendre de meilleures décisions Vitesse  Construction de modèles analytiques complexes en minutes au lieu d’heures ou jours  Utilisation plus fréquente, en temps réel pour prendre de meilleures décisions Facilité d’utilisation  Possibilité de créer et déployer des modèles sans expertise technique  Préparation des données et processus d’extraction de la connaissance automatisés  Meilleure compréhension grâce à des graphiques pertinents et des indicateurs de performance Facilité d’utilisation  Possibilité de créer et déployer des modèles sans expertise technique  Préparation des données et processus d’extraction de la connaissance automatisés  Meilleure compréhension grâce à des graphiques pertinents et des indicateurs de performance Fiabilité  Obtention régulière de bons résultats en terme de qualité(KI) et de fiabilité (KR)  La compréhension des données permet à l’utilisateur de décider de l’utilisation du modèle en tout confiance Fiabilité  Obtention régulière de bons résultats en terme de qualité(KI) et de fiabilité (KR)  La compréhension des données permet à l’utilisateur de décider de l’utilisation du modèle en tout confiance Intégration  Architecture standard de composants, DCOM, CORBA, PMML, XML  API documentées pour une intégration facile dans les applications et process existants Intégration  Architecture standard de composants, DCOM, CORBA, PMML, XML  API documentées pour une intégration facile dans les applications et process existants Caractéristiques KXEN Intégrations Théorie Les composants Applications Introduction

Sommaire KXEN positionnement Les domaines d’application Intégration des composants La théorie de Vapnik Détails des composants

Des données à la connaissance Base de données Modèle prédictif : F(X1,.. Xn) Facteurs explicatifs de l’achat Leviers d’actions Application du modèle sur de nouveaux clients et calcul des scores d’appétences Décomposition des clients en groupes homogènes vis à vis de l’ensemble des X i

C ++ KXEN Analytic Framework 2.1 Consistent Coder K2C Consistent Coder K2C C++ API CORBA API DCOM API VB/ IOLAP JavaShell KPI Analysis Charts C XML - PMML - HTML - Other Reports Models CSVTXT… RDBMS XLSSAS… ODBC Direct Custom Data Access C API Data Manipulation Data Preparation Presentation/ Deployment Data Access Data Modeling Robust Regression K2R Robust Regression K2R Support Vector Machine KSVM Support Vector Machine KSVM Smart Segmenter K2S Smart Segmenter K2S Sequence Coder KSC Sequence Coder KSC Event Log KEL Event Log KEL Intégrations Théorie Les composants Applications Introduction