Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parMaxime Carignan Modifié depuis plus de 9 années
1
Introduction KXEN Analytic Framework
2
Sommaire Le data mining dans l’entreprise KXEN & Vapnik : la nouvelle donne Démonstration
3
Le constat du Gartner Volume Time Source: Gartner The Business Intelligence “Gap” Available Information Numbers of critical decisions Business Intelligence Aptitude Ex : Une grande entreprise française en 2001 - a réalisé 900 campagnes marketing - a fait un modèle de ciblage pour 20 campagnes seulement
4
Les opportunités du marché n’attendent pas Les opportunités du marché n’attendent pas La transformation des données en connaissance prend des semaines. Les ressources des experts sont rares – pouvez-vous attendre? => Vous ne pouvez appliquer les techniques de modélisation avancées qu’aux projets stratégiques. Les opportunités du marché n’attendent pas Les opportunités du marché n’attendent pas La transformation des données en connaissance prend des semaines. Les ressources des experts sont rares – pouvez-vous attendre? => Vous ne pouvez appliquer les techniques de modélisation avancées qu’aux projets stratégiques. Le facteur Gourou Les outils statistiques actuels demandent une forte expertise pour être bien utilisés Les Experts en Statistiques sont chers et très occupés Le facteur Gourou Les outils statistiques actuels demandent une forte expertise pour être bien utilisés Les Experts en Statistiques sont chers et très occupés Une industrialisation complexe Une industrialisation complexe Informatique très sollicitée : duplication des données, mise en œuvre des modèles Multiplicité des acteurs : analystes, utilisateurs métier, informaticiens Une industrialisation complexe Une industrialisation complexe Informatique très sollicitée : duplication des données, mise en œuvre des modèles Multiplicité des acteurs : analystes, utilisateurs métier, informaticiens Qu’est ce qui empêchent les gens aujourd’hui d’analyser leurs données? => Un coût par modèle élevé
5
Une nécessaire expertise Méthodologie en statistiques classiques Prepare Data Build Model Test Model Analyse des corrélations entre variables Choix d’un algorithme Codage des variables après analyse des distributions Choix et compréhension des tests Méthode empirique de vérification de la robustesse
6
Challenge de la modélisation prédictive (1/2) Construction du modèle sur des individus avec la variable cible connue Application du modèle sur des individus avec la variable cible inconnue Risque empirique Risque attendu
7
x Modèle très robusteModèle très précis x Tradeoff fit-robustesse Y F 1 (X ) F 2 (X) F 3 (X) Y Y X X X Challenge de la modélisation prédictive (2/2) Challenge : construire à partir d’un échantillon un modèle qui soit aussi bon sur l’échantillon que sur de nouvelles données.
8
Sommaire Le data mining dans l’entreprise KXEN & Vapnik : la nouvelle donne Démonstration
9
Apport de Vladimir Vapnik Vladimir Vapnik énonce un cadre théorique rigoureux dans lequel fit et robustesse d’un modèle sont clairement définis. Il ouvre la voie à une nouvelle branche formelle de la statistique : la théorie statistique de l’apprentissage. (excelente synthèse = livre de Friedmann, Springer Series in statistics, 2001 : « Elements of Statistical Learning ») Vladimir Vapnik : mathématicien russe arrivé aux US en 92, aux Bell (aujourd’hui AT&T) Labs pendant 10 ans puis depuis 2001 chez NEC. Premiers papiers en russe dès 1972. US Medal en sciences en 1992. Plusieurs livres chez Springer Verlag et J. Wiley dès 1982 Enseigné par Gilbert Saporta au CNAM, ENSAE, ISUP depuis 2001 Information : 14 - 15 nov 2002 : conférence organisée par Saporta au CNAM avec Vapnik, Friedmann, Schoelkopf
10
Avec ou sans le SRM de Vapnik Faible besoin d’expertise en statistique; automatisation possible Fort besoin d’expertise en statistique et de temps Les outils cherchent le modèle apportant le meilleur compromis entre précision et robustesse Les outils cherchent le modèle le plus précis Le nombre de variables peut être élevé car la généralisation est contrôlée (h) Problème de robustesse des modèles utilisant un grand nombre de variables Étude des familles de modèles par l’étude de leur VC dimension (h) Hypothèse sur les distributions statistiques des données Avec la SRMStatistiques appliquées
11
Sommaire Le data mining dans l’entreprise KXEN & Vapnik : la nouvelle donne Démonstration
12
Components made to be embedded Components made to be embedded Written around API Written around API Industry standards for easy integration Industry standards for easy integration Components made to be embedded Components made to be embedded Written around API Written around API Industry standards for easy integration Industry standards for easy integration Indirect Indirect Leading SI’s & OEM’s Leading SI’s & OEM’s “KXEN Inside” “KXEN Inside” Indirect Indirect Leading SI’s & OEM’s Leading SI’s & OEM’s “KXEN Inside” “KXEN Inside” Breakthrough theory allows automation Breakthrough theory allows automation R&D backed by strong scientific committee R&D backed by strong scientific committee Breakthrough theory allows automation Breakthrough theory allows automation R&D backed by strong scientific committee R&D backed by strong scientific committee Positionnement KXEN Architecture Mathematics Business model
13
Le Pouvoir de Comprendre Le Datamining avec KXEN c’est … Classification Régression Prévisions avec séries temporelles Analyse Multi-variable Clustering Corrélation iOLAP Modèles Prédictifs Modèles Descriptifs Prédire l’Inconnu Quels sont les facteurs explicatifs ? Intégrations Théorie Les composants Applications Introduction
14
Vitesse Construction de modèles analytiques complexes en minutes au lieu d’heures ou jours Utilisation plus fréquente, en temps réel pour prendre de meilleures décisions Vitesse Construction de modèles analytiques complexes en minutes au lieu d’heures ou jours Utilisation plus fréquente, en temps réel pour prendre de meilleures décisions Facilité d’utilisation Possibilité de créer et déployer des modèles sans expertise technique Préparation des données et processus d’extraction de la connaissance automatisés Meilleure compréhension grâce à des graphiques pertinents et des indicateurs de performance Facilité d’utilisation Possibilité de créer et déployer des modèles sans expertise technique Préparation des données et processus d’extraction de la connaissance automatisés Meilleure compréhension grâce à des graphiques pertinents et des indicateurs de performance Fiabilité Obtention régulière de bons résultats en terme de qualité(KI) et de fiabilité (KR) La compréhension des données permet à l’utilisateur de décider de l’utilisation du modèle en tout confiance Fiabilité Obtention régulière de bons résultats en terme de qualité(KI) et de fiabilité (KR) La compréhension des données permet à l’utilisateur de décider de l’utilisation du modèle en tout confiance Intégration Architecture standard de composants, DCOM, CORBA, PMML, XML API documentées pour une intégration facile dans les applications et process existants Intégration Architecture standard de composants, DCOM, CORBA, PMML, XML API documentées pour une intégration facile dans les applications et process existants Caractéristiques KXEN Intégrations Théorie Les composants Applications Introduction
15
Sommaire KXEN positionnement Les domaines d’application Intégration des composants La théorie de Vapnik Détails des composants
16
Des données à la connaissance Base de données Modèle prédictif : F(X1,.. Xn) Facteurs explicatifs de l’achat Leviers d’actions Application du modèle sur de nouveaux clients et calcul des scores d’appétences Décomposition des clients en groupes homogènes vis à vis de l’ensemble des X i
17
C ++ KXEN Analytic Framework 2.1 Consistent Coder K2C Consistent Coder K2C C++ API CORBA API DCOM API VB/ IOLAP JavaShell KPI Analysis Charts C XML - PMML - HTML - Other Reports Models CSVTXT… RDBMS XLSSAS… ODBC Direct Custom Data Access C API Data Manipulation Data Preparation Presentation/ Deployment Data Access Data Modeling Robust Regression K2R Robust Regression K2R Support Vector Machine KSVM Support Vector Machine KSVM Smart Segmenter K2S Smart Segmenter K2S Sequence Coder KSC Sequence Coder KSC Event Log KEL Event Log KEL Intégrations Théorie Les composants Applications Introduction
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.