Outils mathématiques pour le datamining

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

CHAPITRE 8 Géométrie analytique
Les matrices.
Cours d‘Analyse de Données
Algorithmes et structures de données avancés
Regroupement (clustering)
Cours 5-b Problèmes spatio-temporels d’ordre 1 en temps
Champs de Markov en Vision par Ordinateur
VII) Formalisme Quantique
Regroupement (clustering)
Dpt. Télécommunications, Services & Usages Théorie de l information H. Benoit-Cattin Introduction 2. Sources discrètes & Entropie 3. Canaux discrets.
La spécialité mathématique en TS
Maria-João Rendas CNRS – I3S Novembre 2006
Intégrales 1 - Intégrale simple 2 - Deux directions de généralisation
Bouyekhf Rachid-Lyuboumir Gruitch Laboratoire SeT UTBM
Programmes du cycle terminal
Optimisation non linéaire sans contraintes
RECONNAISSANCE DE FORMES
1.2 COMPOSANTES DES VECTEURS
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
DEA Perception et Traitement de l’Information
La segmentation
Rappel... Solution itérative de systèmes linéaires (suite et fin).
DEA Perception et Traitement de l’Information
Signaux aléatoires.
TECHNIQUES QUANTITATIVES APPLIQUEES A LA FINANCE
Espaces vectoriels Montage préparé par : S André Ross
Mais en mathématiques, qu'est ce qu'une ligne de niveau?
1.1 LES VECTEURS GÉOMÉTRIQUES
Algorithmes d ’approximation
Théorie… Inférence statistique: étude du comportement d’une population ou d’un caractère X des membres d’une population à partir d’un échantillon aléatoire.
1 Séminaire LOVe du 29/03/07 Combinaison d'objets (fusion centralisée) T3.2 Combinaison de pistages (fusion décentralisée) T3.3.
Régression linéaire (STT-2400)
Recherche dun même objet / scène Approches basées sur des descripteurs locaux Approches basées sur des descripteurs globaux.
Introduction: critères de comparaison et choix rationnel
Filtrage de Kalman et aperçu probabiliste
Régression linéaire (STT-2400)
Cours du 25 octobre Mardi le 24 octobre
Introduction à la reconnaissance:
Analyses typologiques
Cours de Dynamique Partie 1 Géométrie des masses b Inerties.
La spécialité mathématique en TS
Electrostatique- Chap.2 CHAPITRE 2 CHAMP ELECTROSTATIQUE Objectif :
Evaluation des incertitudes dans le recalage non rigide de formes Application à la segmentation avec ensemble apprentissage Maxime TARON Nikos PARAGIOS.
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
STATISTIQUES – PROBABILITÉS
Chapitre 3: Variables aléatoires réelles continues
Les fonctions de référence
Probabilités et Statistiques
Probabilités et Statistiques Année 2009/2010
ASI 3 Méthodes numériques pour l’ingénieur
Rappels Variables nominales :
Méthode des moindres carrés (1)
20/06/2015propagation de signatures lexicales dans le graphe du Web 1 Propagation de signatures lexicales dans le graphe du Web M. Bouklit M. Lafourcade.
Rappels sur les fonctions et les suites aléatoires
Evaluation des performances des tests diagnostiques en absence de Gold Standard Christophe Combescure Laboratoire de Biostatistique, IURC.
ANNEE UNIVERSITAIRE :2010/2011
Analyse de données Cours 3 Analyse en composantes principales (ACP)
Probabilités et Statistiques
Structure de groupe Def: un groupe est un ensemble (G,*) où
Chapitre 4 Variables aléatoires discrètes
Éléments cinétiques des système matériels
Rappel de statistiques
Symétries et conservations
1.1 LES VECTEURS GÉOMÉTRIQUES
Compression d’images par DCT et par Ondelettes.
Classification-Segmentation
Cours 12 CROISSANCE D’UNE FONCTION. Aujourd’hui, nous allons voir ✓ Croissance et décroissance ✓ Maximum et minimum relatif.
Transcription de la présentation:

Outils mathématiques pour le datamining http://www.elseware.fr/univevry

Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation

Probabilités Définition Théorème de Bayes Distributions Moments d’une distribution Distributions gaussiennes Estimation

Performances Mesures Généralisation Erreur Entropie Lift, Techniques de validation Notion de VC-dimension

Géométrie

Distance : définition générale Une distance peut être définie sur un ensemble quelconque. Par définition, elle doit vérifier les propriétés d(a,b)=d(b,a) d(a,b)≥0 d(a,b)=0a=b d(a,c)≤d(a,b)+d(b,c) Une “dissimilarité” vérifie seulement les propriétés d(a,a)=0

Distance euclidienne

Autres distances réelles Distance euclidienne généralisée (M est une matrice symétrique définie positive) Distance de Mahalanobis

Distances sur données discrètes Données binaires Distance de Hamming : nombre de bits différents entre X et Y Dissimilarités basées sur la combinaison du nombre de présence et d’absence de critères communs Données discrètes Codage disjonctif complet Permet de se ramener au cas binaire

Dissimilarités entre parties Saut minimum : la plus petite distance entre éléments des deux parties Diamètre : la plus grande distance entre éléments des deux parties

Inertie : présentation intuitive Notion d’inertie On démontre facilement

Formalisation Matrice des données Matrice des poids Centre de gravité Matrice de variance-covariance

Calcul de l’inertie Matrice de distance Calcul de l’inertie

Matrice de variance-covariance Matrice des données Matrice des poids Centre de gravité Matrice de variance-covariance

Minimisation Fonction à une ou plusieurs variables Définitions : min f(x), x  U IRn Définitions : x* est un minimum local de f s’il existe a > 0 tel que f(x*) ≤ f(x) pour tout x tel que ||x-x*||<a x* est un minimum local strict de f s’il existe a > 0 tel que f(x*) < f(x) pour tout x tel que ||x-x*||<a x* est un minimum global de f si f(x*) ≤ f(x) pour tout x  U

Condition nécessaire d’optimalité Le gradient de f, f est le vecteur des dérivées partielles de f Si x* est un minimum local de f, alors: f(x*) = 0 2f(x*) est semi-définie positive (dt.2f(x*).d ³ 0 pour tout d  IRn)

f(x+) = f(x) + f(x)T  + o(||||) f(xa) = f(x) – a||f(x)||2 + o(a) Descente de gradient Soit x  IRn tel que f(x)  0. Considérons la demi-droite xa = x – a f(x) Théorème de Taylor (1er ordre) f(x+) = f(x) + f(x)T  + o(||||) Avec  = xa-x f(xa) = f(x) – a||f(x)||2 + o(a)

Descente de gradient (suite) f(xa) = f(x) – a||f(x)||2 + o(a) Si a est petit, on peut négliger o(a) Donc, pour a positif mais petit, f(xa) < f(x) Théorème : Il existe d tel que, pour tout a  ]0,d[ f(x- af(x)) < f(x)

Descente de gradient (illustration)

Cas des fonctions convexes f(.a+(1- ).b)≤  f(a)+(1- ).f(b) f possède un minimum global et la descente de gradient converge. Cas de la forme quadratique : f(x)=xt.M.x M est une matrice symétrique Si M est définie positive, f(x) est convexe Exemple : la régression linéaire

Régression linéaire

Régression linéaire N observations (ui,vi) Hypothèse v=a.u+b On recherche a et b tels que soit minimal La fonction en (a,b) est convexe

Probabilités

Epreuve et événement Une expérience est dite aléatoire si ses résultats ne sont pas prévisibles avec certitude en fonction des conditions initiales. On appelle épreuve la réalisation d'une expérience aléatoire et dont le résultat est élément d’un ensemble donné appelé univers. On appelle événement la propriété du système qui une fois l'épreuve effectuée est ou n'est pas réalisée. Exemple : Expérience = Lancer deux dés Epreuve = Résultat (3,4) Evénement = Obtenir un double

Tribu E est une épreuve d’univers  Une tribu de  est un ensemble de parties de  : ZP() telle que Z Z L’union d’un ensemble fini ou dénombrable d’éléments de Z appartient à Z. AiZ  AiZ

Probabilité Alors Si P est une application de Z dans R telle que P(A)[0,1] P()=1 Ai Aj =  (pour tout (i,j)) P(Ai)=P(Ai) Alors P est une probabilité (,Z,P) est un espace probabilisé

Probabilité conditionnelle - 1 

Probabilité conditionnelle - 2 Probabilité de A conditionnellement à B (si P(B)>0) P(A|B)=P(AB)/P(B) P|B est une probabilité Exemples : P(Somme 2 Dés  3 ) = 3/36 (1-1, 2-1, 1-2) P(Somme 2 Dés  3 | 1° Dé = 1) = 2/6 = (2/36)/(1/6) P(Somme 2 Dés  3 | Premier Dé = 6) = 0

Probabilité marginale B = Bi est une ensemble complet d’événements, c’est-à-dire tel que BiBj =  Bi = On définit la probabilité marginale par rapport à B comme PB(A)=P(A Bi) PB est une probabilité

Théorème de Bayes A = Ai est une ensemble complet d’événements, c’est-à-dire tel que AiAj =  Ai = Alors (th. de Bayes) P(B)=P(B| Ai).P(Ai)

Indépendance A, B et C sont des événements A et B sont indépendants ssi : P(AB) = P(A).P(B) P(A|B)=P(A) A et B sont indépendants conditionnellement à C ssi : P(AB|C) = P(A|C).P(B|C)

Variables aléatoires E est une épreuve et (,Z,P) est l’espace probabilisé associé : Une variable aléatoire X est une application de  dans R. Un vecteur aléatoire est un p-uplet de variables aléatoires (X1, X2, …, Xp) , i.e. une application de  dans Rp.

Exemple = {(1,1) ; (1,2) ; … ; (6,6)} S()   Lancer de deux dés « parfaits » = {(1,1) ; (1,2) ; … ; (6,6)} P() = 1/36 Somme des points marqués par deux dés S. S()   E={2,3,…,12}

Types de variables aléatoires Une variable aléatoire X liée à E est : Discrète lorsque l’ensemble X() de ses valeurs possibles est fini ou dénombrable. Finie si X() est fini Réelle si pour tout réel x, X-1(]-,x])Z et P(x)=0 Mixte si pour tout réel x, X-1(]-,x])Z Exemple : Somme des valeurs de deux dés Discrète Finie Mixte Rendement d’un actif : continue

Loi d’une variable aléatoire discrète E est une épreuve et (,Z,P) est l’espace probabilisé associé. X est une variable aléatoire discrète associée à E. La loi de X est définie par : L’ensemble X()={xi}de ses valeurs possibles La probabilité de chaque événement (X=xi) Cette définition se généralise à un vecteur aléatoire

Indépendance Deux variables aléatoires discrètes X et Y sont indépendantes ssi : Pour tout couple (xi, yj), les deux ensembles (X=xi) et (Y=yj) sont indépendants. Elles sont indépendantes conditionnellement à Z ssi : Pour tout triplet (xi, yj, zk), les deux ensembles (X=xi) et (Y=yj) sont indépendants conditionnellement à (Z=zk)

Fonction de répartition E est une épreuve et (,Z,P) est l’espace probabilisé associé. X est une variable aléatoire continue associée à E. La fonction de répartition de X est la fonction de R dans R telle que F(x) = P(Xx)

Densité de probabilité Si elle existe, c’est la fonction f telle que F(x)=P(X x)=]-,x]f(x)dx Le vecteur aléatoire (X1, X2, …, Xm) admet une densité s’il existe  telle que P((X xi))=]-,x1] …]-,xm] (x1, …, xm)dx1…. dxm

Indépendance de deux v.a. Deux variables aléatoires continues X et Y sont indépendantes si et seulement si : Pour tout couple xi et yj, P(X<xiY<yj)= P(X<xi).P(Y<yj)

Fonction de répartition

Distributions gaussiennes

Distribution gaussienne monovariée Densité de probabilité

Théorème Central Limite Si (X1, X2, …, Xn) sont des VA continues de même distribution dont les deux premiers moments E(Xi) et Var(Xi) sont définis Alors (SXi)/n tend vers une distribution normale de même moments quand n

Distribution gaussienne multivariée Densité de probabilité

Stabilité des gaussiennes Marginalisation Multiplication Addition Conditionnement Chaînage

Estimation

Estimation Objectif Hypothèse A partir de données d'échantillons représentatifs, on cherche à obtenir des résultats sur la population dans laquelle les échantillons ont été prélevés. Plus exactement : donner des valeurs aux paramètres d’une distribution à partir d’un échantillon d’observations Hypothèse Chaque observation est une VA, et toutes ont la même distribution (celle qu’on cherche) Toutes ces VA sont indépendantes

Estimation statistique Exemple simple : moyenne Si les VA suivent toutes la même loi, on peut connaître la distribution de la moyenne empirique. Celle-ci converge vers une loi normale (TCL) Exemple plus complexe : test d’indépendance Exemple encore plus complexe : modèle de dépendance

Estimation statistique Observations Loi Mais : La transposition nécessite une hypothèse a priori sur les distributions Toutes les conclusions tirées suivent aussi une distribution, et ont une “variance”

Estimation bayésienne Tous les paramètres suivent des lois de probabilités a priori Ces lois sont “déformées” par les observations, par la propriété (th. Bayes): P(X|Y)=k.P(Y|X).P(X) APosteriori = Vraisemblance.APriori

Comparaison Comment estimer la probabilité  ? Statistique Bayésienne

Performance des modèles

Mesures d’erreur Modèles quantitatifs Modèles qualitatifs Moindres carrés = (y-d)2 Variance expliquée Fonction de coût Modèles qualitatifs Matrice de confusion Fonction de coût/utilité Entropie

Matrice de confusion

Courbe de lift

Problèmes de la généralisation Quelle est le meilleur modèle parmi les 3 ci-dessous ? Comment allons-nous prédire d’autres points issus de la même distribution ?

Méthode de l’ensemble de test Principe Mettre de côté 30% des données Construire le modèle sur 70% L’évaluer sur les 30% mis de côté Problèmes Certaines données ne sont pas utilisées Forte variance

Méthode du point isolé Pour tous les exemples disponibles Le mettre de côté Construire le modèle avec les autres exemples Calculer l’erreur sur l’exemple mis de côté Evaluer l’erreur moyenne

Méthode théorique Minimisation du risque structurel (Vapnik) On introduit la complexité du modèle Intuitivement, un réseau neuronal est plus complexe qu’un modèle linéaire Vapnik mesure effectivement la complexité d’une famille de modèles (pulvérisation d’un ensemble de points)

Principe de la VC-dimension Nombre maximum de points “pulvérisables” par une classe de fonction donnée x2 x1 x3

Méthode théorique Pas d’hypothèse de distribution Le nombre d’exemples nécessaire pour apprendre une classe de façon stable dépend de la VC dimension de la famille de modèles (linéaire, RN, etc.) Les bornes sont peu utilisables dans la pratique

Méthode théorique La performance augmente quand la complexité augmente Mais Le risque augmente quand la complexité augmente Erreur théorique Risque structurel Erreur d’apprentissage Complexité du modèle