Outils mathématiques pour le datamining http://www.elseware.fr/univevry
Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation
Probabilités Définition Théorème de Bayes Distributions Moments d’une distribution Distributions gaussiennes Estimation
Performances Mesures Généralisation Erreur Entropie Lift, Techniques de validation Notion de VC-dimension
Géométrie
Distance : définition générale Une distance peut être définie sur un ensemble quelconque. Par définition, elle doit vérifier les propriétés d(a,b)=d(b,a) d(a,b)≥0 d(a,b)=0a=b d(a,c)≤d(a,b)+d(b,c) Une “dissimilarité” vérifie seulement les propriétés d(a,a)=0
Distance euclidienne
Autres distances réelles Distance euclidienne généralisée (M est une matrice symétrique définie positive) Distance de Mahalanobis
Distances sur données discrètes Données binaires Distance de Hamming : nombre de bits différents entre X et Y Dissimilarités basées sur la combinaison du nombre de présence et d’absence de critères communs Données discrètes Codage disjonctif complet Permet de se ramener au cas binaire
Dissimilarités entre parties Saut minimum : la plus petite distance entre éléments des deux parties Diamètre : la plus grande distance entre éléments des deux parties
Inertie : présentation intuitive Notion d’inertie On démontre facilement
Formalisation Matrice des données Matrice des poids Centre de gravité Matrice de variance-covariance
Calcul de l’inertie Matrice de distance Calcul de l’inertie
Matrice de variance-covariance Matrice des données Matrice des poids Centre de gravité Matrice de variance-covariance
Minimisation Fonction à une ou plusieurs variables Définitions : min f(x), x U IRn Définitions : x* est un minimum local de f s’il existe a > 0 tel que f(x*) ≤ f(x) pour tout x tel que ||x-x*||<a x* est un minimum local strict de f s’il existe a > 0 tel que f(x*) < f(x) pour tout x tel que ||x-x*||<a x* est un minimum global de f si f(x*) ≤ f(x) pour tout x U
Condition nécessaire d’optimalité Le gradient de f, f est le vecteur des dérivées partielles de f Si x* est un minimum local de f, alors: f(x*) = 0 2f(x*) est semi-définie positive (dt.2f(x*).d ³ 0 pour tout d IRn)
f(x+) = f(x) + f(x)T + o(||||) f(xa) = f(x) – a||f(x)||2 + o(a) Descente de gradient Soit x IRn tel que f(x) 0. Considérons la demi-droite xa = x – a f(x) Théorème de Taylor (1er ordre) f(x+) = f(x) + f(x)T + o(||||) Avec = xa-x f(xa) = f(x) – a||f(x)||2 + o(a)
Descente de gradient (suite) f(xa) = f(x) – a||f(x)||2 + o(a) Si a est petit, on peut négliger o(a) Donc, pour a positif mais petit, f(xa) < f(x) Théorème : Il existe d tel que, pour tout a ]0,d[ f(x- af(x)) < f(x)
Descente de gradient (illustration)
Cas des fonctions convexes f(.a+(1- ).b)≤ f(a)+(1- ).f(b) f possède un minimum global et la descente de gradient converge. Cas de la forme quadratique : f(x)=xt.M.x M est une matrice symétrique Si M est définie positive, f(x) est convexe Exemple : la régression linéaire
Régression linéaire
Régression linéaire N observations (ui,vi) Hypothèse v=a.u+b On recherche a et b tels que soit minimal La fonction en (a,b) est convexe
Probabilités
Epreuve et événement Une expérience est dite aléatoire si ses résultats ne sont pas prévisibles avec certitude en fonction des conditions initiales. On appelle épreuve la réalisation d'une expérience aléatoire et dont le résultat est élément d’un ensemble donné appelé univers. On appelle événement la propriété du système qui une fois l'épreuve effectuée est ou n'est pas réalisée. Exemple : Expérience = Lancer deux dés Epreuve = Résultat (3,4) Evénement = Obtenir un double
Tribu E est une épreuve d’univers Une tribu de est un ensemble de parties de : ZP() telle que Z Z L’union d’un ensemble fini ou dénombrable d’éléments de Z appartient à Z. AiZ AiZ
Probabilité Alors Si P est une application de Z dans R telle que P(A)[0,1] P()=1 Ai Aj = (pour tout (i,j)) P(Ai)=P(Ai) Alors P est une probabilité (,Z,P) est un espace probabilisé
Probabilité conditionnelle - 1
Probabilité conditionnelle - 2 Probabilité de A conditionnellement à B (si P(B)>0) P(A|B)=P(AB)/P(B) P|B est une probabilité Exemples : P(Somme 2 Dés 3 ) = 3/36 (1-1, 2-1, 1-2) P(Somme 2 Dés 3 | 1° Dé = 1) = 2/6 = (2/36)/(1/6) P(Somme 2 Dés 3 | Premier Dé = 6) = 0
Probabilité marginale B = Bi est une ensemble complet d’événements, c’est-à-dire tel que BiBj = Bi = On définit la probabilité marginale par rapport à B comme PB(A)=P(A Bi) PB est une probabilité
Théorème de Bayes A = Ai est une ensemble complet d’événements, c’est-à-dire tel que AiAj = Ai = Alors (th. de Bayes) P(B)=P(B| Ai).P(Ai)
Indépendance A, B et C sont des événements A et B sont indépendants ssi : P(AB) = P(A).P(B) P(A|B)=P(A) A et B sont indépendants conditionnellement à C ssi : P(AB|C) = P(A|C).P(B|C)
Variables aléatoires E est une épreuve et (,Z,P) est l’espace probabilisé associé : Une variable aléatoire X est une application de dans R. Un vecteur aléatoire est un p-uplet de variables aléatoires (X1, X2, …, Xp) , i.e. une application de dans Rp.
Exemple = {(1,1) ; (1,2) ; … ; (6,6)} S() Lancer de deux dés « parfaits » = {(1,1) ; (1,2) ; … ; (6,6)} P() = 1/36 Somme des points marqués par deux dés S. S() E={2,3,…,12}
Types de variables aléatoires Une variable aléatoire X liée à E est : Discrète lorsque l’ensemble X() de ses valeurs possibles est fini ou dénombrable. Finie si X() est fini Réelle si pour tout réel x, X-1(]-,x])Z et P(x)=0 Mixte si pour tout réel x, X-1(]-,x])Z Exemple : Somme des valeurs de deux dés Discrète Finie Mixte Rendement d’un actif : continue
Loi d’une variable aléatoire discrète E est une épreuve et (,Z,P) est l’espace probabilisé associé. X est une variable aléatoire discrète associée à E. La loi de X est définie par : L’ensemble X()={xi}de ses valeurs possibles La probabilité de chaque événement (X=xi) Cette définition se généralise à un vecteur aléatoire
Indépendance Deux variables aléatoires discrètes X et Y sont indépendantes ssi : Pour tout couple (xi, yj), les deux ensembles (X=xi) et (Y=yj) sont indépendants. Elles sont indépendantes conditionnellement à Z ssi : Pour tout triplet (xi, yj, zk), les deux ensembles (X=xi) et (Y=yj) sont indépendants conditionnellement à (Z=zk)
Fonction de répartition E est une épreuve et (,Z,P) est l’espace probabilisé associé. X est une variable aléatoire continue associée à E. La fonction de répartition de X est la fonction de R dans R telle que F(x) = P(Xx)
Densité de probabilité Si elle existe, c’est la fonction f telle que F(x)=P(X x)=]-,x]f(x)dx Le vecteur aléatoire (X1, X2, …, Xm) admet une densité s’il existe telle que P((X xi))=]-,x1] …]-,xm] (x1, …, xm)dx1…. dxm
Indépendance de deux v.a. Deux variables aléatoires continues X et Y sont indépendantes si et seulement si : Pour tout couple xi et yj, P(X<xiY<yj)= P(X<xi).P(Y<yj)
Fonction de répartition
Distributions gaussiennes
Distribution gaussienne monovariée Densité de probabilité
Théorème Central Limite Si (X1, X2, …, Xn) sont des VA continues de même distribution dont les deux premiers moments E(Xi) et Var(Xi) sont définis Alors (SXi)/n tend vers une distribution normale de même moments quand n
Distribution gaussienne multivariée Densité de probabilité
Stabilité des gaussiennes Marginalisation Multiplication Addition Conditionnement Chaînage
Estimation
Estimation Objectif Hypothèse A partir de données d'échantillons représentatifs, on cherche à obtenir des résultats sur la population dans laquelle les échantillons ont été prélevés. Plus exactement : donner des valeurs aux paramètres d’une distribution à partir d’un échantillon d’observations Hypothèse Chaque observation est une VA, et toutes ont la même distribution (celle qu’on cherche) Toutes ces VA sont indépendantes
Estimation statistique Exemple simple : moyenne Si les VA suivent toutes la même loi, on peut connaître la distribution de la moyenne empirique. Celle-ci converge vers une loi normale (TCL) Exemple plus complexe : test d’indépendance Exemple encore plus complexe : modèle de dépendance
Estimation statistique Observations Loi Mais : La transposition nécessite une hypothèse a priori sur les distributions Toutes les conclusions tirées suivent aussi une distribution, et ont une “variance”
Estimation bayésienne Tous les paramètres suivent des lois de probabilités a priori Ces lois sont “déformées” par les observations, par la propriété (th. Bayes): P(X|Y)=k.P(Y|X).P(X) APosteriori = Vraisemblance.APriori
Comparaison Comment estimer la probabilité ? Statistique Bayésienne
Performance des modèles
Mesures d’erreur Modèles quantitatifs Modèles qualitatifs Moindres carrés = (y-d)2 Variance expliquée Fonction de coût Modèles qualitatifs Matrice de confusion Fonction de coût/utilité Entropie
Matrice de confusion
Courbe de lift
Problèmes de la généralisation Quelle est le meilleur modèle parmi les 3 ci-dessous ? Comment allons-nous prédire d’autres points issus de la même distribution ?
Méthode de l’ensemble de test Principe Mettre de côté 30% des données Construire le modèle sur 70% L’évaluer sur les 30% mis de côté Problèmes Certaines données ne sont pas utilisées Forte variance
Méthode du point isolé Pour tous les exemples disponibles Le mettre de côté Construire le modèle avec les autres exemples Calculer l’erreur sur l’exemple mis de côté Evaluer l’erreur moyenne
Méthode théorique Minimisation du risque structurel (Vapnik) On introduit la complexité du modèle Intuitivement, un réseau neuronal est plus complexe qu’un modèle linéaire Vapnik mesure effectivement la complexité d’une famille de modèles (pulvérisation d’un ensemble de points)
Principe de la VC-dimension Nombre maximum de points “pulvérisables” par une classe de fonction donnée x2 x1 x3
Méthode théorique Pas d’hypothèse de distribution Le nombre d’exemples nécessaire pour apprendre une classe de façon stable dépend de la VC dimension de la famille de modèles (linéaire, RN, etc.) Les bornes sont peu utilisables dans la pratique
Méthode théorique La performance augmente quand la complexité augmente Mais Le risque augmente quand la complexité augmente Erreur théorique Risque structurel Erreur d’apprentissage Complexité du modèle