Télécharger la présentation
1
Outils mathématiques pour le datamining
2
Géométrie Distance Distance entre parties
Matrice de variance/covariance Inertie Minimisation
3
Probabilités Définition Théorème de Bayes Distributions
Moments d’une distribution Distributions gaussiennes Estimation
4
Performances Mesures Généralisation Erreur Entropie Lift,
Techniques de validation Notion de VC-dimension
5
Géométrie
6
Distance : définition générale
Une distance peut être définie sur un ensemble quelconque. Par définition, elle doit vérifier les propriétés d(a,b)=d(b,a) d(a,b)≥0 d(a,b)=0a=b d(a,c)≤d(a,b)+d(b,c) Une “dissimilarité” vérifie seulement les propriétés d(a,a)=0
7
Distance euclidienne
8
Autres distances réelles
Distance euclidienne généralisée (M est une matrice symétrique définie positive) Distance de Mahalanobis
9
Distances sur données discrètes
Données binaires Distance de Hamming : nombre de bits différents entre X et Y Dissimilarités basées sur la combinaison du nombre de présence et d’absence de critères communs Données discrètes Codage disjonctif complet Permet de se ramener au cas binaire
10
Dissimilarités entre parties
Saut minimum : la plus petite distance entre éléments des deux parties Diamètre : la plus grande distance entre éléments des deux parties
11
Inertie : présentation intuitive
Notion d’inertie On démontre facilement
12
Formalisation Matrice des données Matrice des poids Centre de gravité
Matrice de variance-covariance
13
Calcul de l’inertie Matrice de distance Calcul de l’inertie
14
Matrice de variance-covariance
Matrice des données Matrice des poids Centre de gravité Matrice de variance-covariance
15
Minimisation Fonction à une ou plusieurs variables Définitions :
min f(x), x U IRn Définitions : x* est un minimum local de f s’il existe a > 0 tel que f(x*) ≤ f(x) pour tout x tel que ||x-x*||<a x* est un minimum local strict de f s’il existe a > 0 tel que f(x*) < f(x) pour tout x tel que ||x-x*||<a x* est un minimum global de f si f(x*) ≤ f(x) pour tout x U
16
Condition nécessaire d’optimalité
Le gradient de f, f est le vecteur des dérivées partielles de f Si x* est un minimum local de f, alors: f(x*) = 0 2f(x*) est semi-définie positive (dt.2f(x*).d ³ 0 pour tout d IRn)
17
f(x+) = f(x) + f(x)T + o(||||) f(xa) = f(x) – a||f(x)||2 + o(a)
Descente de gradient Soit x IRn tel que f(x) 0. Considérons la demi-droite xa = x – a f(x) Théorème de Taylor (1er ordre) f(x+) = f(x) + f(x)T + o(||||) Avec = xa-x f(xa) = f(x) – a||f(x)||2 + o(a)
18
Descente de gradient (suite)
f(xa) = f(x) – a||f(x)||2 + o(a) Si a est petit, on peut négliger o(a) Donc, pour a positif mais petit, f(xa) < f(x) Théorème : Il existe d tel que, pour tout a ]0,d[ f(x- af(x)) < f(x)
19
Descente de gradient (illustration)
20
Cas des fonctions convexes
f(.a+(1- ).b)≤ f(a)+(1- ).f(b) f possède un minimum global et la descente de gradient converge. Cas de la forme quadratique : f(x)=xt.M.x M est une matrice symétrique Si M est définie positive, f(x) est convexe Exemple : la régression linéaire
21
Régression linéaire
22
Régression linéaire N observations (ui,vi) Hypothèse v=a.u+b
On recherche a et b tels que soit minimal La fonction en (a,b) est convexe
23
Probabilités
24
Epreuve et événement Une expérience est dite aléatoire si ses résultats ne sont pas prévisibles avec certitude en fonction des conditions initiales. On appelle épreuve la réalisation d'une expérience aléatoire et dont le résultat est élément d’un ensemble donné appelé univers. On appelle événement la propriété du système qui une fois l'épreuve effectuée est ou n'est pas réalisée. Exemple : Expérience = Lancer deux dés Epreuve = Résultat (3,4) Evénement = Obtenir un double
25
Tribu E est une épreuve d’univers
Une tribu de est un ensemble de parties de : ZP() telle que Z Z L’union d’un ensemble fini ou dénombrable d’éléments de Z appartient à Z. AiZ AiZ
26
Probabilité Alors Si P est une application de Z dans R telle que
P(A)[0,1] P()=1 Ai Aj = (pour tout (i,j)) P(Ai)=P(Ai) Alors P est une probabilité (,Z,P) est un espace probabilisé
27
Probabilité conditionnelle - 1
28
Probabilité conditionnelle - 2
Probabilité de A conditionnellement à B (si P(B)>0) P(A|B)=P(AB)/P(B) P|B est une probabilité Exemples : P(Somme 2 Dés 3 ) = 3/36 (1-1, 2-1, 1-2) P(Somme 2 Dés 3 | 1° Dé = 1) = 2/6 = (2/36)/(1/6) P(Somme 2 Dés 3 | Premier Dé = 6) = 0
29
Probabilité marginale
B = Bi est une ensemble complet d’événements, c’est-à-dire tel que BiBj = Bi = On définit la probabilité marginale par rapport à B comme PB(A)=P(A Bi) PB est une probabilité
30
Théorème de Bayes A = Ai est une ensemble complet d’événements, c’est-à-dire tel que AiAj = Ai = Alors (th. de Bayes) P(B)=P(B| Ai).P(Ai)
31
Indépendance A, B et C sont des événements
A et B sont indépendants ssi : P(AB) = P(A).P(B) P(A|B)=P(A) A et B sont indépendants conditionnellement à C ssi : P(AB|C) = P(A|C).P(B|C)
32
Variables aléatoires E est une épreuve et (,Z,P) est l’espace probabilisé associé : Une variable aléatoire X est une application de dans R. Un vecteur aléatoire est un p-uplet de variables aléatoires (X1, X2, …, Xp) , i.e. une application de dans Rp.
33
Exemple = {(1,1) ; (1,2) ; … ; (6,6)} S()
Lancer de deux dés « parfaits » = {(1,1) ; (1,2) ; … ; (6,6)} P() = 1/36 Somme des points marqués par deux dés S. S() E={2,3,…,12}
34
Types de variables aléatoires
Une variable aléatoire X liée à E est : Discrète lorsque l’ensemble X() de ses valeurs possibles est fini ou dénombrable. Finie si X() est fini Réelle si pour tout réel x, X-1(]-,x])Z et P(x)=0 Mixte si pour tout réel x, X-1(]-,x])Z Exemple : Somme des valeurs de deux dés Discrète Finie Mixte Rendement d’un actif : continue
35
Loi d’une variable aléatoire discrète
E est une épreuve et (,Z,P) est l’espace probabilisé associé. X est une variable aléatoire discrète associée à E. La loi de X est définie par : L’ensemble X()={xi}de ses valeurs possibles La probabilité de chaque événement (X=xi) Cette définition se généralise à un vecteur aléatoire
36
Indépendance Deux variables aléatoires discrètes X et Y sont indépendantes ssi : Pour tout couple (xi, yj), les deux ensembles (X=xi) et (Y=yj) sont indépendants. Elles sont indépendantes conditionnellement à Z ssi : Pour tout triplet (xi, yj, zk), les deux ensembles (X=xi) et (Y=yj) sont indépendants conditionnellement à (Z=zk)
37
Fonction de répartition
E est une épreuve et (,Z,P) est l’espace probabilisé associé. X est une variable aléatoire continue associée à E. La fonction de répartition de X est la fonction de R dans R telle que F(x) = P(Xx)
38
Densité de probabilité
Si elle existe, c’est la fonction f telle que F(x)=P(X x)=]-,x]f(x)dx Le vecteur aléatoire (X1, X2, …, Xm) admet une densité s’il existe telle que P((X xi))=]-,x1] …]-,xm] (x1, …, xm)dx1…. dxm
39
Indépendance de deux v.a.
Deux variables aléatoires continues X et Y sont indépendantes si et seulement si : Pour tout couple xi et yj, P(X<xiY<yj)= P(X<xi).P(Y<yj)
40
Fonction de répartition
41
Distributions gaussiennes
42
Distribution gaussienne monovariée
Densité de probabilité
43
Théorème Central Limite
Si (X1, X2, …, Xn) sont des VA continues de même distribution dont les deux premiers moments E(Xi) et Var(Xi) sont définis Alors (SXi)/n tend vers une distribution normale de même moments quand n
44
Distribution gaussienne multivariée
Densité de probabilité
45
Stabilité des gaussiennes
Marginalisation Multiplication Addition Conditionnement Chaînage
46
Estimation
47
Estimation Objectif Hypothèse
A partir de données d'échantillons représentatifs, on cherche à obtenir des résultats sur la population dans laquelle les échantillons ont été prélevés. Plus exactement : donner des valeurs aux paramètres d’une distribution à partir d’un échantillon d’observations Hypothèse Chaque observation est une VA, et toutes ont la même distribution (celle qu’on cherche) Toutes ces VA sont indépendantes
48
Estimation statistique
Exemple simple : moyenne Si les VA suivent toutes la même loi, on peut connaître la distribution de la moyenne empirique. Celle-ci converge vers une loi normale (TCL) Exemple plus complexe : test d’indépendance Exemple encore plus complexe : modèle de dépendance
49
Estimation statistique
Observations Loi Mais : La transposition nécessite une hypothèse a priori sur les distributions Toutes les conclusions tirées suivent aussi une distribution, et ont une “variance”
50
Estimation bayésienne
Tous les paramètres suivent des lois de probabilités a priori Ces lois sont “déformées” par les observations, par la propriété (th. Bayes): P(X|Y)=k.P(Y|X).P(X) APosteriori = Vraisemblance.APriori
51
Comparaison Comment estimer la probabilité ? Statistique Bayésienne
52
Performance des modèles
53
Mesures d’erreur Modèles quantitatifs Modèles qualitatifs
Moindres carrés = (y-d)2 Variance expliquée Fonction de coût Modèles qualitatifs Matrice de confusion Fonction de coût/utilité Entropie
54
Matrice de confusion
55
Courbe de lift
56
Problèmes de la généralisation
Quelle est le meilleur modèle parmi les 3 ci-dessous ? Comment allons-nous prédire d’autres points issus de la même distribution ?
57
Méthode de l’ensemble de test
Principe Mettre de côté 30% des données Construire le modèle sur 70% L’évaluer sur les 30% mis de côté Problèmes Certaines données ne sont pas utilisées Forte variance
58
Méthode du point isolé Pour tous les exemples disponibles
Le mettre de côté Construire le modèle avec les autres exemples Calculer l’erreur sur l’exemple mis de côté Evaluer l’erreur moyenne
59
Méthode théorique Minimisation du risque structurel (Vapnik)
On introduit la complexité du modèle Intuitivement, un réseau neuronal est plus complexe qu’un modèle linéaire Vapnik mesure effectivement la complexité d’une famille de modèles (pulvérisation d’un ensemble de points)
60
Principe de la VC-dimension
Nombre maximum de points “pulvérisables” par une classe de fonction donnée x2 x1 x3
61
Méthode théorique Pas d’hypothèse de distribution
Le nombre d’exemples nécessaire pour apprendre une classe de façon stable dépend de la VC dimension de la famille de modèles (linéaire, RN, etc.) Les bornes sont peu utilisables dans la pratique
62
Méthode théorique La performance augmente quand la complexité augmente
Mais Le risque augmente quand la complexité augmente Erreur théorique Risque structurel Erreur d’apprentissage Complexité du modèle
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.