La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Outils mathématiques pour le datamining

Présentations similaires


Présentation au sujet: "Outils mathématiques pour le datamining"— Transcription de la présentation:

1 Outils mathématiques pour le datamining

2 Géométrie Distance Distance entre parties
Matrice de variance/covariance Inertie Minimisation

3 Probabilités Définition Théorème de Bayes Distributions
Moments d’une distribution Distributions gaussiennes Estimation

4 Performances Mesures Généralisation Erreur Entropie Lift,
Techniques de validation Notion de VC-dimension

5 Géométrie

6 Distance : définition générale
Une distance peut être définie sur un ensemble quelconque. Par définition, elle doit vérifier les propriétés d(a,b)=d(b,a) d(a,b)≥0 d(a,b)=0a=b d(a,c)≤d(a,b)+d(b,c) Une “dissimilarité” vérifie seulement les propriétés d(a,a)=0

7 Distance euclidienne

8 Autres distances réelles
Distance euclidienne généralisée (M est une matrice symétrique définie positive) Distance de Mahalanobis

9 Distances sur données discrètes
Données binaires Distance de Hamming : nombre de bits différents entre X et Y Dissimilarités basées sur la combinaison du nombre de présence et d’absence de critères communs Données discrètes Codage disjonctif complet Permet de se ramener au cas binaire

10 Dissimilarités entre parties
Saut minimum : la plus petite distance entre éléments des deux parties Diamètre : la plus grande distance entre éléments des deux parties

11 Inertie : présentation intuitive
Notion d’inertie On démontre facilement

12 Formalisation Matrice des données Matrice des poids Centre de gravité
Matrice de variance-covariance

13 Calcul de l’inertie Matrice de distance Calcul de l’inertie

14 Matrice de variance-covariance
Matrice des données Matrice des poids Centre de gravité Matrice de variance-covariance

15 Minimisation Fonction à une ou plusieurs variables Définitions :
min f(x), x  U IRn Définitions : x* est un minimum local de f s’il existe a > 0 tel que f(x*) ≤ f(x) pour tout x tel que ||x-x*||<a x* est un minimum local strict de f s’il existe a > 0 tel que f(x*) < f(x) pour tout x tel que ||x-x*||<a x* est un minimum global de f si f(x*) ≤ f(x) pour tout x  U

16 Condition nécessaire d’optimalité
Le gradient de f, f est le vecteur des dérivées partielles de f Si x* est un minimum local de f, alors: f(x*) = 0 2f(x*) est semi-définie positive (dt.2f(x*).d ³ 0 pour tout d  IRn)

17 f(x+) = f(x) + f(x)T  + o(||||) f(xa) = f(x) – a||f(x)||2 + o(a)
Descente de gradient Soit x  IRn tel que f(x)  0. Considérons la demi-droite xa = x – a f(x) Théorème de Taylor (1er ordre) f(x+) = f(x) + f(x)T  + o(||||) Avec  = xa-x f(xa) = f(x) – a||f(x)||2 + o(a)

18 Descente de gradient (suite)
f(xa) = f(x) – a||f(x)||2 + o(a) Si a est petit, on peut négliger o(a) Donc, pour a positif mais petit, f(xa) < f(x) Théorème : Il existe d tel que, pour tout a  ]0,d[ f(x- af(x)) < f(x)

19 Descente de gradient (illustration)

20 Cas des fonctions convexes
f(.a+(1- ).b)≤  f(a)+(1- ).f(b) f possède un minimum global et la descente de gradient converge. Cas de la forme quadratique : f(x)=xt.M.x M est une matrice symétrique Si M est définie positive, f(x) est convexe Exemple : la régression linéaire

21 Régression linéaire

22 Régression linéaire N observations (ui,vi) Hypothèse v=a.u+b
On recherche a et b tels que soit minimal La fonction en (a,b) est convexe

23 Probabilités

24 Epreuve et événement Une expérience est dite aléatoire si ses résultats ne sont pas prévisibles avec certitude en fonction des conditions initiales. On appelle épreuve la réalisation d'une expérience aléatoire et dont le résultat est élément d’un ensemble donné appelé univers. On appelle événement la propriété du système qui une fois l'épreuve effectuée est ou n'est pas réalisée. Exemple : Expérience = Lancer deux dés Epreuve = Résultat (3,4) Evénement = Obtenir un double

25 Tribu E est une épreuve d’univers 
Une tribu de  est un ensemble de parties de  : ZP() telle que Z Z L’union d’un ensemble fini ou dénombrable d’éléments de Z appartient à Z. AiZ  AiZ

26 Probabilité Alors Si P est une application de Z dans R telle que
P(A)[0,1] P()=1 Ai Aj =  (pour tout (i,j)) P(Ai)=P(Ai) Alors P est une probabilité (,Z,P) est un espace probabilisé

27 Probabilité conditionnelle - 1

28 Probabilité conditionnelle - 2
Probabilité de A conditionnellement à B (si P(B)>0) P(A|B)=P(AB)/P(B) P|B est une probabilité Exemples : P(Somme 2 Dés  3 ) = 3/36 (1-1, 2-1, 1-2) P(Somme 2 Dés  3 | 1° Dé = 1) = 2/6 = (2/36)/(1/6) P(Somme 2 Dés  3 | Premier Dé = 6) = 0

29 Probabilité marginale
B = Bi est une ensemble complet d’événements, c’est-à-dire tel que BiBj =  Bi = On définit la probabilité marginale par rapport à B comme PB(A)=P(A Bi) PB est une probabilité

30 Théorème de Bayes A = Ai est une ensemble complet d’événements, c’est-à-dire tel que AiAj =  Ai = Alors (th. de Bayes) P(B)=P(B| Ai).P(Ai)

31 Indépendance A, B et C sont des événements
A et B sont indépendants ssi : P(AB) = P(A).P(B) P(A|B)=P(A) A et B sont indépendants conditionnellement à C ssi : P(AB|C) = P(A|C).P(B|C)

32 Variables aléatoires E est une épreuve et (,Z,P) est l’espace probabilisé associé : Une variable aléatoire X est une application de  dans R. Un vecteur aléatoire est un p-uplet de variables aléatoires (X1, X2, …, Xp) , i.e. une application de  dans Rp.

33 Exemple = {(1,1) ; (1,2) ; … ; (6,6)} S()  
Lancer de deux dés « parfaits » = {(1,1) ; (1,2) ; … ; (6,6)} P() = 1/36 Somme des points marqués par deux dés S. S() E={2,3,…,12}

34 Types de variables aléatoires
Une variable aléatoire X liée à E est : Discrète lorsque l’ensemble X() de ses valeurs possibles est fini ou dénombrable. Finie si X() est fini Réelle si pour tout réel x, X-1(]-,x])Z et P(x)=0 Mixte si pour tout réel x, X-1(]-,x])Z Exemple : Somme des valeurs de deux dés Discrète Finie Mixte Rendement d’un actif : continue

35 Loi d’une variable aléatoire discrète
E est une épreuve et (,Z,P) est l’espace probabilisé associé. X est une variable aléatoire discrète associée à E. La loi de X est définie par : L’ensemble X()={xi}de ses valeurs possibles La probabilité de chaque événement (X=xi) Cette définition se généralise à un vecteur aléatoire

36 Indépendance Deux variables aléatoires discrètes X et Y sont indépendantes ssi : Pour tout couple (xi, yj), les deux ensembles (X=xi) et (Y=yj) sont indépendants. Elles sont indépendantes conditionnellement à Z ssi : Pour tout triplet (xi, yj, zk), les deux ensembles (X=xi) et (Y=yj) sont indépendants conditionnellement à (Z=zk)

37 Fonction de répartition
E est une épreuve et (,Z,P) est l’espace probabilisé associé. X est une variable aléatoire continue associée à E. La fonction de répartition de X est la fonction de R dans R telle que F(x) = P(Xx)

38 Densité de probabilité
Si elle existe, c’est la fonction f telle que F(x)=P(X x)=]-,x]f(x)dx Le vecteur aléatoire (X1, X2, …, Xm) admet une densité s’il existe  telle que P((X xi))=]-,x1] …]-,xm] (x1, …, xm)dx1…. dxm

39 Indépendance de deux v.a.
Deux variables aléatoires continues X et Y sont indépendantes si et seulement si : Pour tout couple xi et yj, P(X<xiY<yj)= P(X<xi).P(Y<yj)

40 Fonction de répartition

41 Distributions gaussiennes

42 Distribution gaussienne monovariée
Densité de probabilité

43 Théorème Central Limite
Si (X1, X2, …, Xn) sont des VA continues de même distribution dont les deux premiers moments E(Xi) et Var(Xi) sont définis Alors (SXi)/n tend vers une distribution normale de même moments quand n

44 Distribution gaussienne multivariée
Densité de probabilité

45 Stabilité des gaussiennes
Marginalisation Multiplication Addition Conditionnement Chaînage

46 Estimation

47 Estimation Objectif Hypothèse
A partir de données d'échantillons représentatifs, on cherche à obtenir des résultats sur la population dans laquelle les échantillons ont été prélevés. Plus exactement : donner des valeurs aux paramètres d’une distribution à partir d’un échantillon d’observations Hypothèse Chaque observation est une VA, et toutes ont la même distribution (celle qu’on cherche) Toutes ces VA sont indépendantes

48 Estimation statistique
Exemple simple : moyenne Si les VA suivent toutes la même loi, on peut connaître la distribution de la moyenne empirique. Celle-ci converge vers une loi normale (TCL) Exemple plus complexe : test d’indépendance Exemple encore plus complexe : modèle de dépendance

49 Estimation statistique
Observations Loi Mais : La transposition nécessite une hypothèse a priori sur les distributions Toutes les conclusions tirées suivent aussi une distribution, et ont une “variance”

50 Estimation bayésienne
Tous les paramètres suivent des lois de probabilités a priori Ces lois sont “déformées” par les observations, par la propriété (th. Bayes): P(X|Y)=k.P(Y|X).P(X) APosteriori = Vraisemblance.APriori

51 Comparaison Comment estimer la probabilité  ? Statistique Bayésienne

52 Performance des modèles

53 Mesures d’erreur Modèles quantitatifs Modèles qualitatifs
Moindres carrés = (y-d)2 Variance expliquée Fonction de coût Modèles qualitatifs Matrice de confusion Fonction de coût/utilité Entropie

54 Matrice de confusion

55 Courbe de lift

56 Problèmes de la généralisation
Quelle est le meilleur modèle parmi les 3 ci-dessous ? Comment allons-nous prédire d’autres points issus de la même distribution ?

57 Méthode de l’ensemble de test
Principe Mettre de côté 30% des données Construire le modèle sur 70% L’évaluer sur les 30% mis de côté Problèmes Certaines données ne sont pas utilisées Forte variance

58 Méthode du point isolé Pour tous les exemples disponibles
Le mettre de côté Construire le modèle avec les autres exemples Calculer l’erreur sur l’exemple mis de côté Evaluer l’erreur moyenne

59 Méthode théorique Minimisation du risque structurel (Vapnik)
On introduit la complexité du modèle Intuitivement, un réseau neuronal est plus complexe qu’un modèle linéaire Vapnik mesure effectivement la complexité d’une famille de modèles (pulvérisation d’un ensemble de points)

60 Principe de la VC-dimension
Nombre maximum de points “pulvérisables” par une classe de fonction donnée x2 x1 x3

61 Méthode théorique Pas d’hypothèse de distribution
Le nombre d’exemples nécessaire pour apprendre une classe de façon stable dépend de la VC dimension de la famille de modèles (linéaire, RN, etc.) Les bornes sont peu utilisables dans la pratique

62 Méthode théorique La performance augmente quand la complexité augmente
Mais Le risque augmente quand la complexité augmente Erreur théorique Risque structurel Erreur d’apprentissage Complexité du modèle


Télécharger ppt "Outils mathématiques pour le datamining"

Présentations similaires


Annonces Google