Outils mathématiques pour le datamining

Name: Outils mathématiques pour le datamining
Uploaded: 2017-10-08T03:17:36+00:00
Duration: PTM17S20
Channel: Pierres Jean
Description: Outils mathématiques pour le datamining

Outils mathématiques pour le datamining

Géométrie Distance Distance entre parties
Matrice de variance/covariance Inertie Minimisation

Probabilités Définition Théorème de Bayes Distributions
Moments d’une distribution Distributions gaussiennes Estimation

Performances Mesures Généralisation Erreur Entropie Lift,
Techniques de validation Notion de VC-dimension

Géométrie

Distance : définition générale
Une distance peut être définie sur un ensemble quelconque. Par définition, elle doit vérifier les propriétés d(a,b)=d(b,a) d(a,b)≥0 d(a,b)=0a=b d(a,c)≤d(a,b)+d(b,c) Une “dissimilarité” vérifie seulement les propriétés d(a,a)=0

Distance euclidienne

Autres distances réelles
Distance euclidienne généralisée (M est une matrice symétrique définie positive) Distance de Mahalanobis

Distances sur données discrètes
Données binaires Distance de Hamming : nombre de bits différents entre X et Y Dissimilarités basées sur la combinaison du nombre de présence et d’absence de critères communs Données discrètes Codage disjonctif complet Permet de se ramener au cas binaire

Dissimilarités entre parties
Saut minimum : la plus petite distance entre éléments des deux parties Diamètre : la plus grande distance entre éléments des deux parties

Inertie : présentation intuitive
Notion d’inertie On démontre facilement

Formalisation Matrice des données Matrice des poids Centre de gravité
Matrice de variance-covariance

Calcul de l’inertie Matrice de distance Calcul de l’inertie

Matrice de variance-covariance
Matrice des données Matrice des poids Centre de gravité Matrice de variance-covariance

Minimisation Fonction à une ou plusieurs variables Définitions :
min f(x), x  U IRn Définitions : x* est un minimum local de f s’il existe a > 0 tel que f(x*) ≤ f(x) pour tout x tel que ||x-x*||<a x* est un minimum local strict de f s’il existe a > 0 tel que f(x*) < f(x) pour tout x tel que ||x-x*||<a x* est un minimum global de f si f(x*) ≤ f(x) pour tout x  U

Condition nécessaire d’optimalité
Le gradient de f, f est le vecteur des dérivées partielles de f Si x* est un minimum local de f, alors: f(x*) = 0 2f(x*) est semi-définie positive (dt.2f(x*).d ³ 0 pour tout d  IRn)

f(x+) = f(x) + f(x)T  + o(||||) f(xa) = f(x) – a||f(x)||2 + o(a)
Descente de gradient Soit x  IRn tel que f(x)  0. Considérons la demi-droite xa = x – a f(x) Théorème de Taylor (1er ordre) f(x+) = f(x) + f(x)T  + o(||||) Avec  = xa-x f(xa) = f(x) – a||f(x)||2 + o(a)

Descente de gradient (suite)
f(xa) = f(x) – a||f(x)||2 + o(a) Si a est petit, on peut négliger o(a) Donc, pour a positif mais petit, f(xa) < f(x) Théorème : Il existe d tel que, pour tout a  ]0,d[ f(x- af(x)) < f(x)

Descente de gradient (illustration)

Cas des fonctions convexes
f(.a+(1- ).b)≤  f(a)+(1- ).f(b) f possède un minimum global et la descente de gradient converge. Cas de la forme quadratique : f(x)=xt.M.x M est une matrice symétrique Si M est définie positive, f(x) est convexe Exemple : la régression linéaire

Régression linéaire

Régression linéaire N observations (ui,vi) Hypothèse v=a.u+b
On recherche a et b tels que soit minimal La fonction en (a,b) est convexe

Probabilités

Epreuve et événement Une expérience est dite aléatoire si ses résultats ne sont pas prévisibles avec certitude en fonction des conditions initiales. On appelle épreuve la réalisation d'une expérience aléatoire et dont le résultat est élément d’un ensemble donné appelé univers. On appelle événement la propriété du système qui une fois l'épreuve effectuée est ou n'est pas réalisée. Exemple : Expérience = Lancer deux dés Epreuve = Résultat (3,4) Evénement = Obtenir un double

Tribu E est une épreuve d’univers 
Une tribu de  est un ensemble de parties de  : ZP() telle que Z Z L’union d’un ensemble fini ou dénombrable d’éléments de Z appartient à Z. AiZ  AiZ

Probabilité Alors Si P est une application de Z dans R telle que
P(A)[0,1] P()=1 Ai Aj =  (pour tout (i,j)) P(Ai)=P(Ai) Alors P est une probabilité (,Z,P) est un espace probabilisé

Probabilité conditionnelle - 1


Probabilité conditionnelle - 2
Probabilité de A conditionnellement à B (si P(B)>0) P(A|B)=P(AB)/P(B) P|B est une probabilité Exemples : P(Somme 2 Dés  3 ) = 3/36 (1-1, 2-1, 1-2) P(Somme 2 Dés  3 | 1° Dé = 1) = 2/6 = (2/36)/(1/6) P(Somme 2 Dés  3 | Premier Dé = 6) = 0

Probabilité marginale
B = Bi est une ensemble complet d’événements, c’est-à-dire tel que BiBj =  Bi = On définit la probabilité marginale par rapport à B comme PB(A)=P(A Bi) PB est une probabilité

Théorème de Bayes A = Ai est une ensemble complet d’événements, c’est-à-dire tel que AiAj =  Ai = Alors (th. de Bayes) P(B)=P(B| Ai).P(Ai)

Indépendance A, B et C sont des événements
A et B sont indépendants ssi : P(AB) = P(A).P(B) P(A|B)=P(A) A et B sont indépendants conditionnellement à C ssi : P(AB|C) = P(A|C).P(B|C)

Variables aléatoires E est une épreuve et (,Z,P) est l’espace probabilisé associé : Une variable aléatoire X est une application de  dans R. Un vecteur aléatoire est un p-uplet de variables aléatoires (X1, X2, …, Xp) , i.e. une application de  dans Rp.

Exemple = {(1,1) ; (1,2) ; … ; (6,6)} S()  
Lancer de deux dés « parfaits » = {(1,1) ; (1,2) ; … ; (6,6)} P() = 1/36 Somme des points marqués par deux dés S. S()   E={2,3,…,12}

Types de variables aléatoires
Une variable aléatoire X liée à E est : Discrète lorsque l’ensemble X() de ses valeurs possibles est fini ou dénombrable. Finie si X() est fini Réelle si pour tout réel x, X-1(]-,x])Z et P(x)=0 Mixte si pour tout réel x, X-1(]-,x])Z Exemple : Somme des valeurs de deux dés Discrète Finie Mixte Rendement d’un actif : continue

Loi d’une variable aléatoire discrète
E est une épreuve et (,Z,P) est l’espace probabilisé associé. X est une variable aléatoire discrète associée à E. La loi de X est définie par : L’ensemble X()={xi}de ses valeurs possibles La probabilité de chaque événement (X=xi) Cette définition se généralise à un vecteur aléatoire

Indépendance Deux variables aléatoires discrètes X et Y sont indépendantes ssi : Pour tout couple (xi, yj), les deux ensembles (X=xi) et (Y=yj) sont indépendants. Elles sont indépendantes conditionnellement à Z ssi : Pour tout triplet (xi, yj, zk), les deux ensembles (X=xi) et (Y=yj) sont indépendants conditionnellement à (Z=zk)

Fonction de répartition
E est une épreuve et (,Z,P) est l’espace probabilisé associé. X est une variable aléatoire continue associée à E. La fonction de répartition de X est la fonction de R dans R telle que F(x) = P(Xx)

Densité de probabilité
Si elle existe, c’est la fonction f telle que F(x)=P(X x)=]-,x]f(x)dx Le vecteur aléatoire (X1, X2, …, Xm) admet une densité s’il existe  telle que P((X xi))=]-,x1] …]-,xm] (x1, …, xm)dx1…. dxm

Indépendance de deux v.a.
Deux variables aléatoires continues X et Y sont indépendantes si et seulement si : Pour tout couple xi et yj, P(X<xiY<yj)= P(X<xi).P(Y<yj)

Fonction de répartition

Distributions gaussiennes

Distribution gaussienne monovariée
Densité de probabilité

Théorème Central Limite
Si (X1, X2, …, Xn) sont des VA continues de même distribution dont les deux premiers moments E(Xi) et Var(Xi) sont définis Alors (SXi)/n tend vers une distribution normale de même moments quand n

Distribution gaussienne multivariée
Densité de probabilité

Stabilité des gaussiennes
Marginalisation Multiplication Addition Conditionnement Chaînage

Estimation

Estimation Objectif Hypothèse
A partir de données d'échantillons représentatifs, on cherche à obtenir des résultats sur la population dans laquelle les échantillons ont été prélevés. Plus exactement : donner des valeurs aux paramètres d’une distribution à partir d’un échantillon d’observations Hypothèse Chaque observation est une VA, et toutes ont la même distribution (celle qu’on cherche) Toutes ces VA sont indépendantes

Estimation statistique
Exemple simple : moyenne Si les VA suivent toutes la même loi, on peut connaître la distribution de la moyenne empirique. Celle-ci converge vers une loi normale (TCL) Exemple plus complexe : test d’indépendance Exemple encore plus complexe : modèle de dépendance

Estimation statistique
Observations Loi Mais : La transposition nécessite une hypothèse a priori sur les distributions Toutes les conclusions tirées suivent aussi une distribution, et ont une “variance”

Estimation bayésienne
Tous les paramètres suivent des lois de probabilités a priori Ces lois sont “déformées” par les observations, par la propriété (th. Bayes): P(X|Y)=k.P(Y|X).P(X) APosteriori = Vraisemblance.APriori

Comparaison Comment estimer la probabilité  ? Statistique Bayésienne

Performance des modèles

Mesures d’erreur Modèles quantitatifs Modèles qualitatifs
Moindres carrés = (y-d)2 Variance expliquée Fonction de coût Modèles qualitatifs Matrice de confusion Fonction de coût/utilité Entropie

Matrice de confusion

Courbe de lift

Problèmes de la généralisation
Quelle est le meilleur modèle parmi les 3 ci-dessous ? Comment allons-nous prédire d’autres points issus de la même distribution ?

Méthode de l’ensemble de test
Principe Mettre de côté 30% des données Construire le modèle sur 70% L’évaluer sur les 30% mis de côté Problèmes Certaines données ne sont pas utilisées Forte variance

Méthode du point isolé Pour tous les exemples disponibles
Le mettre de côté Construire le modèle avec les autres exemples Calculer l’erreur sur l’exemple mis de côté Evaluer l’erreur moyenne

Méthode théorique Minimisation du risque structurel (Vapnik)
On introduit la complexité du modèle Intuitivement, un réseau neuronal est plus complexe qu’un modèle linéaire Vapnik mesure effectivement la complexité d’une famille de modèles (pulvérisation d’un ensemble de points)

Principe de la VC-dimension
Nombre maximum de points “pulvérisables” par une classe de fonction donnée x2 x1 x3

Méthode théorique Pas d’hypothèse de distribution
Le nombre d’exemples nécessaire pour apprendre une classe de façon stable dépend de la VC dimension de la famille de modèles (linéaire, RN, etc.) Les bornes sont peu utilisables dans la pratique

Méthode théorique La performance augmente quand la complexité augmente
Mais Le risque augmente quand la complexité augmente Erreur théorique Risque structurel Erreur d’apprentissage Complexité du modèle

Outils mathématiques pour le datamining

Présentations similaires

Présentation au sujet: "Outils mathématiques pour le datamining"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

Outils mathématiques pour le datamining

Présentations similaires

Présentation au sujet: "Outils mathématiques pour le datamining"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back