CHAPITRE 5: Méthodes multivariables
Données multivariables Mesures multiples (senseurs) d inputs/traits/attributs: d-variate N instances/observations/exemples Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Paramètres multivariables Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Estimation paramétrique Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Estimation des valeurs manquantes Que faire dans les instances où certains attributs sont manquants? Ignore ces instances? Mauvais idée si l’ensemble des échantillons est petit. Utilisation de manquant comme attribut: peut fournir de l’information Imputation: Remplir les attributs manquants Moyenne de l’imputation: Utilisation de valeurs plausibles (e.g., moyenne) Imputation par régression: prédire les attributs manquants avec les autres attributs. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Distribution normale multivariable Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Distribution normale multivariable Distance de Mahalanobis : (x – μ)T ∑–1 (x – μ) mesure la distance entre x et μ en terme de ∑ (normalisée pour compenser pour la différence de variances et de corrélations) Bivariable: d = 2 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Normal bivariable Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Inputs indépendants: Bayes naïfs Si xi sont indépendants, les valeurs hors de la diagonales de ∑ valent 0, la distance de Mahalanobis est réduite à la distance Euclédienne pondérée (multipliée par 1/σi ): Si les variances sont aussi égales alors cela se réduit à la distance Euclédienne. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Classification paramétrique Si p (x | Ci ) ~ N ( μi , ∑i ) Fonctions discriminantes sont : Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Estimation des paramètres Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Différent Si Discrimination quadratique Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
discriminant: P (C1|x ) = 0.5 vraisemblance aposteriori pour C1 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Matrice de covariance commune S Partager la matrice de covariance S Fonction discriminante devient alors en d’autres c’est une fonction discriminante linéaire Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Matrice de covariance commune S Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Matrice de covariance diagonale S Quand xj j = 1,..d, sont indépendants, ∑ est diagonale p (x|Ci) = ∏j p (xj |Ci) (hypothèse de Bayes naïfs) Classification basée sur la pondération des distances euclédiennes Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Matrice de covariance diagonale S variances peuvent être différentes Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
S diagonale avec variances égales Classificateur de la plus proche moyenne : Classification basée sur la distance euclédienne de la plus plus proche moyenne lassify based on Euclidean distance to the nearest mean Chaque moyenne peut être considérée comme un prototype ou un patron (template) et ça devient une concordance de patrons (template matching). Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
S diagonale avec variances égales ? * Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Sélection de modèles Hypothèse Matrice de Covariance # de paramètres Partagée, Hypersphère Si=S=s2I 1 Partagée, Aligné avec axes Si=S, with sij=0 d Partagée, Hyperellipsoïde Si=S d(d+1)/2 Différent, Hyperellipsoïde Si K d(d+1)/2 Quand la complexité augmente (S moins restreint), biais décroit et la variance augmente Assumons des modèles simples (accepte un certain biais) afin de contrôler la variance (régularisation) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Attributs discrets Attributs binaires : si xj sont indépendants (Bayes naïfs) la discrimination est linéaire Paramètres estimés Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Attributs discrets Attributs multinomiaux (1-de-nj) : xj Î {v1, v2,..., vnj} si xj sont indépendants Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)
Régression multivariable Modèle linéaire multivariable Modèle polynomial multivariable: Definissons de nouvelles variables à haut degré z1=x1, z2=x2, z3=x12, z4=x22, z5=x1x2 et utilisons un modèle linéaire avec ce nouvel espace z (fonctions de base, kernel trick, SVM: Chapter 10) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)