La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Chapitre 6: Réduction de dimensionnalité paramétrique

Présentations similaires


Présentation au sujet: "Chapitre 6: Réduction de dimensionnalité paramétrique"— Transcription de la présentation:

1 Chapitre 6: Réduction de dimensionnalité paramétrique

2 Qu’est-ce que la dimensionnalité paramétrique?
La dimensionnalité paramétrique est le nombre totale de paramètres utilisés. Exemple: MFCC pour la reconnaissance du locuteur utilise 13 paramètres à tous les 1/100 de secondes Les systèmes de reconnaissance automatique de la parole et les systèmes de reconnaissance du locuteur peuvent aussi utiliser 26 ou 39 paramètres à tous les 1/100 de secondes (13 MFCC, plus la première dérivée des MFCC et, facultativement, la seconde dérivée des MFCC. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

3 Réduction de la dimensionnalité. Pourquoi?
Réduire le temps requis de calcul: moins de calcul à effectuer Réduire la complexité de l’espace: moins de paramètres Sauver le coût d’observer un paramètre: Parfois un paramètre est inutile. Mais comment le déterminer? Modèle plus simple Pour des petits corpus de données, le manque de données d’entraînement peut être un facteur déterminant dans la précision du modèle Modèle plus simple à interpréter, à expliquer Modèle plus simple à visualiser: Comment visualiser en 13 dimensions? Possible en 2 ou 3 dimensions! Comment déterminer les 2 ou 3 paramètres les plus importants? Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

4 Deux approches de réduction
Il existe deux approches de réduction de paramètres: Sélection de paramètres Extraction de paramètres Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

5 Sélection .vs. Extraction
Sélection de paramètres: Choisir les k paramètres les plus importants parmi un ensemble de d paramètres (k<d) et ignorer les d – k paramètres restants Algorithmes de sélection de sous-ensembles Extraction de paramètres: Projeter (transformer) les d paramètres originaux (espace de dimension d) vers un nouvel espace de dimension réduite k (k<d). Le nouvel espace présenter les paramètres suivants: zj , j =1,...,k Analyse des composantes principales (PCA: Principal Components Analysis) Analyse de discrimination linéaire (LDA: Linear Discriminant Analysis) Analyse de facteurs (FA: Factor analysis) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

6 Sélection de paramètres

7 Sélection de sous-ensembles
Il existe 2d sous-ensembles possibles de d paramètres Mais on ne peut pas estimer tous les sous-ensembles à moins que d est petit. On emploie donc une heuristique pour sélectionner les meilleurs paramètres. Recherche vers l’avant: Ajout itératif du meilleur paramètre Démarrer avec l’ensemble de paramètres F nul (F = Ø). À chaque itération, trouver le meilleur paramètre j = argmini E ( F È xi ) (E représente l’erreur) Note: l’erreur E doit être calculée sur un corpus autre que le corpus d’entraînement Ajouter xj à F si E ( F È xj ) < E ( F ) Complexité de l’algorithme: d+(d-1)+(d-2)+ •••+ (d-k): O(d2) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

8 Sélection de sous-ensembles
Recherche vers l’arrière: Partir avec tous les paramètres et retirer itérativement un élément à la fois. Complexité de l’algorithme: O(d2) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

9 Problème avec les approches recherche vers l’avant et l’arrière:
Ces approches ne peuvent pas résoudre la situation suivante: Supposons que xi et xj ne sont pas bons individuellement mais pris collectivement ils le sont. Il n’est donc pas garanti que xi et xj seront sélectionnés. Solution: additionner (ou retirer) plus d’un paramètre à la fois Reconnaissance de face: quand on travaille sur des pixels, tous les pixels sont importants. Nous ne pourrions pas décider d’en choisir que quelques-uns. L’approche de sélection de paramètres n’est donc pas appropriée pour ce type de problème. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

10 Extraction de paramètres

11 Analyse des composantes principales (PCA)
Appliquer une transformation sur les d paramètres afin de réduire le nombre de paramètres à k paramètres. Traduction mathématique: Trouver un espace de plus petite dimension de telle sorte que la projection de x dans cet espace réduit à son minimum l’information perdue. La projection de x dans la direction de w est: z = wTx Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

12 Que fait PCA graphiquement?
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

13 Analyse des composantes principales (PCA)
Approche non-supervisée Idée: trouver les projections w1, w2, ∙ ∙ ∙, wk qui disperseront le plus les données entre elles Trouver w de telle sorte que Var(z) est maximisée: Var(z) = Var(wTx) = E[(wTx – wTμ)2] = E[(wTx – wTμ)(wTx – wTμ)] = E[wT(x – μ)(x – μ)Tw] = wT E[(x – μ)(x –μ)T]w = wT ∑ w où Var(x)= E[(x – μ)(x –μ)T] = ∑ Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

14 Maximiser Var(z) sujet à ||w ||=1
Commencer par maximiser (projeter) sur un premier axe w1 afin de maximiser Var(z1) Solution: ∑w1 = αw1 Où w1 est un vecteur propre de ∑ (Variance de x) Choisir le vecteur propre qui a la plus grande valeur propre car la valeur propre est une mesure de la grandeur de la variance et nous voulons maximiser la variance Nous avons donc trouver un premier axe de projection: une première composante principale Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

15 Pour la seconde composante principale, nous aimerions trouver un axe de projection w2 orthogonal à w1 qui maximise aussi la dispersion des données entre elles. Soit: Max Var(z2), de telle sorte que , ||w2||=1 et que w2 est orthogonal à w1 Solution: ∑ w2 = α w2. Soit w2 qui est un autre vecteur propre ∑. w2 est le vecteur propre qui a la seconde plus grande valeur propre. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

16 Continuer pour trouver les k composantes principales i.e.
Pour la troisième composante principale, nous aimerions trouver un axe de projection w3 orthogonal à w1 et à w2 qui maximise aussi la dispersion des données entre elles. w3est un autre vecteur propre ∑. Soit celui qui a la troisième plus grande valeur propre. Etc. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

17 Que fait PCA graphiquement
z = WT(x – m) où les colonnes de W sont les vecteurs propres de ∑, et m est la moyenne des données Opération: Centrer les données à l’origine et appliquer une rotation des axes Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

18 Comment choisir k ? Proportion de Variance (PdV) définit comme:
où λi sont les valeurs propres triées en ordre de valeur descendante Typiquement arrêter quand PdV > 0.9 Graphique des talus (Scree graph): graphique de PdV en fonction de k. Arrêter k au “coude” Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

19 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

20 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

21 PCA Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

22 PCA : Valeur propre Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

23 PCA: Reconstruction Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

24 Analyse de facteurs Une autre autre approche d’extraction de paramètres est l’analyse de facteurs (FA: Factor Analysis) FA est une approche non-supervisée qui consiste à trouver un petit nombre de facteurs z, qui lorsque ces facteurs sont combinés ils génèrent x : xi – µi = vi1z1 + vi2z vikzk + εi où zj, j =1,...,k sont des facteurs latents avec E[ zj ]=0, Var(zj)=1, Cov(zi ,, zj)=0, i ≠ j , εi sont des sources de bruit E[ εi ]= ψi, Cov(εi , εj) =0, i ≠ j, Cov(εi , zj) =0 , et vij sont des facteurs de charges Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

25 PCA .vs. FA PCA De x à z z = WT(x – µ) FA De z à x x – µ = Vz + ε z x
Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

26 Analyse de facteurs Pour FA, les zj sont allongés/rétrécis, font subir une rotation et une translation pour reproduire x Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

27 Analyse de discrimination linéaire
Autre approche d’extraction de paramètres, l’analyse de discrimination linéaire LDA: Linear Discrimination Analysis LDA est une approche supervisée Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

28 LDA Tiré de Pattern Recognition and Machine Learning de Christopher M. Bishop Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

29 LDA Tiré de Pattern Recognition and Machine Learning de Christopher M. Bishop Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

30 LDA Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

31 LDA Trouver un espace de plus petite dimension de telle sorte que lorsque x y est projeté, les classes sont bien séparées. Trouver w qui maximise Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

32 Dispersion entre les classes (Between-class):
Dispersion à l’intérieur des classes (Within-class): Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

33 Fisher’s Linear Discriminant
Trouver w qui maximise Solution LDA: Solution paramétrique: Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

34 K>2 Classes Réponse: Le plus grand vecteur propre de SW-1SB
Dispersion à l’intérieur des classes (Within-class): Dispersion entre les classes (Between-class): Trouver W qui maximise Réponse: Le plus grand vecteur propre de SW-1SB Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

35 Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)


Télécharger ppt "Chapitre 6: Réduction de dimensionnalité paramétrique"

Présentations similaires


Annonces Google