Chapitre 6: Réduction de dimensionnalité paramétrique

Slides:



Advertisements
Présentations similaires
CINI – Li115 1 Semaine 9 Algorithmes de tri ● Introduction ● Tri à bulle ● - principe ● - algorithme ● - efficacité ● Tri par sélection ● - principe, algorithme,
Advertisements

Comparing color edge detection and segmentation methods Projet TIM.
Organisation, gestion de données Les connaissances que l'enseignant doit maîtriser à son niveau Présentation réalisée à partir de l'ouvrage de Roland Charnay.
I) mesure et erreurs de mesure 1) le vocabulaire à connaitre
Les rprésentation des signaux dans le cadre décisionnel de Bayes Jorge F. Silva Shrikanth S. Narayanan.
Révision – mathématiques 8
Suites ordonnées ou mettre de l’ordre
Outils de Recherche Opérationnelle en Génie MTH 8414
Analyse, Classification,Indexation des Données ACID
Statistiques descriptives univariées
Pierre Joli Cours de Mathématique Pierre Joli
Information, Calcul, Communication
Techniques de décomposition
Algorithmique Avancée et Complexité Chap2:Complexité et Optimalité
Loi Normale (Laplace-Gauss)
Résumé de l’objectif de l’A.C.P.
7.1 Transformation linéaire
Université Abou Bakr Belkaid Faculté des Sciences Département d’informatique Algorithmique Avancée et Complexité Chap5: Les méthodes de résolution exactes.
Analyse en Composantes Principales A.C.P. M. Rehailia Laboratoire de Mathématiques de l’Université de Saint Etienne (LaMUSE).
Information, Calcul, Communication
Les bases de données et le modèle relationnel
Chapitre 7: L’algèbre des vecteurs
Chapitre 2: Les équations et les inéquations polynômes
Techniques d’Optimisation Chapitre 3: Programmation en 0-1 (bivalente)
Plans d’experiences : plans de melanges
Les plans d’expérience: plans factoriels
LES PRINCIPES DE LA THERMODYNAMIQUE
Université Abou Bakr Belkaid Faculté des Sciences Département d’informatique Algorithmique Avancée et Complexité Chap7: Les méthodes de résolution exactes.
Technologies de l’intelligence d’affaires Séance 12
Exploitation de mesures scientifiques.
C1 – Interpolation et approximation
Les tableaux.
La méthode du simplexe. 1) Algorithme du simplexe  Cet algorithme permet de déterminer la solution optimale, si elle existe, d’un problème de programmation.
Containeurs & Itérateurs
ACP Analyse en Composantes Principales
Chapitre 7: Groupage.
Pierre Dumouchel 20 juillet 2009
LOG770 Annexe A Éléments de probabilité
Calculs des incertitudes Lundi 30 Avril 2018 Master de Management de la Qualité, de la Sécurité et de l’Environnement.
INDICATEURS ET TABLEAUX DE BORD EN MAINTENANCE. Définitions Indicateur : chiffre significatif d’une situation économique pour une période donnée. Tableau.
Résolution d’un problème de diffusion 3D
Le morphage d’images Steph Hoffman
OPTIMISATION 1ère année ingénieurs
Les méthodes non paramétriques
CHAPTER 2: Apprentissage supervisé
Ä A B C D E F µ Un problème de Tournée (ou du Voyageur de commerce) consiste à chercher le meilleur trajet pour visiter.
CHAPTER 2: Apprentissage supervisé
Révision – mathématiques 8
Arbres de décision.
CHAPITRE 5: Méthodes multivariables
CHAPTER 10: Discrimination Linéaire
Transformation linéaires
Présentation 3 : Sondage aléatoire simple
Présentation 5 : Sondage à probabilités inégales
AIAC GEET-12 Année : Régulation Industrielle: Programme M.BAHATTI.
Cinématique : concepts de base
Position, dispersion, forme
Reconnaissance de formes: lettres/chiffres
Information, Calcul, Communication
CSI 3505 Algorithmes Voraces
Programme d’appui à la gestion publique et aux statistiques
INTELLIGENCE ARTIFICIELLE
Révision – mathématiques 8
GEOMETRIE VECTORIELLE
INTELLIGENCE ARTIFICIELLE
Laboratoire 3 Implémentation d’un classifieur bayésien
Chapitre 2 Résolution des Problèmes et Jeux. Objectifs  Comment ? – Modéliser un Problème. – Modéliser un Jeu.  Comment ? – Passer d’un état à un autre.
Thermodynamique statistique biomoléculaire GBM2620
Outils de Recherche Opérationnelle en Génie MTH 8414
Chapitre P4 : Mouvement d’un solide indéformable I) Quelques rappels de seconde : 1)Nécessité d’un référentielNécessité d’un référentiel 2)TrajectoireTrajectoire.
Transcription de la présentation:

Chapitre 6: Réduction de dimensionnalité paramétrique

Qu’est-ce que la dimensionnalité paramétrique? La dimensionnalité paramétrique est le nombre totale de paramètres utilisés. Exemple: MFCC pour la reconnaissance du locuteur utilise 13 paramètres à tous les 1/100 de secondes Les systèmes de reconnaissance automatique de la parole et les systèmes de reconnaissance du locuteur peuvent aussi utiliser 26 ou 39 paramètres à tous les 1/100 de secondes (13 MFCC, plus la première dérivée des MFCC et, facultativement, la seconde dérivée des MFCC. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Réduction de la dimensionnalité. Pourquoi? Réduire le temps requis de calcul: moins de calcul à effectuer Réduire la complexité de l’espace: moins de paramètres Sauver le coût d’observer un paramètre: Parfois un paramètre est inutile. Mais comment le déterminer? Modèle plus simple Pour des petits corpus de données, le manque de données d’entraînement peut être un facteur déterminant dans la précision du modèle Modèle plus simple à interpréter, à expliquer Modèle plus simple à visualiser: Comment visualiser en 13 dimensions? Possible en 2 ou 3 dimensions! Comment déterminer les 2 ou 3 paramètres les plus importants? Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Deux approches de réduction Il existe deux approches de réduction de paramètres: Sélection de paramètres Extraction de paramètres Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Sélection .vs. Extraction Sélection de paramètres: Choisir les k paramètres les plus importants parmi un ensemble de d paramètres (k<d) et ignorer les d – k paramètres restants Algorithmes de sélection de sous-ensembles Extraction de paramètres: Projeter (transformer) les d paramètres originaux (espace de dimension d) vers un nouvel espace de dimension réduite k (k<d). Le nouvel espace présenter les paramètres suivants: zj , j =1,...,k Analyse des composantes principales (PCA: Principal Components Analysis) Analyse de discrimination linéaire (LDA: Linear Discriminant Analysis) Analyse de facteurs (FA: Factor analysis) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Sélection de paramètres

Sélection de sous-ensembles Il existe 2d sous-ensembles possibles de d paramètres Mais on ne peut pas estimer tous les sous-ensembles à moins que d est petit. On emploie donc une heuristique pour sélectionner les meilleurs paramètres. Recherche vers l’avant: Ajout itératif du meilleur paramètre Démarrer avec l’ensemble de paramètres F nul (F = Ø). À chaque itération, trouver le meilleur paramètre j = argmini E ( F È xi ) (E représente l’erreur) Note: l’erreur E doit être calculée sur un corpus autre que le corpus d’entraînement Ajouter xj à F si E ( F È xj ) < E ( F ) Complexité de l’algorithme: d+(d-1)+(d-2)+ •••+ (d-k): O(d2) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Sélection de sous-ensembles Recherche vers l’arrière: Partir avec tous les paramètres et retirer itérativement un élément à la fois. Complexité de l’algorithme: O(d2) Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Problème avec les approches recherche vers l’avant et l’arrière: Ces approches ne peuvent pas résoudre la situation suivante: Supposons que xi et xj ne sont pas bons individuellement mais pris collectivement ils le sont. Il n’est donc pas garanti que xi et xj seront sélectionnés. Solution: additionner (ou retirer) plus d’un paramètre à la fois Reconnaissance de face: quand on travaille sur des pixels, tous les pixels sont importants. Nous ne pourrions pas décider d’en choisir que quelques-uns. L’approche de sélection de paramètres n’est donc pas appropriée pour ce type de problème. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Extraction de paramètres

Analyse des composantes principales (PCA) Appliquer une transformation sur les d paramètres afin de réduire le nombre de paramètres à k paramètres. Traduction mathématique: Trouver un espace de plus petite dimension de telle sorte que la projection de x dans cet espace réduit à son minimum l’information perdue. La projection de x dans la direction de w est: z = wTx Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Que fait PCA graphiquement? Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Analyse des composantes principales (PCA) Approche non-supervisée Idée: trouver les projections w1, w2, ∙ ∙ ∙, wk qui disperseront le plus les données entre elles Trouver w de telle sorte que Var(z) est maximisée: Var(z) = Var(wTx) = E[(wTx – wTμ)2] = E[(wTx – wTμ)(wTx – wTμ)] = E[wT(x – μ)(x – μ)Tw] = wT E[(x – μ)(x –μ)T]w = wT ∑ w où Var(x)= E[(x – μ)(x –μ)T] = ∑ Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Maximiser Var(z) sujet à ||w ||=1 Commencer par maximiser (projeter) sur un premier axe w1 afin de maximiser Var(z1) Solution: ∑w1 = αw1 Où w1 est un vecteur propre de ∑ (Variance de x) Choisir le vecteur propre qui a la plus grande valeur propre car la valeur propre est une mesure de la grandeur de la variance et nous voulons maximiser la variance Nous avons donc trouver un premier axe de projection: une première composante principale Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Pour la seconde composante principale, nous aimerions trouver un axe de projection w2 orthogonal à w1 qui maximise aussi la dispersion des données entre elles. Soit: Max Var(z2), de telle sorte que , ||w2||=1 et que w2 est orthogonal à w1 Solution: ∑ w2 = α w2. Soit w2 qui est un autre vecteur propre ∑. w2 est le vecteur propre qui a la seconde plus grande valeur propre. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Continuer pour trouver les k composantes principales i.e. Pour la troisième composante principale, nous aimerions trouver un axe de projection w3 orthogonal à w1 et à w2 qui maximise aussi la dispersion des données entre elles. w3est un autre vecteur propre ∑. Soit celui qui a la troisième plus grande valeur propre. Etc. Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Que fait PCA graphiquement z = WT(x – m) où les colonnes de W sont les vecteurs propres de ∑, et m est la moyenne des données Opération: Centrer les données à l’origine et appliquer une rotation des axes Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Comment choisir k ? Proportion de Variance (PdV) définit comme: où λi sont les valeurs propres triées en ordre de valeur descendante Typiquement arrêter quand PdV > 0.9 Graphique des talus (Scree graph): graphique de PdV en fonction de k. Arrêter k au “coude” Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

PCA Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

PCA : Valeur propre Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

PCA: Reconstruction Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Analyse de facteurs Une autre autre approche d’extraction de paramètres est l’analyse de facteurs (FA: Factor Analysis) FA est une approche non-supervisée qui consiste à trouver un petit nombre de facteurs z, qui lorsque ces facteurs sont combinés ils génèrent x : xi – µi = vi1z1 + vi2z2 + ... + vikzk + εi où zj, j =1,...,k sont des facteurs latents avec E[ zj ]=0, Var(zj)=1, Cov(zi ,, zj)=0, i ≠ j , εi sont des sources de bruit E[ εi ]= ψi, Cov(εi , εj) =0, i ≠ j, Cov(εi , zj) =0 , et vij sont des facteurs de charges Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

PCA .vs. FA PCA De x à z z = WT(x – µ) FA De z à x x – µ = Vz + ε z x Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Analyse de facteurs Pour FA, les zj sont allongés/rétrécis, font subir une rotation et une translation pour reproduire x Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Analyse de discrimination linéaire Autre approche d’extraction de paramètres, l’analyse de discrimination linéaire LDA: Linear Discrimination Analysis LDA est une approche supervisée Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

LDA Tiré de Pattern Recognition and Machine Learning de Christopher M. Bishop Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

LDA Tiré de Pattern Recognition and Machine Learning de Christopher M. Bishop Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

LDA Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

LDA Trouver un espace de plus petite dimension de telle sorte que lorsque x y est projeté, les classes sont bien séparées. Trouver w qui maximise Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Dispersion entre les classes (Between-class): Dispersion à l’intérieur des classes (Within-class): Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Fisher’s Linear Discriminant Trouver w qui maximise Solution LDA: Solution paramétrique: Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

K>2 Classes Réponse: Le plus grand vecteur propre de SW-1SB Dispersion à l’intérieur des classes (Within-class): Dispersion entre les classes (Between-class): Trouver W qui maximise Réponse: Le plus grand vecteur propre de SW-1SB Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)

Lecture Notes for E Alpaydın 2004 Introduction to Machine Learning © The MIT Press (V1.1)