Télécharger la présentation
1
LES ANALYSES MULTIVARIÉES EN BIOLOGIE
Rappels Les types de variables Notion de dépendance entre les variables Un peu de statistiques Euclidienne Les analyses multivariées, Introduction Les objectifs La notion d’inertie - Généralités - Notion d’axe principale - Généralisation à un tableau multivarié L’Analyse en Composante Principale (A.C.P.) Type de tableaux Conditions d’utilisation Objectifs de l’A.C.P. Principales étapes de l’A.C.P. Représentation graphique et aide à l’interprétation Exemples et illustrations
2
Interrelation entre les différentes étapes de la recherche en écologie
Conception de la recherche Planification de l’échantillonnage Echantillonnage Hypothèses nouvelles Analyse des données Traitement numérique Détermination en laboratoire Interprétation des résultats Données inutilisables Conclusions Déroulement de la recherche Rétroaction
3
Rappels Les types de variables
La moindre étude statistique nécessite la compréhension d’au moins 5 concepts fondamentaux, à savoir : la population statistique l’échantillon le tirage aléatoire l’élément statistique ou unité d’échantillonnage LA VARIABLE UNE VARIABLE EST UNE CARACTERISTIQUE MESUREE OU OBSERVEE SUR CHACUN DES ELEMENTS DE L’ECHANTILLON OU SUR DES ENTITES PREDEFINIES QUI SE RATTACHENT AUX UNITES D’ECHANTILLONNAGE Variables propres = attribut de l’élément (T°C interne d’un animal, sa taille, son poids…) Variables associées = variables qui ne sont pas mesurées sur l’éléments proprement dit (quantité de nourriture disponible dans l’environnement, T°C ambiante…)
4
Rappels Les types de variables
Dans tous les cas, cette caractéristique est sujette à des variations qui peuvent être quantitatives ou qualitatives. Un caractère, ou une variable, est de nature qualitative s’il ne peut être mesuré tout en demeurant susceptible de classement, comme le sexe, l’espèce, l’état civil,…, d’un sujet. Un caractère est de nature quantitative s’il peut être mesuré, comme la hauteur, la longueur, la largeur, le poids,…, d’un objet.
5
Rappels Les types de variables
Les variables retenues par les biologistes peuvent être classées en plusieurs catégories : MODALITES BINAIRES MULTIPLES Précision croissante NON ORDONNEES ORDONNEES ½ QUANTI QUANTITATIVE D’intervalle Relatives BINAIRES NOMILALES ORDINALES INTERVALLE DISCONTINUES CONTINUES Oui/non Abs./pres. +/- Couleurs Cat. Soci. Prof. Rangs Préférences hiérarchie °C Dénombrements Taille Poids T°C pH… Qualitatives 1/2 Quantitatives
6
Rappels Notions de dépendance entre les variables
SI UNE SEULE VARIABLE A ANALYSER Individu Taille (cm) 1 2 3 … N 1,40 1,55 1,81 … 1,76 - Les paramètres de position : renseignent sur l’ordre de grandeur des valeurs et sur l’existence de valeurs centrales autours desquelles se groupent les mesures (moyenne, médiane, les quartiles, le mode). - Les paramètres de dispersion : renseignent sur le plus ou moins grand étalement de la distribution et précisent ainsi le degré de dispersion autour d’une valeur centrale (variance, coefficient de variation, coefficient d’asymétrie, coefficient d’aplatissement).
7
Rappels Notions de dépendance entre les variables
LE CAS DE DEUX VARIABLES Individu Taille (cm) Poids (g) 1 2 3 … N 1,40 1,55 1,81 … 1,76 2,2 3,0 2,8 … 2,9 Pour chaque variable : - Les paramètres de position - Les paramètres de dispersion - Les paramètres de covariation : indiquent le degré de corrélation ou d’interrelation existant entre deux ou plusieurs variables. Deux paramètres de covariation importants : la covariance la corrélation
8
Rappels Notions de dépendance entre les variables LA COVARIANCE
Illustration : le diagramme de dispersion. XY = (Xi – X)(Yi – Y) Y XY < 0 XY > 0 Y XY < 0 XY > 0 X X
9
Rappels ∑ sxy = Notions de dépendance entre les variables
LA COVARIANCE Illustration : le diagramme de dispersion. Formulation statistique : la covariance est une généralisation du concept de variance à un espace à deux dimensions. La covariance s’écrit : n ∑ (Xi – X)(Yi – Y) i = 1 sxy = (n – 1)
10
Rappels sxx = sx² sxy syx syy = sy²
Notions de dépendance entre les variables LA COVARIANCE Illustration : le diagramme de dispersion. Formulation statistique : la covariance est une généralisation du concept de variance à un espace à deux dimensions. La covariance s’écrit : Matrice de variance-covariance : TAILLE POIDS TAILLE POIDS sxx = sx² sxy syx syy = sy²
11
Rappels Notions de dépendance entre les variables LA COVARIANCE Y
COVARIANCE POSITIVE COVARIANCE NEGATIVE Y Y Y X X X X Y COVARIANCE NULLE Y X X
12
Rappels Notions de dépendance entre les variables LA CORRELATION
La covariance n’est pas bornée et est dépendante des unités de mesures des variables considérées SOLUTION : diviser par le produit des écarts-types des deux variables et on obtient la corrélation, d’où : Cov(x,y) Cor(x,y) = avec -1 < Cor(x,y) < 1 sxsy Matrice de corrélations : TAILLE POIDS TAILLE POIDS Cor(x,x) = 1 Cor(x,y) Cor(y,x) Cor(y,y) = 1 Et la dépendance entre deux variables qualitatives …???
13
Rappels Notions de dépendance entre les variables
CAS DE DEUX VARIABLES QUALITATIVES EXEMPLE : On prélève des gammares dans plusieurs bassins versants de France afin d’étudier la répartition spatiale des populations de parasites de crustacés. TABLEAU DE CONTINGENCE BASSINS VERSANTS PARASITES Artois Rhin Garonne Seine Total Présence de parasites Absence de parasites Total des points de prélèvements 13 8 3 11 35 8 1 12 17 38 21 9 15 28 73 VARIABLES INDEPENDANTES ? Soit un gammare prélevé au hasard : P(parasité) = 35/73 = 0,48 P(parasité/Rhin) = 8/9 = 0,89 La présence de parasite et le site de prélèvement ne sont pas des variables indépendantes. Comment tester l’indépendance entre 2 variables qualitatives ?
14
Rappels Notions de dépendance entre les variables 1 variable :
taille 2 variables : poids rpoids-taille = 0,99
15
Rappels Notions de dépendance entre les variables 3 variables ?
16
Rappels Notions de dépendance entre les variables
3 variables ? : la représentation triangulaire procédé graphique par lequel on place un point à trois coordonnées (a, b, c) positives ou nulles et vérifiant a+b+c = 1 ou a + b + c = 100 dans un triangle équilatéral.
17
Rappels Notions de dépendance entre les variables
le point (x, y, z) appartient au plan x+y+z = 1 à l’intérieur du triangle défini par les extrémités des vecteurs de la base canonique e1 = (1, 0, 0), e2 = (0, 1, 0) et e3 = (0, 0, 1)
18
Rappels Notions de dépendance entre les variables
3 variables (poids, taille, largeur) mesurées sur une population de cerfs. Points bleus = mâles, points rouges = femelles. Visualisation en 2D d’un nuage de points initialement en 3D
19
Rappels S = Cas d’une série statistique multiple
Tableau = matrice des données VARIABLES ELEMENT 1 2 3 … j … p 1 2 3 i n-1 n x11 x21 x31 xi1 xn-1,1 xn1 x12 x22 x32 xi2 xn-1,2 xn2 x13 x23 x33 xi3 xn-1,3 xn3 x1j x2j x3j xij xn-1,j xnj x1p x2p x3p xip xn-1,p xnp Matrice de variances – covariances associée à ce tableau s1² s12 s13 s1j s1p s21 s2² s23 s2j s2p s31 s32 s3j s3p s3² S = sj1 sj2 sj3 sj² sjp sp1 sp2 sp3 spj sp²
20
Rappels Cas d’une série statistique multiple
COMMENT ANALYSER CE TABLEAU DE DONNEES ? Statistiques élémentaires sur les colonnes Profils des individus Diagramme de dispersion pour chaque couple de variables MAIS ces diverses stratégies ne donnent pas une vision globale du tableau
21
LES ANALYSES MULTIVARIEES
Introduction Permettent de traiter simultanément de nombreuses variables caractérisant les individus de l’étude But principalement descriptif et exploratoire Représentation synthétique d’un tableau de données : - en extrayant le maximum d’information, plus exactement de variabilité, de variance ou d’inertie - avec en contrepartie le minimum de distorsion par rapport aux données d’origine Ces méthodes s’appliquent à des tableaux rectangulaires pouvant être de nature diverse. 2 grands types de méthodes : L’ordination (méthodes factorielles) : permettent de dégager des grands axes suivants lesquels s’ordonnent les objets et/ou les variables La classification (hiérarchique ou non) : définissent des grandes classes dans lesquelles se rangent les objets.
22
LES ANALYSES MULTIVARIEES
Introduction Objectif : mettre en évidence une structure dans un tableau d’individus/variables DES GRANDS AXES Le long desquels s’ordonnent les indiv./variables DES GRANDES CLASSES Partitionnant les indiv./variables 2 types de méthodes visant à construire ORDINATION en espace réduit CLASSIFICATION tableau Tableau : De mesures De contingence De mesures De contingence AFC ACP ACM MATRICE DE SIMILARITE (DISTANCES) MATRICE DE COVARIANCE Méthodes de groupement Vecteurs propres – Valeurs propres Une seule partition, nombre de classes fixé a priori Plusieurs partitions hiérarchisées Coordonnées factorielles Représentation sur des axes où sont conservées : Classification non hiérarchique (partition) Distance euclidienne entres individus Corrélation entre variables Distance du khi² entre indiv./variables Classification hiérarchique v1 . . . a c b g h d . d . . . v1 . . . v2 . . . a e . . v2 b f . . . . c . . g i h
23
LES ANALYSES MULTIVARIEES
La notion d’inertie A partir d’un tableau de données contenant n lignes et p colonnes, un individu peut être représenté géométriquement dans un espace à p dimensions par les valeurs qu’il possède pour chaque variable. L’INERTIE, une notion fondamentale 2 définitions possibles : - Statistique : L’inertie se confond avec la notion de variance - Géométrique : l’inertie est une combinaison de la distance au barycentre par le poids L’INERTIE d’un point i dans l’espace est égale au produit de son poids par sa distance au barycentre du nuage : I = pi.(Gi)²
24
LES ANALYSES MULTIVARIEES
La notion d’inertie L’INERTIE d’un point i dans l’espace est égale au produit de son poids par sa distance au barycentre du nuage : I = pi.(Gi)² Y Yi i G Y X X Xi G : point moyen du nuage de points : distance du point i au barycentre
25
LES ANALYSES MULTIVARIEES
La notion d’inertie L’INERTIE d’un point i dans l’espace est égale au produit de son poids par sa distance au barycentre du nuage : I = pi.(Gi)² X Xi Y Yi i G Décomposition de l’inertie: Théorème de Pythagore: (Yi-Y) (Gi)² = (xi – x)² + (yi – y)² = contribution de l’individu i à la variance du nuage (Xi-X) n ∑(Gi)² = ∑(xi – x)² + ∑(yi – y)² i = 1 = n(VAR(x) +VAR(y)) G : point moyen du nuage de points : distance du point i au barycentre = somme des inerties : inertie totale
26
LES ANALYSES MULTIVARIEES
La notion d’axe principal Représentation simplifiée d’un nuage de points sur un axe OBJECTIF : représenter un nuage des individus de la meilleure façon possible dans un espace à 1 dimension seulement. Rechercher un axe qui préserve au mieux les distances entre les individus. X Xi Y Yi i G Quel axe ?
27
LES ANALYSES MULTIVARIEES
La notion d’axe principal Rechercher un axe qui préserve au mieux les distances entre les individus. X Xi Y Yi i G L’INERTIE projetée de i sur un axe ifi ( Gfi )² L’INERTIE totale : Décomposition pour chaque point : (Gi)² = (Gfi)² + (ifi)² Inertie totale du nuage : ∑pi.(Gi)² = ∑pi.(Gfi)² + ∑pi.(ifi)² G : point moyen du nuage de points : distance du point i au barycentre = Gi : axe de direction quelconque passant par G : distance de la projection du point i sur l’axe pi = poids du point i ifi
28
LES ANALYSES MULTIVARIEES
La notion d’axe principal L’inertie totale se décompose en 2 parties : ∑pi.(Gi)² = ∑pi.(Gfi)² + ∑pi.(ifi)² L’inertie projetée (expliquée par l’axe) L’inertie non projetée (non expliquée par l’axe) LA SOLUTION : L’AXE PRINCIPALE L’axe recherché pour représenter de façon simplifiée la structure du nuage de points en préservant au mieux les distances entre les points doit rendre compte du maximum d’inertie de ce nuage. COMMENT CONSTRUIRE CET AXE ? Il doit être construit de façon à rendre : ∑pi.(Gi)² = ∑pi.(Gfi)² + ∑pi.(ifi)² L’inertie projetée MAXIMALE L’inertie non projetée MINIMALE
29
LES ANALYSES MULTIVARIEES
La notion d’axe principal MAUVAIS BON – Axe principal X Xi Y Yi i G X Xi Y Yi i G 2 dimensions (nuage de points) 1 dimension (1 axe)
30
LES ANALYSES MULTIVARIEES
La notion d’axe principal Variable 2 II III I Variable 3 Variable 1 II III II I I III
31
LES ANALYSES MULTIVARIEES
La notion d’axe principal
32
…donc en déformant le moins possible les angles entre vecteurs
LES ANALYSES MULTIVARIEES Généralisation à un tableau multivarié Obs 2 II Obs 3 Obs1 I Espace réduit Espace initial L’objectif de l’analyse multivariée est de représenter les variables en espace réduit, en conservant le plus possible leurs relations mutuelles… …donc en déformant le moins possible les angles entre vecteurs
33
LES ANALYSES MULTIVARIEES
Généralisation à un tableau multivarié Généralisation : Décomposition de l’inertie dans un tableau de n lignes et p variables On peut définir une série d’axes d’inertie décroissante satisfaisant 2 conditions : - les inerties projetées, axe par axe, doivent être maximales - ces axes sont mutuellement orthogonaux S’il y a p variables, il existe p axes satisfaisant ces conditions. 2 voies exploratoires : - Ressemblance entre les individus : quels sont les individus qui se ressemblent ? Quels sont ceux différents ? Peut on mettre en évidence une TYPOLOGIE DES INDIVIDUS ? Le bilan des liaison entre variables : quelles sont les variables liées positivement ? Quelles sont celles qui s’opposent ? Peut on mettre en évidence une TYPOLOGIE DES VARIABLES ?
34
LES ANALYSES MULTIVARIEES
Généralisation à un tableau multivarié Typologie des individus Typologie des variables ryx = cos θ II II I I w x y z w x y z 1 1 ryx 1 1
35
L’Analyse en Composante Principale (ACP)
Généralités Type de tableaux Lignes = observations ou individu statistiques Colonnes = variables quantitatives mesurées sur les individus Deux éléments du tableau sont strictement distincts et non interchangeables Conditions Calcul des corrélations entre les variables et des distances entre les individus. La notion de corrélation linéaire doit donc avoir un sens entre les variables. Conditions de normalité de l’ensemble des variables respectées (mais méthode robuste). Objectifs Représenter les distances entre les individus à l’aide d’un petit nombre de variables (en perdant le minimum d’information). Nouvelles variables = synthèse des variables initiales. Elles sont indépendantes Représenter les relations entre les variables initiales Géométriquement, l’espace initiale est multidimensionnel (p dimensions) et non orthogonal. On cherche à représenter les observations dans un espace orthogonal de plus faibles dimensions.
36
L’Analyse en Composante Principale (ACP)
Principales étapes 1- Choix d’une métrique Transformation de la matrice de données en une matrice : - de variances-covariances : ACP non normée - de corrélation : ACP normée COMMENT ? le calcul matriciel La matrice variances-covariances : centrage Y0 Y (yij – mj) transposition S Y0’ Matrice carré [S] [S]. 1/(n-1) = [S] = matrice de variances-covariances
37
L’Analyse en Composante Principale (ACP)
Principales étapes 1- Choix d’une métrique La matrice des corrélations S s-1 s-1 R [S] = matrice variances-covariances [s-1] = matrice diagonale inverse des écart-types [R] = matrice des corrélations
38
L’Analyse en Composante Principale (ACP)
Principales étapes 2- Les axes principaux On va chercher à représenter le nuage de points multidimensionnel selon ses axes de plus grandes extension. Chaque axe principale doit répondre à 2 conditions : - les inerties projetées doivent être maximales - ces axes sont mutuellement orthogonaux SOLUTION : LES VECTEURS PROPRES DE [S] (ACP non normée) ou de [R] (ACP normée) Ce sont de nouveaux axes orthogonaux : nouvelles variables indépendantes, contrairement aux variables d’origine : les FACTEURS
39
L’Analyse en Composante Principale (ACP)
Principales étapes 2- Les axes principaux SOLUTION : LES VECTEURS PROPRES DE [S] (ACP non normée) ou de [R] (ACP normée) Ce sont de nouveaux axes orthogonaux : ils correspondent à des nouvelles variables indépendantes, contrairement aux variables d’origine : les FACTEURS F1 F2 Matrice des vecteurs propres U S F1 F2 λ1 Matrice des valeurs propres [Λ] λ2
40
L’Analyse en Composante Principale (ACP)
Principales étapes 3- La position des éléments dans le nouveau repère [Y0] = matrice des données centrées Coordonnées des individus sur les axes : [U] = matrice des vecteurs propres [F] = [Y0] . [U] [F] = matrice des coordonnées des individus sur les axes principaux Position des variables dans le nouveau système d’axes : [V] = [U] . [Λ]1/2 [Λ]1/2 = matrice des valeurs propres puissance 1/2 [V] = Coordonnées factorielles des colonnes de [Y] Représentation des variables : Angles entre les vecteurs proportionnels à leur corrélation Projection sur un axe principal = corrélation avec le facteur correspondant
41
L’Analyse en Composante Principale (ACP)
Principales étapes F1 F2 La trace de [Λ] = somme des valeurs propres de [S] = trace [S] = somme des variances de [Y] = inertie totale λ1 λ2 Statistiquement : le premier vecteur propre possède la valeur propre la plus élevée : rend compte du maximum de variation contenue dans les données d’origine. Chaque vecteur suivant rend compte du maximum de la variance restant à expliquer. La longueur des vecteurs propres est rapportée à 1 Géométriquement : le premier axe suit le sens de la plus grande longueur du nuage multidimensionnel des données dans l’espace des variables d’origine. La fraction d’inertie totale extraite par la projection du nuage sur cet axe principal correspond à la 1° valeur propre, et ainsi de suite pour les valeurs propres suivantes.
42
L’Analyse en Composante Principale (ACP)
Exemple numérique pds long larg ACP Normées (données centrées réduites) ACP Non normée (données centrées) Y0 YCR pds long larg 46.5 1.0 pds S = matrice des variances-covariances long R = matrice des corrélations larg ∑ = inertie totale = 47.28 ∑ = nombre de variables = 3
43
L’Analyse en Composante Principale (ACP)
Exemple numérique pds long larg Données brutes F1 F2 F3 pds Coordonnées factorielles variables long larg F1 F2 F3 i1 i2 Coordonnées factorielles individus i3 I4
44
L’Analyse en Composante Principale (ACP)
Exemple numérique pds long larg F2 Données brutes larg long F1 F2 F3 F1 G pds pds Coordonnées factorielles variables long larg F2 1 F1 F2 F3 i4 i2 i1 i3 F1 i2 Coordonnées factorielles individus -1 G 1 i3 -1 i1 i4
45
L’Analyse en Composante Principale (ACP)
Exemple numérique Valeurs propres 46.97 ∑ = inertie totale = 47.28 Décomposition de l’inertie sur les facteurs Valeur propre % % cumulé 46.97 0.31 0.0 99.3 0.7 0.0 99.3 100.0 1 2 3
46
L’Analyse en Composante Principale (ACP)
Exemple numérique Un exemple simple et un peu plus complet Jeu de données : 237 étudiants de l’université de d’Adélaïde (Australie) Longueur de la main directrice (droite pour un droitier) Longueur de la main non- directrice (gauche pour un droitier) Taille de l’individu H / F 22, 4 21, 9 176,8 H ……………… ……………… ……………… ………………
47
L’Analyse en Composante Principale (ACP)
Exemple numérique Décomposition de l’inertie sur les facteurs Valeur propre % % cumulé 2,51 0.45 0.03 83,6 15,2 1,1 83,6 98,8 100,0 1 2 3 Matrice de corrélation Main_D Main_nD taille Main_D Main_nD taille
48
L’Analyse en Composante Principale (ACP)
Exemple numérique Main_D Main_nD taille Main_D Main_nD taille II I
49
L’Analyse en Composante Principale (ACP)
Exemple numérique taille Main_D I Main_nD
50
LES ANALYSES MULTIVARIEES
La notion d’axe principal
51
L’Analyse en Composante Principale (ACP)
Exemple numérique
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.