LES ANALYSES MULTIVARIÉES EN BIOLOGIE

Name: LES ANALYSES MULTIVARIÉES EN BIOLOGIE
Uploaded: 2017-06-29T18:52:03+00:00
Duration: PTM39S12
Channel: Pauline Hennequin
Description: LES ANALYSES MULTIVARIÉES EN BIOLOGIE

LES ANALYSES MULTIVARIÉES EN BIOLOGIE
Rappels Les types de variables Notion de dépendance entre les variables Un peu de statistiques Euclidienne Les analyses multivariées, Introduction Les objectifs La notion d’inertie - Généralités - Notion d’axe principale - Généralisation à un tableau multivarié L’Analyse en Composante Principale (A.C.P.) Type de tableaux Conditions d’utilisation Objectifs de l’A.C.P. Principales étapes de l’A.C.P. Représentation graphique et aide à l’interprétation Exemples et illustrations

Interrelation entre les différentes étapes de la recherche en écologie
Conception de la recherche Planification de l’échantillonnage Echantillonnage Hypothèses nouvelles Analyse des données Traitement numérique Détermination en laboratoire Interprétation des résultats Données inutilisables Conclusions Déroulement de la recherche Rétroaction

Rappels Les types de variables
La moindre étude statistique nécessite la compréhension d’au moins 5 concepts fondamentaux, à savoir : la population statistique l’échantillon le tirage aléatoire l’élément statistique ou unité d’échantillonnage LA VARIABLE UNE VARIABLE EST UNE CARACTERISTIQUE MESUREE OU OBSERVEE SUR CHACUN DES ELEMENTS DE L’ECHANTILLON OU SUR DES ENTITES PREDEFINIES QUI SE RATTACHENT AUX UNITES D’ECHANTILLONNAGE Variables propres = attribut de l’élément (T°C interne d’un animal, sa taille, son poids…) Variables associées = variables qui ne sont pas mesurées sur l’éléments proprement dit (quantité de nourriture disponible dans l’environnement, T°C ambiante…)

Dans tous les cas, cette caractéristique est sujette à des variations qui peuvent être quantitatives ou qualitatives. Un caractère, ou une variable, est de nature qualitative s’il ne peut être mesuré tout en demeurant susceptible de classement, comme le sexe, l’espèce, l’état civil,…, d’un sujet. Un caractère est de nature quantitative s’il peut être mesuré, comme la hauteur, la longueur, la largeur, le poids,…, d’un objet.

Les variables retenues par les biologistes peuvent être classées en plusieurs catégories : MODALITES BINAIRES MULTIPLES Précision croissante NON ORDONNEES ORDONNEES ½ QUANTI QUANTITATIVE D’intervalle Relatives BINAIRES NOMILALES ORDINALES INTERVALLE DISCONTINUES CONTINUES Oui/non Abs./pres. +/- Couleurs Cat. Soci. Prof. Rangs Préférences hiérarchie °C Dénombrements Taille Poids T°C pH… Qualitatives 1/2 Quantitatives

Rappels Notions de dépendance entre les variables
SI UNE SEULE VARIABLE A ANALYSER Individu Taille (cm) 1 2 3 … N 1,40 1,55 1,81 … 1,76 - Les paramètres de position : renseignent sur l’ordre de grandeur des valeurs et sur l’existence de valeurs centrales autours desquelles se groupent les mesures (moyenne, médiane, les quartiles, le mode). - Les paramètres de dispersion : renseignent sur le plus ou moins grand étalement de la distribution et précisent ainsi le degré de dispersion autour d’une valeur centrale (variance, coefficient de variation, coefficient d’asymétrie, coefficient d’aplatissement).

LE CAS DE DEUX VARIABLES Individu Taille (cm) Poids (g) 1 2 3 … N 1,40 1,55 1,81 … 1,76 2,2 3,0 2,8 … 2,9 Pour chaque variable : - Les paramètres de position - Les paramètres de dispersion - Les paramètres de covariation : indiquent le degré de corrélation ou d’interrelation existant entre deux ou plusieurs variables. Deux paramètres de covariation importants :  la covariance  la corrélation

Rappels Notions de dépendance entre les variables LA COVARIANCE
Illustration : le diagramme de dispersion. XY = (Xi – X)(Yi – Y) Y XY < 0 XY > 0 Y XY < 0 XY > 0 X X

Rappels ∑ sxy = Notions de dépendance entre les variables
LA COVARIANCE Illustration : le diagramme de dispersion. Formulation statistique : la covariance est une généralisation du concept de variance à un espace à deux dimensions. La covariance s’écrit : n ∑ (Xi – X)(Yi – Y) i = 1 sxy = (n – 1)

Rappels sxx = sx² sxy syx syy = sy²
Notions de dépendance entre les variables LA COVARIANCE Illustration : le diagramme de dispersion. Formulation statistique : la covariance est une généralisation du concept de variance à un espace à deux dimensions. La covariance s’écrit : Matrice de variance-covariance : TAILLE POIDS TAILLE POIDS sxx = sx² sxy syx syy = sy²

Rappels Notions de dépendance entre les variables LA COVARIANCE Y
COVARIANCE POSITIVE COVARIANCE NEGATIVE Y Y Y X X X X Y COVARIANCE NULLE Y X X

Rappels Notions de dépendance entre les variables LA CORRELATION
La covariance n’est pas bornée et est dépendante des unités de mesures des variables considérées SOLUTION : diviser par le produit des écarts-types des deux variables et on obtient la corrélation, d’où : Cov(x,y) Cor(x,y) = avec -1 < Cor(x,y) < 1 sxsy Matrice de corrélations : TAILLE POIDS TAILLE POIDS Cor(x,x) = 1 Cor(x,y) Cor(y,x) Cor(y,y) = 1 Et la dépendance entre deux variables qualitatives …???

CAS DE DEUX VARIABLES QUALITATIVES EXEMPLE : On prélève des gammares dans plusieurs bassins versants de France afin d’étudier la répartition spatiale des populations de parasites de crustacés. TABLEAU DE CONTINGENCE BASSINS VERSANTS PARASITES Artois Rhin Garonne Seine Total Présence de parasites Absence de parasites Total des points de prélèvements 13 8 3 11 35 8 1 12 17 38 21 9 15 28 73 VARIABLES INDEPENDANTES ? Soit un gammare prélevé au hasard : P(parasité) = 35/73 = 0,48 P(parasité/Rhin) = 8/9 = 0,89 La présence de parasite et le site de prélèvement ne sont pas des variables indépendantes. Comment tester l’indépendance entre 2 variables qualitatives ?

Rappels Notions de dépendance entre les variables 1 variable :
taille 2 variables : poids rpoids-taille = 0,99

Rappels Notions de dépendance entre les variables 3 variables ?

3 variables ? : la représentation triangulaire  procédé graphique par lequel on place un point à trois coordonnées (a, b, c) positives ou nulles et vérifiant a+b+c = 1 ou a + b + c = 100 dans un triangle équilatéral.

 le point (x, y, z) appartient au plan x+y+z = 1 à l’intérieur du triangle défini par les extrémités des vecteurs de la base canonique e1 = (1, 0, 0), e2 = (0, 1, 0) et e3 = (0, 0, 1)

3 variables (poids, taille, largeur) mesurées sur une population de cerfs. Points bleus = mâles, points rouges = femelles.  Visualisation en 2D d’un nuage de points initialement en 3D

Rappels S = Cas d’une série statistique multiple
Tableau = matrice des données VARIABLES ELEMENT 1 2 3 … j … p 1 2 3 i n-1 n x11 x21 x31 xi1 xn-1,1 xn1 x12 x22 x32 xi2 xn-1,2 xn2 x13 x23 x33 xi3 xn-1,3 xn3 x1j x2j x3j xij xn-1,j xnj x1p x2p x3p xip xn-1,p xnp Matrice de variances – covariances associée à ce tableau s1² s12 s13 s1j s1p s21 s2² s23 s2j s2p s31 s32 s3j s3p s3² S = sj1 sj2 sj3 sj² sjp sp1 sp2 sp3 spj sp²

Rappels Cas d’une série statistique multiple
COMMENT ANALYSER CE TABLEAU DE DONNEES ? Statistiques élémentaires sur les colonnes Profils des individus Diagramme de dispersion pour chaque couple de variables MAIS ces diverses stratégies ne donnent pas une vision globale du tableau

LES ANALYSES MULTIVARIEES
Introduction  Permettent de traiter simultanément de nombreuses variables caractérisant les individus de l’étude  But principalement descriptif et exploratoire  Représentation synthétique d’un tableau de données : - en extrayant le maximum d’information, plus exactement de variabilité, de variance ou d’inertie - avec en contrepartie le minimum de distorsion par rapport aux données d’origine Ces méthodes s’appliquent à des tableaux rectangulaires pouvant être de nature diverse. 2 grands types de méthodes :  L’ordination (méthodes factorielles) : permettent de dégager des grands axes suivants lesquels s’ordonnent les objets et/ou les variables  La classification (hiérarchique ou non) : définissent des grandes classes dans lesquelles se rangent les objets.

Introduction Objectif : mettre en évidence une structure dans un tableau d’individus/variables DES GRANDS AXES Le long desquels s’ordonnent les indiv./variables DES GRANDES CLASSES Partitionnant les indiv./variables 2 types de méthodes visant à construire ORDINATION en espace réduit CLASSIFICATION tableau Tableau : De mesures De contingence De mesures De contingence AFC ACP ACM MATRICE DE SIMILARITE (DISTANCES) MATRICE DE COVARIANCE Méthodes de groupement Vecteurs propres – Valeurs propres Une seule partition, nombre de classes fixé a priori Plusieurs partitions hiérarchisées Coordonnées factorielles Représentation sur des axes où sont conservées : Classification non hiérarchique (partition) Distance euclidienne entres individus Corrélation entre variables Distance du khi² entre indiv./variables Classification hiérarchique v1 . . . a c b g h d . d . . . v1 . . . v2 . . . a e . . v2 b f . . . . c . . g i h

La notion d’inertie A partir d’un tableau de données contenant n lignes et p colonnes, un individu peut être représenté géométriquement dans un espace à p dimensions par les valeurs qu’il possède pour chaque variable. L’INERTIE, une notion fondamentale 2 définitions possibles : - Statistique : L’inertie se confond avec la notion de variance - Géométrique : l’inertie est une combinaison de la distance au barycentre par le poids L’INERTIE d’un point i dans l’espace est égale au produit de son poids par sa distance au barycentre du nuage : I = pi.(Gi)²

La notion d’inertie L’INERTIE d’un point i dans l’espace est égale au produit de son poids par sa distance au barycentre du nuage : I = pi.(Gi)² Y Yi i G Y X X Xi G : point moyen du nuage de points : distance du point i au barycentre

La notion d’inertie L’INERTIE d’un point i dans l’espace est égale au produit de son poids par sa distance au barycentre du nuage : I = pi.(Gi)² X Xi Y Yi i G Décomposition de l’inertie: Théorème de Pythagore: (Yi-Y) (Gi)² = (xi – x)² + (yi – y)² = contribution de l’individu i à la variance du nuage (Xi-X) n ∑(Gi)² = ∑(xi – x)² + ∑(yi – y)² i = 1 = n(VAR(x) +VAR(y)) G : point moyen du nuage de points : distance du point i au barycentre = somme des inerties : inertie totale

La notion d’axe principal  Représentation simplifiée d’un nuage de points sur un axe OBJECTIF : représenter un nuage des individus de la meilleure façon possible dans un espace à 1 dimension seulement.  Rechercher un axe qui préserve au mieux les distances entre les individus. X Xi Y Yi i G Quel axe ?

La notion d’axe principal  Rechercher un axe qui préserve au mieux les distances entre les individus. X Xi Y Yi i G L’INERTIE projetée de i sur un axe ifi ( Gfi )² L’INERTIE totale : Décomposition pour chaque point : (Gi)² = (Gfi)² + (ifi)² Inertie totale du nuage : ∑pi.(Gi)² = ∑pi.(Gfi)² + ∑pi.(ifi)² G : point moyen du nuage de points : distance du point i au barycentre = Gi : axe de direction quelconque passant par G : distance de la projection du point i sur l’axe pi = poids du point i ifi

La notion d’axe principal L’inertie totale se décompose en 2 parties : ∑pi.(Gi)² = ∑pi.(Gfi)² + ∑pi.(ifi)² L’inertie projetée (expliquée par l’axe) L’inertie non projetée (non expliquée par l’axe) LA SOLUTION : L’AXE PRINCIPALE L’axe recherché pour représenter de façon simplifiée la structure du nuage de points en préservant au mieux les distances entre les points doit rendre compte du maximum d’inertie de ce nuage. COMMENT CONSTRUIRE CET AXE ? Il doit être construit de façon à rendre : ∑pi.(Gi)² = ∑pi.(Gfi)² + ∑pi.(ifi)² L’inertie projetée MAXIMALE L’inertie non projetée MINIMALE

La notion d’axe principal MAUVAIS BON – Axe principal X Xi Y Yi i G X Xi Y Yi i G 2 dimensions (nuage de points)  1 dimension (1 axe)

La notion d’axe principal Variable 2 II III I Variable 3 Variable 1 II III II I I III

La notion d’axe principal

…donc en déformant le moins possible les angles entre vecteurs
LES ANALYSES MULTIVARIEES Généralisation à un tableau multivarié Obs 2 II Obs 3 Obs1 I Espace réduit Espace initial L’objectif de l’analyse multivariée est de représenter les variables en espace réduit, en conservant le plus possible leurs relations mutuelles… …donc en déformant le moins possible les angles entre vecteurs

Généralisation à un tableau multivarié Généralisation : Décomposition de l’inertie dans un tableau de n lignes et p variables On peut définir une série d’axes d’inertie décroissante satisfaisant 2 conditions : - les inerties projetées, axe par axe, doivent être maximales - ces axes sont mutuellement orthogonaux S’il y a p variables, il existe p axes satisfaisant ces conditions. 2 voies exploratoires : - Ressemblance entre les individus : quels sont les individus qui se ressemblent ? Quels sont ceux différents ? Peut on mettre en évidence une TYPOLOGIE DES INDIVIDUS ? Le bilan des liaison entre variables : quelles sont les variables liées positivement ? Quelles sont celles qui s’opposent ? Peut on mettre en évidence une TYPOLOGIE DES VARIABLES ?

Généralisation à un tableau multivarié Typologie des individus Typologie des variables ryx = cos θ II II I I w x y z w x y z 1 1 ryx 1 1

L’Analyse en Composante Principale (ACP)
Généralités Type de tableaux Lignes = observations ou individu statistiques Colonnes = variables quantitatives mesurées sur les individus Deux éléments du tableau sont strictement distincts et non interchangeables Conditions Calcul des corrélations entre les variables et des distances entre les individus. La notion de corrélation linéaire doit donc avoir un sens entre les variables. Conditions de normalité de l’ensemble des variables respectées (mais méthode robuste). Objectifs Représenter les distances entre les individus à l’aide d’un petit nombre de variables (en perdant le minimum d’information). Nouvelles variables = synthèse des variables initiales. Elles sont indépendantes Représenter les relations entre les variables initiales Géométriquement, l’espace initiale est multidimensionnel (p dimensions) et non orthogonal. On cherche à représenter les observations dans un espace orthogonal de plus faibles dimensions.

Principales étapes 1- Choix d’une métrique Transformation de la matrice de données en une matrice : - de variances-covariances : ACP non normée - de corrélation : ACP normée COMMENT ?  le calcul matriciel La matrice variances-covariances : centrage Y0 Y (yij – mj) transposition S Y0’ Matrice carré [S] [S]. 1/(n-1) = [S] = matrice de variances-covariances

Principales étapes 1- Choix d’une métrique La matrice des corrélations S s-1 s-1 R [S] = matrice variances-covariances [s-1] = matrice diagonale inverse des écart-types [R] = matrice des corrélations

Principales étapes 2- Les axes principaux On va chercher à représenter le nuage de points multidimensionnel selon ses axes de plus grandes extension. Chaque axe principale doit répondre à 2 conditions : - les inerties projetées doivent être maximales - ces axes sont mutuellement orthogonaux SOLUTION : LES VECTEURS PROPRES DE [S] (ACP non normée) ou de [R] (ACP normée)  Ce sont de nouveaux axes orthogonaux :  nouvelles variables indépendantes, contrairement aux variables d’origine : les FACTEURS

Principales étapes 2- Les axes principaux SOLUTION : LES VECTEURS PROPRES DE [S] (ACP non normée) ou de [R] (ACP normée)  Ce sont de nouveaux axes orthogonaux : ils correspondent à des nouvelles variables indépendantes, contrairement aux variables d’origine : les FACTEURS F1 F2 Matrice des vecteurs propres U S F1 F2 λ1 Matrice des valeurs propres [Λ] λ2

Principales étapes 3- La position des éléments dans le nouveau repère [Y0] = matrice des données centrées Coordonnées des individus sur les axes : [U] = matrice des vecteurs propres [F] = [Y0] . [U] [F] = matrice des coordonnées des individus sur les axes principaux Position des variables dans le nouveau système d’axes : [V] = [U] . [Λ]1/2 [Λ]1/2 = matrice des valeurs propres puissance 1/2 [V] = Coordonnées factorielles des colonnes de [Y] Représentation des variables : Angles entre les vecteurs proportionnels à leur corrélation Projection sur un axe principal = corrélation avec le facteur correspondant

Principales étapes F1 F2 La trace de [Λ] = somme des valeurs propres de [S] = trace [S] = somme des variances de [Y] = inertie totale λ1 λ2 Statistiquement : le premier vecteur propre possède la valeur propre la plus élevée :  rend compte du maximum de variation contenue dans les données d’origine. Chaque vecteur suivant rend compte du maximum de la variance restant à expliquer. La longueur des vecteurs propres est rapportée à 1 Géométriquement : le premier axe suit le sens de la plus grande longueur du nuage multidimensionnel des données dans l’espace des variables d’origine. La fraction d’inertie totale extraite par la projection du nuage sur cet axe principal correspond à la 1° valeur propre, et ainsi de suite pour les valeurs propres suivantes.

Exemple numérique pds long larg ACP Normées (données centrées réduites) ACP Non normée (données centrées) Y0 YCR pds long larg 46.5 1.0 pds S = matrice des variances-covariances long R = matrice des corrélations larg ∑ = inertie totale = 47.28 ∑ = nombre de variables = 3

Exemple numérique pds long larg Données brutes F1 F2 F3 pds Coordonnées factorielles variables long larg F1 F2 F3 i1 i2 Coordonnées factorielles individus i3 I4

Exemple numérique pds long larg F2 Données brutes larg long F1 F2 F3 F1 G pds pds Coordonnées factorielles variables long larg F2 1 F1 F2 F3 i4 i2 i1 i3 F1 i2 Coordonnées factorielles individus -1 G 1 i3 -1 i1 i4

Exemple numérique Valeurs propres 46.97 ∑ = inertie totale = 47.28 Décomposition de l’inertie sur les facteurs Valeur propre % % cumulé 46.97 0.31 0.0 99.3 0.7 0.0 99.3 100.0 1 2 3

Exemple numérique Un exemple simple et un peu plus complet Jeu de données : 237 étudiants de l’université de d’Adélaïde (Australie) Longueur de la main directrice (droite pour un droitier) Longueur de la main non- directrice (gauche pour un droitier) Taille de l’individu H / F 22, 4 21, 9 176,8 H ……………… ……………… ……………… ………………

Exemple numérique Décomposition de l’inertie sur les facteurs Valeur propre % % cumulé 2,51 0.45 0.03 83,6 15,2 1,1 83,6 98,8 100,0 1 2 3 Matrice de corrélation Main_D Main_nD taille Main_D Main_nD taille

Exemple numérique Main_D Main_nD taille Main_D Main_nD taille II I

Exemple numérique taille Main_D I Main_nD

La notion d’axe principal

Exemple numérique

LES ANALYSES MULTIVARIÉES EN BIOLOGIE

Présentations similaires

Présentation au sujet: "LES ANALYSES MULTIVARIÉES EN BIOLOGIE"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back

Entrer

S'autoriser via un réseau social:

LES ANALYSES MULTIVARIÉES EN BIOLOGIE

Présentations similaires

Présentation au sujet: "LES ANALYSES MULTIVARIÉES EN BIOLOGIE"— Transcription de la présentation:

Présentations similaires

Notre projet

Feed-back