Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Introduction générale Suite « logique » des statistiques descriptives à 2 dimensions H V O 1 O 2 O 3 O 4 Variable Observation (ex : station) V H O1 O2 O3 O4 Comment faire si on rajoute la variable classe de substrat ? Analyse multidimensionnelle (=multivariable) : Méthodes d’analyses où chaque observation est définie par plusieurs variables
Introduction générale Analyse multivariée permet de traiter des tableaux de données (type matrice) : Prélèvements Possibilités : - mesurer ressemblance entre objets et/ou variables, - grouper les obj./var. selon les ressemblances - ordonner et modéliser les obj./var. - tester statistiquement ces relations On compare donc : - la distance euclidienne entre les paires d’OBJET (Q) - le coefficient de dépendance entre les VARIABLES (R)
Introduction générale Ordination en espace réduit mise en place de gradient Exemple : Le but est d’ordonner des objets les uns par rapport aux autres de manière à éloigner les objets les plus différents en essayant de limiter le nombre de variables nécessaires (si plus de 2 variables). On ajuste une droite de régression dans le nuage de points Axe majeur maximise la dispersion (plus grand allongement du nuage de point) afin de faire ressortir les variations Centre de gravité des points L'axe mineur est l'axe perpendiculaire à l'axe majeur
Introduction générale Chacun des axes caractérisés par une valeur propre (λ1 et λ2) Ellipse englobe tous les points nouveau référentiel : objets ont des coordonnées « XY » Valeur propre : mesure de la quantité de variation du nuage de point absorbé par l’axe correspondant Vecteur propre : contribution de chaque variable à un axe
Introduction générale Axe 1 explique 80 % des variations et l’axe 2 20% Station X = a1 * pH + b1 * [CaCO3] a et b étant les paramètres de transfert de l'espace original dans le nouvel espace, défini par les axes principaux.
Si plus de 2 variables peu intéressant de représenter toutes les paires possibles en 2d. Exemple pour 10 variables : Nb de plan possibles = (10*9)/2 = 45 But : projeter les données dans un nb réduit de dimensions orthogonales les unes aux autres qui représentent les principales tendances de variabilité Introduction générale
A BC A B B C A C A B C Axe 1 Axe Centre de gravité des points Décomposition factorielle permet une représentation graphique des données Analyse par représentation des objets (Q) soit des descripteurs (R) Axe 1 Axe A B C
Introduction générale Choix de l’analyse multivariée Les variables n’ont pas la même importance et ne jouent pas le même rôle Tableau de donnée ou matrice des corrélations (=ACP sur matrice carrée)
ACP : Analyse Composantes Principales Exemple d’ACP Morphologie de trois corbicules invasives de formes différentes (R, Rlc et S) Morphologie de trois espèces identifiées de corbicules Pigneur et al 2011
ACP : Analyse Composantes Principales L'ACoP (ACP en R) repose sur le calcul de la distance euclidienne entre les objets en fonction de toutes les différentes variables. coefficient de corrélation peut être exprimé comme un cosinus de triangle rectangle
ACP : Analyse Composantes Principales Axe principal (ACP) pointe dans la direction principale (Axe 1 valeur propre maxi)
ACP : Analyse Composantes Principales Les vecteurs propres mesurent la contribution de chaque espèce à un axe. Ces vecteurs propres nous servironst notamment à calculer les coordonnées des stations sur les nouveaux axes.
ACP : Analyse Composantes Principales Le passage d'un espace à 6 dimensions initiales défini par les 6 espèces à un espace à deux dimensions principales n'a pas modifié la matrice de distance euclidienne entre les stations.
ACP : Analyse Composantes Principales ACP sur tableaux de données transformées particulièrement adaptés aux relevés taxonomiques en fonction conditions écologiques de stations Problème du double 0 : La distance euclidienne est symétrique considère le 0 comme une ressemblance contrairement aux autres transformations asymétriques (Bray- curtis, Chord, Khi², Hellinger). -Khi² donne + poids aux espèces rares contrairement aux autres transformations -Helliger donne souvent R² le + élevé. Ressemblance ou non ? Transformer les données :
AFC : Analyse Factorielle des correspondances ACP avec ordination mais distance du chi² entre objets AFC Compare avec test Chi2 (F obs -F est )²/F est
AFC : Analyse Factorielle des correspondances Par convention on représente une AFC sous la forme d’un diagramme de dispersion avec objets et descripteurs (points) Proximité entre les points représente des affinités ou ressemblances (PAS 1 TEST STAT) sert uniquement à représenter les axes principaux de variation des données.
AFC : Analyse Factorielle des correspondances Exemple d’AFC Question : décrire les associations entre 12 espèces déterminées de necton et la localisation des 12 stations
AFC : Analyse Factorielle des correspondances Exemple d’AFC
AFC : Analyse Factorielle des correspondances Exemple d’AFC
AFC : Analyse Factorielle des correspondances Exemple d’AFC
AFC : Analyse Factorielle des correspondances Exemple d’AFC Croise densité des Macroinvertébrés sur différents Macrophytes en fonction des traits biologiques des MI
ACC : Analyse Canoniques des Correspondances Variables explicatives démarche descriptive par ordination (si var.>2) Ordination : - matrice X représente les différents objets (stations) en fonctions de variables explicatives (variables environnementales). Objets (ex : stations) se répartissent dans un espace à n dimensions, formé par nos n variables (ex: environnementales) - détermine les composantes principales, (2 axes de plus grandes variances), le long desquels se séparent au mieux nos objets (ex: stations) et qui vont former le plan de discrimination maximale de nos objets - le logiciel va combiner la matrice Y, mettant en relation nos objets (ex: stations) avec nos descripteurs (ex: taxa), à ce plan correspondant à la matrice explicative, X XY
ACC : Analyse Canoniques des Correspondances Régression : - élimination des variables peu explicatives (non intéressantes ou fortement corrélées) et on ne retenir que les prépondérantes pour l'explication de la répartition de nos taxa - le modèle va choisir la variable la plus explicative; puis, en testant les autres 2 à 2, ils va choisir les autres variables explicatives, indépendantes les unes des autres. C'est ce qu'on appelle une régression stepwise (pas à pas). On obtient une nouvelle ACC avec, cette fois, un nombre restreint de variables explicatives (ex : choix de celle avec moins de 5% d'erreur).
ACC : Analyse Canoniques des Correspondances Objet station Variables dépendantes Espèce Variables explicatives : - binaire (étoiles) Substrat - quantitatives (flèches) physico-chimie Affinité proj. orthogonale Affinité proximité
ACC : Analyse Canoniques des Correspondances Exemple d’ACC Première ACC : 31 variables environnementalesPremière ACC : micro-habitats Axe 2 Axe 1 Axe 2 Axe 1
ACC : Analyse Canoniques des Correspondances Exemple d’ACC Première ACC : taxa Axe 2 Axe 1
ACC : Analyse Canoniques des Correspondances Exemple d’ACC Deuxième ACC : 11 variables sélectionnées par l’ARM Axe 1 Axe 2 Axe 1Axe 1
Ax e 1 ACC : Analyse Canoniques des Correspondances Exemple d’ACC Deuxième ACC : 11 variables sélectionnées par l’ARM Axe 1 Axe 2
ACC : Analyse Canoniques des Correspondances Exemple d’ACC Axe 2 Axe 1 Axe 2
Axe 1 Axe 2 ACC : Analyse Canoniques des Correspondances Exemple d’ACC Axe 2 Axe Ry del Vau Bois de Gesves Thon Scierie Champia Goyet
ACC : Analyse Canoniques des Correspondances Exemple d’ACC
ACC : Analyse Canoniques des Correspondances Exemple d’ACC
ACC : Analyse Canoniques des Correspondances Exemple d’ACC
ACC : Analyse Canoniques des Correspondances Exemple d’ACC
Introduction générale On peut cadrer soit en conservant les distances euclidiennes entre les objets ou les descripteurs (variables) dépend de la question initiale et de la représentation voulu: -corrélation des espèces par des angles (ex : phy/chi du sol en fonction du milieu) -le positionnement des objets entre eux (relation de différents groupes d’espèces) (indice de Jaccard…)