Analyse multivariée en écologie: méthodes d'ordination et de classification en R Abdoul Ousmane DIA Méthodes d'ordination 30 Mars 2010.

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Cours d‘Analyse de Données
ANALYSE GÉOMÉTRIQUE DES DONNÉES
Des modèles statistiques non-linéaires à effets mixtes et leurs extensions pour analyser la réponse de « la » biodiversité à des variables écologiques.
Gestion de portefeuille
Gestion de portefeuille
GESTION DE PORTEFEUILLE chapitre n° 7
Analyse en composante indépendante
C1 Bio-statistiques F. KOHLER
Inférence statistique
Régression ou corrélation
1 Réunion biblio 13/12/00 Support Vectors Présentation générale SSS Maintaining Algorithm.
Régression -corrélation
1 Analyse de la variance multivariée Michel Tenenhaus.
Analyse en Composantes Principales
ANALYSE FACTORIELLE DES CORRESPONDANCES
Analyse en Composante Principale (ACP)
Analyse factorielle.

Le modèle linéaire et l'approche multivariée en statistique
Concepts avancés en mathématiques et informatique appliquées
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Méthode des k plus proches voisins
Détection et isolation de défauts dans les procédés industriels Contrôle Statistique des Procédés Statistical Process Control (SPC)
Régression linéaire simple
Groupe 1: Classes de même intervalle
Comprendre la variation dans les données: Notions de base
Les graphiques pour la vélocité
Corrélation et régression linéaire simple
Applications en Finance
La corrélation et la régression multiple
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Design dun système de vision embarqué. Application:
RECONNAISSANCE DE FORMES
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Les analyses multivariées
La régression multiple
Régression linéaire multiple : hypothèses & interprétation
La décomposition en valeurs singulières: un outil fort utile
Méthodes de Biostatistique
Présentation du marché obligataire
STATISTIQUES DESCRIPTIVES
Séance 8 30 novembre 2005 N. Yamaguchi
Présentation de l’ACP à travers un exemple
ANALYSE EN COMPOSANTES PRINCIPALES (ACP)
Sériation et traitement de données archéologiques
TNS et Analyse Spectrale
BIO 4518: Biostatistiques appliquées Les 11 et 18 octobre 2005 Laboratoire 4 et 5 ANOVA à critères multiples.
Les Diagrammes de dispersion
Evaluation des performances des tests diagnostiques en absence de Gold Standard Christophe Combescure Laboratoire de Biostatistique, IURC.
Analyse de données Cours 3 Analyse en composantes principales (ACP)
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :34 1 Les modèles linéaires (Generalized Linear.
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Régression linéaire (STT-2400)
Les dangers des drogues
Analyse des semis de point
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
BIOSTATISTIQUES Définitions.
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Hadrien Commenges Université Paris 7, Géographie-cités Hélène Mathian CNRS – Géographie-cités Claude Grasland Université Paris 7, Géographie-cités Introduction.
Analyse en Composantes Principales Vue synoptique.
Des statistiques descriptives et multi- variées aux statistiques de deuxième génération Séance 2.
Processus ponctuels Caractéristiques et Modèles de répartitions spatiales.
Transcription de la présentation:

Analyse multivariée en écologie: méthodes d'ordination et de classification en R Abdoul Ousmane DIA Méthodes d'ordination 30 Mars 2010

Rappel I. Les données (écologiques) multidimensionnelles II. Matrices de distances ou d'association III Méthodes de classification IV Méthodes d'ordination

IV. Méthodes d'ordination Ordination=> réduire le nuage de points(objets) situés dans un espace de descripteurs et les ordonner dans un espace restreint où les objets qui se ressemblent sont représentés à l'aide d'axes (composantes principales) - ces axes sont orthogonaux et hiérarchisés - La réduction=>résumer l'information sur ces qlq. axes - Chaque axe explique une partie de la variance qui est maximale pour le premier axe et décroit pour les axes successifs - Le nouveau plan réduit représente l'expression de gradients écologiques latents (structure latente) des données. En somme: l'ordination permet d'arranger des sites le long d'axes sur la base de la composition spécifique (Ter Braak, 1995)

Descipteur1 Descripteur 3 Descripteur 2 Axe1 Axe2 Descripteur 1 Descripteur 2 Descripteur 3

IV. Méthodes d'ordination Analyse multivariées (en écologie)=plusieurs méthodes Principalement: Sans contraintes (unconstrained) Avec contraintes (constrained) - ACP ou PCA - AFC ou CA - ACoP ou PcoA - Cadrage Non-métrique multiDimensionnel ou NMDS - Analyse de redondance RDA - Analyse canonique de correspondance (ACC ou CCA)

Méthodes d'ordination sans contraintes

L'analyse en composantes principales (PCA)  Basée sur l'abondance des espèces (ou tout autre descripteurs quantitatifs);  Réponse linéaire et se base sur les principes de la régression linéaires  Effectue une réduction de l'espace multidimensionnel tout en préservant la distance euclidienne Descipteur1 Descripteur 3 Descripteur 2 Axe1 Axe2 Matrice de dispersion Axe1 Axe2 Axes 1 et 2: Composantes principales (axes principaux) Plan Axes 1 et 2: plan factoriel Descripteurs 2 Descripteur 3 Descripteur 1

L'analyse en composantes principales (PCA)  Principales étapes d'une PCA ( rda () dans vegan ): 1. Centrage des données (quantitatives) 2. Calcul de la matrice de dispersion en mode R (descripteurs présentent des corrélations+objets indépendants): – Matrice de covariance (par défaut sur des données centrées ) lorsque les descripteurs sont de même nature – Matrice de corrélation lorsque les unités sont différentes nature 3. Extraction des valeurs propres et vecteurs propres 4. Calcul des coordonnées des points-objets (sites) sur chacun des axes principaux 5. Projection du résultat sur un diagramme d'ordination (double projection): * Deux types de cadrage (scaling): 1: Représentation des distances de points-objets (approximation de la distance euclidienne) 2: Représentation de la corrélation entre axes-descripteurs (représenter les relations entre descripteurs)

L'analyse en composantes principales (PCA)  Principaux résultats en R: - Partitions de la variance (Partitioning of variance) - Valeurs propres (eigen values) - Proportions expliquée (explained proportions) - Proportion cumulée (cumulated proportions) - information sur le type de cadrage (influe beaucoup l'interprétation): scaling - Scores des espèces : species scores - Scores des sites: sites scores Code R

L'analyse en composantes principales (PCA)  Projections et interprétation  Choix des axes: interpréter les axes de λ>λmoyen (Cr. Kaiser) Ou bâton brisé : seulement les axes principaux qui expliquent une fraction de la variance > que celle donnée par le modèle aléatoire du bâton brisé (PCAsignificance de BiodiversityR)

L'analyse en composantes principales (PCA)  Projections et interprétation  Simple projection (graphiques séparés pour les points-objets et les axes-descripteurs) ou double projection (biplot)  Choix du type de cadrage: Cadrage de type 1 (scaling=1, distance plot):  on s'intéresse à la distance entre les objets (ex. composition en espèces des sites);  Les points-objets les plus proches sont semblables  La projection de ces points sur l'axe- descripteur donne une approximation de la valeur de la variable pour ces derniers Axe1 Axe2 Descripteurs 2 Descripteur 3 Descripteur 1

L'analyse en composantes principales (PCA) Cadrage de type 2 (scaling=2, correlation biplot) Option par défaut en R: on s'intéresse à la covariance ou à la corrélation entre les axes-descripteurs. Représentation des angles des axes-descripteurs:  Angle entre axes-descripteurs=corrélation entre descripteurs; - angle de 90°: aucune corrélation - angle <90° : correlation positive - angle >90° : corrélation négative  Distance euclidienne non préservée  La projection de ces points sur l'axe-descripteur donne une approximation de la valeur de la variable pour ces derniers mais attention...distance euclidienne non préservée!  Projection des axes-descripteurs sur les axes principaux=contributions et on qualifie ces axes à l'aide des descripteurs qui contribuent le plus à ces axes (facteurs écologiques)  Représentation très appropriée pour les relations entre descripteurs  La longueur du vecteur (axe-descripteur) indique sa contribution aux axes principaux dans le plan considéré. Axe1 Axe2 Descripteurs 2 Descripteur 3 Descripteur 1

Analyse des correspondances (CA) réciprocal averaging, Dual scaling, Reciprocal ordering,...  Contrairement à l'ACP ou PCA (rda en R), CA suppose que la réponse est unimodale; On s'intéresse à la correspondance entre lignes (objets) et colonnes (descripteurs ou variables i.e : espèces);  Estimation des probabilités conditionnelles;  La matrice (objet et descripteurs) est assimilée à une table de contingence;  Pas de valeurs négatives;  Préserve la distance de Chi2 dans le nouvel espace réduit ;  Ne tient pas compte des doubles zéros;  Appliquée sur des données homogènes;  Très appropriée pour les matrices d'espèces en abondance ou présence-absence Code R

Analyse des correspondances (CA) réciprocal averaging, Dual scaling, Reciprocal ordering,...  Projections et interprétation: – Comme vu précédemment: somme des valeurs propres=inertie totale (variance totale) – Matrice doublement centrée – L'inertie totale peut donner des indications fort importante sur la structure des données: Inertie totale=1: peu de variation ou échantillon problématique (aberrance!) Inertie totale Є [1,3]: gradients observés mais pas très fort. Le premier axe s'exprime en séparant des groupes Inertie totale Є [3,6]: possibilité d'un gradient fort+plusieurs groupes Inertie totale >6: nombre d'espèces rares très grand ou matrice composées de données composites. À évaluer avant de procéder! – Attention aux 0 et aux valeurs extrêmes (peut-on les éliminer?!)

Analyse des correspondances (CA) réciprocal averaging, Dual scaling, Reciprocal ordering,...  Projections et interprétation: – Comme dans le cas des ACP: rapport valeur propre de l'axe/inertie totale=> proportion de variance exprimé par l'axe – Valeur propre>0.7: gradient fort sur le permier axe=> attn: effet Guttman (ou arch effect en ACP) [Agglutination due à une compression suite au fort gradient le long de l'axe] – Entre 0.4 et 0.7: gradient marqué et interprétable, effet Guttman probable – Entre 0.1 et 0.4: structure floue et pouvant être difficile à interpréter – <0.1: pas de structure du tout. – Ne pas interpréter les points-objets proches du centre – Projection orthogonale des descripteurs (espèces)=optimum – Les objets les plus proches se ressemblent – Les descripteurs (espèces) forment des associations mutuelles – Objets et descripteurs forment des correspondances

Analyse des correspondances (CA) réciprocal averaging, Dual scaling, Reciprocal ordering,...  Projections et interprétation: – Cadrage dépend de nos objectifs: scaling 1 (distance entre objets ou sites) ou 2 (corrélation entre descripteurs ie: espèces) – Scaling 1: site 17 et 19 Scaling 2:Empnig+Airpra+Hyprad abond. Antodo. Viclat+Leoauto abond. dans 11 et 18 (sont associées à des proportions similaires) Code R

Analyse en coordonnées principales (PCoA ou MDS) Metric multiDimensional Scaling  Matrice d'association (matrice de (dis)similarité ou de distance) revisitée: – PCoA (cmdscale en R) en mode Q de préférence sur des distances métriques (et euclidienne) – Les points-objets sont représentés dans un espace réduit tout en préservant les distance de la métrique de la matrice d'association – PcoA peut produire des valeurs propres négatives du fait de l'utilisation d'une distance non euclidienne: non interprétables – Les points-objets proches sont similaires – Se prête bien à tout type de variables ou leur combinaison – ACP appliquée sur une matrice de données quantitatives, MDS une alternative (données quantitatives: ex. Gower) – Résultat pouvant être superposable avec celui de la classification(partie classification)- Même distance! Code R

Cadrage Non-métrique multiDimensionnel (NMDS) Non - Metric multiDimensional Scaling  Également basée sur les matrices d'association (matrice de (dis)similarité ou de distance) : – On utilise isoMDS (MASS) ou metaMDS (vegan) en R – Dépend du nombre d'axes pré-définis – Contrairement au PCoA, peut s'appliquer à tous les types de matrices d'association – Pas de valeurs propres, juste une représentation des objets dans un espace réduit – Attention, opérations aléatoires, répéter jusqu'à convergence (réduction du stress mesure de qualité d'ajustement) Code R

Résumé  ACP (PCA): – Données quantitatives – Linéaire – Peut nécessiter une transformation préalable  AFC (CA): – Descripteurs de même nature – Unimodale – Peut engendrer effet Guttman=> DCA (AFC détendancée)  AcoP (PcoA) ou MDS: – Basée sur la matrice d'association appropriée – Matrice de distance métrique et euclidienne  NMDS – Basée sur la matrice d'association – Choix adéquat des dimensions et point de départ adéquat (aléatoire)

Méthodes d'ordination avec contraintes (Analyse de gradient direct)

Analyse de redondance  On dispose de deux matrices : Y ou espèces (variables dépendantes) et X ou « descripteurs » ou variables environnementales (variables indépendantes)  Recherche de la part de variation de la matrice Y expliquée par la matrice X  Axes principaux = combinaison linéaire de Y et l'ordination Y est contraintes (combinaison linéaire de X)  RDA dérive de PCA – Donc réponse linéaire – Distance euclidienne applicable – Transformation non nécessaire, centrage et réduction pris en charge  Projection: triplot (sites, espèces et variables environnementales)  en R, l'analyse est faite à l'aide de la fonction rda() Code R

Analyse de redondance  Résultat d'une rda en R: Partitioning of variance: Inertia Proportion Total Constrained Unconstrained Eigenvalues, and their contribution to the variance Importance of components: RDA1 RDA2 Eigenvalue Proportion Explained Cumulative Proportion Species scores RDA1 RDA2 Belper Empnig (...) Site scores (weighted sums of species scores) [WA: valeurs observées. Coordonnées où se trouvent les sites]] RDA1 RDA (...) Site constraints (linear combinations of constraining variables) [LC scores: Valeurs prédites: où devraient se trouver les sites (fitted values)] RDA1 RDA (...) Biplot scores for constraining variables RDA1 RDA2 A ManagementHF ManagementNM (...) Centroids for factor constraints RDA1 RDA2 ManagementBF ManagementHF (...) Corrélation entre ces deux types de scores=> corrélation espèces- env. (intersetcor de vegan)

Analyse de redondance  Projection et interprétation: – Interprétation idem que dans PCA: il faut tenir compte des variables explicatives L'angle d'ouverture entre les variables environnementales quantitatives=> degré de corrélation La valeur de la variable explicative quantitative dans un objet donné est reflétée par l'approximation de sa projection orthogonale sur l'axe de cette variable Pour une variable environnementale binaire, sa relation avec une variable réponse est trouvée en projetant le centroïde de la première sur la deuxième Cadrage revisité: – Scaling 1: approximation de la distance euclidienne – Scaling 2: corrélation entre une variable réponse et une variable explicative

Analyse canonique de correspondance (CCA)  Réponse unimodale tout comme l'AFC=notion d'optimum pour chacune des variables réponses (ie: espèces) pour chacune des variables explicatives (environnementales)  ACC ou CCA dérive de l'AFC (ou CA) + régression sur les variables explicatives;  Régressions multiples sur la matrice des probabilités conditionnelles (cf. CA);  À l'aide de tests de permutation (Monte Carlo)=>Évaluation des niveaux de signification des variables explicatives (terms en R) et des axes (axis). anova en R  Même interprétation que l'AFC  Recharger le cadrage: – Type 1: objet projeté orthogonalement sur l'axe d'une variable explicative quantitative=> approximation de sa valeur + objet à proximité du centroïde d'une variable explicative qualitative=>valeur de 1 pour cet objet sur cette variable Par défaut, les objets (sites) sont projetés dans l'espace des espèces en WA scores On peut aussi utiliser LC scores : projection dans l'espace des variables explicatives

Analyse canonique de correspondance (CCA) – Type 2: projection d'une variable réponse sur l'axe de la variable explicative=>optimum + variable réponse à proximité d'une var. qual.=> cette variable a une probabilité élevée d'appartenir à des objets ayant une valeur 1 (vs 0) pour cette variable explicative qualitative Il faut noter que les espèces sont placés au barycentre des objets (site scores) Code R

References and Resources Références: Jongman, R.H.G., ter Braak, C.J.G. and van Tongeren, O.F.R : Data analysis in community and landscape ecology (second edition). Cambridge : Cambridge University Press. Legendre, Pierre & Louis Legendre Numerical ecology. 2nd English edition. Elsevier Science BV, Amsterdam. Leps, J. and Smilauer, P : Multivariate analysis of ecological data using CANOCO. Cambridge : Cambridge University Press. Ressources: p://cc.oulu.fi/~jarioksa/opetus/metodi/vegantutor.pdfhtt p://cc.oulu.fi/~jarioksa/opetus/metodi/vegantutor.pdf

Lab  Chargez vos données – Principal Components Analysis – Correspondance Analysis – Non-Metric MultiDimensional Scaling – Redundancy analysis – Canonical correspondance analysis (CCA)

Méthodes d'ordination avec contraintes Compléments!

L'analyse en composantes principales (PCA) Exemple étapes PCA en R (calcul des valeurs propres et des vecteurs propres): library(vegan) data(dune) dune.scale<-scale(dune, center=T, scale=T) #center is TRUE then centering is done by subtracting the column means of x from their corresponding columns & center = FALSE, no centering is done + scale is TRUE then scaling is done by dividing the (centered) columns of x by their standard deviations dune.scale.moy<-apply(dune.scale, 2, sum) #Vérifier que la moyenne des colonnes est égale =0 dune.cov<-cov(dune.scale) #Matrie de covariance dune.eig<-eigen(dune.cov) #on extrait les valeurs propres à l'aide de la fonction eigen. Ces valeurs définissent les axes principaux (composantes principales): c'est le proportion (pourcentage) de variance expliquée par chacun des axes. dune.eigval<-dune.eig$values dune.eigval dune.eigval*100/sum(dune.eigval) #Proportion de variance de chacun des axes dune.eigvec<-dune.eig$vectors dune.eigvec #contribution (loadings) des descripteurs sur les axes principaux dune.scores<-dune.scale%*%dune.eigvec #Calculer les scores des sites

Analyse des correspondances (CA) réciprocal averaging, Dual scaling, Reciprocal ordering,... Exemple étapes CA en R (calcul des valeurs propres et des vecteurs propres): library(vegan) data(dune) dune.obs<-as.matrix(dune/sum(dune)) #matrice des fréquences observées lignes<-apply(dune.obs, 1, sum) #total des lignes Colones<-apply(dune.obs,2,sum) #total des colonnes dune.fr<-lignes%*%t(colonnes) #fréquences attendues dune.prop<- (dune.obs-dune.fr)/sqrt(dune.fr) #probabilités conditionnelles (doublement centrées sur les lignes et les colonnes) inertie_totale<-sum(dune.prop^2) #Somme totale des valeurs propres: variances) nval_prop<- min(nrow(dune), ncol(dune))-1 #nombre de valeurs propres val_vec_prop<-eigen(dune.prop%*%t(dune.prop)) valeurs_propres<-val_vec_prop$values vecteurs_propres<-val_vec_prop$vectors