La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien

Présentations similaires


Présentation au sujet: "Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien"— Transcription de la présentation:

1 Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien adrien.latli@unamur.be

2 Introduction générale

3 Suite « logique » des statistiques descriptives à 2 dimensions H V O 1 O 2 O 3 O 4 Variable Observation (ex : station) V H O1 O2 O3 O4 Comment faire si on rajoute la variable classe de substrat ? Analyse multidimensionnelle (=multivariable) : Méthodes d’analyses où chaque observation est définie par plusieurs variables

4 Introduction générale Analyse multivariée permet de traiter des tableaux de données (type matrice) : Prélèvements Possibilités : - mesurer ressemblance entre objets et/ou variables, - grouper les obj./var. selon les ressemblances - ordonner et modéliser les obj./var. - tester statistiquement ces relations On compare donc : - la distance euclidienne entre les paires d’OBJET (Q) - le coefficient de dépendance entre les VARIABLES (R)

5 Introduction générale Ordination en espace réduit  mise en place de gradient Exemple :  Le but est d’ordonner des objets les uns par rapport aux autres de manière à éloigner les objets les plus différents en essayant de limiter le nombre de variables nécessaires (si plus de 2 variables).  On ajuste une droite de régression dans le nuage de points  Axe majeur maximise la dispersion (plus grand allongement du nuage de point) afin de faire ressortir les variations Centre de gravité des points  L'axe mineur est l'axe perpendiculaire à l'axe majeur

6 Introduction générale Chacun des axes caractérisés par une valeur propre (λ1 et λ2) Ellipse englobe tous les points  nouveau référentiel : objets ont des coordonnées « XY » Valeur propre : mesure de la quantité de variation du nuage de point absorbé par l’axe correspondant Vecteur propre : contribution de chaque variable à un axe

7 Introduction générale Axe 1 explique 80 % des variations et l’axe 2 20% Station X = a1 * pH + b1 * [CaCO3] a et b étant les paramètres de transfert de l'espace original dans le nouvel espace, défini par les axes principaux.

8 Si plus de 2 variables  peu intéressant de représenter toutes les paires possibles en 2d. Exemple pour 10 variables : Nb de plan possibles = (10*9)/2 = 45 But : projeter les données dans un nb réduit de dimensions orthogonales les unes aux autres qui représentent les principales tendances de variabilité Introduction générale

9 A BC 1 2 3 4 A B 1 2 3 4 B C 1 2 3 4 A C 1 2 3 4 A B 1 2 3 4 C Axe 1 Axe 2 1 2 3 4 Centre de gravité des points Décomposition factorielle permet une représentation graphique des données Analyse par représentation des objets (Q) soit des descripteurs (R) Axe 1 Axe 2 1 2 3 4 A B C

10 Introduction générale Choix de l’analyse multivariée Les variables n’ont pas la même importance et ne jouent pas le même rôle Tableau de donnée ou matrice des corrélations (=ACP sur matrice carrée)

11 ACP : Analyse Composantes Principales Exemple d’ACP Morphologie de trois corbicules invasives de formes différentes (R, Rlc et S) Morphologie de trois espèces identifiées de corbicules Pigneur et al 2011

12 ACP : Analyse Composantes Principales ACP sur tableaux de données transformées particulièrement adaptés aux relevés taxonomiques en fonction conditions écologiques de stations Problème du double 0 : La distance euclidienne est symétrique considère le 0 comme une ressemblance contrairement aux autres transformations asymétriques (Bray- curtis, Chord, Khi², Hellinger). -Khi² donne + poids aux espèces rares contrairement aux autres transformations -Helliger donne souvent R² le + élevé. Ressemblance ou non ? Transformer les données :

13 AFC : Analyse Factorielle des correspondances ACP avec ordination mais distance du chi² entre objets  AFC Compare avec test Chi2 (F obs -F est )²/F est

14 AFC : Analyse Factorielle des correspondances Par convention on représente une AFC sous la forme d’un diagramme de dispersion avec objets et descripteurs (points) Proximité entre les points représente des affinités ou ressemblances (PAS 1 TEST STAT)  sert uniquement à représenter les axes principaux de variation des données.

15 AFC : Analyse Factorielle des correspondances Exemple d’AFC Question : décrire les associations entre 12 espèces déterminées de necton et la localisation des 12 stations

16 AFC : Analyse Factorielle des correspondances Exemple d’AFC

17 AFC : Analyse Factorielle des correspondances Exemple d’AFC

18 AFC : Analyse Factorielle des correspondances Exemple d’AFC

19 AFC : Analyse Factorielle des correspondances Exemple d’AFC Croise densité des Macroinvertébrés sur différents Macrophytes en fonction des traits biologiques des MI

20 ACP : Analyse Composantes Principales L'ACoP (ACP en R) repose sur le calcul de la distance euclidienne entre les objets en fonction de toutes les différentes variables.  coefficient de corrélation peut être exprimé comme un cosinus de triangle rectangle

21 ACP : Analyse Composantes Principales Axe principal (ACP) pointe dans la direction principale (Axe 1  valeur propre maxi)

22 ACP : Analyse Composantes Principales Les vecteurs propres mesurent la contribution de chaque espèce à un axe. Ces vecteurs propres nous servironst notamment à calculer les coordonnées des stations sur les nouveaux axes.

23 ACP : Analyse Composantes Principales Le passage d'un espace à 6 dimensions initiales défini par les 6 espèces à un espace à deux dimensions principales n'a pas modifié la matrice de distance euclidienne entre les stations.

24 ACP : Exercices TP Origine des données

25 ACP : Inter / Intra classes Comment étudier ce genre de données ? Effet temps ? Effet station ? Interaction des 2 effets ?

26 ACP : Inter / Intra classes Enlever un effet : ACP intragroupe a. Moyenne des variables pour date 1 b. Moyenne des variables pour date 2 c. Moyenne des variables pour date k a b c Analyse intragroupe : Centre de gravité des groupes au centre de l’ACP  Réduit effet de la variable sélectionnée  les individus (lignes) sont représentés avec une variance maxi autour de l’origine

27 ACP : Inter / Intra classes « Maximiser » un effet : ACP intergroupe Comme précédemment sauf que l’on additionne la moyenne de chaque groupe a b c Analyse intergroupe : Centre de gravité des groupes « étendu » le long de l’axe 1  maximise l’effet de la variable sélectionnée ACP Inter / Intra sont liées Inertie ACP tot = Inertie intragroupe + Inertie intergroupe

28 Méthode de couplage de tableaux Nb tableaux à « croiser » = 2 Si >2  Ktab Chaque tableau se décrit par un schéma de dualité. Les deux schémas sont cohérents s’ils partagent un espace euclidien sous jacent, 3 stratégies principales. Choix de la méthode dépend du jeu de données Les tableaux doivent être appariés par les lignes (stations, individus…), Si ce n’est pas le cas  transformation des tableaux. XY  Cf littérature existante très vaste…

29 Couplage de tableaux : Juxtaposition Plus simple et ancienne approche Attention : cette méthode fonctionne ssi l’inertie des deux tableaux est comparable MAIS technique à la base d’un type d’analyse en k-tab « Collage » de deux tableaux pour n’en former qu’un seul Méthode peu utilisée de nos jours, car il existe de meilleurs approches Méthode simple et intuitive Autres approches existantes : ordination, croisement…

30 Couplage de tableaux : Analyse coinertie Méthode qui découle de l’approche par croisement de tableaux Analyse très tolérante aux données (qlq soit équilibre des tableaux, var qualitative…) Double analyse d’inertie Cov² (Sx,Sy) = Var(Sx). Var (Sy). Cor (Sx,Sy) Variance maximisée pour les données env. Variance maximisée pour les données esp. Analyse canonique de corrélation RV = coefficient de corrélation entre les deux tableaux de données (0 – 1)

31 Couplage de tableaux : Analyse Canoniques des Correlations Expliquer Y par X en maximisant la variabilité de Y XY RDA  ACP de Y sous contrainte de X ACCorrespondances  AFC de Y sous contrainte de X On utilise pour cela une régression multiple : R² (Sy ~ Sx) Méthode parfaitement adaptée à l’étude des niches écologiques sur gradients environnementaux MAIS  pose le problème classique des régressions… Sx (Som. Coef./var X)  Y= α1x1 + α2x2 + … + αpxp + Σ  On cherche a minimiser les résidus  Donc rajouter des variables augmente le R² au détriment de la fiabilité du modèle Y peut avoir un nb de variables importants vis-à-vis du nb d’observations X DOIT avoir un faible nb de variables / nb observations (+/- 1/20)

32 ACC : Analyse Canoniques des Correspondances Objet  station Variables dépendantes  Espèce Variables explicatives : - binaire (étoiles)  Substrat - quantitatives (flèches)  physico-chimie Affinité  proj. orthogonale Affinité  proximité

33 ACC : Analyse Canoniques des Correspondances Exemple d’ACC Première ACC : 31 variables environnementalesPremière ACC : micro-habitats Axe 2 Axe 1 Axe 2 Axe 1

34 ACC : Analyse Canoniques des Correspondances Exemple d’ACC Première ACC : taxa Axe 2 Axe 1

35 ACC : Analyse Canoniques des Correspondances Exemple d’ACC Deuxième ACC : 11 variables sélectionnées par l’ARM Axe 1 Axe 2 Axe 1Axe 1

36 Ax e 1 ACC : Analyse Canoniques des Correspondances Exemple d’ACC Deuxième ACC : 11 variables sélectionnées par l’ARM Axe 1 Axe 2

37 ACC : Analyse Canoniques des Correspondances Exemple d’ACC Axe 2 Axe 1 Axe 2

38 Axe 1 Axe 2 ACC : Analyse Canoniques des Correspondances Exemple d’ACC Axe 2 Axe 1 2003 2004 2005 2000 200 2 Ry del Vau Bois de Gesves Thon Scierie Champia Goyet

39 ACC : Analyse Canoniques des Correspondances Exemple d’ACC

40 ACC : Analyse Canoniques des Correspondances Exemple d’ACC

41 ACC : Analyse Canoniques des Correspondances Exemple d’ACC

42 ACC : Analyse Canoniques des Correspondances Exemple d’ACC

43 Test Permutation Test une hypothèse nulle Ho Construction d’une distribution basée sur nos données « On mélange » aléatoirement une colonne et on test la corrélation avec l’autre colonne On transforme la corrélation en statistique t. Si inférieure au seuil de signification (0.05) on accepte H1

44 Introduction générale On peut cadrer soit en conservant les distances euclidiennes entre les objets ou les descripteurs (variables)  dépend de la question initiale et de la représentation voulu: -corrélation des espèces par des angles (ex : phy/chi du sol en fonction du milieu) -le positionnement des objets entre eux (relation de différents groupes d’espèces) (indice de Jaccard…)


Télécharger ppt "Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien"

Présentations similaires


Annonces Google