Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Cours d‘Analyse de Données
ANALYSE GÉOMÉTRIQUE DES DONNÉES
GESTION DE PORTEFEUILLE chapitre n° 7
Démarches de modélisation
Formation en Analyse des Données
C1 Bio-statistiques F. KOHLER
Corrélations et ajustements linéaires.
Statistique et probabilités au collège
Régression -corrélation
Analyse Factorielle des Correspondances
Analyse en Composantes Principales
Traitement de données socio-économiques et techniques d’analyse :
Chapitre 2 Les indices.
Séminaire dAnalyses comparatives et enquête sociologique Séances 8 et 9 Lanalyse des résultats.
Analyse en Composante Principale (ACP)
Plans à groupes indépendants: organisation
Le modèle linéaire et l'approche multivariée en statistique
Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Groupe 1: Classes de même intervalle
La segmentation
Comprendre la variation dans les données: Notions de base
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
Exemple en dynamique de population
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD.
Séminaire d’Analyses comparatives et enquête sociologique
La corrélation et la régression multiple
La corrélation et la régression
La corrélation et la régression
Mécanique des Milieux continus ?
Le comportement des coûts Chapitre 3
Les analyses multivariées
Analyse factorielle de variance: Principes d’expérimentation
La régression multiple
« Analyses descriptives multidimensionnelles »
La décomposition en valeurs singulières: un outil fort utile
Méthodes de Biostatistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Lien entre deux variables
Présentation du marché obligataire
M2 Sciences des Procédés - Sciences des Aliments
Séance 8 30 novembre 2005 N. Yamaguchi
Présentation de l’ACP à travers un exemple
Outils d’analyse: la méthode des moindres carrées
1/16 Chapitre 3: Représentation des systèmes par la notion de variables d’état Contenu du chapitre 3.1. Introduction 3.2. Les variables d’état d’un système.
Analyse de données Cours 3 Analyse en composantes principales (ACP)
ETUDE DE 2 VARIABLES QUANTITATIVES
Régression linéaire (STT-2400)
STATISTIQUES.
Statistiques à 2 variables
Les dangers des drogues
Analyse des semis de point
Remise à niveau en statistique Eric Marcon – Module FTH 2006.
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Analyse de données avec R
MENU 1 Hypothèses du modèle linéaire YO = YT + e 2 blocs d’hypothèses -Sur les relations entre les variables -Sur le comportement de la variable aléatoire.
Corrélation et causalité
M. YAMANAKA – Cours de mathématiques. Classe de 4ème.
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
Lectures Volume du cours: Sections 12.1 à 12.6 inclusivement.
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
ETUDES PRONOSTIQUES Pr Ganry.
Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Hadrien Commenges Université Paris 7, Géographie-cités Hélène Mathian CNRS – Géographie-cités Claude Grasland Université Paris 7, Géographie-cités Introduction.
Analyse en Composantes Principales Vue synoptique.
Notions de statistiques et d’analyse de données Master 1 MGS – Sarah MISCHLER –
Analyse Factorielle des Correspondances Généralisation de l’A.C.P. adaptée au traitement de données qualitatives se présentant sous la forme d’un tableau.
Transcription de la présentation:

Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien

Introduction générale

Suite « logique » des statistiques descriptives à 2 dimensions H V O 1 O 2 O 3 O 4 Variable Observation (ex : station) V H O1 O2 O3 O4 Comment faire si on rajoute la variable classe de substrat ? Analyse multidimensionnelle (=multivariable) : Méthodes d’analyses où chaque observation est définie par plusieurs variables

Introduction générale Analyse multivariée permet de traiter des tableaux de données (type matrice) : Prélèvements Possibilités : - mesurer ressemblance entre objets et/ou variables, - grouper les obj./var. selon les ressemblances - ordonner et modéliser les obj./var. - tester statistiquement ces relations On compare donc : - la distance euclidienne entre les paires d’OBJET (Q) - le coefficient de dépendance entre les VARIABLES (R)

Introduction générale Ordination en espace réduit  mise en place de gradient Exemple :  Le but est d’ordonner des objets les uns par rapport aux autres de manière à éloigner les objets les plus différents en essayant de limiter le nombre de variables nécessaires (si plus de 2 variables).  On ajuste une droite de régression dans le nuage de points  Axe majeur maximise la dispersion (plus grand allongement du nuage de point) afin de faire ressortir les variations Centre de gravité des points  L'axe mineur est l'axe perpendiculaire à l'axe majeur

Introduction générale Chacun des axes caractérisés par une valeur propre (λ1 et λ2) Ellipse englobe tous les points  nouveau référentiel : objets ont des coordonnées « XY » Valeur propre : mesure de la quantité de variation du nuage de point absorbé par l’axe correspondant Vecteur propre : contribution de chaque variable à un axe

Introduction générale Axe 1 explique 80 % des variations et l’axe 2 20% Station X = a1 * pH + b1 * [CaCO3] a et b étant les paramètres de transfert de l'espace original dans le nouvel espace, défini par les axes principaux.

Si plus de 2 variables  peu intéressant de représenter toutes les paires possibles en 2d. Exemple pour 10 variables : Nb de plan possibles = (10*9)/2 = 45 But : projeter les données dans un nb réduit de dimensions orthogonales les unes aux autres qui représentent les principales tendances de variabilité Introduction générale

A BC A B B C A C A B C Axe 1 Axe Centre de gravité des points Décomposition factorielle permet une représentation graphique des données Analyse par représentation des objets (Q) soit des descripteurs (R) Axe 1 Axe A B C

Introduction générale Choix de l’analyse multivariée Les variables n’ont pas la même importance et ne jouent pas le même rôle Tableau de donnée ou matrice des corrélations (=ACP sur matrice carrée)

ACP : Analyse Composantes Principales Exemple d’ACP Morphologie de trois corbicules invasives de formes différentes (R, Rlc et S) Morphologie de trois espèces identifiées de corbicules Pigneur et al 2011

ACP : Analyse Composantes Principales ACP sur tableaux de données transformées particulièrement adaptés aux relevés taxonomiques en fonction conditions écologiques de stations Problème du double 0 : La distance euclidienne est symétrique considère le 0 comme une ressemblance contrairement aux autres transformations asymétriques (Bray- curtis, Chord, Khi², Hellinger). -Khi² donne + poids aux espèces rares contrairement aux autres transformations -Helliger donne souvent R² le + élevé. Ressemblance ou non ? Transformer les données :

AFC : Analyse Factorielle des correspondances ACP avec ordination mais distance du chi² entre objets  AFC Compare avec test Chi2 (F obs -F est )²/F est

AFC : Analyse Factorielle des correspondances Par convention on représente une AFC sous la forme d’un diagramme de dispersion avec objets et descripteurs (points) Proximité entre les points représente des affinités ou ressemblances (PAS 1 TEST STAT)  sert uniquement à représenter les axes principaux de variation des données.

AFC : Analyse Factorielle des correspondances Exemple d’AFC Question : décrire les associations entre 12 espèces déterminées de necton et la localisation des 12 stations

AFC : Analyse Factorielle des correspondances Exemple d’AFC

AFC : Analyse Factorielle des correspondances Exemple d’AFC

AFC : Analyse Factorielle des correspondances Exemple d’AFC

AFC : Analyse Factorielle des correspondances Exemple d’AFC Croise densité des Macroinvertébrés sur différents Macrophytes en fonction des traits biologiques des MI

ACP : Analyse Composantes Principales L'ACoP (ACP en R) repose sur le calcul de la distance euclidienne entre les objets en fonction de toutes les différentes variables.  coefficient de corrélation peut être exprimé comme un cosinus de triangle rectangle

ACP : Analyse Composantes Principales Axe principal (ACP) pointe dans la direction principale (Axe 1  valeur propre maxi)

ACP : Analyse Composantes Principales Les vecteurs propres mesurent la contribution de chaque espèce à un axe. Ces vecteurs propres nous servironst notamment à calculer les coordonnées des stations sur les nouveaux axes.

ACP : Analyse Composantes Principales Le passage d'un espace à 6 dimensions initiales défini par les 6 espèces à un espace à deux dimensions principales n'a pas modifié la matrice de distance euclidienne entre les stations.

ACP : Exercices TP Origine des données

ACP : Inter / Intra classes Comment étudier ce genre de données ? Effet temps ? Effet station ? Interaction des 2 effets ?

ACP : Inter / Intra classes Enlever un effet : ACP intragroupe a. Moyenne des variables pour date 1 b. Moyenne des variables pour date 2 c. Moyenne des variables pour date k a b c Analyse intragroupe : Centre de gravité des groupes au centre de l’ACP  Réduit effet de la variable sélectionnée  les individus (lignes) sont représentés avec une variance maxi autour de l’origine

ACP : Inter / Intra classes « Maximiser » un effet : ACP intergroupe Comme précédemment sauf que l’on additionne la moyenne de chaque groupe a b c Analyse intergroupe : Centre de gravité des groupes « étendu » le long de l’axe 1  maximise l’effet de la variable sélectionnée ACP Inter / Intra sont liées Inertie ACP tot = Inertie intragroupe + Inertie intergroupe

Méthode de couplage de tableaux Nb tableaux à « croiser » = 2 Si >2  Ktab Chaque tableau se décrit par un schéma de dualité. Les deux schémas sont cohérents s’ils partagent un espace euclidien sous jacent, 3 stratégies principales. Choix de la méthode dépend du jeu de données Les tableaux doivent être appariés par les lignes (stations, individus…), Si ce n’est pas le cas  transformation des tableaux. XY  Cf littérature existante très vaste…

Couplage de tableaux : Juxtaposition Plus simple et ancienne approche Attention : cette méthode fonctionne ssi l’inertie des deux tableaux est comparable MAIS technique à la base d’un type d’analyse en k-tab « Collage » de deux tableaux pour n’en former qu’un seul Méthode peu utilisée de nos jours, car il existe de meilleurs approches Méthode simple et intuitive Autres approches existantes : ordination, croisement…

Couplage de tableaux : Analyse coinertie Méthode qui découle de l’approche par croisement de tableaux Analyse très tolérante aux données (qlq soit équilibre des tableaux, var qualitative…) Double analyse d’inertie Cov² (Sx,Sy) = Var(Sx). Var (Sy). Cor (Sx,Sy) Variance maximisée pour les données env. Variance maximisée pour les données esp. Analyse canonique de corrélation RV = coefficient de corrélation entre les deux tableaux de données (0 – 1)

Couplage de tableaux : Analyse Canoniques des Correlations Expliquer Y par X en maximisant la variabilité de Y XY RDA  ACP de Y sous contrainte de X ACCorrespondances  AFC de Y sous contrainte de X On utilise pour cela une régression multiple : R² (Sy ~ Sx) Méthode parfaitement adaptée à l’étude des niches écologiques sur gradients environnementaux MAIS  pose le problème classique des régressions… Sx (Som. Coef./var X)  Y= α1x1 + α2x2 + … + αpxp + Σ  On cherche a minimiser les résidus  Donc rajouter des variables augmente le R² au détriment de la fiabilité du modèle Y peut avoir un nb de variables importants vis-à-vis du nb d’observations X DOIT avoir un faible nb de variables / nb observations (+/- 1/20)

ACC : Analyse Canoniques des Correspondances Objet  station Variables dépendantes  Espèce Variables explicatives : - binaire (étoiles)  Substrat - quantitatives (flèches)  physico-chimie Affinité  proj. orthogonale Affinité  proximité

ACC : Analyse Canoniques des Correspondances Exemple d’ACC Première ACC : 31 variables environnementalesPremière ACC : micro-habitats Axe 2 Axe 1 Axe 2 Axe 1

ACC : Analyse Canoniques des Correspondances Exemple d’ACC Première ACC : taxa Axe 2 Axe 1

ACC : Analyse Canoniques des Correspondances Exemple d’ACC Deuxième ACC : 11 variables sélectionnées par l’ARM Axe 1 Axe 2 Axe 1Axe 1

Ax e 1 ACC : Analyse Canoniques des Correspondances Exemple d’ACC Deuxième ACC : 11 variables sélectionnées par l’ARM Axe 1 Axe 2

ACC : Analyse Canoniques des Correspondances Exemple d’ACC Axe 2 Axe 1 Axe 2

Axe 1 Axe 2 ACC : Analyse Canoniques des Correspondances Exemple d’ACC Axe 2 Axe Ry del Vau Bois de Gesves Thon Scierie Champia Goyet

ACC : Analyse Canoniques des Correspondances Exemple d’ACC

ACC : Analyse Canoniques des Correspondances Exemple d’ACC

ACC : Analyse Canoniques des Correspondances Exemple d’ACC

ACC : Analyse Canoniques des Correspondances Exemple d’ACC

Test Permutation Test une hypothèse nulle Ho Construction d’une distribution basée sur nos données « On mélange » aléatoirement une colonne et on test la corrélation avec l’autre colonne On transforme la corrélation en statistique t. Si inférieure au seuil de signification (0.05) on accepte H1

Introduction générale On peut cadrer soit en conservant les distances euclidiennes entre les objets ou les descripteurs (variables)  dépend de la question initiale et de la représentation voulu: -corrélation des espèces par des angles (ex : phy/chi du sol en fonction du milieu) -le positionnement des objets entre eux (relation de différents groupes d’espèces) (indice de Jaccard…)