Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien

Slides:



Advertisements
Présentations similaires
Structures de données avancées : MLH (Multidimensional linear hashing)
Advertisements

Corrélation Position du problème Définition covariance (X,Y) r =
Cours d‘Analyse de Données
ANALYSE GÉOMÉTRIQUE DES DONNÉES
Formation en Analyse des Données
C1 Bio-statistiques F. KOHLER
Statistique et probabilités au collège
Régression -corrélation
Analyse Factorielle des Correspondances
Module SIG-Santé 15. Modélisation Marc SOURIS
Réalisation dun travail concret avec des matrices Afficher un objet 3D sur une surface Lui appliqué des transformations Le voir se transformer suivant.
Analyse en Composantes Principales
Traitement de données socio-économiques et techniques d’analyse :
ANALYSE FACTORIELLE DES CORRESPONDANCES
Chapitre 2 Les indices.
Séminaire dAnalyses comparatives et enquête sociologique Séances 8 et 9 Lanalyse des résultats.
Analyse en Composante Principale (ACP)
la statistique descriptive se compose de 3 domaines distincts :   
Chapitre 2: Les régularités et les relations
Concepts avancés en mathématiques et informatique appliquées
Méthode des k plus proches voisins
Groupe 1: Classes de même intervalle
SUJETS SPÉCIAUX EN INFORMATIQUE I PIF Contenu du cours Transformations géométriques des objets –Transformations 2D –Transformations entre systèmes.
Vers la dimension 3. La géométrie dans l'espace ne fait qu'étendre les concepts qui vous sont familiers en dimension 2 à la dimension 3. Le plus difficile.
Corrélation et régression linéaire simple
Exemple en dynamique de population
Séminaire d’Analyses comparatives et enquête sociologique
La corrélation et la régression multiple
Travaux pratiques sous matlab / octave
Structure discriminante (analyse discriminante)
Les analyses multivariées
Interprétation automatique
La régression multiple
Régression linéaire (STT-2400)
« Analyses descriptives multidimensionnelles »
REPRESENTATION GRAPHIQUE D ’UNE FONCTION AFFINE
La décomposition en valeurs singulières: un outil fort utile
Méthodes de Biostatistique
ANALYSE DE DONNEES TESTS D’ASSOCIATION
Analyse multivariée en écologie: méthodes d'ordination et de classification en R Abdoul Ousmane DIA Méthodes d'ordination 30 Mars 2010.
Présentation du marché obligataire
Sommaire Rappel introductif sur la définition de l’ACP
Séance 8 30 novembre 2005 N. Yamaguchi
Présentation de l’ACP à travers un exemple
L’étude du mouvement.
Outils d’analyse: la méthode des moindres carrées
Les Diagrammes de dispersion
1/16 Chapitre 3: Représentation des systèmes par la notion de variables d’état Contenu du chapitre 3.1. Introduction 3.2. Les variables d’état d’un système.
Analyse de données Cours 3 Analyse en composantes principales (ACP)
ETUDE DE 2 VARIABLES QUANTITATIVES
PROGRAMMATION SCIENTIFIQUE EN C PRO Approximation de fonctions et régression u Introduction –Analyse de la corrélation –Régression et méthode des.
Régression linéaire (STT-2400)
STATISTIQUES.
Statistiques à 2 variables
ΔΑΣΚΑΛΟΥ ΠΕΤΡΑ.
Les dangers des drogues
Distribution à deux variables
Détecter les groupes à hauts risques cardiaques à partir de caractéristiques telles que l’alimentation, le fait de fumer ou pas, les antécédents familiaux.
Analyse de données avec R
MENU 1 Hypothèses du modèle linéaire YO = YT + e 2 blocs d’hypothèses -Sur les relations entre les variables -Sur le comportement de la variable aléatoire.
Corrélation et causalité
ACP visualisation Représentation graphique: projection dans un plan de n individus à p caractères Un individu est un point d’un espace à p dimensions.
Mesures de description des valeurs des variables
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Hadrien Commenges Université Paris 7, Géographie-cités Hélène Mathian CNRS – Géographie-cités Claude Grasland Université Paris 7, Géographie-cités Introduction.
Analyse en Composantes Principales Vue synoptique.
Analyse Factorielle des Correspondances Généralisation de l’A.C.P. adaptée au traitement de données qualitatives se présentant sous la forme d’un tableau.
Transcription de la présentation:

Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien

Introduction générale Suite « logique » des statistiques descriptives à 2 dimensions H V O 1 O 2 O 3 O 4 Variable Observation (ex : station) V H O1 O2 O3 O4 Comment faire si on rajoute la variable classe de substrat ? Analyse multidimensionnelle (=multivariable) : Méthodes d’analyses où chaque observation est définie par plusieurs variables

Introduction générale Analyse multivariée permet de traiter des tableaux de données (type matrice) : Prélèvements Possibilités : - mesurer ressemblance entre objets et/ou variables, - grouper les obj./var. selon les ressemblances - ordonner et modéliser les obj./var. - tester statistiquement ces relations On compare donc : - la distance euclidienne entre les paires d’OBJET (Q) - le coefficient de dépendance entre les VARIABLES (R)

Introduction générale Ordination en espace réduit  mise en place de gradient Exemple :  Le but est d’ordonner des objets les uns par rapport aux autres de manière à éloigner les objets les plus différents en essayant de limiter le nombre de variables nécessaires (si plus de 2 variables).  On ajuste une droite de régression dans le nuage de points  Axe majeur maximise la dispersion (plus grand allongement du nuage de point) afin de faire ressortir les variations Centre de gravité des points  L'axe mineur est l'axe perpendiculaire à l'axe majeur

Introduction générale Chacun des axes caractérisés par une valeur propre (λ1 et λ2) Ellipse englobe tous les points  nouveau référentiel : objets ont des coordonnées « XY » Valeur propre : mesure de la quantité de variation du nuage de point absorbé par l’axe correspondant Vecteur propre : contribution de chaque variable à un axe

Introduction générale Axe 1 explique 80 % des variations et l’axe 2 20% Station X = a1 * pH + b1 * [CaCO3] a et b étant les paramètres de transfert de l'espace original dans le nouvel espace, défini par les axes principaux.

Si plus de 2 variables  peu intéressant de représenter toutes les paires possibles en 2d. Exemple pour 10 variables : Nb de plan possibles = (10*9)/2 = 45 But : projeter les données dans un nb réduit de dimensions orthogonales les unes aux autres qui représentent les principales tendances de variabilité Introduction générale

A BC A B B C A C A B C Axe 1 Axe Centre de gravité des points Décomposition factorielle permet une représentation graphique des données Analyse par représentation des objets (Q) soit des descripteurs (R) Axe 1 Axe A B C

Introduction générale Choix de l’analyse multivariée Les variables n’ont pas la même importance et ne jouent pas le même rôle Tableau de donnée ou matrice des corrélations (=ACP sur matrice carrée)

ACP : Analyse Composantes Principales Exemple d’ACP Morphologie de trois corbicules invasives de formes différentes (R, Rlc et S) Morphologie de trois espèces identifiées de corbicules Pigneur et al 2011

ACP : Analyse Composantes Principales L'ACoP (ACP en R) repose sur le calcul de la distance euclidienne entre les objets en fonction de toutes les différentes variables.  coefficient de corrélation peut être exprimé comme un cosinus de triangle rectangle

ACP : Analyse Composantes Principales Axe principal (ACP) pointe dans la direction principale (Axe 1  valeur propre maxi)

ACP : Analyse Composantes Principales Les vecteurs propres mesurent la contribution de chaque espèce à un axe. Ces vecteurs propres nous servironst notamment à calculer les coordonnées des stations sur les nouveaux axes.

ACP : Analyse Composantes Principales Le passage d'un espace à 6 dimensions initiales défini par les 6 espèces à un espace à deux dimensions principales n'a pas modifié la matrice de distance euclidienne entre les stations.

ACP : Analyse Composantes Principales ACP sur tableaux de données transformées particulièrement adaptés aux relevés taxonomiques en fonction conditions écologiques de stations Problème du double 0 : La distance euclidienne est symétrique considère le 0 comme une ressemblance contrairement aux autres transformations asymétriques (Bray- curtis, Chord, Khi², Hellinger). -Khi² donne + poids aux espèces rares contrairement aux autres transformations -Helliger donne souvent R² le + élevé. Ressemblance ou non ? Transformer les données :

AFC : Analyse Factorielle des correspondances ACP avec ordination mais distance du chi² entre objets  AFC Compare avec test Chi2 (F obs -F est )²/F est

AFC : Analyse Factorielle des correspondances Par convention on représente une AFC sous la forme d’un diagramme de dispersion avec objets et descripteurs (points) Proximité entre les points représente des affinités ou ressemblances (PAS 1 TEST STAT)  sert uniquement à représenter les axes principaux de variation des données.

AFC : Analyse Factorielle des correspondances Exemple d’AFC Question : décrire les associations entre 12 espèces déterminées de necton et la localisation des 12 stations

AFC : Analyse Factorielle des correspondances Exemple d’AFC

AFC : Analyse Factorielle des correspondances Exemple d’AFC

AFC : Analyse Factorielle des correspondances Exemple d’AFC

AFC : Analyse Factorielle des correspondances Exemple d’AFC Croise densité des Macroinvertébrés sur différents Macrophytes en fonction des traits biologiques des MI

ACC : Analyse Canoniques des Correspondances Variables explicatives  démarche descriptive par ordination (si var.>2) Ordination : - matrice X représente les différents objets (stations) en fonctions de variables explicatives (variables environnementales).  Objets (ex : stations) se répartissent dans un espace à n dimensions, formé par nos n variables (ex: environnementales) - détermine les composantes principales, (2 axes de plus grandes variances), le long desquels se séparent au mieux nos objets (ex: stations) et qui vont former le plan de discrimination maximale de nos objets - le logiciel va combiner la matrice Y, mettant en relation nos objets (ex: stations) avec nos descripteurs (ex: taxa), à ce plan correspondant à la matrice explicative, X XY

ACC : Analyse Canoniques des Correspondances Régression : - élimination des variables peu explicatives (non intéressantes ou fortement corrélées) et on ne retenir que les prépondérantes pour l'explication de la répartition de nos taxa - le modèle va choisir la variable la plus explicative; puis, en testant les autres 2 à 2, ils va choisir les autres variables explicatives, indépendantes les unes des autres. C'est ce qu'on appelle une régression stepwise (pas à pas). On obtient une nouvelle ACC avec, cette fois, un nombre restreint de variables explicatives (ex : choix de celle avec moins de 5% d'erreur).

ACC : Analyse Canoniques des Correspondances Objet  station Variables dépendantes  Espèce Variables explicatives : - binaire (étoiles)  Substrat - quantitatives (flèches)  physico-chimie Affinité  proj. orthogonale Affinité  proximité

ACC : Analyse Canoniques des Correspondances Exemple d’ACC Première ACC : 31 variables environnementalesPremière ACC : micro-habitats Axe 2 Axe 1 Axe 2 Axe 1

ACC : Analyse Canoniques des Correspondances Exemple d’ACC Première ACC : taxa Axe 2 Axe 1

ACC : Analyse Canoniques des Correspondances Exemple d’ACC Deuxième ACC : 11 variables sélectionnées par l’ARM Axe 1 Axe 2 Axe 1Axe 1

Ax e 1 ACC : Analyse Canoniques des Correspondances Exemple d’ACC Deuxième ACC : 11 variables sélectionnées par l’ARM Axe 1 Axe 2

ACC : Analyse Canoniques des Correspondances Exemple d’ACC Axe 2 Axe 1 Axe 2

Axe 1 Axe 2 ACC : Analyse Canoniques des Correspondances Exemple d’ACC Axe 2 Axe Ry del Vau Bois de Gesves Thon Scierie Champia Goyet

ACC : Analyse Canoniques des Correspondances Exemple d’ACC

ACC : Analyse Canoniques des Correspondances Exemple d’ACC

ACC : Analyse Canoniques des Correspondances Exemple d’ACC

ACC : Analyse Canoniques des Correspondances Exemple d’ACC

Introduction générale On peut cadrer soit en conservant les distances euclidiennes entre les objets ou les descripteurs (variables)  dépend de la question initiale et de la représentation voulu: -corrélation des espèces par des angles (ex : phy/chi du sol en fonction du milieu) -le positionnement des objets entre eux (relation de différents groupes d’espèces) (indice de Jaccard…)