Le modèle linéaire et l'approche multivariée en statistique

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

ANOVA à un facteur (Rehailia)
Probabilités et statistiques au lycée
Des modèles statistiques non-linéaires à effets mixtes et leurs extensions pour analyser la réponse de « la » biodiversité à des variables écologiques.
Gestion de portefeuille
Gestion de portefeuille
GESTION DE PORTEFEUILLE chapitre n° 7
Chapitre 5. Description numérique d’une variable statistique.
C1 Bio-statistiques F. KOHLER
Inférence statistique
Comparaison de plusieurs moyennes observées
Régression ou corrélation
Comparaison de plusieurs moyennes Analyse de variance
Les tests d’hypothèses
Comparaison de plusieurs moyennes Analyse de variance
Régression -corrélation
Programmes du cycle terminal
Analyse en Composantes Principales
COURS 5 Les tableaux croisés, le chi-carré et la corrélation
Chapitre 2 Les indices.
Plans à groupes indépendants: organisation

Statistiques Séance 9 – 6 décembre 2005 N. Yamaguchi.
La Régression Multiple
Etude longitudinale d’essais multilocaux: apports du modèle mixte
Régression linéaire simple
Groupe 1: Classes de même intervalle
DEA Perception et Traitement de l’Information
L’Analyse de Covariance
Corrélation et régression linéaire simple
L’Analyse de Variance 1 Généralités Le modèle Calculs pratiques
ELEMENTS DE COURS 1. LERIDON H., TOULEMON L. (1997) – Démographie. Approche Statistiques et dynamique des populations. Paris, Economica. 2. FALISSARD.
La corrélation et la régression multiple
La corrélation et la régression
La corrélation et la régression
Les modèles linéaires (Generalized Linear Models, GLM)
Corrélation Principe fondamental d’une analyse de corrélation
Le comportement des coûts Chapitre 3
Structure discriminante (analyse discriminante)
Les analyses multivariées
Analyse factorielle de variance: Principes d’expérimentation
Régression linéaire (STT-2400)
La régression multiple
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Statistique Descriptive Analyse des données
Méthodologie expérimentale : l’analyse des données
Chapitre 3-B : AUTOMATIQUE : LES S.L.C.I.
ANALYSE DE DONNEES TESTS D’ASSOCIATION
STATISTIQUES DESCRIPTIVES
Micro-intro aux stats.
M2 Sciences des Procédés - Sciences des Aliments
Séance 8 30 novembre 2005 N. Yamaguchi
STATISTIQUES – PROBABILITÉS
ANOVA à 1 facteur en groupes de mesure indépendants
Sériation et traitement de données archéologiques
Probabilités et Statistiques Année 2010/2011
TNS et Analyse Spectrale
Étude de l’écoulement moyen
Principales distributions théoriques
STATISTIQUE INFERENTIELLE LES TESTS STATISTIQUES
Méthode des moindres carrés (1)
Probabilités et Statistiques
University of Ottawa - Bio 4118 – Applied Biostatistics © Antoine Morin and Scott Findlay 13/08/2015 6:59 PM Bootstrap et permutations.
Remise à niveau en statistique Eric Marcon – Module FTH 2006.
ECHANTILLONAGE ET ESTIMATION
Comparaison de plusieurs moyennes observées
Tests relatifs aux variables qualitatives: Tests du Chi-deux.
Introduction aux statistiques Intervalles de confiance
Introduction à l’analyse multidimensionnelle Master BOE LATLI Adrien
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Transcription de la présentation:

Le modèle linéaire et l'approche multivariée en statistique

I Le modèle linéaire II Approche multivariée en statistique III Utilisation IV Rapprochements

A la base du modèle linéaire : la comparaison de moyennes Population 1 Population 2 M1,s1 M2, s2 Echantillonnage m1,s1 m2,s2  Comment comparer les deux populations à partir d'un échantillon réduit?  Comparaison de moyennes

Construction du test  On suppose que X1N(M1,s) X2 N(M2,s)  On en déduit (propriété de variables suivant des lois normales indépendantes) que  Test de Student

La comparaison de moyennes, vision intuitive Distribution A Distribution B sB≠sA M1≠M2 M1=M2  Que conclure?

Les statistiques univariées = statistiques paramétriques  On fait des hypothèses sur les lois statistiques des variables mesurées  Il faut vérifier ces hypothèses avant de construire les tests  Il existe parfois des solutions (transformation des variables)  Il existe des tests non-paramétriques, moins puissants, moins souples

Le modèle linéaire Prediction? n observations Variable expliquée Variables/facteurs explicatifs Paramètres Erreur Prediction?

Exemple : régression à deux variables n observations Variable expliquée Variables/facteurs explicatifs Paramètres Erreur

Les hypothèses du modèle linéaire Les erreurs, ei, sont des variables aléatoires  Les ei sont indépendants  Les ei suivent des lois normales  Les ei ont des espérances nulles  Les ei ont une variance commune s2  ei ,ei N (0, s2) et les ei sont indépendants

Estimation des paramètres Régression ANOVA Trt 1 Trt 2 Trt 3 Observées Prédites Erreurs  Quels sont les paramètres sur ces figures?  Pour déterminer les paramètres du modèle on cherche à minimiser la somme des carrés des erreurs  Pourquoi utiliser les carrés?

Estimation des paramètres  Il existe une formule générale basée sur l'expression matricielle du problème  L'existence et la multiplicité des solutions dépendent des propriétés algébriques de X  Rang de X et nombre de paramètres

Tests Trt 1 Trt 2 Trt 3  Le traitement a un effet significatif si la variabilité due au traitement est suffisamment élevée par rapport à la variabilité résiduelle  Sous H0

Notion de degré de liberté ANOVA un facteur, 3 modalités 4 5 4 Trt 1 Trt 2 Trt 3  Degré de liberté pour le modèle = nb de paramètres à estimer-1 = 3 -1 =2  Degré de liberté total = nb observations-1 = 5+4+4-1=12  Degré de liberté résiduel = dl total – dl modèle=10

Degré de liberté  Plus on estime de paramètres plus la variabilité intra (expliquée) augmente / variabilité inter (résiduelle)  A l'extrême si on estime autant de paramètres que d'observation le modèle explique toute la variabilité mais le trt ne peux plus être significatif parce qu'on divise par le dl modèle  Attention au sur-paramétrage, importance du nombre de répétitions

PAS DE PANIQUE!!!

Un exemple de sortie : analyse de la densité apparente du sol des pâturages amazoniens

ATTENTION!!!!!!!!!!! Prévoir le bon dispositif expérimental Utiliser/prévoir le bon modèle statistique

ANOVA : variable continue = f(facteur discret) Un facteur Trt 1 Trt 2 Trt 3 Deux facteurs .... Décomposition à volonté de la variance Supposons le trt1 ayant un effet significatif  Quelle information manque-t-il?  Comparaison multiple de moyenne

Comparaison de moyenne multiple Conclusion: C, FM > FP

La notion d'interaction Engrais 1 Engrais 2 DL 2-1 2x2-1 total=5 Herbicide 1 Herbicide 2 Ecriture conventionnelle du modèle  production = engrais herbicide engrais X herbicide Problème avec cette représentation du plan d'expérience

Régression : variable continue =f(variable continue)

ANCOVA : Analyse de Covariance variable continue = f(facteur discret,variable continue) Exemple: effet de vers de terre sur la biomasse végétale Ecriture conventionnelle du modèle  production = engrais vers engrais X vers

Modèles plus compliqués  Il existe des modèles adaptés à tous les plans d'expérience  Exemple de l'ANOVA hiérarchisée Parcelle 1 Parcelle 2 Parcelle 3 SOL 1 Parcelle 4 Parcelle 5 Parcelle 6 SOL 2 Ecriture du modèle  densité = sol parcelle X sol

Le modèle linéaire généralisé Quel type de variable expliquée n'a pas été traité?  Variable qualitative!! Pourquoi ne pas utiliser un modèle linéaire classique?  Les résidus ne peuvent pas suivre une loi normale  La variance des résidus ne peut être constante Variable binaire Formulation générale f : fonction de lien ei suivent une distribution adhoc

Estimation et tests Estimation basée par maximisation de la vraisemblance par itérations successives Tests basés sur le chi2

La régression logistique : distribution binomiale probabilité =logistique(variable continue) 1 Variable qualitative Variable qualitative Variable explicative = x Variable explicative= x Autres possibilités  Plus d'une modalité  Plusieurs variables explicatives

Analyse logit des tableaux de contingence: distribution binomiale On échantillonne des individus qui sont classés en fonction de plusieurs facteurs discrets  Comment ces variables influencent-elles la quantité d'individus trouvés?  "Analyse de variance" pour variables discrètes  On peut combiner les variables explicatives discrètes et continues

Exemple : effet du sexe, du nb de feuille et du milieu sur la maturité sexuelle d'un palmier (Barot et al. 2005) Attalea speciosa Mart. : Babaçu

Résultats

II Approche multivariée en statistique III Utilisation I Le modèle linéaire II Approche multivariée en statistique III Utilisation IV Rapprochements Statistique exploratoire multidimensionnelle Lebart et al. Dunod 2000 3ième édition

Type de données Exemples? Relevés faune/flore Caractérisation d'espèces du milieu physique

D'abord un problème de représentation 3 dimensions ? n dimensions

Initialement deux approches

Résumer un jeu de données compliqués Comment choisir les axes de projections?

Classer des observations : Classification hiérarchique On regroupe 2 à 2 les observations et les groupes d'observations Nombre de groupes final 2 dimensions à n dimension Problèmes? Position des groupes d'observations

Analyse en Composantes Principales : variables continues Calcul de distance (p variables) On choisit F1 de façon à maximiser F1 F2 Puis F2 ...

Analyse en Composantes Principales : variables continues . . . . 0.5 Obs 1 0.1 0.5 . . . . Obs 2 0.9 0.4 1.9 . . . . Obs 3 1.9 1.1 1.1 . . . . Obs 4 1.2 0.3 1.9 . . . . ... . ... . ... . ... . ... .

Projections dans les plans factoriels (nouveau repère) X3 F3 F1 F2 X1 F3 X2 F2 F1 F1

Le cercle des corrélations X3 F3 F1 F2 X1 Projections des axes initiaux (variables observées) F2 X2 X3 X1 F1 X3 X4

Passer d'une représentation à l'autre

Choix du nombre d'axes factoriel Inertie Inertie Axes factoriels Axes factoriels Inertie Axes factoriels

Analyse Factorielle des Correspondances : variables discrète . . . . Obs 1 1 . . . . Les colonnes et les lignes jouent un rôle symétrique! Obs 2 1 . . . . Obs 3 1 1 1 . . . . Obs 4 1 . . . . ... . ... . ... . ... . ... .

Analyse Factorielle des Correspondances : variables discrète Utilisation de la distance du chi2

Projection des variables et des observation dans le même espaces F2 +V3 +V1 +V2 F1 +V4 Observations

Analyse discriminante X3 F1 X1 X2 On cherche la combinaison linéaire des variables continues observées qui "discriminent" le mieux les observations en fonction d'un critère discret  Ex : Détermination "automatique" d'espèces

Analyse multi-tableau Relevés d'espèces Traits des espèces Caractéristiques environnementales Recherche d'une structure commune, Analyse de coinertie

I Le modèle linéaire II Approche multivariée en statistique III Utilisation IV Rapprochements

Statistiques multivariées Modèle linéaire  Tests  Statistiques paramétriques  Modèles adaptés pour chaque plan d'expérience / d'échantillonnage  Séparation des sources de variance à volonté Statistiques multivariées  Pas de tests, statistiques descriptives  Statistiques non paramétriques  Tient peu compte du plan d'expérience  Indispensable pour des données fondamentalement multivariées

La réalité est fondamentalement multivariée!!!! Modèle linéaire  Parfaitement adapté à la méthode expérimentale  Tests planifiés d'hypothèses simples  On connaît a priori les facteurs clefs Statistiques multivariées  Méthodes exploratoires  On connaît mal le système étudié

II Approche multivariée en statistique III Utilisation I Le modèle linéaire II Approche multivariée en statistique III Utilisation IV Rapprochements Le mutltivarié et le modèle linéaire on tendance à converger

ANOVA après une analyse multivariée  On effectue une expérience  On mesure de nombreuses variables dans chaque unités expérimentales  On ne sait pas a priori quelle est la variable la plus sensible aux différents traitements ni comment les variables covarient  On effectue une Analyse en Composantes Principales sur l'ensemble de variables  On applique un modèle linéaire classique aux coordonnés suivant les premiers axes factoriels

MANOVA : Analyse de Variance Multivariée  On applique le même modèle d'ANOVA à toutes les variables mesurées  Il existe un test composite testant l'effet global des facteurs inclus dans l'ANOVA sur l'ensemble des variables

Tests par randomisation  Test de permutation On souhaite faire une ANOVA mais la variable ne vérifie pas les hypothèses (normalité, égalité des variance) X 1000 ANOVA Variable Traitement A 0.4 1000 valeur de F 0.8 B Permutations aléatoires 0.6 A B 0.4 0.3 A 5 % . .. . .. Fréquence F observé F  Rééchantillonnage

Tests de permutation en analyse multivariée Variables Traitement On regarde dans quel cas la somme des "inerties" par traitement est la plus faible 0.4 . .. A 0.4 1000 Permutations aléatoires 0.8 0.8 B 0.6 0.6 A 0.4 . .. B 0.4 0.3 0.3 A . . . . X3 X3 F1 F1 X1 X1 X2 X2 Permuté Observé

Experience: augmenter la biodiversité dans les pâturages amazoniens

Experience: augementer la biodiversité dans les pâturages amazoniens Légumineuse Herbacée B: Brachiaria brizantha pasture Poaceae A: Arachis pintoi Ligneuse S: Solanum rugosum L: Leucaena leucocephala

Dsispositif expérimental  Toutes combinaisons de 1, 2,3 ou 4 espèces : 17 parcelles, 10 X 10 m chacune BLAS C A LAS BA BLA B LA BAS S BL LS L AS BS BLS Pas de bétail Bétail  Dispositif répété 3 fois, dans 3 pâturages  Plusieurs répétitions pour toutes les variables mesurées dans chaque parcelle : macrofaune, sol ...

Traitements P<0.01 ort dip iso hem div col gas for lar chi ara ver BL AS BA LAS T LS BLS BAS BLA S BLAS B L A BS Te -3.8 3.5 -6.5 2.3 ort dip iso hem div col gas for lar chi ara ver ter P<0.01

Pâturages C J L -3.5 3.5 -6.5 2.2 P< 0.01

Biodiversité 2 3 T 1 4 -3.3 -6 1.8 P<0.13

Possibilité de faire des statistiques univariées sur les mêmes données? Intérêt de faire des statistiques univariées?