Télécharger la présentation
Publié parAmédéé Jacquin Modifié depuis plus de 10 années
1
Le modèle linéaire et l'approche multivariée en statistique
2
I Le modèle linéaire II Approche multivariée en statistique III Utilisation IV Rapprochements
3
A la base du modèle linéaire : la comparaison de moyennes
Population 1 Population 2 M1,s1 M2, s2 Echantillonnage m1,s1 m2,s2 Comment comparer les deux populations à partir d'un échantillon réduit? Comparaison de moyennes
4
Construction du test On suppose que X1N(M1,s) X2 N(M2,s)
On en déduit (propriété de variables suivant des lois normales indépendantes) que Test de Student
5
La comparaison de moyennes, vision intuitive
Distribution A Distribution B sB≠sA M1≠M2 M1=M2 Que conclure?
6
Les statistiques univariées = statistiques paramétriques
On fait des hypothèses sur les lois statistiques des variables mesurées Il faut vérifier ces hypothèses avant de construire les tests Il existe parfois des solutions (transformation des variables) Il existe des tests non-paramétriques, moins puissants, moins souples
7
Le modèle linéaire Prediction? n observations Variable expliquée
Variables/facteurs explicatifs Paramètres Erreur Prediction?
8
Exemple : régression à deux variables
n observations Variable expliquée Variables/facteurs explicatifs Paramètres Erreur
9
Les hypothèses du modèle linéaire
Les erreurs, ei, sont des variables aléatoires Les ei sont indépendants Les ei suivent des lois normales Les ei ont des espérances nulles Les ei ont une variance commune s2 ei ,ei N (0, s2) et les ei sont indépendants
10
Estimation des paramètres
Régression ANOVA Trt 1 Trt 2 Trt 3 Observées Prédites Erreurs Quels sont les paramètres sur ces figures? Pour déterminer les paramètres du modèle on cherche à minimiser la somme des carrés des erreurs Pourquoi utiliser les carrés?
11
Estimation des paramètres
Il existe une formule générale basée sur l'expression matricielle du problème L'existence et la multiplicité des solutions dépendent des propriétés algébriques de X Rang de X et nombre de paramètres
12
Tests Trt 1 Trt 2 Trt 3 Le traitement a un effet significatif si la variabilité due au traitement est suffisamment élevée par rapport à la variabilité résiduelle Sous H0
13
Notion de degré de liberté ANOVA un facteur, 3 modalités
4 5 4 Trt 1 Trt 2 Trt 3 Degré de liberté pour le modèle = nb de paramètres à estimer-1 = 3 -1 =2 Degré de liberté total = nb observations-1 = =12 Degré de liberté résiduel = dl total – dl modèle=10
14
Degré de liberté Plus on estime de paramètres plus la variabilité intra (expliquée) augmente / variabilité inter (résiduelle) A l'extrême si on estime autant de paramètres que d'observation le modèle explique toute la variabilité mais le trt ne peux plus être significatif parce qu'on divise par le dl modèle Attention au sur-paramétrage, importance du nombre de répétitions
15
PAS DE PANIQUE!!!
16
Un exemple de sortie : analyse de la densité apparente du sol des pâturages amazoniens
17
ATTENTION!!!!!!!!!!! Prévoir le bon dispositif expérimental
Utiliser/prévoir le bon modèle statistique
18
ANOVA : variable continue = f(facteur discret)
Un facteur Trt 1 Trt 2 Trt 3 Deux facteurs .... Décomposition à volonté de la variance Supposons le trt1 ayant un effet significatif Quelle information manque-t-il? Comparaison multiple de moyenne
19
Comparaison de moyenne multiple
Conclusion: C, FM > FP
20
La notion d'interaction
Engrais 1 Engrais 2 DL 2-1 2x2-1 total=5 Herbicide 1 Herbicide 2 Ecriture conventionnelle du modèle production = engrais herbicide engrais X herbicide Problème avec cette représentation du plan d'expérience
21
Régression : variable continue =f(variable continue)
22
ANCOVA : Analyse de Covariance
variable continue = f(facteur discret,variable continue) Exemple: effet de vers de terre sur la biomasse végétale Ecriture conventionnelle du modèle production = engrais vers engrais X vers
23
Modèles plus compliqués
Il existe des modèles adaptés à tous les plans d'expérience Exemple de l'ANOVA hiérarchisée Parcelle 1 Parcelle 2 Parcelle 3 SOL 1 Parcelle 4 Parcelle 5 Parcelle 6 SOL 2 Ecriture du modèle densité = sol parcelle X sol
24
Le modèle linéaire généralisé
Quel type de variable expliquée n'a pas été traité? Variable qualitative!! Pourquoi ne pas utiliser un modèle linéaire classique? Les résidus ne peuvent pas suivre une loi normale La variance des résidus ne peut être constante Variable binaire Formulation générale f : fonction de lien ei suivent une distribution adhoc
25
Estimation et tests Estimation basée par maximisation de la vraisemblance par itérations successives Tests basés sur le chi2
26
La régression logistique : distribution binomiale
probabilité =logistique(variable continue) 1 Variable qualitative Variable qualitative Variable explicative = x Variable explicative= x Autres possibilités Plus d'une modalité Plusieurs variables explicatives
27
Analyse logit des tableaux de contingence: distribution binomiale
On échantillonne des individus qui sont classés en fonction de plusieurs facteurs discrets Comment ces variables influencent-elles la quantité d'individus trouvés? "Analyse de variance" pour variables discrètes On peut combiner les variables explicatives discrètes et continues
28
Exemple : effet du sexe, du nb de feuille et du milieu sur la maturité sexuelle d'un palmier (Barot et al. 2005) Attalea speciosa Mart. : Babaçu
29
Résultats
30
II Approche multivariée en statistique III Utilisation
I Le modèle linéaire II Approche multivariée en statistique III Utilisation IV Rapprochements Statistique exploratoire multidimensionnelle Lebart et al. Dunod ième édition
31
Type de données Exemples? Relevés faune/flore Caractérisation d'espèces du milieu physique
32
D'abord un problème de représentation
3 dimensions ? n dimensions
33
Initialement deux approches
34
Résumer un jeu de données compliqués
Comment choisir les axes de projections?
35
Classer des observations : Classification hiérarchique
On regroupe 2 à 2 les observations et les groupes d'observations Nombre de groupes final 2 dimensions à n dimension Problèmes? Position des groupes d'observations
36
Analyse en Composantes Principales : variables continues
Calcul de distance (p variables) On choisit F1 de façon à maximiser F1 F2 Puis F2 ...
37
Analyse en Composantes Principales : variables continues
0.5 Obs 1 0.1 0.5 Obs 2 0.9 0.4 1.9 Obs 3 1.9 1.1 1.1 Obs 4 1.2 0.3 1.9 ... . ... . ... . ... . ... .
38
Projections dans les plans factoriels (nouveau repère)
X3 F3 F1 F2 X1 F3 X2 F2 F1 F1
39
Le cercle des corrélations
X3 F3 F1 F2 X1 Projections des axes initiaux (variables observées) F2 X2 X3 X1 F1 X3 X4
40
Passer d'une représentation à l'autre
41
Choix du nombre d'axes factoriel
Inertie Inertie Axes factoriels Axes factoriels Inertie Axes factoriels
42
Analyse Factorielle des Correspondances : variables discrète
Obs 1 1 Les colonnes et les lignes jouent un rôle symétrique! Obs 2 1 Obs 3 1 1 1 Obs 4 1 ... . ... . ... . ... . ... .
43
Analyse Factorielle des Correspondances : variables discrète
Utilisation de la distance du chi2
44
Projection des variables et des observation dans le même espaces
F2 +V3 +V1 +V2 F1 +V4 Observations
45
Analyse discriminante
X3 F1 X1 X2 On cherche la combinaison linéaire des variables continues observées qui "discriminent" le mieux les observations en fonction d'un critère discret Ex : Détermination "automatique" d'espèces
46
Analyse multi-tableau
Relevés d'espèces Traits des espèces Caractéristiques environnementales Recherche d'une structure commune, Analyse de coinertie
47
I Le modèle linéaire II Approche multivariée en statistique III Utilisation IV Rapprochements
48
Statistiques multivariées
Modèle linéaire Tests Statistiques paramétriques Modèles adaptés pour chaque plan d'expérience / d'échantillonnage Séparation des sources de variance à volonté Statistiques multivariées Pas de tests, statistiques descriptives Statistiques non paramétriques Tient peu compte du plan d'expérience Indispensable pour des données fondamentalement multivariées
49
La réalité est fondamentalement multivariée!!!!
Modèle linéaire Parfaitement adapté à la méthode expérimentale Tests planifiés d'hypothèses simples On connaît a priori les facteurs clefs Statistiques multivariées Méthodes exploratoires On connaît mal le système étudié
50
II Approche multivariée en statistique III Utilisation
I Le modèle linéaire II Approche multivariée en statistique III Utilisation IV Rapprochements Le mutltivarié et le modèle linéaire on tendance à converger
51
ANOVA après une analyse multivariée
On effectue une expérience On mesure de nombreuses variables dans chaque unités expérimentales On ne sait pas a priori quelle est la variable la plus sensible aux différents traitements ni comment les variables covarient On effectue une Analyse en Composantes Principales sur l'ensemble de variables On applique un modèle linéaire classique aux coordonnés suivant les premiers axes factoriels
52
MANOVA : Analyse de Variance Multivariée
On applique le même modèle d'ANOVA à toutes les variables mesurées Il existe un test composite testant l'effet global des facteurs inclus dans l'ANOVA sur l'ensemble des variables
53
Tests par randomisation
Test de permutation On souhaite faire une ANOVA mais la variable ne vérifie pas les hypothèses (normalité, égalité des variance) X 1000 ANOVA Variable Traitement A 0.4 1000 valeur de F 0.8 B Permutations aléatoires 0.6 A B 0.4 0.3 A 5 % . .. . .. Fréquence F observé F Rééchantillonnage
54
Tests de permutation en analyse multivariée
Variables Traitement On regarde dans quel cas la somme des "inerties" par traitement est la plus faible 0.4 . .. A 0.4 1000 Permutations aléatoires 0.8 0.8 B 0.6 0.6 A 0.4 . .. B 0.4 0.3 0.3 A . . . . X3 X3 F1 F1 X1 X1 X2 X2 Permuté Observé
55
Experience: augmenter la biodiversité dans les pâturages amazoniens
56
Experience: augementer la biodiversité dans les pâturages amazoniens
Légumineuse Herbacée B: Brachiaria brizantha pasture Poaceae A: Arachis pintoi Ligneuse S: Solanum rugosum L: Leucaena leucocephala
57
Dsispositif expérimental
Toutes combinaisons de 1, 2,3 ou 4 espèces : 17 parcelles, 10 X 10 m chacune BLAS C A LAS BA BLA B LA BAS S BL LS L AS BS BLS Pas de bétail Bétail Dispositif répété 3 fois, dans 3 pâturages Plusieurs répétitions pour toutes les variables mesurées dans chaque parcelle : macrofaune, sol ...
58
Traitements P<0.01 ort dip iso hem div col gas for lar chi ara ver
BL AS BA LAS T LS BLS BAS BLA S BLAS B L A BS Te -3.8 3.5 -6.5 2.3 ort dip iso hem div col gas for lar chi ara ver ter P<0.01
59
Pâturages C J L -3.5 3.5 -6.5 2.2 P< 0.01
60
Biodiversité 2 3 T 1 4 -3.3 -6 1.8 P<0.13
61
Possibilité de faire des statistiques univariées sur les mêmes données?
Intérêt de faire des statistiques univariées?
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.