La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

Le modèle linéaire et l'approche multivariée en statistique.

Présentations similaires


Présentation au sujet: "Le modèle linéaire et l'approche multivariée en statistique."— Transcription de la présentation:

1 Le modèle linéaire et l'approche multivariée en statistique

2 I Le modèle linéaire II Approche multivariée en statistique III Utilisation IV Rapprochements

3 A la base du modèle linéaire : la comparaison de moyennes Population 2Population 1 M1, M2, 2 Echantillonnage m1,s m2,s Comment comparer les deux populations à partir d'un échantillon réduit? Comparaison de moyennes

4 Construction du test On suppose que X1 N(M1, ) X2 N(M2, ) Test de Student On en déduit (propriété de variables suivant des lois normales indépendantes) que

5 La comparaison de moyennes, vision intuitive M1=M2 M1M2 Distribution A Distribution B B A Que conclure?

6 Les statistiques univariées = statistiques paramétriques On fait des hypothèses sur les lois statistiques des variables mesurées Il faut vérifier ces hypothèses avant de construire les tests Il existe des tests non-paramétriques, moins puissants, moins souples Il existe parfois des solutions (transformation des variables)

7 Le modèle linéaire Variable expliquée Variables/facteurs explicatifs ParamètresErreur n observations Prediction?

8 Exemple : régression à deux variables Variable expliquée Variables/facteurs explicatifs ParamètresErreur n observations

9 Les hypothèses du modèle linéaire Les erreurs, e i, sont des variables aléatoires Les e i sont indépendants Les e i suivent des lois normales Les e i ont des espérances nulles Les e i ont une variance commune 2 e i,e i N (0, 2 ) et les e i sont indépendants

10 Estimation des paramètres Trt 1Trt 2Trt 3 Régression ANOVA ObservéesPréditesErreurs Pour déterminer les paramètres du modèle on cherche à minimiser la somme des carrés des erreurs Pourquoi utiliser les carrés? Quels sont les paramètres sur ces figures?

11 Estimation des paramètres L'existence et la multiplicité des solutions dépendent des propriétés algébriques de X Rang de X et nombre de paramètres Il existe une formule générale basée sur l'expression matricielle du problème

12 Tests Trt 1Trt 2Trt 3 Le traitement a un effet significatif si la variabilité due au traitement est suffisamment élevée par rapport à la variabilité résiduelle Sous H0

13 Notion de degré de liberté ANOVA un facteur, 3 modalités Degré de liberté total = nb observations-1 = =12 Degré de liberté résiduel = dl total – dl modèle=10 Degré de liberté pour le modèle = nb de paramètres à estimer-1 = 3 -1 =2 Trt 1Trt 2Trt

14 Degré de liberté Plus on estime de paramètres plus la variabilité intra (expliquée) augmente / variabilité inter (résiduelle) A l'extrême si on estime autant de paramètres que d'observation le modèle explique toute la variabilité mais le trt ne peux plus être significatif parce qu'on divise par le dl modèle Attention au sur-paramétrage, importance du nombre de répétitions

15 PAS DE PANIQUE!!!

16 Un exemple de sortie : analyse de la densité apparente du sol des pâturages amazoniens

17 ATTENTION!!!!!!!!!!! Prévoir le bon dispositif expérimental Utiliser/prévoir le bon modèle statistique

18 ANOVA : variable continue = f(facteur discret) Trt 1Trt 2Trt 3 Un facteur Deux facteurs.... Supposons le trt1 ayant un effet significatif Quelle information manque-t-il? Comparaison multiple de moyenne Décomposition à volonté de la variance

19 Comparaison de moyenne multiple Conclusion: C, FM > FP

20 La notion d'interaction Engrais 1Engrais 2 Herbicide 1 Herbicide x2-1 total=5 DL Ecriture conventionnelle du modèle production = engrais herbicide engrais X herbicide Problème avec cette représentation du plan d'expérience

21 Régression : variable continue =f(variable continue)

22 ANCOVA : Analyse de Covariance variable continue = f(facteur discret,variable continue) Exemple: effet de vers de terre sur la biomasse végétale Ecriture conventionnelle du modèle production = engrais vers engrais X vers

23 Modèles plus compliqués Il existe des modèles adaptés à tous les plans d'expérience Exemple de l'ANOVA hiérarchisée Parcelle 1 SOL 1 Parcelle 4 Parcelle 6 Parcelle 5 Parcelle 3 Parcelle 2 SOL 2 Ecriture du modèle densité = sol parcelle X sol

24 Le modèle linéaire généralisé Quel type de variable expliquée n'a pas été traité? Variable qualitative!! Pourquoi ne pas utiliser un modèle linéaire classique? Les résidus ne peuvent pas suivre une loi normale La variance des résidus ne peut être constante Variable binaire Formulation générale f : fonction de lien e i suivent une distribution adhoc

25 Estimation et tests Estimation basée par maximisation de la vraisemblance par itérations successives Tests basés sur le chi 2

26 La régression logistique : distribution binomiale probabilité =logistique(variable continue) Variable explicative = x Variable qualitative Variable explicative= x Variable qualitative Autres possibilités Plus d'une modalité Plusieurs variables explicatives 0 1

27 Analyse logit des tableaux de contingence: distribution binomiale On échantillonne des individus qui sont classés en fonction de plusieurs facteurs discrets Comment ces variables influencent-elles la quantité d'individus trouvés? " Analyse de variance" pour variables discrètes On peut combiner les variables explicatives discrètes et continues

28 Attalea speciosa Mart. : Babaçu Exemple : effet du sexe, du nb de feuille et du milieu sur la maturité sexuelle d'un palmier (Barot et al. 2005)

29 Résultats

30 I Le modèle linéaire II Approche multivariée en statistique III Utilisation IV Rapprochements Statistique exploratoire multidimensionnelle Lebart et al. Dunod ième édition

31 Type de données Exemples? Relevés faune/flore Caractérisation d'espèces Caractérisation du milieu physique

32 D'abord un problème de représentation 3 dimensions n dimensions ?

33 Initialement deux approches

34 Résumer un jeu de données compliqués Comment choisir les axes de projections?

35 Classer des observations : Classification hiérarchique On regroupe 2 à 2 les observations et les groupes d'observations Problèmes? 2 dimensions à n dimension Position des groupes d'observations Nombre de groupes final

36 Analyse en Composantes Principales : variables continues Calcul de distance (p variables) i i' On choisit F1 de façon à maximiser F1 F2 Puis F2...

37 Analyse en Composantes Principales : variables continues Obs 1 Obs 2 Obs 3 Obs V1 V2 V

38 Projections dans les plans factoriels (nouveau repère) F1 F2 F3 F1 F2 F1 F3 X1 X2 X3

39 Le cercle des corrélations Projections des axes initiaux (variables observées) F1 F2 F3 F1 F2 X1 X2 X3 X1 X3 X4

40 Passer d'une représentation à l'autre

41 Choix du nombre d'axes factoriel Axes factoriels Inertie Axes factoriels Inertie

42 Analyse Factorielle des Correspondances : variables discrète Obs 1 Obs 2 Obs 3 Obs V1 V2 V Les colonnes et les lignes jouent un rôle symétrique!

43 Analyse Factorielle des Correspondances : variables discrète Utilisation de la distance du chi 2

44 Projection des variables et des observation dans le même espaces F1 F2 + V1 + V2 + V3 + V4 Observations

45 Analyse discriminante F1 X1 X2 X3 On cherche la combinaison linéaire des variables continues observées qui "discriminent" le mieux les observations en fonction d'un critère discret Ex : Détermination "automatique" d'espèces

46 Analyse multi-tableau Recherche d'une structure commune, Analyse de coinertie Relevés d'espèces Traits des espèces Caractéristiques environnementales

47 I Le modèle linéaire II Approche multivariée en statistique III Utilisation IV Rapprochements

48 Modèle linéaire Statistiques multivariées Tests Statistiques paramétriques Modèles adaptés pour chaque plan d'expérience / d'échantillonnage Séparation des sources de variance à volonté Pas de tests, statistiques descriptives Statistiques non paramétriques Tient peu compte du plan d'expérience Indispensable pour des données fondamentalement multivariées

49 Modèle linéaire Statistiques multivariées Parfaitement adapté à la méthode expérimentale Tests planifiés d'hypothèses simples On connaît a priori les facteurs clefs Méthodes exploratoires On connaît mal le système étudié La réalité est fondamentalement multivariée!!!!

50 I Le modèle linéaire II Approche multivariée en statistique III Utilisation IV Rapprochements Le mutltivarié et le modèle linéaire on tendance à converger

51 ANOVA après une analyse multivariée On effectue une expérience On mesure de nombreuses variables dans chaque unités expérimentales On ne sait pas a priori quelle est la variable la plus sensible aux différents traitements ni comment les variables covarient On effectue une Analyse en Composantes Principales sur l'ensemble de variables On applique un modèle linéaire classique aux coordonnés suivant les premiers axes factoriels

52 MANOVA : Analyse de Variance Multivariée On applique le même modèle d'ANOVA à toutes les variables mesurées Il existe un test composite testant l'effet global des facteurs inclus dans l'ANOVA sur l'ensemble des variables

53 Tests par randomisation Test de permutation On souhaite faire une ANOVA mais la variable ne vérifie pas les hypothèses (normalité, égalité des variance) Rééchantillonnage Variable Traitement A B A B A Permutations aléatoires Fréquence F ANOVA X valeur de F 5 % F observé

54 Tests de permutation en analyse multivariée F1 X1 X2 X3 F1 X1 X2 X3 Variables Traitement A B A B A Permutations aléatoires On regarde dans quel cas la somme des "inerties" par traitement est la plus faible Observé Permuté

55 Experience: augmenter la biodiversité dans les pâturages amazoniens

56 Experience: augementer la biodiversité dans les pâturages amazoniens S : Solanum rugosum A : Arachis pintoi L : Leucaena leucocephala B : Brachiaria brizantha pasture Poaceae Herbacée Ligneuse Légumineuse

57 Dsispositif expérimental Toutes combinaisons de 1, 2,3 ou 4 espèces BLAS C ALASBA BLABLA BASSBLLS LASBSBLS C : 17 parcelles, 10 X 10 m chacune Bétail Pas de bétail Dispositif répété 3 fois, dans 3 pâturages Plusieurs répétitions pour toutes les variables mesurées dans chaque parcelle : macrofaune, sol...

58 LA BL AS BA LAS T LS BLS BAS BLA S BLAS BL A BS Te Traitements P<0.01 ter for ver chi col lar ara dip div hem iso gas ort

59 C J L Pâturages P< 0.01

60 2 3 T P<0.13 Biodiversité

61 Possibilité de faire des statistiques univariées sur les mêmes données? Intérêt de faire des statistiques univariées?


Télécharger ppt "Le modèle linéaire et l'approche multivariée en statistique."

Présentations similaires


Annonces Google