Télécharger la présentation
1
une introduction pragmatique
Le langage une introduction pragmatique Description des données, analyse statistique UMR 7619 Sisyphe 17-19 Avril 2012 Alexandre Pryet
2
Description des données et analyse statistique : programme
Cross-plot, régressions Test de Student, Wilcoxon Signed Rank Test
3
Description des données : analyse quantitative
R dispose d'une série de fonction pour décrire la distribution d'une ou plusieurs variable aléatoire Nom Description de la fonction summary(data) description de base (min,max,quartiles,moy.) mean(data) moyenne arithmétique median(data) médiane var(data) variance sd(data) écart-type quantile(data,qt) quantile qt de data Charger le fichier forest_data.csv, créer une nouvelle colonne misfit pour calculer l'écart entre Thfall.obs et Thfall.mod Décrire ce vecteur avec les fonctions ci-dessus.
4
Analyse de données : méthodes graphiques
R dispose d'une série de méthodes graphiques pour décrire la distribution des variables : histogrammes, box plot et courbe de distribution
5
Analyse de données : histogrammes
hist(forest$misfit, breaks=seq(min,max,step),xlim=c(min.graph,max.graph), … ) ou :breaks=10 Le paramètre breaks gère l'intervalle et le pas de l'histogramme, mais ne contrôle pas l'affichage du graphique, qui est géré par xlim. Ne pas les confondre ! Note : il est tout à fait possible de diriger le résultat de hist() ver une variable ou une fonction, puis en extraire les données : misfit.hist<-hist(forest$misfit) ; str(misfit.hist) ; plot(misfit.hist)
6
Analyse de données : boxplots
par(mar=c(2,4,4,2)) boxplot(forest$misfit,range=10,outline=F,…) Note : vous pouvez bien sûr faire plusieurs boxplot dans le même graphique avec l'option add=TRUE
7
Analyse de données, exercice 1 : histogramme + boxplot
Fonctions utiles : hist() ; boxplot(…,add=TRUE)
8
Analyse de données, exercice 1 : histogramme + boxplot
Quelques éléments pour réaliser le graphique précédent : hist(forest$misfit,breaks=…, xlim=…, ylim=…, xlab='…', main='…') boxplot(forest$misfit,range=…,at=…,boxwex=…,cex=…, horizontal=TRUE,add=TRUE,axes=FALSE,outline=FALSE) mtext(bquote(paste( bar(mu)==.(round(mean(na.omit(forest$misfit)),2)), " ", sigma==.(round(sd(na.omit(forest$misfit)),2)) ))) axis(1)
9
Analyse de données : méthodes graphiques
plot(ecdf(forest$misfit),do.points=FALSE, verticals=TRUE, lwd=2,xlab="…",main="…") axis(1)
10
Régressions linéaires
La base, avant de faire une régression linéaire c'est : faire un graphique de type cross-plot vérifier la présence effective de l'alignement tant espéré si alignement il y a, de combien de points ? La régression se fait ensuite avec la fonction lm() # régression de type y=c1+c2*x model <- lm(y~x) # régression de type y=c*x model <- lm(y~0+x)
11
Régressions linéaires
# régression de type y=c1+c2*x model <- lm(y~x) Nom Description de la fonction plot(model) ludique, mais pas nécessairement utile summary(model) les informations essentielles model$coefficients vecteur des deux coefficients (c1,c2) abline(model) ajout de la ligne du modèle dans un plot existant
12
Régressions linéaires : exercice
Importer les données du fichier precipitations_cum.csv, puis faire le graphique ci-dessous. Il s'agit de la pluie nette cumulée (TFcum, en ordonnées) et de la pluie cumulée (Pcum , en abscisse). On peut montrer que : TFcum = p × Pcum si Pcum ≤ S/(1-p) TFcum = -S + Pcum si Pcum > S/(1-p) Avec p [-] le coefficient d'ouverture et S [mm] le coefficient de stockage du couvert végétal, que l'on cherche à déterminer
13
Régressions linéaires : exercice
Excercice : déterminer p et S par régression linéaire, sachant que : TFcum = p × Pcum si Pcum ≤ S/(1-p) TFcum = -S + Pcum si Pcum > S/(1-p) Fonctions utiles : lm() plot() abline() summary() legend()
14
Tests La moyenne d'un échantillon dont la distribution est normale suit la loi de Student.
15
Fonctions utiles : qt (1-α/2,df)
La loi de student Loi de Student (distribution de la moyenne), d'une variable suivant une loi normale centrée réduite (μ=0, σ=1) Fonctions utiles : qt (1-α/2,df)
16
Le test t Hypothèse : la variable misfit suit une distribution normale La moyenne de misfit est-elle significativement différente de 0 ? Fonction utile : t.test > t.test(forest$misfit,conf.level=0.95) One Sample t-test data: forest$misfit t = , df = 307, p-value = alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: sample estimates: mean of x
17
Le Wilcoxon signed rank test
Hypothèse : la variable misfit suit une distribution normale La moyenne de misfit est-elle significativement différente de 0 ? Fonction utile : wilcox.test() > wilcox.test(forest$misfit) Wilcoxon signed rank test with continuity correction data: forest$misfit V = 12346, p-value = 9.928e-05 alternative hypothesis: true location is not equal to 0
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.