une introduction pragmatique

Slides:



Advertisements
Présentations similaires
Corrélation Position du problème Définition covariance (X,Y) r =
Advertisements

Présentation des données
Association entre variables
Echantillonnage Introduction
C1 Bio-statistiques F. KOHLER
Comparaison de deux moyennes observées
Inférence statistique
Tests non paramétriques
Les Tests dhypothèses. 1)Définition Un test cest une méthode qui permet de prendre une décision à partir des résultats dun échantillon.
Échantillonnage-Estimation
Les tests d’hypothèses
Statistique descriptive
Régression -corrélation
Construction de Box-Plot ou diagrammes en boîtes ou boîtes à moustaches Construire une boîte à moustaches …
1 Statistiques Séance 5 – 9 Nov Résumé séance précédente Lécart-type σ ou s. Comment le calculer? Les propriétés numériques de la courbe normale.
Nadine Mandran Formation doctorants Janvier-Mars 2011.
Les principaux résumés de la statistique

Cours Corporate finance Eléments de théorie du portefeuille Le Medaf
Régression linéaire simple
Groupe 1: Classes de même intervalle
Corrélation et régression linéaire simple
Modeles non-lineaires
Le test t.
Les modèles linéaires (Generalized Linear Models, GLM)
Objectifs du chapitre 2 d’Howell sur les statistiques descriptives
Régression linéaire (STT-2400)
La régression multiple
Régression linéaire (STT-2400)
Régression linéaire multiple : hypothèses & interprétation. Partie 2.
Régression linéaire multiple : hypothèses & interprétation
Mesures de position Ils s’expriment dans la même unité que les observations Moyenne et moyenne pondérée Exemple : on dispose du nombre moyen d’enfants.
Méthodes de Biostatistique
Méthodologie expérimentale : l’analyse des données
UMR 7619 Sisyphe Avril 2012 Alexandre Pryet Le langage une introduction pragmatique Prise en main, objets et commandes de base.
Probabilités et Statistiques
UMR 7619 Sisyphe Avril 2012 Alexandre Pryet Le langage une introduction pragmatique Les graphiques.
Probabilités et Statistiques Année 2009/2010
ANALYSE DE DONNEES TESTS D’ASSOCIATION
N. Yamaguchi1 Statistiques Séance 6 – 16 Nov 2005.
STATISTIQUE DESCRIPTIVE ÉLÉMENTAIRE
STATISTIQUES DESCRIPTIVES
TD4 : « Lois usuelles de statistiques »
Probabilités et Statistiques Année 2010/2011
Un exemple d’ANOVA Pour étudier l'influence du milieu sur la DL50 de daphnies (heure), on a mesuré cette durée de vie pour deux clones de daphnies en fonction.
Régression linéaire Jonathan Lenoir (MCU),
UMR 7619 Sisyphe Avril 2012 Alexandre Pryet Le langage une introduction pragmatique Cacul itératif.
Un exemple de régression poissoniènne
Chapitre 3: Variables aléatoires réelles continues
UMR 7619 Sisyphe Avril 2012 Alexandre Pryet Le langage une introduction pragmatique.
On souhaite analyser les concentrations de mercure (ppm) dans les chaires de poissons carnivores des lacs de l'est de Etats- Unis. On espère trouver une.
Régréssion linéaire simple
BP Bernard Palagos - Cemagref Montpellier
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :05 Asymétrie fluctuante.
Méthodes de Biostatistique Chapitre 9 Tests Nonparamétriques.
A B UCDUCONNUCDUCONN Mean Median Max Min
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :47 1 Comparaison de deux échantillons Principes.
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Programme Devoir 1 Proposition travail.
Traitement des données individuelles D.I.
Statistique Descriptive Les Paramètres de Tendance Centrale
BIOSTATISTIQUES Définitions.
Mesures de description des valeurs des variables
E CONOMÉTRIE A PPLIQUÉE AVEC R (P ART 03) R. Aloui 2015/2016 Disponible sur
 Champ des mathématiques  Ensemble de méthodes et de techniques  Permet une analyse objective  Facilitées aujourd’hui par les tableurs.
Biostatistique pour le troisième cycle P. Leroy, F. Farnir 2013.
Cours 8 Les tests statistiques. Intervalle de confiance pour une proportion ● Dans le cas de grands échantillons (np>5 et n(1-p)>5 ) ● l'intervalle de.
Chapitre 6 Probabilités et Statistiques
Loi Normale (Laplace-Gauss)
Statistiques industrielles – Exemple d’application
Transcription de la présentation:

une introduction pragmatique Le langage une introduction pragmatique Description des données, analyse statistique UMR 7619 Sisyphe 17-19 Avril 2012 Alexandre Pryet

Description des données et analyse statistique : programme Cross-plot, régressions Test de Student, Wilcoxon Signed Rank Test

Description des données : analyse quantitative R dispose d'une série de fonction pour décrire la distribution d'une ou plusieurs variable aléatoire Nom Description de la fonction summary(data) description de base (min,max,quartiles,moy.) mean(data) moyenne arithmétique median(data) médiane var(data) variance sd(data) écart-type quantile(data,qt) quantile qt de data Charger le fichier forest_data.csv, créer une nouvelle colonne misfit pour calculer l'écart entre Thfall.obs et Thfall.mod Décrire ce vecteur avec les fonctions ci-dessus.

Analyse de données : méthodes graphiques R dispose d'une série de méthodes graphiques pour décrire la distribution des variables : histogrammes, box plot et courbe de distribution

Analyse de données : histogrammes hist(forest$misfit, breaks=seq(min,max,step),xlim=c(min.graph,max.graph), … ) ou :breaks=10 Le paramètre breaks gère l'intervalle et le pas de l'histogramme, mais ne contrôle pas l'affichage du graphique, qui est géré par xlim. Ne pas les confondre ! Note : il est tout à fait possible de diriger le résultat de hist() ver une variable ou une fonction, puis en extraire les données : misfit.hist<-hist(forest$misfit) ; str(misfit.hist) ; plot(misfit.hist)

Analyse de données : boxplots par(mar=c(2,4,4,2)) boxplot(forest$misfit,range=10,outline=F,…) Note : vous pouvez bien sûr faire plusieurs boxplot dans le même graphique avec l'option add=TRUE

Analyse de données, exercice 1 : histogramme + boxplot Fonctions utiles : hist() ; boxplot(…,add=TRUE)

Analyse de données, exercice 1 : histogramme + boxplot Quelques éléments pour réaliser le graphique précédent : hist(forest$misfit,breaks=…, xlim=…, ylim=…, xlab='…', main='…') boxplot(forest$misfit,range=…,at=…,boxwex=…,cex=…, horizontal=TRUE,add=TRUE,axes=FALSE,outline=FALSE) mtext(bquote(paste( bar(mu)==.(round(mean(na.omit(forest$misfit)),2)), " ", sigma==.(round(sd(na.omit(forest$misfit)),2)) ))) axis(1)

Analyse de données : méthodes graphiques plot(ecdf(forest$misfit),do.points=FALSE, verticals=TRUE, lwd=2,xlab="…",main="…") axis(1)

Régressions linéaires La base, avant de faire une régression linéaire c'est : faire un graphique de type cross-plot vérifier la présence effective de l'alignement tant espéré si alignement il y a, de combien de points ? La régression se fait ensuite avec la fonction lm() # régression de type y=c1+c2*x model <- lm(y~x) # régression de type y=c*x model <- lm(y~0+x)

Régressions linéaires # régression de type y=c1+c2*x model <- lm(y~x) Nom Description de la fonction plot(model) ludique, mais pas nécessairement utile summary(model) les informations essentielles model$coefficients vecteur des deux coefficients (c1,c2) abline(model) ajout de la ligne du modèle dans un plot existant

Régressions linéaires : exercice Importer les données du fichier precipitations_cum.csv, puis faire le graphique ci-dessous. Il s'agit de la pluie nette cumulée (TFcum, en ordonnées) et de la pluie cumulée (Pcum , en abscisse). On peut montrer que : TFcum = p × Pcum si Pcum ≤ S/(1-p) TFcum = -S + Pcum si Pcum > S/(1-p) Avec p [-] le coefficient d'ouverture et S [mm] le coefficient de stockage du couvert végétal, que l'on cherche à déterminer

Régressions linéaires : exercice Excercice : déterminer p et S par régression linéaire, sachant que : TFcum = p × Pcum si Pcum ≤ S/(1-p) TFcum = -S + Pcum si Pcum > S/(1-p) Fonctions utiles : lm() plot() abline() summary() legend()

Tests La moyenne d'un échantillon dont la distribution est normale suit la loi de Student.

Fonctions utiles : qt (1-α/2,df) La loi de student Loi de Student (distribution de la moyenne), d'une variable suivant une loi normale centrée réduite (μ=0, σ=1) Fonctions utiles : qt (1-α/2,df)

Le test t Hypothèse : la variable misfit suit une distribution normale La moyenne de misfit est-elle significativement différente de 0 ? Fonction utile : t.test > t.test(forest$misfit,conf.level=0.95) One Sample t-test data: forest$misfit t = -3.8399, df = 307, p-value = 0.0001495 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: -0.013333085 -0.004298107 sample estimates: mean of x -0.008815596

Le Wilcoxon signed rank test Hypothèse : la variable misfit suit une distribution normale La moyenne de misfit est-elle significativement différente de 0 ? Fonction utile : wilcox.test() > wilcox.test(forest$misfit) Wilcoxon signed rank test with continuity correction data: forest$misfit V = 12346, p-value = 9.928e-05 alternative hypothesis: true location is not equal to 0