Cours 3 statistiques avec R
Lois de probabilité, distributions On peut évaluer les quantités suivantes: Fonctions de répartition Densité Quantiles Simulations Les fonctions ont le même nom avec des préfixes différents r: donne des échantillons d: donne les valeurs P(X=j) p: donne les valeurs P(X<=x) q: donne la valeur y telle que P(X=x)=y Exemples: dnorm(),pnorm(),qnorm(),rnorm():loi normale dbinom(),pbinom(),qbinom(),rbinom():loi binomiale dt(),pt(),qt(),rt():loi de student dpois(), ppois(), qpois(), tpois():loi de Poisson …
exemples dbinom(k, n, p) donne la valeur P(X=k) sachant que X suit une loi B(n,p),c’est-à-dire Exemple: dbinom(3,10,0.2)
rbinom(10,n,p) donne un échantillon de taille 10 extrait d’une population suivant une loi B(n,p): Exemple: rbinom(10,10,0.2) [1] pbinom(k,n,p) donne P(X<=k) sachant que X suit une loi B(n,p),c’est-à-dire la valeur de la fonction de distribution F(k) Exemples: pbinom(3,10,0.2); pbinom(1:10,10,0,2) ; [1]
qbinom(q,n,p) est le quantile, c’est-à-dire la plus petite valeur x telle que F(x)=P(X<=x)=q. Exemple: qbinom(0.5,10,0.2) ; [1] 2 qchisq(.1,df=8) est le premier décile deX^2(8)
Fonction de répartition de la loi binomiale de paramètres 10 et 0,2 ●
Exemple d'une loi continue: la loi normale qnorm(0.2) [1] ●
Représentation de données: histogrammes La fonction hist() Exemple: v=rbinom(1000,10,0.4) table(v) v hist(v)
hist(x,breaks= « Sturges »,prob=FALSE) ● X un vecteur de valeurs pour lequel on souhaite un histogramme ● breaks:soit -un vecteur chaine de caractère donnant un algorithme pour calculer le nombre d'intervalles -un nombre donnant le nombre d'intervalles ● prob=FALSE:fréquences ● prob=TRUE: fréquences relatives ou probabilités
Distribution d’un ensemble d’observations Quelques fonctions: si v est un ensemble d’observations table(v): compte les fréquences des éléments de v hist(v): trace l’histogramme summary(v): renvoie un résumé statistique du contenu de v,avec le min 1er quartile, moyenne, médiane,3iemme quartile et max quantile(v): renvoie les quantiles correspondant au vecteur de probabilité donné. Par défaut renvoie les quartiles Moins utilisées stem():arbre qqplot(x,y):trace les quantiles de x /quantiles de y
exemples essai=sample(1:20,200,replace=TRUE) ● stem(essai) ● ● 1 | ● 1 | ● 2 | ● 2 | ● 3 | ● 3 | ● 4 | ● 4 | ● 5 | ● 5 | ● 6 | ● 6 | ● 7 | ● 7 | ● 8 | ● 8 | ● 9 | ● 9 | ● 10 |
● hist(essai)
Quelques résumés statistiques
Les résumés numériques pour calculer des statistiques sur un échantillon numérique ● Moyenne arithmétique mean() ● Médiane d'un échantillon median() ● Minimum, maximum min(), max() ● Calcul des percentiles quantile() ● Variance var() ● Écart-type sd() ● Covariance, coefficient de corrélation cov(),cor() ● Résumé statistique summary()
exemple x=sample(1:50,20) > x [1] > summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max
Les résumés graphiques ● Pour des données discrètes ou catégorielles Diagramme en batons: barplot() Cette fonction prend comme argument un objet résultat de la fonction table() ● pour des données continues, hist()
Compléments
Eviter d ’écrire des boucles
Eviter d ’écrire des boucles:1 avec les fonctions apply() lapply()sapply() apply(X, MARGIN, FUN,...) retourne un vecteur de la taille appropriée, où X: tableau Margin =1 pour les lignes, 2 pour les colonnes Fun: fonction '+', '%*%‘, mean, sum,... lapply sapply() même fonction pour les listes et les vecteurs
Eviter d ’écrire des boucles (2) Exemple 1 n=10 p=0.2 x=0:n y=choose(n,x)*p^x*(1-p)^(n-x) #ou bien y=dbinom(x,n,p) plot(x,y,type="h",lwd=10) Exemple 2 prod(1:8); identique à factorial(8)
Un exemple d'utilisation du type factor
Le type factor:Un exemple Un facteur est un objet vecteur qui peut être utilisé pour spécifier une classification discrète des composants d’un autre vecteur de même longueur Facteurs non ordonné:variable qualitative Facteurs ordonnés:variable qualitative ordonnée
prov=c("PA","PA","AG","RG","ME","CT","CT","SR","TP","EN","CL","ME","PA","AG","RG","ME","CT","CT","SR","TP","EN") length(prov) [1] 21 fprov=factor(prov) ;fprov [1] PA PA AG RG ME CT CT SR TP EN CL ME PA AG RG ME CT CT SR TP EN Levels: AG CL CT EN ME PA RG SR TP levels(fprov) [1] "AG" "CL" "CT" "EN" "ME" "PA" "RG" "SR" "TP"
revenus=c(13000,14900,14000,16100,14500,16600,15900,15400,17000,19000,14600,17000,18500,15800,14500,16600,15900,15400,17000,19000,20000) revenu.par.province=tapply(revenus,fprov,mean) revenu.par.province AG CL CT EN ME PA RG SR TP
La fonction which() which(x, arr.ind = FALSE) x: un vecteur ou tableau logique arr.ind: logique est-ce que les indices du tableau doivent être retournés lorsque x est un tableau? Exemple: m = matrix(12:24,3,4) ;m [,1] [,2] [,3] [,4] [1,] [2,] [3,]
which(m % 3 == 0) [1] which(m % 3 == 0, arr.ind=TRUE) row col [1,] 1 1 [2,] 1 2 [3,] 1 3 [4,] 1 4
méthodologie... En pratique, on pourra créer un répertoire de travail par analyse de données, et y déposer: – les fichiers de données brutes – le fichier script contenant les commandes R – le workspace et les fichiers résultats (textes et graphiques) rappel: pour exécuter le fichier « monscript ») source(« monscript.R ») pour sauvegarder un graphique pdf(« nomdegraphe ») commandes graphiques... dev.off()