Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
1
Vecteurs Matrices listes data frames
Cours 2 Vecteurs Matrices listes data frames
2
Généralités pour un objet…
Un objet est caractérisé par son nom, son contenu, mais aussi ses deux attributs son mode: il en existe quatre principaux: numérique, caractère, complexe et logique sa longueur: nombre d’éléments de l’objet Pour connaître son mode et sa longueur, on peut utiliser respectivement les fonctions mode() et length() Une valeur manquante est représentée par NA, (mot réservé) Une valeur de mode caractère est représentée entre guillemets doubles
3
Génération de vecteurs
En saisissant les valeurs séparées par des virgules à l’aide de la fonction c() : exemple: v=c(1,2,3) En générant des suites numériques l’opérateur : exemple v=1:10 les fonctions seq(): génère des suites régulières rep(): duplique une suite sample():effectue un tirage aléatoire En utilisant d’autres vecteurs et des opérations numériques + ,- ,* , / , ^ ou logiques (&,I,!,>,<,>=,<=,==,!=)
4
Si v1 et v2 sont deux vecteurs de même longueur, v3=v1+v2 V3=v1/v2
Exemples: Si v1 et v2 sont deux vecteurs de même longueur, v3=v1+v2 V3=v1/v2 V3=v1^2 V3=v1>v2 paste( ): colle des vecteurs terme à terme après les avoir transformé en chaine de caractères: exemple paste(c(0,1,2),c(a,b,c)) “ 0a “ “ 1b “ “ 2c “
5
Séléction d’éléments dans un vecteur
Deux modes de sélection Utiliser les indices de position des éléments de v Utiliser un vecteur booléen de même longueur que v, valant TRUE aux positions des éléments à sélectionner Exemples: v= -3:2; v[3];v[c(4,6)] ;a=c(4,6); v[a]; l=c(TRUE, TRUE, TRUE,FALSE,TRUE,FALSE); v[l]; l=v>0; v[l] l=which(v<0); v[l]
6
La fonction which() La fonction which() donne les positions pour lesquelles l’indicateur logique vaut TRUE. Exemple:v=c(1,2,3,4); which(v>2) 3 4
7
“Dé-sélectionner” un élément dans un vecteur
Utilisation d’indices négatifs pour dé-selectionner Exemple: w=c(1:4);w; [ 1] v=w[-4] ;v; [ 1]
8
La fonction rep() rep(x, times) x=1:4;y=rep(x,2);y 12341234
Avec l’argument each z=rep(x,each=2);z; w=rep(x,c(1,2,1,2)); w ; 122344
9
La fonction seq() crée une suite régulière
Arguments principaux: from, to, by, lenght Exemples: x=seq(17); x; y=seq(from=3,to=8);y; y=seq(3,8);y;
10
La fonction seq() suite
Argument by z=seq(from=3,to=8,by=0.5);z; Argument lenght t=seq(0,1,lenght=11);t;
11
Exemple d’utilisation de seq()
x=seq(-3,3,by=0.05); y=exp(x); plot(x,y); > x [1] [13] [25] … 3.00
12
> y [1] [7] [13] [19] [25] … [121]
13
Construction de courbes
14
Un vecteur comme représentation d’une série statistique simple
Soit x=c(x1,…,xn) On peut calculer la moyenne Mox=sum(x)/length(x) ou mean(x) La variance Vax par sum((x-mean(x))^2)/length(x) L’écart-type par Etx=sqrt(Vax)
15
Pour une série statistique pondérée…
La moyenne, si x=c(x1,x2,…,xn) est pondérée par p=c(p1,p2,…pn), on peut poser A=p*x; B=p*(x^2) Et grace à ces vecteurs on peut calculer la moyenne des xi (formule ipixi) par m=sum(A) Ou la variance des xi (formule ipi(xi- m)2) par v=sum(p*(x-m)^2) ou par la formule de Koenig (formule v= E(x^2)-E(X)^2) v= sum(B)-m^2
16
de même pour le moment centré d’ordre k, dont la formule est
... On peut …
17
Compléments sur les vecteurs
Il y a quatre types de base: Numériques, caractères, logiques, facteurs A chaque type correspond ses opérateurs. Par exemple on ne peut pas additionner des vecteurs caractères. Par contre on peut,bien sur, si v et w sont des vecteurs numériques, effectuer les opérations: w=v+2: ajoute 2 à tous les éléments de v k=v+w : attention si les deux vecteurs ne sont pas de même longueur, donne un vecteur de la longueur du plus grand, en dupliquant le plus court
18
On peut modifier ou tester le mode d'un vecteur
as.numeric() :impose le mode numérique is.numeric() :booléen TRUE ou FALSE as.character() :impose le mode caractère is.character() :booléen TRUE ou FALSE as.factor(),is.factor(), as.logical(),is.logical()… Certaines fonctions modifient le mode d'un objet: factor(): contraint à être facteur cut():contraint un vecteur numérique à être un facteur paste(): transforme en chaine de caractères etc...
19
Exemples de conversion d ’objets
Conversion en numérique:as.numéric() FALSE->0 TRUE ->1 “ 1 ”, “ 2 ”,..->1,2, “ A ”->NA Conversion en logique: as.logical() 0->FALSE autres nombres ->TRUE “ FALSE”->FALSE“ TRUE” ->TRUE autres caractères ->NA Conversion en caractère:as.character() 1,2,…-> “ 1 ”, “ 2 ” FALSE- > “ FALSE ” TRUE -> “ TRUE ”
20
Génération de nombres aléatoires
Rappel: Un échantillon est une partie d'une population sur laquelle s'éffectue une étude statistique. On peut disposer d'échantillons issus d'une expérimentation, ou, si on connait la loi de la variable parente X,(de distribution connue) simuler ces observations: on parlera d'échantillon empirique (ou observé) et d'échantillon simulé. La taille d'un échantillon est le nombre d'observations de l'échantillon
21
Exemple 1 X: v.a.r taille de la population P
Un échantillon de taille 5 issu d'une expérimentation: E=c(1.60,1.80,1.72,1.78,1.63) Un échantillon simulé la loi uniforme discrète U(n)(où les pi sont tous égaux):sample() E=sample(1:15,10);a; [1]
22
Exemple 2: lois discrètes
La loi binomiale B(n,p), rbinom() P ( X = k )=[n!/p!(n-p)!] p^k ( 1 - p )^n-k rbinom(10,10,0.3) [1] rbinom(100,10,0.3) [1]
23
la loi de Poisson P(l):rpois()
(rappel: p(X=k)=e^{-l} l^k/k!) exemple: b=rpois(10, 5);b [1] la loi géométrique g(p): rgeom() (rappel:p(X=k) = p (1-p)^k ) c=rgeom(10,0.25); c; [1]
24
La loi normale N(m,s): Exemples:
Un échantillon simulé de taille 10 en supposant que X suit une loi normale de paramètres (1,75;15) x=rnorm(10,175,15);x [1] rnorm(100):génère 100 observations issues de la loi normale de paramètres 0 et 1 (par défaut) rnorm(100, mean=2,var=3): génére 100 observations issues de la loi normale de paramètres 2 et 3
25
Quelques précisions sur la fonction sample()
Plusieurs sens sample():échantillon, tirages avec ou sans remise, permutations exemples: v1= sample(1:10) : permutation de{1,2,..,10} v2= sample(1:10,3) : tirage sans remise (par défaut )de 3 éléments parmi 10 v3= sample(1:2,10,replace=TRUE) : tirage avec remise de 10 valeurs 1 ou 2 au hasard pour un tirage non uniforme on précise le vecteur probabilité(p1,…pn) avec Spi=1. v4=sample(1:5,3,prob=c(0.1,0.2,0.1,0.5,0.1))
26
Tableau Comparatif oui Numérique, caractère, complexe logique
Liste list Numérique,caractère,complexe logique Série temporelle ts Oui Data.frame Non Matrice matrix Tableau array Numérique,caractère Facteur factor Vecteur vector Plusieurs modes Modes possibles
27
Matrices
28
Génération de matrices matrix()
Ce sont des vecteurs qui possèdent un argument supplémentaire, qui est lui-même un vecteur de longueur 2, sa dimension, et qui définit le nombre de lignes et de colonnes M=matrix(data=NA,nrow=1,ncol=1,byrow=FALSE,) exemple:M=matrix(5:16,3,4,byrow=TRUE) Sélection dans une matrice,sous-matrices M[1,2],M[c(2,3),c(3,4)] M[i,],M[,j]: sélection d’une ligne ou d’une colonne, on obtient un vecteur M[c(1,5,4),]: sélection de plusieurs lignes (1,5 et 4), on obtient une nouvelle matrice Dimension d’une matrice: dim(): renvoie la dimension de la matrice. On peut aussi imposer cette dimension
29
Sélection dans une matrice
exemple: v=1:12; M=matrix(v);dim(M)=c(3,4);M; [,1] [,2] [,3] [,4] [1,] [2,] [3,] Indice linéaire (par colonne) M[v],M[-v] exemple:M[-3] donne la matrice privée de son troisième élément, soit le vecteur... M[M[,1]>0,]:sélectionne la sous matrice pour laquelle les valeurs dans la première colonne sont positives, soit...
30
Opérations sur les matrices
Les opérateurs habituels fonctionnent élément par élément Le produit matriciel algébrique:%*% t():transposition diag(): si v est un vecteur, diag(v)crée une matrice diagonale ayant v sur la diagonale si M est une matrice, diag(M) extrait la diagonale de M sum():si v est un vecteur ou une matrice, sum(v) calcule la somme de tous les éléments de v sum(v,na.rm=TRUE):somme sans tenir compte des NA
31
Opérations sur les matrices
(suite) det(): déterminant d ’une matrice carrée solve():inverse d ’une matrice , ou résolution d ’un système d ’équations linéaire eigen(): calcul des valeurs propres et vecteurs propres
32
Opérations sur les matrices: la fonction apply()
apply(M,margin,fun,…):applique à M la fonction fun (ou un opérateur, mais qui doit alors être mis entre guillemets),margin indique si l’action doit être appliquée sur les lignes ( margin=1), les colonnes ( margin=2) exemples: apply(M,1,sum):le résultat est une colonne formée des sommes des lignes de la matrice apply(M,2,sum):pareil pour les colonnes
33
Listes, series temporelles
34
Les listes Création de listes: avec la fonction list()
Il n’y a aucune contrainte sur les objets qui y sont inclus Exemple: x=1:10;y= letters ; L=list(x,y); crée une liste sans nom L=list(chiffres=0:9,lettres=letters);L $chiffres [1] $lettres [1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" "r" "s" "t" "u" "v" "w" "x" "y" "z" Les deux champs sont accessibles par L$chiffres; L$lettres;
35
Les listes Création de listes: avec la fonction list()
Il n’y a aucune contrainte sur les objets qui y sont inclus Exemple: x=1:10;y= letters ; L=list(x,y); crée une liste sans nom L=list(chiffres=0:9,lettres=letters);L $chiffres [1] $lettres [1] "a" "b" "c" "d" "e" "f" "g" "h" "i" "j" "k" "l" "m" "n" "o" "p" "q" "r" "s" "t" "u" "v" "w" "x" "y" "z" Les deux champs sont accessibles par L$chiffres; L$lettres;
36
Les listes (exemple) On trouve souvent des listes comme résultat d'une commande R exemple:lm() est une fonction retournant pour un modèle linéaire une liste contenant au moins: coefficients, résidus,valeurs estimées,rangs, poids....
37
Les series temporelles
La fonction ts() va créer une série temporelle à partir d’un vecteur (ou d’une matrice), et des options suivantes ts(data=,start=,end=,frequency=…) data:un vecteur ou une matrice start: le temps de la première observation end:le temps de la dernière observation frequency: le nombre d’observations par unité de temps
38
Series 1 Series 2 Series 3 Jan 1961 7 6 8 Feb 1961 7 8 4
t=ts(matrix(rpois(36,5),12,3),start=c(1961,1), frequency=12) Series 1 Series 2 Series 3 Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
39
plot(t)
40
Modes oui Numérique, caractère, complexe logique Liste list
Série temporelle ts Oui Data.frame Non Matrice matrix Tableau array Numérique,caractère Facteur factor Vecteur vector Plusieurs modes Modes possibles
41
data frames
42
Les data frames (traduction: chassis, cadre)
sont le « type », le format par défaut sous R, format obtenu: par la lecture de fichiers externes Et format obligatoire pour exporter des tableaux de R
43
D[,3], ou D[,”fac”], ou D$fac
data.frame En interne ce sont des listes, dont les champs sont des colonnes En apparence ce sont des matrices, avec comme différence essentielle que les différentes colonnes peuvent être de modes distincts:alphanumériques, booléennes, facteurs… Les lignes et les colonnes sont nommées et on peut y accéder par leur indice de position ou par leur nom… exemple: L= LETTERS[1:3]; D=data.frame(x=rep(1,10),y=1:10, fac=sample(L,10,replace=TRUE)); La troisième colonne est D[,3], ou D[,”fac”], ou D$fac x y fac C C A B A A B A B C
44
Fonctions pour les data frames
names(),colnames()rownames()liste des noms de ligne et de colonnes dimnames():liste ayant 2 champs: les noms de lignes et les noms de colonne dim():liste donnant les dimensions du data frame cbind():concaténation en colonne rbind():concaténation en ligne Exemple:cbind(d,salle=rep(c(1,2),5)) x y fac salle B 1 A 2 B 1 A 2 C 1 C 2 B 1 C 2 B 1 A 2
45
La fonction data() : Cette fonction a deux effets distincts:
elle permet de lister les data frame existants de lire des données internes et de les charger dans un data.frame Exemples: data() # liste des noms de tous les data frame dans le package par défaut appelé « datasets » D=data(USArrests) # charge le data frame USArrests et le place dans D data(package = .packages(all.available = TRUE))# Donne la liste de tous les data frames de tous les packages disponibles
46
Plus précis... help(USArrests) # donne des informations sur le data frame « USArrests », si elles existent try(data(package = "rpart") )# liste des data frame dans le package rpart
47
La fonction library() Traduction : bibliothèque Exemples:
library():donne la liste des « packages » ou bibliothèques disponibles sur la version de R On peut en charger d’autres par le site du CRAN par exemple library(cluster);data(agriculture);permet de charger le data frame « agriculture » du package « cluster » data(agriculture, package=« cluster »); permet aussi de charger ce data frame D=data(agriculture, package=« cluster »); permet aussi de charger ce data frameet de le placer dans D
48
Importer des fichiers ... Pour les lectures et écritures dans un répertoire,R utilise le repertoire de travail. getwd():permet de connaître ce repertoire setwd():permet de modifier le repertoire de travail exemple setwd(« c:/data ») R peut lire des données stockées dans un fichier texte (ascii):read.table(), en conservant sa structure éventuelle: la sortie est un data.frame arguments de cette fonction: file= nom du fichier sep= séparateur (espace par défaut) header= booléen (=TRUE si le nom des colonnes est en tête, FALSE sinon)
49
Exemple: pour importer dans l'objet F les données situées dans le fichier « fichier.txt » placé à l'adresse: « C:/ArR/fichier.txt » F=read.table(« C://ArR//fichier.txt », sep=« \t»,header=TRUE); Variantes:read.csv(), read.delim(),read.fwf()… pour des fichiers dans d ’autres formats (Excell,SAS,SPSS , bases de données SQL…) Attention: ces fonctions ne sont pas toujours dans le package de base.
50
et les exporter Ecriture d’un fichier
write.table(file=,append=,col.names=, row.names=) arguments: file= nom du fichier, adresse d'export append= booléen si TRUE ajoute au fichier existant, si FALSE ecrase le fichier existant col.names= booléen si TRUE écrit les noms de colonnes row.names= idem pour les lignes
51
Sauvegarder certains objets en binaire ou en ASCII et les restaurer
Fonctions: dump(): sauve en ascii des objets R source():recharge les objets sauvés par dump(),par exemple un script sauvegardé sous le nom test.R sera rappelé par source(« test.R », echo=TRUE) save(): comme dump() mais en binaire load(): comme source() mais en binaire
52
Méthode En pratique, on pourra créer un répertoire de travail par analyse de données, et y déposer: les fichiers de données brutes le fichier script contenant les commandes R le workspace et les fichiers résultats(textes et graphiques)
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.