Introduction à la manipulation de données (dplyR) S. CHAMPELY Université Lyon 1.

Slides:



Advertisements
Présentations similaires
Étude du ressort hélicoïdal
Advertisements

L’interrogation par mot interrogatif
Cours n°1ue304b (S. Sidhom) UE 304 b Cours_L2.documentation_n°1 Gestion des documents : Technologies de lInformation et de la Communication Par : Sahbi.
La construction d ’un réseau PERT
Max MICHETTI mai-juin 2001 PROJETREALISATIONRESULTATS.
Questions and ideas to use in your letter tonight.
Créons des questions! -mot interrogatif (question word) -est-ce que (except in short questions such as with être) OR -inversion (reverse the subject and.
Lautocorrection La grammaire pédagogique. Lautocorrection Marche à suivre: Écrire le brouillon à triple interligne Utiliser stylos ou crayons de différentes.
Les types de phrases La phrase déclarative
Je vais m’arreter de fumer.
2 Javascript dans tous ses états Bruno MichelYann Schwartz AF83Polom
1 SQL: Requêtes, Programmation et Triggers Chapitre 5, Sections
1 SQL: Requêtes, Programmation et Triggers Chapitre 5, Sections
Cours de Base de Données & Langage SQL
Les propriétés des fonctions
Les mesures de la tendance centrale
Tu veux voir du sexe ? Mettre le son Arf arf OUI Madame Heu NON Merci.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
Initiation aux bases de données et à la programmation événementielle
Introduction Le SQL (Structured  Query Language) est un langage universel de gestion des bases de données. Il a une triple fonction : LDD Langage de Définition.
Si le Diaporama ne s'ouvre pas en plein écran Faites F5 sur votre clavier.
 Certaines formules besoin un référence de cellule spécifique (absolue) au lieu d’un référence de cellule relative  Quand tu utilises un référence de.
C’est la vie Mini-conte 4. Il / elle étudie he / she studies / is studying Il / elle a de bonnes notes he / she has good grades Il / elle économise he.
une introduction pragmatique
La grammaire pédagogique
Journal mathématiques
Mode, moyenne et médiane
Seconde partie Cours de seconde
Suzie la souris Par Juli Powers.
Utiliser les fichiers d’un ordinateur
MOYENNE, MEDIANE et ECART TYPE d’une série statistique
Natures / classes grammaticales INTRODUCTION
Les Prenoms Par Roan.
Les rollers Il s’agit de quoi? Il s’agit d’où? Il s’agit de qui? Il s’agit de quand? Pourquoi?
R Objectif principal : taux de réponse
A B UCDUCONNUCDUCONN Mean Median Max Min
NOMBRES et CALCUL NC 11 NC 12 NC 13 NC 14 NC 15 NC 1 NC 16 NC 2 NC 17
Cours 5 - Trois algorithmes de tri d'un tableau
Objectif de la séance Aujourd'hui nous allons travailler en Grammaire. Nous allons apprendre à identifier les compléments circonstanciels dans la phrase.
Attention! Donne-moi cinq! Madame! J’ai fini!
Université d’Ottawa - Bio Biostatistiques appliquées © Antoine Morin et Scott Findlay :26 1 Programme Devoir 1 Proposition travail.
MINUTES DU LANGAGE 1- Je choisis un sujet
Traitement des données individuelles D.I.
Initiation aux bases de données et à la programmation événementielle Cours N°2 : langage d’interrogation de données. (Les requêtes statistiques et autres).
INTRODUCTION AUX BASES DE DONNEES SQL -2
Op é rateurs ensemblistes Module 4. 2 La clause GROUP BY La clause GROUP BY est nécessaire dès que l'on utilise des fonctions de calculs statistiques.
I - Température d’ébullition (Vaporisation) Problématique : Hypothèse : Expérience.
INTRODUCTION AUX BASES DE DONNEES Algèbre relationnelle Exercices Université Panthéon-Assas Paris 2 L2 Economie-Gestion.
Statistiques Première partie Cours de première S.
Deuxième S - Situer Par : Stéphanie Fortier 19 avril 2006.
Les mesures de tendance centrale
Dmitri Mendeleev  Son premier tableau périodique a été publié en 1989  Énumérait les éléments dans un ordre de masse croissante  Mendeleev a inclus.
1 Les bases de données Séance 7 Les fonctions avancées : Opérateurs ensemblistes, Sous-requêtes et transactions.
Hadrien Commenges Université Paris 7, Géographie-cités Hélène Mathian CNRS – Géographie-cités Claude Grasland Université Paris 7, Géographie-cités Introduction.
Excel Récapitulatif. Objectifs Rappel des notions de base Résumé des fonctions déjà utilisées Introduction à la fonction SI(…) Démonstrations de cette.
Mesures de tendance centrale et mesures de dispersion.
Les signes grammaticaux dans l’interface sémantique-syntaxe d’une grammaire d’unification Sylvain Kahane Lattice, Paris 7 / Paris 10 TALN 2003, Batz-sur-mer.
LES OPÉRATIONS AVEC LES NOMBRES RATIONNELS Ch 3.2, 3.3.
UN MATCH DE FOOTBALL. INTRODUCTION Jouer contre une autre équipe Jouer avec plaisir sur le terrain Le but c’est de gagner 2.
1 Initiation aux bases de données et à la programmation événementielle Construction d’un état Support de TD rédigé par Bernard COFFIN Université Paris.
Médiane Moyenne Quartile Mode. Exemple 1 : Soit les données suivantes On ordonne les données Moyenne : Somme des données divisée.
Cours 4 Compléments Quelques résumés statistiques.
Langage de manipulation de données (LMD)
Technologies d’intelligence d’affaires
Manipulation D’Une Base De Données
8 Calcule VERS LA MULTIPLICATION Ecris de plusieurs façons.
« constitution des groupes »
« constitution des groupes »
Combien de fois un nombre est contenu dans un autre
Mathématiques – Calcul mental
Transcription de la présentation:

Introduction à la manipulation de données (dplyR) S. CHAMPELY Université Lyon 1

Le package dplyR Créé par Hadley Wickham et Romain Francois Une “grammaire” pour la manipulation de données… De la même façon que ggplot2 est une “grammaire” pour les graphiques

Les objets tbl Du data.frame au tbl_df > library(MASS) > data(survey) > head(survey) > class(survey) > library(dplyr) > survey2<-tbl_df(survey) > print(survey2) > glimpse(survey2) > class(survey2) [1] "tbl_df" "tbl" "data.frame"

Les « verbes » principaux filter() arrange() select() distinct() mutate() summarise() sample_n() ; sample_frac()

Filtrage > filter(survey2, Sex=="Female", Pulse==80) [et] > filter(survey2,Sex=="Female" | Pulse==80) [ou] > filter(survey2, Pulse>80, Pulse<85) Équivalent à subset dans R

Ordonner arrange(survey2,Pulse,Sex) (ordre croissant) arrange(survey2,desc(Pulse),Sex) (décroissant)

Sélection de colonnes > select(survey2,Sex,Height) (REM :il peut y avoir une mauvaise surprise entre MASS et dplyr à cause de select qui est dans les deux packages) > select(survey2,Sex:Pulse)

Nouvelles colonnes mutate(survey2,diff=abs(Wr.Hnd-NW.Hnd))

Faire un résumé > summarise(survey2,main=mean(Wr.Hnd)) Ah oui… les données manquantes > summarise(survey2, main=mean(Wr.Hnd,na.rm=TRUE)) Un résumé un peu court… > summarise(survey2, Mmain=mean(Wr.Hnd,na.rm=TRUE), SDmain=sd(Wr.Hnd,na.rm=TRUE)) Les fonctions avec lesquelles il est possible de jouer : Les classiques : min(), max(), mean(), sum(), sd(), median(), and IQR() mais aussi dans dplyr: n(), n_distinct(), first(x), last(x) et nth(x, n) Mais au fond, cela sert à quoi par rapport à summary ?

Données groupées > fumer <- group_by(survey2, Smoke) > summarise(fumer, Mmain=mean(Wr.Hnd,na.rm=TRUE), SDmain=sd(Wr.Hnd,na.rm=TRUE)) > summarise(fumer, Mmain=mean(Wr.Hnd,na.rm=TRUE), SDmain=sd(Wr.Hnd,na.rm=TRUE), Nombre=n()) > fumer2 <- group_by(survey2, Smoke, Sex) > summarise(fumer2, Mmain=mean(Wr.Hnd,na.rm=TRUE), SDmain=sd(Wr.Hnd,na.rm=TRUE), Nombre=n())

Enchaîner les opérations > t1 60) > t2<-mutate(t1,diff=abs(Wr.Hnd-NW.Hnd)) > t3<-group_by(t2,Sex,W.Hnd) > t4<-summarise(t3,Mmain=mean(Wr.Hnd,na.rm=TRUE),Dmain=mean(diff,na.rm=TRUE),Nombre=n()) OU ALORS > summarise( group_by( mutate( dplyr::select(survey2,Pulse>60),diff=abs(Wr.Hnd-NW.Hnd)),Sex,W.Hnd),Mmain=mean(Wr.Hnd,na.rm=TRUE),Dmain=mean(diff,na.rm=TRUE),Nombre=n()) OU ALORS AVEC UN OPERATEUR DE « PIPE » > survey2 %>% dplyr::select(Pulse>60) %>% mutate(diff=abs(Wr.Hnd-NW.Hnd)) %>% group_by(Sex,W.Hnd) %>% summarise(Mmain=mean(Wr.Hnd,na.rm=TRUE),Dmain=mean(diff,na.rm=TRUE),Nombre=n())