La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 BIGDATA Stella Kemgang Samuel Quettier Dzung Nguyen Cyrille Meli Encadré par : Julie Josse.

Présentations similaires


Présentation au sujet: "1 BIGDATA Stella Kemgang Samuel Quettier Dzung Nguyen Cyrille Meli Encadré par : Julie Josse."— Transcription de la présentation:

1 1 BIGDATA Stella Kemgang Samuel Quettier Dzung Nguyen Cyrille Meli Encadré par : Julie Josse

2 2Sommaire Introduction générale A. Retour sur la Présentation générale B. Limites de R C. Des solutions Les solutions dans R A. Big memory B. Ff Conclusions et ouvertures 1 2 3

3 3 IntroductionSolutions dans RConclusions et ouvertures Introduction générale 1

4 4 IntroductionSolutions dans RConclusions et ouvertures Possibilité de combiner programmation, utilisation de fonctions pré-définies (code source accessible) et/ou clique boutons Rcmdr. Plus de 2800 librairies (packages) ! Collaboratif. Évolution rapide du logiciel, disponibilité immédiate de nouvelles méthodes ou méthodologies. Disponible sous Mac, Windows, Linux. Diffusion : congrès. Retour sur la Présentation générale Source : Introduction à R, Marine Cadoret & Julie Josse

5 5 IntroductionSolutions dans RConclusions et ouvertures Deux limites importantes : R nutilise par défaut quun seul CPU. read.table enregistre par défaut les données dans la RAM. Facile dépuiser la RAM en stockant des données inutiles. Le système d'exploitation limité à 4 Go de mémoire. R limité à 2Go. Limites de R Problématique, lorsque lheure est de plus en plus aux gros jeux de données ! (amazon, gouv, aéronautique, marchés financiers…) Plusieurs Go ! Téraoctets ?!

6 6 IntroductionSolutions dans RConclusions et ouvertures Il existe plusieurs solutions : Acheter plus de RAM. Utiliser un Système de Gestion de Bases de Données. Echantillonner, ré-échantillonner, ou utiliser la méthode de Monte Carlo. Ce dont nous allons vous parler … Solutions

7 7 IntroductionSolutions dans RConclusions et ouvertures « BigData » = jeu de données qui ne rentre pas dans la RAM. Packages de R pour les prendre en charge : Bigmemory. Ff. Il existe également des packages permettant de pratiquer le parallel computing pour atteindre un objectif similaire : HadoopStreaming. Rhipe. Présentation sur le parallel computing !!!

8 8 IntroductionSolutions dans RConclusions et ouvertures Les solutions dans R 2

9 9 IntroductionSolutions dans RConclusions et ouvertures Le package Bigmemory « The bigmemory Project » Michael J. Kane and John W. Emerson, Yale University « Sister » packages: Bigalgebra Bigtabulate Biganalytics Synchronicity Date de publication: 12/09/2012 Schéma du projet « bigmemory »

10 10 IntroductionSolutions dans RConclusions et ouvertures Stocker des objets massifs (matrices) dans la RAM en utilisant des pointeurs extérieurs pour les référer. Le jeu de données peut être « file-backed » pour le gérer et lanalyser facilement lorsque sa taille est plus élevée que celle de la RAM. Certains processus dans le même ordinateur peuvent partager ces objets issus de « bigmemory ». Le package Bigmemory

11 11 IntroductionSolutions dans RConclusions et ouvertures Création big.matrix as.big.matrix filebacked.big.matrix shared.big.matrix Accession describe attach.big.matrix attach.resource Manipulation mwhich morder mpermute deepcopy flush write.big.matrix Importation read.big.matrix Le package Bigmemory

12 12 IntroductionSolutions dans RConclusions et ouvertures read.big.matrix (filename, sep =,, header = FALSE, skip = 0, col.names = NULL, row.names = NULL, has.row.names=FALSE, ignore.row.names=FALSE, extraCols = NULL, type = NA, separated = FALSE, backingfile = NULL, backingpath = NULL, descriptorfile = NULL, shared=TRUE) Le package Bigmemory

13 13 IntroductionSolutions dans RConclusions et ouvertures separated TRUE : la mémoire est allouée dans des vecteurs distincts pour chaque colonne. FAUX : la matrice est stockée dans le format traditionnel, comme dans R standard. Le package Bigmemory

14 14 IntroductionSolutions dans RConclusions et ouvertures backingfile Une « file-backed » matrice peut dépasser la RAM disponible en utilisant l'espace du disque dur, et peut également être partagée entre plusieurs processus. Une « file-backed » matrice peut dépasser la RAM disponible en taille à l'aide d'un cache de fichier (ou des caches de fichiers multiples, si separated = TRUE). descriptorfile Donner le nom du fichier pour contenir la description « file- backed », pour une utilisation ultérieure avec attach.big.matrix Le package Bigmemory

15 Un peu dapplications ??

16 16 IntroductionSolutions dans RConclusions et ouvertures Exemple de création et Manipulation de données objet qui pointe vers l'emplacement mémoire de la structure des données Demande de Permission pour modification !!! Big.matrix matrix

17 17 IntroductionSolutions dans RConclusions et ouvertures Usage des fonctions morder et mpermute Exemple de création et Manipulation de données

18 18 IntroductionSolutions dans RConclusions et ouvertures ozone<-read.big.matrix ("ozone.txt", header=TRUE, sep=" ", type = "double", has.row.names=TRUE, backingfile = "ozone.bin", backingpath = "E:/documents/Rennes/MASTER 2 Stat/Cours R/TD2" descriptorfile = "ozone.desc") Library ("bigmemory") Library ("biganalytics") Summary (ozone) dim (ozone) attributes (ozone) parallel computing Summary (ozone) Exemple: importation des données

19 19 IntroductionSolutions dans RConclusions et ouvertures Nouvelle session de R sur le même ordinateur ou sur plusieurs autres Parallel computing plusieurs processus de R peuvent partager des objets de mémoire via lappel par référence Exemple: importation des données

20 20 IntroductionSolutions dans RConclusions et ouvertures Un petit test !! fonctionfichierTemps (sec) read.big.matrix (Bigmemory) (.csv) 167 Mo ~ 1,37 min read.table ~ 4,33 min read.big.matrix (Bigmemory) (.csv) 1,62 Go ~ 46,17 min read.table ??? Après 4h dattente … Samsung Electronics Celeron (R) Dual -Core CPU 2.10GHz, 3 GoRAM. Avec bigmemory gain important de vitesse dimportation des fichiers. importation de 2 fichiers.

21 IntroductionSolutions dans RConclusions et ouvertures Avantages: o Stocker une matrice dans la mémoire par référence. o Laccès à la RAM est rapide grâce à C + +. Inconvénients: o Disparaît au redémarrage, à moins d'utiliser filebacked.big.matrix. o Limite du processus filebacked sur les systèmes 32 bits.

22 Il nexiste pas que Bigmemory!!

23 23 IntroductionSolutions dans RConclusions et ouvertures ff= fast access files Le package ff mémoire Support externe Facilite laccès des données de grande dimension; bigdata=objets ff, on y a accès comme à des objets R ordinaires. Les données sont stockées dans le disque dur mais se comportent comme si elles étaient dans la RAM. Les objets ff sont transformés en fichiers binaires très légers pour la mémoire!! CHUNKS

24 24 IntroductionSolutions dans RConclusions et ouvertures Le package ff Il comprend 2 parties: - « low level » écrite en C -« high level» écrite en R

25 IntroductionSolutions dans RConclusions et ouvertures Le package ff Ouverture/création de fichiers: Contrôlé par 2 principales fonctions, ff et ffm. Si les arguments length et dim sont spécifiés alors création, sinon ouverture. Les opérations Entrés/Sorties (I/O): Contrôlé par les opérateurs [ ], <- Utilisation de fichiers binaires!!!! Fonctions et méthodes pour les objets ff et ffm: Plusieurs fonctions qui optimisent lutilisation du package sont mises à disposition. La partie en R comprend les sections suivantes:

26 IntroductionSolutions dans RConclusions et ouvertures Le package ff Quelques fonctions utiles: ff( initdata = NULL, length = NULL, levels = NULL, dim = NULL, filename = NULL, overwrite = FALSE, vmode = NULL ) Var qualitatives Valeurs qui Initialisent lobjet à construire Mode de stockage virtuel Donne un nom au fichier dans lequel est créé lobjet Si True, ecrase des fichiers contenant déjà des objets 27 arguments à elle seule!!!

27 IntroductionSolutions dans RConclusions et ouvertures Quelques fonctions utiles: As.ffdf conversion dune matrice en dataframe. ffm.data.frame Biglmajuste un modèle linéaire à des ff bigdata. Bigglm read.table.ffdf importe un jeu de données en le transformant en ff dataframe.

28 IntroductionSolutions dans RConclusions et ouvertures Avantages: o Permet à R de travailler avec plusieurs jeux de données énormes simultanément; o Nettoie le système; o Ne cesse dêtre optimisé. Inconvénients: o Difficile à mettre en œuvre et à comprendre car peu dexemples; o La mise sur pieds danalyses performantes requiert beaucoup de réflexion.

29 29 IntroductionSolutions dans RConclusions et ouvertures 3

30 30 IntroductionSolutions dans RConclusions et ouvertures Conclusions Quel package utiliser ? Cest une question de goût ! Bigmemory est plus confortable à lutilisation. Mais ff produit des data frames, type utilisé par beaucoup de fonctions sous R standard.

31 31 IntroductionSolutions dans RConclusions et ouvertures Conférence BIG DATA PARIS, 2ème édition, avril 2013, CNIT Paris La Défence. Pour en savoir plus …

32 32 IntroductionSolutions dans RConclusions et ouvertures Sources : Bigmemory.pdf ; Michael J. Kane & and John W. Emerson ; 17 Septembre Ff.Pdf ; Daniel Adler & all ; 8 Mai Working with Large Datasets ; Ryan R. Rosario ; 17 Aout Big_Memory V0.pdf ; Gstat ; 24 Mars 2012.

33 33 BIGDATA Stella Kemgang Samuel Quettier Dzung Nguyen Cyrille Meli Encadré par : Julie Josse Cétait


Télécharger ppt "1 BIGDATA Stella Kemgang Samuel Quettier Dzung Nguyen Cyrille Meli Encadré par : Julie Josse."

Présentations similaires


Annonces Google