La présentation est en train de télécharger. S'il vous plaît, attendez

La présentation est en train de télécharger. S'il vous plaît, attendez

1 Apache Hadoop Exposés logiciels, systèmes et réseaux Camille DARCY 8 Janvier 2013.

Présentations similaires


Présentation au sujet: "1 Apache Hadoop Exposés logiciels, systèmes et réseaux Camille DARCY 8 Janvier 2013."— Transcription de la présentation:

1 1 Apache Hadoop Exposés logiciels, systèmes et réseaux Camille DARCY 8 Janvier 2013

2 2 Plan Un peu dhistoire... Le framework et ses objectifs Les grands concepts le système de fichiers HDFS MapReduce Exemples dutilisation Quelques implémentations et outils Conclusion

3 3 Un peu dhistoire... Initié par Doug Cutting Pré-histoire : le projet Nutch ( ) Développement influencé par les publications sur GFS et MapReduce En 2009, intégré à la fondation Apache Sortie de la v1.0.0 Open-Source en 2011

4 4 Le framework Java Bibliothèque logicielle Java Facilite le développement de systèmes danalyse et de stockage de Big Data Fournit un ensemble doutils (executables, démons...) Exécution de calculs sur une à plusieurs milliers de machines (clusters) Deux concepts majeurs : HDFS et MapReduce

5 5 Objectifs Haute disponibilité / Robustesse Rapidité Abstraction Mise à léchelle

6 6 HDFS Stockage de données distribué Inspiré par le Google FileSystem (GFS) Haute disponibilité / réplication des données Blocs de 64Mo (chunks) Utilise TCP/IP et RPC

7 7 Hôtes HDFS Architecture Maître / Esclave NameNode : Gère lespace de noms du système de fichiers (serveurs esclaves) et laccès aux fichiers par les clients DataNode : Gère le stockage des fichiers sur un noeud (création / suppression de blocs de données, réplication) Réplication configurable

8 8 Problématiques traitées par HDFS Robustesse « Battements de coeur » Auto-balancing Sommes de contrôle Organisation des données Découpage des fichiers en blocs Mise en cache des fichiers avant insertion Replication entre DataNodes

9 9 MapReduce Quest-ce que MapReduce ? Un modèle de programmation pour faire du calcul distribué Un framework Implémentation Open-Source dans Hadoop

10 10 Fonctionnement de MapReduce Traitement distribué de données en deux fonctions Map : fonction de traitement par décomposition en sous-problèmes Etape intermédiaire : Combine Reduce : fonction daggrégation des résultats pour composer une unique solution

11 11 MapReduce dans Hadoop Utilise HDFS en mode distribué JobTracker : Noeud maître responsable de lexécution de tâches sur un cluster TaskTracker : Noeud esclave exécutant une tâche (map) sur une partie des données

12 12 Architecture globale

13 13 Executable Hadoop bin/hadoop fs [command_options] Manipulation du système de fichiers distribué (HDFS) bin/hadoop jar mainClass [args] Lancement dune application Hadoop bin/hadoop job [-submit, -status, -kill...] Programmer / gérer des tâches

14 14 Modes dexecution Standalone mode Pseudo-distributed mode Fully-distributed mode

15 15 Execution Standalone Objectif : Tester un programme simple ou MapReduce Lexemple du Sudoku

16 16 Exemple de Job MapReduce Job MapReduce = Programme Java Execution de la commande Grep En entrée : fichiers de configuration Hadoop En sortie : mots correspondant à une regex et son nombre doccurences

17 17 Pseudo-distributed Configuration du NameNode et du JobTracker (master) conf/core-site.xml : fs.default.name hdfs://localhost:9000 conf/masters: localhost conf/mapred-site.xml : mapred.job.tracker localhost:9001

18 18 Pseudo-distributed Configuration du/des DataNode(s) / TaskTracker(s) (slaves) conf/slaves: localhost Configuration de la réplication conf/hdfs-site.xml : dfs.replication 1

19 19 Démonstration en mode pseudo-distributed

20 20 Exemple de Job MapReduce Compter les mots dans un ensemble de fichiers En entrée : oeuvres de Victor Hugo En sortie : chaque mot et son nombre doccurences Exécution en mode distribué (machine + VM)

21 21 Fully-distributed Configuration du NameNode et du JobTracker (master) conf/core-site.xml : fs.default.name hdfs://master:9000 conf/masters: master conf/mapred-site.xml : mapred.job.tracker master:9001

22 22 Fully-distributed Configuration du/des DataNode(s) / TaskTracker(s) (slaves) conf/slaves: slave Configuration de la réplication conf/hdfs-site.xml :... dfs.replication 2

23 23 Démonstration en mode distributed

24 24 Implémentations et outils Stockage de données : HBase (Apache) Analyse de données : Pig (Yahoo!), Hive (Facebook), Mahout, Hama Configuration de clusters : ZooKeeper, Chukwa Une distribution Hadoop : Cloudera

25 25 Utilisateurs Yahoo! Utilisait un cluster de machines sous Linux en 2008 rien que pour son moteur de recherche Facebook Détient le plus grand cluster de machines avec plus de 100 Pétaoctets de stockage en 2012 Et beaucoup dautres : Twitter, LinkedIn, IBM, HP, Microsoft, Apple, Amazon, eBay...

26 26 Conclusion Base intéressante pour pouvoir gérer de gros volumes de données Combinaison de HDFS et de MapReduce Implémenté dans de nombreux outils Puissant mais difficile à implémenter

27 27 Webographie Wikipedia Apache Hadoop et Cloudera Yahoo! Hadoop Blog de Brad Hedlund network/ network/


Télécharger ppt "1 Apache Hadoop Exposés logiciels, systèmes et réseaux Camille DARCY 8 Janvier 2013."

Présentations similaires


Annonces Google