Télécharger la présentation
La présentation est en train de télécharger. S'il vous plaît, attendez
Publié parClarisse Villeneuve Modifié depuis plus de 8 années
1
Hadoop distributions Hadoop https://fr.wikipedia.org/wiki/Hadoop Hadoop est un framework Java libre destiné à faciliter la création d'applications distribuées et scalables. Le HDFS est un système de fichiers distribué, extensible et portable développé par Hadoop. Écrit en Java, il a été conçu pour stocker de très gros volumes de données sur un grand nombre de machines équipées de disques durs banalisés. Une architecture de machines HDFS (aussi appelée cluster HDFS) repose sur deux types de composants majeurs : NameNode (nœud de noms) : ce composant gère l'espace de noms, l'arborescence du système de fichiers et les métadonnées des fichiers et des répertoires. DataNode (nœud de données) : ce composant stocke et restitue les blocs de données.
2
Hadoop distributions Pourquoi une distribution? Hadoop est en aucun cas une solution de type ‘box’, l’intervention de multiples composants issus du monde open source rend son installation et son exploitation délicates. Les entreprises ont besoin d'une solution de gestion de données qui soit robuste, mais facile à intégrer avec l'infrastructure existante. L' architecture flexible et modulaire de haddoop permet d'ajouter de nouvelles fonctionnalités pour l'accomplissement de tâches diverses. Des distributeurs ont peaufiné le code afin de modifier ou d'améliorer les fonctionnalités. Certains ont été en mesure de résoudre des inconvénients inhérents de Hadoop. Hadoop est en aucun cas une solution out-of -the-box. Afin de construire une entreprise véritablement infos entraînée, où les décisions sont fondées sur des données et non pas deviner œuvres, les entreprises auraient besoin d'une solution de gestion de données qui offre non seulement robuste gouvernance des données, mais aussi est facilement gérable et intègre parfaitement avec l'infrastructure existante de l'entreprise. Hadoop est notamment distribuée par quatre acteurs qui packagent la solution, proposent des services de formation et un support commercial, mais également des fonctions supplémentaires. Ces distributeurs ainsi ont une réelle plus-value à apporter à leurs clients. Ces distributeurs sont : Cloudera, la première distribution historique d'Hadoop qui intègre les packages classiques et certains développements propriétaires comme Impala. Cloudera Hortonworks MapR Technologies - MapR a développé un système de fichier pour Hadoop palliant les limites du HDFS MapR IBM BigInsights for Hadoop, 100% open source Apache Hadoop, propose des extensions analytiques et d'intégration dans le SI(IBM) d'entreprise. IBM https://fr.wikipedia.org/wiki/Hadoop
3
Hadoop distributions Cloudera distribution http://fr.cloudera.com/content/cloudera/en/products-and-services/cloudera-enterprise.html https://youtu.be/US_y0WuvDbY Points clefs: Portail d’administration Cloudera Manager (Propriétaire) Couche unifiée d’accès aux données Impala (Open Source) Les entreprise voulaient une gestion et outil de surveillance pour Hadoop, Cloudera créa 'Cloudera Manager'. Les entreprise voulaient un moteur SQL plus rapide pour Hadoop, Cloudera créa 'Impala'. Cloudera a plus de 200 des clients grands comptes, dont des déploiements de plus de mille nœuds soutenant plus d'un pétaoctet de données.
4
Hadoop distributions Hortonworks distribution http://fr.hortonworks.com/hdp/ https://youtu.be/paAYem07NyA Points clefs: Fort partenariat avec les gros du métier (Google) Investissements massifs sur le gestionnaire de ressources YARN 100% de leurs développement est Open Source Hortonworks distribue Hcatalog, contenant un meta-dictionnaire des objets disponibles sur Hadoop. Tous les outils sont toujours intégrés dans leurs versions les plus récentes. Les tests sont faits directement sur les machines de Google. Participent au projet Ambari, visant a simplifier l’administration des serverus Hadoop. YARN = Yet Another Resource Negocitator.
5
Hadoop distributions MapR distribution https://www.mapr.com/products/mapr-distribution-including-apache-hadoop https://youtu.be/GkQpUZNaYT8 Points clefs : Base NOSQL MapR-DB (Propriétaire) Utilisation de la technologie NFS (Propriétaire) et non HDFS Integration des outils gravitant autour de Hadoop MapR est la seule distribution à installer en natif Apache Spark. MapR est impliqué dans l’élaboration de la base AADHAAR, plus grosse base d’identification biométrique au monde (1,2 Miliard d’identités, base utilisée pour les transactions banquaire en inde, interrogée en temps réel).
6
Hadoop distributions Distribution comparison http://www.experfy.com/blog/cloudera-vs-hortonworks-comparing-hadoop-distributions/
Présentations similaires
© 2024 SlidePlayer.fr Inc.
All rights reserved.