[Big Data] Hortonworks : introduction à HDP et à Ambari

Ce billet présente HDP 2.x, la distribution Hadoop de Hortonworks, et comment l’installer et configurer via la Sandbox. Il aborde également Ambari.

Présentation de Hortonworks

Hortonworks est une société américaine fondée en 2011 par des anciens membres de l’équipe de Doug Cutting, créateur de Hadoop chez Yahoo!.

Sponsor d’Apache Software Foundation, Hortonworks est également partenaire d’un certain nombre d’acteurs-clés de l’informatique : Microsoft, Teradata, HP, SAP,…

Introduction à HDP 2.x

Architecture de HDP 2.x

Hortonworks développe, commercialise et maintient HDP (Hortonworks Data Platform), une plateforme Hadoop permettant de stocker, traiter et analyser un gros volume de données. HDP supporte un certain nombre de composants faisant partie de l’écosystème Hadoop : HDFS (Hadoop Distributed File System), MapReduce, Hive, Pig, HBase, ZooKeeper,… Et est capable d’également supporter Storm et Spark pour l’analyse temps-réel, et bien d’autres technologies.

L’architecture de HDP 2.x est la suivante :


  • Data Integration & Governance : simplification et contrôle du cycle de vie des données avec Falcon, ingestion de données en temps-réel avec Flume et Storm, intégration en mode batch avec Sqoop, WebHDFS, NFS
  • Data Access : MapReduce pour l’analyse en mode batch, Pig pour le scripting ETL (Extract, Transform, Load), Hive comme base de données relationnelle avec langage SQL (HiveQL), HBase et Accumulo comme bases de données NoSQL, Storm pour les traitements temps-réels, Spark pour les traitements temps-réels in-memory,…
  • Data Management : HDFS comme système de stockage, YARN comme cluster de management de traitements. Ils forment le centre névralgique de HDP.
  • Security : sécurisation des accès avec Knox, Falcon et Hive, protection de données avec Falcon et WebHDFS.
  • Operations : monitoring avec Ambari, planification avec Oozie.

Côté exploitation, HDP est utilisable aussi bien sur Linux que sur Windows. Et peut être accessible en mode cloud (Azure,…), virtualisé (VMWare,…), on premise,…

Installation et configuration de Hadoop avec la Sandbox

Pour l’installation de la Sandbox, machine virtuelle préconfigurée avec Hadoop et ses composants, sur VMWare. Le téléchargement fini, son import dans VMWare Workstation est assez simple.

Pour commencer, spécification du nom et du chemin d’accès de la VM :


La validation des informations rentrées donnera lieu à l’ouverture d’une boîte modale de progression :


Sitôt l’import terminé, la station de travail VMWare ressemblera à cela :


Il ne restera plus à lancer la machine virtuelle (Power on this virtual machine), qui va alors démarrer HDP et ses différents composants


Si tout va bien :


Nous pouvons apercevoir ci-dessus l’adresse IP à utiliser pour accéder à l’interface de la Sandbox via un navigateur Web de la machine locale, en l’occurrence : http://192.168.86.128.


Après enregistrement, l’installation est terminée et la Sandbox prête à l’emploi :


Nous pouvons apercevoir dans l’interface de bienvenue de la Sandbox quelques informations de connexion utiles (SSH, Ambari qui nous sera utile plus loin…).

Il reste à se loguer au cluster Hadoop sur la VM :


Le succès de l’authentification conduira à cet exemple d’écran:


Monitoring de HDP avec Ambari

Apache Ambari est une plateforme d’administration dont les fonctions-clés sont :

  • L’approvisionnement de clusters Hadoop, Storm, Spark, Kafka…
  • La gestion centralisée de services associés à un cluster Hadoop, Storm, Spark, Kafka…
  • Le monitoring de ressources, d’états d’activité, de jobs (Hive, Pig, MapReduce, Sqoop…),…

Pour accéder à l’interface Ambari, il suffit d’aller à l’adresse suivante : http://<Adresse_IP_générée_durant_l’installation_de_la_Sandbox> :8080 (soit, dans notre cas : http://192.168.86.128:8080). Une interface d’authentification va alors s’afficher :


Les informations d’accès sont données par Hortonworks dans l’interface Hue de bienvenue, vue plus haut dans ce billet.

Cela va conduire vers cet exemple d’interface d’accueil :


Hadoop étant très complexe à administrer, Ambari sert d’excellente alternative pour tout administrateur de clusters Hadoop devant gérer une variété de composants.

Plus de détails sur Ambari ici.

Pour aller plus loin…

Jetez un coup d’œil ici pour plus de références sur Hortonworks. Pour plus d’articles autour des Big Data et de HDP, vous pouvez aller .

Publicités

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s