Actualités

[08/09/2017] Breaking news ! Smile décroche le label Happy Trainees 2018

Après le label HappyAtWork, Smile s’offre celui décerné par ses stagiaires et alternants !

[21/07/2017] Smile lance les premiers vélos solaires connectés à l’occasion du Sun Trip Tour 2017

Smile, leader des solutions IoT et open source, confirme sa solide expertise sur le marché de l’embarqué en participant activement à la course de vélos solaires du Sun Trip Tour.

[03/07/2017] Smile remporte le Drupagora d'Or 2017 du meilleur site e-commerce

Le vendredi 30 juin, la 3ème édition des Drupagora d'Or s'est déroulée à Paris.

Toutes les actualités picto
       

Vous avez besoin de mettre à jour votre Lecteur Flash Flash 7

Guillemet ouvrant l'actualité des solutions
et des technologies open source Guillemet fermant
picto

Hadoop 2.0 : MapReduce devient YARN et propose de nouvelles fonctionnalités

La récente release d'Hadoop 2.0 amène son lot de nouveautés, parmi lesquelles on notera la présence de YARN (Yet Another Resource Negotiator).

Comme vous le savez peut être déjà, il est possible de séparer Hadoop en deux grandes entités distinctes :

  • Le stockage de données via HDFS,
  • Le traitement de données distribué, principalement porté par MapReduce.

YARN est une refonte complète de cette deuxième partie du framework et a été écrit afin de répondre à plusieurs limitations majeures d'Hadoop.

Des changements majeurs du point de vue de l'infrastructure

YARN représente tout d'abord un changement majeur sur le plan de l'infrastructure d'Hadoop dans la mesure où il s'agit d'une refonte du JobTracker (le service en charge du lancement et du suivi des tâches sur le cluster Hadoop). Les évolutions apportées ont plusieurs objectifs, dont le principal est une meilleure scalabilité de l'ensemble. À ce titre, le JobTracker tel que nous le connaissions a disparu et été scindé en deux composants :

  • ResourceManager : l'ordonnanceur, qui est responsable de la priorisation des tâches et de l'allocation aux différents nœuds du cluster,
  • ApplicationManager : présent sur chaque nœud, il gère le cycle de vie d'une tâche acceptée par un nœud.

Cette répartition du travail permet une meilleure scalabilité des applications, déléguant une partie non négligeable de la gestion des tâches aux nœuds.

En outre, dans la précédente version de MapReduce, les slots de calculs étaient réservés à un type de tâche (Map uniquement, Reduce uniquement). Cette notion a disparu au profit de conteneurs qui peuvent mener tout type d'opération, permettant une optimisation de l'allocation des ressources du cluster ainsi que d'envisager d'autres types de programmation que le MapReduce (cf. plus loin).

Enfin, l'ordonnanceur est hautement personnalisable, permettant d'envisager une répartition équitable des ressources disponibles dans le cadre d'applications multi-tenants (ou a contrario une priorisation basé sur un SLA).

Au delà de MapReduce, de nouvelles fonctionnalités

J'ai souvent lu que YARN était un remplaçant de MapReduce pour la nouvelle version d'Hadoop. En effet, YARN est le nouveau composant qui, dans Hadoop 2.0, exécutera vos anciennes tâches MapReduce (après recompilation).

Mais YARN se veut surtout plus large en permettant d'intégrer de nouveaux paradigmes pouvant se révéler plus adaptés à certains usages que MapReduce. À titre d'exemple, voici une liste non exhaustive d'applications qui s'appuient d'ores et déjà sur YARN :

Même si ces applications existaient pour la plupart avant l'apparition de YARN, elles devaient le plus souvent s'appuyer sur leurs propres mécanismes de gestion de clustering et/ou d'accès aux données. YARN vient simplifier tout cela, et le déploiement de ces applications, effectué directement au sein du cluster Hadoop existant, devient ainsi beaucoup plus simple.

Les applications historiques d'Hadoop bénéficieront elles aussi de YARN. C'est par exemple le cas de Hive, qui se verra bientôt doté d'un tout nouveau moteur d'exécution basé sur YARN, nommé Tez et qui va permettre à terme des gains de performances importants, rendant l'outil beaucoup plus utilisable pour l'exécution de requêtes interactives.

À l'image de HDFS, qui présente de nombreuses améliorations dans Hadoop 2.0, YARN est le symbole d'une communauté vivante mais surtout compétente et qui adapte pleinement Hadoop aux besoins.
C'est sans conteste ce qui permettra à Hadoop de consolider encore davantage sa position de leader incontestable dans le domaine du BigData.

Aurélien FOUCRET
picto

Commentaires

Soyez la premiere personne à ajouter un commentaire sur cet article.
Ecrire un nouveau commentaire