Actualités

[21/06/2017] Smile dans le top 10 des entreprises où il fait bon travailler !

Smile entre dans le classement très fermé des entreprises où il fait bon débuter sa carrière. Un palmarès publié dans Les échos et réalisé par Meilleures-entreprises.com.

[20/06/2017] Smile classé 1er hébergeur en haute disponibilité depuis 3 mois

Depuis début mars, soit 3 mois consécutifs, Smile est à la tête du Classement des Hébergeurs en haute disponibilité, réalisé par ip-label et le Groupe NextRadio TV (01net, BFM, RMC).

[20/06/2017] Smile remporte l'Extending eZ Award !

Lors de l'eZ Conference 2017 qui s'est tenue du 6 au 8 juin, Smile a remporté l'Extending eZ Award.

Toutes les actualités picto
       

Vous avez besoin de mettre à jour votre Lecteur Flash Flash 7

Guillemet ouvrant l'actualité des solutions
et des technologies open source Guillemet fermant
picto

Hadoop 2.0 : MapReduce devient YARN et propose de nouvelles fonctionnalités

La récente release d'Hadoop 2.0 amène son lot de nouveautés, parmi lesquelles on notera la présence de YARN (Yet Another Resource Negotiator).

Comme vous le savez peut être déjà, il est possible de séparer Hadoop en deux grandes entités distinctes :

  • Le stockage de données via HDFS,
  • Le traitement de données distribué, principalement porté par MapReduce.

YARN est une refonte complète de cette deuxième partie du framework et a été écrit afin de répondre à plusieurs limitations majeures d'Hadoop.

Des changements majeurs du point de vue de l'infrastructure

YARN représente tout d'abord un changement majeur sur le plan de l'infrastructure d'Hadoop dans la mesure où il s'agit d'une refonte du JobTracker (le service en charge du lancement et du suivi des tâches sur le cluster Hadoop). Les évolutions apportées ont plusieurs objectifs, dont le principal est une meilleure scalabilité de l'ensemble. À ce titre, le JobTracker tel que nous le connaissions a disparu et été scindé en deux composants :

  • ResourceManager : l'ordonnanceur, qui est responsable de la priorisation des tâches et de l'allocation aux différents nœuds du cluster,
  • ApplicationManager : présent sur chaque nœud, il gère le cycle de vie d'une tâche acceptée par un nœud.

Cette répartition du travail permet une meilleure scalabilité des applications, déléguant une partie non négligeable de la gestion des tâches aux nœuds.

En outre, dans la précédente version de MapReduce, les slots de calculs étaient réservés à un type de tâche (Map uniquement, Reduce uniquement). Cette notion a disparu au profit de conteneurs qui peuvent mener tout type d'opération, permettant une optimisation de l'allocation des ressources du cluster ainsi que d'envisager d'autres types de programmation que le MapReduce (cf. plus loin).

Enfin, l'ordonnanceur est hautement personnalisable, permettant d'envisager une répartition équitable des ressources disponibles dans le cadre d'applications multi-tenants (ou a contrario une priorisation basé sur un SLA).

Au delà de MapReduce, de nouvelles fonctionnalités

J'ai souvent lu que YARN était un remplaçant de MapReduce pour la nouvelle version d'Hadoop. En effet, YARN est le nouveau composant qui, dans Hadoop 2.0, exécutera vos anciennes tâches MapReduce (après recompilation).

Mais YARN se veut surtout plus large en permettant d'intégrer de nouveaux paradigmes pouvant se révéler plus adaptés à certains usages que MapReduce. À titre d'exemple, voici une liste non exhaustive d'applications qui s'appuient d'ores et déjà sur YARN :

Même si ces applications existaient pour la plupart avant l'apparition de YARN, elles devaient le plus souvent s'appuyer sur leurs propres mécanismes de gestion de clustering et/ou d'accès aux données. YARN vient simplifier tout cela, et le déploiement de ces applications, effectué directement au sein du cluster Hadoop existant, devient ainsi beaucoup plus simple.

Les applications historiques d'Hadoop bénéficieront elles aussi de YARN. C'est par exemple le cas de Hive, qui se verra bientôt doté d'un tout nouveau moteur d'exécution basé sur YARN, nommé Tez et qui va permettre à terme des gains de performances importants, rendant l'outil beaucoup plus utilisable pour l'exécution de requêtes interactives.

À l'image de HDFS, qui présente de nombreuses améliorations dans Hadoop 2.0, YARN est le symbole d'une communauté vivante mais surtout compétente et qui adapte pleinement Hadoop aux besoins.
C'est sans conteste ce qui permettra à Hadoop de consolider encore davantage sa position de leader incontestable dans le domaine du BigData.

Aurélien FOUCRET
picto

Commentaires

Soyez la premiere personne à ajouter un commentaire sur cet article.
Ecrire un nouveau commentaire