Actualités

[22/05/2017] Smile récompensé lors du Hackathon Carrefour !

Smile a remporté le Prix du Code lors du Hackathon Carrefour, organisé ce week-end à Paris !

[18/05/2017] OpenShift, le nouveau livre blanc Smile !

Smile publie aujourd'hui un livre blanc dédié à OpenShift, le PaaS open source orienté DevOps. A télécharger dès maintenant !

[15/05/2017] Smile décroche le label HappyAtWork 2017 !

Pour la 2ème année consécutive, Smile obtient le label HappyAtWork for Starters qui récompense les entreprises où il fait bon débuter sa carrière !

Toutes les actualités picto
       

Vous avez besoin de mettre à jour votre Lecteur Flash Flash 7

Guillemet ouvrant l'actualité des solutions
et des technologies open source Guillemet fermant
picto

Hbase et iReport / Hbase et Pentaho Report Designer

Big Data est le nouveau terme à la mode en BI. Derrière ces deux mots, se cachent beaucoup de concepts, de problématiques et de métiers. Nous avons voulu tenter une approche pragmatique en testant l'utilisation d'outils de reporting d'entreprise classique : PRD et iReport.

Ci-dessous, quelques retours avec Hadoop Hbase

Hadoop Hbase est une implémentation open source de Google BigTable basée sur Hadoop. Comme pour Cassandra, il s’agit d’une base de données orientée colonnes.
Tout d'abord parlons de la base en elle-même. Celle-ci est composée comme suit :

•    Le nom de la table qui défini l’entité principale (i.e. database par analogie avec un SGBD classique)
•    Les familles de colonnes qui définissent les colonnes (i.e. table par analogie avec un SGBD classique)
•    Le qualifier qui représente le type de données que l'on veut insérer (i.e. colonne par analogie avec un SGBD classique). Dans ce cadre, on ne définit pas directement les champs lors de la création de la base.

Ireport :

Ireport possède les plugins permettant d'utiliser les données provenant d'une base de données sous Hbase.
Pour l’utiliser il faut bien entendu démarrer les instances pour la connexion (zookeeper, le server REST et la base hbase). La chaîne de connexion est relativement identique et utilise hostname et le port.
Ensuite, il faut définir sa requête qui fournit le dataset. Le langage utilisé est le HbaseQuery.
Ce langage est totalement différent du langage SQL ou CQL que l'on a vu précédemment. Il est basé sur le langage déclaratif JSON.
Voici un exemple basique du langage utilisé pour sélectionner l'ensemble des enregistrements de la table « clients »

Les différentes fonctions que l'on peut utiliser sont les filtres (sur des listes ou des lignes), les tris, les conditions. Nativement, il n’y a pas de GROUP BY mais il est possible d’arriver au même résultat de façon détournée.
Les rapports sont ensuite effectués comme avec une requête SQL classique.

Pentaho Report Designer (PRD) :

PRD ne possède pas de plugin natif permettant d'effectuer des rapports sur Hbase.
Comme pour Cassandra, il n'existe pas de connecteur direct depuis l'éditeur de rapports.
Pour exploiter des données provenant de Hbase, il faut encore utiliser l'ETL Pentaho Data Integration et créer un flux permettant de lire les lignes. Dans le report designer, il est possible de créer une connexion sur PDI et de transmettre toutes les lignes extraites.
Ensuite les rapports sont créés de la manière classique.

Adrien Futschik
picto

Commentaires

Soyez la premiere personne à ajouter un commentaire sur cet article.
Ecrire un nouveau commentaire