Actualités
Rendez-vous le 25 juin à la MAS-Paris (13ème arrondissement) de 9h00 à 18h00 pour une journée dédiée à la gestion de contenu open source
Rendez-vous le Vendredi 14 juin à Vandoeuvre les Nancy pour assister à la journée DevelopR6.
Rendez-vous le 25 juin à la MAS-Paris (13ème arrondissement) de 9h00 à 18h00 pour une journée dédiée à la gestion de contenu open source
Rendez-vous le Vendredi 14 juin à Vandoeuvre les Nancy pour assister à la journée DevelopR6.
Vous avez besoin de mettre à jour votre Lecteur Flash Flash 7
l'actualité
des solutions
Big Data est le nouveau terme à la mode en BI. Derrière ces deux mots, se cachent beaucoup de concepts, de problématiques et de métiers. Nous avons voulu tenter une approche pragmatique en testant l'utilisation d'outils de reporting d'entreprise classique : PRD et iReport.
Ci-dessous, quelques retours avec Hadoop Hbase
Hadoop Hbase est une implémentation open source de Google BigTable basée sur Hadoop. Comme pour Cassandra, il s’agit d’une base de données orientée colonnes.
Tout d'abord parlons de la base en elle-même. Celle-ci est composée comme suit :
• Le nom de la table qui défini l’entité principale (i.e. database par analogie avec un SGBD classique)
• Les familles de colonnes qui définissent les colonnes (i.e. table par analogie avec un SGBD classique)
• Le qualifier qui représente le type de données que l'on veut insérer (i.e. colonne par analogie avec un SGBD classique). Dans ce cadre, on ne définit pas directement les champs lors de la création de la base.
Ireport possède les plugins permettant d'utiliser les données provenant d'une base de données sous Hbase.
Pour l’utiliser il faut bien entendu démarrer les instances pour la connexion (zookeeper, le server REST et la base hbase). La chaîne de connexion est relativement identique et utilise hostname et le port.
Ensuite, il faut définir sa requête qui fournit le dataset. Le langage utilisé est le HbaseQuery.
Ce langage est totalement différent du langage SQL ou CQL que l'on a vu précédemment. Il est basé sur le langage déclaratif JSON.
Voici un exemple basique du langage utilisé pour sélectionner l'ensemble des enregistrements de la table « clients »
Les différentes fonctions que l'on peut utiliser sont les filtres (sur des listes ou des lignes), les tris, les conditions. Nativement, il n’y a pas de GROUP BY mais il est possible d’arriver au même résultat de façon détournée.
Les rapports sont ensuite effectués comme avec une requête SQL classique.
PRD ne possède pas de plugin natif permettant d'effectuer des rapports sur Hbase.
Comme pour Cassandra, il n'existe pas de connecteur direct depuis l'éditeur de rapports.
Pour exploiter des données provenant de Hbase, il faut encore utiliser l'ETL Pentaho Data Integration et créer un flux permettant de lire les lignes. Dans le report designer, il est possible de créer une connexion sur PDI et de transmettre toutes les lignes extraites.
Ensuite les rapports sont créés de la manière classique.
Commentaires