Actualités

[26/06/2017] Smile acquiert Hypertexte, expert en référencement naturel (SEO) et en contenus optimisés

Smile annonce l’acquisition de l’agence Hypertexte, spécialiste du référencement naturel, de la conception et de la réalisation de contenus pensés pour le SEO.

[21/06/2017] Smile dans le top 10 des entreprises où il fait bon travailler !

Smile entre dans le classement très fermé des entreprises où il fait bon débuter sa carrière. Un palmarès publié dans Les échos et réalisé par Meilleures-entreprises.com.

[20/06/2017] Smile classé 1er hébergeur en haute disponibilité depuis 3 mois

Depuis début mars, soit 3 mois consécutifs, Smile est à la tête du Classement des Hébergeurs en haute disponibilité, réalisé par ip-label et le Groupe NextRadio TV (01net, BFM, RMC).

Toutes les actualités picto
       

Vous avez besoin de mettre à jour votre Lecteur Flash Flash 7

Guillemet ouvrant l'actualité des solutions
et des technologies open source Guillemet fermant
picto

Comparatif des interfaces SQL d'exploitation d'entrepôts de données Big Data/NoSQL

A l'heure où de plus en plus d'entreprises déploient ou migrent leur entrepôt de données sur HADOOP, il nous a paru intéressant de partager un comparatif des outils d'accès aux données en langage SQL, qui reste à ce jour une référence.
Nous présentons ici un comparatif synthétique des briques Big Data Apache Hive et Apache Drill face à MySQL sur les fonctionnalités de lecture des données (les fonctionnalités de chargement ne sont pas traitées dans cet article).

Hive

Hive est la brique de requêtage SQL native d'HADOOP.

Drill

 Drill est une brique qui permet de requêter directement des sources NoSQL… en SQL.

MySQL

MySQL est un système de gestion de bases de données Open Source largement répandu.

Richesse des fonctionnalités SQL

Fonctions SQL

MySQL

Hive

Drill

Jointures

[INNER | CROSS] JOIN, {LEFT|RIGHT} [OUTER] JOIN

{LEFT|RIGHT|FULL} [OUTER] JOIN,
CROSS JOIN, LEFT SEMI JOIN

[INNER] JOIN, {LEFT|RIGHT|FULL} [OUTER] JOIN

Union

Oui

Oui

Oui

Sous-requête

Oui

Oui

Oui

Filtrage et tri

Oui

Oui

Oui

Fonctions mathématiques

Oui

Oui

Oui

Fonctions date

Oui

Oui

Oui

Fonctions chaîne de caractère

Oui

Oui

Oui

Opérateurs conditionnels

Oui

Oui

Oui

Opérateurss relationnels

Oui

Oui

Oui

Opérateurs arithmétiques

Oui

Oui

Oui

Opérateurs logiques

Oui

Oui

Oui

Analytics/Fenêtrage

Non

Oui (OVER)

Non (prévu dans la feuille de route d'Apache Drill)

Plan d’exécution

Oui

Oui

Oui

Gestion des structures de données avancées

Structures

MySQL

Hive

Drill

Définition des structures de données

Oui

Oui

Optionnelle

Stockage externe

Non

Oui (fichiers, JDBC, MongoDB, Google Spreadsheet,..)

Oui (fichiers CSV, JSON, MongoDB, Hive)

Partitionnement

Oui

Oui

Oui

Indexes

Oui (mais pas BITMAP)

Oui (dont BITMAP)

Non

Vues

Oui

Oui

Oui

Types de données complexes

Non

Oui

Oui

Capacités de traitement

Capacités de traitement

MySQL

Hive

Drill

Traitement de requêtes réparti

Non

Oui (MapReduce, PIG, Spark, Tez)

Oui (Drillbit, MapReduce, PIG, Spark, Hive)

Connectivité

Drivers

MySQL

Hive

Drill

JDBC

Oui

Oui

Oui

ODBC

Peu exploitable

Oui

Oui

Conclusion

S'il y a encore quelques années, l'exploitation de données Big Data se faisait au travers soit d'un langage spécifique soit avec une forte latence, les choses ont évolué ; Hive et Drill permettent maintenant d'exploiter pleinement les données d'un DWH Big Data/NoSQL avec de bonnes performances et un bon niveau de respect des standards SQL.

Leur connectivité leur permet un usage facile depuis les outils classiques de requêtage, BI, tableurs et applicatifs.

Apache Hive est la référence en exploitation de données stockées dans un entrepôt HADOOP. Son intégration aux moteurs Tez et Spark lui permet de servir des requêtes SQL avec une faible latence.

Apache Drill est très pratique pour de la découverte de données et requêter des données partiellement structurées. Son évolution rapide en fait également un outil prometteur.

Florent BERANGER
picto

Commentaires

       
Cherif TIFRANI
Bonjour, Je trouve votre comparatif super intéressant. Je souhaite ajouter quelques informations sur hive.
Hive accepte support les jointures LEFT & RIGHT uniquement sur les équi-jointure. C'est à dire si vous essayez de faire une jointure Left ou Right avec une inégalité cela ne fonctionne pas encore même dans le version Hive 0.14.
Hive dans sa dérniére version (Hive 0.14) est ACID. c'est à dire que on peut faire des opérations de type delete, update et insert uniquement sur les tables stockées en format ORC partitionnées en monde buckets et en ajoutant la propriété 'transactional'='true' à la création de la table.
Je travaille sur une distribution cloudera 5.4 et pour pouvoir utiliser Hive en mode ACID il faut configurer votre fichier hive-site.xml pour que ça marche.

Cordialement,
jeudi 17 septembre 2015 @ 9:00
       
Ecrire un nouveau commentaire