Hive, l’atout BigData de la BI OpenSource

Hadoop Hive lui ouvre la porte du Big Data

Dernièrement, Pentaho puis Jaspersoft ont pu clamer leur support du Big Data, vous savez ces data warehouse des hautes altitudes, avec des centaines de Tera octets à balayer pour trouver l’info capitale.

La BI Open Source rejoint donc le mouvement et ce n’est que justice puisque les technologies Map Reduce, Hadoop sont Open Source.

Pentaho mise sur Hive


Une source Hive dans un process d'intégration Pentaho ETL.

Une source Hive dans un process d'intégration Pentaho ETL.

Sur le site pentaholien : « Pentaho la première Suite BI complète pour Hadoop », le ton est donné. Tout comme son petit camarade Jaspersoft, Pentaho communique désormais sur le Big Data. Ca fait partie du Buzz ambiant, mais c’est assez malin pour se départir de l’image low cost que l’on colle habituellement à l’Open Source. Dans leur screencast , Richard Daley et James Dixon de Pentaho évoquent l’analyse de fichiers de logs, de mesure d’audience Web, de données collectées sur les Medias Sociaux ou encore la détection de fraude comme les premières applications de cette intégration d’Hadoop à leur offre. Hadoop est exploité d’une part au niveau de l’ETL, pour effectuer les opérations de calcul sur les données. Talend propose depuis un bail cette approche en s’appuyant sur Apache Hadoop. Pentaho mise aussi sur l’approche Map Repuce pour faire du reporting sur les données stockées dans la base Hive, le data warehouse qui s’appuie sur Hadoop. Pentaho Reporting va donc exploiter cette source de donnée mais aussi cette capacité de calcul distribué puisqu’on peu exécuter des procédures stockée dans la grille. Ce que ne dit pas la présentation Pentaho, c’est l’overhead introduit par Map Reduce quant à la génération des rapports. Hadoop a plein d’avantages, mais on est dans un fonctionnement proche du batch : le temps d’éclatement du traitement en multiples tâches est long, parfois très long. Un bench publié il y a quelques mois avait fait apparaître cette faiblesse face aux bases de données massivement parallèles (MPP). En ETL, pas de problème, on programme ça dans la nuit. Pour du reporting, il va falloir les pré-générer avant que les utilisateurs ne veillent les consulter. Pentaho propose du reporting Ad-hoc sur Hive, une solution à prendre avec des pincettes ou en tout cas à proposer à son DSI après tests préalables…

Jaspersoft : Hadoop, NoSQL et MPP à la fois


Appel d'une procédure stockée depuis un rapport Pentaho et exécutée sur les serveurs Hadoop.

Sur ce plan, Jaspersoft frappe beaucoup plus fort mais avec le même slogan à peine retouché « First Native Big Data Reporting ». Le « Native » fait toute la différence mais à de quoi laisser quelque peu dubitatif, mais passons. Donc Jaspersoft prend le train du BigData mais ne parie pas exclusivement sur Hive. Hadoop est au catalogue avec Hive, mais aussi HBase et HDFS. Mais surtout Jaspersoft mise aussi sur l’essentiel des bases NoSQL et encore les bases MPP. L’éditeur annonce sa certification sur Vertica, Greenplum et Netezza. Pour revenir sur le volet NoSQL de la stratégie NoSQL de Jaspersoft, c’est un peu le Sicob de l’informatique : CouchDB, Cassandra, VoltDB, MongoDB, Neo4J, Infinispan, etc… Bref des solutions très différentes. Aux intégrateurs d’évaluer tout ça et de concevoir les Use Cases de chacunes.

Article liés

Ce contenu a été publié dans Nouveau produit, avec comme mot(s)-clef(s) , , , . Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*


*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>