Top départ pour la virtualisation des data warehouse

VMware allié à ParAccel pour le TPC-HVMware et ParAccel bousculent le TPC-H et cassent le prix des entrepôts de données.
Coup de théâtre. Pour la toute première fois dans l’histoire du classement des performances des data warehouse, c’est une plate-forme virtualisée qui prend la tête du TPC-H. Plus précisément la tête des architectures pour 1 To.
Serveurs bi-processeurs banalisés (enfin avec beaucoup beaucoup de RAM tout de même), hyperviseur VMware pour tous les nœuds et base de données ParAccel sous Linux et le record détenu par HP et Oracle sous Linux est tombé.
Cerise sur le gâteau : la performance était au rendez-vous et surtout le prix de la configuration était beaucoup plus modeste que celui du précédent détenteur du record. Moins de processeurs et surtout des coûts de licences resserrés, c’est le signe des temps ; faire plus avec (beaucoup) moins.

Petits joueurs passez votre chemin

Pour parvenir à cette performance, VMware et ParAccel ont déployés pas moins de quarante serveurs HP DL 380. Ces bi-processeurs Xeon x5560 avec 72 Go de RAM (chacun) et 8 disques SAS de 300 Go. Une ferme de serveurs conséquente pour exécuter 80 machines virtuelles : 1 nœud leader plus 79 nœuds de calcul. Config de ce dernier : 4 processeurs virtuels, 32 Go de RAM et 4 disques virtuels de 279 Go. Du lourd : il y a pour 915511 dollars et 44 cents de matos et de soft. Côté soft justement tout ce petit monde fonctionne sur VMware vSphere 4 et met en œuvre la base ParAccel Analytic Database 2.5.
Pour mémoire la configuration HP/Oracle qui avait été mesurée à 1.166.976 QphH était facturée… 6.320.000 dollars. C’est plus un écart, c’est un gouffre. D’autant que cette configuration était le top en juin 2010, donc il y a à peine un an.
Alors qu’est-ce qui explique la performance de nos deux compères ? Premier constat : la plate-forme matérielle est nettement moins puissante que celle d’HP et d’Oracle. 80 processeurs contre 128, d’où l’écart de cout. De même les couts des licences logicielles n’ont rien à voir. Plus de 6 millions de dollars pour Oracle, même en s’appuyant sur Linux ça reste délirant face aux moins de 300.000 dollars réclamés par VMware et ParAccel. Les licences VMware par chère ? Si j’avais imaginé écrire ça un jour…


La configuration type d'un noeud VMware dans l'architecture mise en oeuvre pour battre le TPC-H.

De la RAM, des disques et encore de la RAM et des disques

Jetons maintenant un coup d’œil aux perfs. Avec un QphH (nombre de requêtes par heure) de 1.316.882, VMware et ParAccel distancent HP/Oracle qui avait obtenus 1.166.976, devant une relativement ancienne configuration à base de Fujitsu Primergy et Exasol qui obtenait 1.018.321 en juin 2008 (c’était un exploit pour l’époque car la performance était alors multipliée par deux).
ParAccel sur VMware avale donc 13% de requete par heure de plus qu’Oracle par contre l’architecture virtualisée s’est montré particulièrement performante sur un point : le chargement du 1 To de donnée dans la base a pris exactement 16 minutes et 23 secondes. Wow, là il y a un truc. Rappel, sur la monstrueuse config HP/Oracle, il avait fallu 2 h 22mn et 57s pour gaver la base du même To de données… VMware explique ses performances par l’utilisation qu’il fait du Hardware. De fait, les deux systèmes ont a eu près la même mémoire totale (2880 Go pour l’un, 2080 Go pour l’autre). L’écart ne se creuse donc pas sur ce point. Côté stockage disque, la configuration VMware bénéficie d’un rapport espace de stockage / volume de la base de données bien supérieur : 89,4 contre 38,79 pour HP/Oracle. Un début d’explication ?
Résultat quand on combine plate-forme et performance, la solution virtualisé présente un rapport qualité prix tout simplement unique. Le coût du QphH tombe à 0,70 $ seulement contre 5,42 $ pour la configuration HP / Oracle. Seule l’appliance Kickfire peut rivaliser mais sur une volumétrie beaucoup plus faible puisqu’en catégorie des 100 Go.
Le résultat de ce TPC-H est donc è prendre avec des réserves mais il ne peut que nous amener à considérer sérieusement les architectures virtualisées pour le stockage des données décisionnelles.

Les résultats officiels du TPC-H : Top Ten TPC-H by Performance Version 2 Results

Article liés

Ce contenu a été publié dans Benchmark, avec comme mot(s)-clef(s) , , . Vous pouvez le mettre en favoris avec ce permalien.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*


*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>