LinkedIn, le BigData en action

Ayant eu la chance d’assister au Microstrategy World qui s’est tenu voici quelques semaines à Miami (on a vu pire, j’admets), j’ai pu assister à la présentation de Manu Sharma. Ce petit génie est Principal Data Scientist chez LinkedIn, autant dire que c’est une tête. Princeton, puis le MIT avant de développer des algorithmes pour la finance avant de songer enfin à améliorer l’humanité et quitter ce job en or pour devenir le Data Scientist number 1 chez LinkedIn. De toute façon, toute sa bio est… vous savez où.
Bref, Manu a présenté comment LinkedIn aborde le Big Data et surtout comment le réseau social exploite la masse démentielle de données que nous leur offrons sur un plateau chaque jour. Passionnant.

Linkedin, BigData par nature

Manu est un scientifique, il n’en garde pas moins la tête sur les épaules. Il n’a pas vendu la mèche quand au volume exact de données présentes en base de données. Il a indiqué que l’architecture de stockage de LinkedIn d’appuie à la fois sur des bases de données Oracle et la base de données Vertica. Par contre il a glissé que l’intégralité du contenu présenté sur la page d’accueil du membre Facebook est le fruit de calculs complexes. C’est évidemment le cas des profils proposés, mais aussi des contributions, etc. Chaque jour, les serveurs du réseau moulinent 75 To de données pour afficher ces données personnalisées. Ce sont 10 milliards de ligne de base de données qui sont ainsi balayées chaque jour. Et pas question de lancer un batch de nuit, le calcul est temps réel pour ce qui est considéré comme un événement majeur dans votre réseau, sinon toutes les 15mn. Mais j’y reviens un peu plus loin.
Côté décisionnel, vous l’aurez compris, LinkedIn utilise Microstrategy sur Oracle pour créer ses tableaux de bord. Un utilisateur clef, le PDG : « Notre PDG est un Data Junky ! Il réalise sans arrêt de nouveau tableaux de bord et il en a fait des milliers. Plusieurs équipes travaillent sur Microstrategy pour construire les tableaux de bord de l’entreprise« .

Hadoop bien sûr, mais pas que…

La nouvelle application Skill&Expertise de LinkedIn.

La nouvelle application Skill&Expertise de LinkedIn leur pose un sacré challenge en terme de qualité des données

Au rythme de 2 nouveaux membres à sa seconde, le réseau s’enrichit d’u nouveau million de membres tous les 6 jours…  Donc, en terme de Big Data, LinkedIn s’appuie sur Oracle et Vertica et bien sûr Hadoop pour réaliser ses calculs. Pour rappel, LinkedIn compte 135 millions de membres, donc, ceux qui sont fan d’algorithmique des graphes apprécieront, le nombre de liens potentiels est démentiel. LinkedIn a ainsi déployé tout un panel de solutions, dont beaucoup de logiciels Open Source dans les quels les ingénieurs de l’américain sont partie prenante des projets. Element clef de cete architecture, Voldemort, base de donnée distribuée. Viennent s’y ajouter plusieurs briques relatives à la recherche : Zoie pour l’indexation temps réel, Bobo pour permettre une recherche à facette sur Lucene. Le système d’information exploite aussi Sensei, base de données distribuée temps réel. Intéressant, pour mettre en musique ce Sicob de l’informatique, LinkedIn exploite Azkaban pour ses workflows Hadoop et surtout Kafka, le bus de messagerie à grande vitesse et distribué qui visiblement est l’élément clef entre ses composants hétéroclites.

La qualité des données, le nouveau challenge du réseau social pro

Parmi les challenges de LinkedIn figure évidemment cet envol des volumes de données à traiter, mais aussi la standardisation de ses données. Effectivement, jusqu’à présent LinkedIn moulinait des graphes entre utilisateurs pour faire ses propositions d’amis. Aujourd’hui le réseau social pro veut générer de nouvelles sources de revenus avec les nouveaux services. Parmi ceux-ci Skills, un gestion des compétences des utilisateurs. Problème, les utilisateurs saisissent à peu près d’importe quoi au niveau de leur expérience professionnelle : Manu Sharma a ainsi identifié 6.000 intitulés différent pour « Software Engineer ». Mieux, un nom de société a priori bien identifié et connu de tous, IBM, a pas moins de 8.000 façons d’être orthographié sur LinkedIn… Un vrai casse tête !

Ce contenu a été publié dans Cas client, avec comme mot(s)-clef(s) , , , , , . Vous pouvez le mettre en favoris avec ce permalien.

Une réponse à LinkedIn, le BigData en action

  1. Michel Bruley dit :

    Pour compléter vos propos concernant LinkedIn, il convient de signaler l’utilisation des solutions Aster Data pour identifier les influenceurs ou pour faire des analyses de clicks par exemple. Il faut aussi noter l’actuel remplacement d’Oracle par Teradata.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *


*

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>