Qu’est-ce que le Big Data exactement ?

Big Data : les coulisses de l’analyse des données

Le Science des données avancée (ou infobésité) gagne en popularité et, chaque jour, de nouveaux articles de presse mentionnent les applications rendues possibles grâce au Big Data. Au delà du marketing qu’est-ce que le Big Data exactement ? Bienvenue en coulisses…

Date: 28 mars 2013

Expertises:

Science des données ⊕

A propos du projet: CE-IQS ⊕

Dans cette série d’articles, qui fait suite à notre groupe de discussion et à notre communication devant un parterre de consultants et d’académiques, nous présentons nos retours d’expérience sur les expérimentations faites autour du Science des données avancée.

Des données brutes, à la prise de décision

Pour piloter l’activité de son entreprise, le décideur prend des décisions sur base d’informations déterminées. L’IT a pour tâche de mettre en place un système d’information qui permet d’interroger les données à disposition afin de répondre aux questions des décideurs.

Concrètement, des données brutes sont collectées et sont ensuite enrichies afin d’en extraire de l’information pertinente ; cette information est stockée de manière adéquate et analysée selon un plan établi afin de prendre des décisions utiles pour piloter l’entreprise.

Le système d’information contient donc des données préparées, traitées, qualifiées et donc à haute valeur pour le métier. De plus celles-ci sont enregistrées dans des entrepôts (parfois onéreux) spécialisés pour les requêtes métier des décideurs.

Pour des questions évidentes de coûts, il n’est donc pas envisageable d’enregistrer dans ces entrepôts spécialisés toutes les données qui pourraient être à disposition des décideurs.

La promesse du Big Data

Le marketing autour du Big Data insiste sur l’impossibilité actuelle de pouvoir gérer toutes les données à disposition des entreprises. Cette impossibilité se caractérise par les 3V :

le volume : c’est-à-dire la quantité des données à gérer ;
la vélocité : c’est-à-dire la rapidité avec laquelle les données produites doivent être traitées ;
la variété : c’est-à-dire le grand nombre de formats de données qui doit pouvoir être pris en compte.

Une des promesses du Big Data est donc de pouvoir pallier cette impossibilité afin, par exemple, de mieux cibler les clients ou encore de détecter des fraudes ou des combinaisons de données encore insoupçonnées grâce au fait que toute donnée collectée est stockée et donc disponible pour le métier.

Map Reduce

Pour tenir cette promesse, la Big Data repose sur le paradigme Map Reduce grâce auquel le système d’information est capable de traiter des données non structurées en provenance de sources diverses (variété) et est capable de traiter un très grand nombre de données en distribuant le traitement sur plusieurs machines (volume, vélocité) ce qui permet le passage à l’échelle.

Hadoop : infrastructure et définitions

Apache Hadoop est une implémentation java open source du paradigme Map Reduce qui s’impose de plus en plus comme le standard de facto. Une infrastructure Hadoop introduit un certain nombre de concepts. Pour les illustrer, voici un exemple d’infrastructure Hadoop constituée de 3 noeuds, dont l’installation est abordée dans un article de la newsletter :

HDFS – Hadoop Distributed File System ou système de fichiers distribué Hadoop. Dans un cluster Hadoop, les fichiers sont éclatés en blocs, ces blocs sont répliqués 3 fois et distribués à travers le cluster.

NameNode – serveur qui gère la logique de répartition des données sur le système de fichier Hadoop HDFS. Grâce à cela, le développeur ne doit pas s’occuper de la localisation des données, Hadoop le fait pour lui. Éventuellement, un NameNode secondaire (Secondary NameNode ou Checkpoint Node) peut être hébergé pour donner accès au journal des modifications des correspondances entre fichiers logiques et blocs physiques par exemple.

JobTracker – service qui communique avec le NameNode afin de trouver ou se situent les données nécessaires à l’exécution du job qui lui est assigné, divise le job en tâches map et reduce et les répartit sur les nœuds spécifiques du cluster Hadoop.

DataNode – Nœud du cluster Hadoop qui stocke les données dans le HDFS et se connecte au NameNode pour répondre aux requêtes d’opérations sur le système de fichiers.

TaskTracker – service qui monitore le statut de chaque tâche et rapporte au JobTracker les échecs afin que celui-ci replanifie cette tâche sur un autre nœud du cluster.

En résumé

La solution actuelle qui consiste à mettre à disposition des données à haute valeur ajoutée coûteuses à stocker est progressivement remplacée par la mise en place d’une plateforme générique (le Big Data) qui permet d’interroger toutes les données à disposition.

Ceci est rendu possible grâce au paradigme Map Reduce qui permet à plusieurs machines de faible coût d’effectuer, en parallèle et de manière efficace, des traitements de volumes importants de données brutes, c’est-à-dire non transformées, ce qui diminue le coût de stockage et le coût de préparation de ces données.

En coulisses, les solutions Big Data nécessitent l’utilisation d’une infrastructure particulière qui a été décrite dans cet article et dont l’installation sera abordée dans un article suivant.

Pour plus d’informations, merci de contacter le CETIC.