Comment déployer avec succès un projet Big Data ?

Les entreprises sont de plus en plus confrontées aux défis posés par le traitement de données massives. Bien qu’un large éventail de solutions techniques soit disponible pour traiter ces "Big Data", beaucoup peinent à les déployer parce qu’elles peinent à organiser l’exploitation de leur données. Dans le cadre de la Plateforme d’Innovation Technologique Big Data, le CETIC propose une guidance en la matière en s’ancrant à la fois sur des référentiels reconnus et sur une série de pilotes menés dans des secteurs clefs.

Comment déployer avec succès un projet Big Data ?

Les entreprises sont de plus en plus confrontées aux défis posés par le traitement de données massives. Bien qu’un large éventail de solutions techniques soit disponible pour traiter ces "Big Data", beaucoup peinent à les déployer parce qu’elles peinent à organiser l’exploitation de leur données. Dans le cadre de la Plateforme d’Innovation Technologique Big Data, le CETIC propose une guidance en la matière en s’ancrant à la fois sur des référentiels reconnus et sur une série de pilotes menés dans des secteurs clefs.

Introduction

Notre monde est actuellement confronté à une explosion de l’information. De nombreuses statistiques attestent de la montée en puissance du phénomène Big Data car 90% des données dans le monde ont été produites durant ces deux dernières années et le volume des données créé par les entreprises double toutes les 1,2 années [1].

Bien que les entreprises perçoivent bien le grand potentiel que les technologies Big Data peuvent leur apporter pour améliorer leur performance, le constat est que beaucoup peine à retirer de la valeur et un avantage compétitif de leurs données. Un rapport de 2013 a révélé que 55% des projets Big Data se sont terminés prématurément et que beaucoup n’ont que partiellement atteint leurs objectifs [2]. Une étude en ligne conduite par Gartner en juillet 2016, montre aussi que de nombreuses entreprises restent bloquées au stade du projet pilote : seulement 15 % des projets Big Data ont été effectivement déployés en production [3].

En examinant la cause de tels échecs, il apparaît que le facteur principal n’est en réalité pas lié à la dimension technique, mais plutôt aux processus et aux aspects humains qui s’avèrent être aussi importants. Le travail du CETIC s’est concentré sur cette dimension et vise à apporter des recommandations concrètes aux entreprises engagées dans un processus d’adoption de solution Big Data pour notamment répondre à des questions telles que :

  • Comment pouvons-nous être sûrs que le Big Data pourrait nous aider ?
  • Quelles personnes devraient être impliquées et à quel moment ?
  • Quelles sont les étapes clefs auxquelles il faut être attentif ?
  • Est-ce que mon projet est sur la bonne trajectoire pour aboutir ?

Notre approche s’appuie d’une part sur l’examen et la combinaison de méthodes existantes de domaines apparentés ou complémentaires tels que la fouille de données ("Data Mining" - DM), l’nformatique décisionnelle ("Business Intelligence" - BI) et les méthodes Agile. D’autre part nous avons collecté des retours d’expérience sur base d’une série de pilotes déployés dans divers secteurs, selon la méthodologie illustrée à la figure suivante. Le reste de cet article détaille ces 2 dimensions.

PNG - 441.9 ko
Développement itératif de la méthode et de l’infrastructure

Méthodes et processus réexploitables

Fouille de données et intelligence décisionnelle

Un des domaines les plus ancien apparenté au Big Data est la fouille de données ("Data Mining") a été développée dans le courant des années ’90 avec pour objectif d’extraire des données à partir d’informations structurées (bases de données) pour découvrir des facteurs clés de l’entreprise à une échelle relativement petite. Le Big Data, quant à lui, opère sur des données structurées ou non. Outre les notions de volume et de valeur déjà mentionnés, il assure aussi des impératifs de vitesse de traitement. Cependant, en termes de processus les deux domaines ont des besoins similaires : il est nécessaire de mettre en place une coopération étroite entre les experts techniques (données) et les experts métiers. De nombreuses méthodologies et modèles de processus ont été développés pour la fouille de données et la découverte de connaissances. Elles ont abouti à un standard CRISP-DM (Cross Industry Standard Process for Data Mining [4]. Cette méthode illustrée ci-dessous est composée de six phases, chacune étant décomposée en sous-étapes. Le processus n’est pas linéaire, mais plutôt organisé comme un cycle global avec généralement des revues entre les phases. CRISP-DM a été largement utilisé depuis 20 ans, non seulement pour la fouille de données, mais reste largement utilisée pour l’analyse prédictive et des projets Big Data.

PNG - 58.4 ko
Méthode CRISP-DM

L’informatique décisionnelle s’est également développée dans les années ’90 et a pour but essentiellement de produire des indicateurs clé de performance (en anglais KPI : Key Performance Indicator) sous forme de tableaux de bord. Les techniques s’appuient sur des données structurées et ne nécessitent que peu d’intelligence dans les traitements. Le Big Data permet d’élargir le champ de la BI aux données moins structurées. Inversement, la BI apparaît comme un prérequis permettant de mesurer précisément ce qu’on désire améliorer tandis que les techniques Big Data apportent des possibilités d’analyse prédictive.

Vers plus d’agilité

Bien que comportant des possibilités de retours en arrière, elle n’organise pas ce processus en mettant le client et la production de valeur au centre du processus telle que le font les méthodes Agiles. Initialement développées pour le développement de logiciels, ces principes peuvent également répondre plus largement et en particulier à l’analyse des données afin de fournir une meilleure guidance. Diverses variantes de ces méthodes existent.

  • AgileKDD qui la première évolution, basée sur CRISP-DM vers l’agilité et est basée sur le cycle de vie OpenUP [OpenUP]. Les projets sont divisés en "sprints" planifiés avec des délais fixes, habituellement de quelques semaines. Dans chaque sprint, les équipes doivent produire de la valeur ajoutée aux parties prenantes de manière prédictive et démontrable. Le déploiement de telles méthodes peut cependant nécessiter plus de travail dans des organisations de plus grandes tailles habituées à des processus assez rigides et contractuels.
  • la méthode AABA (Architecture-centric Agile Big data Analytics) qui intègre à la fois une méthode de conception du système Big Data (BDD) et une architecture AAA (Architecture-centric Agile Analytics). Elle est centrée sur le modèle DevOps et orientée vers la découverte efficace et livraison continue de valeur. Elle a été largement validée. Centrée sur une architecture de référence, elle permet aussi de faire face aux évolutions rapides des technologies et des exigences grâce à la possibilité de gérer des pics d’effort.
  • Stampede est une méthode proposée par IBM à ses clients. Son principal objectif est d’encourager les entreprises et les aider à démarrer plus rapidement, afin de générer de la valeur à partir du Big Data. La méthode s’appuie surtout sur la mise à disposition de ressources d’experts à un coût permettant d’aider les entreprises à se lancer dans le Big Data via un projet pilote défini à l’issue d’un atelier intensif qui est suivi d’une phase d’exécution répartie sur 3 à 4 mois.

Gestion de la montée en maturité

Les méthodes agiles ne sont à elles-seules pas garantes d’un succès d’un projet : il importe de s’assurer que le projet évolue correctement vers le résultat visé. A cette fin plusieurs outils sont disponibles :

  • plusieurs variantes de modèle de maturité de type CMM (Capability Maturity Model) pour les processus de gestion des données scientifiques sont disponibles. Ils décrivent les processus et pratiques nécessaires à mettre en œuvre progressivement, à différent niveau de maturité qui représentent leur capacité à exécuter des processus de façon fiable. Une échelle classique sur 5 niveaux est typiquement utilisée allant des classiques niveaux "défini" à "optimisé" [5] ou utilisant une nomenclature plus spécifique : de "ad hoc" à "breakaway" [6].
  • de nombreux facteurs clés de succès, guides pratiques et listes de contrôle des risques ont été également publiés. Une classification systématique a été proposée en les catégories et critères suivants [Saltz16] :
pour les données la qualité, la sécurité, le niveau de structure des données
pour la gouvernance une direction, une organisation bien définie, une culture axée sur les données
pour les objectifs la valeur de l’entreprise identifiée (KPI), la rentabilité, une taille de projet réaliste
pour les processus l’agilité, la conduite de changement, la maturité, la volumétrie des données
pour l’équipe des compétences en ingénierie des données, la multidisciplinarité
pour les outils des infrastructures informatiques, le stockage, la capacité de visualisation des données, le suivi des performances

Mise en oeuvre sur projets pilotes

Nous décrivons ici la méthodologie qui a émergé sur base des méthodologies décrites précédemment ainsi que de l’expérience de mise en œuvre sur 4 pilotes industriels wallons. Ceux-ci sont ciblés les domaine suivants : maintenance d’infrastructures IT, santé, spatial et pharmaceutique. Nous donnons ici qu’un aperçu succinct.

Schéma général appliqué au sein de chaque pilote

La méthodologie qui a émergé sur base des méthodologies existantes et sur base des itérations sur nos 4 pilotes se compose de trois phases suivantes :

  • Phase 1. Contexte et sensibilisation au Big Data. Dans cette phase d’introduction, une ou plusieurs réunions sont organisées avec l’organisation participante. Une introduction générale est donnée sur les concepts du Big Data. La plate-forme mise à disposition est présentée. Les principaux défis et les étapes clés de la mise en œuvre sont également exposés.
  • Phase 2. Compréhension de l’entreprise et du cas d’utilisation. Cette phase est largement alignée avec la première phase de CRISP-DM. Son objectif est d’identifier les besoins et problèmes pour lesquels une solution de type Big Data est envisagée. Il est aussi important de formuler un ou plusieurs cas d’utilisation qui peuvent démontrer l’apport de valeur à partir des données collectées et traitées.
  • Phase 3. Mise en œuvre d’un pilote pour un service ou un produit. Dans cette phase, les activités suivantes de CRIP-DM sont menées de manière agile compréhension des données, préparation des données, modélisation, évaluation et déploiement.

Retour d’expérience et recommandations

Voici quelques éléments clefs relatifs aux retours d’expérience et recommandations relativement aux 1 et 2 :

  • Définition d’objectifs progressifs et dont la valeur est mesurable : La façon de mesurer la valeur doit être définie dès la phase de compréhension des données de l’entreprise, généralement en s’appuyant sur les indicateurs clés de performance (KPI). Ces KPI doivent déjà être clairement définis par l’entreprise et celle-ci doit être déjà en mesure de les mesurer, typiquement au moyen d’une solution de BI.
  • Du réactif au préventif puis au prédictif : dans plusieurs domaines, il est intéressant de mettre en place un schéma permettant d’évoluer vers une réaction immédiate à des caractéristiques identifiées à travers les données, vers plus d’intelligence afin d’anticiper des situations indésirables, voire les prévenir suffisamment pour pouvoir les éviter. Les techniques d’analyse descriptives, prédictive et prescriptives peuvent être progressivement déployées à cette fin.
  • Guidance dans la phase de compréhension du métier et des données : cette phase est critique pour le succès du projet car l’objectif n’est pas seulement d’aboutir à une compréhension des besoins et des données disponibles mais aussi de mettre en place le noyau de personnes qui seront porteuses de la suite du projet. Des réunion de travail doivent impliquer le responsable commercial, l’analyste des données et l’architecte SI. Un expert en sécurité/confidentialité des données doit également être impliqué à un stade précoce pour identifier les problèmes possibles à ce niveau. La tenue d’un atelier exige de prêter attention à de nombreuses questions tout en concentrant la discussion sur les plus pertinentes. Nous avons développés des questionnaire/check-list fournissant un soutien efficace à ces ateliers de travail.
  • L’utilisation de notations pour la modélisation est utile comme outil pour inventorier les données, comprendre leur structure et comprendre les différents flux d’information. Pendant les ateliers, un tableau blanc peut être utilisé pour esquisser des modèles dans un mode collaboratif avec les participants. Selon notre expérience, les modèles de flux de données aident à comprendre quel processus génère, modifie, stocke ou extrait des données. Les modèles d’entités-relations (ou diagrammes de classe ou ontologies) aident à capturer la structure du domaine.
  • Mise en place de points de contrôle : l’approche agile permet au processus d’être flexible et incrémental sur les activités. Avant de commencer une activité, il faut cependant disposer d’un minimum de résultats des étapes précédentes. Dans ce but, des listes de contrôles à consulter au démarrage d’une activité ont également été proposées.

Pour en savoir plus

Nos travaux ne sont pas achevés et de nouveaux pilotes sont en cours d’identification afin de généraliser nos recommandations à d’autres domaines d’activité. N’hésitez pas à nous contacter si vous désirer disposer de recommandations plus détaillées voire de nous consulter par rapport à votre projet de déploiement Big Data.

[2Kelly J., Kaskade J. (2013). CIOs & Big Data : What Your IT Team Wants You to Know

[4Shearer C. (2000). The CRISP-DM Model : The New Blueprint for Data Mining. Journal of Data Warehousing, vol. 5, no 4.

[5Crowston, K. and Qin, J. (2011), A capability maturity model for scientific data management : Evidence from the literature. Proc. Am. Soc. Info. Sci. Tech., 48 : 1–9.