“Big Data »… d’où vient donc cette expression ? Elle semble être apparue, un jour, comme s’il suffisait d’inventer un nouveau terme pour innover.
Quelle innovation y-aurait-il d’ailleurs derrière ce Big Data ? Si nous posions la question à 10 personnes, nous obtiendrons probablement autant de réponses différentes….
Cela signifie-t-il pour autant que cette expression porte une « vraie » innovation ? Une innovation qui modifiera durablement nos comportements et nos systèmes, marchands, fonctionnels ou opérationnels ? En d’autres mots, la manière dont le Big Data est envisagée aujourd’hui est-elle réellement porteuse d’autant de bénéfices que nous l’espérons ?
Un Big Data sans « Big Bang », mais qui engendre une prise de conscience nécessaire
Tout commença avec l’Open Data…
Pour trouver une réponse, il faut remonter à la période de son apparition, curieusement issue de celle de l’Open Data, autre concept devenu une réalité, même si celle-ci est encore balbutiante.
L’Open data est une innovation de rupture et systémique, qui a pris son essor à partir de 2003, lors de la première réglementation européenne publiée sur ce sujet. Ce concept est de la même nature qu’Internet dont, rappelons-le, le caractère novateur ne tient pas tant dans la prouesse technique qu’il représente que dans la volonté de rendre l’information, ouverte, partageable, et facilement accessible à quiconque.
L’Open Data a pour but de permettre l’accès à tous, et de manière gratuite, aux volumes gigantesques de données collectées ou générées par les services publics ou les entreprises privées d’utilité publique.
À l’annonce de la possibilité de l’exploitation de cet océan de données, les entreprises se sont intéressées à cet eldorado promis, et ont découvert le problème majeur que cela levait : l’extraction d’informations pertinentes à partir d’une masse de données de toute nature, de tout format, de toute taille… Cette problématique n’était pas nouvelle en soi, mais méritait un nom : le concept de Big Data est alors apparu sur le devant de la scène, englobant dans le même mouvement les données de toute origine, quelles qu’elles soient, y compris celles véhiculées de longue date par Internet.
Ainsi défini au travers de sa source Open Data, le Big Data est un réel espoir de progrès pour un grand nombre de services de traitement d’informations existants. Plusieurs domaines sont directement concernés, avec à la clef des enjeux de gains significatifs, en termes de précision, de richesse et de qualité des informations obtenues. Citons, pour exemples, ceux du pilotage et de la gestion des réseaux, ou de la maintenance industrielle. La condition de réussite essentielle est de parvenir à extraire une information pertinente d’une masse de données disparates.
Cela est l’enjeu majeur de l’Open Data, qui depuis 2003 construit peu à peu des solutions pour supporter son ambition (à la différence d’Internet, l’innovation « culturelle » portée par l’Open data est apparue avant ses solutions techniques)
- La mise en place, espérée, de plateformes cataloguées, mettant à disposition des données dans un format standardisé, interopérable, et enrichi de métadonnées.
- L’investissement des entreprises dans des solutions nouvelles de traitement de données massivement distribué (cf l’article de C. Morizot)
Du traitement organisé et structuré de gros volumes de données, au rêve de la prédictibilité…
Mais à l’image des excès qui ont accompagné les débuts de la généralisation d’Internet, le Big data s’est « emballé », notamment en laissant penser que l’exploitation de volumes de données disparates issus de tout horizon est en mesure de transformer durablement notre écosystème marchand.
Souvent Amazon est cité à ce propos, car ce géant de l’Internet est parvenu à mettre au point un dispositif d’approvisionnement « prévisionnel » de ses stocks afin d’être en capacité de livrer les commandes en un temps record lors des fêtes de fin d’année. Sans être dans le secret des dieux, nous pouvons imaginer que cela relève simplement d’une extraordinaire capacité à exploiter de manière statistique les l’historiques des données de ventes (structurées et organisées par Amazon), mises à jour au fil de l’eau, et non de « prédiction » d’actions à venir de l’être humain.
En effet, inciter à croire qu’une solution est à portée de main pour prédire des actions à venir aussi complexes que celles des humains, en exploitant un énorme volume de données totalement hétérogène et d’origines diverses, est aussi audacieux que promettre le « graal » aux domaines de la finance, de l’économie, des jeux d’argents ou des paris (ces domaines restent d’ailleurs étrangement muets sur le sujet).
Gardons la tête froide face à de telle déclaration. En vérité, il s’agit moins d’une promesse que d’un gigantesque challenge, qui d’ailleurs sous-entend d’une certaine manière que l’avenir serait prédictible…
De plus, l’exploitation massive des données personnelles des prospects ou clients fait une nouvelle fois abstraction de l’hypothèse plus que probable que cela ne se fera jamais sans leur consentement préalable (pensons au prochain règlement européen sur la protection des données personnelles qui sera appliqué dès 2018).
En somme, ne demandons donc pas au Big Data plus qu’il ne pourra offrir, surtout sans prendre en compte les investissements à consentir pour cela. Il ne saura offrir que des résultats probabilistes, donc incertains, sans que nous soyons d’ailleurs toujours en mesure de déterminer précisément leur degré d’incertitude, ce qui est en réalité une partie majeure du problème. Par contre, reconnaissons-lui une merveilleuse vertu : celle de mener les entreprises à enfin se préoccuper avec une prise de conscience des gains en jeu, de la valeur des données qu’elles possèdent ou qu’elles devraient posséder.
Les « smart objects » comme alternative au Big Data ?
Il faut imaginer le Big Data est comme une gigantesque meule d’aiguilles, toutes semblables et quelconques apparemment, mais dont chacune est potentiellement en or massif pour les différentes entreprises. Si les entreprises souhaitent les trouver par elles-mêmes, il leur faut absolument suivre une règle impérative : savoir parfaitement quelle information elles recherchent, et a fortiori quelles données, et se doter d’une solide organisation de gouvernance.
Mais une question peut être posée : n’y aurait-il donc aucune autre solution pour traiter le Big Data que celle du traitement massivement puissant des données ? Une autre voie qui permettrait d’obtenir de manière plus performante et novatrice les bénéfices promis ?
À y regarder de plus près, les approches récentes des traitements Big Data utilisent des « data lake » sur lesquels sont appliqués des algorithmes spécifiquement adaptés. Cela s’inspire en fait de la seule démarche connue et probante à ce jour pour traiter la complexité : la décomposer, de manière savante, en éléments maîtrisables. Cette démarche est celle qu’ont suivi les technologies informatiques, qui restent les meilleurs exemples à ce jour d’outils de traitement de la complexité. Celles-ci se sont orientée vers la programmation par « objets », associés à des comportements spécifiques, ou encore vers la programmation « évènementielle », qui est la définition prédéfinie de réactions à l’occurrence d’événements ciblés.
Ainsi abordés, les contours de cette autre voie alternative prennent forme. C’est celle :
- Des objets, réels,
- Intelligents, juste ce qu’il faut,
- Et connectés, sous la supervision d’une centrale « chef d’orchestre » spécifique au réseau d’objets connectés.
Les technologies nécessaires existent déjà en grande partie et ne demandent plus qu’à être mises en œuvre pour que ces « smart objects » se généralisent. Les expériences des voitures autonomes en sont probablement les premières concrétisations, réelles et ambitieuses. Il est d’ailleurs à noter qu’elles sont menées par des « purs players » (ex : le GAFA…) qui ont la faculté d’innover en se libérant des systèmes en place.
Quels avantages offrirait cette autre voie ?
Reprenons les grandes étapes du processus de traitement du Big Data :
- Nettoyer les données :
- Un objet conçu avec un dispositif local spécifique pour identifier et traiter un type précis de donnée serait a priori fiable pour cela.
- Interpréter les données en les contextualisant :
- Un objet « smart », c’est-à-dire muni d’une « intelligence locale » réduite et spécialisée, serait à même de traduire une donnée en information pertinente en tenant compte du contexte, puisqu’y étant lui-même intégré.
- Analyser les données en fonction d’un objectif défini :
- Le « smart object » serait par essence apte à déclencher des actions adaptées en fonction du résultat de « ses analyses ». Il est même envisageable qu’il communique son information déduite à d’autres « smart objects », afin d’effectuer d’autres analyses complémentaires et d’engager des actions plus efficaces ou à plus grande échelle…
- Calibrer le système par des traitements itératifs :
- Nous sommes ici dans le domaine de la capacité d’apprentissage, proposé par la plupart des objets connectés déjà commercialisés. Un traitement basé sur des fonctions statistiques adaptées et situées à la source même de la collecte de la donnée, au sein de l’objet, est probablement une excellente solution.
- Respecter un accord préalablement donné par une personne pour exploiter ses données personnelles :
- La question ne se pose plus : si une personne acquiert un objet connecté en étant parfaitement informée de sa fonction, elle lui accorde explicitement l’autorisation d’exploiter ses données personnelles. Cette personne sera d’ailleurs d’autant plus encline à le faire qu’elle aura la garantie que l’objet ne communiquera aucune de ses données personnelles à des tiers non autorisés
Quelques illustrations…
Prenons par exemple le domaine de l’assurance. Le métier de l’assureur consiste aujourd’hui à déterminer au plus juste la probabilité d’occurrence d’un type de risque (par exemple l’incendie de biens) et à demander en conséquence une cotisation d’assurance à ses assurés.
Une autre approche serait de chercher à réduire le plus possible l’occurrence du type de risque couvert, afin de créer un bénéfice partagé avec l’assuré : ceci, grâce à un ensemble d’objets intelligents connectés, aptes à détecter une probabilité d’incendie et à déclencher des actions de prévention proportionnées.
- L’assureur vendrait des dispositifs de prévention spécialisés,
- Par suite il dédommagerait moins de sinistres, et diminuerait d’autant le montant de ses cotisations d’assurance
- L’assuré, au-delà d’éviter d’être victime d’un sinistre (!), verrait quant à lui son budget d’assurance diminuer.
Imaginons une seconde illustration, tout aussi plausible, dans le domaine ferroviaire : un constructeur de locomotives, grâce à a sa parfaite maîtrise de la conception et des tests de son produit, dote celui-ci d’un dispositif d’autodiagnostic capable d’alerter de manière anticipée en cas de risques de dysfonctionnements.
- Le prix de vente de la locomotive serait évidemment plus élevé du fait de la réelle proposition de valeur ajoutée au produit,
- L’exploitant ferroviaire réaliserait rapidement un retour sur investissement grâce aux coûts des perturbations de son trafic ainsi évités,
- Le nombre de locomotives vendues, ou de pièces détachées, n’en resterait pas moins stable car le système d’auto diagnostic ne changerait rien à l’usure d’usage du matériel.
Quels enseignements tirer ?
La seconde illustration caractérise l’un des avantages qu’apporte une démarche « smart objects » comparée à celle du Big data : la réduction drastique du taux d’incertitude sur la connaissance d’une information.
- Les « smarts objects » déclenchent des actions appropriées (i.e: l’avertissement de l’usure critique d’une pièce clé de la locomotive) au moment même où l’occurrence d’un événement attendu est avérée
- Le Big Data ne peut qu’émettre une supposition sur l’arrivée de cette occurrence (par exemple, le Big data aurait déterminé « l’âge moyen » auquel il est recommandé de mettre une locomotive en révision pour éviter un incident opérationnel)
La première illustration, quant à elle, symbolise une rupture dans la manière de penser la production et l’usage des produits et des services (*) : rupture à même de transformer l’ensemble de notre écosystème marchand.
Tout ceci est aujourd’hui envisageable grâce à l’extraordinaire rapidité de l’évolution des sciences et technologies vécue. Cette « révolution technologique » n’est d’ailleurs pas le fruit du hasard. Comme à chaque fois au cours de l’histoire de l’humanité, le contexte la rend possible et même nécessaire, lorsque les modèles existants démontrent l’atteinte de leurs limites.
Quels enseignements pouvons-nous tirer ?
- L’Open data est une innovation systémique et culturelle forte, qui demande encore à être accompagnée et soutenue (notamment financièrement) pour tenir toutes ses promesses
- Le Big Data est la caractérisation d’une problématique majeure : celle de la détermination probabiliste d’occurrences d’événements. Il stimule la recherche sur le traitement des données massivement distribué, mais reste à ce jour particulièrement efficaces que lorsque les données sont bien maitrisées (forme et « sens »)
- Les objets « intelligents » connectés sont des solutions novatrices forts prometteuses, reposant sur des technologies opérationnelles ou en voie de l’être. Elles souffrent certes d’un manque de standardisation et de sécurisation des modes de transmissions des données, mais sont à mêmes d’amener des innovations de rupture qui bousculeraient notre écosystème marchand. Il ne manque plus que quelques entrepreneurs visionnaires pour créer l’étincelle (des entreprises qui verraient dans leurs domaines respectifs autre choses que des objets secondaires de confort et de qualité de vie)
A nous maintenant de tirer profit de cet environnement pour inventer les nouveaux modèles de demain !
(*) Le modèle économique présenté dans l’illustration est simplifié à l’extrême pour faciliter la lecture. Il pourrait inclure des acteurs tiers, partenaires ou sous-traitants, spécialisés par exemple sur la conception et la fabrication de « smarts objects » pour l’assurance. Nous pourrions alors parler d’un « écosystème marchand assurance » qui répartirait la richesse sur l’ensemble de ses parties prenantes