La 7ème Edition du salon Big Data Paris a eu lieu au Palais des Congrès le Lundi 12 et Mardi 13 Mars derniers, ce qui fût pour nous l’occasion de rencontrer les acteurs clefs et les meilleurs experts de la donnée en France.
Tout d’abord, qu’est-ce que le Big Data ?
Avant de rentrer dans le détail des enjeux et tendances qui sont ressorties de ce salon, il convient de s’interroger sur le Big Data en lui-même. Que se cache-t-il exactement derrière ce terme qui fait désormais parti de notre vocabulaire quotidien, alors qu’il était encore inconnu du grand public il y a une dizaine d’années ?
Le Big Data peut se définir comme l’ensemble des enjeux et techniques qui concernent la recherche, la capture, le stockage, le partage, l’analyse et la présentation des données collectées par une entreprise. Ces données sont de nature très diverse : données d’entreprises, données issues d’objets connectés (on estime que d’ici à 2020, il y aura plus de 80 milliards d’objets connectés dans le monde), données provenant du web, données de géolocalisations, données financières de transactions commerciales, etc. Nous allons notamment voir dans quelle mesure 2018 marque un tournant pour les différents acteurs qui cherchent plus que jamais à se munir d’architectures réseaux adaptées, d’outils d’analyses performants et de solutions de modélisation efficaces et sécurisées afin que le Big Data soit réellement créateur de valeur.
Et force est de constater qu’aujourd’hui, les plus grands groupes et institutions investissent massivement dans ce secteur désormais considéré comme l’un des principaux leviers de croissance. En effet, c’est plus de 500 millions d’euros qui ont été investis dans le Big Data en France au cours des seuls mois de Janvier et Février 2018 (Source ici). Si 2016 et 2017 furent les années des Proof of Concepts, 2018 marque une rupture avec une réelle mise en production des solutions de Big Data et leur convergence avec les autres technologies de ruptures (IoT, Blockchain, Machine Learning et diverses techniques de Datascience). Car effectivement, si la donnée représente une matière première convoitée et fortement valorisée, elle n’a de valeur que lorsqu’elle est traitée, analysée et modélisée via les outils et systèmes adéquats.
Quels enseignements tirer du Big Data Paris 2018 ?
En 2018, l’un des enjeux majeurs des entreprises vis-à-vis du Big Data est le choix des solutions et des algorithmes permettant d’une part de stocker et d’autre part d’analyser les données. Selon cet article, environ 2,5 trillons d’octets de données sont créées chaque jour dans le monde, ce qui équivaut à environ 2,5 milliards de films, en supposant que la taille moyenne d’un film soit d’1 Go (pour rappel et pour bien se représenter la chose, 1 trillion d’octet équivaut à un milliard de milliards d’octets). Dès lors, comment rassembler la capacité de stockage puis la puissance de calcul nécessaire pour traiter, analyser et modéliser efficacement une telle volumétrie de data ? il n’existe pas de réponse universelle car cela dépend aussi bien du type de business considéré, de la taille de l’entreprise ou de sa capacité et son intérêt à investir massivement dans une architecture et des outils qui lui sont propres.
En effet, plusieurs possibilités existent quant à l’hébergement des données. Cela peut se faire en interne (dans des Datacenters détenus par l’entreprise), sur le cloud ou de manière hybride. L’une des principales tendances aujourd’hui semble être la création de Datalakes dans le cloud. Ce sont des bases de données brutes (dans leur format natif) en ligne, stockées de manière sécurisée et pour une durée indéterminée. Dans un Datalake, on trouve tout type de données : des données non-structurées (emails, PDF), des données semi structurées (format CSV, logs, XML par exemple) et des données transformées. C’est le choix qu’a fait notamment le groupe Etam, présent au salon, dans sa stratégie de valorisation et d’optimisation de la donnée. Ce qui est certain, c’est que le choix de l’open-source permet un enrichissement des données en temps réel ainsi qu’une gestion standardisée et simplifiée des web-analytics, deux paramètres grandement appréciés par des acteurs se trouvant dans un contexte client multicanal, multi-pays et multi-société.
Ensuite, une partie non-négligeable des acteurs présents au salon proposaient des solutions de manipulation de la donnée, allant des solutions de Data Cleaning & Processing jusqu’à l’implémentation d’algorithmes de Machine Learning. Ici, deux solutions s’offrent aux entreprises : développer et entraîner leurs propres modèles d’algorithmes ou bien utiliser des algorithmes existants et se concentrer sur la partie entraînement.
- Certains grands groupes optent pour la première solution en développant eux-mêmes leurs propres solutions, en s’appuyant sur des Software tels que TensorFlow, Spark, Scalas, Keras etc. Cette approche permet au propriétaire de la solution de gagner en indépendance, de traiter des données très spécifiques (nous pouvons par exemple citer Thalès qui collecte et analyse des données issus de radars et de sonars), le tout en restant très flexible. Mais cela demande du temps, des ressources et des compétences qui ne sont pas forcément disponibles au sein d’une entreprise.
- Les entreprises peuvent également avoir recours à des acteurs spécialisés dans le Machine Learning, tels qu’Oracle, Windows Azure, SAS, Google, AWS ou encore IBM. Ces géants du Big Data possèdent en effet leurs propres plateformes et algorithmes capables de traiter des données de natures variées et de s’intégrer à des architecture diverses, codées en plusieurs langages. Les entreprises bénéficient alors d’une solution évolutive et plus rapidement opérationnelle.
Ainsi, la Datascience, qui désigne « la discipline qui permet à une entreprise d’explorer et d’analyser les données brutes pour les transformer en informations précieuses permettant de résoudre les problèmes de l’entreprise » (Définition ici) était au cœur des sujets de conférences et des solutions présentées par les différents intervenants de ce Big Data Paris 2018.
D’ailleurs, ce n’est pas un hasard si l’analyse prédictive fut au cœur de bon nombre d’interventions dans le salon. Le phénomène symbolise la rencontre entre le Big Data et la Business Intelligence, grâce au traitement de grandes quantités de données provenant de différentes plateformes comme les CRM, les réseaux sociaux, ou plus généralement le cloud. Le but de l’analyse prédictive est d’identifier des régularités jusque-là inconnues à travers l’analyse des données, comme c’est le cas du Data Mining, qui pourrait être défini comme l’application de l’analyse prédictive aux métiers de marketing. Pascale Bué, directrice marketing de l’agence de Data Marketing « 1000mercis » explique que le traitement intelligent des données permet de mettre en place un modèle de recommandation pour anticiper le besoin client et accroître la satisfaction.
En somme, le big data représente un enjeu crucial pour les entreprises qui devront alors relever quatre défis : celui du grand volume de données, de leur variété en nature et en provenance, de leur véracité ainsi que de la vélocité de traitement requise.
Le Big Data au-delà de l’enjeu économique et entrepreneurial : la dimension sociétale
Si l’aspect technique, économique et entrepreneurial étaient au centre des différentes interventions, la dimension sociétale portant sur l’environnement et la protection des données n’était pas en reste. Et comment ne pas parler ici de la règlementation RGPD qui entrera en vigueur officiellement le 25 Mai 2018. Thème principal du discours d’ouverture de Mounir MAHJOUBI et omniprésent dans les réflexions et expositions des différents conférenciers, la nouvelle règlementation européenne est au cœur des préoccupations des grandes entreprises. Tout sauf une surprise, la mise en place de ces nouvelles normes s’inscrit dans la continuité des efforts qui sont faits en France depuis maintenant plusieurs années pour protéger les individus et leurs données personnelles, tout en permettant aux entreprises d’exploiter la valeur contenue dans ces données. Car c’est bien cet équilibre entre innovation et éthique, entre croissance et intégrité, entre ouverture et prudence qui est recherché à travers cette nouvelle règlementation.
Enfin, et à titre de conclusion, il serait difficile de ne pas évoquer la conférence « Big Data : au-delà de l’enjeu technique, l’enjeu sociétal » de Denis Jaquet, auteur notamment du livre « Uberisation : un ennemi qui vous veut du bien ? ». Ces 20 minutes ont été le théâtre d’un discours engagé sur le Big Data, avec une réflexion économique, sociale, sociétale, voire même philosophique. Denis Jacquet a commencé par montrer le paradoxe du Big Data, « cette notion de Big qui est devenu tout petit (car on peut désormais stocker des quantités titanesques de données dans des espaces physiques très réduits) et d’un autre côté la data qui est un capital immatériel qui devient peut-être le capital le plus important au monde et qui va nous entrainer dans des sphères qu’on a pas forcément prévues. Le Big Data et l’IA nous font entrer dans un monde où le calcul remplace la connaissance qui est désormais calculée, compressée, analysée, interprétée, restituée et qui, demain, sera très certainement cloudisée.
Ce qui est certain, comme nous l’a expliqué Denis Jaquet, c’est que l’humanité est basée sur 5 critères principaux : l’imperfection, l’imprévisibilité, la diversité le chaos et l’émotion, soit tout le contraire de ce que nous sommes en train de fabriquer avec le Big Data et l’IA. En effet, l’imprévisibilité va être remplacée par le calcul, l’imperfection va être remplacée par la norme (quand les systèmes d’assurances seront basés sur notre comportement, il y aura une norme du comportement par exemple), la diversité et le chaos seront annihilés quand on aura tué le risque et enfin l’émotion sera remplacée par le calcul. Dans tous les cas, le Big Data amène quelque chose de radicalement nouveau pour l’homme, qui se traduit aujourd’hui par une transformation profonde.
Peut-être que ces changements seront pour le meilleur, ou bien pour le pire, nul n’est en capacité de le savoir car nous nous trouvons aujourd’hui face à un choix quant à l’utilisation du Big Data.
En effet, d’un côté le Big Data peut être utilisé comme outil de prédiction, que ce soit pour prédire le comportement d’achat d’individus ou la probabilité d’une machine à tomber en panne. Dans ce cas, son essor contribuera à la rationalisation des comportements et des codes sociaux et il deviendra un véritable frein au libre arbitre en analysant, prédisant et influençant nos actes dans leur entière complexité, si bien que nous perdrons toute indépendance dans nos choix même les plus intimes.
Mais d’un autre côté, le Big Data peut aussi être vu comme un outil permettant à l’être humain de comprendre et donc de maîtriser le monde qui l’entoure. En effet, si le Big Data permet un jour de décoder l’ensemble des comportements humains, leurs raisons d’être et leurs conséquences, il sera alors possible, avec le recul nécessaire, d’agir et de penser de manière plus détachée de ce qui nous entoure et ainsi atteindre un niveau de liberté supérieur.
L’avenir nous dira ce qu’il en est, mais lorsque l’on voit le scandale lié à l’affaire des données personnelles de Facebook utilisée par l’entreprise Cambridge Analytica, il est certain que ce domaine a besoin de régulation et il est heureux que l’Europe s’empare du sujet à travers le RGPD. Cette thématique fera l’objet d’un article à paraitre prochainement sur DigitalCorner.