Nam.R est une jeune Start-up française qui existe depuis un peu moins de 2 ans et qui compte déjà 25 personnes travaillant en son sein. Et son ambition n’est pas des moindres : jouer un rôle majeur dans la solarisation (à savoir, optimiser le rendement des panneaux solaires via le choix de leur emplacement) de la France en s’appuyant sur la grande quantité de données disponibles en Open-Source (également appelé « Open Data »).
En 2005, l’Open Knowledge Foundation définissait l’Open Data comme l’ensemble « des données auxquelles n’importe qui peut accéder, que tout le monde peut utiliser ou partager. Les critères essentiels de l’Open Data sont la disponibilité, la réutilisation et la distribution, et la participation universelle ». L’intérêt est donc multiple : le partage de la donnée permet son enrichissement, sa valorisation rapide. On pourrait aller jusqu’à parler d’une synergie de la donnée si plusieurs acteurs arrivent à s’entendre et travailler ensemble sur les processus de retraitement et de modélisation de l’information qu’ils ont à disposition. Cependant, de tel canaux de partage soulèvent aussi des inquiétudes, comme l’anonymisation de l’information et le respect de la vie privée. Dès lors, nous allons voir ci-dessous comment Nam.R est parvenu à exploiter les avantages de cet Open Data tout en se prémunissant contre les potentielles déviances ou risques liés à ce nouveau paradigme de la data.
Un concept novateur qui utilise pleinement le potentiel de l’Open Data
Nam.R a choisi le développement durable comme domaine d’application et cette démarche s’inscrit dans les 17 Objectifs de Développement Durable (ODD) développés par l’ONU. Plus particulièrement, nam.R s’est focalisé sur un usage précis en se spécialisant dans la solarisation.
Il faut savoir que bon nombre d’éléments (que ce soient des routes, des ponts, des maisons, des bâtiments, etc.) présents sur notre territoire ont leur équivalent en données, qui sont ensuite mises à disposition par les acteurs publics. Tout l’enjeu consiste à collecter ces données très disparates et hétérogènes, puis à les traiter et les enrichir en créant des attributs et des qualifiants afin de les rendre exploitables, analysables et donc modélisables.
Ainsi, au-delà de la simple information sur l’ensoleillement d’un emplacement urbain, nam.R prend également en compte de multiples autres paramètres tels que le nombre d’étages d’un bâtiment, la présence d’un groupe de climatisation sur le toit, le matériau, la forme ou la pente du toit, etc. La prise en compte de ces attributs complémentaires permet alors d’optimiser le choix de l’emplacement des infrastructures solaires, que ce soit à l’échelle d’un bâtiment, d’un quartier voire d’un pays.
De la collecte à la modélisation
Concrètement, comment fait nam.R pour traiter ces données ? Afin de collecter la donnée, l’entreprise capte de l’information sur les portails de données en Open Source ou par le biais de partenariats tel que celui avec l’Institut de Géographie Nationale par exemple. Il s’agit ici de récupérer un ensemble d’inputs aussi vastes que diversifiés, afin de pouvoir ensuite les analyser et de pouvoir utiliser les bons attributs selon l’objectif recherché (en l’occurrence, ici, les attributs liés à l’ensoleillement, l’emplacement, les matériaux et l’inclinaison des différents éléments urbains existants).
Vient ensuite la phase de qualification pour déterminer si l’information est bonne et exploitable. Ainsi, une fois les données disparates collectées, il s’agit de les trier afin de créer des métadonnées pour chacun des jeux de données.
Puis, une structuration complète est indispensable afin d’utiliser pleinement ces métadonnées. Pour les ranger de manière optimale et structurée, nam.R utilise une « Data library » (bibliothèque de données), c’est-à-dire une base de données géante et organisée selon des règles de structuration précises et complexes. Tout l’intérêt de la Data library est qu’elle a la capacité de s’enrichir de manière automatisée, d’absorber de nouvelles informations grâce à des techniques et outils de Data science. À titre d’illustration, prenons le cas d’une personne rangeant ses livres de manière aléatoire dans sa bibliothèque. Un jour, elle décide de les classer par auteur, éditeur etc. Puis finalement, par automatisme, elle saura exactement où ranger chaque nouveau livre dans sa bibliothèque en fonction des critères qu’elle aura établis. C’est exactement ce qui se passe dans le cas d’une Data library.
Enfin, la modélisation est faite via des plateformes et outils collaboratifs de modélisation et de visualisation complexes qui permettent de présenter des éléments interactifs en 3D. C’est ainsi qu’en assemblant à l’échelle d’un pays toutes ces données retraitées et structurées, toutes ces informations aussi complémentaires que diversifiées, on obtient le jumeau numérique de la France.
Modèle économique et confidentialité des données
Dès lors, pour que le projet soit viable, il convenait d’adopter un business model adapté et pertinent. Comment créer de la valeur à partir de la donnée, sans nécessairement la vendre à son client ? Nam.R s’est dirigé vers le modèle dit de séquence optimisée : grâce à la diversité et à la grande volumétrie d’information à disposition, l’entreprise est en mesure d’élaborer des modèles et des recommandations vendus sous forme de services, sans nécessairement dévoiler les composants (données, algorithmes) qui ont servi à leur élaboration.
Pour ce faire, l’entreprise doit développer un modèle de Data science robuste, qui s’appuie sur des algorithmes complexes qu’il convient d’alimenter pour les faire progresser. En effet, plus ces outils seront alimentés en data, plus robuste sera le modèle de séquence optimisée : c’est l’un des objectifs prioritaires de Nam.R d’ici la fin de l’année.
Mais alors, qu’en est-il de la protection des données personnelles ? Il est important de savoir que cette donnée est géolocalisée mais toujours anonymisée et non liée aux consommateurs/utilisateurs. De plus, trois points essentiels sont à comprendre ici :
- L’entreprise est entièrement financée par fonds propres. Il n’y a donc pas de dépendance financière envers un éventuel prêteur.
- Le concept d’Open Data permet à l’entreprise d’être totalement indépendante vis-à-vis d’éventuels « fournisseurs » de données puisque l’information est récupérée sans condition ni contrepartie. Autrement dit, la donnée récoltée n’est pas achetée : l’entreprise n’a aucun engagement, aucune dépendance vis-à-vis d’autres acteurs économiques.
- Le modèle de séquence optimisée qui consiste à fournir des modèles sans dévoiler ou vendre les données qui ont permis de le constituer assure le fait qu’aucun acteur extérieur n’a de visibilité ou de légitimité sur le traitement qui est fait de la donnée.
Les données d’intérêt écologique, vers la création d’un nouveau statut ?
Dans un futur proche, l’ambition de nam.R est de définir un statut de données « d’intérêt écologique ». En effet, de nombreuses données de ce type sont actuellement possédées par l’État, les administrations et d’autres acteurs. Or, comme nous venons de le voir, ces données représentent un véritable potentiel écologique. Mettre en place un tel statut dans un cadre défini par la loi permettrait donc de débloquer plus rapidement ces données si utiles à la transition énergétique.
La logique est semblable à celle « d’intérêt général » qui désigne les activités des entreprises françaises privées délégatrices de services publics. Par exemple, on sait que l’État est dans l’obligation d’assurer la présence de moyens de transport permettant de relier les territoires éloignés à la Métropole. Pour la Corse, cette mission a été déléguée à Corsica ferry, société privée, qui va agir en ce sens au nom de l’intérêt général. On pourrait donc, de la même manière, imaginer que des entreprises servant des causes environnementales comme la transition énergétique puissent bénéficier d’un accès aux données nécessaires grâce à l’Open Data d’intérêt écologique.