Des solutions numériques
pour piloter l’action publique

C’est quoi, un Data Lake ?

L’afflux de données, et la nécessité de permettre leur communication, a fait exploser les silos historiques des BDD. À l’heure du cloud computing et de l’IA, les nouvelles architectures se nomment Data Warehouse et Data Lake. Voici ce qu’il faut en savoir.

Créer et collecter de la donnée pour l’action publique est devenu l’un des nerfs de la guerre de la modernisation des administrations françaises.

Publiée le 9 mars 2023, la nouvelle feuille de route de la DINUM, intitulée “Une stratégie numérique au service de l’efficacité de l’action publique”, mentionne dans l’une de ces 4 priorités la nécessité de “développer l’exploitation effective des données pour un État plus efficace dans son action et plus simple vis-à-vis des citoyens, des entreprises et des agents publics”.

Et de faire le constat : “Cette exploitation qui a transformé de nombreux secteurs d’activité privés, des transports à la finance en passant par la grande distribution, n’est pas suffisamment déployée au sein de l’État en dépit des bénéfices certains qu’elle pourrait apporter”.

Si “l’exploitation effective des données” repose sur un savoir-faire technique, il repose aussi sur des choix technologiques. À commencer par l’architecture de stockage des données.

L’afflux de données, et la nécessité de permettre leur communication, a fait exploser les silos historiques des BDD sur serveur. À l’heure du cloud computing, les nouvelles architectures phares se nomment Data Warehouse et Data Lake ! Si le marché des lacs de données était évalué à 3,74 milliards de dollars en 2020, il devrait atteindre 17,60 milliards de dollars d’ici 2026.

Voici ce qu’il faut savoir !

Un Data Lake (certains informaticiens francophones préfèrent parler de lac de données) contient des données numériques de manière non structurée.

Concrètement, il n’y a pas de hiérarchie ou d’organisation entre les différents éléments de données.

Les données hétérogènes sont donc conservées sous forme brute, sans traitement, et proviennent de différentes sources.

Cela donne à cette architecture de grands avantages en matière d’analyse des données.

Un lac aux multiples sources 

  • Un stockage flexible

Les lacs de données permettent de stocker des données non structurées de différentes natures et permettent une grande souplesse pour explorer et analyser.

  • Une évolutivité importante

Les data lakes sont conçus pour gérer de très importants volumes de données. Ils peuvent donc aisément s’adapter à la croissance des volumes, et ce sans nécessiter de modifications majeures de l’infrastructure sous-jacente.

  • Une intégration des données facilitée

Les data lakes peuvent agréger des données provenant de différentes sources. Cela permet d’avoir une vue complète du patrimoine data exploitable par l’organisation.

  • Un espace propice au déploiement de l’IA

Les ensembles de données présentes dans les data lakes – bien qu’elles soient brutes et non structurées – peuvent servir de corpus à des outils d’apprentissage automatique (machine learning). De quoi découvrir des tendances et des modèles jusqu’alors insoupçonnés et générer de nouvelles opportunités business

Team Lac VS Team Entrepôt

Ces caractéristiques sont des différenciants fondamentaux des entrepôts de données, dits aussi datawarehouse.

Car les data warehouse regroupent des données structurées provenant d’une ou plusieurs sources hétérogènes. Il s’agit donc d’une énorme base de données relationnelle.

Le data warehouse est une énorme base de données relationnelle.

 

En creux, les avantages des entrepôts de données donnent un aperçu des inconvénients des data lakes.

Car si la souplesse des data lakes peut être un argument séduisant, cette architecture peut aussi dissimuler son lot de contraintes dans ses profondeurs.

Les monstres du Lake Ness ?

  • Gérer la complexité

La gestion des Data Lakes peut rapidement devenir complexe, et ce en raison de la grande variété de données stockées, tant en matière de sources que de structures. D’où un fort besoin d’expertise.

  • Encadrer l’accès

Les Data Lakes stockent des données brutes, provenant de différentes sources. Il est donc crucial de mettre en place des mesures de sécurité pour protéger les données sensibles dans un ensemble plus large de données.

  • Garantir la qualité

De la même manière, la qualité des données peut varier considérablement dans l’ensemble des données brutes contenues dans le data lake. Il peut donc être nécessaire de mettre en place des processus de nettoyage et de validation des données pour garantir leur fiabilité et leur cohérence avant analyse.

Une question technique… et humaine !

À l’heure de l’émergence de nouvelles technologies comme l’intelligence artificielle, l’architecture des data lakes peut être réellement séduisante pour aller plus loin dans l’analyse des données ! Reste que les compétences nécessaires pour gérer la complexité des lacs de données demandent de s’appuyer sur des experts confirmés et des méthodologies éprouvées pour tirer un bénéfice réel et de long terme.

Partager sur Facebook
Partager sur Twitter
Partager sur Linkedin

Laisser un commentaire

Sur le même sujet

Bienvenue dans la BU du futur

Bienvenue dans la BU du futur

Blockchain, IA, smart contract, le marché public du futur

Blockchain, IA, smart contract, le marché public du futur

Comment libérer l’utilisation secondaire des données de santé ?

e-Santé : qui sont les GRADeS ?

e-Santé : qui sont les GRADeS ?

PROMs et PREMs : des données patients pour mesurer et améliorer la qualité des soins

À lire aussi

Vers la semaine en 4 jours dans la fonction publique ?

Vers la semaine en 4 jours dans la fonction publique ?

Et non pas « de » 4 jours.

Cyber Solidarity Act : quand l’Europe dresse son bouclier numérique

Au-delà du Buzzword : Data LakeHouse

Comment libérer l’utilisation secondaire des données de santé ?

Rodrigue Alexander (CHU de Martinique) : « L’IA, une réponse au défi de la démographie médicale »

CHU de Montpellier : l’IA au cœur d’un partenariat avec Dell

Newsletter

Suivez ITPublic

La boîte à outils

Découvrir l’ensemble des contenus