Data lake : définition et introduction

Temps de lecture : 2 minutes

Publié le 10 février 2022

Souvent présenté comme la solution miracle quand on évoque le Big Data, le data lake sert à stocker une quantité importante de données en brisant les silos des systèmes d’information. Mais comment fonctionne-t-il ? Et en quoi diffère-t-il d’un data warehouse ? Définition.

Qu’est-ce qu’un data lake (ou lac de données) ?

Un data lake – ou lac de données en français – est une méthode de stockage de données au sein d’une entreprise. Issu de la mouvance du big data, il permet de stocker des données de manière massive. Et ce, dans leur format brut et granulaire, provenant d’un nombre conséquent de sources.

Par définition, il accepte tous les types de données. Ces données peuvent être stockées de manière structurées, semi structurées ou non structurées. Lors de leur importation, les données sont associées à un identifiant et un ensemble de balise de métadonnées pour permettre leur récupération et utilisation.

Utiliser un data lake permet ainsi d’avoir un espace de stockage facile d’utilisation, mais également d’avoir une vision d’ensemble initiale pour les data scientists. Cet outil a l’avantage d’éliminer la complexité liée à la réception et au stockage de l’ensemble des données. Ainsi les données sont à disposition rapidement en fonction de sa stratégie de gouvernance des données.

Replay

Vers un numérique plus durable et soutenable

Découvrez la proposition de Microsoft pour un numérique soutenable et durable traduite en 21 actions.

Visionner le replay

Quelle est la différence entre un data lake et un data warehouse ?

Le lac de données et le data warehouse – entrepôt de données en français – ont un objectif similaire : la création d’un gisement de données centralisé permettant d’alimenter les différents usages de la données (analyses, applications, etc) d’une organisation.

Toutefois, les deux sont fondamentalement différents dans leur manière de stocker les informations. Le data warehouse nécessite un traitement de la donnée au préalable. Le data lake, quant à lui, stocke des données brutes et non transformées. En parallèle, le data warehouse extrait des informations structurées et les organise pour une fin précise, tandis que le data lake stocke toutes les données brutes pour des utilisations diverses et non définies. Le data warehouse sera donc préférable pour les utilisateurs opérationnels, alors que le data lake lui, sera un outil privilégié des data scientists.

Septembre

12h00

Big Data & AI Paris 2022 Big Data & AI Paris offre une occasion unique de s’informer sur les dernières tendances du marché et networker avec l’ensemble des professionnels de la data et de l’intelligence artificielle en France. Rejoignez M… S’inscrire En savoir plus

Comment mettre en place un data lake ?

Azure Data Lake permet de créer rapidement et facilement un datalake dans le cloud modulable en termes de stockage. Celui-ci est d’ailleurs illimité et peut accueillir des fichiers de plusieurs pétaoctets. Conçu pour faire fonctionner des systèmes d’analyse à grande échelle, il peut interroger de grands volumes de données et les répartir sur plusieurs serveurs de stockage distincts. Il permet également d’activer l’espace de noms hiérarchique pour optimiser les performances de systèmes de fichiers en termes de mise à l’échelle sans forcer la création de silos de données distincts.

Le métavers au service de l’industrie

L’adaptive learning change les codes de l’apprentissage

Data Management: tout ce qu’il faut savoir

Data lake : définition et introduction

Qu’est-ce qu’un data lake (ou lac de données) ?

Vers un numérique plus durable et soutenable

Quelle est la différence entre un data lake et un data warehouse ?

Comment mettre en place un data lake ?

A la une