Data lake : définition et introduction
Souvent présenté comme la solution miracle quand on évoque le Big Data, le data lake sert à stocker une quantité importante de données en brisant les silos des systèmes d’information. Mais comment fonctionne-t-il ? Et en quoi diffère-t-il d’un data warehouse ? Définition.
Qu’est-ce qu’un data lake (ou lac de données) ?
Un data lake – ou lac de données en français – est une méthode de stockage de données au sein d’une entreprise. Issu de la mouvance du big data, il permet de stocker des données de manière massive. Et ce, dans leur format brut et granulaire, provenant d’un nombre conséquent de sources.
Par définition, il accepte tous les types de données. Ces données peuvent être stockées de manière structurées, semi structurées ou non structurées. Lors de leur importation, les données sont associées à un identifiant et un ensemble de balise de métadonnées pour permettre leur récupération et utilisation.
Utiliser un data lake permet ainsi d’avoir un espace de stockage facile d’utilisation, mais également d’avoir une vision d’ensemble initiale pour les data scientists. Cet outil a l’avantage d’éliminer la complexité liée à la réception et au stockage de l’ensemble des données. Ainsi les données sont à disposition rapidement en fonction de sa stratégie de gouvernance des données.
Quelle est la différence entre un data lake et un data warehouse ?
Le lac de données et le data warehouse – entrepôt de données en français – ont un objectif similaire : la création d’un gisement de données centralisé permettant d’alimenter les différents usages de la données (analyses, applications, etc) d’une organisation.
Toutefois, les deux sont fondamentalement différents dans leur manière de stocker les informations. Le data warehouse nécessite un traitement de la donnée au préalable. Le data lake, quant à lui, stocke des données brutes et non transformées. En parallèle, le data warehouse extrait des informations structurées et les organise pour une fin précise, tandis que le data lake stocke toutes les données brutes pour des utilisations diverses et non définies. Le data warehouse sera donc préférable pour les utilisateurs opérationnels, alors que le data lake lui, sera un outil privilégié des data scientists.
Comment mettre en place un data lake ?
Azure Data Lake permet de créer rapidement et facilement un datalake dans le cloud modulable en termes de stockage. Celui-ci est d’ailleurs illimité et peut accueillir des fichiers de plusieurs pétaoctets. Conçu pour faire fonctionner des systèmes d’analyse à grande échelle, il peut interroger de grands volumes de données et les répartir sur plusieurs serveurs de stockage distincts. Il permet également d’activer l’espace de noms hiérarchique pour optimiser les performances de systèmes de fichiers en termes de mise à l’échelle sans forcer la création de silos de données distincts.
Lire aussi Data story : comment TF1 tire profit du meilleur de la donnée grâce à l’IA