Data lake : définition et introduction

Temps de lecture : 2 minutes

Souvent présenté comme la solution miracle quand on évoque le Big Data, le data lake sert à stocker une quantité importante de données en brisant les silos des systèmes d’information. Mais comment fonctionne-t-il ? Et en quoi diffère-t-il d’un data warehouse ? Définition.

 

Qu’est-ce qu’un data lake (ou lac de données) ? 

Un data lake – ou lac de données en français – est une méthode de stockage de données au sein d’une entreprise. Issu de la mouvance du big data, il permet de stocker des données de manière massive. Et ce, dans leur format brut et granulaire, provenant d’un nombre conséquent de sources.

Par définition, il accepte tous les types de données. Ces données peuvent être stockées de manière structurées, semi structurées ou non structurées. Lors de leur importation, les données sont associées à un identifiant et un ensemble de balise de métadonnées pour permettre leur récupération et utilisation.

Utiliser un data lake permet ainsi d’avoir un espace de stockage facile d’utilisation, mais également d’avoir une vision d’ensemble initiale pour les data scientists. Cet outil a l’avantage d’éliminer la complexité liée à la réception et au stockage de l’ensemble des données. Ainsi les données sont à disposition rapidement en fonction de sa stratégie de gouvernance des données.

Replay

Vers un numérique plus durable et soutenable

Découvrez la proposition de Microsoft pour un numérique soutenable et durable traduite en 21 actions.

Visionner le replay

 

Quelle est la différence entre un data lake et un data warehouse ? 

Le lac de données et le data warehouse – entrepôt de données en français – ont un objectif similaire : la création d’un gisement de données centralisé permettant d’alimenter les différents usages de la données (analyses, applications, etc) d’une organisation.

Toutefois, les deux sont fondamentalement différents dans leur manière de stocker les informations. Le data warehouse nécessite un traitement de la donnée au préalable. Le data lake, quant à lui, stocke des données brutes et non transformées. En parallèle, le data warehouse extrait des informations structurées et les organise pour une fin précise, tandis que le data lake stocke toutes les données brutes pour des utilisations diverses et non définies. Le data warehouse sera donc préférable pour les utilisateurs opérationnels, alors que le data lake lui, sera un outil privilégié des data scientists.

Septembre 
26
12h00
Big Data & AI Paris 2022 Big Data & AI Paris offre une occasion unique de s’informer sur les dernières tendances du marché et networker avec l’ensemble des professionnels de la data et de l’intelligence artificielle en France. Rejoignez M… S’inscrire En savoir plus

 

Comment mettre en place un data lake ? 

Azure Data Lake permet de créer rapidement et facilement un datalake dans le cloud modulable en termes de stockage. Celui-ci est d’ailleurs illimité et peut accueillir des fichiers de plusieurs pétaoctets. Conçu pour faire fonctionner des systèmes d’analyse à grande échelle, il peut interroger de grands volumes de données et les répartir sur plusieurs serveurs de stockage distincts. Il permet également d’activer l’espace de noms hiérarchique pour optimiser les performances de systèmes de fichiers en termes de mise à l’échelle sans forcer la création de silos de données distincts.

 

Lire aussi Data story : comment TF1 tire profit du meilleur de la donnée grâce à l’IA

 

A la une

#hololense

Le métavers au service de l’industrie

Alors que le métavers fait progressivement son chemin vers le grand public, il est déjà depuis déjà quelques années une réalité dans le secteur de l’industrie. Des technologies industrielles matures, dont Microsoft et ses partenaires se sont fait une spécialité. Une usine qui prend forme virtuellement avant d’être construite. D’immenses cuves de brassages connectées qui […]

Lire l'article
Etudiant devant un écran

L’adaptive learning change les codes de l’apprentissage

L’adaptive learning s’impose de plus en plus dans les formations, et pour cause : face à la pluralité des profils au sein d’un système scolaire l’adaptive Learning offre des outils pour traiter équitablement l’ensemble des profils d’apprenants. Mais quand est-il vraiment de cette méthode de pédagogie innovante ? Rencontre avec Pascal Bringer, directeur général de Maskott, […]

Lire l'article
Data loss prevention (DLP)

Data Management: tout ce qu’il faut savoir

Les données sont aujourd’hui indissociables des modes de travail et de production des organisations, encore faut-il savoir les gérer de façon efficace et intelligente : c’est ce qu’on appelle le « Data management » ou « gestion des données ». Explorons ce concept ensemble. Sommaire : 1. Présentation du Data Management 2. Explication de la […]

Lire l'article