Le Data lake, ou lac de données, est une méthode de stockage des données, utilisée par le Big Data.
Ces données, conservées dans leurs formats originaux ou très peu transformées, sont de natures différentes : des données structurées issues notamment de base de données (lignes et colonnes), des données semi-structurées (fichier CSV), des données non structurées (e-mails, documents, PDF) et fichiers de type blob (images, audio, vidéo notamment).
Les données sont utilisées pour des tâches telles que la création de rapports, la visualisation, l'analyse, l'apprentissage automatique, etc.