Data Lake Nedir?

İngilizce: Data Lake

Data lake, ham ve işlenmiş verileri ölçeklenebilir depoda tutarak analitik, makine öğrenmesi ve arşiv ihtiyaçlarını besleyen mimaridir.

Data Lake Nedir?

Data lake, yapılandırılmış tabloları, log dosyalarını, olay akışlarını, görselleri ve ham veri dosyalarını düşük maliyetli, ölçeklenebilir depolamada saklayan veri mimarisidir. Veri ambarından farklı olarak veriyi baştan tek bir şemaya zorlamaz; kullanım anında işleme ve modelleme yapılabilir.

Bir perakende şirketi kasa satışlarını, web tıklama verilerini, kampanya loglarını ve müşteri destek kayıtlarını aynı data lake içinde tutabilir. Analitik ekip bu veriyi raporlama, tahminleme veya makine öğrenmesi modelleri için farklı biçimlerde kullanır.

Nasıl Çalışır?

Data lake çoğunlukla object storage üzerinde kurulur; AWS S3, Google Cloud Storage veya Azure Data Lake Storage yaygın örneklerdir. Veri kaynaklardan batch veya streaming biçimde gelir, ham katmanda saklanır, ardından temizlenmiş ve işlenmiş katmanlara taşınır.

Tipik katmanlar şunlardır:

  • Raw/Bronze: Kaynaktan geldiği haliyle veri
  • Clean/Silver: Temizlenmiş, standartlaştırılmış veri
  • Curated/Gold: Raporlama veya modelleme için hazırlanmış veri
  • Catalog: Verinin nereden geldiğini ve nasıl kullanılacağını açıklayan metadata

İş Dünyasında Kullanımı

Data lake; big data, IoT, müşteri davranış analizi, log analizi ve yapay zeka projelerinde esneklik sağlar. Ancak yönetişim olmadan data lake hızla “data swamp” haline gelebilir: kaynağı, kalitesi ve sahibi bilinmeyen dosya yığınına dönüşür.

ETL ve ELT süreçleri data lake’i analitik kullanıma hazırlar. Güvenlik, veri kataloglama, yaşam döngüsü politikaları ve maliyet takibi mimarinin baştan tasarlanması gereken parçalarıdır.