Felaket Kurtarma Nedir?
İngilizce: Disaster Recovery
Felaket kurtarma, kesinti veya veri kaybı sonrası sistemleri hedeflenen RTO ve RPO içinde çalışır hale getirme planıdır.
Felaket Kurtarma Nedir?
Felaket kurtarma (disaster recovery), büyük kesinti, veri kaybı, yanlış silme, siber saldırı, bölgesel bulut problemi veya donanım arızası sonrası kritik sistemlerin nasıl geri getirileceğini tanımlayan plandır. Sadece yedek almak değil, yedeğin ne kadar hızlı ve hangi veri kaybı seviyesiyle geri dönebileceğini bilmek gerekir.
Örneğin e-ticaret sitesinin veritabanı bozulduğunda son sağlam yedek 24 saat önceyse sipariş kaybı oluşabilir. İşletmenin kabul edebileceği kayıp ve kesinti süresi önceden belirlenmelidir.
RTO ve RPO
Felaket kurtarma planının iki temel metriği vardır. RTO (Recovery Time Objective), sistemin ne kadar sürede tekrar çalışması gerektiğini belirtir. RPO (Recovery Point Objective), en fazla ne kadar veri kaybının kabul edilebilir olduğunu tanımlar.
Plan genellikle şunları kapsar:
- Yedekleme sıklığı ve saklama süresi
- Veritabanı ve dosya replikasyonu
- Alternatif bölge veya sağlayıcı stratejisi
- DNS, CDN ve trafik yönlendirme adımları
- Kurtarma sorumluları ve iletişim planı
- Düzenli geri yükleme testi
Risk ve İş Sürekliliği
Felaket kurtarma yapılmış sayılması için yedeğin gerçekten geri yüklenebilir olması gerekir. Test edilmeyen backup, kriz anında sadece varsayımdır.
Replikasyon düşük RPO hedefleri için önemlidir; ancak yanlış veri silinirse hata da replike olabilir. Uptime hedefleri, maliyet ve iş riskiyle birlikte değerlendirilmelidir. Her sistem aktif-aktif mimari gerektirmez, ama her kritik sistemin yazılı ve denenmiş kurtarma planı olmalıdır.
İlgili Terimler
Yedekleme stratejisi, verilerin ne sıklıkta, nerede ve nasıl kopyalanacağını belirleyerek kesinti ve veri kaybı riskini yönetir.
Kaos MühendisliğiKaos mühendisliği, kontrollü arızalar oluşturarak sistemlerin gerçek kesintilere ne kadar dayanıklı olduğunu ölçme pratiğidir.
Multi-RegionMulti-region mimari, uygulama ve veriyi birden fazla coğrafi bölgede çalıştırarak gecikme, kesinti ve felaket riskini azaltır.
Fidye Yazılımı (Ransomware)Fidye yazılımı, sistemleri veya dosyaları şifreleyip erişimi engelleyerek ödeme talep eden zararlı yazılım saldırısıdır.
ReplikasyonReplikasyon, veritabanı verilerini birden fazla sunucuya kopyalayarak erişilebilirliği, yedekliliği ve okuma kapasitesini artırır.
UptimeUptime, bir sistemin planlı veya plansız kesinti dışında erişilebilir kaldığı süreyi yüzde ya da zaman aralığı olarak ifade eder.