Monitoring Nedir?

İngilizce: Monitoring

Monitoring, uygulama ve altyapı metriklerini, loglarını ve uyarılarını izleyerek sorunları kullanıcı etkilenmeden yakalamayı amaçlar.

Monitoring Nedir?

Monitoring, çalışan sistemlerin sağlığını ve davranışını sürekli ölçme pratiğidir. Amaç yalnızca hata olduğunda haber almak değil, kapasite dolmadan, gecikme artmadan veya kullanıcı deneyimi bozulmadan önce sinyal yakalamaktır.

Neler İzlenir?

Tipik bir izleme yapısında CPU, bellek, disk, ağ, hata oranı, yanıt süresi, istek hacmi, kuyruk uzunluğu ve veritabanı sorgu süresi gibi metrikler bulunur. Bunlar dashboard’larda gösterilir ve eşik ya da anomali kurallarına göre alarm üretir. Logging ise olayların ayrıntılı kaydını tutarak alarmın nedenini araştırmayı kolaylaştırır.

İyi Monitoring Nasıl Kurulur?

Her metrik alarm olmamalıdır. Aksi halde ekip alarm yorgunluğu yaşar ve gerçekten kritik uyarılar gözden kaçabilir. İyi monitoring, kullanıcı etkisine yakın göstergeleri seçer: hata oranı, p95 yanıt süresi, ödeme başarısızlığı, işlenen sipariş sayısı gibi. Alarmın sahibi, müdahale adımı ve kabul edilebilir süre önceden belirlenmelidir.

SLA hedefleri, hangi hizmet seviyesinin korunması gerektiğini tanımladığı için monitoring tasarımında doğal bir girdidir.

Anomali Tespiti

Anomali tespiti, geçmiş davranıştan öğrenilen normal aralığın dışına çıkan işlem, ölçüm veya olayları otomatik olarak işaretler.

APM (Uygulama Performans İzleme)

APM, uygulamaların yanıt süresi, hata oranı, işlem akışı ve kaynak kullanımını izleyerek performans sorunlarını görünür kılar.

Kibana

Kibana, Elasticsearch'teki log ve metrik verilerini görselleştirip analiz etmeyi sağlayan; ELK Stack'in görsel bileşenidir.

Yük Testi

Yük testi, sistemin yüksek kullanıcı trafiği altında performans ve kararlılığını ölçmek için yapılan performans testi türüdür.

Loglama

Loglama, uygulama ve sistemlerin çalışma zamanı olaylarını kayıt altına alma pratiğidir; hata ayıklama ve izleme için kritiktir.

Gözlemlenebilirlik

Gözlemlenebilirlik, sistemin iç durumunu dış çıktılarından (log, metrik, trace) anlayabilme kapasitesidir; modern DevOps'un temel prensibi.

OpenTelemetry

OpenTelemetry, uygulama gözlemlenebilirliği için log, metrik ve iz verilerini standart formatta toplamayı sağlayan açık kaynak çerçevedir.

Sentry

Sentry, uygulama hatalarını stack trace, release, ortam ve kullanıcı etkisiyle gruplayarak üretim sorunlarını izlemeyi sağlayan platformdur.

SLA

SLA, hizmet sağlayıcı ile müşteri arasında uptime, yanıt süresi, çözüm hedefi, ölçüm yöntemi ve yaptırımları tanımlayan hizmet seviyesi anlaşmasıdır.

Zaman Serisi Veritabanı

Zaman serisi veritabanı, zaman damgalı metrik, log veya sensör verilerini hızlı yazma, sıkıştırma ve zamana göre sorgulama için optimize eder.