Sentetik Veri Nedir?

İngilizce: Synthetic Data

Sentetik veri, gerçek verinin istatistiksel özelliklerini taklit edecek şekilde üretilen; test, analiz ve model eğitimi için kullanılan veridir.

Sentetik Veri Nedir?

Sentetik veri, gerçek kullanıcılardan veya operasyonlardan doğrudan toplanmayan, belirli kurallara, simülasyona veya üretici modellere göre oluşturulan veri setidir. Amaç gerçek verinin biçimini, dağılımını veya uç durumlarını taklit ederek geliştirme ve analiz ortamlarında kullanılabilir veri sağlamaktır.

Örneğin bir banka test ortamında gerçek müşteri bilgisi kullanmak istemez; bunun yerine aynı alan yapısına sahip ama gerçek kişiye ait olmayan hesap hareketleri üretebilir. Otonom araç simülasyonları, sağlık görüntüsü araştırmaları, çağrı merkezi metinleri ve fraud senaryoları da sentetik veri kullanabilir.

Fırsatlar ve Riskler

Sentetik veri, gizlilik kısıtları olan alanlarda test ve machine learning çalışmalarını kolaylaştırabilir. Az görülen durumları çoğaltmak, veri dengesizliğini azaltmak veya henüz üretim verisi olmayan bir sistemi denemek için de kullanılabilir.

Ancak sentetik veri gerçek dünyanın tüm karmaşıklığını taşımaz. Yanlış üretilirse modeli yanıltabilir, önyargıyı gizleyebilir veya performansı olduğundan iyi gösterebilir. Bu nedenle üretim kararlarında kullanılmadan önce gerçek örneklerle doğrulanmalı ve data governance kuralları içinde izlenmelidir.