Çok Modlu Yapay Zeka (Multimodal AI) Nedir?
İngilizce: Multimodal AI
Çok modlu yapay zeka, metin, görüntü, ses, video veya tablo gibi farklı veri türlerini birlikte anlayıp üretebilen sistemdir.
Çok Modlu Yapay Zeka (Multimodal AI) Nedir?
Çok modlu yapay zeka, tek bir veri türüyle sınırlı kalmayan modelleri ifade eder. Sistem metni okuyabilir, görseli yorumlayabilir, tablodaki değerleri analiz edebilir veya ses kaydından anlam çıkarabilir.
Örneğin bir destek uygulaması, müşterinin yazdığı açıklamayı, ekran görüntüsünü ve sistem logunu birlikte değerlendirerek daha doğru sorun sınıflandırması yapabilir. Burada NLP metni, computer vision görsel içeriği işler.
Nasıl Çalışır?
Multimodal sistemler farklı girdileri ortak bir temsil alanına taşır. Görsel, metin ve ses ayrı kodlayıcılardan geçebilir; model daha sonra bu temsiller arasında ilişki kurar. Bazı sistemler yalnızca anlam çıkarır, bazıları ise görsel, metin veya ses çıktısı da üretebilir.
Doküman işleme tarafında OCR, taranmış fatura veya formdaki metni çıkarmak için hâlâ önemli bir katmandır. Multimodal model bu metni görsel düzen ve bağlamla birlikte değerlendirebilir.
İş Kullanımı
Çok modlu AI; fatura kontrolü, ürün görsel analizi, kalite denetimi, çağrı merkezi özetleri, eğitim materyali üretimi ve saha servis raporlarında kullanılabilir. Kritik karar süreçlerinde model çıktıları kaynak görüntü, metin veya kayıtla doğrulanmalıdır.
İlgili Terimler
Bilgisayarlı görü, kamera ve görsellerden nesne, metin, kusur veya hareket bilgisini çıkaran yapay zeka ve görüntü işleme alanıdır.
LLMLLM, büyük metin veri kümeleri üzerinde eğitilen ve doğal dil anlayıp üretebildiği için ChatGPT gibi yapay zeka araçlarının temelini oluşturan model.
NLPNLP, insan dilini metin veya ses olarak işleyip sınıflandırma, arama, özetleme ve üretim gibi görevlerde kullanan yapay zeka alanıdır.