Chunking (Metin Parçalama) Nedir?
İngilizce: Chunking
Chunking, uzun metinleri arama ve RAG sistemlerinde kullanılabilecek anlamlı, yönetilebilir parçalara ayırma işlemidir.
Chunking (Metin Parçalama) Nedir?
Chunking, uzun dokümanları modelin ve arama sisteminin işleyebileceği parçalara bölme işlemidir. Amaç sadece metni eşit uzunlukta kesmek değil, anlam bütünlüğünü koruyan parçalar üretmektir.
Bir kullanım kılavuzu tek parça halinde vektörleştirilirse arama sonucu çok genel kalabilir. Çok küçük parçalara bölünürse de gerekli bağlam kaybolur. Bu denge, RAG yanıtlarının kalitesini doğrudan etkiler.
Chunking Yaklaşımları
- Sabit uzunluk: Belirli token veya karakter sayısına göre böler, uygulaması kolaydır
- Başlık bazlı: Bölüm ve alt başlıkları dikkate alır, doküman yapısını korur
- Anlamsal: Konu değişimini algılayarak daha doğal sınırlar üretir
- Overlap: Komşu parçalar arasında küçük tekrar bırakarak bağlam kaybını azaltır
İş Kullanımı
Chunking; destek makaleleri, sözleşmeler, ürün katalogları, teknik dokümantasyon ve şirket prosedürlerinde kullanılır. Parçalar embedding haline getirilip vektör veritabanı içinde aranabilir.
İyi chunk tasarımı ölçüm ister. Hangi parça boyutunun doğru olduğu veri türüne, sorgu uzunluğuna ve modelin bağlam kapasitesine bağlıdır. Deneme setleriyle “doğru kaynak getirildi mi?” sorusu düzenli test edilmelidir.
İlgili Terimler
Embedding, metin, görsel veya ürün gibi verileri benzerlik hesabı yapılabilen sayısal vektörlere dönüştüren temsil yöntemidir.
RAGRAG, büyük dil modelinin yanıt üretmeden önce kurumsal belge veya veri tabanından ilgili parçaları bulup bağlama eklediği yapay zeka mimarisidir.
Vektör VeritabanıVektör veritabanı, embedding kayıtlarını saklayıp anlamsal benzerliğe göre hızlı arama yapabilen yapay zeka altyapısıdır.