Chunking (Metin Parçalama) Nedir?

İngilizce: Chunking

Chunking, uzun metinleri arama ve RAG sistemlerinde kullanılabilecek anlamlı, yönetilebilir parçalara ayırma işlemidir.

Chunking (Metin Parçalama) Nedir?

Chunking, uzun dokümanları modelin ve arama sisteminin işleyebileceği parçalara bölme işlemidir. Amaç sadece metni eşit uzunlukta kesmek değil, anlam bütünlüğünü koruyan parçalar üretmektir.

Bir kullanım kılavuzu tek parça halinde vektörleştirilirse arama sonucu çok genel kalabilir. Çok küçük parçalara bölünürse de gerekli bağlam kaybolur. Bu denge, RAG yanıtlarının kalitesini doğrudan etkiler.

Chunking Yaklaşımları

  • Sabit uzunluk: Belirli token veya karakter sayısına göre böler, uygulaması kolaydır
  • Başlık bazlı: Bölüm ve alt başlıkları dikkate alır, doküman yapısını korur
  • Anlamsal: Konu değişimini algılayarak daha doğal sınırlar üretir
  • Overlap: Komşu parçalar arasında küçük tekrar bırakarak bağlam kaybını azaltır

İş Kullanımı

Chunking; destek makaleleri, sözleşmeler, ürün katalogları, teknik dokümantasyon ve şirket prosedürlerinde kullanılır. Parçalar embedding haline getirilip vektör veritabanı içinde aranabilir.

İyi chunk tasarımı ölçüm ister. Hangi parça boyutunun doğru olduğu veri türüne, sorgu uzunluğuna ve modelin bağlam kapasitesine bağlıdır. Deneme setleriyle “doğru kaynak getirildi mi?” sorusu düzenli test edilmelidir.