Token (Belirteç) Nedir?
İngilizce: Token (LLM)
Token, dil modellerinin metni işlemek için kullandığı kelime, hece, karakter veya sembol parçacığıdır; maliyet ve bağlam hesabını belirler.
Token (Belirteç) Nedir?
Token, modelin metni doğrudan kelime olarak değil daha küçük işleme birimleri olarak görmesini sağlar. Türkçede bir kelime ekleri nedeniyle birden fazla tokene ayrılabilir; noktalama, sayı ve boşluk davranışı da kullanılan tokenizer’a göre değişir.
LLM servislerinde fiyatlandırma, bağlam limiti ve hız çoğu zaman token üzerinden hesaplanır. Kullanıcı girdisi, sistem talimatı, getirilen dokümanlar ve model yanıtı toplam token bütçesini tüketir.
Neden Önemlidir?
Bağlam penceresi token kapasitesiyle sınırlıdır. Çok uzun geçmiş veya gereksiz doküman eklemek, önemli bilgiye yer kalmamasına yol açabilir. Kısa ve iyi yapılandırılmış prompt’lar hem maliyeti hem de gecikmeyi azaltır.
Token hesabı özellikle RAG, toplu doküman özetleme, müşteri destek asistanı ve API tabanlı içerik üretiminde önem kazanır. Aynı iş için farklı model veya farklı dil kullanıldığında token sayısı değişebilir.
İş Kullanımı
Üretim sistemlerinde token kullanımı izlenmelidir. Beklenmedik maliyet artışları, gereğinden uzun sistem prompt’ları, tekrarlanan konuşma geçmişi veya kontrolsüz belge ekleme nedeniyle oluşabilir.
İyi tasarım; özetleme, chunk seçimi, yanıt uzunluğu sınırı ve model seçimini birlikte değerlendirir.
İlgili Terimler
Bağlam penceresi, bir dil modelinin tek istekte okuyup yanıt üretirken dikkate alabildiği toplam token kapasitesidir.
Fine-tuningFine-tuning, önceden eğitilmiş bir modeli seçili örneklerle yeniden eğiterek belirli görev, ton veya alan bilgisinde daha tutarlı hale getirir.
LLMLLM, büyük metin veri kümeleri üzerinde eğitilen ve doğal dil anlayıp üretebildiği için ChatGPT gibi yapay zeka araçlarının temelini oluşturan model.