Vektör Veritabanı Nedir?
İngilizce: Vector Database
Vektör veritabanı, embedding kayıtlarını saklayıp anlamsal benzerliğe göre hızlı arama yapabilen yapay zeka altyapısıdır.
Vektör Veritabanı Nedir?
Vektör veritabanı, metin, görsel veya ürün kaydı gibi içerikleri sayısal embedding’ler halinde saklar ve “anahtar kelime aynı mı?” yerine “anlam olarak benziyor mu?” sorusuna cevap verir. Bu yüzden klasik tam metin aramasından farklı olarak eş anlamlı ifadeleri, yakın niyetleri ve benzer dokümanları bulabilir.
Nasıl Çalışır?
Önce içerik bir embedding modeliyle yüksek boyutlu vektöre çevrilir. Kullanıcı arama yaptığında sorgu da aynı modele gönderilir ve veritabanı en yakın vektörleri bulur. Yakınlık genellikle cosine similarity, dot product veya Euclidean distance gibi metriklerle hesaplanır.
Pinecone, Weaviate, Qdrant, Milvus ve PostgreSQL üzerinde çalışan pgvector yaygın seçeneklerdir. Embedding üretimi model kalitesine bağlıdır; LLM tabanlı RAG senaryolarında ise bulunan doküman parçaları cevaba bağlam olarak verilir. PostgreSQL kullanan ekipler pgvector ile mevcut PostgreSQL altyapısını genişletebilir.
İş Dünyasında Kullanımı
Vektör veritabanları doküman arama, müşteri destek botu, ürün benzerliği, aday-CV eşleştirme ve bilgi tabanı sorgulama için kullanılır. Örneğin bir şirket içi asistan, “geç teslimat cezası” sorusunu birebir bu kelimeleri içermeyen sözleşme maddeleriyle eşleştirebilir.
Dikkat edilmesi gereken noktalar veri güncelliği, yetki kontrolü, embedding maliyeti ve yanlış bağlam seçimidir. Hassas dokümanlar indekslenirken erişim izinleri arama sonucuna da uygulanmalıdır.
İlgili Terimler
Chunking, uzun metinleri arama ve RAG sistemlerinde kullanılabilecek anlamlı, yönetilebilir parçalara ayırma işlemidir.
EmbeddingEmbedding, metin, görsel veya ürün gibi verileri benzerlik hesabı yapılabilen sayısal vektörlere dönüştüren temsil yöntemidir.
LLMLLM, büyük metin veri kümeleri üzerinde eğitilen ve doğal dil anlayıp üretebildiği için ChatGPT gibi yapay zeka araçlarının temelini oluşturan model.
PostgreSQLPostgreSQL, ilişkisel veri modelini JSON, indeksleme ve genişletilebilirlik özellikleriyle birleştiren açık kaynaklı ACID uyumlu veritabanıdır.
RAGRAG, büyük dil modelinin yanıt üretmeden önce kurumsal belge veya veri tabanından ilgili parçaları bulup bağlama eklediği yapay zeka mimarisidir.
Semantik AramaSemantik arama, kelime eşleşmesi yerine sorgu ve içerik anlamını vektörlerle karşılaştırarak ilgili sonuçları bulur.
Vektör İndeks (pgvector)Vektör indeks, embedding kayıtları arasında anlamsal olarak yakın sonuçları hızlı bulmak için kullanılan arama yapısıdır.