RAG maliyetleri çoğu zaman input ağırlıklıdır çünkü getirilen doküman parçaları modele gönderilir. Prompt, retrieval ve cevap tokenlarını ayırmak bütçeyi netleştirir.
Aynı token varsayımıyla kıyasla
Bilinmeyen fiyatı sıfır sayma
Üretim öncesi resmi kaynağı doğrula
Retrieved context'i ölçün
RAG maliyetinin en büyük sürücüsü çoğu zaman getirilen chunk sayısı ve uzunluğudur. İstek başına ortalama retrieved token hacmini takip edin.
Tekrarlayan promptlarda cache kullanın
Sabit system promptlar ve tekrar eden retrieval desenleri, sağlayıcı destekliyorsa caching ile maliyeti düşürebilir.
Context limitlerini izleyin
Büyük retrieval setleri context penceresini aşabilir. Long-context modelleri, daha ucuz model + daha sıkı retrieval yaklaşımıyla karşılaştırın.
