LLM API fiyatı ilk bakışta basit görünür; fakat input, output, cache, batch, context ve rota ayrıntıları kararı hızla değiştirir. Bu rehberi güvenli bir karar çerçevesi gibi kullanın: modelleri aynı iş yükü varsayımlarıyla karşılaştırın, bilinmeyen fiyatları ücretsiz saymayın ve üretim kararından önce sağlayıcının resmi kaynağını kontrol edin.
Aynı token varsayımıyla kıyasla
Bilinmeyen fiyatı sıfır sayma
Üretim öncesi resmi kaynağı doğrula
İş yükü şeklinden başlayın
Chatbot, coding agent, özetleme ve RAG hattı farklı input/output oranları üretir. En düşük görünen fiyata odaklanmadan önce kendi aylık istek sayınız ve beklenen cevap uzunluğunuzla karşılaştırın.
- Aylık istek, ortalama input token ve ortalama output token değerlerini ayrı tahmin edin.
- Tek iyimser tabloya bağlı kalmamak için düşük, orta ve yüksek kullanım senaryosu çıkarın.
- İş yükü belliyse genel tahmin yerine temsilî promptları token hesabından geçirin.
Input ve output maliyetini ayırın
Birçok model output token için input token fiyatından daha yüksek ücret alır. Uzun cevap üreten işlerde input fiyatı düşük görünse bile toplam maliyet hızla artabilir.
- Özetleme ve coding işleri genelde routing veya sınıflandırmadan daha uzun output üretir.
- Ürün arayüzünde cevap limiti varsa bütçeyi ideal cevap uzunluğuna göre değil, o limite göre kurun.
- Sadece token tablosundaki ucuz sütuna değil, toplam senaryo maliyetine bakın.
Cache, batch ve context kontrolü yapın
Prompt caching ve batch API maliyeti azaltabilir; ancak sağlayıcı desteğine ve iş yükünün zamanlamasına bağlıdır. Context penceresi de önemlidir çünkü limiti aşan istekler başarısız olabilir veya parçalama gerektirebilir.
- Tekrarlayan prefix ölçülmediyse cache varsayımını temkinli tutun.
- Batch indirimi offline işler için değerli olabilir; gerçek zamanlı ürün akışına her zaman uymaz.
- Long context mimariyi sadeleştirebilir; daha kısa context + retrieval bazen daha ekonomik olabilir.
Rotaları ayrı tutun
Direct sağlayıcı API'leri ve aggregator rotaları aynı temel modeli farklı fiyat, limit, erişilebilirlik veya kullanım şartıyla sunabilir. Kullanacağınız gerçek rotayı karşılaştırın.
- Direct API ve üçüncü taraf rota fiyatlarını tek fiyat gibi birleştirmeyin.
- Rotanın iş yükünüzde gereken yeteneği gerçekten desteklediğini kontrol edin.
- Planlamada kullanmadan önce kaynak güveni ve son güncelleme bilgisini inceleyin.
