neurologyLLM & Modeller

DeepTechTR@DeepTechTR
DeepTechTR (@DeepTechTR)
geminiclaude
SON DAKİKA: Stanford, yapay zeka API'lerinde 28 katlık bir fiyat tersine dönüşü tespit etti.
Gemini 3 Flash'ın listelenen fiyatı, Claude Haiku 4.5'ten 1,7 kat daha ucuz.
MMLUPro'daki gerçek maliyeti ise 28 kat daha yüksek.
Ekibinizin model seçimi için kullandığı tüm yapay zeka maliyet sıralaması, 5'te 1 oranında yanlış.
Stanford ve Berkeley, 9 kıyaslama ve 11.872 sorgu üzerinden 8 öncü yapay zeka modelini denetledi.
Amaç basitti: Listelenen API fiyatları gerçekten ödeyeceğiniz tutarı tahmin ediyor mu?
Cevap hayır.
Model çifti karşılaştırmalarının %21,8'inde, yaklaşık 5'te 1 oranında, daha düşük listelenen fiyata sahip modelin çalıştırılması daha pahalıya mal oluyor. Tersine dönüş bir yuvarlama hatası değil. En kötü durum 28 kata ulaşıyor.
MMLUPro'da Gemini 3 Flash, milyon token başına 3,50 dolardan listeleniyor. GPT-5.2'nin liste fiyatı 15,75 dolar. Gemini 3 Flash'ın bu kıyaslamadaki gerçek maliyeti, GPT-5.2'ninkinden 6 kat daha yüksek. "Ucuz" model aslında pahalı olan model.
Temel neden, mantık modellerinin nihai bir cevap üretmeden önce oluşturduğu görünmez akıl yürütme adımları olan düşünme belirteçleridir. Bunlar, tam çıktı belirteç oranı üzerinden faturalandırılır. Listelenen fiyatta görünmezler. Ve aynı sorguda modeller arasında %900'e varan oranda değişiklik gösterirler.
Tek bir AIME matematik probleminde:
→ GPT-5.2 562 düşünme belirteci kullandı. Doğru cevap.
→ Gemini 3 Flash 11.749 düşünme belirteci kullandı. Aynı doğru cevap.
→ 20 kat daha fazla düşünme. 2,5 kat daha yüksek gerçek maliyet. Gemini 3 Flash'ın daha düşük listelenen fiyatına rağmen.
Stanford, nedenselliği ablasyon yoluyla doğruladı. Token maliyetleri kaldırıldığında:
→ Sıralama tersine dönmeleri %70 oranında düşüyor
→ Fiyat-maliyet korelasyonu 0,563'ten 0,873'e yükseliyor
→ MMLUPro'da bazı modeller çıktı tokenlerinin %97,9'una kadarını yalnızca düşünmeye harcıyor
Tüm modellerin tam kıyaslama paketi için gerçek maliyeti:
→ Gemini 3.1 Pro: Liste fiyatı 14$/MTok, gerçek maliyet 1.169$, genel olarak en pahalı model
→ Claude Opus 4.6: Liste fiyatı 30$/MTok, gerçek maliyet Gemini 3.1 Pro'dan 768$ daha ucuz, liste fiyatı 2 kat daha yüksek olmasına rağmen
→ Gemini 3 Flash: Liste fiyatı 3,50$/MTok, gerçek maliyet GPT-5.2'den 643$ daha pahalı
→ GPT-5.2: Liste fiyatı 15,75$/MTok, gerçek maliyet her iki Gemini modelinden de 527$ daha ucuz
→ GPT-5 Mini: Liste fiyatı 2,25$/MTok, gerçek maliyet 53$
→ Claude Haiku 4.5: Listelenen fiyat 6$/MTok, gerçek fiyat 37$, çalıştırılması en ucuz olanlardan biri
→ Tüm 252 karşılaştırmada tersine çevirme oranı: %21,8
→ Özellikle MMLUPro'da tersine çevirme oranı: %32,1, neredeyse her 3 karşılaştırmadan 1'i tersine döndü
→ En kötü tek tersine çevirme: Gemini 3 Flash ile Claude Haiku 4.5 karşılaştırması, listelenen fiyat 1,7 kat daha ucuz, gerçek fiyat 28 kat daha pahalı
Maliyet tahmin problemi daha da kötü.
Stanford, gömülü vektörler, komut satırı uzunluğu ve geçmiş benzerlik kullanarak sorgu göndermeden önce gerçek maliyeti tahmin edip edemeyeceğinizi test etti.
En iyi tahminci, ortalamayı tahmin etmeye kıyasla hatayı yalnızca %23 oranında azalttı.
Gemini 3.1 Pro gibi yüksek varyanslı modellerde, en iyi tahminci bile işe yaramazdı.
Sebep: Varyansın bir kısmı sorguyla ilgili değil.
Aynı AIME problemini GPT-5 Mini üzerinde altı kez çalıştırmak, maliyetlerde 9,7 kata varan farklılıklar ortaya çıkardı.
Aynı komut. Aynı model. Farklı çalıştırmalar.
Düşünme süreci rastgeledir. Fatura rastgeledir. Hiçbir tahminci, modelin içinde yaşayan rastgeleliği düzeltemez.
Fiyatlandırma sayfasındaki fiyat, sizin maliyetiniz değildir.
Akıl yürütme modelleri için, bu durum gerçek maliyete hiç yaklaşmıyor bile.
geminiclaude
favorite10
