Yükleniyor
Gemini API’de Maliyet ve Hız Dengesi: Flex ile Priority
Gemini API’de Maliyet ve Hız Dengesi: Flex ile Priority

Bulut tarafında yıllardır aynı soruyu farklı cümlelerle duyuyorum: “Kaliteyi bozmadan maliyeti nasıl aşağı çekeriz?” Açık konuşayım, bu soru bazen mimariden çok bütçe toplantısı kokuyor (inanın bana). Google’ın Gemini API için getirdiği — ki bu tartışılır — Flex ve Priority inference katmanları da tam buraya dokunuyor. Bir yanda daha düşük maliyet, diğer yanda daha öngörülebilir gecikme… İşin aslı şu ki, herkes tek bir “en iyi” seçeneği arıyor ama gerçek hayat o kadar düz değil.

Ben buna ilk baktığımda aklıma 2024’te bir finans müşterisinde yaptığımız yük testi geldi. Gün içinde birkaç hayatı iş akışı vardı; müşteri hizmetleri ekranı için yanıt süresi önemliydi ama gece çalışan toplu işler aynı sertlikte değildi. O projede yanlış yere premium kaynak basınca fatura gereksiz şişmişti. Sonra oturup trafiği ayırdık, önceliklendirdik ve tablo baya değişti. Siz ne dersiniz? Flex-Priority ayrımı bana işte tam o dersleri hatırlattı.

Bunu biraz açayım.

Neden bu konu şimdi önemli?

Yapay zekâ uygulamalarında maliyet artık sadece “kaç token kullandın” hesabı değil. İstek yoğunluğu, modelin ne kadar hızlı döndüğü, kullanıcı deneyiminin hangi noktada kırıldığı… hepsi işin içine giriyor. Küçük bir startup için bu bazen hayatta kalma meselesi oluyor. Enterprise tarafta işe mesele biraz daha başka: SLA var, uyumluluk var, müşteri beklentisi var, bir de üstüne yöneticinin “neden bu ay yapay zekâ faturası uçtu?” sorusu geliyor.

Google’ın yaptığı hamle bence iyi çünkü herkese tek tip servis dayatmıyor. Flex katmanı daha ekonomik kullanım senaryolarına göz kırparken Priority katmanı can alıcı isteklerde işi sıkı tutmayı hedefliyor. Kağıt üstünde güzel, pratikte göreceğiz bir düşüneyim… artık (buna dikkat edin). Çünkü AI dünyasında özellik duyurusu başka şeydir, gerçek trafik altında davranış başka şeydir.

2019’da kendi lab ortamımda benzer bir şeyi Azure tarafında denemiştim; batch işlemleriyle canlı istekleri aynı kuyruğa koyunca sistem ilk günlerde idare etti ama sonra sapıttı. E tabii, her şey sakın görünürken sorun çıkmıyor zaten… Patlama genelde pazartesi sabahı geliyor (bizzat test ettim). O yüzden bu tür tier yaklaşımı bana mantıklı geliyor.

💡 Bilgi: Flex yaklaşımı genelde maliyet odaklı işler için düşünülür; Priority işe gecikmenin daha hayatı olduğu yerlerde iş görür. Yani biri “ucuz ve yeterince iyi”, diğeri “daha öngörülebilir ve hızlı” çizgisinde duruyor.

Flex ve Priority ne anlatıyor?

Lafı gevelemeden söyleyeyim: Bu model bana buluttaki standart/premium ayrımlarını hatırlatıyor. Her iş yükünü aynı sepete koymazsın. Mesela rapor üretimi yapan bir ajan ile müşteriyle anlık konuşan bir asistanı aynı seviyede çalıştırmak pek akıllıca olmaz. Peki bunu neden söylüyorum? Biri birkaç saniye bekleyebilir, diğeri edemez.

İşte tam da bu noktada devreye giriyor.

Flex, daha gevşek zamanlama toleransı olan işler için mantıklı görünüyor. Yani kısa süreli gecikme sizi üzmüyorsa ya da sonuç biraz sonra gelse de olur diyorsanız burası uygun olabilir. Priority işe adından beklediğiniz gibi öncelikli işlem hattına benziyor; özellikle kullanıcıya dönük uygulamalarda ya da zincirin sonraki adımlarını kilitleyen senaryolarda işe yarar. Bu konuyla ilgili C# 15’te Union Types: Eksik Parça Nihayet Geldi yazımıza da göz atmanızı tavsiye ederim.

Bir de şu var: Bu ayrım sadece teknik değil, ürün tasarımıyla da ilgili. Geçen ay İzmir’de bir e-ticaret ekibiyle konuşurken şunu gördüm; onlar “AI özelliği” diye tek parça düşünmüşlerdi ama aslında iki farklı kullanım profili vardı: ürün açıklaması önerisi ve canlı destek asistanı. İlki bekleyebilir, ikincisi bekleyemez. Aradaki fark para demek. GitHub Copilot Cloud Agent İçin Runner Kontrolü: Kurumsal Düzen yazımızda bu konuya da değinmiştik. Microsoft Agent Framework 1.0: Ajanlar Artık Ciddileşti yazımızda bu konuya da değinmiştik.

Kriter Flex Priority
Maliyet Daha düşük olma eğiliminde Daha yüksek olabilir
Gecikme hassasiyeti Daha esnek Daha öngörülebilir / düşük gecikme odaklı
Kullanım tipi Arka plan işler, batch senaryolar Anlık kullanıcı etkileşimi, can alıcı akışlar
Mimarı etkisi Kuyruklama ile iyi gider SLA ve UX odaklı kurguda öne çıkar

Küçük ekipler neden sevinebilir?

Küçük ekiplerin en büyük derdi genelde tahmin edilebilirliktir. Aylık fatura oynarsa plan şaşar; gecikme artarsa kullanıcı kaçar. Flex burada nefes aldırabilir çünkü her isteğe en pahalı yolu açmak zorunda kalmazsınız (ki bu çoğu kişinin gözünden kaçıyor). Ben olsam önce düşük riskli işleri Flex’e atar, sadece gerçekten önemli çağrıları Priority’ye bırakırım. Copilot Cloud Agent İçin Kurumsal Firewall: Kontrol Sizde yazımızda bu konuya da değinmiştik.

Büyük kurumsal yapılarda mesele neden daha sert?

Büyük kurumlarda durum biraz daha karışık oluyor çünkü tek uygulama yok; onlarca servis birbirine bağlı çalışıyor (bu konuda ikircikliyim). Bir bankacılık projesinde (söylemesi ayıp) bunu çok net gördüm: kredi ön onay ekranı milisaniyelere bakıyordu ama belge özetleme servisi iki saniye geç gelse kimse ölmezdi (tabii mecazi olarak söylüyorum). İşte böyle yerlerde tier seçimi sadece performans değil, yönetişim konusu da oluyor.

Mimarı tarafta nasıl düşünmek lazım?

Açık konuşayım, bu tip seçenekler çıktığında insanlar hemen “hangi tier en iyisi?” diye soruyor. Yanlış soru bu. Doğru soru şu olmalı: Hangi iş akışı hangi toleransa sahip? Çünkü AI çağrısını bir monolit gibi ele alırsanız bütçe de deneyim de dağılıyor.

AZ-305 sınavına hazırlanırken öğrendiğim şeylerden biri hep buydu: doğru servis seçimi kadar doğru dağıtım modeli de önemliydi. Gemini API tarafındaki Flex/Priority fikri de sanki bunun uygulama katmanındaki karşılığı gibi duruyor — ihtiyaca göre yol seçiyorsun, körlemesine değil.

# Basit karar mantığı örneği
if request_type in ["chat", "live_support", "checkout"]:
tier = "priority"
elif request_type in ["summarize", "batch_enrich", "report_generation"]:
tier = "flex"
else:
tier = "flex" # varsayılan ama izlenmeli
print(tier)

Neyse uzatmayalım; asıl mesele şurada bitiyor: gözlemleme yapmadan tier değiştirirseniz elinizde veri yerine his kalır. Ben Logosoft’ta bazı (belki yanılıyorum ama) müşterilerde önce istek başına latency dağılımını çıkartıyorum, sonra fiyat etkisini hesaplıyorum (FinOps refleksi artık otomatikleşti). Çünkü bazen en ucuz seçenek toplamda pahalıya gelir; retry sayısı artar, kullanıcı tekrar dener, sistem yorulur… zincir uzar gider. Daha fazla bilgi için GitHub Issues Araması Değişti: Artık Anlamla Buluyor yazımıza bakabilirsiniz.

Maliyet iyileştirme yaparken tek metrikle hareket etmeyin; gecikme dağılımı, retry oranı ve kullanıcı memnuniyeti birlikte okunmalı.

Sahada ben bunu nasıl okurum?

Bazı yazılar teoride çok temiz durur ama sahada kirlenir — iyi anlamda söylüyorum bunu. Mesela bir sağlık kuruluşunda pilot yaptığımız senaryoda gece çalışan özetleme job’ları vardı; orada Flex gayet mantıklıydı çünkü kimse sonuç için anında bağırmıyordu bilemediniz sabah bakılıyordu zaten! Ama doktor ekranındaki anlık not önerileri için Priority gerekirdi; aksi halde kullanıcı hissi bozuluyordu — bence çok yerinde bir karar —

Bir arkadaşım Londra’da fintech tarafında buna benzer bir kurgu kurduğunu anlattı; üç ay sonunda bazı AI çağrılarını farklı seviyelere bölerek yaklaşık %30 civarı tasarruf ettiklerini söylediğini duydum (doğrudan ölçmedim ama rakam kulağa makul geliyor). Şaşırtıcı olan şu değil mi? Bazen çözüm yeni teknoloji değil, mevcut trafiği düzgün sınıflamak oluyor.

  • Tasarruf istiyorsanız: önce arka plan işleri ayırın.
  • SLA istiyorsanız: hayatı kullanıcı yolculuklarını tanımlayın.
  • Maliyet patlıyorsa: retry ve timeout politikalarını kontrol edin.
  • Ekip küçükse: aşırı karmaşık politika yazmayın; sade tutun.
  • Kurum büyükse: governance olmadan ilerlemeyin.

Bende bıraktığı his ne?

Açıkçası bu tür duyurular beni heyecanlandırıyor ama temkinli de yaklaşıyorum. Çünkü ürün tarafında güzel (söylemesi ayıp) görünen her şey operasyon tarafında aynı rahatlığı vermiyor olabilir. Google burada doğru yönde gidiyor gibi duruyor; yine de gerçek farkı üretimde göreceğiz artık.

E tabii benim kafam hemen güvenlik (şaşırtıcı ama gerçek). Kontrol tarafına da kayıyor — eski alışkanlık işte! Hele bir de de AI servislerini enterprise ortama taşırken hız kadar sınırlar da önemli oluyor (kim neyi çağırdı, hangi veri nereye gitti vb.). Bu yüzden Copilot Cloud Agent için firewall ya da runner kontrolü gibi konuları okuyanlar burada da benzer zihniyeti kurmalı diye düşünüyorum.

Bazen insan tek başına teknik detaya odaklanınca resmin bütçe kısmını unutuyor… sonra ay sonu raporu tokadı atıyor! O yüzden Flex/Priority gibi ayrımların kıymeti büyük olabilir. Sihir değiller; doğru ölçümleme olmadan sadece işim kalırlar geriye.

Kritik kazanımlar nerede toplanır?

Bence üç yerde toplanır: gereksiz pahalı çağrıları azaltmakta, kilit akışlara öncelik vermekte ve ekip içinde ortak dil oluşturmada… yani ürün yöneticisiyle altyapıcı aynı şeyi konuşabiliyor hâle gelirse çok rahat eder herkes (küçük yazdım çünkü çoğu zaman problem iletişimden çıkıyor).

Sıkça Sorulan Sorular

Gemini API’de Flex ne işe yarıyor?

Flex yaklaşımı genelde maliyet odaklı işler için kullanılıyor gibi düşünebilirsiniz. Gecikmeye biraz tolerans varsa arka plan görevlerinde iyi çalışır.

Priority ne zaman tercih edilmeli?

Kullanıcının beklemek istemediği veya SLA baskısının yüksek olduğu akışlarda Priority daha uygun olur. Canlı sohbet ya da checkout adımları buna örnek verilebilir.

Tüm istekleri Priority yapmak mantıklı mı?

Pek değil. Kulağa güvenli geliyor ama fatura ve kapasite tarafında gereksiz yük oluşturabilir.İhtiyaç bazlı seçim yapmak daha sağlıklı.

Küçük startup’lar bu modeli nasıl kullanmalı?

Düşük riskli işleri Flex’e koyup yalnızca kritik yolları Priority’ye almak iyi başlangıç olur.Önce ölçün,sonra genişletin.

Bunu kurumsal mimariye taşırken nelere dikkat edilmeli?

Istek sınıflandırması,gözlemleme,retry politikası ve veri güvenliği birlikte ele alınmalı.Tek başına performans optimizasyonu yeterli olmaz.

Kullandığım/İlgili Yazılar İçin İç Linkler

İçeriği paylaş:

📬 Bu yazıyı faydalı buldunuz mu?

Azure, DevOps ve bulut teknolojileri hakkında güncel içerikler için beni takip edin!

Yorum gönder

Microsoft Azure Çözüm Uzmanı | Bulut Bilişim, Yapay Zekâ, DevOps ve Kurumsal Güvenlik alanlarında 15+ yıl deneyim. Azure, Kubernetes, AI/ML ve modern altyapı mimarileri üzerine yazılar yazıyorum.

SİZİN İÇİN DERLEDİK