Yeni Model Çıktı — Şimdi Ne Yapacaksın?

Geçen Salı sabahı Slack'ten bir mesaj geldi: "GPT-5.5 çıkmış, haberdar oldun mu?"

Haberdar olmuştum. X'te zaten trend'deydi. Benchmark'lar inanılmazdı. Herkes heyecanlıydı.

Ben de heyecanlıyım — ama biraz farklı bir nedenden. Çünkü bu tür duyurular benim için bir kutlama değil, bir karar anı.

Yükselt mi, yükseltme mi?

Kulağa basit geliyor. Yeni model daha iyi, o zaman geç. Mantıklı değil mi?

Değil.

Biz 3 farklı ürünün içinde AI özellikleri kullanıyoruz. Her birinde, mevcut modele göre yazılmış system prompt'lar, ince ayarlı temperature değerleri, özenle test edilmiş output formatları var. Yeni bir modele geçmek şu anlama geliyor: tüm bu davranışların yeniden doğrulanması gerekiyor.

"Davranış değişikliği" denen şey kulağa teknik geliyor. Aslında şu demek: Kullanıcıya her zaman şu şekilde davranan özelliğin, yeni modelde farklı davranması.

Klinik yazılımında bunu yaşadık. Reçete önerileri yapan bir modülde model versiyonunu güncelledik — küçük bir değişiklik, büyük bir şey değil gibi görünüyordu. Bir hafta sonra destek taleplerinde belirgin bir artış oldu. Kullanıcılar "öneri tarzı değişti" diyordu. Yeni model teknik olarak daha yetenekliydi. Ama kullanıcıların alışkanlık haline getirdiği bir çıktı formatı değişmişti.

Eski davranışa dönmek 3 iş günü sürdü.

Kimse bu kararı konuşmuyor

AI konferanslarında şunları konuşuyoruz: ajan mimarisi, RAG, fine-tuning, LLM güvenliği.

Ama şunu konuşmuyoruz: Model upgrade kararı nasıl alınır?

Bu artık bir PM kararı. Ve bunun için geliştirilmiş bir framework yok.

Geliştiriciler modeli güncellemek istiyor — yeni yetenekler cazip, benchmarklar parlak. Müşteri destek ekibi geçiş sürecinin yaratacağı karmaşadan çekiniyor. Ben ortada durup "şimdi mi, sonra mı, hiç mi?" diye düşünüyorum.

Geçen ay bir SaaS entegrasyonu inceliyorduk: model versiyonu "locked" değildi. Yani API tarafında model otomatik güncelleniyordu. Müşteri farkında bile değildi. Ta ki davranış değişene kadar.

Bu artık bir ürün açığı gibi düşünülmeli.

Model lifecycle yönetimi

Yazılım geliştirmede sürüm yönetimi var. Bağımlılık yönetimi var. Deprecation notları var.

AI modellerinde bunlar henüz olgunlaşmamış. Ama bizim olgunlaşmamızı beklemek için lüksümüz yok.

Pratik olarak şunları yapmaya başladık:

Her zaman model versiyonunu lock'la. OpenAI ve Anthropic spesifik sürüm stringlerini destekliyor — gpt-4-turbo-2024-04-09 gibi. Alias kullanma. Alias'lar sessizce güncelleniyor, sen fark etmiyorsun.

Staging'de davranış testi yap. Yeni modeli production'a almadan önce mevcut prompt setini çalıştır. Sadece teknik test değil — davranış testi. Çıktılar aynı hissettiriyor mu? Aynı uzunlukta mı? Aynı formatta mı? Edge case'ler beklendiği gibi mi davranıyor?

Upgrade'i bir feature gibi ele al. Sprint'e gir, kabul kriterleri tanımla, rollout'u planlı yap. "Hızlıca güncelleyelim" yaklaşımı burada işe yaramıyor.

Bunların hepsi kulağa sıradan geliyor. Ama 17 açık destek talebiyle baş başa kaldığında ve sebebin 3 hafta önce yapılan bir model güncellemesi olduğunu fark ettiğinde, sıradanlığı çok farklı görünüyor.

Asıl soru

GPT-5.5 harika olabilir. DeepSeek V4 benchmark'larda üstün gelebilir. Claude Opus her görevi yapabilir.

Ama bunların hiçbiri şu sorunun cevabı değil: Benim ürünümde, bu spesifik kullanım senaryosunda, bu modelin davranışı kullanıcı beklentisiyle örtüşüyor mu?

Bu soruyu sadece sen cevaplayabilirsin. Ve bu soruyu sormak, modeli seçmek kadar önemli.

Yeni bir model çıktığında herkes benchmark paylaşıyor. Kimse "ve şimdi ne yapacağız?" diye sormuyor.

Ben soruyorum.