Bir ürün toplantısında, yaklaşık üç hafta önce, ekipten biri şunu sordu: "GPT mi kullansak, Claude mu?"
Herkes birbirine baktı. Ben de baktım.
Yanıt "hangisi daha iyi?" değildi. Yanıt "ne için daha iyi?" olmalıydı. Ama o odada kimse bunu sormadı.
2022'de bu karar yoktu. Tek seçenek vardı. Şimdi elimde Claude 4, GPT-5, Gemini 2.5 Pro, Llama 4, Mistral Large ve daha düzinelercesi var. Her biri farklı benchmark puanları, farklı fiyat etiketleri, farklı API davranışı, farklı ses tonu.
Ve bu seçim artık sadece teknik değil.
Kimin kararı bu aslında?
Mühendisler entegrasyonu yapıyor. Ama hangi modeli seçtiğin şu üç şeyi doğrudan etkiliyor:
- Kullanıcının ne kadar beklediği
- İşlem başına maliyet — bu da marjını etkiliyor
- Kullanıcının gördüğü şey: çıktı kalitesi, ton, tutarlılık
Bu üçü birden ürün kararı.
Benchmark puanları kullanıcıya ne anlatıyor?
Şunu söyleyeyim: "MMLU Benchmark: 92.3" bir klinik yazılımının kullanıcısına hiçbir şey ifade etmiyor. Kullanıcının umursadığı şey farklı. Sistem doğru soruyu soruyor mu? Özet anlamlı mı? Yoksa saçmalıyor mu?
Geçen Şubat'ta bir iş akışı için iki modeli karşılaştırdık. Model A benchmark'ta %8 daha iyiydi. Model B gerçek kullanıcı testinde %30 daha az hata tetikliyordu ve çok daha doğal hissettiriyordu.
Model B'yi seçtik. Benchmark bize yanlış cevap vermişti. Kullanıcı düzeltti.
Lock-in riski: PM'in görmezden geldiği maliyet
Bugün X modeliyle entegrasyon yapıyorsun. Altı ay sonra o model fiyatını iki katına çıkarıyor ya da API davranışı değişiyor. Ne yapacaksın?
Vendor lock-in'i SaaS dünyası çok iyi biliyor. Ama AI modellerinde buna ekstra bir boyut geliyor.
Model değiştirdiğinde yalnızca teknik entegrasyon değişmiyor. Prompt'ların yeniden yazılması gerekiyor. Tüm çıktı kalite testleri tekrar çalışıyor. Kullanıcıların "AI nasıl davranıyor" beklentisi resetleniyor.
Yani model değişimi bir migration değil, bir revamp.
Persona uyumu meselesi
Her modelin farklı bir üslubu var. Uzun mu kısa mı cevap veriyor, resmi mi samimi mi, ne kadar yaratıcı, ne kadar temkinli — bunlar modelden modele değişiyor.
Ve bu, markanın sesiyle çakışabilir.
Kurumsal, sade bir ürün yapıyorsun ama seçtiğin model uzun, süslü, bazen şakacı metinler üretiyorsa — bir tutarsızlık var demektir. Kullanıcı bunu adlandıramaz ama hisseder. "Bir şeyler garip" der.
PM bu kararı mühendislere devrederken işte tam bu riski gözden kaçırıyor.
Maliyet modeli — gizli katar
Bir PM arkadaşım anlattı: Ürünlerine bir "AI özetleme" özelliği eklediler. Güçlü bir model seçtiler. İlk ay, bu özelliğin maliyeti tüm altyapı maliyetlerinin %40'ına çıktı.
Kimse bunu öngörmemişti. Çünkü fiyatlandırma modeli teknik bir tablodaydı, ürün kararı sürecinde değil.
Model seçimi mühendislik problemi gibi ele alındığında, ekonomik sonuçlar yine de PM'in önüne gelir. Sadece biraz gecikmeli, seçenekler daraldığında.
Yanlış soru ne?
"Hangisi daha iyi?" — yanlış.
Doğrusu şu: "Kullanıcımız bu görevi yaparken ne ister ve hangi model bunu en güvenilir şekilde, mantıklı bir maliyetle verir?"
Bazen cevap daha ucuz, daha hızlı, biraz daha az yetenekli model. Bazen yavaş ama hassas. Bazen aynı üründe iki farklı model — biri arama için, biri üretim için.
Evet, aynı üründe iki model kullanılıyor. Çoğu ekip bunu yapar ama pek itiraf etmez.
PM ne yapmalı?
Model seçimini "mühendisler halleder" kategorisinden çıkar. Roadmap'e yaz. Maliyet modelini anla. Persona uyumunu bizzat test et. Lock-in riskini baştan konuşun.
Bu karar altı ayda bir gündeme gelecek. Hazır olsan iyi olur.