AI Özelliği 'Kullanılıyor' — Ama Çalışıyor mu?

Geçen ay bir sprint review'daydım. Ekranda metricler sıralanmış:

"AI öneri özelliği kullanım oranı: %71. Sprint hedefi: %50."

Herkes memnundu. Kutlama bile vardı.

O hafta bir kullanıcı görüşmesi yaptım — bir diş hekimi. "Evet, AI'ın önerisini görüyorum," dedi. "Ama genelde kapatıyorum. Benim işim bu zaten."

İşte o an anladım: "kullanılıyor" rakamı bize hiçbir şey söylemiyor.

Geleneksel metrikler belirli soruları yanıtlar. Feature var mı? Erişilebilir mi? İnsanlar tıklıyor mu?

Bunlar bir buton veya filtre için anlamlıydı. AI output için anlamlı değil.

Kullanıcı AI önerisini her gün görüyor, her gün kapatıyor, hiçbir şey söylemiyor. Sistem bunu "gösterildi" olarak sayıyor. Metric bir puan alıyor. Dashboard yeşil. Ama değer üretildi mi? Hiçbir fikriniz yok.

Yani şu an iyi hissediyorsunuz. Ama iyi hissetmek ile iyi çalışmak arasında dağlar var.

ML dünyasında buna "eval problemi" diyorlar. Ground truth dataset, precision, recall, BLEU score — modelin ne ürettiğini sistematik biçimde değerlendirmek için yöntemler var. Bunlar için ayrı bir disiplin gelişmiş.

PM dünyasında bunun karşılığı neredeyse yok.

Şunu düşünün: Dört ay önce AI feature release ettiniz. O tarihten bu yana 3 model güncellemesi geldi, bir prompt değişikliği yapıldı, bir UI revizyonu geçti. Bu feature şu an doğru çalışıyor mu?

Muhtemelen bilmiyorsunuz.

Birkaç ay önce bir klinik yönetim yazılımında tanı öneri modülü üzerinde çalışırken şunu fark ettim: Doktorlar öneriyi görüyor, genelde hiç dokunmuyor. Kullanım oranı yüksek — çünkü panel her hasta kartında otomatik açılıyor. Aksiyon oranı ise çok düşük. Neredeyse tek haneli bir rakam.

Bu iki sayı arasındaki uçurum her şeyi anlatıyor.

Kullanım oranı: sistem çalışıyor. Aksiyon oranı: değer üretiliyor.

Çoğu ekip birincisini ölçüyor, ikincisini unutuyor. Ve bu kör nokta zamanla büyüyor — çünkü her sprint, her güncelleme, o farkı biraz daha derinleştiriyor.

Peki ne yapmalı?

Örnekleme yap. Ayda bir kez, rastgele 50 AI çıktısı al. Ürün ekibinden biri veya bir domain uzmanı bunları değerlendirsin. Metric değil, insan gözü. Kulağa manuel geliyor — çünkü öyle. Ama başka yol yok. Makine size makineyi değerlendiremez; en azından henüz değil.

Aksiyon oranını izle. AI öneri → kullanıcı aksiyonu. Bu oranın ne olduğunu biliyor musunuz? Bilmiyorsanız, bugün başlayın. Kullanım oranından ayrı bir metric olarak takip edin. İkisi arasındaki fark büyüdükçe alarm çalmalı.

Reddetme nedenini yakala. "Kapat" butonunun hemen yanına küçük bir dropdown: "Bu öneriyi neden kullanmadınız?" — 3 seçenek, tek tıklama. Bu veri onlarca kullanıcı görüşmesinden daha değerli. Çünkü gerçek zamanlı, gerçek bağlamda alınıyor.

Regresyon alarmı kur. Model güncellendiğinde veya prompt değiştiğinde aksiyon oranı düşüyor mu? Bunu görmek için geçmiş baseline'ınız olması lazım. Yoksa değişikliğin ne zaman kötüleştiğini asla anlayamazsınız. Şu anda bu veriye sahip değilseniz, geçmişteki güncelleme tarihlerine bakın ve o tarihlerde metriclerinizde kırılma var mı diye kontrol edin.

Bunların hiçbiri teknik olarak zor değil. Ama geleneksel metrik alışkanlıklarından çıkmayı gerektiriyor — ve bu, implementasyondan daha zor.

Çünkü bir özellik "kullanılıyor" görünürken sorgulamak, ekipte sürünüz etkisi yaratıyor. Herkes memnunken "ama gerçekten çalışıyor mu?" demek kolay değil.

AI feature'ı ship ettiniz. Metric yukarı. Dashboard yeşil. Herkes mutlu.

Ama o feature şu an kullanıcılarınıza gerçekten değer mi üretiyor?

Bu sorunun cevabı varsa, iyi bir ölçüm sisteminiz var. Yoksa, dashboard'unuz sizi iyi hissettiriyor — bu kadar.

Ve bazen bu, hiç ölçmemekten daha tehlikeli.