DeepSeek-R1 Modeli Halüsinasyon Oranıyla Dikkat Çekiyor

Çinli DeepSeek laboratuvarının geliştirdiği DeepSeek-R1 akıl yürütme modeli, Vectara'nın HHEM 2.1 benchmark'ına göre %14,3 oranında halüsinasyon üretiyor. Bu oran, daha önceki model DeepSeek-V3'ün %3,9'luk halüsinasyon oranının neredeyse dört katı düzeyde. AI agent token'lar alanındaki hızlı büyüme, bu durumun kripto para sektörü için önemli soruları beraberinde getirdi.

Vectara tarafından yapılan testler, R1'in her test koşulunda V3'e göre daha fazla yanlış veya desteklenmeyen bilgi ürettiğini ortaya koydu. Vectara analistleri, R1'in genellikle "fazla yardımcı" davrandığını ve orijinal metinde yer almayan ek bilgiler eklediğini belirtti. Bu eklemeler kendi başına doğru olsa bile halüsinasyon olarak kabul ediliyor ve asılsız içerik, doğru bir cevabın içine gizlenmiş oluyor.

Kripto para piyasasında Virtuals Protocol (VIRTUAL), ai16z (AI16Z) ve aixbt (AIXBT) gibi birçok AI agent token bulunuyor. Bu agent'lar, büyük dil modellerini özel araçlarla donatarak sosyal medyada içerik paylaşabiliyor, trade yönlendirebiliyor ve piyasa analizleri üretebiliyor. Ancak, kullanılan modelin yanlış bir fiyat seviyesi veya kontrat adresi üretmesi durumunda sonuçlar doğrudan zincir üzerinde yansıyabiliyor. Otonomiyet arttıkça risk de beraberinde geliyor.

Meta'nın baş AI bilim insanı Yann LeCun, otoregresif büyük dil modellerinin halüsinasyondan tamamen kurtulamayacağını savunuyor. LeCun'a göre, modelin mimarisi gerçek dünyayı temelden kavrayabilen bir yapıya sahip değil. Diğer laboratuvarlar ise veri geri çağırma, eğitim sonrası ince ayar ve doğrulayıcı modellerle ilerleme kaydettiğini belirtiyor. Ancak, geliştiricilerden gelen raporlar çoğunlukla lider tablolardaki verilerle örtüşüyor.

Kripto agent geliştiricileri için öncelikli konu risk yönetimi. Her model çıktısının bir doğrulama adımından geçtiği tasarımlar daha güvenli görünüyor. Ayrıca, mali kararlarda daha küçük ve temkinli modelleri tercih eden agent'lar da avantaj sağlayabilir. Gelecekteki benchmark çevrimleri ve R1'in ardılları, akıl yürütme ile doğruluk arasındaki dengeyi gösterecek.

Bugün için, DeepSeek-R1'in %14,3 ve DeepSeek-V3'ün %3,9 arasındaki halüsinasyon oranları, AI agent token'lar alanındaki önemli bir tartışma konusunu oluşturuyor.

DOVIZ34.com

DeepSeek-R1 Modeli Halüsinasyon Oranıyla Dikkat Çekiyor

Mehmet Aydın

İlgili Haberler

Kripto Dünyasından Önemli Yönetici Ayrılıkları

Meta, Muse Spark 1.1 ile Rekabete Girdi

MiCA Düzenlemeleri Sonrası AB Kullanıcıları Kendi Cüzdanlarına Yöneliyor

15'ten Fazla Banka Finansmanı Tokenize Ediyor: Bitcoin’e Etkisi Ne Olacak?

ABD Merkez Bankası, Teknoloji Uzmanlarıyla İnceleme Başlatıyor

Viral Tahmin Platformunda Şok: Kripto Tarihinin En Kötü Şakası mı?