Yapay zekaları kıyaslamak için efsanevi Super Mario kullanılıyor

Yapay zeka modellerinin yeteneklerini ölçmek için farklı benchmark (kıyaslama) testleri kullanılırken, son devirde yeni bir yaklaşım dikkat çekiyor: Super Mario Bros. oynatmak. Kaliforniya Üniversitesi’nde bir araştırma kuruluşu olan Hao AI Lab, tanınan yapay zeka modellerini Üstün Mario Bros. oyununa sokarak test etti ve çarpıcı sonuçlar elde etti.

Yapılan deneyde, Anthropic’in Claude 3.7 modeli en güzel performansı sergilerken, onu Claude 3.5 takip etti. Google’ın Gemini 1.5 Pro ve OpenAI’ın GPT-4o modelleri ise beklenenden düşük bir performans gösterdi.

Düşünen modeller fazla “düşünmenin” kurbanı oldu

Ancak bu test, 1985 üretimi klasik oyunun birebir birebirini kullanmıyordu. Emülatörde çalıştırılan ve GamingAgent isimli özel bir framework ile entegre edilen oyun, yapay zekalara Mario’yu denetim etme imkanı sundu. Bu sistem, “engel yahut düşmanlardan kaçınmak için zıpla” üzere kolay komutlar ve ekran imajları sağlayarak yapay zekaların atak yapmasını sağladı. Modeller, Python kodları üreterek Mario’yu yönlendirdi.

Hao AI Lab’in araştırmacılarına nazaran bu test, yapay zekaların karmaşık hareketleri planlama ve oyun stratejileri geliştirme yeteneğini test etmek için kıymetli. Değişik bir halde, adım adım mantık yürüten “düşünen” modellerin, sezgisel çalışan modellere kıyasla daha başarısız olduğu görüldü. OpenAI’ın o1 modeli, çoklukla birçok kıyaslama testinde güçlü performans sergilese de, burada başarısız oldu.

Bunun temel nedeni, gerçek vakitli oyunlarda karar verme sürecinin suratının kritik olması. o1 üzere yapay zeka modelleri, atılım yapmadan evvel muhakkak bir müddet boyunca “düşünmeye” gereksinim duyuyor. Lakin Üstün Mario Bros.’ta bir saniyelik gecikme bile karakterin vefatıyla sonuçlanabiliyor.

Öte yandan yapay zekalar onlarca yıldır oyunlar üzerinden test ediliyor. Lakin kimi uzmanlar, oyun marifetlerinin yapay zekanın genel zekası yahut teknolojik ilerlemesi hakkında gerçek bir fikir verip vermediğini sorguluyor. Zira oyunlar çoklukla gerçek dünyadan daha soyut, muhakkak kurallara dayalı ve teoride sonsuz ölçüde data sağlayan ortamlar sunuyor.

Bilgi hakkında 1154 makale
Bilgi Paylaştıkça Çoğalır - Bilgiciler.Com -

İlk yorum yapan olun

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*