Genie 3, yalnızca birkaç kelime veya tek bir görsel aracılığıyla gerçek zamanlı ve tamamen etkileşimli sanal dünyalar yaratabilme yeteneğiyle, teknoloji sektöründe bir devrimin en belirgin örneklerinden biri olarak öne çıkıyor. Bu dünya modeli, bilim kurgu filmlerini geride bırakacak kadar güçlü bir simülasyon kapasitesine sahip. Görsel bütünlüğü, anlık müdahale olanağı ve genişletilmiş hafızasıyla Genie 3, yapay zeka çalışmalarının yanı sıra dijital yaratıcılık alanında da yenilikçi bir çağın başlangıcı olabilir. Google DeepMind tarafından geliştirilen bu model, geçen yılın sonunda tanıtılan Genie 2’nin geliştirilmiş bir sürümüdür ve tek bir görsel veya metin girdisiyle gerçek zamanlı ve etkileşimli simülasyonlar üretebiliyor.
Genie 3, kullanıcının klavye komutlarıyla yönetilebilen 720p çözünürlükte ve saniyede 24 kare hızında sanal dünyalar sunuyor. Yapay zeka için sonsuz eğitim alanı olarak tanımlanan bu sistem, yalnızca oyunlar veya eğlence içeriği üretmekle kalmıyor, aynı zamanda yapay genel zeka (AGI) araştırmalarında önemli bir araç haline geliyor. Gerçek dünya verilerinin sınırlı olması nedeniyle araştırmacılar sentetik verilere yönelirken, dünya modelleri sayesinde sınırsız sayıda etkileşimli ortamda yeni yapay zekaları eğitmek mümkün hale geliyor. Bu yaklaşım, yapay zekanın daha gerçekçi ve karmaşık senaryolarda performans göstermesini sağlayabilir.
Genie 3’ün Farklı Yönleri
Genie 2’nin en büyük zayıf noktalarından biri, yalnızca birkaç saniyelik görsel hafızaya sahip olmasıydı. Genie 3’te bu durum dakikalar seviyesine çıkarıldı, yani model oluşturduğu sanal dünyayı daha uzun süre hatırlayabiliyor. DeepMind, bunu uzun ufuklu hafıza olarak adlandırıyor. Bu özellik sayesinde model, önceki çerçeveleri anımsayarak fizik kurallarını anlamaya başlıyor ve zaman içinde tutarlılık sağlayarak nesnelerin hareketlerini veya bir bardağın masa kenarında devrilme ihtimalini tahmin edebiliyor. Bu yetenek, modelin kendi öğrenim süreciyle ortaya çıkıyor ve araştırmacılar tarafından elle kodlanmıyor. Ayrıca, kullanıcılar ortama anlık olarak yeni nesneler, hava koşulları veya karakterler ekleyebiliyor; DeepMind bu özelliği promptable events yani komutla tetiklenebilen olaylar olarak tanımlıyor.
Mükemmellikten Uzak Bir Sistem
Tüm bu ilerlemelere rağmen Genie 3, henüz mükemmel değil. Gerçek dünya mekanlarını simüle edemiyor ve oluşturulan sahnelerde rastlantısal tutarsızlıklar görülebiliyor. Örneğin, hareket eden insanlar bazen ters yönde yürüyor gibi görünebiliyor veya metinler bozuk çıkabiliyor. Ayrıca, AI ajanlarının bu dünyalarda daha karmaşık görevler üstlenmesi şu an için mümkün değil; ajanlar yalnızca etrafta dolaşabiliyor. Çünkü mevcut ajanlar, simülasyonu değiştirmek için gereken üst düzey muhakeme yeteneğinden yoksun. Ortam değişiklikleri yapılabiliyor ancak bunları gerçekleştiren modelin kendisi, ajanlar değil. DeepMind, çoklu AI ajanlarının etkileşimde bulunabileceği ortamlar üzerinde çalışmalarını sürdürüyor.
Bir diğer kısıtlama ise sürenin sınırlı olması; Genie 3 yalnızca birkaç dakikalık kesintisiz etkileşime izin veriyor. Oysa karmaşık görevlerin eğitimi için saatler süren simülasyonlara ihtiyaç duyuluyor. Şu anda Genie 3, yalnızca sınırlı sayıda araştırmacı ve uzmanın erişimine açık. Google DeepMind, modelin genel kullanıma açılacağı tarihi henüz açıklamadı. Bu tür yüksek işlem gücü gerektiren bir sistemin ticari hale getirilmesi, maliyet ve ölçekleme sorunları nedeniyle zaman alabilir.