來源:華爾街見聞
谷歌DeepMind最新基礎(chǔ)世界模型Genie 2登場!只要一張圖,就能生成長達(dá)1分鐘的游戲世界。從此,我們將擁有無限的具身智能體訓(xùn)練數(shù)據(jù)。更有人驚呼:黑客帝國來了。
就在剛剛,谷歌DeepMind的第二代大規(guī)?;A(chǔ)世界模型Genie 2誕生了!
從此,AI可以生成各種一致性的世界,最長可玩1分鐘。
谷歌研究人員表示,相信Genie 2可以解鎖具身智能體的下一波能力。
從第一人稱的真實(shí)世界場景,到第三人稱的駕駛環(huán)境,Genie 2生成了一個(gè)720p的世界。
給定一幅圖像,它就能模擬出世界動(dòng)態(tài),創(chuàng)建一個(gè)可通過鍵盤和鼠標(biāo)輸入的、可操作的一致環(huán)境。
具身智能體的潛力有多大?
在以下這個(gè)Imagen 3生成的世界中,研究者測(cè)試出最新的智能體是否可以遵循語言指令,走到紅門或藍(lán)門。
結(jié)果令人驚喜!
就這樣,現(xiàn)在我們擁有了一條通往無限環(huán)境的道路,來訓(xùn)練和評(píng)估具身智能體了。
研究者創(chuàng)造了一個(gè)有3個(gè)拱門的世界后,Genie 2再次模擬了這個(gè)世界,讓團(tuán)隊(duì)解決了任務(wù)。
對(duì)此,網(wǎng)友們紛紛表示贊嘆:’這項(xiàng)工作實(shí)在是太棒了!今后,我們終于可以將開放式智能體與開放世界模型結(jié)合起來。我們正在朝著近乎無限的訓(xùn)練數(shù)據(jù)體系邁進(jìn)?!?/p>
還有網(wǎng)友表示:‘黑客帝國’的世界,要來了!
為未來的通用智能體,生成無限多樣的訓(xùn)練環(huán)境
作為一種基礎(chǔ)世界生成模型,Genie 2能生成無限多樣的、可操控且可玩的3D環(huán)境,用于訓(xùn)練和評(píng)估具身智能體。
基于一張?zhí)崾驹~圖像,它就可被人類或AI智能體操作了!方式是使用鍵盤和鼠標(biāo)輸入。
在AI研究中,游戲一直扮演著至關(guān)重要的角色。因?yàn)榫哂幸砸巳雱俚奶匦?、?dú)特的挑戰(zhàn)組合以及可衡量的進(jìn)展,游戲成為了安全測(cè)試和提升AI能力的理想環(huán)境。
自Google DeepMind成立以來,游戲一直都是研究的核心——從早期的Atari游戲研究,到AlphaGo和AlphaStar等突破性成果,再到與游戲開發(fā)者合作研究通用智能體。
然而,訓(xùn)練更通用的具身智能體,卻因缺乏足夠豐富和多樣化的訓(xùn)練環(huán)境而受到限制。
但現(xiàn)在,Genie 2的誕生改變了一切。
從此,未來的智能體可以在無限的新世界場景中進(jìn)行訓(xùn)練和評(píng)估了。
交互式體驗(yàn)原型設(shè)計(jì)的新型創(chuàng)意工作流程,也有了全新的可能性。
基礎(chǔ)世界模型的涌現(xiàn)能力
迄今為止,世界模型在很大程度上都受限于對(duì)狹窄領(lǐng)域的建模。
在Genie 1中,研究人員引入了一種生成多樣化二維世界的方法。
而到了Genie 2這一代,在通用性上實(shí)現(xiàn)了重大突破——它能生成豐富多樣的3D世界了。
Genie 2是一種世界模型,這就意味著,它可以模擬虛擬世界,包括采取任何行動(dòng)(如跳躍、游泳等)的后果。
基于大規(guī)模視頻數(shù)據(jù)集進(jìn)行訓(xùn)練后,它像其他生成式AI模型一樣,展現(xiàn)出了各種規(guī)模的涌現(xiàn)能力,例如物體交互、復(fù)雜的角色動(dòng)畫、物理效果、建模、預(yù)測(cè)其他智能體行為的能力等等。
對(duì)于每個(gè)人類與Genie 2互動(dòng)的demo,模型都以由Imagen 3生成的單張圖片作為提示詞輸入,
這就意味著,任何人都可以用文字描述自己想要的世界,選擇自己喜歡的渲染效果,然后進(jìn)入這個(gè)新創(chuàng)建的世界,并且與之互動(dòng)(或者,也可以讓AI智能體在其中被訓(xùn)練或評(píng)估)。
每一步,人或智能體都能通過鍵盤和鼠標(biāo)提供動(dòng)作,而Genie 2會(huì)模擬下一步的觀察結(jié)果。
在長達(dá)一分鐘的時(shí)間里,Genie 2可以生成一個(gè)一致的世界,持續(xù)時(shí)間直接長達(dá)10-20秒!
動(dòng)作控制
Genie 2能夠智能響應(yīng)通過鍵盤按鍵采取的動(dòng)作,識(shí)別角色并正確移動(dòng)。
例如,模型必須計(jì)算出,箭頭鍵應(yīng)該移動(dòng)機(jī)器人,而不是移動(dòng)樹木或云朵。
生成反事實(shí)
Genie 2能夠基于同一個(gè)開始畫面,創(chuàng)造出多個(gè)不同的發(fā)展。
這意味著我們可以為AI訓(xùn)練提供各種‘如果這樣做會(huì)怎樣’的場景。
在下面的這兩行demo中,每個(gè)視頻都會(huì)從完全相同的畫面開始,但人類玩家會(huì)選擇不同行動(dòng)。
長時(shí)間記憶
Genie 2能夠記住那些暫時(shí)離開畫面的場景,并在它們重新進(jìn)入視野時(shí),精確地還原出來。
持續(xù)生成新場景
Genie 2能在過程中實(shí)時(shí)創(chuàng)造出符合邏輯的新場景內(nèi)容,并且可以在長達(dá)一分鐘的時(shí)間內(nèi)保持整個(gè)世界的一致性。
多樣化環(huán)境
Genie 2能夠生成多種不同的觀察視角,比如第一人稱視角、等距視角(45度俯視角)或第三人稱駕駛視角。
3D結(jié)構(gòu)
Genie 2能夠創(chuàng)建復(fù)雜的3D視覺場景。
物體屬性與交互
Genie 2能夠建模各種物體交互,例如氣球爆裂、開門和射擊炸藥桶。
角色動(dòng)畫
Genie 2能夠?yàn)椴煌愋偷慕巧?,制作各種動(dòng)作的動(dòng)畫。
NPC
Genie 2能夠?yàn)槠渌悄荏w建模,甚至與它們進(jìn)行復(fù)雜交互。
物理效果
Genie 2能夠模擬出水面的動(dòng)效。
煙霧
Genie 2能夠模擬煙霧的效果。
重力
Genie 2能夠模擬重力。
光照
Genie 2能夠模擬點(diǎn)光源和方向光。
反射
Genie 2能夠模擬反射、泛光和彩色光照。
基于真實(shí)圖像的模擬
Genie 2還可以將真實(shí)世界的圖像作為提示詞輸入,并模擬出草葉在風(fēng)中搖曳或河水流動(dòng)等場景。
快速創(chuàng)建測(cè)試原型
有了Genie 2,制作多樣化的交互場景就變得簡單了。
研究人員可以快速嘗試新環(huán)境,來訓(xùn)練和測(cè)試具身AI智能體。
例如,下面就是研究人員向Genie 2輸入Imagen 3生成的不同圖像,來模擬操控紙飛機(jī)、飛龍、獵鷹或降落傘等不同的飛行方式。
在這個(gè)過程中,也同時(shí)測(cè)試了Genie處理不同控制對(duì)象動(dòng)作時(shí)的表現(xiàn)。
憑借強(qiáng)大的離散泛化能力,Genie 2可以將概念設(shè)計(jì)圖和手繪草圖轉(zhuǎn)化為可實(shí)際交互的場景。
從而讓藝術(shù)家和設(shè)計(jì)師能夠快速驗(yàn)證創(chuàng)意,提升場景設(shè)計(jì)的效率,并加快相關(guān)研究的進(jìn)度。
以下是由概念設(shè)計(jì)師創(chuàng)作出的一些虛擬場景示例。
AI智能體在世界模型中行動(dòng)
借助Genie 2,研究人員能夠快速構(gòu)建出豐富多樣的虛擬環(huán)境,并創(chuàng)造全新的評(píng)估任務(wù),來測(cè)試AI智能體在從未接觸過的場景中的表現(xiàn)。
下面這個(gè)demo,就是由谷歌DeepMind與游戲開發(fā)者共同開發(fā)的SIMA智能體,它能夠在Genie 2僅通過一張圖片生成的全新環(huán)境中,準(zhǔn)確理解并完成各種指令。
prompt:一張第三人稱開放世界探索游戲的截圖。畫面中的玩家是一名在森林中探索的冒險(xiǎn)者。左邊有一座紅門的房子,右邊有一座藍(lán)門的房子。鏡頭正對(duì)著玩家的身后。#寫實(shí)風(fēng)格 #身臨其境
SIMA智能體的目標(biāo)是,能夠在多樣化的3D游戲環(huán)境中,通過自然語言指令完成各種任務(wù)。
在這里,團(tuán)隊(duì)使用Genie 2生成了一個(gè)包含兩扇門(藍(lán)色和紅色)的3D環(huán)境,并向SIMA智能體提供了打開每扇門的指令。
過程中,SIMA通過鍵盤和鼠標(biāo)來控制游戲角色,而Genie 2負(fù)責(zé)實(shí)時(shí)生成游戲畫面。
打開藍(lán)色的門
打開紅色的門
不僅如此,我們還可以借助SIMA來評(píng)估Genie 2的各項(xiàng)能力。
比如,通過讓SIMA在場景中四處查看并探索房屋背后的區(qū)域,測(cè)試Genie 2是否能夠生成一致性的環(huán)境。
轉(zhuǎn)身
去房子后面
盡管這項(xiàng)研究還處于起步階段,無論是AI智能體的表現(xiàn),還是環(huán)境的生成都還有待提升。
但研究人員認(rèn)為,Genie 2是解決安全訓(xùn)練具身智能體這一結(jié)構(gòu)性問題的路徑,同時(shí)也能夠?qū)崿F(xiàn)通向通用人工智能(AGI)所需的廣度和通用性。
prompt:一個(gè)電腦游戲場景,展示了一座粗獷的石洞或礦洞內(nèi)部。畫面采用第三人稱視角,鏡頭在主角上方俯視著。主角是一位手持長劍的騎士。騎士面前矗立著三座石砌的拱門,他可以選擇進(jìn)入任一道門。透過第一扇門,可以看到隧道內(nèi)生長著散發(fā)熒光的奇異綠色植物。第二扇門后是一條長廊,洞壁上布滿了鉚接的鐵板,遠(yuǎn)處隱約透出令人不安的光芒。第三扇門內(nèi)則是一段粗糙的石階,蜿蜒通向未知的高處。
走上樓梯
去有植物的地方
去中間的門
擴(kuò)散世界模型
Genie 2是一種基于大規(guī)模視頻數(shù)據(jù)集訓(xùn)練的自回歸潛變量擴(kuò)散模型。
其中,視頻的潛變量幀首先先會(huì)由自動(dòng)編碼器進(jìn)行處理,然后被傳遞給一個(gè)基于類似LLM中因果掩碼訓(xùn)練的大規(guī)模Transformer動(dòng)態(tài)模型。
在推理階段,Genie 2可以以自回歸的方式進(jìn)行采樣,逐幀利用單個(gè)動(dòng)作和先前的潛變量幀。期間,無分類器指導(dǎo)(classifier-free guidance)會(huì)被用于提高動(dòng)作的可控性。
值得注意的是,上文中的演示均由未經(jīng)蒸餾的‘滿血版’基礎(chǔ)模型生成,從而充分地展示技術(shù)潛在的能力。
當(dāng)然,也可以實(shí)時(shí)運(yùn)行經(jīng)過蒸餾的版本(distilled version),但輸出質(zhì)量會(huì)相應(yīng)降低。
花絮
除了這些酷炫的demo之外,團(tuán)隊(duì)還在生成過程中發(fā)現(xiàn)了很多有意思的花絮:
在花園里站著發(fā)呆,突然間,一個(gè)幽靈出現(xiàn)了
這位朋友更喜歡在雪場里跑酷,而不是老老實(shí)實(shí)地用滑雪板滑雪
能力越大,責(zé)任越大
致謝
最后,谷歌DeepMind團(tuán)隊(duì)放出了一個(gè)長長的致謝名單。
參考資料:https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
本文來源:新智元,原文標(biāo)題:《剛剛,DeepMind最強(qiáng)‘基礎(chǔ)世界模型’誕生!單圖生1分鐘游戲世界,解鎖下一代智能體》
風(fēng)險(xiǎn)提示及免責(zé)條款
市場有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。
還沒有評(píng)論,來說兩句吧...