從“內(nèi)部世界”到虛擬造物：世界模型的前世今生

經(jīng)濟(jì)觀察報(bào) 關(guān)注 2025-08-21 16:15

文/陳永偉

8月5日，谷歌DeepMind發(fā)布了其新模型——Genie 3。

該模型能夠根據(jù)用戶的文本或圖像提示，實(shí)時(shí)生成可供用戶與AI智能體（AI　Agent）互動(dòng)的3D虛擬環(huán)境。例如，用戶只需輸入“月球上的火山邊”，Genie 3便能即時(shí)生成一片浮動(dòng)的火山、黃色的大地與遠(yuǎn)處的宇宙背景，并允許用戶進(jìn)入探索。

相比此前的AI模型，Genie 3展現(xiàn)出更強(qiáng)的實(shí)時(shí)交互能力，并在互動(dòng)時(shí)長(zhǎng)和記憶連貫性上表現(xiàn)尤為出色。例如，如果用戶在生成的房間墻壁上涂鴉，然后轉(zhuǎn)身探索別處，那么當(dāng)他稍后返回時(shí)，墻上的涂鴉依舊保留。

不僅如此，Genie 3還引入了“可提示的世界事件”（Promptable　World　Events）功能。這允許用戶在交互過(guò)程中，通過(guò)新的文本指令動(dòng)態(tài)改變世界。無(wú)論用戶要求“加入一只奔跑的小狗”“把天氣從晴天變成大雨”，還是“將環(huán)境從海邊變成山上”，Ge-nie 3都能瞬間響應(yīng)。

Genie 3的出色表現(xiàn)不僅刷新了AI生成世界的邊界，也讓人們看到了另一條通向通用人工智能（AGI）的路徑——“世界模型”（World　Model）的希望。一時(shí)間，關(guān)于“世界模型”的討論頻頻見(jiàn)諸媒體。

那么，什么是“世界模型”？它如何實(shí)現(xiàn)？又能為我們帶來(lái)什么？且讓我們一一道來(lái)。

世界模型簡(jiǎn)史

在人工智能領(lǐng)域，許多重要的模型都是模仿人類的某種能力或大腦的某種機(jī)能建立的。例如，卷積神經(jīng)網(wǎng)絡(luò)（CNN）的靈感來(lái)自生物視覺(jué)皮層感受域（receptive　field）的工作方式，Transformer模型則借鑒了人類注意力的聚焦機(jī)制。同樣，世界模型的靈感源自對(duì)人腦一種重要機(jī)制的模仿——在大腦中構(gòu)建并運(yùn)用“內(nèi)部世界”（inner　world）的能力。

設(shè)想一下，你正走在大街上，突然看見(jiàn)一輛汽車急速駛來(lái)。這時(shí)，你會(huì)迅速在腦中進(jìn)行計(jì)算，模擬它在接下來(lái)幾秒的運(yùn)行方向和速度，并判斷是否需要避讓以及向哪個(gè)方向避讓。隨后，你的身體會(huì)根據(jù)大腦的判斷采取行動(dòng)。需要注意的是，此時(shí)你腦中的工作機(jī)制與傳統(tǒng)機(jī)器學(xué)習(xí)有顯著不同——機(jī)器學(xué)習(xí)的判斷依賴于對(duì)大量數(shù)據(jù)的學(xué)習(xí)，這意味著只有在多次遭遇汽車迎面駛來(lái)并積累了統(tǒng)計(jì)經(jīng)驗(yàn)后，才可能得出預(yù)測(cè)。然而，現(xiàn)實(shí)中這種突發(fā)情境極為罕見(jiàn)，人類幾乎不可能僅靠經(jīng)驗(yàn)學(xué)習(xí)來(lái)應(yīng)對(duì)。事實(shí)上，面對(duì)突然駛來(lái)的汽車，人們依靠的往往不是經(jīng)驗(yàn)，而是一種預(yù)測(cè)能力。換言之，你會(huì)在腦中提前“看到”那輛車未來(lái)的位置。這種“在心中演練未來(lái)”的能力，是人類智能最基本、也最奇妙的組成部分。

很早以前，就有人注意到人類構(gòu)建“內(nèi)部世界”的能力。18世紀(jì)，德國(guó)古典哲學(xué)家康德指出，人類的感知從來(lái)不是對(duì)現(xiàn)實(shí)的直接復(fù)制，而是在心靈內(nèi)部通過(guò)某種“先驗(yàn)框架”加以組織和解釋的。從這個(gè)意義上講，我們所見(jiàn)的世界，其實(shí)是自己建構(gòu)的一個(gè)版本。20世紀(jì)，心理學(xué)家皮亞杰進(jìn)一步指出，兒童并非被動(dòng)接收信息來(lái)理解世界，而是通過(guò)不斷嘗試、失敗與重建，在腦中建立起一套關(guān)于世界運(yùn)行規(guī)則的“心理模型”。這些模型使他們能夠預(yù)判事件的后果并指導(dǎo)決策。正因如此，人類才能成長(zhǎng)為擁有計(jì)劃與想象力的存在。

隨著現(xiàn)代認(rèn)知科學(xué)興起，“人類可以不依賴真實(shí)世界輸入而進(jìn)行‘心智模擬’（Mental　Simulation）”這一事實(shí)得到進(jìn)一步證實(shí)。研究還發(fā)現(xiàn)，人腦會(huì)不斷用感官輸入來(lái)驗(yàn)證和修正自己的預(yù)測(cè)，使構(gòu)建的“內(nèi)部世界”愈加接近真實(shí)世界，并用更新的模型持續(xù)模擬現(xiàn)實(shí)、指導(dǎo)行動(dòng)。

人工智能學(xué)科創(chuàng)立之初，專家們便開(kāi)始嘗試模仿人腦的這種能力。例如，維納等人的反饋控制理論強(qiáng)調(diào)，智能體要與環(huán)境交互，必須對(duì)環(huán)境狀態(tài)有內(nèi)部表示。同一時(shí)期，“符號(hào)主義”學(xué)者嘗試用邏輯規(guī)則和知識(shí)圖譜構(gòu)建“世界描述”，并通過(guò)推理機(jī)進(jìn)行決策，在棋類、路徑規(guī)劃等領(lǐng)域取得不少進(jìn)展。20世紀(jì)70年代的Shakey機(jī)器人，就已能在“內(nèi)部地圖”上模擬移動(dòng)與避障。

進(jìn)入20世紀(jì)80年代，隨著統(tǒng)計(jì)學(xué)習(xí)方法的發(fā)展，研究者開(kāi)始用概率模型刻畫環(huán)境動(dòng)態(tài)，并將隱馬爾可夫模型（HMM）、卡爾曼濾波等先進(jìn)統(tǒng)計(jì)方法應(yīng)用于內(nèi)部世界構(gòu)建。這類模型的優(yōu)勢(shì)在于能夠從數(shù)據(jù)中估計(jì)轉(zhuǎn)移概率，減少對(duì)人工規(guī)則的依賴，但缺點(diǎn)同樣明顯——一旦狀態(tài)空間維度上升，模型規(guī)模與計(jì)算量便呈爆炸式增長(zhǎng)，難以適用于圖像、視頻等高維感知輸入。

1989年，理查德·薩頓將強(qiáng)化學(xué)習(xí)與“內(nèi)部世界”思想結(jié)合，提出Dyna架構(gòu)。利用該架構(gòu)，智能體既可以直接從環(huán)境中學(xué)習(xí)策略，也可利用學(xué)到的環(huán)境模型在內(nèi)部進(jìn)行計(jì)劃（plan-ning）。顯然，這一思路正是對(duì)人腦“心智模擬”功能的模仿。

1990年，時(shí)任博士生的人工智能專家于爾根·施密德胡伯（JürgenSchmidhuber）提出，理想的AI模型應(yīng)像人類一樣，對(duì)真實(shí)世界有全面而準(zhǔn)確的認(rèn)知，并能模擬可能發(fā)生的情況。這樣的模型不僅要理解“現(xiàn)在”，還要想象“未來(lái)”；不僅要描述“是什么”，還要推測(cè)“會(huì)變成什么”。它不是傳統(tǒng)的分類器或生成器，而是一種具備“時(shí)間意識(shí)”的智能體。施密德胡伯將這種理想模型命名為“世界模型”，并在博士論文中用循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）構(gòu)建了一個(gè)簡(jiǎn)單版本，“世界模型”一詞由此誕生。

遺憾的是，當(dāng)時(shí)神經(jīng)網(wǎng)絡(luò)并非人工智能的主流方向，加之技術(shù)條件限制，該模型表現(xiàn)并不突出，“世界模型”這一名詞在此后多年傳播有限。直到2018年，施密德胡伯及其合作者發(fā)表題為《世界模型》（WorldModels）的論文，這一概念才被更多人熟知。

這篇論文之所以在多年后引發(fā)關(guān)注，原因多方面：其一，“深度學(xué)習(xí)革命”已經(jīng)發(fā)生，基于神經(jīng)網(wǎng)絡(luò)的模型更易獲得認(rèn)可；其二，論文中的世界模型在性能上顯著優(yōu)于20世紀(jì)90年代的版本。但或許更重要的，是文中那幅漫畫：一個(gè)人正在騎車，而他腦海中也浮現(xiàn)著一個(gè)騎車的人。雖無(wú)一字，卻生動(dòng)呈現(xiàn)了“世界模型”的核心——人在行動(dòng)的同時(shí)，“內(nèi)部世界”正模擬行動(dòng)的可能結(jié)果，并據(jù)此指導(dǎo)行為。所謂“一圖勝千言”，在人工智能領(lǐng)域同樣適用。

隨著“世界模型”思想被接受，眾多研究團(tuán)隊(duì)投入到相關(guān)模型的開(kāi)發(fā)之中。其中，谷歌DeepMind團(tuán)隊(duì)無(wú)疑最引人注目。早在2019年，他們推出了基于模型的智能體PlaNet，能夠直接從圖像學(xué)習(xí)內(nèi)容，構(gòu)建世界模型，并預(yù)測(cè)后續(xù)圖像走向。測(cè)試顯示，它只需觀察前5幀，就能在給定動(dòng)作序列的條件下提前準(zhǔn)確預(yù)測(cè)接下來(lái)50步的發(fā)展。

2020年，DeepMind在PlaNet的基礎(chǔ)上推出改進(jìn)版Dreamer模型，引入遞歸狀態(tài)空間模型（RSSM）等新技術(shù)，使其在預(yù)測(cè)與模擬性能上有顯著提升。進(jìn)入“生成式AI革命”階段，尤其是在OpenAI發(fā)布Sora之后，DeepMind開(kāi)始將世界模型思路應(yīng)用于高質(zhì)量視頻生成，而Genie正是這一工作的產(chǎn)物。與Sora相比，Genie系列在視頻精細(xì)度與流暢性上略有不足，但因其基于世界模型構(gòu)建，交互性遠(yuǎn)優(yōu)于Sora。這一特點(diǎn)，使其應(yīng)用潛力大大超出視頻生成范疇。

世界模型的技術(shù)實(shí)現(xiàn)

從本質(zhì)上講，所謂世界模型，其實(shí)就是AI的“理解引擎”。它的核心原理，用一句通俗的話概括，就是讓機(jī)器先在“心里”排練一遍，再付諸行動(dòng)。那么，如何實(shí)現(xiàn)世界模型呢？雖然技術(shù)細(xì)節(jié)十分復(fù)雜，但總體上可以分為幾個(gè)主要環(huán)節(jié)。

首先是表征學(xué)習(xí)（RepresentationLearning）。在模擬現(xiàn)實(shí)階段，世界模型并不需要額外的數(shù)據(jù)輸入，但在構(gòu)建階段，相關(guān)數(shù)據(jù)是必不可少的。這就好比我們?cè)诖竽X中想象世界之前，必須先對(duì)世界的基本結(jié)構(gòu)有所了解——而要做到這一點(diǎn)，就必須先用眼睛看、用耳朵聽(tīng)，再將這些信息轉(zhuǎn)化為大腦可處理的電信號(hào)。同樣地，在構(gòu)建世界模型時(shí)，AI需要通過(guò)傳感器從外界獲取各種數(shù)據(jù)輸入，這些輸入可以是文本、圖像，也可能是聲音或視頻。接著，AI通過(guò)“表征學(xué)習(xí)”過(guò)程，將這些輸入壓縮成機(jī)器能夠理解的“內(nèi)部語(yǔ)言”。在不同應(yīng)用需求下，“表征學(xué)習(xí)”會(huì)使用不同技術(shù)。例如，在學(xué)習(xí)連續(xù)潛在空間時(shí)常用變分自編碼器（VAE）；在從未標(biāo)注數(shù)據(jù)中提取有意義的視覺(jué)特征時(shí)，則會(huì)用到自監(jiān)督視覺(jué)模型。

接下來(lái)是動(dòng)態(tài)建模（DynamicModelling），這一階段要回答的問(wèn)題是：“如果我現(xiàn)在采取某個(gè)動(dòng)作，比如前進(jìn)一步，世界的狀態(tài)會(huì)發(fā)生什么變化？”AI需要基于已有數(shù)據(jù)和先驗(yàn)知識(shí)，不斷對(duì)可能的未來(lái)場(chǎng)景進(jìn)行模擬。難點(diǎn)在于準(zhǔn)確刻畫現(xiàn)實(shí)世界中的物理規(guī)律。眾所周知，傳統(tǒng)機(jī)器學(xué)習(xí)多半學(xué)到的是相關(guān)性，而非因果關(guān)系，這在模擬中容易出錯(cuò)。例如，按照萬(wàn)有引力定律，物體被拋出后會(huì)在重力作用下下落。但如果AI的訓(xùn)練數(shù)據(jù)只包含拋擲羽毛的情景，它可能會(huì)錯(cuò)誤地“學(xué)習(xí)”到物體不會(huì)下落，而是漂浮空中，從而在模擬中產(chǎn)生荒謬的結(jié)果。解決方法之一，是在模型結(jié)構(gòu)中直接嵌入物理規(guī)律，例如依據(jù)萬(wàn)有引力定律和空氣阻力公式設(shè)計(jì)損失函數(shù)，將其作為訓(xùn)練約束。另一種方法是從數(shù)據(jù)入手，確保訓(xùn)練樣本涵蓋多樣化場(chǎng)景——既包括拋擲羽毛，也包括拋擲鉛球。AI在多樣化的樣本中便可歸納出更普適的規(guī)律，實(shí)現(xiàn)更準(zhǔn)確的建模。只有當(dāng)AI“學(xué)會(huì)”并內(nèi)化了物理定律，構(gòu)建出的模型才具有真正價(jià)值。

第三個(gè)環(huán)節(jié)是控制與規(guī)劃（ControlandPlanning）。在這一階段，AI基于世界模型對(duì)現(xiàn)實(shí)進(jìn)行模擬，并在眾多可能方案中尋找最優(yōu)策略。以躲避汽車為例，這一步就是在成千上萬(wàn)種閃避方式中找到最優(yōu)解。不同場(chǎng)景下，控制與規(guī)劃的方法各不相同。例如，在早期模型中，蒙特卡洛樹(shù)搜索常被用于尋找最優(yōu)策略；而在PlaNet、Dreamer等知名世界模型中，則通過(guò)基于模型的強(qiáng)化學(xué)習(xí)（Model-basedRL）在潛變量空間中進(jìn)行多步規(guī)劃。有些模型還會(huì)在策略優(yōu)化的同時(shí)，反向優(yōu)化“內(nèi)部世界”本身，實(shí)現(xiàn)模型與策略的雙向提升。

最后是結(jié)果輸出。顧名思義，這一環(huán)節(jié)的任務(wù)是將模型“想象”的結(jié)果以可見(jiàn)、可聽(tīng)或可感的形式呈現(xiàn)出來(lái)。對(duì)于許多世界模型（如本文開(kāi)頭提到的Genie）而言，這一步至關(guān)重要。最常見(jiàn)的輸出形式是視頻或圖像序列。實(shí)現(xiàn)這一目標(biāo)，需要將“表征學(xué)習(xí)”過(guò)程反向執(zhí)行——將AI內(nèi)部的表征還原為像素。早期常用基于像素的生成模型，如卷積神經(jīng)網(wǎng)絡(luò)（CNN）解碼器或自回歸模型。較新的方法多采用基于潛在空間的渲染：先在低維潛在空間生成內(nèi)容，再解碼為像素，其效率遠(yuǎn)高于直接像素生成。如果目標(biāo)不僅是“看得見(jiàn)”，還包括“聽(tīng)得到”甚至“可觸摸”，則需引入更多模態(tài)的生成與渲染技術(shù)，這里不再展開(kāi)。

世界模型能做什么

世界模型的出現(xiàn)，究竟能為我們帶來(lái)什么？如果說(shuō)過(guò)去的AI擅長(zhǎng)的是“計(jì)算”“識(shí)別”或“對(duì)話”，那么世界模型則為AI打開(kāi)了一扇新大門——它不僅能夠“看懂世界”，還能夠主動(dòng)“在世界中行動(dòng)”。這種能力，使它可以被應(yīng)用于多個(gè)不同場(chǎng)景。

首先，是與“具身智能”相關(guān)的領(lǐng)域。這里所說(shuō)的“具身智能”范圍更廣，既包括擁有真實(shí)機(jī)械結(jié)構(gòu)的機(jī)器人，也包括虛擬游戲角色等任何具備“身體”的智能體。一旦智能體有了身體，它就可以主動(dòng)移動(dòng)、操作和試探。理論上，我們可以讓它通過(guò)這些行動(dòng)不斷學(xué)習(xí)，像嬰兒通過(guò)抓、摔、跳、爬來(lái)探索世界規(guī)律一樣。然而在現(xiàn)實(shí)中，這種探索往往成本高昂，甚至存在破壞性風(fēng)險(xiǎn)，因此在實(shí)踐中并不可行。比如，雖然理論上可以讓機(jī)器人通過(guò)試錯(cuò)學(xué)習(xí)躲避汽車，但在真實(shí)環(huán)境中，只要出現(xiàn)一次錯(cuò)誤，就可能導(dǎo)致嚴(yán)重?fù)p壞，學(xué)習(xí)自然無(wú)法繼續(xù)。

在這種情況下，世界模型為智能體提供了一個(gè)安全的訓(xùn)練場(chǎng)。AI可以在其中反復(fù)嘗試各種策略，直到找到最佳路徑，再回到現(xiàn)實(shí)世界時(shí)，它已經(jīng)是“經(jīng)驗(yàn)豐富”的行動(dòng)者。顯然，這種訓(xùn)練方式相比傳統(tǒng)方法不僅能顯著降低成本，還能避免大量不必要的事故。施密德胡伯曾將這種在世界模型中進(jìn)行訓(xùn)練的方式形象地稱為“做夢(mèng)”（dreaming），這個(gè)比喻恰當(dāng)?shù)乜坍嬃怂奶攸c(diǎn)。

其次，是“數(shù)字孿生”領(lǐng)域。數(shù)字孿生是指為現(xiàn)實(shí)世界中的實(shí)體（如工廠、城市、港口）等創(chuàng)建高度還原的數(shù)字副本，以此實(shí)時(shí)同步數(shù)據(jù)、預(yù)測(cè)變化。過(guò)去，即便數(shù)字孿生做得再逼真，它也只是一個(gè)被動(dòng)的模型。而有了世界模型的介入，這個(gè)孿生體就能主動(dòng)模擬未來(lái)、預(yù)測(cè)問(wèn)題并實(shí)時(shí)響應(yīng)。它不僅可以預(yù)警設(shè)備故障、識(shí)別倉(cāng)儲(chǔ)流程可能的擁堵，還能提前給出優(yōu)化建議。將世界模型應(yīng)用于數(shù)字孿生，不僅能顯著提升自動(dòng)化水平，還能實(shí)現(xiàn)“感知—預(yù)測(cè)—決策”的一體化躍遷。

第三，是教育與科研領(lǐng)域?？茖W(xué)家可以利用世界模型構(gòu)建虛擬物理實(shí)驗(yàn)室，更精確地預(yù)測(cè)液體流動(dòng)、粒子運(yùn)動(dòng)或電路反應(yīng)；教育者則可以打造交互式虛擬課堂，讓學(xué)生在模擬環(huán)境中親手實(shí)驗(yàn)、探索知識(shí)。隨著世界模型的加入，知識(shí)生產(chǎn)與傳播的效率都將得到顯著提升，整個(gè)知識(shí)產(chǎn)業(yè)鏈有望實(shí)現(xiàn)優(yōu)化升級(jí)。

第四，是游戲和娛樂(lè)領(lǐng)域。在這里，世界模型就像一臺(tái)自動(dòng)生成可玩世界的引擎。玩家不再受限于預(yù)設(shè)場(chǎng)景，而是可以根據(jù)自己的行為、興趣和指令，讓AI實(shí)時(shí)生成全新世界。同時(shí)，虛擬世界中的NPC將具備更高的智能水平，與玩家進(jìn)行更豐富、自然的互動(dòng)，從而大幅提升游戲的沉浸感與可玩性。

如果我們把視野放得更遠(yuǎn)，世界模型甚至可能成為“虛擬社會(huì)”的基礎(chǔ)設(shè)施。一個(gè)高度發(fā)達(dá)的世界模型，或許能夠支撐數(shù)十億人同時(shí)生活、交流和建造的數(shù)字世界。在那里，每一個(gè)人的動(dòng)作與決策，都會(huì)被模型合理接收、反饋并推動(dòng)演化。那時(shí)，世界模型帶來(lái)的將不僅僅是游戲或模擬，而是一種全新的存在方式。

世界模型背后的隱憂

科技的每一次突破，都是一把雙刃劍，世界模型也不例外。當(dāng)它讓AI不再只是識(shí)別現(xiàn)實(shí)，而是能夠“創(chuàng)造”現(xiàn)實(shí)時(shí)，隨之而來(lái)的倫理與治理問(wèn)題正逐漸浮出水面。

第一，世界模型可能進(jìn)一步模糊真實(shí)與虛擬的邊界，引發(fā)“后真相”危機(jī)。它生成的內(nèi)容不僅符合物理規(guī)律，還能與用戶深度交互，帶來(lái)的“真實(shí)感”遠(yuǎn)超當(dāng)前的AI生成物。在這種情況下，“有圖有真相”甚至“有視頻有真相”的時(shí)代將一去不返。一旦被用于詐騙、造謠或政治操縱，其社會(huì)危害將極為嚴(yán)重。

第二，世界模型可能成為行為操控的工具。它不僅能建構(gòu)環(huán)境，還可以通過(guò)環(huán)境反向影響用戶行為。由于虛擬世界足夠逼真，構(gòu)建者完全可以借助物理布局、獎(jiǎng)勵(lì)機(jī)制、劇情走向等方式，潛移默化地引導(dǎo)用戶做出特定選擇。在這種情況下，人們?cè)贏I世界中的“自由選擇”可能并不真正自由。如何抵御商業(yè)誘導(dǎo)、政治宣傳和極端意識(shí)形態(tài)的滲透，在虛擬幻象中守住自我，將成為一大挑戰(zhàn)。

第三，世界模型可能加劇人們對(duì)虛擬世界的沉迷與對(duì)現(xiàn)實(shí)的疏離。它能夠構(gòu)建一個(gè)巨大的“智能烏托邦”——既與真實(shí)世界一樣真實(shí)可交互，又比現(xiàn)實(shí)更美好、更有回報(bào)感。在那里，人們可以輕易獲得完美的社交關(guān)系、理想的職業(yè)和永恒的勝利感。然而，當(dāng)沉浸其中的快感不斷累積，人們面對(duì)現(xiàn)實(shí)的意愿和能力可能逐漸削弱，甚至喪失在現(xiàn)實(shí)世界生存的必要技能，最終被困于虛擬世界。

第四，世界模型可能放大偏見(jiàn)、歧視與社會(huì)固化。為了構(gòu)建逼真的虛擬世界，它會(huì)大量參考現(xiàn)實(shí)世界的數(shù)據(jù)，從而吸收并重現(xiàn)其中根深蒂固的偏見(jiàn)。在AI的放大效應(yīng)下，這些偏見(jiàn)不僅會(huì)被復(fù)制，還可能通過(guò)互動(dòng)灌輸給用戶，使錯(cuò)誤觀念在潛移默化中得以強(qiáng)化。

第五，世界模型的責(zé)任歸屬與治理缺口亟待關(guān)注。當(dāng)模型變得足夠復(fù)雜時(shí)，其生成的內(nèi)容與交互效果往往超出單一開(kāi)發(fā)者的直接控制。這帶來(lái)一個(gè)棘手問(wèn)題：一旦虛擬世界出現(xiàn)傷害性后果，責(zé)任應(yīng)由誰(shuí)承擔(dān)？例如，用戶在虛擬世界中受到心理傷害，或被誘導(dǎo)做出危險(xiǎn)行為，責(zé)任在模型構(gòu)建者、平臺(tái)運(yùn)營(yíng)方，還是用戶自身？又如，當(dāng)AI在虛擬訓(xùn)練中學(xué)會(huì)不良策略并在現(xiàn)實(shí)中重現(xiàn)，應(yīng)追責(zé)于模型設(shè)計(jì)者、應(yīng)用方，還是數(shù)據(jù)提供者？這些問(wèn)題目前尚無(wú)明確答案，但隨著世界模型的普及，遲早必須直面。

綜上，世界模型雖具有巨大的應(yīng)用潛力，但其伴生風(fēng)險(xiǎn)同樣不容忽視。唯有提前建立倫理、法律與技術(shù)的多重防護(hù)，才能確保這項(xiàng)技術(shù)真正造福人類。

世界模型是通往AGI的必由之路嗎

世界模型之所以在近期引發(fā)高度關(guān)注，除了其潛在應(yīng)用廣泛外，還有一個(gè)重要原因：不少人工智能專家認(rèn)為，它才是通向“通用人工智能”（AGI）的正確道路。Meta首席AI科學(xué)家、2018年圖靈獎(jiǎng)得主楊立坤（YannLeCun）多次公開(kāi)表示，世界模型不僅重要，而且?guī)缀醪豢苫蛉薄Ｋ赋?，?dāng)今的大語(yǔ)言模型（LLM）雖能在語(yǔ)言空間中生成連貫文本，但從本質(zhì)上看，它們?nèi)狈?duì)現(xiàn)實(shí)世界的連續(xù)表征和物理一致性推理能力。人類之所以能在復(fù)雜環(huán)境中高效學(xué)習(xí)與適應(yīng)，關(guān)鍵在于能在大腦中構(gòu)建對(duì)真實(shí)世界的模擬，并在內(nèi)部模型中進(jìn)行“離線思考”。這種能力不僅顯著降低了試錯(cuò)成本，還能幫助我們更好地應(yīng)對(duì)未知情境，實(shí)現(xiàn)知識(shí)的跨領(lǐng)域遷移。從目前來(lái)看，只有世界模型能夠模擬人類的這一能力。因此，如果希望AI的能力接近甚至超越人類，世界模型或許是必經(jīng)之路。

楊立坤的觀點(diǎn)在AI界收獲了不少支持，但也遭到同樣多的質(zhì)疑。一部分強(qiáng)調(diào)“端到端學(xué)習(xí)”和“規(guī)模驅(qū)動(dòng)”的研究者，對(duì)這一觀點(diǎn)持謹(jǐn)慎甚至懷疑態(tài)度。在他們看來(lái)，盡管世界模型有其價(jià)值，但AGI未必需要顯式的世界模型，更談不上是“必由之路”。例如，Deep－Mind創(chuàng)始人、2024年諾貝爾化學(xué)獎(jiǎng)得主德米斯·哈薩比斯（DemisHassabis）就指出，大規(guī)模無(wú)模型（Model-free）方法在一些復(fù)雜任務(wù)中已取得令人矚目的成績(jī)——AlphaGoZero、AlphaStar等系統(tǒng)并沒(méi)有顯式的物理世界建模，卻在多個(gè)領(lǐng)域表現(xiàn)超越人類。因此，通過(guò)類似方法模仿、逼近甚至超越人類能力，實(shí)現(xiàn)AGI并非不可能。

與此同時(shí)，還有學(xué)者質(zhì)疑世界模型本身的發(fā)展?jié)摿ΑＫ麄冋J(rèn)為，首先，顯式的物理世界建模容易受到建模誤差的限制，多步預(yù)測(cè)中的累積偏差可能嚴(yán)重影響規(guī)劃質(zhì)量，從而削弱模型性能，甚至不如普通神經(jīng)網(wǎng)絡(luò)。其次，如果目標(biāo)環(huán)境過(guò)于復(fù)雜，在潛在空間中構(gòu)建準(zhǔn)確、穩(wěn)定的世界模型所需成本將極為高昂，此時(shí)直接依賴強(qiáng)大的策略網(wǎng)絡(luò)擬合最優(yōu)行為，反而可能更具性價(jià)比。

除“世界模型派”和“反世界模型派”外，還有學(xué)者主張中間路線。他們認(rèn)為，AGI未必依賴單一、統(tǒng)一的世界模型，而可以通過(guò)“隱式建?！鲍@得類似能力。許多現(xiàn)代大語(yǔ)言模型和多模態(tài)模型在訓(xùn)練過(guò)程中，實(shí)際上已經(jīng)學(xué)會(huì)了某種世界知識(shí)的結(jié)構(gòu)化表示——這種表示并非工程師顯式構(gòu)建的物理引擎，而是以海量數(shù)據(jù)訓(xùn)練結(jié)果隱含在參數(shù)空間中。這種“參數(shù)即世界”的方式雖然可解釋性較差，但在推理、預(yù)測(cè)、規(guī)劃等任務(wù)中依然能展現(xiàn)出一定的世界理解。例如，GPT類模型可以通過(guò)多輪對(duì)話推演事件邏輯，甚至在虛擬物理場(chǎng)景中給出連貫結(jié)果。換言之，即使在模型設(shè)計(jì)時(shí)未預(yù)先植入物理規(guī)律，它們依然可能通過(guò)學(xué)習(xí)自行抽取這些規(guī)律。因此，中間路線派認(rèn)為，顯式物理建模并非實(shí)現(xiàn)世界模型的唯一途徑。

那么，哪一種觀點(diǎn)更有道理？這在很大程度上取決于我們?nèi)绾味xAGI，以及如何理解“必由之路”。在AI圈內(nèi)，對(duì)于AI的目標(biāo)本就存在分歧：有學(xué)者認(rèn)為，AI的目標(biāo)是讓機(jī)器像人一樣思考和行動(dòng)；也有人認(rèn)為，目標(biāo)是讓機(jī)器像人類一樣完成任務(wù)，而不必在機(jī)制上與人類相同?；诓煌睦斫?，AGI的定義也有所不同：如果目標(biāo)是讓機(jī)器像人類一樣行動(dòng)，那么模擬人類構(gòu)建“內(nèi)部世界”的能力就必不可少；如果目標(biāo)只是讓機(jī)器在任務(wù)表現(xiàn)上不遜于人類，那么是否使用世界模型就不是必須。相比一刀切地依賴世界模型，根據(jù)任務(wù)性質(zhì)選擇最適合的技術(shù)路徑，或許才是更為務(wù)實(shí)的通向AGI之路。

結(jié)語(yǔ)

幾千年來(lái)，人類一直在追問(wèn)一個(gè)問(wèn)題：世界是如何運(yùn)作的？從古代神話中的創(chuàng)世之神，到近代物理學(xué)的牛頓與愛(ài)因斯坦；從文學(xué)中的烏托邦，到哲學(xué)中的“物自體”與“現(xiàn)象界”，我們始終渴望理解世界的規(guī)律、命運(yùn)與可能性。而今天，當(dāng)人工智能開(kāi)始嘗試“創(chuàng)造”一個(gè)世界，它實(shí)際上也在加入這場(chǎng)古老的對(duì)話。

世界模型不僅是一種AI工具，更是一次對(duì)“認(rèn)知本身”的挑戰(zhàn)。它不僅試圖再現(xiàn)世界的外觀，更力圖理解其機(jī)制、因果的流動(dòng)，以及行動(dòng)與反饋之間的微妙關(guān)系。從這個(gè)意義上看，無(wú)論它最終能否引領(lǐng)我們走向AGI，也無(wú)論它能帶來(lái)多少直接應(yīng)用，其探索價(jià)值都不可低估。

免責(zé)聲明：本文觀點(diǎn)僅代表作者本人，供參考、交流，不構(gòu)成任何建議。