中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

騰訊發(fā)布新AI模型,一張照片即可生成3D探索世界

2025-09-05 11:39
來源:澎湃新聞·澎湃號·湃客
字號

周二,騰訊發(fā)布了HunyuanWorld-Voyager,這是一款新的開放權(quán)重AI模型,能夠從單張圖像生成3D一致性視頻序列,允許用戶控制攝像機路徑來"探索"虛擬場景。該模型同時生成RGB視頻和深度信息,無需傳統(tǒng)建模技術(shù)即可直接進(jìn)行3D重建。不過,它暫時還無法取代視頻游戲。

生成的結(jié)果并非真正的3D模型,但能達(dá)到類似效果:該AI工具生成的2D視頻幀在空間上保持一致性,就像攝像機在真實3D空間中移動一樣。每次生成僅產(chǎn)生49幀——大約兩秒的視頻,但根據(jù)騰訊介紹,多個片段可以串聯(lián)形成持續(xù)"數(shù)分鐘"的序列。當(dāng)攝像機圍繞物體移動時,物體保持相同的相對位置,視角變化也如真實3D環(huán)境中預(yù)期的那樣正確。雖然輸出的是帶有深度圖的視頻而非真正的3D模型,但這些信息可以轉(zhuǎn)換為3D點云用于重建目的。

該系統(tǒng)通過接受單張輸入圖像和用戶定義的攝像機軌跡來工作。用戶可以通過提供的界面指定攝像機移動,如前進(jìn)、后退、左右移動或轉(zhuǎn)向動作。系統(tǒng)將圖像和深度數(shù)據(jù)與內(nèi)存高效的"世界緩存"相結(jié)合,生成反映用戶定義攝像機移動的視頻序列。

基于Transformer架構(gòu)的所有AI模型都有一個重大限制,即它們本質(zhì)上是模仿訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)的模式,這限制了它們"泛化"的能力,也就是將這些模式應(yīng)用到訓(xùn)練數(shù)據(jù)中未出現(xiàn)的新情況的能力。為了訓(xùn)練Voyager,研究人員使用了超過10萬個視頻片段,包括來自虛幻引擎的計算機生成場景——本質(zhì)上是教模型模仿攝像機如何在3D視頻游戲環(huán)境中移動。

大多數(shù)AI視頻生成器,如Sora,創(chuàng)建的幀看起來一個接一個地合理,但不試圖跟蹤或保持空間一致性。值得注意的是,Voyager已被訓(xùn)練識別和再現(xiàn)空間一致性模式,但增加了幾何反饋循環(huán)。在生成每一幀時,它將輸出轉(zhuǎn)換為3D點,然后將這些點投影回2D供未來幀參考。

這種技術(shù)迫使模型將其學(xué)習(xí)到的模式與自己先前輸出的幾何一致投影進(jìn)行匹配。雖然這比標(biāo)準(zhǔn)視頻生成器創(chuàng)造了更好的空間一致性,但它仍然本質(zhì)上是由幾何約束引導(dǎo)的模式匹配,而非真正的3D"理解"。這解釋了為什么模型可以保持?jǐn)?shù)分鐘的一致性,但在完整360度旋轉(zhuǎn)時會遇到困難——模式匹配中的小錯誤在許多幀中累積,直到幾何約束無法再保持連貫性。

根據(jù)騰訊的技術(shù)報告,該系統(tǒng)利用兩個主要部分協(xié)同工作。首先,它同時生成彩色視頻和深度信息,確保它們完美匹配——當(dāng)視頻顯示一棵樹時,深度數(shù)據(jù)準(zhǔn)確知道那棵樹的距離。其次,它使用騰訊所稱的"世界緩存"——從先前生成的幀創(chuàng)建的3D點的不斷增長的集合。在生成新幀時,這個點云從新的攝像機角度投影回2D,創(chuàng)建顯示基于先前幀應(yīng)該可見內(nèi)容的部分圖像。模型然后使用這些投影作為一致性檢查,確保新幀與已生成的內(nèi)容對齊。

該發(fā)布增加了來自各家公司日益增長的世界生成模型集合。谷歌的Genie 3于2025年8月宣布,以720p分辨率和每秒24幀從文本提示生成交互式世界,允許數(shù)分鐘的實時導(dǎo)航。Dynamics Lab的Mirage 2提供基于瀏覽器的世界生成,允許用戶上傳圖像并將其轉(zhuǎn)換為具有實時文本提示的可玩環(huán)境。雖然Genie 3專注于訓(xùn)練AI智能體且不公開可用,Mirage 2強調(diào)游戲用戶生成內(nèi)容,但Voyager針對視頻制作和3D重建工作流程,具有RGB-深度輸出能力。

Voyager建立在騰訊7月發(fā)布的早期HunyuanWorld 1.0基礎(chǔ)上。Voyager也是騰訊更廣泛"混元"生態(tài)系統(tǒng)的一部分,該生態(tài)系統(tǒng)包括用于文本到3D生成的Hunyuan3D-2模型和之前介紹過的用于視頻合成的HunyuanVideo。

為了訓(xùn)練Voyager,研究人員開發(fā)了自動分析現(xiàn)有視頻以處理攝像機移動并計算每幀深度的軟件——消除了人類手動標(biāo)記數(shù)千小時素材的需要。該系統(tǒng)處理了超過10萬個視頻片段,來自真實世界錄制和上述虛幻引擎渲染。

該模型需要強大的計算能力才能運行,540p分辨率至少需要60GB GPU內(nèi)存,盡管騰訊建議80GB以獲得更好的結(jié)果。騰訊在Hugging Face上發(fā)布了模型權(quán)重,并包含了適用于單GPU和多GPU設(shè)置的代碼。

該模型有顯著的許可限制。與騰訊的其他混元模型一樣,許可證禁止在歐盟、英國和韓國使用。此外,服務(wù)超過1億月活躍用戶的商業(yè)部署需要騰訊的單獨許可。

在斯坦福大學(xué)研究人員開發(fā)的WorldScore基準(zhǔn)測試中,據(jù)報告Voyager獲得了77.62的最高總分,相比之下WonderWorld為72.69,CogVideoX-I2V為62.15。據(jù)報告該模型在物體控制(66.92)、風(fēng)格一致性(84.89)和主觀質(zhì)量(71.09)方面表現(xiàn)出色,盡管在攝像機控制(85.95)方面排名第二,落后于WonderWorld的92.98。WorldScore跨多個標(biāo)準(zhǔn)評估世界生成方法,包括3D一致性和內(nèi)容對齊。

雖然這些自報告的基準(zhǔn)測試結(jié)果看起來很有希望,但由于涉及的計算需求,更廣泛的部署仍面臨挑戰(zhàn)。對于需要更快處理的開發(fā)者,系統(tǒng)支持使用xDiT框架在多個GPU上進(jìn)行并行推理。在八個GPU上運行的處理速度比單GPU設(shè)置快6.69倍。

考慮到所需的處理能力和生成長時間連貫"世界"的限制,我們可能還需要一段時間才能看到使用類似技術(shù)的實時交互體驗。但正如我們在谷歌Genie等實驗中所看到的,我們可能正在見證一種新的交互式生成藝術(shù)形式的早期步驟。

Q&A

Q1:HunyuanWorld-Voyager是什么?能做什么?

A:HunyuanWorld-Voyager是騰訊發(fā)布的開放權(quán)重AI模型,能夠從單張圖像生成3D一致性視頻序列,允許用戶控制攝像機路徑來"探索"虛擬場景。它同時生成RGB視頻和深度信息,無需傳統(tǒng)建模技術(shù)即可直接進(jìn)行3D重建。

Q2:Voyager生成的是真正的3D模型嗎?

A:不是真正的3D模型,但能達(dá)到類似效果。它生成的2D視頻幀在空間上保持一致性,就像攝像機在真實3D空間中移動一樣。雖然輸出的是帶有深度圖的視頻,但這些信息可以轉(zhuǎn)換為3D點云用于重建目的。

Q3:使用Voyager需要什么硬件配置?

A:該模型需要強大的計算能力,540p分辨率至少需要60GB GPU內(nèi)存,騰訊建議80GB以獲得更好的結(jié)果。對于需要更快處理的用戶,系統(tǒng)支持多GPU并行推理,八個GPU的處理速度比單GPU快6.69倍。

    本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機構(gòu)觀點,不代表澎湃新聞的觀點或立場,澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋