下載客戶端

登錄

騰訊發(fā)布新AI模型，一張照片即可生成3D探索世界

2025-09-05 11:39

來源：澎湃新聞·澎湃號·湃客

周二，騰訊發(fā)布了HunyuanWorld-Voyager，這是一款新的開放權(quán)重AI模型，能夠從單張圖像生成3D一致性視頻序列，允許用戶控制攝像機路徑來"探索"虛擬場景。該模型同時生成RGB視頻和深度信息，無需傳統(tǒng)建模技術(shù)即可直接進(jìn)行3D重建。不過，它暫時還無法取代視頻游戲。

生成的結(jié)果并非真正的3D模型，但能達(dá)到類似效果：該AI工具生成的2D視頻幀在空間上保持一致性，就像攝像機在真實3D空間中移動一樣。每次生成僅產(chǎn)生49幀——大約兩秒的視頻，但根據(jù)騰訊介紹，多個片段可以串聯(lián)形成持續(xù)"數(shù)分鐘"的序列。當(dāng)攝像機圍繞物體移動時，物體保持相同的相對位置，視角變化也如真實3D環(huán)境中預(yù)期的那樣正確。雖然輸出的是帶有深度圖的視頻而非真正的3D模型，但這些信息可以轉(zhuǎn)換為3D點云用于重建目的。

該系統(tǒng)通過接受單張輸入圖像和用戶定義的攝像機軌跡來工作。用戶可以通過提供的界面指定攝像機移動，如前進(jìn)、后退、左右移動或轉(zhuǎn)向動作。系統(tǒng)將圖像和深度數(shù)據(jù)與內(nèi)存高效的"世界緩存"相結(jié)合，生成反映用戶定義攝像機移動的視頻序列。

基于Transformer架構(gòu)的所有AI模型都有一個重大限制，即它們本質(zhì)上是模仿訓(xùn)練數(shù)據(jù)中發(fā)現(xiàn)的模式，這限制了它們"泛化"的能力，也就是將這些模式應(yīng)用到訓(xùn)練數(shù)據(jù)中未出現(xiàn)的新情況的能力。為了訓(xùn)練Voyager，研究人員使用了超過10萬個視頻片段，包括來自虛幻引擎的計算機生成場景——本質(zhì)上是教模型模仿攝像機如何在3D視頻游戲環(huán)境中移動。

大多數(shù)AI視頻生成器，如Sora，創(chuàng)建的幀看起來一個接一個地合理，但不試圖跟蹤或保持空間一致性。值得注意的是，Voyager已被訓(xùn)練識別和再現(xiàn)空間一致性模式，但增加了幾何反饋循環(huán)。在生成每一幀時，它將輸出轉(zhuǎn)換為3D點，然后將這些點投影回2D供未來幀參考。

這種技術(shù)迫使模型將其學(xué)習(xí)到的模式與自己先前輸出的幾何一致投影進(jìn)行匹配。雖然這比標(biāo)準(zhǔn)視頻生成器創(chuàng)造了更好的空間一致性，但它仍然本質(zhì)上是由幾何約束引導(dǎo)的模式匹配，而非真正的3D"理解"。這解釋了為什么模型可以保持?jǐn)?shù)分鐘的一致性，但在完整360度旋轉(zhuǎn)時會遇到困難——模式匹配中的小錯誤在許多幀中累積，直到幾何約束無法再保持連貫性。

根據(jù)騰訊的技術(shù)報告，該系統(tǒng)利用兩個主要部分協(xié)同工作。首先，它同時生成彩色視頻和深度信息，確保它們完美匹配——當(dāng)視頻顯示一棵樹時，深度數(shù)據(jù)準(zhǔn)確知道那棵樹的距離。其次，它使用騰訊所稱的"世界緩存"——從先前生成的幀創(chuàng)建的3D點的不斷增長的集合。在生成新幀時，這個點云從新的攝像機角度投影回2D，創(chuàng)建顯示基于先前幀應(yīng)該可見內(nèi)容的部分圖像。模型然后使用這些投影作為一致性檢查，確保新幀與已生成的內(nèi)容對齊。

該發(fā)布增加了來自各家公司日益增長的世界生成模型集合。谷歌的Genie 3于2025年8月宣布，以720p分辨率和每秒24幀從文本提示生成交互式世界，允許數(shù)分鐘的實時導(dǎo)航。Dynamics Lab的Mirage 2提供基于瀏覽器的世界生成，允許用戶上傳圖像并將其轉(zhuǎn)換為具有實時文本提示的可玩環(huán)境。雖然Genie 3專注于訓(xùn)練AI智能體且不公開可用，Mirage 2強調(diào)游戲用戶生成內(nèi)容，但Voyager針對視頻制作和3D重建工作流程，具有RGB-深度輸出能力。

Voyager建立在騰訊7月發(fā)布的早期HunyuanWorld 1.0基礎(chǔ)上。Voyager也是騰訊更廣泛"混元"生態(tài)系統(tǒng)的一部分，該生態(tài)系統(tǒng)包括用于文本到3D生成的Hunyuan3D-2模型和之前介紹過的用于視頻合成的HunyuanVideo。

為了訓(xùn)練Voyager，研究人員開發(fā)了自動分析現(xiàn)有視頻以處理攝像機移動并計算每幀深度的軟件——消除了人類手動標(biāo)記數(shù)千小時素材的需要。該系統(tǒng)處理了超過10萬個視頻片段，來自真實世界錄制和上述虛幻引擎渲染。

該模型需要強大的計算能力才能運行，540p分辨率至少需要60GB GPU內(nèi)存，盡管騰訊建議80GB以獲得更好的結(jié)果。騰訊在Hugging Face上發(fā)布了模型權(quán)重，并包含了適用于單GPU和多GPU設(shè)置的代碼。

該模型有顯著的許可限制。與騰訊的其他混元模型一樣，許可證禁止在歐盟、英國和韓國使用。此外，服務(wù)超過1億月活躍用戶的商業(yè)部署需要騰訊的單獨許可。

在斯坦福大學(xué)研究人員開發(fā)的WorldScore基準(zhǔn)測試中，據(jù)報告Voyager獲得了77.62的最高總分，相比之下WonderWorld為72.69，CogVideoX-I2V為62.15。據(jù)報告該模型在物體控制（66.92）、風(fēng)格一致性（84.89）和主觀質(zhì)量（71.09）方面表現(xiàn)出色，盡管在攝像機控制（85.95）方面排名第二，落后于WonderWorld的92.98。WorldScore跨多個標(biāo)準(zhǔn)評估世界生成方法，包括3D一致性和內(nèi)容對齊。

雖然這些自報告的基準(zhǔn)測試結(jié)果看起來很有希望，但由于涉及的計算需求，更廣泛的部署仍面臨挑戰(zhàn)。對于需要更快處理的開發(fā)者，系統(tǒng)支持使用xDiT框架在多個GPU上進(jìn)行并行推理。在八個GPU上運行的處理速度比單GPU設(shè)置快6.69倍。

考慮到所需的處理能力和生成長時間連貫"世界"的限制，我們可能還需要一段時間才能看到使用類似技術(shù)的實時交互體驗。但正如我們在谷歌Genie等實驗中所看到的，我們可能正在見證一種新的交互式生成藝術(shù)形式的早期步驟。

Q&A

Q1：HunyuanWorld-Voyager是什么？能做什么？

A：HunyuanWorld-Voyager是騰訊發(fā)布的開放權(quán)重AI模型，能夠從單張圖像生成3D一致性視頻序列，允許用戶控制攝像機路徑來"探索"虛擬場景。它同時生成RGB視頻和深度信息，無需傳統(tǒng)建模技術(shù)即可直接進(jìn)行3D重建。

Q2：Voyager生成的是真正的3D模型嗎？

A：不是真正的3D模型，但能達(dá)到類似效果。它生成的2D視頻幀在空間上保持一致性，就像攝像機在真實3D空間中移動一樣。雖然輸出的是帶有深度圖的視頻，但這些信息可以轉(zhuǎn)換為3D點云用于重建目的。

Q3：使用Voyager需要什么硬件配置？

A：該模型需要強大的計算能力，540p分辨率至少需要60GB GPU內(nèi)存，騰訊建議80GB以獲得更好的結(jié)果。對于需要更快處理的用戶，系統(tǒng)支持多GPU并行推理，八個GPU的處理速度比單GPU快6.69倍。

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#AI模型

掃碼下載澎湃新聞客戶端

澎湃矩陣

澎湃新聞微博
澎湃新聞公眾號
澎湃新聞抖音號
派生萬物開放平臺
IP SHANGHAI
SIXTH TONE

新聞報料

報料熱線: 021-962866
報料郵箱: news@thepaper.cn

滬ICP備14003370號

滬公網(wǎng)安備31010602000299號

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：31120170006

增值電信業(yè)務(wù)經(jīng)營許可證：滬B2-2017116

? 2014-2025 上海東方報業(yè)有限公司

反饋

中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

騰訊發(fā)布新AI模型，一張照片即可生成3D探索世界

掃碼下載澎湃新聞客戶端

中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

騰訊發(fā)布新AI模型，一張照片即可生成3D探索世界