下載客戶端

登錄

最懂表演的視頻大模型開源，AI短劇迎來“DeepSeek時刻”

2025-02-19 16:42

來源：澎湃新聞·澎湃號·湃客

原創(chuàng) 趙健甲子光年

昆侖萬維發(fā)布國內(nèi)首個面向AI短劇的開源視頻大模型。

作者｜趙健

編輯｜栗子

做通用場景還是垂直場景，這是AI大模型最基本的選擇題。

現(xiàn)在市面上的視頻大模型基本都是通用模型，可以根據(jù)提示詞生成任意場景的視頻。但也有一些視頻大模型從離應用場景更近的垂直領(lǐng)域切入，比如字節(jié)跳動近期發(fā)布Goku，聚焦在數(shù)字人直播帶貨。

而今天昆侖萬維剛剛發(fā)布的SkyReels-V1，則是中國首個面向AI短劇創(chuàng)作的視頻生成大模型。昆侖萬維在去年12月上線AI短劇平臺SkyReels，SkyReels-V1將為該平臺提供大模型能力。

根據(jù)「甲子光年」的實際觀察和體驗，不夸張的說，SkyReels-V1是市面上“最懂表演”的視頻大模型，在人物微表情、動作細節(jié)、場景、畫面構(gòu)圖、運鏡等影視級要求的表現(xiàn)效果上獨樹一幟，能夠生成媲美“影帝影后級別”的表演鏡頭。

與SkyReels-V1一同發(fā)布的還有SkyReels-A1，是昆侖萬維自研的首個SOTA級別的基于視頻基座模型的表情動作可控算法。

更為重要的是，SkyReels-V1與SkyReels-A1都是開源模型，任何用戶都可以按照開源協(xié)議下載使用。開源地址：

https://github.com/SkyworkAI/SkyReels-V1

https://github.com/SkyworkAI/SkyReels-A1

https://skyworkai.github.io/skyreels-a1.github.io/report.pdf

如果說DeepSeek R1是給文本大模型，尤其是推理模型樹立了開源模型新標桿，那么昆侖萬維的SkyReels-V1和SkyReels-A1就是在蓬勃發(fā)展的AI短劇市場樹立了開源模型新標桿。在SkyReels-V1和SkyReels-A1的加持下，AI短劇市場有望迎來DeepSeek時刻。

1.“最懂表演”的視頻大模型

SkyReels-V1是受益于開源社區(qū)并回饋開源社區(qū)的大模型，它是在騰訊去年12月開源的混元視頻大模型HunYuan-Video的基礎(chǔ)上訓練而來。

開源模型雖然在通用任務上表現(xiàn)出色，但并非拿來即用，尤其是在特定領(lǐng)域或細分任務上的表現(xiàn)可能無法達到最佳效果。因此，模型廠商在實際的模型訓練中還涉及大量的微調(diào)、推理優(yōu)化、安全對齊等相關(guān)工作。

目前AI短劇市場中的視頻大模型普遍存在一些不足，最典型的就是人物生成表情空洞，甚至宛如智障。昆侖萬維希望突破這些痛點。

模型訓練是讓大模型學會知識與能力的核心環(huán)節(jié)。在訓練過程中，昆侖萬維需要教會SkyReels-V1“如何學會表演”。這其中最核心的技術(shù)貢獻有兩點：

首先是數(shù)據(jù)清洗與標注，這是模型微調(diào)的關(guān)鍵所在。就像教師教學時需要用到的教材一樣，昆侖萬維基于自研的高質(zhì)量數(shù)據(jù)清洗和人工標注管線，構(gòu)建了千萬級的高質(zhì)量電影、電視劇、紀錄片數(shù)據(jù)，這是模型要學習的“教材”。

但光有“教材”還不夠，還要對模型做進一步的指導。為此，昆侖萬維自研了Human-Centric（以人物為中心的）視頻理解多模態(tài)大模型，大幅提升視頻中人物相關(guān)的理解能力。

這套基于視頻理解多模態(tài)大模型所構(gòu)建的人物智能解析系統(tǒng)，在影視化的表情識別、人物空間位置感知、行為意圖理解、表演場景理解等不同層次的表演上，都能達到“影帝級別”的人物表演。

什么是“影帝級別”？

比如，SkyReels-V1可以生成影視級人物微表情表演，支持33種細膩人物表情與400+種自然動作組合，高度還原真人情感表達。

再比如，SkyReels-V1還學會了電影級光影美學?；诤萌R塢級的高質(zhì)量影視數(shù)據(jù)訓練，生成的每一幀畫面，在構(gòu)圖、演員站位、相機角度等都具備電影級的質(zhì)感。

盡管SkyReels-V1是一個開源模型，但卻有媲美海螺AI、可靈AI等閉源模型的效果。給出同樣的提示詞，SkyReels-V1、海螺AI、可靈AI的生成效果分別如下：

提示詞：一張棕色頭發(fā)女性的照片，華麗的紅色染色眼鏡和深紅色口紅。她朝著前方揮了揮手，先是微笑，然后大笑。

SkyReels-V1：

海螺AI：

可靈AI：

提示詞：戲劇性的正面特寫鏡頭揭示了一位深海潛水員戴著老式銅制潛水頭盔的面容。頭盔厚厚的圓形玻璃提供了清晰視野，可以看到他平靜的表情。微小的氣泡在頭盔內(nèi)向上飄浮，水滴附著在內(nèi)壁上。他小心翼翼地捧著一本敞開的書，書頁在海底水流中輕輕飄動。這本書看起來干燥完好，與周圍的水環(huán)境形成鮮明對比。柔和的陽光束穿透水面，照亮了他的臉龐，并在書頁上灑下金色光芒。魚兒在周圍游動，顏色因深度而變得柔和，但在藍綠色背景前依然生動。潛水員專注地閱讀著文本，盡管身處水下，卻完全沉浸在閱讀中。文學與海洋深處的超現(xiàn)實結(jié)合營造出夢幻般的氛圍，突出了在最意想不到的地方追求知識的追求。

SkyReels-V1：

海螺AI：

可靈AI：

從實際效果不難發(fā)現(xiàn)，無論是在畫面清晰度與人物表演方面，SkyReels-V1都有媲美閉源模型的能力。甚至在一些細節(jié)處理效果上（例如頭發(fā)絲的動態(tài)）要比閉源模型更強。

SkyReels-V1文生視頻指標對比（來源：昆侖萬維SkyReels）

此外，SkyReels-V1不僅支持文生視頻，也支持圖生視頻的能力，是開源模型中最大的支持圖生視頻的模型。

我們將春節(jié)檔最熱電影《哪吒之魔童鬧?！分猩钊肴诵牡耐翐苁髣≌瞻l(fā)給SkyReels-V1，并給定提示詞：土撥鼠抬起頭停頓了一秒，然后大吼大叫。生成的效果讓人驚艷：

可以說，SkyReels-V1就是當前市場上最懂表演的視頻大模型。

2.自研推理框架

做人人用得起的開源模型

更為難得的是，SkyReels-V1作為一款開源模型，不但在生成效果層面實現(xiàn)了大幅突破，而且有非常高的推理效率。這來源于昆侖萬維自研的推理框架SkyReels-Infer。

自研推理框架有什么意義？

通常來說，開源模型不會針對推理框架做優(yōu)化，尤其是在大規(guī)模應用場景中。但如果不針對推理框架做優(yōu)化，無論是推理效率還是推理成本，對于用戶體驗來說都并不友好。

最典型的案例是，2024年初OpenAI剛發(fā)布Sora時，有用戶爆料Sora生成一分鐘視頻需要一小時，這也是Sora在發(fā)布后時隔近一年才正式上線的重要原因之一。時至今日，仍然有很多視頻大模型存在排隊等待時間過長的問題。

但昆侖萬維的自研推理框架SkyReels-Infer不僅保持了高性能，還特別注重效率和易用性。

SkyReels-Infer的推理速度之快，堪稱一絕。在單臺RTX4090顯卡上生成一個544P分辨率的視頻，僅需80秒。你可能走了個神，或者看了一眼手機，視頻就完成了。

SkyReels-Infer支持分布式多卡并行計算。這是一項非常強大的技術(shù)。簡單來說，就是可以讓多張顯卡一起協(xié)同工作，共同完成視頻生成任務。

通過Context Parallel（上下文并行）、CFG Parallel（分類器自由引導并行）和VAE Parallel（變分自編碼器并行）等技術(shù)，這些顯卡能夠像一個團隊一樣，各自分工合作，從而進一步提升處理速度。這種技術(shù)特別適合需要大規(guī)模計算的場景，比如制作復雜的動畫、特效視頻等。

SkyReels-Infer在低顯存優(yōu)化方面也表現(xiàn)出色。它采用了 fp8 量化和參數(shù)級卸載技術(shù)，這使得即使顯存較小的普通顯卡也能流暢運行。

顯存是顯卡的一個重要參數(shù)，它決定了顯卡能夠同時處理的數(shù)據(jù)量。以往，很多視頻生成模型對顯存要求較高，普通用戶可能因為顯卡性能不足而無法使用。但SkyReels-Infer的低顯存優(yōu)化改變了這一現(xiàn)狀。換句話說，用戶不再需要購買高端顯卡，也能輕松使用視頻生成模型。這大大降低了使用門檻，讓更多人能夠享受到AI視頻生成的樂趣。

最后，SkyReels-Infer基于開源的Diffuser庫開發(fā)。Diffuser庫是一個非常優(yōu)秀的開源庫，它提供了許多強大的功能和工具。SkyReels-Infer基于這個庫開發(fā)，繼承了它的優(yōu)點。對于開發(fā)者來說，這意味著他們可以快速上手，輕松地將SkyReels-Infer集成到自己的項目中。

具體表現(xiàn)如何？昆侖萬維用SkyReels-Infer推理框架版本的SkyReels-V1與騰訊官方開源版的HunYuan-Video做了一次性能測試對比。測試結(jié)果顯示，SkyReels-V1在生成544p視頻時，速度比HunYuan-Video速度更快，延遲更低。

不僅如此，SkyReels-V1支持多卡部署策略，可以同時使用8張顯卡來加速任務，而且同時支持A800這樣的高端顯卡以及RTX4090這樣的普通顯卡，同時滿足了專業(yè)用戶與普通用戶的需求。

借助SkyReels-Infer的能力，昆侖萬維進一步降低了視頻大模型的推理成本和使用體驗，真正實現(xiàn)了人人都能用得起、用得好的AI視頻模型。AI短劇市場的發(fā)展也必然會被推向新一波高潮。

3.算法開源，業(yè)內(nèi)最優(yōu)的“AI換臉”玩法

值得一提的是，在訓練、推理環(huán)節(jié)之后，為了實現(xiàn)更加精準可控的人物視頻生成，昆侖萬維還進一步開源了基于視頻基座模型的表情動作可控算法SkyReels-A1。

SkyReels-A1是一個在訓練、推理底層技術(shù)之上的應用層算法，對標Runway的Act-One，能夠?qū)崿F(xiàn)電影級別的表情捕捉。

Runway的Act-One與昆侖萬維的SkyReels-A1的基本玩法就是“AI換臉”：準備一張人物A的照片和人物B的視頻，然后將人物B的表情、動作、臺詞等直接移植到人物A上。

在ID Similarity（身份相似度）、Image Quality（圖像質(zhì)量）、Expression（表情）和Pose（姿勢）等表現(xiàn)效果上，SkyReels-A1相比于業(yè)內(nèi)同類型的開源算法取得了SOTA（State of the Art，最前沿）級別的效果，同時與閉源的Act-One接近，且生成質(zhì)量更好。

當然，數(shù)值上的對比顯然不如視頻畫面來的直觀。我們依然用視頻說話。

首先，SkyReels-A1可以實現(xiàn)視頻驅(qū)動的電影級表情捕捉，相比Runway Act-One實現(xiàn)了更大幅度的人物表情驅(qū)動。

其次是高保真微表情還原。SkyReels-A1能夠基于任意人體比例（包括肖像、半身及全身構(gòu)圖）生成高度逼真的人物動態(tài)視頻。這種真實感來自于對人物表情變化和情緒的精準模擬、皮膚肌理、身體動作跟隨等多維度細節(jié)的深度還原。

比如側(cè)臉的表情控制生成：

以及更加逼真的眉眼微表情生成：

除了微表情，對于不少視頻生成模型都容易出錯的人臉保持和大幅動作處理上，SkyReels-A1也比Runway Act-One更加出色。

例如下面這個案例中，最右邊的人物有明顯變樣失真，和原始人物形象不一致。

SkyReels-A1還可以實現(xiàn)更大幅度的頭部和自然身體動作。在下面這個案例中，最右邊的身體幾乎沒有任何運動。

從實際效果不難發(fā)現(xiàn)，SkyReels-A1這套算法通過簡化傳統(tǒng)復雜的視頻制作流程，為創(chuàng)作者提供了高效、靈活且低成本的解決方案，適用于多種創(chuàng)意內(nèi)容的制作。

4.AI短劇市場的DeepSeek時刻

SkyReels-V1與SkyReels-A1的開源只是昆侖萬維視頻大模型開源計劃的第一步。未來，昆侖萬維還會繼續(xù)開源相關(guān)技術(shù)，包括專業(yè)級運鏡控制版本、720P分辨率的模型參數(shù)、更大規(guī)模訓練數(shù)據(jù)集訓練的模型參數(shù)、支持全身可控生成的視頻生成算法等等。

事實上，開源一直都是昆侖萬維的基因。要知道，昆侖萬維董事長兼CEO方漢擁有30年的互聯(lián)網(wǎng)從業(yè)經(jīng)驗，是中文Linux奠基人、中文Linux四劍客之一、國內(nèi)最早的網(wǎng)絡安全專家。方漢自1994年開始參與和倡導開源運動，屬于互聯(lián)網(wǎng)領(lǐng)域很早就倡導開源的人士。

方漢曾表示，開源大模型是商業(yè)閉源大模型的一個有力補充和替代，希望通過開源促進技術(shù)民主化、降低行業(yè)門檻。

早在2022年12月，昆侖萬維就發(fā)布了「昆侖天工」AIGC全系列算法與模型，并宣布模型開源。昆侖萬維不僅是國內(nèi)AIGC領(lǐng)域布局最為全面的公司之一，也是國內(nèi)第一個全身心投入到AIGC開源社區(qū)的公司。

在過去三年中，昆侖萬維陸續(xù)發(fā)布天工系列大模型并開源。2024年4月發(fā)布并同步開源的天工大模型3.0是一個4000億參數(shù)的MoE超級模型，性能超同期的Grok1.0。去年6月，昆侖萬維又開源2千億稀疏大模型天工MoE，是首個支持用單臺 4090 服務器推理的開源千億MoE大模型；11月，開源了Skywork-o1-Open等模型。

昆侖萬維秉承開源技術(shù)信仰，為全行業(yè)實現(xiàn)AGI夢想而努力。

昆侖萬維從2020年開始進入AI領(lǐng)域，目前已經(jīng)完成了“算力基礎(chǔ)設施——大模型算法——AI應用”的全產(chǎn)業(yè)鏈布局，并構(gòu)建了多元化的AI業(yè)務矩陣。

其中，AI短劇就是其多元化AI矩陣應用的一個細分領(lǐng)域。

AI短劇是一個新興市場，在2025年呈現(xiàn)出高速增長態(tài)勢。根據(jù)TikTok for Business發(fā)布的《2024短劇出海營銷白皮書》，預計未來海外月均短劇用戶規(guī)模將達到2-3億，市場規(guī)模有望達到100億美元，仍存在高增長潛力。

昆侖萬維于2024年12月在美國上線Skyreels AI短劇平臺，這標志著昆侖萬維在全球AI娛樂市場的進一步擴張，同時也將為北美觀眾帶來全新的智能短劇體驗。SkyReels AI短劇平臺不僅為專業(yè)內(nèi)容創(chuàng)作者提供了強大的創(chuàng)作工具，更極大地降低了AI短劇創(chuàng)作的門檻，使得非專業(yè)用戶也能輕松上手。

AI對全球的影視產(chǎn)業(yè)究竟意味著什么？

方漢在2024世界人工智能大會上演講時提到，AI在海外尤其是小語種國家存在巨大紅利。

以影視劇舉例，在尼日利亞制作一部電影的成本大約為2萬美金，拍出來的作品與國內(nèi)花3億人民幣制作的《流浪地球》、美國花幾億美金制作的《阿凡達》相比，完全沒有競爭力。但是AI出現(xiàn)后，把這個差距拉平了。

“個人預測3-5年之后，制作一部《流浪地球》級別的大片，依靠AI之后，制作成本可能會降到幾萬美金，這樣導致在海外很多地區(qū)存在非常大的紅利，所有人都希望看到本土的文化產(chǎn)品，不管小說、音樂、視頻還是漫畫，都需要本土化的產(chǎn)品，所以AI出海存在巨大的紅利。”方漢表示。

往小了說，AI帶來的紅利是讓文化產(chǎn)品制作的成本實現(xiàn)指數(shù)級降低，讓“一人一劇”的時代成為現(xiàn)實。往大了說，通過降低創(chuàng)作門檻，AIGC使弱勢文化群體能自主生產(chǎn)內(nèi)容，將帶來全球文化平權(quán)，這是科技向善最生動的注腳。

大家說AI帶來了“iPhone時刻”，但方漢認為AI是類似于手機攝像頭的革命，因為攝像頭帶來拍攝方式的革命，從而催生出抖音、快手這樣巨量的短視頻平臺，AI會催生大量的新的AI UGC平臺，這是一個個性化生產(chǎn)與消費內(nèi)容的黃金時代。

在「甲子光年」看來，昆侖萬維所發(fā)布的首個面向AI短劇創(chuàng)作的開源視頻生成模型SkyReels-V1，以及首個SOTA級別的基于視頻基座模型的表情動作可控算法SkyReels-A1，正是推動AIGC時代來臨的最普惠的工具。

AI短劇市場有望迎來“DeepSeek時刻”。

*點擊文末原文鏈接試用SkyReels-V1

（封面圖來源：昆侖萬維）

原標題：《最懂表演的視頻大模型開源！AI短劇迎來“DeepSeek時刻”｜甲子光年》

閱讀原文

特別聲明

本文為澎湃號作者或機構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機構(gòu)觀點，不代表澎湃新聞的觀點或立場，澎湃新聞僅提供信息發(fā)布平臺。申請澎湃號請用電腦訪問http://renzheng.thepaper.cn。

我要舉報

#昆侖萬維 #SkyReels-V1