- +1
人人都能做導(dǎo)演?Sora 2的幻象與真相

撰文 | 程書(shū)書(shū)
編輯 | 李信馬
題圖 | 豆包AI
國(guó)慶假期,全球AI圈被一枚“重磅炸彈”炸醒。
OpenAI發(fā)布新一代AI視頻模型 Sora 2 及其配套應(yīng)用 Sora App,即使需要填寫(xiě)邀請(qǐng)碼才能使用,也沒(méi)有減弱網(wǎng)友的熱情,社交平臺(tái)上充滿(mǎn)了尋求邀請(qǐng)碼的信息。短短四天內(nèi),這款A(yù)pp便空降美區(qū)App Store免費(fèi)榜榜首,力壓ChatGPT、Google Gemini等一眾頭部AI產(chǎn)品,迅速成為海外創(chuàng)作者、內(nèi)容營(yíng)銷(xiāo)人和TikTok賣(mài)家的新寵。
社交平臺(tái)瞬間被AI生成的“同人宇宙”刷屏:動(dòng)漫角色穿越現(xiàn)實(shí)街道,游戲角色在都市中穿行,甚至連OpenAI CEO山姆·奧爾特曼(Sam Altman)也被網(wǎng)友“玩出花”——他出現(xiàn)在東北炕頭吃飯、在阿里會(huì)議室講“閉環(huán)”“賦能”,甚至化身外賣(mài)騎手穿梭于城市街頭。
奧爾特曼本人將Sora 2稱(chēng)為“創(chuàng)意領(lǐng)域的ChatGPT 3.5時(shí)刻”。從官方演示到網(wǎng)上用戶(hù)實(shí)測(cè),Sora 2在物理邏輯、畫(huà)面連貫性、真實(shí)感和音畫(huà)同步等方面實(shí)現(xiàn)了質(zhì)的飛躍,被多家媒體譽(yù)為“將AI視頻生成推向新高度”。
DoNews在進(jìn)行了體驗(yàn)后認(rèn)為:Sora 2確實(shí)強(qiáng)大,但距離“現(xiàn)實(shí)不存在了”的預(yù)言,還是有一定距離。
01、創(chuàng)造力炸裂,細(xì)節(jié)仍存“AI感”
Sora App以Sora 2為技術(shù)基礎(chǔ),Sora 2直接內(nèi)置了對(duì)話、音效和背景音樂(lè)的自動(dòng)生成能力,可以實(shí)現(xiàn)音頻和視頻同步生成,改變了以往AI視頻生成工具沒(méi)有聲音的狀況。
進(jìn)入 Sora App 后,主頁(yè)底部設(shè)有功能欄,從左到右依次為「視頻推薦」「靈感廣場(chǎng)」「生成器」「消息」「?jìng)€(gè)人主頁(yè)」。很多人將其稱(chēng)為 “AI版抖音”,正是因?yàn)榻缑婕笆醉?yè)推薦邏輯與之相似 ——App 主頁(yè)為垂直視頻流,用戶(hù)可上下滑動(dòng)瀏覽其他用戶(hù)發(fā)布的內(nèi)容。

其中,靈感廣場(chǎng)用于展示熱門(mén)作品。由于 Sora App 生成視頻后,提示詞會(huì)默認(rèn)成為視頻配文,因此熱門(mén)視頻的提示詞可直接復(fù)制修改后使用。

生成器是用戶(hù)制作視頻的核心功能區(qū),有兩點(diǎn)值得注意:一是不支持上傳用戶(hù)自制視頻素材,僅能通過(guò) AI 生成視頻;二是不支持單獨(dú)撰寫(xiě)短視頻文案——用戶(hù)輸入的文案會(huì)默認(rèn)作為生成視頻的提示詞。?
生成視頻時(shí),有兩種特色方式可選:一是圖片生成視頻,二是 Cameo 出鏡秀。Cameo 是每個(gè)賬號(hào)對(duì)應(yīng)的虛擬數(shù)字形象,相當(dāng)于用戶(hù)的 “專(zhuān)屬 Sora 身份標(biāo)識(shí)”。創(chuàng)建 Cameo 需錄制一段個(gè)人臉部視頻,操作步驟類(lèi)似支付寶、銀行類(lèi) App 的視頻認(rèn)證,驗(yàn)證通過(guò)后即可用自己的虛擬形象生成并發(fā)布視頻。?
此外,也可使用他人的虛擬數(shù)字形象,通過(guò)文生視頻或圖生視頻功能創(chuàng)作,但前提是對(duì)方將形象設(shè)為公開(kāi)。具體操作是:撰寫(xiě)提示詞時(shí)點(diǎn)擊他人頭像,其ID會(huì)自動(dòng)填入提示詞;因此,使用他人形象發(fā)布視頻時(shí),系統(tǒng)會(huì)自動(dòng)@該用戶(hù)——這也意味著,形象設(shè)為公開(kāi)即默認(rèn)允許 App 內(nèi)其他用戶(hù)使用。
DoNews以?shī)W爾特曼的虛擬數(shù)字形象和一張圖片生成了一段視頻,提示詞為:“@sama在圖片場(chǎng)景里說(shuō)集美們,耶斯莫拉?!?/p>
在生成的視頻中,Sora結(jié)合圖片背景為奧爾特曼豐富了臺(tái)詞,奧爾特曼指向后面的店鋪說(shuō):“集美們,今天帶大家來(lái)看看老姐妹的店,耶斯莫拉?!迸_(tái)詞的補(bǔ)充顯示出AI聯(lián)想的能力,與場(chǎng)景的配合較為自然,發(fā)音時(shí),人物的口型也基本能對(duì)上。
不過(guò),并非每次生成都能一次成功。DoNews再次嘗試生成奧爾特曼剝獼猴桃的視頻時(shí),剝獼猴桃的細(xì)節(jié)就出現(xiàn)了錯(cuò)誤,有明顯的AI痕跡。
DoNews又以?shī)W爾特曼和另一用戶(hù)的數(shù)字形象創(chuàng)建了一段多角色視頻,提示詞是:“@sama@thomasdimson扮演《后宮甄嬛傳》里面的華妃娘娘和皇后娘娘,穿著清朝的妃嬪服制,用中文吵架。” 系統(tǒng)檢測(cè)到版權(quán)問(wèn)題無(wú)法生成,刪除提示詞中的《后宮甄嬛傳》后,生成就不再被拒絕。

在這段雙人互動(dòng)視頻中,提示詞只提到“用中文吵架”,而 Sora 再次為角色添加了臺(tái)詞,二人的吵架內(nèi)容也符合清宮戲的背景。但細(xì)節(jié)仍有瑕疵,比如中間有一句臺(tái)詞的聲音沒(méi)有對(duì)口型,后面皇后的臺(tái)詞錯(cuò)誤地對(duì)應(yīng)到了華妃的嘴型。
這種臺(tái)詞錯(cuò)位的情況在多角色視頻中發(fā)生的概率似乎較高,在DoNews之后生成的另一段多人對(duì)話視頻中也出現(xiàn)了類(lèi)似問(wèn)題。
整體來(lái)看,Sora 2在物理世界理解方面確實(shí)表現(xiàn)不俗,用戶(hù)數(shù)字人的物理效果和唇型同步效果良好,基本的一致性做得不錯(cuò)。但涉及到多元素的物體交互時(shí),仍會(huì)出現(xiàn)多角色臺(tái)詞錯(cuò)位、物體交互 bug的問(wèn)題,保留了明顯的“AI感”。
“AI配音” 本身也存在缺陷:語(yǔ)氣生硬、情感適配度低,若提示詞未明確語(yǔ)調(diào),生成的對(duì)話會(huì)顯得機(jī)械。同時(shí),“構(gòu)思提示詞” 的門(mén)檻依然存在——普通用戶(hù)可能因描述不細(xì)致(比如沒(méi)說(shuō)清場(chǎng)景氛圍、人物動(dòng)作),導(dǎo)致生成的視頻偏離預(yù)期,而專(zhuān)業(yè)創(chuàng)作者則需花費(fèi)時(shí)間優(yōu)化提示詞,才能彌補(bǔ) AI 的細(xì)節(jié)不足。?
02、創(chuàng)意 ChatGPT 時(shí)刻未到,娛樂(lè)版抖音還差口氣
OpenAI 在官方聲明中,將 Sora 2 定位為 “最先進(jìn)的視頻和音頻生成模型”,更明確對(duì)比:2024 年 2 月發(fā)布的初代 Sora 是視頻領(lǐng)域的 “GPT-1 時(shí)刻”,而 Sora 2 直接邁入了 “GPT-3.5 時(shí)刻”。
從音畫(huà)同步、人物ID一致性(如 Cameo 形象復(fù)用)到多鏡頭敘事的技術(shù)突破來(lái)看,Sora 2 確實(shí)刷新了AI視頻生成的上限,但距離 “重塑創(chuàng)意領(lǐng)域” 和 “成為新一代娛樂(lè)社交平臺(tái)”,它顯然還差點(diǎn)火候。?
“Sora 2 生成的音頻真實(shí)感、清晰度,把之前的AI音效工具甩開(kāi)好幾條街,甚至比谷歌Veo 3還略勝一籌?!?小旭音樂(lè)創(chuàng)始人兼 CEO、AIGC 藝術(shù)家小旭的評(píng)價(jià),點(diǎn)出了 Sora 2 的核心優(yōu)勢(shì) —— 易用性。它把復(fù)雜的視頻生成流程簡(jiǎn)化成 “輸入提示詞+選形象”,尤其是 Cameo 功能,用戶(hù)錄幾秒臉部視頻就能克隆專(zhuān)屬虛擬形象和聲音,門(mén)檻低到普通用戶(hù)也能上手。
但優(yōu)勢(shì)之外,硬傷同樣明顯?!澳壳吧傻囊曨l時(shí)長(zhǎng)比較短,只有10秒鐘,這個(gè)在正規(guī)的創(chuàng)作中還是顯得略短了一些?!贝送猓直媛室膊惶?,App 里沒(méi)法調(diào)畫(huà)質(zhì),默認(rèn)只有 480P 或 360P,橫版還得用 PC 端才能生成。在小旭看來(lái),Sora2是瞄準(zhǔn)AI社交去的,并不是一個(gè)純粹的AI工具。
Sora App目前采用的邀請(qǐng)制也可以驗(yàn)證他的看法,當(dāng)一個(gè)邀請(qǐng)碼注冊(cè)成功后,可以再生出4個(gè)邀請(qǐng)碼,分享給其他用戶(hù)后,這些用戶(hù)激活賬號(hào)又能獲得4個(gè)新的邀請(qǐng)碼,如此形成裂變循環(huán)。而且一旦使用他人的邀請(qǐng)碼,系統(tǒng)會(huì)自動(dòng)關(guān)注邀請(qǐng)方,逐步構(gòu)建起好友社交網(wǎng)絡(luò)。
用戶(hù)車(chē)車(chē)體驗(yàn)后認(rèn)為,其娛樂(lè)性 “遠(yuǎn)不如抖音”:“Sora 上的內(nèi)容更像‘自?shī)首詷?lè)’—— 每個(gè)人生成的視頻都是圍繞自己的虛擬形象或簡(jiǎn)單場(chǎng)景,沒(méi)有抖音那樣的話題挑戰(zhàn)、達(dá)人生態(tài),也缺乏能引發(fā)大眾共鳴的內(nèi)容,刷幾條就會(huì)覺(jué)得單調(diào)?!?
這種 “娛樂(lè)性短板”,和 Sora 2 嚴(yán)格的限制掛鉤。為規(guī)避版權(quán)、肖像權(quán)風(fēng)險(xiǎn),它會(huì)直接拒絕生成多數(shù)真實(shí)名人、影視角色(比如前文提及《后宮甄嬛傳》觸發(fā)版權(quán)攔截),甚至普通人物形象的創(chuàng)作也有諸多約束。用戶(hù)能發(fā)揮的題材空間被壓縮,自然難以產(chǎn)出多樣化、有傳播力的內(nèi)容——反觀抖音,從生活記錄到創(chuàng)意短劇,內(nèi)容邊界寬泛,再加上評(píng)論互動(dòng)、合拍、話題榜等功能,社交粘性遠(yuǎn)非 Sora 2 可比。?
綜上,Sora 2無(wú)疑是一次技術(shù)飛躍,它顯著降低了AI視頻創(chuàng)作的門(mén)檻,將此前分散的視頻、音頻生成步驟整合,讓普通用戶(hù)也能輕松體驗(yàn)創(chuàng)作的樂(lè)趣。
然而,無(wú)論是從其有限的畫(huà)質(zhì)與時(shí)長(zhǎng)、純AI生成內(nèi)容導(dǎo)致的同質(zhì)化傾向,還是技術(shù)上尚未克服的細(xì)節(jié)瑕疵來(lái)看,它距離成為引發(fā)創(chuàng)意領(lǐng)域革命的“ChatGPT時(shí)刻”以及媲美抖音的娛樂(lè)平臺(tái),仍差一口氣。
對(duì)于普通用戶(hù),Sora 2是一款有趣、易上手的新玩具;但對(duì)于追求高質(zhì)量、長(zhǎng)序列和強(qiáng)一致性的專(zhuān)業(yè)創(chuàng)作者而言,它仍不是一個(gè)成熟可靠的生產(chǎn)力工具。OpenAI的這枚“炸場(chǎng)”新星,優(yōu)點(diǎn)與缺點(diǎn)同樣突出,它的真正成熟,或許還需要等待下一個(gè)版本的迭代。
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀點(diǎn),不代表澎湃新聞的觀點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線: 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司




