中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

全量免費(fèi)的EMO模型上架通義APP,外媒稱之為Sora之后最受期待的大模型之一

澎湃新聞?dòng)浾?胡含嫣
2024-04-26 16:16
10%公司 >
字號

又一個(gè)國產(chǎn)大模型應(yīng)用火出圈!

兩個(gè)月前,阿里巴巴通義實(shí)驗(yàn)室公開了一篇能夠讓照片唱歌說話的生成式AI模型論文,EMO(Emote Portrait Alive),在海外媒體和社交平臺引起熱烈反響,被一批科技圈大V輪番轉(zhuǎn)發(fā)。4月25日,EMO正式上線通義APP,開放給所有用戶免費(fèi)使用,應(yīng)用上線瞬間通義APP一度被擠爆,有用戶發(fā)現(xiàn)自己要排隊(duì)數(shù)小時(shí)。其火熱程度可見一斑。

EMO是通義實(shí)驗(yàn)室研發(fā)的AI模型,于今年2月底公開技術(shù)論文,被外媒稱之為Sora之后最熱門的AI模型之一,在開源社區(qū)Github上已經(jīng)獲得了超過6700顆星標(biāo)。只需要一張人物肖像照片和一段任意時(shí)長的音頻,EMO就可以讓照片中的人物按照音頻內(nèi)容“張嘴”唱歌、說話,且口型基本保持一致,實(shí)現(xiàn)自然的面部表情和頭部姿態(tài)。

短短兩個(gè)月后,通義實(shí)驗(yàn)室已經(jīng)將EMO產(chǎn)品化。所有用戶都可以在通義APP中打開EMO產(chǎn)品頁面,在涵蓋各類歌曲、熱梗和表情包的80多個(gè)首批上線模板中任選一個(gè),上傳一張肖像照,即可讓照片、繪畫、“紙片人”、數(shù)字人乃至雕像開口說話唱歌,并隨時(shí)分享或下載保存所生成的視頻。

富有表現(xiàn)力的AI視頻生成框架

那么,EMO如何實(shí)現(xiàn)如此出色的生成效果?

據(jù)介紹,與目前市面上的主流視頻生成算法不同,EMO的原理是用音頻驅(qū)動(dòng)圖片的人像,使其做出與音頻內(nèi)容高度匹配的口型和表情。EMO的算法框架分為兩步,用ReferenceNet引導(dǎo)去噪,用Backbone(主干網(wǎng)絡(luò))主干網(wǎng)絡(luò)去噪。

在EMO之前,Talking Head領(lǐng)域的工作都需針對人臉、人頭或者身體部分做建?;蛘弑碚鳎臅r(shí)長且生成質(zhì)量較低。而EMO首次提出了弱控制的設(shè)計(jì),剔除掉針對人臉的顯示表征建模,轉(zhuǎn)而采用一些相對較弱的控制條件來引導(dǎo)Diffusion去噪過程。

這就意味著,EMO降低了人物視頻的生成門檻,且大幅提升了視頻的生成質(zhì)量,使得這一技術(shù)在視頻制作、影視創(chuàng)作、電商直播等領(lǐng)域的規(guī)?;瘧?yīng)用成為可能。

更驚人的是,通過在海量的人物講話視頻上進(jìn)行訓(xùn)練,EMO模型不僅能夠找到音頻中具體發(fā)音與人像口型的匹配關(guān)系,還能發(fā)現(xiàn)音頻中的語氣特征與人物表情的關(guān)聯(lián)性,從而將音頻暗含的情緒色彩反映到了人物微表情上。可以說,EMO在訓(xùn)練中慢慢地學(xué)習(xí)了人類表達(dá)情緒的能力,并對其進(jìn)行了編碼。

不過,隨著EMO的橫空出世,一些人開始擔(dān)心,EMO模型可能會成為某些別有用心者的犯罪工具。

為防止對口型技術(shù)被濫用,阿里云方面表示,通義實(shí)驗(yàn)室團(tuán)隊(duì)在應(yīng)用內(nèi)預(yù)置了經(jīng)過審核的音頻模板,暫不開放用戶在EMO中自定義音頻。用戶只可上傳照片,且需嚴(yán)格遵守平臺協(xié)議,使用符合規(guī)范的照片來生成視頻。其次,平臺會對用戶生成內(nèi)容進(jìn)行算法和人工兩道審核,確保內(nèi)容安全。用戶上傳的照片僅用于AIGC生成,平臺會嚴(yán)格保護(hù)用戶的信息安全。

同樣是出于安全方面的考量,目前,EMO暫不開放API,團(tuán)隊(duì)將對安全策略進(jìn)行充分論證后再進(jìn)行下一步工作。通義實(shí)驗(yàn)室也歡迎社會各界群策群力,提供更好的安全建議,以便在安全可控的前提下推動(dòng)大模型技術(shù)和應(yīng)用的發(fā)展。

阿里:做全民可用的大模型應(yīng)用

從2022年ChatGPT的誕生,到國內(nèi)的百模大戰(zhàn),AI大模型熱潮已經(jīng)持續(xù)超過一年。如今,大模型已經(jīng)逐漸走進(jìn)千行百業(yè),甚至成為全民可用的應(yīng)用。

今年2月,隨著OpenAI放出文生視頻模型Sora的展示片段,由于其高水平的演示質(zhì)量和超出一分鐘的生成視頻時(shí)長,立刻引爆了AI視頻行業(yè)。在Sora之前,已經(jīng)出現(xiàn)了Runway、Pika、Stable Video等熱門文生視頻模型。

不過,Sora直到今天都沒有定下面向公眾開放的日期,而已經(jīng)開放的Runway和Pika等模型大多需要按使用次數(shù)計(jì)費(fèi)、價(jià)格不菲,抑或是需要專業(yè)的開發(fā)者知識去使用,生成視頻時(shí)長也不超過16秒。

雖然通義APP上的EMO模型目前只支持有限的模板,但其已經(jīng)成為全民免費(fèi)可用的AI視頻模型,上手簡單、使用方便,還自帶供用戶進(jìn)行分享的生態(tài)社區(qū)。另外,APP上提供的模板中包含了大量網(wǎng)絡(luò)熱梗,有利于所生成短視頻的傳播和分享,并展現(xiàn)出該模型未來和更多影視IP合作的潛力。

當(dāng)下,全球AI大模型行業(yè)依然進(jìn)展飛速,各大科技巨頭都在積極地卷模型、卷應(yīng)用。面對迭代速度越快、種類越來越豐富的大模型,時(shí)常會讓用戶產(chǎn)生一種不知從何處下手的感覺。不過,說到底,這些AI模型都是將人類思想與創(chuàng)意具現(xiàn)化的工具,而通義APP有望正在演變成一個(gè)包羅萬象的工具鋪,成為每位用戶手中一個(gè)隨叫隨到的超級AI助手。

在大模型的C端入口上,阿里無疑是最激進(jìn)、步伐最快的科技公司。自今年年初以來,通義APP已經(jīng)上線了現(xiàn)象級應(yīng)用“全民舞王”、超長文檔解析、AI編碼助手、AI會議助手等眾多免費(fèi)功能,成為國內(nèi)功能最豐富的大模型應(yīng)用。

    責(zé)任編輯:毛瑋靜
    校對:劉威
    澎湃新聞報(bào)料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋