中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶端

登錄

  • +1

Sora理解物理世界嗎?肖仰華、傅盛說法也不一

澎湃新聞記者 宦艷紅
2024-02-21 16:53
來源:澎湃新聞
? 未來2% >
字號

·視頻大模型Sora一經(jīng)登場,逼真的視頻呈現(xiàn)讓全球科技圈沸騰。Sora背后的技術(shù)架構(gòu)是怎樣的,它的出現(xiàn)是否意味著AGI進(jìn)程從10年變成了1年?Sora到底有沒有理解物理世界的能力?以Sora為代表的AI技術(shù)將如何影響人類社會?我們又將如何應(yīng)對?

2月20日,澎湃新聞邀請復(fù)旦大學(xué)教授、上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任肖仰華,獵豹移動董事長兼CEO、獵戶星空董事長傅盛,全國政協(xié)委員、上??萍拣^館長倪閩景,做客澎湃新聞直播室,共同探討有關(guān)Sora的熱點(diǎn)話題。以下節(jié)選自直播實(shí)錄。

肖仰華:Sora的出現(xiàn)在意料之中也在意料之外。(00:53)

Sora的出現(xiàn)在意料之中也在意料之外

澎湃新聞記者王瑞(以下簡稱王):三位看到Sora生成的視頻后,第一感受是怎樣的?

肖仰華(以下簡稱肖):意料之中也意料之外。

所謂意料之中,是因?yàn)镃hatGPT誕生之后,業(yè)內(nèi)專家都普遍預(yù)測大模型一定會從純文本的大模型向多模態(tài)發(fā)展。所謂多模態(tài)指的是圖文混合、和視頻相結(jié)合的這類大模型。

意料之外是指當(dāng)你親眼看到了Sora生成的視頻具備如此的逼真度,沖擊力還是很激烈的。它對模擬物理世界的逼真程度,達(dá)到了空前的水平,是之前人工智能技術(shù)從來沒有做到過的。

因?yàn)樗峭耆谟脭?shù)據(jù)喂養(yǎng)出來的大模型生成的,不再是通過包括建模、渲染等傳統(tǒng)的電影工業(yè)技術(shù)做出來的,所以我認(rèn)為它可能會帶來非常深遠(yuǎn)的影響,它實(shí)際上代表的是人工智能對現(xiàn)實(shí)物理世界的模擬達(dá)到了一個全新的高度。它會帶來一系列的產(chǎn)業(yè)影響,可能對整個人類社會包括教育都會帶來非常深遠(yuǎn)的影響。

倪閩景(以下簡稱倪): Sora生成的視頻中,很好地把握了人與人、人與物之間微妙的關(guān)聯(lián),這也是過去很多生成式視頻做不到的,所以令人非常震驚。

傅盛(以下簡稱傅):Sora的視頻就效果來說是非常震驚的,它超出了我們對這個行業(yè)當(dāng)前的認(rèn)知。OpenAI作為一家科技企業(yè),市場宣傳方面的能力也是超一流的。他們選擇放出來的每個視頻,幾乎都是今天視頻制作市場上的難點(diǎn)和熱點(diǎn),很多都是用傳統(tǒng)建模方法做視頻難以企及的。譬如幾只小狗在玩雪花的視頻,對于傳統(tǒng)技術(shù)來說,雪花是最難制作的。

“相比ChatGPT,Sora技術(shù)突破有限 ”

王:Sora也是OpenAI的產(chǎn)品,它和之前的ChatGPT有何聯(lián)系?

肖:ChatGPT和Sora都使用了Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu),本質(zhì)上是一種大模型。這樣一種大模型為何會帶來這么好的效果呢?

因?yàn)槭澜绫举|(zhì)上是非常復(fù)雜的,非線性的。我們傳統(tǒng)的模型只能建一些線性的簡單關(guān)系。像這個流體力學(xué)之類非常復(fù)雜的現(xiàn)象,用傳統(tǒng)的模型非常難建模。但是今天我們看到基于Transformer深度神經(jīng)網(wǎng)絡(luò)的大模型架構(gòu),Sora已經(jīng)具備了對現(xiàn)實(shí)世界復(fù)雜現(xiàn)象非常逼真的建模能力,這是Sora帶來的一個新高度。

傅:現(xiàn)在我冷靜下來再想想,當(dāng)然也去看了很多文獻(xiàn),我又覺得Sora這個事本質(zhì)上是因?yàn)橐曨l是一個需求很旺盛的巨大行業(yè),才造就了熱潮。從技術(shù)上來說,我現(xiàn)在的觀點(diǎn)是它沒有那么大的突破。

其實(shí)如果深入分析下去,你會看到Sora是使用了跟以前完全不同的一條路徑去構(gòu)造了一個世界,它更像我們?nèi)说谋灸苷J(rèn)知。很多傳統(tǒng)做視頻建模很麻煩的事,可能對于它來說并沒有那么難??赡軐τ谒鼇碚f,生成水面的倒影、眼鏡的反光和生成雞蛋的畫面,難度是一樣的,它是一種直覺認(rèn)知。

我一直有個觀點(diǎn),就是事實(shí)上如果沒有大語言模型作為基座,今天Sora在視頻領(lǐng)域是不會產(chǎn)生這么大突破的。

我想表達(dá)的一個觀點(diǎn)是,其實(shí)語言對世界的認(rèn)知是遠(yuǎn)超視頻的,雖然視頻看起來更讓我們有直覺的沖動,但語言的抽象和邏輯是最難理解的。一旦語言對世界的描述建立以后,視頻的這種抽象和描述相對來說是簡單的。當(dāng)然,在工程角度,視頻可能因?yàn)閿?shù)據(jù)量更大,工程難度更高。但如果沒有大語言模型,今天視頻是做不到這個能力的。其實(shí)對圖像的理解是我們每個人的直覺,其實(shí)我們做夢就是一個還原世界的過程。

傅盛認(rèn)為Sora的技術(shù)突破不如ChatGPT。(00:43)
OpenAI的勝利是技術(shù)信仰的勝利

王:在Sora之前,也有很多公司做文生視頻,但時長都比較短。Sora和他們的技術(shù)路線不一樣嗎?

傅:我一直有個觀點(diǎn),就是OpenAI能走到今天與其說是技術(shù)積累的勝利,不如說是技術(shù)信仰的勝利;與其說是它有什么超牛的技術(shù),還不如說它堅持在別人不相信的道路上勇敢前行。

其實(shí)即便到前年之前,OpenAI在硅谷都不是一個被看好的公司。但它自成立之初就相信一件事:讓機(jī)器讀大量的文字,它就能理解語言,甚至理解世界。這件事其實(shí)以前大家都不相信,只有它相信,所以它就堅定的去干,直到ChatGPT出來后,所有人突然發(fā)現(xiàn),原來可以做成這樣。ChatGPT的底層架構(gòu) transformers最早是谷歌發(fā)布的。

我覺得之所以會有Sora是因?yàn)樗麄兿嘈磐ㄟ^大語言模型的加持,能夠干到一個你想象不到的效果。

我覺得Sora和其它文生視頻的底層技術(shù)沒有本質(zhì)區(qū)別,可能沒有OpenAI這么堅定而已。所以我想說Sora的重大突破并不一定代表技術(shù)上的重大升級,你更可以理解成是一個暴力美學(xué),因?yàn)橄嘈胚@事能成,所以投的資源比其他人大一百倍,可以不計成本投入。我相信這是巨大的算力和很多的嘗試最后試出來的。

沒有哪個技術(shù)會突然有一天從哪里冒出來,那可能是我們讀武俠小說讀多了,總覺得在深山老林里面有個人拿了本寶典,最后全世界都被他征服了。但技術(shù)的演進(jìn)不是這樣的,技術(shù)底層的差異化并沒有那么大。技術(shù)信仰使得他們?nèi)σ愿埃瑥亩辛艘粋€產(chǎn)品級的突破。

我判斷Sora不會是獨(dú)一無二的,很快文生視頻的行業(yè)都會從四秒、十秒變成六十秒,文生視頻會像雨后春筍一樣出來。

肖:我很贊同傅總剛才說的,OpenAI的勝利本質(zhì)上是一種信仰的勝利,是對信仰的長期堅持的勝利。

歐洲近幾百年流行的虛無主義,認(rèn)為人類對世界的認(rèn)知可能只是認(rèn)知世界的一種方式而已。我們已經(jīng)建立起來所有知識體系,可能不過就是人類對世界的一種有限的認(rèn)識方式。

大模型的成功恰恰也證明了這一點(diǎn),我們完全可以用數(shù)據(jù)驅(qū)動的方法讓機(jī)器學(xué)習(xí),它建立的對世界的建模和認(rèn)知,有可能遠(yuǎn)遠(yuǎn)超過我們?nèi)祟悓@個世界的認(rèn)知方式,所以我們?nèi)祟惪赡懿荒芴^自信。

最近楊立昆等專家指責(zé)Sora(編者注:楊立昆(Yann LeCun):圖靈獎得主,Meta公司首席科學(xué)家、AI團(tuán)隊負(fù)責(zé)人。在他看來,僅僅根據(jù)提示詞生成逼真視頻并不能代表一個模型理解了物理世界,生成視頻的過程與基于世界模型的因果預(yù)測完全不同。他認(rèn)為Sora并不能模擬物理世界,在社交平臺上發(fā)文稱 “這里存在‘巨大’的誤導(dǎo)?!保盍⒗ゴ淼氖侨祟惖囊庵?,他覺得我們?nèi)耸怯凶饔玫模覀內(nèi)祟悓<宜e累的這些知識經(jīng)驗(yàn),應(yīng)該在世界建模中扮演重要角色。但實(shí)際上我傾向于認(rèn)為Sora擺脫了專家所謂的一些知識干預(yù)后,可能是更接近世界本源的,更準(zhǔn)確的一種建模方式。

肖仰華覺得用數(shù)據(jù)驅(qū)動的機(jī)器對于世界有自己的理解。(01:20)
Sora到底能理解世界嗎?

王:關(guān)于Sora對物理世界的理解與模擬,現(xiàn)在也有很多不同的觀點(diǎn),三位是怎么看?

肖:實(shí)際上以往我們認(rèn)為的理解都是以人為中心的,我們說理解的主體都是人,如果你不承認(rèn)機(jī)器的主體地位的話,是談不上所謂的理解的。

但我們?nèi)祟惱斫馐澜绲慕Y(jié)果也是為了表達(dá)世界,也是為了再去創(chuàng)造一個新的世界。像Sora這種工具,它能夠非常高精度的建模這個現(xiàn)實(shí)世界,可以視作一種理解能力。所以對機(jī)器而言,可能建模就是理解。

我們?nèi)祟悓@個世界重現(xiàn)都是通過一些簡化的公式去重現(xiàn)的,但Sora可以非常高精度的重建整個物理世界。從這個意義上來講,它的建模水平可以說是遠(yuǎn)超人類水平。

倪:我覺得它至少理解了什么是人,什么是櫻花,什么是雪花,什么是街道,否則也不可能生成這些東西。但機(jī)器在表達(dá)時,會按照它看到的、認(rèn)為的規(guī)律來生成,這有可能和我們平時看到的規(guī)律不一樣。因?yàn)槲覀內(nèi)擞^察東西也永遠(yuǎn)是片面的,我們所有的觀察只是局部。我看到你的前面,但看不到背面,看見了外面看不見里面。

傅:這個問題在我腦海里這兩天也是激烈變化。雖然在感官上Sora生成的視頻非常驚艷,但在對世界的理解度上,我覺得它肯定是不如語言模型本身的。

我注意到一個細(xì)節(jié),其中有個中國舞龍視頻,如果你認(rèn)真看它后面的每一個中國字都不是中國字,它只是長得像中國字的一個圖形。

所以我認(rèn)為Sora某種意義上一定是具備對世界的某種理解。但如果你說它把整個物理世界復(fù)刻了,我覺得這肯定不是真實(shí)的。我認(rèn)為它對世界的理解還停留在比較初級的水平。就像一個五六歲的小孩,對世界的理解并不深,但畫圖方面是一個天才兒童。我認(rèn)為這也是電腦特性決定的,計算機(jī)的能力和人類能力并不一樣,對我們來說很難的事情對它來說可能很簡單,畫畫對計算機(jī)來說就是一堆的像素點(diǎn)打出來,這個色階正好符合你的審美。

所以我覺得僅以視頻本身去驚嘆Sora對物理世界的理解到了一個什么高度,這點(diǎn)我是絕對不認(rèn)同的,“AGI因此由十年變一年”,這個我也不認(rèn)同。

人才、數(shù)據(jù)、算力,國內(nèi)公司缺哪樣?

王:說到大模型公司,國內(nèi)也涌現(xiàn)了非常多企業(yè),現(xiàn)在國內(nèi)的這個情況和大環(huán)境是怎么樣的?

肖:其實(shí)從ChatGPT開始,很多人就問為什么我們沒有率先推出這類產(chǎn)品,總體上我們國內(nèi)的態(tài)勢應(yīng)該來講處于在跟隨學(xué)習(xí),差距如果能夠不拉大,已經(jīng)算是相當(dāng)不容易了,應(yīng)該說是在努力地追趕。

大模型需要的無外乎就是人才、數(shù)據(jù)、算力,我倒不不認(rèn)為人才真的是我們的短板。大模型本質(zhì)上是一次工程創(chuàng)新,我們國家最不缺的就是工程人才,很多國外團(tuán)隊中也頻頻出現(xiàn)華人的身影,所以從人才來講,我不認(rèn)為我們有多大的劣勢,我們的學(xué)生完全能勝任。

再來看數(shù)據(jù),當(dāng)然大家說數(shù)據(jù)有這樣那樣的問題,但我也不認(rèn)為數(shù)據(jù)是我們根本短板。我們可以集中力量辦大事,我們有數(shù)據(jù)要素市場,也在推動這個數(shù)據(jù)語料聯(lián)盟,只要齊聚人力就能把數(shù)據(jù)給治理好。

可能現(xiàn)在最直接的因素還是算力上面,Sora說白了也是一個大力出奇跡的活,但我們現(xiàn)在算力跟不上,是一個明顯的短板。

另外,我認(rèn)為可能還有我們很缺的因素就是所謂的信心。我覺得可能國內(nèi)對于AGI這條道路信心不足,對AGI理念的堅持從文化上來講接受度不高。我們中國人還是強(qiáng)調(diào)經(jīng)濟(jì)務(wù)實(shí)啊,都喜歡跟哪個場景一結(jié)合就能夠去變現(xiàn),快速變現(xiàn)。但真正說要靜下心來坐冷板凳,在一條很有風(fēng)險的道路上做一個巨大的投入,我看到的還是很少。這本質(zhì)上還是一個信仰和信心的問題。

傅:AI本質(zhì)上是個平權(quán)工具,它讓很多以前離技術(shù)很遠(yuǎn)的人能夠很快地用上技術(shù)成果。當(dāng)這個工具變得足夠廉價和便宜時,哪怕質(zhì)量差一點(diǎn),也可以讓更多人去完成創(chuàng)作。所以我覺得Sora在顛覆一個行業(yè)的同時也在啟動一個行業(yè),新的行業(yè)一定會蓬勃發(fā)展,會有越來越多的人投入到這個行業(yè),越來越多可能沒有看過攝像機(jī)的人也能做出好視頻。

我相信Sora今天不肯開放,還在內(nèi)測,肯定時因?yàn)槌杀具€很高。但我估計很快就會有成本是Sora的百分之十,但質(zhì)量也是Sora百分之十的這樣的工具出現(xiàn)。所以我覺得這個行業(yè)會百花齊放,機(jī)會是非常大。

傅盛:Sora的成功得益于大語言模型的成功。(00:52)
絕大部分人還是低估了AI的影響力

王:Sora出現(xiàn)之后,有些人很焦慮,AI的快速發(fā)展可能對當(dāng)下的生活、未來就業(yè)、勞動力等都會影響。

肖:大家焦慮、擔(dān)心可能有幾個原因:

首先我們研發(fā)這些技術(shù)的人很擔(dān)心,為什么?因?yàn)楝F(xiàn)在AI很多技術(shù)對我們來講還是黑盒,我們并沒有完全弄明白它的這個原理。AI生成的過程和結(jié)果很大程度仍然是不可控的。

第二個是社會層面的擔(dān)心,就業(yè)可能會是非常直接的影響,AI已經(jīng)能夠?qū)崿F(xiàn)我們?nèi)祟惖暮芏嗄芰ΑH藱C(jī)協(xié)作實(shí)際上會極大的降低人員的需求量。

更長遠(yuǎn)來講,最大的擔(dān)心還是AI是個先進(jìn)生產(chǎn)力,勢必要求我們整個生產(chǎn)關(guān)系,整個上層建筑適應(yīng)這個生產(chǎn)力。但我們整個社會結(jié)構(gòu)的調(diào)整,適應(yīng)這個先進(jìn)生產(chǎn)力的過程相當(dāng)緩慢,但AI發(fā)展卻很快速,所以也曾有人呼吁過按下AI發(fā)展的暫停鍵。AI哪些該做,哪些不該做,可能還是要設(shè)立一些應(yīng)用的原則和邊界,來確保社會平穩(wěn)有序的過渡到了適應(yīng)先進(jìn)生產(chǎn)力的階段。

傅: AI雖然這么熱,其實(shí)我覺得絕大部分人還是低估了AI的影響力,其實(shí)它影響的不僅是視頻,比如現(xiàn)在生命科學(xué)、材料,包括核聚變能源,我覺得它都會產(chǎn)生影響。核聚變這么多年沒有太大突破,我相信AI介入以后可能會超出人類的想象。

所以它是一場底層革命,任何社會的每一個層面,今天我們不能成為AI原住民,我們就會被淘汰。

技術(shù)的進(jìn)步是不以哪個人的意志為轉(zhuǎn)移的,按暫停鍵是摁不住的,只能是跟著技術(shù)的變化去適應(yīng)技術(shù),所有社會生產(chǎn)力的發(fā)展,其實(shí)最根本的變革都是科學(xué)和技術(shù)。所以今天我們肯定要擁抱AI。全社會尤其是教育要率先變革。

倪:現(xiàn)在我們是處在科技的寒武紀(jì)時代啊,寒武紀(jì)大爆發(fā)的特點(diǎn)就是會產(chǎn)生稀奇古怪的東西,但也有東西出來很快就消亡了。很多投資人現(xiàn)在很痛苦,因?yàn)橐酝耐顿Y邏輯改變了。但這個過程也許對我們?nèi)祟悂碚f是非常有意思的一個大爆發(fā)階段。過去寒武紀(jì)可能是要幾千萬年,現(xiàn)在可能十年就會進(jìn)化到一個超出想象的階段,變革的速度越來越快。

對我們教育者來說,也會產(chǎn)生很多反思。機(jī)器學(xué)習(xí)到底對我們?nèi)说膶W(xué)習(xí)會帶來怎樣的啟示?我覺得我們可能會更多的人會投身到這個問題的學(xué)習(xí)研究中。對人類的學(xué)習(xí)進(jìn)化的研究也會迎來一個爆發(fā)期。教育的變革絕對不只是老師的變革,我覺得是所有教育人,甚至全社會都要反思的。

 

    責(zé)任編輯:沈關(guān)哲
    圖片編輯:蔣立冬
    澎湃新聞報料:021-962866
    澎湃新聞,未經(jīng)授權(quán)不得轉(zhuǎn)載
    +1
    收藏
    我要舉報
            查看更多

            掃碼下載澎湃新聞客戶端

            滬ICP備14003370號

            滬公網(wǎng)安備31010602000299號

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營許可證:滬B2-2017116

            ? 2014-2025 上海東方報業(yè)有限公司

            反饋