下載客戶端

登錄

你站在街上歪頭瞅攝像機(jī)，我在100年后隔著屏幕瞅你

2020-07-06 14:33

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

原創(chuàng) 木子Yanni 淺黑科技來(lái)自專輯隱秘往事

你站在街上歪頭瞅攝像機(jī)

我在 100 年后隔著屏幕瞅你

文 | 木子Yanni

比「改編自真實(shí)事件」更震撼的，是直接站在真實(shí)面前。

前段時(shí)間，一位叫做大谷的 90 后北京小伙兒，無(wú)意中看到了一段拍攝于 1920 年左右的珍貴影像視頻，他靈光一閃，借助科技的力量，用人工智能對(duì)視頻進(jìn)行了修復(fù)，讓我們有幸目睹了 100 年前北京城真實(shí)的煙火氣。

街道上，行人、車馬交錯(cuò)而行，《駱駝祥子》里的黃包車穿梭而過(guò)；如今要深入沙漠才尋得到的駱駝，正馱著貨物穩(wěn)步走在大街上；小小的院兒門口，有催促孩童的動(dòng)，也有挑擔(dān)賣貨的靜，甚至在 30 秒內(nèi)，就上演了三種不同的問(wèn)候方式；與現(xiàn)在不同，那時(shí)街上悠然閑逛的大多都是男性；一個(gè)轉(zhuǎn)頭，還能瞅見街邊興致盎然接力逗狗的老哥。

三種問(wèn)候

截圖來(lái)源于YouTube:人民日?qǐng)?bào)

沒(méi)想到，時(shí)隔月余，大谷的“老北京 Vlog”第二彈又來(lái)了。

這一次修復(fù)的視頻，拍攝于 1928 年前后，與第一彈視頻僅相隔 10 年，卻能明顯看到變化：十年前，人們?cè)诮诸^看到攝像機(jī)時(shí)，或盯住幾秒鐘后倉(cāng)皇逃開，或原地看呆逐漸石化，或因好奇而一步三回頭，想看又不敢看。

眾人驚呆相

截圖來(lái)源于YouTube:人民日?qǐng)?bào)

十年后，在小院兒里剃頭的隨便一位路人小伙兒，都能神態(tài)自若的對(duì)著鏡頭，瀟灑的拍拍自己剛剃好的頭，用地道的老北京話反復(fù)念叨著：“不錯(cuò)、剃挺好，不錯(cuò)、剃挺好...”

“不錯(cuò)，剃挺好”

截圖來(lái)源于B站：大谷的游戲創(chuàng)作小屋

街邊一擁而上打午飯的孩子們，眼睛盯著攝像頭，等著端飯的手卻絲毫沒(méi)受影響：吃飯最重要，害怕？不存在的。

“我也要、我也要”

截圖來(lái)源于B站：大谷的游戲創(chuàng)作小屋

你再瞧這個(gè)舔碗的靚仔，是不是跟你小時(shí)候如出一轍？

“真香，還想要...”

截圖來(lái)源于B站：大谷的游戲創(chuàng)作小屋

此外，視頻中還有摩肩接踵的集市、街頭的民俗樂(lè)隊(duì)等場(chǎng)景，一個(gè)熟悉又陌生的年代，瞬間躍然于眼前。

古人不見今時(shí)月，今月曾經(jīng)照古人。

你站在街上歪頭瞅攝像機(jī)，我在 100 年后隔著屏幕看你。視頻中的他們，見證了歷史，而我們正在回望，如果要說(shuō)遺憾，大概是模糊的畫面，遍布?xì)v史劃痕；黑白的色調(diào)，失了時(shí)代本色。

于是，大谷利用人工智能，從三個(gè)方面對(duì)視頻進(jìn)行了修復(fù)。值得一提的是，第一彈視頻中的聲音，是用素材后期配的，而這一次的修復(fù)，全部都是時(shí)代原聲，有興趣的話，各位可以去看完整版視頻（比如 B 站搜索「大谷的游戲創(chuàng)作小屋」）。

接下來(lái)，我們一起來(lái)看看，當(dāng)你在看修復(fù)版視頻的時(shí)候，視頻到底修復(fù)了些什么。

（一）頓頓頓頓頓

如果你看過(guò)早期的影視作品，比如 83 版射雕、86 版西游記、94 版三國(guó)，大概率會(huì)有這樣的感受：明顯看到畫面在跳動(dòng)，仿佛攝影師得了帕金森一般。

為什么會(huì)這樣呢？

我們需要先弄清楚一個(gè)問(wèn)題：當(dāng)你在看視頻時(shí)，你看的到底是什么？劇情、演技，還是中間插播的廣告？都不是。

其實(shí)是一連串圖片。

我們現(xiàn)在看到的電影，絕大多數(shù)都是 24 幀，意思是每秒由 24 張圖片組成。電影在播放時(shí)，24 幀既能保證你看到的畫面是流暢的，也能恰到好處地繼承優(yōu)良傳統(tǒng)：最初，電影拍攝離不開膠卷，雖然幀數(shù)越多，細(xì)節(jié)表現(xiàn)就越好，但每一幀都是錢啊，經(jīng)過(guò)認(rèn)（扣）真（門）對(duì)比，優(yōu)秀的電影人發(fā)現(xiàn)，24 幀是性價(jià)比最高的選擇，既不會(huì)浪費(fèi)膠卷，畫面的流暢度也能達(dá)標(biāo)。盡管如今已經(jīng)是數(shù)碼時(shí)代，但 24 幀的傳統(tǒng)依然保留了下來(lái)。

如此看來(lái)，老舊視頻卡頓的問(wèn)題就有答案了，因?yàn)閹瑪?shù)不夠。剛才有提到，要想畫面流暢，每秒就不能少于 24 幀，而老電影是低于這個(gè)數(shù)字的，比如大谷修復(fù)的那部 100 年前“老北京 Vlog”，幀數(shù)都在 10 以下，用我們已經(jīng)嬌生慣養(yǎng)出的好萊塢大片觀感來(lái)審視，只能是囫圇吞水，“頓頓頓頓頓”。

幀數(shù)不夠，補(bǔ)幀來(lái)救。但要清楚一點(diǎn)：因?yàn)檠a(bǔ)出的幀，原本是不存在的，所以補(bǔ)幀需要依靠想象力。

傳統(tǒng)的補(bǔ)幀方法主要有三種：幀采樣、幀混合，以及光流法?？吹竭@兒，有句話恐怕要應(yīng)驗(yàn)了：專有名詞一出現(xiàn)，吃瓜群眾走一半。其實(shí)，Duck 不必，我們逐一來(lái)看。

第一種，幀采樣。是指把前一幀復(fù)制到后一幀，簡(jiǎn)單來(lái)說(shuō)就是 112233。

第二種，幀混合。是指在前后兩幀中間合成一個(gè)新的幀，同時(shí)調(diào)整新合成幀的透明度，做出畫面過(guò)渡的感覺(jué)，也就是1、1.5、2、2.5、3。

第三種，光流法。什么是光流呢？當(dāng)一只蝴蝶從你眼前飛過(guò)，蝴蝶的移動(dòng)軌跡會(huì)在你的視網(wǎng)膜上形成一連串變化的圖像，仿佛光在流動(dòng)，于是，你就看到了蝴蝶的飛舞路線。換句話說(shuō)，光流有記錄物體位置移動(dòng)信息的能力。光流法補(bǔ)幀，就可以簡(jiǎn)單理解為，找到物體在相鄰兩幀之間的位移，在位移中補(bǔ)出中間幀。

舉個(gè)栗子，我們看下面這張圖，假設(shè)物體在幀 1 中的位置是 1，在幀 2 中的位置是 3，在幀 3 中的位置是 5，那么，根據(jù)光流確定相鄰兩幀中物體的位移情況，就能在 1 和 3 中補(bǔ)出 2，在 3 和 5 中補(bǔ)出 4，這樣一來(lái)，原本 3 幀的視頻就補(bǔ)成了 5 幀，看起來(lái)，物體的運(yùn)動(dòng)就會(huì)流暢很多。

運(yùn)動(dòng)物體的光流

以上這三種補(bǔ)幀方法，在物體處于平移狀態(tài)的時(shí)候，效果比較好，但是，如果物體處于旋轉(zhuǎn)跳躍不停歇的狀態(tài)下，效果就要大打折扣了。比如一只正在跳旋轉(zhuǎn)舞的小熊，上一幀你還只能看到臀部，下一幀它的小短尾巴就出現(xiàn)了，像這種上一幀沒(méi)有、下一幀突然出現(xiàn)的情況，傳統(tǒng)的補(bǔ)幀方法就不太好用了。

另外，在補(bǔ)幀的時(shí)候，還有一種非常難處理、但又非常常見的情況，就是有其他物體亂入，導(dǎo)致目標(biāo)物體被遮擋。

比如你在海邊想給女朋友拍一段沖浪的視頻，但海里都是人，不停有人擋在你女朋友面前，這種情況下，如果你后期想把視頻從 24 幀補(bǔ)到 30 幀，就非常難，你想，軟件正在專心腦補(bǔ)你女朋友的沖浪動(dòng)作，一位路人甲突然出現(xiàn)，把軟件的預(yù)測(cè)給打斷了，畫面就會(huì)出現(xiàn)一種情況：疊影。

疊影大概就是這樣，你感受一下

針對(duì)這種復(fù)雜場(chǎng)景下的補(bǔ)幀，AI 的優(yōu)勢(shì)就顯現(xiàn)出來(lái)了。

在修復(fù) 100 年前的“老北京 Vlog”時(shí)，大谷用到的 AI 工具是 DAIN (Depth-Aware Video Frame Interpolation)，中文名叫做“深度感知視頻幀插值”，這是一個(gè)開源的人工智能補(bǔ)幀軟件。它的優(yōu)秀之處在于兼顧了光流和深度，不但能準(zhǔn)確追蹤物體的位置移動(dòng)，還能檢測(cè)到物體遮擋。光流剛剛已經(jīng)講過(guò)了，這里再來(lái)說(shuō)說(shuō)物體遮擋檢測(cè)。

DAIN 的架構(gòu)圖

你眼中的視頻是平面的沒(méi)錯(cuò)，但視頻中的世界卻是立體的。DAIN 利用算法，可以猜測(cè)出每一幀中不同物體的深度信息，根據(jù)深度的不同，AI 就能知道是誰(shuí)遮住了誰(shuí)，接下來(lái)，根據(jù)“遮擋物近、被遮擋物遠(yuǎn)”的原則，就能較為精準(zhǔn)地確定畫面中物體的邊緣輪廓，避免出現(xiàn)疊影，從而產(chǎn)生更好的補(bǔ)幀效果。

深度圖中，不同顏色代表不同深度值

（二）糊糊糊糊糊

對(duì)于視頻來(lái)說(shuō)，畫面流暢遠(yuǎn)遠(yuǎn)不夠，清晰也很重要。

如果畫面很朦朧，你連主演的表情都看不真切，就不能揪著 Ta 的演技口吐芬芳，從而失去一個(gè)閑談時(shí)的八卦談資，進(jìn)而你會(huì)質(zhì)疑當(dāng)下的視頻制作水平，你的不信任就會(huì)阻礙視頻行業(yè)的健康發(fā)展，為了這一切不會(huì)發(fā)生，畫面必須要清楚。

提到清晰度，你肯定會(huì)想到 480P、720P、1080P、2K、4K，那么問(wèn)題來(lái)了，怎么才能把 480P 的視頻提升到 720P 呢？重拍。

除了重拍呢？那就是超分辨率重建。

超分辨率，意思是用硬件或軟件提高原圖的分辨率，這個(gè)處理過(guò)程，就叫做超分辨率重建。

超分辨率重建技術(shù)可以分為兩種，一種是多合一，多張低分辨率圖片合成一張高分辨率圖片，另一種是單重建，用單張低分辨率圖片恢復(fù)一張高分辨率圖片。大谷在修復(fù) 100 年前的“老北京 Vlog” 時(shí)，用的擴(kuò)增分辨率工具 ESRGAN，就屬于后者。

ESRGAN 全稱叫做「增強(qiáng)型超分辨率生成對(duì)抗網(wǎng)絡(luò)」，是由 SRGAN (超分辨率生成對(duì)抗網(wǎng)絡(luò)) 升級(jí)而來(lái)，它們都是基于生成對(duì)抗網(wǎng)絡(luò)的超分辨率方案。

生成對(duì)抗網(wǎng)絡(luò) (Gan) 可以看做是兩個(gè)小人在博弈，一個(gè)小人叫做生成模型，另一個(gè)小人叫做判別模型，生成模型小人的任務(wù)是以假亂真，用超分辨率技術(shù)造出可媲美原圖的照片，而判別模型小人的任務(wù)則是明辨真假，判斷眼前的照片究竟是原圖還是對(duì)手生成的，兩個(gè)小人在長(zhǎng)期的斗智斗勇中，水平越來(lái)越高，基于這個(gè)模型訓(xùn)練出來(lái)的 AI，就能夠越來(lái)越精確的重建出高分辨率圖片。

ESRGAN 不僅繼承了前身 SRGAN 優(yōu)良的全局把控力，而且通過(guò)調(diào)整算法，彌補(bǔ)了之前的短板：容易丟失細(xì)節(jié)。如此重建出來(lái)的圖片，與原圖相差無(wú)幾。

從下圖中可以明顯看出，用 ESRGAN 重建的照片，細(xì)節(jié) (胡須) 呈現(xiàn)的更好。

SRGAN、ESRGAN 還原效果

與實(shí)際畫面的對(duì)比

但不得不說(shuō)，有時(shí)候，“畫至清、則有瑕”，畫質(zhì)太過(guò)清晰，也難免會(huì)把“瑕疵”推到觀眾眼前，這一點(diǎn)在老電影修復(fù)的過(guò)程中，就常常會(huì)發(fā)生。比如在《亮劍》修復(fù)版中，就出現(xiàn)了無(wú)比醒目的穿幫鏡頭：

截圖來(lái)源于《亮劍》修復(fù)版

所以，在此友情提示：觀影重在沉浸感，你可以專注于看劇情、看演員、看特效，別的就算了，能過(guò)就過(guò)，千萬(wàn)別較真，比如我就根本沒(méi)有注意到某部電影中精良的化妝技術(shù)。

截圖來(lái)自于某部忘了名字的電影

（三）給黑白加彩

1839 年，法國(guó)畫家達(dá)蓋爾成功做出了世界上第一臺(tái)照相機(jī)，人們驚奇的看著這個(gè)奇怪的木匣子，興奮又忐忑地圍觀著這門獨(dú)一無(wú)二的“新藝術(shù)”。然而，當(dāng)照片呈現(xiàn)在眼前，人們的興奮卻變成了失望。

照片，記錄下了每一個(gè)精致的細(xì)節(jié)，可是顏色去哪兒了呢？

本著“顧客就是上帝，上帝不能失望”的商業(yè)準(zhǔn)則，一場(chǎng)聲勢(shì)浩大的色彩捕捉行動(dòng)開始了?？茖W(xué)家、攝影師、藝術(shù)家都參與其中，拼命想找出能讓照片顯示出色彩的辦法，然而一圈下來(lái)，毫無(wú)進(jìn)展。

情急之下，一個(gè)替代方案誕生了：上色。

值得一提的是，絕大多數(shù)情況下，攝影師和上色技師并不是同一個(gè)人，最后的呈現(xiàn)效果，極大依賴于技師的理解和審美。所以你瞧，照片上色這個(gè)事兒，從一開始就屬于二次主觀創(chuàng)作。

照片上色主要經(jīng)歷了三個(gè)階段，首先是彩色膠卷問(wèn)世之前，當(dāng)時(shí)的照片上色純靠手工，也就是畫。鴉片戰(zhàn)爭(zhēng)打開了中國(guó)國(guó)門，讓攝影技術(shù)進(jìn)入了人們的視線，也催熟了國(guó)內(nèi)的照片上色行業(yè)，甚至在新中國(guó)成立之后，還專門舉辦了上色技師評(píng)比大賽，大家說(shuō)好，才是真的好。

上世紀(jì)30年代

明星周璇17歲時(shí)的手工上色照片

手工上色從工藝上來(lái)看，分為水色和油色兩種，水色就是水彩類顏料，優(yōu)點(diǎn)是畫面通透，油色則是油性顏料，優(yōu)點(diǎn)是保存持久。相比之下，油色更受歡迎。

上色不是直接用筆在照片上畫，需要先給照片褪色：先用鐵氰化鉀，把照片上的黑色變成白色；再用硫化鈉，把照片整體調(diào)成棕色；接下來(lái)，就可以在這張棕色的“畫布”上進(jìn)行填色了。

1935 年，柯達(dá)克羅姆彩色膠卷問(wèn)世，彩色攝影成了主旋律，照片上色也走進(jìn)了第二個(gè)階段：數(shù)碼調(diào)色。工具就是各位熟知的 Photoshop (PS)，可謂是“PS 在手，萬(wàn)物皆可彩色”，不變的，依然是二次主觀創(chuàng)作的屬性。

時(shí)間再往后走，照片上色來(lái)到了第三個(gè)階段：AI 填色。

人工智能本不認(rèn)識(shí)顏色，看的多了，也就會(huì)猜了。修復(fù) 100 年前的“老北京 Vlog”時(shí)，大谷用的 AI 上色工具叫做 DeOldify，是由一位美國(guó)小哥首發(fā)在 Twitter 上的開源軟件，我們先來(lái)看幾個(gè)它過(guò)往的作品。

DeOldify 的工作步驟大概是這樣：對(duì)照片進(jìn)行圖像分割，識(shí)別出圖像中的所有元素，接下來(lái)，學(xué)習(xí)大量包含這些元素的數(shù)據(jù)集，填鴨式記憶物體的常規(guī)顏色，比如海洋藍(lán)、樹木綠，最后，學(xué)以致用，給黑白照片填充上合理的顏色。

如果給人工智能一個(gè)完美的數(shù)據(jù)集，它恐怕能給靈魂涂上顏色。

起初，DeOldify 只被用來(lái)做照片上色，鑒于它出色的表現(xiàn)，才開始讓它為老電影上色，從效果來(lái)看，依然驚艷，正如在“老北京 Vlog”中的表現(xiàn)一樣，DeOldify 帶我們穿越歷史，跳出曾經(jīng)無(wú)數(shù)次背誦過(guò)的歷史考點(diǎn)，隔著百年時(shí)光，感受屬于小人物的平凡和精彩。

Jason Antic借助DeOldify

為1936年的老電影上色

而在第二彈視頻中，大谷使用了 AI 新技術(shù) DeepRemaster，在全局表現(xiàn)效果來(lái)看，更加優(yōu)于 DeOldify，這就是 AI 后浪的力量。

不過(guò)，從實(shí)際效果來(lái)看，驚艷中仍有遺憾，比如視頻中的上色不是 100% 精確的，因?yàn)槿斯ぶ悄軐W(xué)習(xí)使用的數(shù)據(jù)集，還不能涵蓋這一歷史時(shí)期的所有色彩樣本，所以只能說(shuō)，這種上色效果是合乎常理的，是人工智能基于現(xiàn)實(shí)所帶來(lái)的浪漫復(fù)現(xiàn)：給不了你真實(shí)，只能給你一種真實(shí)的可能性。

突然想起一句話：我們所謂的故鄉(xiāng)，不過(guò)是祖先流浪的最后一站。

回望視頻中的這些人，他們一生經(jīng)歷了些什么，我們不得而知，但在 AI 的修復(fù)下，時(shí)光突然被折疊，我們有幸得以瞥見他們?nèi)松械囊凰舱鎸?shí)，已經(jīng)是科技最好的饋贈(zèng)了。

是路人，也該好好路過(guò)。

自我介紹一下：我是木子Yanni，想和我做朋友的話，搜索微信：Muzi_Yanni 就可以找到我了。

后之視今

亦猶今之視昔

原標(biāo)題：《你站在街上歪頭瞅攝像機(jī)，我在 100 年后隔著屏幕瞅你》

閱讀原文

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀點(diǎn)，不代表澎湃新聞的觀點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#復(fù)原 #修復(fù)#北京 #視頻