下載客戶(hù)端

登錄

新一代算法“鑒黃師”誕生，中科院計(jì)算所研究生一作

2020-11-25 11:43

來(lái)源：澎湃新聞·澎湃號(hào)·湃客

賈浩楠發(fā)自凹非寺

量子位報(bào)道 | 公眾號(hào) QbitAI

不知道那位不愿意透露姓名的唐馬儒先生，現(xiàn)在看太陽(yáng)還是不是綠色的？

第一代網(wǎng)絡(luò)鑒黃師，犧牲小我，造福了千萬(wàn)家。

撇開(kāi)玩笑不談，維持健康良好的網(wǎng)絡(luò)環(huán)境，只靠人工鑒黃，根本不現(xiàn)實(shí)。

這也是近兩年AI在網(wǎng)絡(luò)安全應(yīng)用的熱門(mén)方向。

今年的AI頂會(huì)NeurIPS 2020，阿里安全團(tuán)隊(duì)一篇名為《啟發(fā)式領(lǐng)域適應(yīng)》（Heuristic Domain Adaptation）的論文入選。

這項(xiàng)研究的重要之處，在于將遷移學(xué)習(xí)運(yùn)用在網(wǎng)絡(luò)涉黃信息的鑒別，實(shí)現(xiàn)了同一模型在不同場(chǎng)景下的低成本訓(xùn)練部署。

AI鑒黃師有了通用性，唐馬儒們，終于解放了。

從電商到直播：一套架構(gòu)應(yīng)對(duì)全場(chǎng)景

AI鑒黃不是新鮮事，2018年，微軟、谷歌、亞馬遜等等巨頭還搞過(guò)算法鑒黃大賽，谷歌摘得桂冠。

但是，以往的鑒黃算法，只針對(duì)特定場(chǎng)景。

即使同樣針對(duì)圖像的算法，在面對(duì)不同的應(yīng)用案例，比如社交媒體或電商時(shí)，也需要重新收集數(shù)據(jù)進(jìn)行訓(xùn)練。

忽略某一特定場(chǎng)景下有針對(duì)性的訓(xùn)練，直接套用其他現(xiàn)成算法，結(jié)果是十分糟糕的。

風(fēng)險(xiǎn)或違規(guī)樣本收集成本較高，業(yè)務(wù)存在對(duì)抗和變異等特點(diǎn)，使得深度學(xué)習(xí)模型無(wú)以為繼，因此研究探索基于小樣本和增量學(xué)習(xí)技術(shù)的模型訓(xùn)練與迭代，變得非常重要。

現(xiàn)實(shí)的情況是，大部分算法面臨著少量訓(xùn)練數(shù)據(jù)和廣泛應(yīng)用場(chǎng)景的矛盾。

阿里安全的解決方案，是將經(jīng)典的“啟發(fā)式搜索”思想，融入到領(lǐng)域適應(yīng)問(wèn)題中，來(lái)解決在數(shù)據(jù)不充分情況下的模型訓(xùn)練問(wèn)題，實(shí)現(xiàn)將人工智能從現(xiàn)有數(shù)據(jù)學(xué)習(xí)到的知識(shí)遷移到未知場(chǎng)景中。

比如，在鑒黃場(chǎng)景下，目前該研究成果技術(shù)可直接從電商場(chǎng)景遷移至直播場(chǎng)景中應(yīng)用。

與電商場(chǎng)景不同，直播場(chǎng)景不僅有主播等人物，還常常有桌椅家具等繁雜的物品背景，這些差異會(huì)導(dǎo)致電商場(chǎng)景下的搜索識(shí)別技術(shù)遷移應(yīng)用效果不佳。

通過(guò)將“啟發(fā)式搜索”思想融入，研究團(tuán)隊(duì)構(gòu)建了啟發(fā)式領(lǐng)域適用的基礎(chǔ)架構(gòu)，并通過(guò)相似性、獨(dú)立性、終止點(diǎn)等角度進(jìn)行約束，使算法模型在相同計(jì)算量下，達(dá)到最佳效果。

針對(duì)復(fù)雜任務(wù)和場(chǎng)景，遷移學(xué)習(xí)的魯棒性與可擴(kuò)展性主要體現(xiàn)為如何更好地提取領(lǐng)域不變特征。

目前，這項(xiàng)成果主要用于內(nèi)容安全識(shí)別，如直播或動(dòng)漫人物及白描場(chǎng)景下是否涉黃等。

但阿里安全資深算法專(zhuān)家華棠認(rèn)為，遷移學(xué)習(xí)的特性，使得這套原理框架可以移植到其他諸多領(lǐng)域，比如在線(xiàn)教育、文娛行業(yè)等等。

核心：HDAN

在以往識(shí)別分類(lèi)任務(wù)中常采用的經(jīng)典DAN以及DANN方法中，“直接對(duì)齊”會(huì)在高維空間產(chǎn)生“障礙物”，從而影響最終算法收斂效果；

HDAN（啟發(fā)式領(lǐng)域適應(yīng)網(wǎng)絡(luò)），采取的技術(shù)方案借鑒于經(jīng)典的啟發(fā)式搜索，強(qiáng)調(diào)在識(shí)別具體物體的過(guò)程中，額外對(duì)環(huán)境場(chǎng)景等無(wú)關(guān)因素進(jìn)行建模。

在相對(duì)固定的環(huán)境與場(chǎng)景中，環(huán)境特征H(x)并不難以建模。估計(jì)的環(huán)境信息實(shí)際上相當(dāng)于啟發(fā)式信息，用來(lái)指導(dǎo)用于商品識(shí)別的特征G(x)。

同時(shí)估計(jì)的環(huán)境信息數(shù)量還要加以控制，避免過(guò)大，影響物品類(lèi)別信息的建模。

在具體的實(shí)現(xiàn)過(guò)程中，相似性方面，HDAN強(qiáng)調(diào)環(huán)境和商品特征應(yīng)該有區(qū)分，但同時(shí)也關(guān)注容易混淆的特征。

所以相似性分析最終得到的是初始時(shí)相似度的約束，而不是全部訓(xùn)練過(guò)程的約束。

在具體的三個(gè)領(lǐng)域適應(yīng)場(chǎng)景中：無(wú)監(jiān)督領(lǐng)域適應(yīng)（UDA），半監(jiān)督領(lǐng)域適應(yīng)（SSDA）和多源域領(lǐng)域適應(yīng)（MSDA），HDAN都取得了SOTA的結(jié)果。

據(jù)阿里安全方面介紹，目前這項(xiàng)算法現(xiàn)在已經(jīng)應(yīng)用到了阿里云的綠網(wǎng)安全產(chǎn)品中。

在9月底舉行的2020年人工智能開(kāi)發(fā)者大會(huì)（AIIA2020），綠網(wǎng)內(nèi)容識(shí)別技術(shù)通過(guò)中國(guó)信息通信研究院性能評(píng)估測(cè)試，還獲得了官方權(quán)威證書(shū)。

作者介紹

本文的一作，崔書(shū)豪，中科院計(jì)算所研三在讀，指導(dǎo)老師是王樹(shù)徽。

他的主要研究方向是深度領(lǐng)域適應(yīng)學(xué)習(xí)與開(kāi)放域?qū)W習(xí)技術(shù)。

崔書(shū)豪目前在阿里安全團(tuán)隊(duì)實(shí)習(xí)。

6個(gè)月前，量子位介紹過(guò)崔書(shū)豪同學(xué)一作入選CVPR 2020的成果。

今年崔書(shū)豪以第一作者向CVPR 2020提交了兩篇論文，另一篇是Gradually Vanishing Bridge for Adversarial Domain Adaptation，也被接收。

論文地址：

https://papers.nips.cc/paper/2020/file/555d6702c950ecb729a966504af0a635-Paper.pdf

— 完 —

本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容，未經(jīng)賬號(hào)授權(quán)，禁止隨意轉(zhuǎn)載。

原標(biāo)題：《NeurIPS 2020中國(guó)入選論文：新一代算法“鑒黃師”誕生，中科院計(jì)算所研究生一作》

閱讀原文

特別聲明

本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布，僅代表該作者或機(jī)構(gòu)觀(guān)點(diǎn)，不代表澎湃新聞的觀(guān)點(diǎn)或立場(chǎng)，澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪(fǎng)問(wèn)http://renzheng.thepaper.cn。

我要舉報(bào)

#鑒黃師