- +1
新一代算法“鑒黃師”誕生,中科院計(jì)算所研究生一作
賈浩楠 發(fā)自 凹非寺
量子位 報(bào)道 | 公眾號(hào) QbitAI
不知道那位不愿意透露姓名的唐馬儒先生,現(xiàn)在看太陽(yáng)還是不是綠色的?

撇開(kāi)玩笑不談,維持健康良好的網(wǎng)絡(luò)環(huán)境,只靠人工鑒黃,根本不現(xiàn)實(shí)。
這也是近兩年AI在網(wǎng)絡(luò)安全應(yīng)用的熱門(mén)方向。
今年的AI頂會(huì)NeurIPS 2020,阿里安全團(tuán)隊(duì)一篇名為《啟發(fā)式領(lǐng)域適應(yīng)》(Heuristic Domain Adaptation)的論文入選。
這項(xiàng)研究的重要之處,在于將遷移學(xué)習(xí)運(yùn)用在網(wǎng)絡(luò)涉黃信息的鑒別,實(shí)現(xiàn)了同一模型在不同場(chǎng)景下的低成本訓(xùn)練部署。
AI鑒黃師有了通用性,唐馬儒們,終于解放了。
從電商到直播:一套架構(gòu)應(yīng)對(duì)全場(chǎng)景
AI鑒黃不是新鮮事,2018年,微軟、谷歌、亞馬遜等等巨頭還搞過(guò)算法鑒黃大賽,谷歌摘得桂冠。
但是,以往的鑒黃算法,只針對(duì)特定場(chǎng)景。
即使同樣針對(duì)圖像的算法,在面對(duì)不同的應(yīng)用案例,比如社交媒體或電商時(shí),也需要重新收集數(shù)據(jù)進(jìn)行訓(xùn)練。

風(fēng)險(xiǎn)或違規(guī)樣本收集成本較高,業(yè)務(wù)存在對(duì)抗和變異等特點(diǎn),使得深度學(xué)習(xí)模型無(wú)以為繼,因此研究探索基于小樣本和增量學(xué)習(xí)技術(shù)的模型訓(xùn)練與迭代,變得非常重要。

阿里安全的解決方案,是將經(jīng)典的“啟發(fā)式搜索”思想,融入到領(lǐng)域適應(yīng)問(wèn)題中,來(lái)解決在數(shù)據(jù)不充分情況下的模型訓(xùn)練問(wèn)題,實(shí)現(xiàn)將人工智能從現(xiàn)有數(shù)據(jù)學(xué)習(xí)到的知識(shí)遷移到未知場(chǎng)景中。
比如,在鑒黃場(chǎng)景下,目前該研究成果技術(shù)可直接從電商場(chǎng)景遷移至直播場(chǎng)景中應(yīng)用。
與電商場(chǎng)景不同,直播場(chǎng)景不僅有主播等人物,還常常有桌椅家具等繁雜的物品背景,這些差異會(huì)導(dǎo)致電商場(chǎng)景下的搜索識(shí)別技術(shù)遷移應(yīng)用效果不佳。

針對(duì)復(fù)雜任務(wù)和場(chǎng)景,遷移學(xué)習(xí)的魯棒性與可擴(kuò)展性主要體現(xiàn)為如何更好地提取領(lǐng)域不變特征。
目前,這項(xiàng)成果主要用于內(nèi)容安全識(shí)別,如直播或動(dòng)漫人物及白描場(chǎng)景下是否涉黃等。
但阿里安全資深算法專(zhuān)家華棠認(rèn)為,遷移學(xué)習(xí)的特性,使得這套原理框架可以移植到其他諸多領(lǐng)域,比如在線(xiàn)教育、文娛行業(yè)等等。
核心:HDAN
在以往識(shí)別分類(lèi)任務(wù)中常采用的經(jīng)典DAN以及DANN方法中,“直接對(duì)齊”會(huì)在高維空間產(chǎn)生“障礙物”,從而影響最終算法收斂效果;
HDAN(啟發(fā)式領(lǐng)域適應(yīng)網(wǎng)絡(luò)),采取的技術(shù)方案借鑒于經(jīng)典的啟發(fā)式搜索,強(qiáng)調(diào)在識(shí)別具體物體的過(guò)程中,額外對(duì)環(huán)境場(chǎng)景等無(wú)關(guān)因素進(jìn)行建模。


在具體的實(shí)現(xiàn)過(guò)程中,相似性方面,HDAN強(qiáng)調(diào)環(huán)境和商品特征應(yīng)該有區(qū)分,但同時(shí)也關(guān)注容易混淆的特征。

在具體的三個(gè)領(lǐng)域適應(yīng)場(chǎng)景中:無(wú)監(jiān)督領(lǐng)域適應(yīng)(UDA),半監(jiān)督領(lǐng)域適應(yīng)(SSDA)和多源域領(lǐng)域適應(yīng)(MSDA),HDAN都取得了SOTA的結(jié)果。

在9月底舉行的2020年人工智能開(kāi)發(fā)者大會(huì)(AIIA2020),綠網(wǎng)內(nèi)容識(shí)別技術(shù)通過(guò)中國(guó)信息通信研究院性能評(píng)估測(cè)試,還獲得了官方權(quán)威證書(shū)。
作者介紹
本文的一作,崔書(shū)豪,中科院計(jì)算所研三在讀,指導(dǎo)老師是王樹(shù)徽。
他的主要研究方向是深度領(lǐng)域適應(yīng)學(xué)習(xí)與開(kāi)放域?qū)W習(xí)技術(shù)。
崔書(shū)豪目前在阿里安全團(tuán)隊(duì)實(shí)習(xí)。

今年崔書(shū)豪以第一作者向CVPR 2020提交了兩篇論文,另一篇是Gradually Vanishing Bridge for Adversarial Domain Adaptation,也被接收。
論文地址:
https://papers.nips.cc/paper/2020/file/555d6702c950ecb729a966504af0a635-Paper.pdf
— 完 —
本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。
原標(biāo)題:《NeurIPS 2020中國(guó)入選論文:新一代算法“鑒黃師”誕生,中科院計(jì)算所研究生一作》
本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀(guān)點(diǎn),不代表澎湃新聞的觀(guān)點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪(fǎng)問(wèn)http://renzheng.thepaper.cn。





- 報(bào)料熱線(xiàn): 021-962866
- 報(bào)料郵箱: news@thepaper.cn
滬公網(wǎng)安備31010602000299號(hào)
互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006
增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116
? 2014-2025 上海東方報(bào)業(yè)有限公司