中文字幕欧美乱伦|手机AV永久免费|澳门堵场日韩精品|日本性爱欧美激情|蜜桃狠狠狠狠狠狠狠狠狠|成人免费视频 国|欧美国产麻豆婷婷|99久久久国产精品福利姬喷水|婷婷内射精品视频|日本欧洲一区二区

澎湃Logo
下載客戶(hù)端

登錄

  • +1

新一代算法“鑒黃師”誕生,中科院計(jì)算所研究生一作

2020-11-25 11:43
來(lái)源:澎湃新聞·澎湃號(hào)·湃客
字號(hào)

賈浩楠 發(fā)自 凹非寺

量子位 報(bào)道 | 公眾號(hào) QbitAI

不知道那位不愿意透露姓名的唐馬儒先生,現(xiàn)在看太陽(yáng)還是不是綠色的?

第一代網(wǎng)絡(luò)鑒黃師,犧牲小我,造福了千萬(wàn)家。

撇開(kāi)玩笑不談,維持健康良好的網(wǎng)絡(luò)環(huán)境,只靠人工鑒黃,根本不現(xiàn)實(shí)。

這也是近兩年AI在網(wǎng)絡(luò)安全應(yīng)用的熱門(mén)方向。

今年的AI頂會(huì)NeurIPS 2020,阿里安全團(tuán)隊(duì)一篇名為《啟發(fā)式領(lǐng)域適應(yīng)》(Heuristic Domain Adaptation)的論文入選。

這項(xiàng)研究的重要之處,在于將遷移學(xué)習(xí)運(yùn)用在網(wǎng)絡(luò)涉黃信息的鑒別,實(shí)現(xiàn)了同一模型在不同場(chǎng)景下的低成本訓(xùn)練部署。

AI鑒黃師有了通用性,唐馬儒們,終于解放了。

從電商到直播:一套架構(gòu)應(yīng)對(duì)全場(chǎng)景

AI鑒黃不是新鮮事,2018年,微軟、谷歌、亞馬遜等等巨頭還搞過(guò)算法鑒黃大賽,谷歌摘得桂冠。

但是,以往的鑒黃算法,只針對(duì)特定場(chǎng)景。

即使同樣針對(duì)圖像的算法,在面對(duì)不同的應(yīng)用案例,比如社交媒體或電商時(shí),也需要重新收集數(shù)據(jù)進(jìn)行訓(xùn)練。

忽略某一特定場(chǎng)景下有針對(duì)性的訓(xùn)練,直接套用其他現(xiàn)成算法,結(jié)果是十分糟糕的。

風(fēng)險(xiǎn)或違規(guī)樣本收集成本較高,業(yè)務(wù)存在對(duì)抗和變異等特點(diǎn),使得深度學(xué)習(xí)模型無(wú)以為繼,因此研究探索基于小樣本和增量學(xué)習(xí)技術(shù)的模型訓(xùn)練與迭代,變得非常重要。

現(xiàn)實(shí)的情況是,大部分算法面臨著少量訓(xùn)練數(shù)據(jù)和廣泛應(yīng)用場(chǎng)景的矛盾。

阿里安全的解決方案,是將經(jīng)典的“啟發(fā)式搜索”思想,融入到領(lǐng)域適應(yīng)問(wèn)題中,來(lái)解決在數(shù)據(jù)不充分情況下的模型訓(xùn)練問(wèn)題,實(shí)現(xiàn)將人工智能從現(xiàn)有數(shù)據(jù)學(xué)習(xí)到的知識(shí)遷移到未知場(chǎng)景中。

比如,在鑒黃場(chǎng)景下,目前該研究成果技術(shù)可直接從電商場(chǎng)景遷移至直播場(chǎng)景中應(yīng)用。

與電商場(chǎng)景不同,直播場(chǎng)景不僅有主播等人物,還常常有桌椅家具等繁雜的物品背景,這些差異會(huì)導(dǎo)致電商場(chǎng)景下的搜索識(shí)別技術(shù)遷移應(yīng)用效果不佳。

通過(guò)將“啟發(fā)式搜索”思想融入,研究團(tuán)隊(duì)構(gòu)建了啟發(fā)式領(lǐng)域適用的基礎(chǔ)架構(gòu),并通過(guò)相似性、獨(dú)立性、終止點(diǎn)等角度進(jìn)行約束,使算法模型在相同計(jì)算量下,達(dá)到最佳效果。

針對(duì)復(fù)雜任務(wù)和場(chǎng)景,遷移學(xué)習(xí)的魯棒性與可擴(kuò)展性主要體現(xiàn)為如何更好地提取領(lǐng)域不變特征。

目前,這項(xiàng)成果主要用于內(nèi)容安全識(shí)別,如直播或動(dòng)漫人物及白描場(chǎng)景下是否涉黃等。

但阿里安全資深算法專(zhuān)家華棠認(rèn)為,遷移學(xué)習(xí)的特性,使得這套原理框架可以移植到其他諸多領(lǐng)域,比如在線(xiàn)教育、文娛行業(yè)等等。

核心:HDAN

在以往識(shí)別分類(lèi)任務(wù)中常采用的經(jīng)典DAN以及DANN方法中,“直接對(duì)齊”會(huì)在高維空間產(chǎn)生“障礙物”,從而影響最終算法收斂效果;

HDAN(啟發(fā)式領(lǐng)域適應(yīng)網(wǎng)絡(luò)),采取的技術(shù)方案借鑒于經(jīng)典的啟發(fā)式搜索,強(qiáng)調(diào)在識(shí)別具體物體的過(guò)程中,額外對(duì)環(huán)境場(chǎng)景等無(wú)關(guān)因素進(jìn)行建模。

在相對(duì)固定的環(huán)境與場(chǎng)景中,環(huán)境特征H(x)并不難以建模。估計(jì)的環(huán)境信息實(shí)際上相當(dāng)于啟發(fā)式信息,用來(lái)指導(dǎo)用于商品識(shí)別的特征G(x)。
同時(shí)估計(jì)的環(huán)境信息數(shù)量還要加以控制,避免過(guò)大,影響物品類(lèi)別信息的建模。

在具體的實(shí)現(xiàn)過(guò)程中,相似性方面,HDAN強(qiáng)調(diào)環(huán)境和商品特征應(yīng)該有區(qū)分,但同時(shí)也關(guān)注容易混淆的特征。

所以相似性分析最終得到的是初始時(shí)相似度的約束,而不是全部訓(xùn)練過(guò)程的約束。

在具體的三個(gè)領(lǐng)域適應(yīng)場(chǎng)景中:無(wú)監(jiān)督領(lǐng)域適應(yīng)(UDA),半監(jiān)督領(lǐng)域適應(yīng)(SSDA)和多源域領(lǐng)域適應(yīng)(MSDA),HDAN都取得了SOTA的結(jié)果。

據(jù)阿里安全方面介紹,目前這項(xiàng)算法現(xiàn)在已經(jīng)應(yīng)用到了阿里云的綠網(wǎng)安全產(chǎn)品中。

在9月底舉行的2020年人工智能開(kāi)發(fā)者大會(huì)(AIIA2020),綠網(wǎng)內(nèi)容識(shí)別技術(shù)通過(guò)中國(guó)信息通信研究院性能評(píng)估測(cè)試,還獲得了官方權(quán)威證書(shū)。

作者介紹

本文的一作,崔書(shū)豪,中科院計(jì)算所研三在讀,指導(dǎo)老師是王樹(shù)徽。

他的主要研究方向是深度領(lǐng)域適應(yīng)學(xué)習(xí)與開(kāi)放域?qū)W習(xí)技術(shù)。

崔書(shū)豪目前在阿里安全團(tuán)隊(duì)實(shí)習(xí)。

6個(gè)月前,量子位介紹過(guò)崔書(shū)豪同學(xué)一作入選CVPR 2020的成果。

今年崔書(shū)豪以第一作者向CVPR 2020提交了兩篇論文,另一篇是Gradually Vanishing Bridge for Adversarial Domain Adaptation,也被接收。

論文地址:

https://papers.nips.cc/paper/2020/file/555d6702c950ecb729a966504af0a635-Paper.pdf

— 完 —

本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【量子位】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。

原標(biāo)題:《NeurIPS 2020中國(guó)入選論文:新一代算法“鑒黃師”誕生,中科院計(jì)算所研究生一作》

閱讀原文

    本文為澎湃號(hào)作者或機(jī)構(gòu)在澎湃新聞上傳并發(fā)布,僅代表該作者或機(jī)構(gòu)觀(guān)點(diǎn),不代表澎湃新聞的觀(guān)點(diǎn)或立場(chǎng),澎湃新聞僅提供信息發(fā)布平臺(tái)。申請(qǐng)澎湃號(hào)請(qǐng)用電腦訪(fǎng)問(wèn)http://renzheng.thepaper.cn。

            查看更多

            掃碼下載澎湃新聞客戶(hù)端

            滬ICP備14003370號(hào)

            滬公網(wǎng)安備31010602000299號(hào)

            互聯(lián)網(wǎng)新聞信息服務(wù)許可證:31120170006

            增值電信業(yè)務(wù)經(jīng)營(yíng)許可證:滬B2-2017116

            ? 2014-2025 上海東方報(bào)業(yè)有限公司

            反饋