騰訊云對(duì)抗黑產(chǎn),人工智能將派上什么用場(chǎng)?
11月25日,在GITC2016全球互聯(lián)網(wǎng)技術(shù)大會(huì)上,騰訊云安全首席架構(gòu)師周斌發(fā)表了題為《演進(jìn):讓安全更AI》的演講。分享中,周斌給大家系統(tǒng)介紹了大數(shù)據(jù)、深度學(xué)習(xí)、人工智能等前沿技術(shù)在騰訊云安全中的應(yīng)用。
騰訊云的天御業(yè)務(wù)安全防護(hù)系統(tǒng),正是騰訊云安全在AI實(shí)踐上的重要體現(xiàn)?;隍v訊內(nèi)外部每天PB級(jí)數(shù)據(jù)量的安全大數(shù)據(jù),天御的AI引擎能夠整合所有對(duì)抗經(jīng)驗(yàn)和數(shù)據(jù)能力,形成多個(gè)解決單一安全問(wèn)題的服務(wù)。經(jīng)過(guò)業(yè)務(wù)中的正向和反向的反饋,天御系統(tǒng)更能夠不斷優(yōu)化。目前,天御已為開(kāi)發(fā)者提供包括活動(dòng)防刷、注冊(cè)保護(hù)、登錄保護(hù)、消息過(guò)濾、圖片鑒黃、驗(yàn)證碼、反欺詐等服務(wù),幫助京東、滴滴出行、58同城、斗魚(yú)TV等企業(yè)保障業(yè)務(wù)安全。
以下是周斌本次分享的部分節(jié)選:
從與黑產(chǎn)的斗爭(zhēng)中,騰訊的安全系統(tǒng)從最初的半自動(dòng)化策略規(guī)則集,到基于大數(shù)據(jù)畫(huà)像的策略引擎,再到基于深度學(xué)習(xí)的智能對(duì)抗引擎,正一步步實(shí)現(xiàn)脫胎換骨的變化。這并非簡(jiǎn)單的模式變化,它所帶來(lái)的將是對(duì)系統(tǒng)整體架構(gòu)的全面變革。
數(shù)據(jù)+算法,騰訊云形成智能的安全引擎
安全系統(tǒng)的數(shù)據(jù)分析平臺(tái),我們會(huì)分為4個(gè)層次進(jìn)行,首先是接入層,將所有緯度的數(shù)據(jù)進(jìn)行集中,包括從基礎(chǔ)網(wǎng)絡(luò)到業(yè)務(wù)特征,像網(wǎng)絡(luò)流量、行為、內(nèi)容等多個(gè)緯度,這樣做的原因是所有分類和學(xué)習(xí)算法,必須要有基礎(chǔ)底層數(shù)據(jù),越真實(shí)越好,這樣可以保證機(jī)器模型可以精確學(xué)習(xí)。
其次是引擎和數(shù)據(jù)層,通過(guò)底層的模型,對(duì)前期采到的數(shù)據(jù)進(jìn)行分類、建模、修正,最后作為結(jié)果數(shù)據(jù)輸出到業(yè)務(wù)場(chǎng)景中。
那么,我們從頭來(lái)看,海量數(shù)據(jù)是AI的基礎(chǔ)。通過(guò)業(yè)務(wù)數(shù)據(jù)、風(fēng)險(xiǎn)數(shù)據(jù)、行業(yè)協(xié)同數(shù)據(jù)、以及公共數(shù)據(jù),我們構(gòu)建出用于風(fēng)險(xiǎn)識(shí)別的智能引擎,引擎區(qū)分出正常群體和風(fēng)險(xiǎn)群體。而單個(gè)個(gè)體通過(guò)智能引擎后,最終得出是否風(fēng)險(xiǎn)個(gè)體的結(jié)論。
算法和模型是深度學(xué)習(xí)的靈魂。機(jī)器學(xué)習(xí)中,不論是否是深層,最常見(jiàn)的形式是監(jiān)督學(xué)習(xí)。監(jiān)督訓(xùn)練需要依賴于有標(biāo)簽的數(shù)據(jù)才能進(jìn)行訓(xùn)練。然而有標(biāo)簽的數(shù)據(jù)通常是稀缺的,因此對(duì)于許多問(wèn)題,很難獲得足夠多的樣本來(lái)訓(xùn)練一個(gè)復(fù)雜的模型。對(duì)于具有強(qiáng)大表達(dá)能力的深度網(wǎng)絡(luò)模型,在不充足的數(shù)據(jù)上進(jìn)行訓(xùn)練將會(huì)導(dǎo)致過(guò)擬合。過(guò)擬合簡(jiǎn)單點(diǎn)說(shuō),是指在訓(xùn)練集上可以獲得很好的效果,但是在其他數(shù)據(jù)集上效果就不好甚至非常差。
監(jiān)督學(xué)習(xí)的另一個(gè)問(wèn)題是局部最優(yōu)問(wèn)題。使用監(jiān)督學(xué)習(xí)方法來(lái)對(duì)淺層網(wǎng)絡(luò)(只有一個(gè)隱藏層)進(jìn)行訓(xùn)練通常能夠使參數(shù)收斂到合理的范圍內(nèi)。但是當(dāng)用這種方法來(lái)訓(xùn)練深度網(wǎng)絡(luò)的時(shí)候,并不能取得很好的效果。特別是使用監(jiān)督學(xué)習(xí)方法訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),通常會(huì)涉及到優(yōu)化問(wèn)題。
鑒于監(jiān)督學(xué)習(xí)存在的這些問(wèn)題,兩千年中期,使用無(wú)監(jiān)督學(xué)習(xí)的理念開(kāi)始興起。無(wú)監(jiān)督學(xué)習(xí)不依賴有標(biāo)簽樣本,他可以幫助特定的深度網(wǎng)絡(luò)進(jìn)行“預(yù)訓(xùn)練”,但是這方面的研究還在進(jìn)行中。
回到安全上的深度學(xué)習(xí)模型訓(xùn)練上,有監(jiān)督學(xué)習(xí)能否解決問(wèn)題?我們的回答是:能!
首先,騰訊經(jīng)過(guò)18年的黑產(chǎn)對(duì)抗積累,已積累了大規(guī)模的標(biāo)注數(shù)據(jù),平臺(tái)每天處理超過(guò)35萬(wàn)億條實(shí)時(shí)計(jì)算、超過(guò)300億的IM消息、20億的UGC圖片、沉淀下超過(guò)400PB存儲(chǔ)數(shù)據(jù)!我們有豐富的惡意語(yǔ)料庫(kù)、惡意圖片庫(kù)可以用來(lái)進(jìn)行模型訓(xùn)練。但是黑產(chǎn)是在不斷演進(jìn)的,新的惡意形態(tài)出現(xiàn)該怎么辦?我們采取了兩個(gè)思路:
第一是在算法上,我們引入多目標(biāo)優(yōu)化算法,可以解決樣本不足時(shí)的過(guò)擬合問(wèn)題;
第二是在半監(jiān)督深度學(xué)習(xí)上的嘗試,不同于人工全量標(biāo)注樣本,我們只標(biāo)記關(guān)鍵點(diǎn)樣本,再由這些關(guān)鍵點(diǎn)樣本進(jìn)行擴(kuò)展,最后再拿得到的樣本進(jìn)行訓(xùn)練。
數(shù)據(jù)+算法,我們形成了智能的安全引擎。左腦進(jìn)行計(jì)算和學(xué)習(xí),右腦用專家規(guī)則來(lái)調(diào)整方向。
實(shí)際應(yīng)用中的例子——基于實(shí)時(shí)挖掘的身份鑒定
眾所周知,互聯(lián)網(wǎng)安全產(chǎn)品中,識(shí)別是否真人是否本人是一個(gè)關(guān)鍵的基礎(chǔ)的問(wèn)題。很多年前就有這樣的一個(gè)笑話,你不知道跟你聊天的是只貓還是一只狗?,F(xiàn)在我們還得問(wèn),你知道跟你聊天的是人還是機(jī)器?是人的話是他本人嗎?是不是人?這是識(shí)別自然人的范疇。是他本人嗎?是否有帳號(hào)盜用或者共用的可能?在活動(dòng)防刷、金融反欺詐等領(lǐng)域,身份鑒定都是一個(gè)繞不開(kāi)的問(wèn)題。來(lái)看下我們是怎么做的?首先,我們基于大數(shù)據(jù),使用多標(biāo)簽精準(zhǔn)刻畫(huà)建立用戶畫(huà)像。
用戶畫(huà)像涉及的維度有風(fēng)險(xiǎn)畫(huà)像,包含用戶的惡意指數(shù)、活躍指數(shù)、負(fù)反饋指數(shù)等。行為序列,用于刻畫(huà)用戶在產(chǎn)品中的行為軌跡。帳號(hào)畫(huà)像,包含用戶的社交傾向,比如是否熱衷原創(chuàng)、是否樂(lè)于分享、是否樂(lè)于互動(dòng)等,帳號(hào)畫(huà)像還有一個(gè)重要的維度是行為軌跡,包含用戶使用產(chǎn)品的區(qū)域傾向和時(shí)間段傾向。IP畫(huà)像,主要包含IP屬性和安全標(biāo)簽,我們會(huì)記錄該IP是否肉雞IP、作弊IP等,另外還有針對(duì)設(shè)備的畫(huà)像等等。
接下來(lái)看下我們使用的算法,我們使用的是基于多目標(biāo)優(yōu)化的深度學(xué)習(xí)算法。為什么使用多目標(biāo)優(yōu)化?前面我們提到有監(jiān)督深度學(xué)習(xí)的兩個(gè)問(wèn)題:過(guò)擬合與局部最優(yōu)。我們希望模型精度足夠高,同時(shí)過(guò)擬合情況足夠小,傳統(tǒng)的方法是將交叉熵(也就是誤差),和規(guī)范化(這個(gè)是用來(lái)衡量是否過(guò)擬合的一個(gè)量化)進(jìn)行加權(quán),組成一個(gè)最終的目標(biāo)來(lái)訓(xùn)練模型。多目標(biāo)優(yōu)化是同時(shí)將誤差和規(guī)范化作為目標(biāo),也就是模型要求同時(shí)達(dá)到最優(yōu)。
這樣可以全面覆蓋搜索空間,最終實(shí)現(xiàn)跳出局部最優(yōu),避免過(guò)擬合。這三張圖顯示了迭代的過(guò)程。橫坐標(biāo)和豎坐標(biāo)分別表示誤差和規(guī)范化,構(gòu)成了搜索空間。通過(guò)個(gè)體間的信息交換機(jī)制,經(jīng)過(guò)若干輪迭代,算法在搜索空間中越過(guò)了很多局部最優(yōu),得到了較好的結(jié)果。就可以根據(jù)需要選擇其中一個(gè)模型應(yīng)用到生產(chǎn)環(huán)境中實(shí)施打擊。
整個(gè)實(shí)現(xiàn)過(guò)程,我們使用了2TB的畫(huà)像數(shù)據(jù),涉及到380個(gè)細(xì)分維度,我們使用的底層分析平臺(tái)保證了身份鑒定整個(gè)自學(xué)習(xí)過(guò)程以實(shí)時(shí)的方式實(shí)現(xiàn)。安全策略的精準(zhǔn)度至少能達(dá)到兩個(gè)9。
另外一個(gè)基于深度學(xué)習(xí)的應(yīng)用是色情圖片識(shí)別,騰訊的色情圖片識(shí)別依托于騰訊優(yōu)圖的DeepEye主動(dòng)識(shí)別模型,應(yīng)用在空間、QQ、天御直播鑒黃上,效果在業(yè)內(nèi)處于領(lǐng)先優(yōu)勢(shì)。
因?yàn)轵v訊有著十余年黑產(chǎn)對(duì)抗經(jīng)驗(yàn),有天然的海量大數(shù)據(jù),也有著成功應(yīng)用于的智能對(duì)抗方法,我們能很好地識(shí)別自然人和黑產(chǎn)用戶,很好地識(shí)別垃圾文本、惡意圖片,很好地發(fā)現(xiàn)更多的惡意模式,我們將這些成熟的業(yè)務(wù)安全能力開(kāi)發(fā)出來(lái),為互聯(lián)網(wǎng)金融、電商、游戲、直播提供業(yè)務(wù)安全解決方案,共享我們的黑產(chǎn)對(duì)抗成果。
這也是以SaaS化服務(wù)模式,將這些數(shù)據(jù)和能力整合,在騰訊云上向業(yè)界開(kāi)放了反黑產(chǎn)利器——天御。一年來(lái),天御已經(jīng)幫助我們大量電商企業(yè)應(yīng)對(duì)刷單、金融企業(yè)應(yīng)對(duì)詐騙、直播客戶鑒黃上發(fā)揮了重要作用。今年的一些電商活動(dòng)中,天御直接攔下了超過(guò)80%惡意刷單。