技術(shù)特征:
技術(shù)總結(jié)
本申請(qǐng)?zhí)峁┮环N識(shí)別違禁網(wǎng)頁(yè)的方法、裝置及服務(wù)器,該方法包括:確定待匹配網(wǎng)頁(yè)的網(wǎng)頁(yè)正文對(duì)應(yīng)的第一二維數(shù)組,第一二維數(shù)組包括網(wǎng)頁(yè)正文經(jīng)過(guò)分詞得到的全部詞以及每一詞在網(wǎng)頁(yè)正文中出現(xiàn)的次數(shù);從樣本庫(kù)中獲取與多個(gè)違禁網(wǎng)頁(yè)對(duì)應(yīng)的多個(gè)第二二維數(shù)組,每一個(gè)第二二維數(shù)組包括對(duì)應(yīng)違禁網(wǎng)頁(yè)經(jīng)過(guò)分詞得到的全部詞以及每一個(gè)詞在該對(duì)應(yīng)違禁網(wǎng)頁(yè)中出現(xiàn)的次數(shù);依次確定第一二維數(shù)組與多個(gè)第二二維數(shù)組中的每一個(gè)第二二維數(shù)組對(duì)應(yīng)的相似度值;如果多個(gè)相似度值中最大的相似度值大于第一預(yù)設(shè)閾值,確定待匹配網(wǎng)頁(yè)為違禁網(wǎng)頁(yè)。本申請(qǐng)的技術(shù)方案可以避免現(xiàn)有技術(shù)中通過(guò)關(guān)鍵詞檢測(cè)時(shí)由于關(guān)鍵詞的變形得到錯(cuò)誤的檢測(cè)結(jié)果,提高對(duì)待匹配網(wǎng)頁(yè)監(jiān)控的準(zhǔn)確度。
技術(shù)研發(fā)人員:闕育飛
受保護(hù)的技術(shù)使用者:阿里巴巴集團(tuán)控股有限公司
技術(shù)研發(fā)日:2016.09.12
技術(shù)公布日:2017.08.29