本技術(shù)涉及人工智能,特別涉及一種內(nèi)容審核方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、隨著移動互聯(lián)網(wǎng)行業(yè)發(fā)展,全網(wǎng)內(nèi)容資源爆發(fā)式增長,包括信息流內(nèi)容、短視頻、圖片等內(nèi)容,內(nèi)容安全審核是保障信息健康、合法傳播的關(guān)鍵環(huán)節(jié)。目前普遍是通過人工審核或者以系統(tǒng)性的機器審核。然而現(xiàn)有智能文本自動審核系統(tǒng)在內(nèi)容審核過程中,可能會錯誤地將合規(guī)內(nèi)容判定為違規(guī),或者未能及時發(fā)現(xiàn)真正的違規(guī)內(nèi)容,這不僅可能限制了正常用戶的言論自由,也可能讓有害內(nèi)容逃避監(jiān)管。
2、因而現(xiàn)有技術(shù)還有待改進和提高。
技術(shù)實現(xiàn)思路
1、本技術(shù)要解決的技術(shù)問題在于,針對現(xiàn)有技術(shù)的不足,提供一種內(nèi)容審核方法、系統(tǒng)、設(shè)備及介質(zhì)。
2、為了解決上述技術(shù)問題,本技術(shù)第一方面提供了一種內(nèi)容審核方法,其中,所述的內(nèi)容審核方法具體包括:
3、接收用戶輸入的被檢測文檔,并對所述被檢測文檔進行多級敏感詞檢測,其中,所述多級敏感詞檢測用于對被檢測文檔進行多個敏感等級檢測;
4、若所述被檢測文檔的多級敏感詞檢測通過,將所述被檢測文檔輸入經(jīng)過訓(xùn)練的安全意圖分類模型,通過所述安全意圖分類模型輸出所述被檢測文檔的意圖類別;
5、當(dāng)所述意圖類別為非敏感意圖時,獲取所述被檢測文檔對應(yīng)的業(yè)務(wù)數(shù)據(jù),并對所述業(yè)務(wù)數(shù)據(jù)進行多級敏感詞檢測;
6、若所述業(yè)務(wù)數(shù)據(jù)的多級敏感詞檢測通過,判定為內(nèi)容審核通過。
7、所述的內(nèi)容審核方法,其中,所述接收用戶輸入的被檢測文檔之后,所述方法還包括:
8、為所述被檢測文檔建立交互會話;
9、通過所述交互會話執(zhí)行所述被檢測文檔的內(nèi)容審核查詢,并維護內(nèi)容審核查詢的查詢狀態(tài),其中,所述查詢狀態(tài)包括敏感詞結(jié)果標簽,以及優(yōu)先級標簽和/或生成新的被檢測文檔的生成次數(shù)。
10、所述的內(nèi)容審核方法,其中,所述對所述被檢測文檔進行多級敏感詞檢測具體包括:
11、檢測預(yù)設(shè)等待隊列中是否存在等待文檔;
12、當(dāng)未存在等待文檔時,對所述被檢測文檔進行多級敏感詞檢測;
13、當(dāng)存在等待文檔時,獲取所述被檢測文檔的優(yōu)先級,并將所述被檢測文檔的優(yōu)先級與各等待文檔的優(yōu)先級進行比較;
14、若所述被檢測文檔的優(yōu)先級大于各等待文檔的優(yōu)先級,則對所述被檢測文檔進行多級敏感詞檢測,若至少一個等待文檔的優(yōu)先級高于所述被檢測文檔的優(yōu)先級,則將所述被檢測文檔送入所述預(yù)設(shè)等待隊列內(nèi)。
15、所述的內(nèi)容審核方法,其中,所述多級敏感詞檢測的檢測過程具體包括:
16、對目標文檔進行分詞,得到所述目標文檔對應(yīng)的詞語集合,其中,所述目標文檔為進行多級敏感詞檢測的文檔,其為被檢測文檔或業(yè)務(wù)數(shù)據(jù);
17、將所述詞語集合與預(yù)設(shè)多級敏感詞庫進行匹配,其中,所述預(yù)設(shè)多級敏感詞庫包括強敏感詞庫和弱敏感詞庫;
18、若所述詞語集合在強敏感詞庫中匹配到強敏感詞,或者在弱敏感詞庫中至少匹配到預(yù)設(shè)數(shù)量的弱敏感詞,則判定所述多級敏感詞檢測未通過,進而判定所述被檢測文檔的內(nèi)容審核未通過;
19、若所述詞語集合在強敏感詞庫中未匹配到強敏感詞,且在弱敏感詞庫中匹配到少于預(yù)設(shè)數(shù)量的弱敏感詞,則判定所述多級敏感詞檢測通過。
20、所述的內(nèi)容審核方法,其中,所述將所述詞語集合與預(yù)設(shè)多級敏感詞庫進行匹配具體包括:
21、將所述詞語集合與預(yù)設(shè)多級敏感詞庫中的強敏感詞庫進行匹配;
22、當(dāng)所述詞語集合在強敏感詞庫中未匹配到強敏感詞,則將所述詞語集合與預(yù)設(shè)多級敏感詞庫中的弱敏感詞庫進行匹配。
23、所述的內(nèi)容審核方法,其中,所述安全意圖分類模型的訓(xùn)練數(shù)據(jù)集包括多種語種的訓(xùn)練樣本數(shù)據(jù),以使得所述安全意圖分類模型適用于多種語種的被檢測文檔。
24、所述的內(nèi)容審核方法,其中,所述當(dāng)所述意圖類別為非敏感意圖時,獲取所述被檢測文檔對應(yīng)的業(yè)務(wù)數(shù)據(jù)具體包括:
25、當(dāng)所述意圖類別為非敏感意圖時,將所述被檢測文檔輸入業(yè)務(wù)模塊,通過業(yè)務(wù)模塊輸出業(yè)務(wù)數(shù)據(jù)。
26、所述的內(nèi)容審核方法,其中,所述方法還包括:
27、當(dāng)所述意圖類別為敏感意圖時,判定為內(nèi)容審核不通過。
28、所述的內(nèi)容審核方法,其中,所述若所述業(yè)務(wù)數(shù)據(jù)的多級敏感詞檢測通過,判定為內(nèi)容審核通過具體包括:
29、若所述業(yè)務(wù)數(shù)據(jù)的多級敏感詞檢測通過,檢測所述業(yè)務(wù)數(shù)據(jù)在多級敏感詞檢測中是否檢測到除最高敏感等級外的其他敏感等級的敏感詞;
30、當(dāng)檢測到除最高敏感等級外的其他敏感等級的敏感詞時,將所述被檢測文檔與所述業(yè)務(wù)數(shù)據(jù)拼接以生成新的被檢測文檔,將新的被檢測文檔作為所述被檢測文檔,執(zhí)行對所述被檢測文檔進行多級敏感詞檢測的步驟;
31、當(dāng)未檢測到除最高敏感等級外的其他敏感等級的敏感詞時,判定為內(nèi)容審核通過。
32、所述的內(nèi)容審核方法,其中,所述若所述業(yè)務(wù)數(shù)據(jù)的多級敏感詞檢測通過,判定為內(nèi)容審核通過具體包括:
33、若所述業(yè)務(wù)數(shù)據(jù)的多級敏感詞檢測通過,檢測所述業(yè)務(wù)數(shù)據(jù)在多級敏感詞檢測中是否檢測到除最高敏感等級外的其他敏感等級的敏感詞;
34、當(dāng)檢測到除最高敏感等級外的其他敏感等級的敏感詞時,將所述被檢測文檔與所述業(yè)務(wù)數(shù)據(jù)拼接以生成新的被檢測文檔,將新的被檢測文檔作為所述被檢測文檔,執(zhí)行將所述被檢測文檔輸入經(jīng)過訓(xùn)練的安全意圖分類模型的步驟;
35、當(dāng)未檢測到除最高敏感等級外的其他敏感等級的敏感詞時,判定為內(nèi)容審核通過。
36、所述的內(nèi)容審核方法,其中,所述將所述被檢測文檔與所述業(yè)務(wù)數(shù)據(jù)拼接以生成新的被檢測文檔之后,所述方法還包括:
37、檢測生成新的被檢測文檔的生成次數(shù);
38、若所述生成次數(shù)小于或者等于預(yù)設(shè)次數(shù)閾值,則執(zhí)行將新的被檢測文檔作為所述被檢測文檔的步驟;
39、若所述生成次數(shù)大于預(yù)設(shè)次數(shù)閾值,判定為內(nèi)容審核不通過。
40、所述的內(nèi)容審核方法,其中,所述內(nèi)容審核方法還包括:
41、當(dāng)所述被檢測文檔被判定為內(nèi)容審核不通過時,為所述被檢測文檔生成預(yù)警信息,將所述被檢測文檔傳輸至審核后臺進行審核分析,以挖掘所述被檢測文檔中未包含于預(yù)設(shè)多級敏感詞庫中的敏感詞,并將挖掘到的敏感詞反饋至預(yù)設(shè)多級敏感詞庫內(nèi)。
42、本技術(shù)第二方面提供了一種內(nèi)容審核系統(tǒng),其中,所述的內(nèi)容審核系統(tǒng)具體包括:
43、第一多級敏感詞檢測模塊,用于接收用戶輸入的被檢測文檔,并對所述被檢測文檔進行多級敏感詞檢測;
44、意圖審核模塊,用于在所述被檢測文檔的多級敏感詞檢測通過時,將所述被檢測文檔輸入經(jīng)過訓(xùn)練的安全意圖分類模型,通過所述安全意圖分類模型輸出所述被檢測文檔的意圖類別;
45、第二多級敏感詞檢測模塊,用于當(dāng)所述意圖類別為非敏感意圖時,獲取所述被檢測文檔對應(yīng)的業(yè)務(wù)數(shù)據(jù),并對所述業(yè)務(wù)數(shù)據(jù)進行多級敏感詞檢測;
46、判定模塊,用于在所述業(yè)務(wù)數(shù)據(jù)的多級敏感詞檢測通過時判定為內(nèi)容審核通過。
47、本技術(shù)第三方面提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)存儲有一個或者多個程序,所述一個或者多個程序可被一個或者多個處理器執(zhí)行,以實現(xiàn)如上任一所述的內(nèi)容審核方法中的步驟。
48、本技術(shù)第四方面提供了一種終端設(shè)備,其包括:處理器和存儲器;
49、所述存儲器上存儲有可被所述處理器執(zhí)行的計算機可讀程序;
50、所述處理器執(zhí)行所述計算機可讀程序時實現(xiàn)如上任一所述的內(nèi)容審核方法中的步驟。
51、有益效果:
52、1、本技術(shù)先通過多級敏感詞檢測對被檢測文檔進行審核,然后在多級敏感詞檢測通過后,再采用經(jīng)過預(yù)先訓(xùn)練的安全意圖分類模型對被檢測文檔進行內(nèi)容審核,這樣遞增式檢測可以提高內(nèi)容審核的準確性,進而可以減少誤判和漏判的問題。
53、2、本技術(shù)通過采用基于多種語種的訓(xùn)練樣本數(shù)據(jù)訓(xùn)練的安全意圖分類模型,使得安全意圖分類模型能夠支持多種語種的被檢測文檔,從而可以準確識別各種語言中的敏感詞匯和表達方式,提高了意圖審核方法的適應(yīng)范圍。
54、3、本技術(shù)對于審核不通過的被檢測文檔,會將該被檢測文檔中新出現(xiàn)的敏感詞送入預(yù)設(shè)多級敏感詞庫以動態(tài)更新預(yù)設(shè)多級敏感詞庫,這樣可以及時有效地識別和處理這些新出現(xiàn)的敏感詞語。