欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于文本邏輯特征的語義風險計算方法

文檔序號:10594746閱讀:263來源:國知局
一種基于文本邏輯特征的語義風險計算方法
【專利摘要】本發(fā)明公開了一種基于文本邏輯特征的語義風險計算方法,包括:結(jié)構(gòu)類型預定義,構(gòu)成預定類型的語義邏輯組合;將待處理文本按段落切分成若干文本,并作切詞處理;對待處理段落的詞語組合,根據(jù)預定義的預定類型的語義邏輯組合進行匹配,遍歷預定類型的語義邏輯組合,對命中所有定義語義結(jié)構(gòu)的詞語集合計算段落風險值;對所有段落,執(zhí)行匹配計算處理;歸類計算待處理文本所有段落匹配的風險集合,按照段落權(quán)重、段落風險值進行累加計算,規(guī)約計算后獲得順序化的風險及其分值。通過本發(fā)明能夠?qū)崿F(xiàn)高效準確的風險挖掘處理。
【專利說明】
-種基于文本還輯特征的語義風險計算方法
技術(shù)領域
[0001] 本發(fā)明設及中文語義處理及數(shù)據(jù)挖掘技術(shù)領域,尤其設及大規(guī)模數(shù)據(jù)下的語義風 險自動識別處理方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,尤其是近年來互聯(lián)網(wǎng)數(shù)據(jù)的爆發(fā)式增長,風險的識 別與控制也愈發(fā)重要,典型的應用場景包括金融、情報等領域,W金融為例,現(xiàn)有的金融風 控技術(shù)主要是針對W財務數(shù)據(jù)為代表的結(jié)構(gòu)化數(shù)據(jù)的分析,但如何在海量的、非結(jié)構(gòu)化的 互聯(lián)網(wǎng)數(shù)據(jù)中快速識別風險信息,成為一項重要的課題,也是W銀行為代表的金融機構(gòu)極 為關(guān)屯、的內(nèi)容。
[0003] 現(xiàn)有的語義風險分析多基于關(guān)鍵詞或關(guān)鍵詞庫進行過濾,缺乏模型的支撐,在面 對復雜文本或復雜語義時既無法準確命中對象,也無法識別風險,因此在海量數(shù)據(jù)文本規(guī) 模下,無法實現(xiàn)高效準確的風險挖掘處理,如何設計一種能夠在海量多樣化的數(shù)據(jù)集合下 使用的語義風險挖掘技術(shù)是非常有意義的。

【發(fā)明內(nèi)容】

[0004] 有鑒于此,本發(fā)明的主要目的在于提供一種大規(guī)模數(shù)據(jù)下語義風險信息的自動識 別方法,能夠?qū)A慷鄻踊幕ヂ?lián)網(wǎng)數(shù)據(jù)進行風險計算與判斷。
[0005] 為達到上述目的,本發(fā)明的技術(shù)方案是運樣實現(xiàn)的:
[0006] -種基于文本邏輯特征的語義風險計算方法,包括:
[0007] 步驟1.語義結(jié)構(gòu)類型預定義:按語義邏輯定義多個語義結(jié)構(gòu),將多個語義結(jié)構(gòu)進 行組合,構(gòu)成預定類型的語義邏輯組合;
[000引步驟2 .風險類型預定義:根據(jù)語義邏輯組合定義語義風險類型,每類語義風險類 型均滿足語義邏輯組合規(guī)范;
[0009] 步驟3 .將待處理文本按段落切分成若干文本,并作切詞處理,形成各段落的詞語 集合;
[0010] 步驟4.對待處理段落的詞語集合,根據(jù)步驟2預定義的語義風險類型調(diào)用語義風 險預定義結(jié)構(gòu)進行匹配,對匹配成功的語義風險類型,計算段落風險原始值,其中匹配成功 是指該風險類型的預定義語義結(jié)構(gòu)均能在該段落集合中找到匹配詞;
[0011] 步驟5.對所有段落的詞語組合,執(zhí)行如步驟4所述步驟處理;
[0012] 步驟6.對所有已完成計算的段落風險原始值,按風險類型進行多段落加權(quán)計算, 得到綜合加權(quán)計算的風險終值;
[0013] 步驟7.對匹配成功的語義風險類型相對應的風險終值隊列進行規(guī)約計算,得到歸 一化的風險值。
[0014] 所述的一種基于文本邏輯特征的語義風險計算方法,進一步的:
[0015] 所述多個語義結(jié)構(gòu)均為詞組集合。
[0016] 所述的一種基于文本邏輯特征的語義風險計算方法,進一步的:
[0017] 所述步驟4中對待處理段落的詞語組合,根據(jù)步驟2預定義的語義風險類型調(diào)用語 義風險預定義結(jié)構(gòu)進行匹配,對匹配成功的語義風險類型,計算段落風險值具體為:獲取預 定義的語義風險類型的語義邏輯組合,對該語義邏輯組合中的每一種語義結(jié)構(gòu)進行記錄, 并與所處理的任意段落的詞語集合進行遍歷對比,如果所述預定義語義風險類型的所有語 義結(jié)構(gòu)都有匹配結(jié)果,則匹配成功,對命中所有預定義語義結(jié)構(gòu)的詞語集合計算段落風險 值。
[0018] 所述的一種基于文本邏輯特征的語義風險計算方法,進一步的:
[0019] 所述步驟1中的按語義邏輯定義的多個語義結(jié)構(gòu)包括:A:對象、B:地點、C:行為、D: 特征,所述語義結(jié)構(gòu)A-D均為詞組集合;
[0020] 所述步驟1中構(gòu)成的預定類型的語義邏輯組合包括:
[0021] 1)組合1:對象+地點+行為+特征
[0022] 2)組合2:對象+地點+特征
[0023] 3)組合3:對象+行為+特征
[0024] 4)組合4:對象+特征。
[0025] 所述的一種基于文本邏輯特征的語義風險計算方法,進一步的:
[0026] 所述步驟4計算段落風險原始值包括:
[0027] 1)定義Xii為集合A中的詞語,0<i<n,n為正整數(shù);
[002引2)定義X21為集合帥的詞語,0<i<n,n為正整數(shù);
[0029] 3)定義X31為集合帥的詞語,0<i<n,n為正整數(shù);
[0030] 4)定義X41為集合帥的詞語,0<i<n,n為正整數(shù);
[0031] 5)定義N(Xii)為集合A中某詞語Xii在待匹配文本中出現(xiàn)的次數(shù),包括重復的情況, 又稱詞頻,同理定義N(Mi)/N(Mi)/N(X4i);
[0032] 6)定義M(Xi)為集合A中所有已定義關(guān)鍵詞的數(shù)量,同理定義M(X2)/M(X3)/M(X4);
[0033] 7)定義P(Xi)為在待匹配對象中出現(xiàn)過的集合A中的關(guān)鍵詞的數(shù)量,該數(shù)量不包括 重復出現(xiàn)的情況,同理定義P(X2)/P(X3)/P(X4);
[0034] 8)按W下公式計算段落的原始風險值:
[0035]
[0036] 其中CO為影響因子,a、e為限定系數(shù),分別限定單段落命中關(guān)鍵詞個數(shù)上限及關(guān)鍵 詞頻次最大值,e是自然常數(shù),n為正整數(shù)。
[0037] 所述的一種基于文本邏輯特征的語義風險計算方法,進一步的:
[0038] 所述步驟6計算綜合加權(quán)計算的風險終值包括:
[0039] 定義f (X)為預定風險類型,r(x)為該特定風險的段落原始值,rtDmUi)為綜合加權(quán) 計算的風險終值,當f (X)僅在其中一個段落i中出現(xiàn)時,即為ri(x),否則按W下公式 進行計算:
[0040] ;Tc〇m(x)=Max(;ri(x),... Jn(X))。
[0041] 所述的一種基于文本邏輯特征的語義風險計算方法,進一步的:
[0042] 所述步驟7采用分段歸一化方式進行規(guī)約計算:即對步驟6中計算得到的風險終 值,根據(jù)統(tǒng)計結(jié)果進行分段,將該終值置于基于統(tǒng)計結(jié)果確定的數(shù)值分段區(qū)間中,按W下公 式,計算歸一化的風險值:
[0043]
[0044] 其中rfin(x)為歸一化后的風險值,t為分段區(qū)間號,mint為該分段區(qū)間數(shù)值極小 值,maxt為該分段區(qū)間數(shù)值極小值,Lmin為該分段對應歸一化區(qū)間極小值,Lmax為該分段對 應歸一化區(qū)間極大值。
[0045] -種基于網(wǎng)絡信息的風險識別方法,包括如上所述的基于文本邏輯特征的語義風 險計算方法;
[0046] 還包括將歸一化后得到的風險值與預設的風險值闊值進行比較,如果計算得到的 歸一化的風險值大于預設的風險值闊值,則確認存在風險,輸出該風險值所對應風險類型, 風險識別成功;
[0047] 其中待處理的文本為從互聯(lián)網(wǎng)抓取的網(wǎng)頁文本信息。
[0048] -種基于網(wǎng)絡信息風險報警方法,包括如上所述的風險識別方法,還包括:
[0049] 在風險識別成功后,發(fā)出風險報警信息,包括發(fā)送包含有風險類型的信息的郵件、 短息或推送消息。
[0050] -種基于文本邏輯特征的語義風險計算方法,包括:
[0051] a)風險結(jié)構(gòu)預定義,對不同的風險類型,按照對象(A)、地點(B)、行為(C)、特征(D) 等語義結(jié)構(gòu)進行構(gòu)造,每類風險均為不同語義結(jié)構(gòu)的不同方式組合,定義為風險語義邏輯 組合RU);
[0052] 在所述的步驟a)中,設定語義結(jié)構(gòu)A= {曰1,…,an},其中n為大于等于1的整數(shù),a廣 an是語義結(jié)構(gòu)A中的語義詞;
[005;3]設定語義結(jié)構(gòu)B= {bi,…,bn},其中n為大于等于1的整數(shù),bi-bn是語義結(jié)構(gòu)帥的 語義詞;
[0054] 設定語義結(jié)構(gòu)C= kl,,…,Cn},其中n為大于等于1的整數(shù),Cl-Cn是語義結(jié)構(gòu)帥的 語義詞;
[0055] 設定語義結(jié)構(gòu)D= {di,,…,dn},其中n為大于等于1的整數(shù),山-dn是語義結(jié)構(gòu)D中的 語義詞;
[0056] b)將待處理文本text按段落切分成若干文本paragraph,并作切詞處理;
[0057] C)對任意段落文本paragraph,遍歷風險類型f (X),對命中所有定義語義結(jié)構(gòu)的風 險集合RU),統(tǒng)計其各語義結(jié)構(gòu)命中詞及其詞頻,形成(命中詞-詞頻-權(quán)重)的映射表,并計 算單個結(jié)構(gòu)所有命中詞在原始詞表中的覆蓋度Cr對所述段落的任意風險集合RU),就語義 結(jié)構(gòu)作詞頻及覆蓋度的加權(quán)計算,計算段落風險值r(x);
[0058] d)對所有段落,執(zhí)行如C所述步驟處理;
[0059] e)歸類計算待處理文本所有段落匹配的風險集合,按照段落權(quán)重、段落風險值進 行累加計算,規(guī)約計算后獲得順序化的風險及其分值。
【附圖說明】
[0060] 圖la為本發(fā)明語義結(jié)構(gòu)定義示意圖;
[0061] 圖化為本發(fā)明語義邏輯組合示意圖;
[0062] 圖2為本發(fā)明方法的流程圖。
【具體實施方式】
[0063] 下面結(jié)合附圖1、2和實施例對本發(fā)明做進一步的描述。
[0064] 語義風險類型定義將不同的語義風險按語義邏輯定義為四大語義結(jié)構(gòu),分別包括 對象(A)、地點(B)、行為(C)、特征(D),A-D等語義結(jié)構(gòu)均為詞組集合:
[0065] 設定語義結(jié)構(gòu)A= {曰1,…,an},其中n為大于等于1的整數(shù),a廣an是語義結(jié)構(gòu)A中的 語義詞;
[0066] 設定語義結(jié)構(gòu)B= {bi,…,bn},其中n為大于等于1的整數(shù),bi-bn是語義結(jié)構(gòu)帥的 語義詞;
[0067] 設定語義結(jié)構(gòu)C= kl,,…,Cn},其中n為大于等于1的整數(shù),Cl-Cn是語義結(jié)構(gòu)帥的 語義詞;
[006引設定語義結(jié)構(gòu)D= {di,,…,山},其中n為大于等于1的整數(shù),山-dn是語義結(jié)構(gòu)D中的 語義詞。
[0069] 語義結(jié)構(gòu)的不同組合方式構(gòu)成不同的語義邏輯,具體包括W下邏輯組合方式,如 下:
[0070] 組合1:對象+地點+行為+特征 [0071 ] 組合2:對象+地點+特征
[0072] 組合3:對象+行為+特征
[0073] 組合4:對象+特征
[0074] W組合3為例,風險所在文本語義包含類似"對象"的"行為"存在"特征"(風險)的 結(jié)構(gòu),具體包括=個詞組集合,每類詞組集合都包含形態(tài)一致的描述詞,如對象包括相應的 描述名詞或代稱,行為包括相應的描述動作,特征包括相應的描述風險特征。
[0075] 所有的語義風險類型,都將按如上所述的邏輯組合進行對應定義,
[0076] 例如"高級人員貪腐風險"對應邏輯組合3),即包含"對象"、節(jié)為"、"特征"立類詞 組集合,一個實例為"知情人±向記者獨家透露,DZ集團副總裁張立于6月22日被深功I警方 帶走,主要原因是張 S負責DZ集團視頻采購時期設嫌商業(yè)賄賂",其中"DZ集團副總裁"、"張 三'命中"對象"語義,"采購"命中"行為"語義,"賄賂"命中"特征"語義,至此,該段文本符合 "高級人員貪腐風險"的邏輯語義定義。
[0077] 針對詞組集合A-D,做如下定義:
[007引1)定義Xii為集合A中的詞語,0<i<n,n為正整數(shù)
[0079] 2)定義拙為集合B中的詞語,0<i<n,n為正整數(shù)
[0080] 3)定義X31為集合C中的詞語,0<i<n,n為正整數(shù)
[0081] 4)定義X41為集合D中的詞語,0<i<n,n為正整數(shù)
[0082] 5)定義N(Xii)為集合A中某詞語Xii在待匹配文本中出現(xiàn)的次數(shù)(包括重復的情 況),又稱詞頻,同理定義N(X2i)/N(X3i)/N(X4i)(分別為集合B/C/D中某詞語在待匹配文本中 出現(xiàn)的次數(shù))
[0083] 6)定義M(Xl)為集合A中所有已定義關(guān)鍵詞的數(shù)量,同理定義M(X2)/M(X3)/M(X4) (分別為集合B/C/D中所有已定義關(guān)鍵詞的數(shù)量)
[0084] 7)定義P(Xi)為在待匹配對象中出現(xiàn)過的集合A中的關(guān)鍵詞的數(shù)量(不包括重復出 現(xiàn)的情況),同理定義P(X2)/P(X3)/P(X4)(分別為在待匹配對象中出現(xiàn)過的集合B/C/D中的 關(guān)鍵詞的數(shù)量,不包括重復出現(xiàn)的情況)
[0085] 8)定義f (X)為某種特定風險類型,r(x)為該特定風險的段落原始值,rtDmUi)為綜 合加權(quán)計算的風險終值,當f (X)僅在其中一個段落沖出現(xiàn)時,rcUx)即為ri(x),否則將按 W下公式進行計算:
[0086] rc〇m(x)=Max(ri(x) ,??? ,rn(x))
[0087] 其中ri(x)為第I段落風險原始值,rn(x)為第n段落風險原始值。
[0088] 如圖2所示為本發(fā)明一種基于文本語義邏輯特征的語義風險計算方法的工作流程 圖,包括:
[0089] 段落切分步驟S201,對待處理文本(所述待處理文本可W是在互聯(lián)網(wǎng)頁面上抓取 的文本信息,如在網(wǎng)絡新聞、論壇帖子、評論、博客等頁面抓取的文本信息),將其切分成不 同的段落i(〇<i<n),包括標題及物理段落,所述物理段落指正文中W段落標識符區(qū)分的語 句集合,其中標題為第1段落,即i = 1,正文第一個順序自然段為第2段落,即i = 2,W此類 推。
[0090] 段落文本的切詞步驟S202,對完成段落切分后的待處理文本,按段落順序?qū)Φ?段 文本進行文本切詞,形成該段落的詞語集合S,實際所得結(jié)果為類似(詞語1,詞語2,詞語 3,…詞語n)的詞語集合。
[0091] 在風險類型遍歷匹配步驟S203中,調(diào)用語義風險預定義結(jié)構(gòu)(參見圖Ib),對預定 義的每一種語義風險類型進行匹配,所述匹配是一種基于組合構(gòu)造的文本結(jié)構(gòu)匹配方式, 如"境外投資風險",匹配組合1,即"對象+地點+行為+特征",對象、地點、行為、特征均為預 定義的詞語集合,計算步驟S202中的詞語集合S是否滿足該風險定義,如滿足則該風險匹配 成功,具體包括W下步驟:
[0092] 1)定義"境外投資風險"的詞組集合對象(Ai)、地點化)、行為(Cl)、特征(Di);
[0093] 2)對待處理段落i,比較詞組集合"對象"(Al)與該段落分詞后的詞語集合S,是否 存在相同的詞語,如存在則記錄其詞頻;
[0094] 3)同理處理集合"地點"、"行為"、"特征";
[00M] 4)如該風險的四種定義詞組集合均能在集合S中找到匹配詞,則風險匹配成功,即 待處理段落存在目標風險"境外投資風險"。
[0096] 對匹配成功的風險f (X),按步驟S204計算其所含的各語義結(jié)構(gòu)的詞頻(某詞語出 現(xiàn)的次數(shù))N(Xji) (0<jX5,0<i<n)、所有已定義關(guān)鍵詞的數(shù)量M(Xj) (0<jX5)、集合中出現(xiàn)過的 關(guān)鍵詞的數(shù)量P(^)(〇<j<5),核算覆蓋度PUjVM(Xj),即Cr。結(jié)合段落權(quán)重進行多語義結(jié)構(gòu) 的加權(quán)累加乘積計算,獲得目標風險類型f (X)的段落風險原始值r(x)。
[0097] 段落的原始風險值按W下公式計算:
[009引
[0099] 其中O為影響因子,控制取值關(guān)鍵詞覆蓋度范圍,其取值為[100-200]之間的正整 數(shù),cue為限定系數(shù),分別用于限定單段落命中關(guān)鍵詞個數(shù)上限(P(x)/M(x))及關(guān)鍵詞頻次 最大值(N(X)),e自然常數(shù),是一個無限不循環(huán)小數(shù),其值約等于2.718281828459…,n為正 整數(shù)。
[0100] 發(fā)明人發(fā)現(xiàn),在網(wǎng)絡上的諸多文字信息中,如博客、新聞、論壇發(fā)帖、評論等,既含 有有用信息,又含有無用的垃圾信息,如惡意漫罵等信息,運些信息中雖然會出現(xiàn)大量的關(guān) 鍵詞,但是毫無疑問的,運類信息在語義風險計算中是干擾項,因此為了排除運一類的干 擾,設定了上述的限定系數(shù)a、e,其取值可W分別是20、5,實際取值來自大量樣本的統(tǒng)計經(jīng) 驗值。
[0101] 在其中一個實施例中,段落文本從第一種風險f(l)進行匹配,所述匹配任務采用 如下方式進行:
[0102] 獲取所述第一種風險的組合類型,對組合類型中每一種語義結(jié)構(gòu)進行記錄,并與 所處理段落的詞語集合S進行遍歷對比,如果所述風險的語義結(jié)構(gòu)都有匹配結(jié)果,則風險匹 配成功,根據(jù)覆蓋度、命中詞頻等計算所述風險在目標段落文本中的段落風險原始值r( 1)。
[0103] 對其他匹配風險f(x)(0<x<m,m為正整數(shù))執(zhí)行S204操作,直到所有匹配成功的風 險都已完成風險原始值計算,在其中一個實施例中,段落文本完成風險類型匹配,命中風險 為^2)^(3),段落風險原始值分別為^2)、^3),綜上,該處理段落共匹配^種不同類型的 風險^1)^(2)^(3),所述風險原始值分別為八1)^(2)、八3)。
[0104] 此時對目標段落已獲得所匹配所有風險的原始風險值計算,由于實際風險值依賴 于全文,因此還需要對其他段落逐次計算(執(zhí)行S202-S204),直到待處理文本的所有段落都 已經(jīng)處理完畢,最終計算得到全文風險值rcDx(x)。
[0105] 在其中一個實施例中,對一篇包含n個段落的待處理文本,共匹配風險類型5種,分 別為^1)^(2)^(3)^(4)^(5),分別出現(xiàn)在11個不同的段落中,其中'(1)^(2)^(5)均在 不同段落出現(xiàn)。
[0106] 步驟S205,對所有已完成計算的風險原始值,按風險類型進行多段落加權(quán)計算。
[0107] 在其中一個實施例中,對'(1)^(2)^(3)^(4)^(5)等不同風險類型,最終計算 得到對應的不問風險值為rc;Dm( 1 )、rc;Dm( 2 )、rc;Dm( 3 )、rc;Dm( 4)、rc;Dm( 5)。
[0108] 對所述r?m(x)隊列進行規(guī)約計算并排序,獲得匹配風險的標準值序列輸出。
[0109] 本發(fā)明采用分段歸一化方式進行規(guī)約計算,對2015年3月份共計163,163條風險文 本進行統(tǒng)計,結(jié)果呈現(xiàn)明顯的分段特征,統(tǒng)計結(jié)果如下表所示
[0110]
[0111] 對每一個分段,按照Min-max標準化進行計算,定義rfin( X)為歸一化后的風險值, 則歸一化計算公式如下:
[0112]
[0113] 具甲t刃分段K間虧,mint刃該分段K間數(shù)值極小值,maxt為該分段區(qū)間數(shù)值極小 值,Lmin為該分段對應歸一化區(qū)間極小值,Lmax為該分段對應歸一化區(qū)間極大值。
[0114] 本發(fā)明在W上文本邏輯特征的語義風險計算方法的基礎上,能夠?qū)崿F(xiàn)根據(jù)網(wǎng)絡信 息的風險識別,也即根據(jù)上述歸一化后的風險值,確定風險類型,具體的將歸一化后得到的 一系列風險值與預設的風險值闊值進行比較,如果計算得到的歸一化的風險值大于預設的 風險值闊值,則可確認存在風險,輸出該風險值所對應風險類型,則風險識別成功。
[0115] 本發(fā)明還提供一種風險報警方法,也即在如上在識別出風險類型后,發(fā)出風險報 警信號,例如可W通過向相關(guān)人員發(fā)送包含有風險類型的信息的郵件、短息、推送消息等, W實現(xiàn)風險報警。
[0116] 通過本發(fā)明,采用基于文本邏輯特征的語義風險模型,能夠快速處理大規(guī)模文本 下的語義類型識別,值得指出的是,本發(fā)明所提出的思路和方法,不僅可W應用到風險領域 的語義識別,還可W應用到情感分析、中文語義模型等泛數(shù)據(jù)挖掘領域。
【主權(quán)項】
1. 一種基于文本邏輯特征的語義風險計算方法,其特征在于包括: 步驟1.語義結(jié)構(gòu)類型預定義:按語義邏輯定義多個語義結(jié)構(gòu),將多個語義結(jié)構(gòu)進行組 合,構(gòu)成預定類型的語義邏輯組合; 步驟2.風險類型預定義:根據(jù)語義邏輯組合定義語義風險類型,每類語義風險類型均 滿足語義邏輯組合規(guī)范; 步驟3.將待處理文本按段落切分成若干文本,并作切詞處理,形成各段落的詞語集合; 步驟4.對待處理段落的詞語集合,根據(jù)步驟2預定義的語義風險類型調(diào)用語義風險預 定義結(jié)構(gòu)進行匹配,對匹配成功的語義風險類型,計算段落風險原始值; 步驟5.對所有段落的詞語組合,執(zhí)行如步驟4所述步驟處理; 步驟6.對所有已完成計算的段落風險原始值,按風險類型進行多段落加權(quán)計算,得到 綜合加權(quán)計算的風險終值; 步驟7.對匹配成功的語義風險類型相對應的風險終值隊列進行規(guī)約計算,得到歸一化 的風險值。2. 根據(jù)權(quán)利要求1所述的一種基于文本邏輯特征的語義風險計算方法,其特征在于:所 述多個語義結(jié)構(gòu)均為詞組集合。3. 根據(jù)權(quán)利要求1所述的一種基于文本邏輯特征的語義風險計算方法,其特征在于: 所述步驟4中對待處理段落的詞語組合,根據(jù)步驟2預定義的語義風險類型調(diào)用語義風 險預定義結(jié)構(gòu)進行匹配,對匹配成功的語義風險類型,計算段落風險值具體為:獲取預定義 的語義風險類型的語義邏輯組合,對該語義邏輯組合中的每一種語義結(jié)構(gòu)進行記錄,并與 所處理的任意段落的詞語集合進行遍歷對比,如果所述預定義語義風險類型的所有語義結(jié) 構(gòu)都有匹配結(jié)果,則匹配成功,對命中所有預定義語義結(jié)構(gòu)的詞語集合計算段落風險值。4. 根據(jù)權(quán)利要求3所述的一種基于文本邏輯特征的語義風險計算方法,其特征在于: 所述步驟1中的按語義邏輯定義的多個語義結(jié)構(gòu)包括:A:對象、B:地點、C:行為、D:特 征,所述語義結(jié)構(gòu)A-D均為詞組集合; 所述步驟1中構(gòu)成的預定類型的語義邏輯組合包括: 1) 組合1:對象+地點+行為+特征 2) 組合2:對象+地點+特征 3) 組合3:對象+行為+特征 4) 組合4:對象+特征。5. -種基于網(wǎng)絡信息的風險識別方法,其特征在于:包括如權(quán)利要求1所述的基于文本 邏輯特征的語義風險計算方法; 還包括將歸一化后得到的風險值與預設的風險值閾值進行比較,如果計算得到的歸一 化的風險值大于預設的風險值閾值,則確認存在風險,輸出該風險值所對應風險類型,風險 識別成功; 其中處理的文本為從互聯(lián)網(wǎng)抓取的網(wǎng)頁文本信息。6. -種基于網(wǎng)絡信息風險報警方法,其特征在于:包括如權(quán)利要求5所述的風險識別方 法,還包括: 在風險識別成功后,發(fā)出風險報警信息,包括發(fā)送包含有風險類型的信息的郵件、短息 或推送消息。
【文檔編號】G06Q10/06GK105956740SQ201610245494
【公開日】2016年9月21日
【申請日】2016年4月19日
【發(fā)明人】黃玉麟, 韓東東, 林春雨
【申請人】北京深度時代科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
定边县| 深水埗区| 宜君县| 勃利县| 耒阳市| 新邵县| 株洲市| 从江县| 惠安县| 静宁县| 太仓市| 大冶市| 洪洞县| 双江| 彩票| 大宁县| 土默特左旗| 会东县| 宾川县| 津南区| 大理市| 葫芦岛市| 临海市| 邯郸市| 斗六市| 通城县| 海城市| 蓬安县| 江西省| 东兴市| 乌恰县| 迁安市| 山阳县| 滨海县| 通许县| 文山县| 淳安县| 平罗县| 二手房| 佛坪县| 景泰县|