一種基于上下文的抽象樣本信息檢索系統(tǒng)及其抽象樣本特征化表示方法
【專利摘要】本發(fā)明提出了一種基于上下文的抽象樣本信息檢索系統(tǒng)。該系統(tǒng)中抽象樣本特征化表示方法利用Word2vector提取詞義特征,獲得抽象詞的詞向量;而后,對抽象詞的詞向量進(jìn)行“最優(yōu)適應(yīng)度劃分”的聚類,并根據(jù)聚類結(jié)果將抽象詞替代表示為聚類質(zhì)心;最后,根據(jù)質(zhì)心及其所代表的抽象詞的詞頻,構(gòu)成詞向量聚類質(zhì)心頻率模型(ST?IDF),用于特征化表示抽象樣本。本發(fā)明降低了聚類及適應(yīng)度計算的執(zhí)行次數(shù),提高了抽象樣本相似性分析的性能,提升了樣本分類準(zhǔn)確率。
【專利說明】
一種基于上下文的抽象樣本信息檢索系統(tǒng)及其抽象樣本特征 化表示方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)鏈報文、半結(jié)構(gòu)化文本或普通文本的信息檢索領(lǐng)域,特別涉及基 于詞向量(Word2vector)的樣本相似性分析及分類。
【背景技術(shù)】
[0002] 抽象詞是指信息檢索樣本中無法被語言直接解讀的特殊詞語,即,無已知語言規(guī) 貝1J(詞義、語法、語序)可直接地識別其實際語義。大量的抽象詞不同程度地存在于信息檢索 的樣本中,例如軍用數(shù)據(jù)鏈報文(Link-16、Link-22)、用于數(shù)據(jù)交換的半結(jié)構(gòu)化文本(XML) 或普通文本。同時,存在大量的數(shù)據(jù)鏈報文、半結(jié)構(gòu)化文本或普通文本完全采用抽象詞記錄 信息。針對該情況,我們將信息檢索任務(wù)中此類報文或文本稱為抽象樣本。
[0003] 目前,針對信息檢索任務(wù)中的抽象樣本,在無法直接識別其抽象詞語義的情況下, 多采用基于詞語統(tǒng)計的樣本特征化表示方法?,F(xiàn)行的基于詞語統(tǒng)計的特征化表示方法無法 有效地提取其詞語語義(詞義)特征,例如TF_IDF(TermFrequency-Inverse Document Frequency)模型與B0W(Bag of words)模型。
[0004] Word2vector是一種依據(jù)上下文關(guān)系的詞語語義(詞義)特征提取方法,最先由 Mikolov等于2013年初在谷歌公司的開源項目中提出。當(dāng)文檔作為信息檢索的樣本時,針對 在不同文檔中的每個詞語,W 〇rd2vect〇r可依據(jù)其上下文關(guān)系有效地提取其語義(即詞義特 征),并以詞向量的形式給出。必須注意的是,Word2vector的詞義特征提取機(jī)制使得不同文 檔中相同的詞所對應(yīng)的詞向量并不相同。所以,導(dǎo)致難以根據(jù)W 〇rd2vect〇r的詞向量形成信 息檢索樣本的特征化表示,特別是難以形成VSM(向量空間模型)形式的樣本特征化表示。
[0005] 目前,抽象樣本征化表示需要采用Word2vector作為基于上下文的詞義特征提取 方法,并使自身適用于現(xiàn)行的基于樣本特征向量的信息檢索算法。但是,尚未出現(xiàn)受明確認(rèn) 可的方法能夠根據(jù)Word2vector詞義特征提取形成VSM形式的抽象樣本特征化表示。
[0006] 因此急需提出一種基于上下文的抽象樣本信息檢索系統(tǒng)及相應(yīng)的抽象樣本特征 化表示方法,解決上述問題。
【發(fā)明內(nèi)容】
[0007] 在信息檢索應(yīng)用領(lǐng)域中,本發(fā)明提供了一種基于上下文的抽象樣本信息檢索系 統(tǒng),并詳闡述了其特征化表示方法。本發(fā)明的目的在于,克服現(xiàn)有技術(shù)中難以根據(jù) Word2vector的詞向量形成樣本的特征化表示的情況,解決抽象樣本特征化表示中詞義特 征提取的問題。
[0008] -種基于上下文的抽象樣本信息檢索系統(tǒng),包括分詞功能模塊、詞義特征提取模 塊、抽象詞特征替代表示模塊、ST-IDF模塊和分類模塊,所述抽象樣本信息檢索系統(tǒng)的抽 象樣本特征化表示方法包括以下步驟:
[0009] 步驟1、利用分詞功能模塊對樣本進(jìn)行抽象詞的分詞:當(dāng)樣本是數(shù)據(jù)鏈報文時,可 根據(jù)數(shù)據(jù)鏈報文的格式與字長劃分每個抽象詞;當(dāng)樣本是文本時,可根據(jù)空格及特定分詞 規(guī)則劃分每個抽象詞。
[0010] 步驟2、利用詞義特征提取模塊提取抽象詞的詞語語義特征:針對由步驟1得到的 抽象詞,采用W〇rd2 vect〇r方法,基于抽象詞的上下文關(guān)系提取其詞義特征,并以詞向量形 式表不。
[0011] 步驟3、利用抽象詞特征替代表示模塊對抽象詞特征進(jìn)行替代表示:首先,采用最 優(yōu)聚類效果適應(yīng)度下的聚類劃分?jǐn)?shù)量,對由步驟2得到的詞向量進(jìn)行K-means算法聚類,即 實現(xiàn)對抽象詞詞向量的"最優(yōu)適應(yīng)度劃分"的聚類。其中,詞向量聚類劃分的質(zhì)心稱為S(表 示為詞向量空間中的向量),S的數(shù)量k即是聚類劃分個數(shù),所有樣本中抽象詞的數(shù)量為N,已 知的樣本分類數(shù)量為C,f(k)為體現(xiàn)聚類效果適應(yīng)度的函數(shù),
[0013] α為k個S向量間的平均余弦距離,β為k個聚類劃分內(nèi)的詞向量間平均余弦距離的 均值,令正整數(shù)ke[N,NXC];當(dāng)f(k)=max(f(k))時,令最優(yōu)聚類效果適應(yīng)度下的聚類劃分 數(shù)量K = k,質(zhì)心S的數(shù)量最終確定為K。然后,根據(jù)最終的聚類結(jié)果將抽象詞替代表示為其詞 向量所屬聚類劃分的質(zhì)心S,或稱為用質(zhì)心S代表其聚類劃分內(nèi)的抽象詞,即將抽象詞的特 征近似認(rèn)同為所屬聚類劃分的質(zhì)心。
[0014]步驟4、利用ST-IDF模塊輸出抽象樣本特征化表示:首先,統(tǒng)計每個抽象詞在一個 樣本中出現(xiàn)的頻率,根據(jù)步驟3給出的替代表示關(guān)系,將質(zhì)心S所代表的抽象詞在該樣本中 的出現(xiàn)頻率計為質(zhì)心S的頻率;并統(tǒng)計詞向量聚類質(zhì)心的逆向文件頻率;而后,參照TF-IDF 模型構(gòu)成詞向量聚類質(zhì)心頻率模型--ST-IDF,ST-IDF模型屬于VSM形式,用于特征化表示 一個抽象樣本。
[0015] 步驟5、相似度計算,實現(xiàn)抽象樣本的相似性分析:根據(jù)步驟4所提供的特征化表 示,計算兩個抽象樣本間的相似度,并據(jù)此進(jìn)行信息檢索領(lǐng)域中樣本分類算法的執(zhí)行。
[0016] 步驟6、利用分類模塊對特征化表示后的抽象樣本進(jìn)行類別判定:根據(jù)相似度,采 用NWKNN算法對抽象樣本進(jìn)行類別判定。
[0017] 本發(fā)明的有益效果如下:
[0018] 本發(fā)明提出了一種基于上下文的信息檢索系統(tǒng)及其抽象樣本特征化表示方法,它 包括兩個方面的改進(jìn):(1)提出了最優(yōu)聚類效果適應(yīng)度劃分算法,并根據(jù)在最優(yōu)聚類效果適 應(yīng)度下的詞向量聚類,進(jìn)行了抽象詞特征替代表示;(2)提出了用于抽象樣本特征化表示的 詞向量聚類質(zhì)心頻率模型--ST-IDF。
[0019] 本發(fā)明首先利用W〇rd2VeCt〇r提取詞義特征,獲得樣本中所有抽象詞的詞向量;而 后,提出了最優(yōu)聚類效果適應(yīng)度劃分算法,并根據(jù)最優(yōu)聚類效果適應(yīng)度對抽象詞的詞向量 進(jìn)行K-means聚類,并根據(jù)聚類結(jié)果將抽象詞替代表示為其詞向量所屬聚類劃分的質(zhì)心(記 為S);最后,將質(zhì)心所代表的抽象詞在樣本中的出現(xiàn)頻率計為質(zhì)心S的頻率,并構(gòu)成詞向量 聚類質(zhì)心頻率模型--ST-IDF,用于特征化表示抽象樣本。與傳統(tǒng)的基于詞語統(tǒng)計的樣本 特征化表示方法相比,ST-IDF模型包含抽象詞的詞義特征,且屬于VSM(向量空間模型)形 式,可適用于現(xiàn)行的基于特征向量的信息檢索算法(如分類、回歸、聚類)。
[0020] 從實證的角度,采用信息檢索領(lǐng)域經(jīng)典樣本分類算法NWKNN,在公用數(shù)據(jù)集 Reuter-21758、Wikipedia XML之上,將ST-IDF模型與TF-IDF模型進(jìn)行對比實驗,實驗結(jié)果 客觀地展示了本發(fā)明所述方法的明顯優(yōu)勢,提高了抽象樣本相似度計算的準(zhǔn)確性,提升了 抽象樣本分類準(zhǔn)確度,并有效拓展了信息檢索領(lǐng)域中向量空間模型的構(gòu)建方法。
【附圖說明】
[0021] 圖1為本發(fā)明所述抽象樣本信息檢索系統(tǒng)的數(shù)據(jù)與模塊圖。
[0022] 圖2為本發(fā)明所述信息檢索方法的流程圖。
[0023] 圖3為Word2vector方法基本原理示意圖。
[0024] 圖4為聚類效果適應(yīng)度函數(shù)圖。
[0025] 圖5為詞向量空間中根據(jù)聚類的替代表示關(guān)系示意圖。
【具體實施方式】
[0026] 下面將結(jié)合附圖和實施例對本發(fā)明做進(jìn)一步的說明。
[0027]如圖1所示,其中內(nèi)容為本發(fā)明一種基于上下文的抽象樣本信息檢索系統(tǒng),包括分 詞功能模塊、詞義特征提取模塊、抽象詞特征替代表示模塊、ST-IDF模塊和分類模塊。
[0028] 所述抽象樣本信息檢索系統(tǒng)的抽象樣本特征化表示方法包括以下步驟:
[0029] 步驟1:利用分詞功能模塊對樣本進(jìn)行抽象詞的分詞。當(dāng)樣本完全采用抽象詞記錄 信息時,無法根據(jù)字典或詞庫進(jìn)行樣本中抽象詞的分詞。所以,本步驟僅將抽象詞視為 ASCII字符的字符串。當(dāng)樣本是數(shù)據(jù)鏈報文時,根據(jù)數(shù)據(jù)鏈報文的格式與字長劃分每個抽象 詞;當(dāng)樣本是文本時,根據(jù)空格及特定分詞規(guī)則劃分每個抽象詞。將抽象詞的分詞記為 wordi, t,詞語wordi, t表示第i個樣本中的第t種抽象詞的分詞,有i = {1,2,…,| D | },| D |為數(shù) 據(jù)集中〇的樣本數(shù)4={1,2,"_,11},11為抽象詞種類數(shù),所有樣本中抽象詞¥(^(1^的數(shù)量為 N〇
[0030] 步驟2:利用詞義特征提取模塊,提取抽象詞的詞語語義特征。針對由步驟1得到的 抽象詞,采用W〇rd2 vect〇r方法,基于抽象詞的上下文關(guān)系提取其詞義特征,并以詞向量形 式表示。本步驟運(yùn)用Word2vec工具,可獲得抽象詞的詞向量。
[0031 ] Word2vec是Word2vector方法的模型實現(xiàn),可基于詞語的上下文關(guān)系,快速有效地 訓(xùn)練并生成詞向量。它包含了兩種訓(xùn)練模型,CB0W與Skip_gram。作為用于訓(xùn)練生成詞向量 的軟件工具,W〇rd2ve C中訓(xùn)練模型的基礎(chǔ)是神經(jīng)網(wǎng)絡(luò)語言模型NNLM,其基本原理如圖2所 不。
[0032] 根據(jù)由步驟1得到的抽象詞,NNLM可計算某一個上下文的下一個詞語為wordi, t的 概率,即p(wordi,t = t | context),詞向量是其訓(xùn)練的副產(chǎn)物。NNLM根據(jù)數(shù)據(jù)集D生成一個對 應(yīng)的詞匯表VJ中的每一個詞語都對應(yīng)著一個標(biāo)記worcU.t。為了確定神經(jīng)網(wǎng)絡(luò)的參數(shù),需要 通過數(shù)據(jù)集來構(gòu)建訓(xùn)練樣本并作為神經(jīng)網(wǎng)絡(luò)的輸入。NNLM詞語上下文樣本的構(gòu)建過程為: 對于D中的任意一個詞wordi, t,獲取其上下文context (wordi, t)(例如前η-I個詞),從而得到 一個元組(context(wordi,t),wordi,t)。以該元組作為神經(jīng)網(wǎng)絡(luò)的輸入進(jìn)行訓(xùn)練。NNLM的輸 入層和傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型有所不同,輸入的每一個節(jié)點(diǎn)單元不再是一個標(biāo)量值,而是一 個向量,向量的每一個值為變量,訓(xùn)練過程中要對其進(jìn)行更新,這個向量就是詞向量。由圖2 可知,對于每一個詞wordi, t,NNLM都將其映射成一個向量wi, t,即為詞向量。
[0033]運(yùn)用Word2VeC工具獲得的詞向量Wl,t具體表示第i個樣本中的第t種抽象詞分詞的 詞義特征,有i = {1,2,…,| D |},| D |為樣本數(shù),所有樣本中抽象詞的詞向量wi, t的數(shù)量為N。 [0034]步驟3:利用抽象詞特征替代表示模塊,用詞向量聚類質(zhì)心代表其聚類劃分內(nèi)的抽 象詞。首先,采用最優(yōu)聚類效果適應(yīng)度下的聚類劃分?jǐn)?shù)量,對由步驟2得到的詞向量進(jìn)行K-means算法聚類,即實現(xiàn)對抽象詞詞向量的"最優(yōu)適應(yīng)度劃分"的聚類。詞向量的K-means聚 類中,采用兩詞向量夾角的余弦值計算二者間的距離。
[0035] 根據(jù)步驟2所得,所有樣本中抽象詞的詞向量wi, t的數(shù)量為N,詞向量wi, t具體表示 第i個樣本中的第t種抽象詞分詞的詞義特征。已知的樣本分類數(shù)量為C,而樣本數(shù)量為Μ。本 步驟中,將詞向量聚類劃分的質(zhì)心稱為S(表示為詞向量空間中的向量),S的數(shù)量k即是聚類 劃分個數(shù)。
[0036] 為體現(xiàn)詞向量空間中的K-means聚類效果,本發(fā)明給出聚類劃分?jǐn)?shù)量適應(yīng)性的計 算。為表示聚類劃分?jǐn)?shù)量適應(yīng)性,令f (k)為體現(xiàn)聚類效果適應(yīng)度的函數(shù),
[0038] α為k個S向量間的平均余弦距離,β為k個聚類劃分內(nèi)的詞向量間平均余弦距離的 均值,具體地有:
[0041] 其中,S與f為不同聚類劃分的質(zhì)心向量,《^與/1>t是類屬于第b個聚類劃分中的 不同抽象詞分詞的詞向量。
[0042] 設(shè)聚類劃分個數(shù)ke[N,NXC],且為正整數(shù),當(dāng)f(k)=max(f(k))時,令最優(yōu)聚類效 果適應(yīng)度下的聚類劃分?jǐn)?shù)量K = k,f(K)是聚類效果適應(yīng)度的最大值。經(jīng)計算可知,函數(shù)f(k) 在N到K的區(qū)間是單調(diào)遞增的,在K到NXC的區(qū)間是單調(diào)遞減的,函數(shù)f(k)的圖像如圖3所示。 [00 43] 所以,當(dāng)f (k)=max(f (k))時,K = k,f (K)是聚類效果適應(yīng)度函數(shù)的極值,即最優(yōu)聚 類效果適應(yīng)度,K-means聚類質(zhì)心S的數(shù)量最終確定為K。在確定max(f (k))、K與f (K)的過程 中,為減少K-means聚類及f(k)計算的執(zhí)行次數(shù),本發(fā)明提出最優(yōu)聚類效果適應(yīng)度劃分算 法,算法中每進(jìn)行一次f(k)計算則需預(yù)先執(zhí)行一次質(zhì)心數(shù)量為k的K-means聚類,具體如下:
[0044]最優(yōu)聚類效果適應(yīng)度劃分算法
[0046] 最優(yōu)聚類效果適應(yīng)度劃分算法分析:根據(jù)算法的遞歸運(yùn)算特點(diǎn),其時間復(fù)雜度為 〇 (l〇g2[(NXC-N)/4],所以本步驟中實際執(zhí)行的K-means聚類次數(shù)與f (k)計算次數(shù)小于等 于log2[(NXC-N)/4]次;而當(dāng)不采用最優(yōu)聚類效果適應(yīng)度劃分算法時,有k={N,N+l,N+ 1,…,NXC},確定max(f (k))、K與f (K)的過程中所需執(zhí)行的K-means聚類與f (k)計算的平均 次數(shù)為(NXC-N)/2。所以,本步驟中的最優(yōu)聚類效果適應(yīng)度劃分算法降低了聚類及適應(yīng)度 計算的執(zhí)行次數(shù)。
[0047] 最后,根據(jù)最終的聚類結(jié)果將抽象詞替代表示為其詞向量所屬聚類劃分的質(zhì)心S。 具體地,當(dāng)f(k)=max(f(k))時,最優(yōu)聚類效果適應(yīng)度下的聚類劃分?jǐn)?shù)量K = k,將任意抽象 詞w1>t替代表示為其詞向量所屬聚類劃分的質(zhì)心S,即將抽象詞的特征近似認(rèn)同為所屬聚類 劃分的質(zhì)心。在任意局部詞向量空間中,用質(zhì)心S代表其聚類劃分內(nèi)的抽象詞,其對應(yīng)關(guān)系 如圖4所示。具體替代表示關(guān)系如下式所述:
[0049] 其中,第b個聚類質(zhì)心Sb所代表的抽象詞wordi,t構(gòu)成一個抽象詞集合,Wi,t是抽象 詞wordi, t的詞向量,Wb是類屬于質(zhì)心Sb所在聚類劃分的詞向量所對應(yīng)的抽象詞的集合。
[0050] 步驟4:利用ST-IDF模塊,輸出抽象樣本特征化表示。首先,統(tǒng)計每個抽象詞在一個 樣本中出現(xiàn)的頻率,根據(jù)步驟3給出的質(zhì)心S與抽象詞的替代表示關(guān)系,將第b個質(zhì)心Sb所代 表的抽象詞在該樣本中的出現(xiàn)頻率計為質(zhì)心Sb的頻率;并統(tǒng)計詞向量聚類質(zhì)心Sb的逆向文 件頻率,有b = {1,2,…,K}。而后,參照TF-IDF模型構(gòu)成詞向量聚類質(zhì)心頻率模型--ST-IDF,具體構(gòu)成方式將進(jìn)一步詳細(xì)闡述。
[0051 ] TF-IDF模型中,樣本doci的特征化表示由特征向量di實現(xiàn),
[0052] di= (di(i) ,di(2),......,di(n))
[0053] 向量di中第t維元素 di(t)計算方式如下:
[0054] di(t) = TF(wordt,doCi) · IDF(wordt),
[0055] TF(wordt, doci)是詞語wordt在樣本doci中的頻率,有其計算方式
[0057]中分子是該詞語在樣本中的出現(xiàn)次數(shù),而分母則是在文件中所有詞語的出現(xiàn)次數(shù) 之和,
[0058] IDF( wordt)為詞語wordt的逆向文件頻率,有其計算方式
[0060]其中,D為樣本doci的構(gòu)成數(shù)據(jù)集,|D|為數(shù)據(jù)集D中樣本的總數(shù),I {doci|wordte doci} |為包含詞語wordt的樣本數(shù)量。
[0061 ] 參照TF-IDF模型,ST-IDF模型具體構(gòu)成如下:
[0062] SF( Sb,doci)是詞向量聚類質(zhì)心Sb在抽象樣本doci中的頻率,有其計算方式
[0064]其中,Wb是類屬于質(zhì)心Sb所在聚類劃分的詞向量所對應(yīng)的抽象詞的集合,TF( Wi,t) 表示抽象詞wi,t在抽象樣本doci中出現(xiàn)的頻率,SF(Sb,doci)僅累計抽象樣本doci中由質(zhì)心Sb 所代表的抽象詞的頻率。
[0065] IDF(Sb)為詞向量聚類質(zhì)心Sb的逆向文件頻率,有其計算方式
[0067]其中,D為抽象樣本doc 4勺構(gòu)成數(shù)據(jù)集,|D |為數(shù)據(jù)集D中樣本的總數(shù), I 丨u. e I為包含由質(zhì)心sb所代表的抽象詞的樣本的數(shù)量。
[0068] ST-IDF模型中,抽象樣本doci的特征化表示由特征向量#實現(xiàn),
[0070] 向量鄉(xiāng)中第b維元素#(&)計算方式如下:
[0071] di[h) = SFiS^doc^· lDF(Sh),
[0072] 本步驟所提出的ST-IDF模型屬于VSM(向量空間模型)形式,用于特征化表示一個 抽象樣本。
[0073] 步驟5:相似度計算,實現(xiàn)抽象樣本的相似性分析。根據(jù)步驟4所提供的特征化表 示,計算兩個抽象樣本間的相似度;并據(jù)此進(jìn)行信息檢索領(lǐng)域中樣本分類算法的執(zhí)行。
[0074] -種基于上下文的信息檢索抽象樣本特征化表示方法采用步驟4所提出的ST-IDF 模型進(jìn)行抽象樣本特征化表示。任意兩抽象樣本間相似性由相似度函數(shù)Sim (doci,doc/ )表示,其具體計算方式如下:
[0075] Sim(cIoc,,cIoc·) = cos{i/(,i//),
[0076] cos(K)為ST-IDF向量空間中特征向景4與#間夾角的余弦值。
[0077]步驟6:利用分類模塊,對特征化表示后的抽象樣本進(jìn)行類別判定。根據(jù)相似度,采 用NWKNN算法對抽象樣本進(jìn)行類別判定。
[0078]根據(jù)相似度函數(shù)SinKdoc^doc/),采用信息檢索領(lǐng)域中的經(jīng)典樣本分類算法一一 NWKNN執(zhí)行抽象樣本分類。NWKNN是權(quán)重鄰居KNN算法,用于不均衡分類樣本集的樣本分類判 另IJ,其公式如下:
[0080] 其中,函數(shù)score (doc, Ci)計算得出將文檔doc歸于分類Ci的評估值;函數(shù)Sim(doc, docj)表示樣本doc與已知類別樣本docj的相似度,采用向量余弦距離計算;Weighti為分類 權(quán)重設(shè)定值,賦值為3.5;函數(shù)5((1〇(^,(^)表示樣本(1〇(^是否屬于類別(^,若樣本(1〇(^屬于類 另lJ Cl,則該函數(shù)取值為1,否則,該函數(shù)取值為0。
[0081 ] 樣本分類的性能評估采用Fl-measure標(biāo)準(zhǔn)。該標(biāo)準(zhǔn)結(jié)合召回率Recall和準(zhǔn)確率 Precision的評估度量F1如下:
[0083]運(yùn)用Fl-measure標(biāo)準(zhǔn),可觀察到一個樣本分類系統(tǒng)針對數(shù)據(jù)集的分類效果。為便 于比較,將總結(jié)抽象樣本分類結(jié)果的宏觀F1度量值Macro-Fl,同時,可以得到抽象樣本分類 結(jié)果的Average precision。
[0084]以維基百科XML數(shù)據(jù)Wikipedia XML為數(shù)據(jù)交換半結(jié)構(gòu)化文本的數(shù)據(jù)集,以路透社 文檔集Reuter-21578為普通文本的數(shù)據(jù)集,采用NWKNN算法進(jìn)行抽象樣本分類實驗,并采用 Fl-measure標(biāo)準(zhǔn)進(jìn)行樣本分類的效果評估,本發(fā)明提出的SF-IDF向量與現(xiàn)有技術(shù)中TF-IDF 向量的分類效果對比見表1、表2:
[0085] 表lWikipedia XML數(shù)據(jù)集上TF-IDF向量與SF-IDF向量的分類效果比較
[0087] 表2Reuter-21578數(shù)據(jù)集上TF-IDF向量與SF-IDF向量的分類效果比較
[0089]根據(jù)表1、表2所述,可見本發(fā)明提出的SF-IDF向量的分類效果明顯優(yōu)于現(xiàn)有技術(shù) 中TF-IDF向量,尤其是在Wikipedia XML數(shù)據(jù)集上平均準(zhǔn)確率由原有的48.7 %提高到 59.2%,在Reuter-21578數(shù)據(jù)集上平均準(zhǔn)確率由原有的57.1 %提高到63.3%。實驗結(jié)果顯 示,針對抽象樣本相似性分類的信息檢索任務(wù),本發(fā)明所提出的ST-IDF模型相較TF-IDF模 型擁有更優(yōu)良的Fl-measure評估結(jié)果,證明本發(fā)明所提供的特征化表示方法具備抽象樣本 詞義特征提取的優(yōu)勢。
【主權(quán)項】
1. 一種基于上下文的抽象樣本信息檢索系統(tǒng),其特征在于:它包括分詞功能模塊、詞義 特征提取模塊、抽象詞特征替代表示模塊、ST-IDF模塊和分類模塊,所述抽象樣本信息檢索 系統(tǒng)的抽象樣本特征化表示方法包括W下步驟: 步驟1、利用分詞功能模塊對樣本進(jìn)行抽象詞的分詞:當(dāng)樣本是數(shù)據(jù)鏈報文時,可根據(jù) 數(shù)據(jù)鏈報文的格式與字長劃分每個抽象詞;當(dāng)樣本是文本時,可根據(jù)空格及特定分詞規(guī)則 劃分每個抽象詞; 步驟2、利用詞義特征提取模塊提取抽象詞的詞語語義特征:針對由步驟1得到的抽象 詞,采用Word2vector方法,基于抽象詞的上下文關(guān)系提取其詞義特征,并W詞向量形式表 示; 步驟3、利用抽象詞特征替代表示模塊對抽象詞特征進(jìn)行替代表示:首先,采用最優(yōu)聚 類效果適應(yīng)度下的聚類劃分?jǐn)?shù)量,對由步驟2得到的詞向量進(jìn)行K-means算法聚類,即實現(xiàn) 對抽象詞詞向量的"最優(yōu)適應(yīng)度劃分"的聚類,其中,詞向量聚類劃分的質(zhì)屯、稱為S(表示為 詞向量空間中的向量),S的數(shù)量k即是聚類劃分個數(shù),所有樣本中抽象詞的數(shù)量為N,已知的 樣本分類數(shù)量為C,fXk)為體現(xiàn)聚類效果適應(yīng)度的函數(shù),α為k個S向量間的平均余弦距離,β為k個聚類劃分內(nèi)的詞向量間平均余弦距離的均值, 令正整數(shù)ke陽,NXC];當(dāng)fXk)=max(fXk))時,令最優(yōu)聚類效果適應(yīng)度下的聚類劃分?jǐn)?shù)量K =k,質(zhì)屯、S的數(shù)量最終確定為K;然后,根據(jù)最終的聚類結(jié)果將抽象詞替代表示為其詞向量 所屬聚類劃分的質(zhì)屯、S,或稱為用質(zhì)屯、S代表其聚類劃分內(nèi)的抽象詞,即將抽象詞的特征近 似認(rèn)同為所屬聚類劃分的質(zhì)屯、; 步驟4、利用ST-IDF模塊輸出抽象樣本特征化表示:首先,統(tǒng)計每個抽象詞在一個樣本 中出現(xiàn)的頻率,根據(jù)步驟3給出的替代表示關(guān)系,將質(zhì)屯、S所代表的抽象詞在該樣本中的出 現(xiàn)頻率計為質(zhì)屯、S的頻率;并統(tǒng)計詞向量聚類質(zhì)屯、的逆向文件頻率;而后,參照TF-IDF模型 構(gòu)成詞向量聚類質(zhì)屯、頻率模型一一ST-IDF,ST-IDF模型屬于VSM形式,用于特征化表示一個 抽象樣本; 步驟5、相似度計算,實現(xiàn)抽象樣本的相似性分析:根據(jù)步驟4所提供的特征化表示,計 算兩個抽象樣本間的相似度,并據(jù)此進(jìn)行信息檢索領(lǐng)域中樣本分類算法的執(zhí)行; 步驟6、利用分類模塊對特征化表示后的抽象樣本進(jìn)行類別判定:根據(jù)相似度,采用 NWK順?biāo)惴▽Τ橄髽颖具M(jìn)行類別判定。
【文檔編號】G06F17/30GK106095791SQ201610369833
【公開日】2016年11月9日
【申請日】2016年5月29日
【發(fā)明人】吳 琳, 韓廣, 袁鑫攀, 李亞楠
【申請人】長源動力(山東)智能科技有限公司