欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器的制作方法

文檔序號(hào):6565216閱讀:375來源:國(guó)知局
專利名稱:基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及中文信息處理領(lǐng)域文本信息過濾的實(shí)現(xiàn)方法,特別是基于內(nèi)容相似度和文本主題相關(guān)比較的文本特征分析方法,屬于計(jì)算機(jī)技術(shù)領(lǐng)域。
網(wǎng)上的信息量極為龐大,一些不健康的內(nèi)容和人們并不希望獲得的信息也日益增多,這些都給廣大網(wǎng)絡(luò)用戶帶來了不良影響和沉重的經(jīng)濟(jì)負(fù)擔(dān);目前,青少年群體通過互聯(lián)網(wǎng)接觸不健康內(nèi)容的問題已經(jīng)引起社會(huì)各界的高度重視,另外,一些涉及影響社會(huì)穩(wěn)定、違反道德倫理的信息也影響和干擾著正常的社會(huì)生活。因此,對(duì)網(wǎng)絡(luò)信息的內(nèi)容做必要的過濾是有效防止上述大量違背社會(huì)公眾利益信息散布的主要手段之一。
目前,已有的網(wǎng)絡(luò)信息內(nèi)容過濾方法的主要原理是基于關(guān)鍵詞匹配的機(jī)械方法,這類方法對(duì)于信息中直接存在的、不加偽裝的內(nèi)容具有非常有效的過濾作用;但是對(duì)于經(jīng)過一定的處理后、帶有干擾信息的內(nèi)容,這種基于關(guān)鍵詞匹配的機(jī)械方法就無能為力了,因此,傳統(tǒng)的基于關(guān)鍵詞匹配的機(jī)械方法有著顯而易見的局限性。
為了彌補(bǔ)關(guān)鍵詞匹配方法的機(jī)械性和局限性,也有一些通過訓(xùn)練來提取過濾特征,然后再將過濾特征輸出到過濾端作為過濾依據(jù)的方法,這種方法的好處是克服了關(guān)鍵詞匹配方法不適應(yīng)帶有干擾信息內(nèi)容過濾的方法的不足。
但是,該方法是將訓(xùn)練端與過濾端固定在一起,其弊端在于由于過濾所用的各種參數(shù)都由訓(xùn)練端產(chǎn)生,所以訓(xùn)練端一般規(guī)模較大,功能很強(qiáng);而過濾端為了實(shí)現(xiàn)過濾處理的靈活和快速,往往具有較小的規(guī)模以方便設(shè)置到各種各樣的系統(tǒng)之中。由于現(xiàn)有技術(shù)是將訓(xùn)練端和過濾端固定在一起,影響了過濾端的靈活性,同時(shí)使得訓(xùn)練端的強(qiáng)大功能受到限制。
本發(fā)明的又一目的在于提供一種基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,內(nèi)容過濾器為一個(gè)通用的而非對(duì)特定主題專用的過濾系統(tǒng),過濾的內(nèi)容可通過學(xué)習(xí)得到,也為用戶使用過濾器提供更大的靈活性。
本發(fā)明的再一目的在于提供一種基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,過濾器根據(jù)用戶提供的已訓(xùn)練類的特征,識(shí)別待過濾內(nèi)容特征,若特征相似程度超過設(shè)定閾值,則過濾該內(nèi)容。
本發(fā)明的還一目的在于提供一種基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,過濾處理速度快,安裝方便。
本發(fā)明的目的是這樣實(shí)現(xiàn)的一種基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,所述的內(nèi)容過濾器包括過濾端和訓(xùn)練端;訓(xùn)練端采用預(yù)定的信息進(jìn)行學(xué)習(xí),獲得該信息的過濾特征,過濾端對(duì)信息過濾,訓(xùn)練端與過濾端進(jìn)行通信。
所述的內(nèi)容過濾器至少包括一個(gè)訓(xùn)練端及一個(gè)或一個(gè)以上的過濾端。
所述的內(nèi)容過濾器至少包括一個(gè)過濾端及一個(gè)或一個(gè)以上的訓(xùn)練端。
所述的內(nèi)容過濾器包括一個(gè)以上過濾端及一個(gè)以上的訓(xùn)練端。
過濾端和訓(xùn)練端分離設(shè)置,過濾端通過數(shù)據(jù)接口與訓(xùn)練端進(jìn)行通信。
所述的分離為物理分離。
所述的過濾端可設(shè)置在網(wǎng)絡(luò)信息入口設(shè)備上。
訓(xùn)練端獲得的不同的過濾特征,分別配置到位于不同的網(wǎng)絡(luò)信息入口設(shè)備的過濾端。
所述的配置是指訓(xùn)練端依據(jù)網(wǎng)絡(luò)信息入口設(shè)備的承載能力和在網(wǎng)絡(luò)中的位置及用途分配過濾端的過濾特征;其中,網(wǎng)絡(luò)信息入口設(shè)備為防火墻或郵件服務(wù)器或代理服務(wù)器或個(gè)人計(jì)算機(jī);也可以是一個(gè)或一個(gè)以上的網(wǎng)絡(luò)信息入口設(shè)備或任意種網(wǎng)絡(luò)信息入口設(shè)備的組合。
訓(xùn)練端包括有內(nèi)容過濾用分類特征詞典模塊,該分類特征詞典模塊用于建立從特定信息中學(xué)習(xí)的分類特征詞匯,并指導(dǎo)過濾端分類特征詞典的補(bǔ)充或更新。該分類特征詞典模塊是由該分類特征詞典模塊通過對(duì)指定的學(xué)習(xí)信息中獲取的,一旦建立了該字典,訓(xùn)練端將利用標(biāo)準(zhǔn)的數(shù)據(jù)接口將該字典的內(nèi)容傳送到過濾端,過濾端則利用該字典進(jìn)行過濾,從而實(shí)現(xiàn)了訓(xùn)練端對(duì)過濾端的過濾指導(dǎo)。
訓(xùn)練端還包括內(nèi)容過濾用文本特征的抗干擾提取模塊,該文本特征的抗干擾提取模塊用于在被檢查的信息中查找并獲取被干擾的文本,并依此指導(dǎo)過濾端的文本過濾。該模塊首先在被檢查的文本中查找指定的文本信息,檢查指定文本的是否符合預(yù)先設(shè)定的文本中的排列順序;然后判斷文本之間的干擾距離,如果該距離小于干擾距離,則該文本作為待選被干擾的文本。
所述的訓(xùn)練端還包括文本主題的抗干擾提取模塊。
所述的文本主題的抗干擾提取模塊提取抗干擾主題詞的方法包括如下步驟步驟1在被檢查的文本中查找指定的字符,檢查指定字符的順序是否符合預(yù)先設(shè)定的主題詞中字符的排列順序,也就是查找指定的字符串;步驟2判斷字符之間的干擾距離,距離小于干擾距離,則該字符串為待選被干擾的主題詞;步驟3在文本中檢查該待選被干擾的主題詞出現(xiàn)的頻度大于設(shè)定的閾值后,將該待選被干擾的主題詞設(shè)置為過濾器的關(guān)鍵詞。
所述的查找指定的字符還包括指定的字符之間是否有中文標(biāo)點(diǎn)符號(hào),若不包含中文標(biāo)點(diǎn)符號(hào),則該字符串為被干擾的主題詞,設(shè)置為過濾器的關(guān)鍵詞。
所述的步驟1可直接為在兩個(gè)相鄰的標(biāo)點(diǎn)符號(hào)之間查找指定的字符串。
所述的待選被干擾的主題詞出現(xiàn)頻度可為一種以上不同形式的干擾主題詞的總和。
所述文本主題的抗干擾提取模塊為用于提取文本的主題相關(guān)信息;對(duì)所提取的主題相關(guān)信息進(jìn)行矯正,再依據(jù)主題信息矯正后的結(jié)果矯正基于向量空間模型文本相似度計(jì)算。
依據(jù)主題信息矯正后的結(jié)果矯正基于向量空間模型文本相似度計(jì)算包括如下步驟步驟1提取文本的主題相關(guān)信息;步驟2矯正基于向量空間模型文本相似度計(jì)算。
所述步驟2之前還包括對(duì)依據(jù)步驟1所提取的主題相關(guān)信息進(jìn)行矯正,再依據(jù)主題信息矯正后的結(jié)果矯正基于向量空間模型文本相似度計(jì)算。
所述步驟1提取主題相關(guān)信息依據(jù)詞頻、集合頻度、詞長(zhǎng)信息、詞以及總詞數(shù),取加權(quán)后權(quán)重最高的為主題相關(guān)信息。
所述的提取主題相關(guān)信息依據(jù)如下計(jì)算公式進(jìn)行 其中,①表示詞頻因子部分;②表示集合頻率因子;③表示詞長(zhǎng)因子;wik表示詞k在文本i中的權(quán)值;tf表示詞k在文本i中的頻率;MAXtf表示文本i中詞頻最大的詞的頻率;K1表示對(duì)tf的重視程度,通常取值0.5;wl為詞k的詞長(zhǎng); 為文本中詞長(zhǎng)的最大值;K2表示對(duì)wl的重視程度,通常取值0.5;Tw為文本i中的總詞數(shù)(僅指特征詞)。
對(duì)所提取的主題相關(guān)信息進(jìn)行矯正為通過主題信息的相交程度,判斷內(nèi)容的相似度。
矯正基于向量空間模型文本相似度計(jì)算為相交度大于閾值時(shí),強(qiáng)化特征向量相似度值;相交度小于閾值時(shí),弱化特征向量相似度值。
主題相關(guān)信息矯正為Ris=A+Tis∩CsCs]]>其中,A是反映對(duì)主題詞相關(guān)的重視程度經(jīng)驗(yàn)值(0<A<1),Ris是主題詞相關(guān)系數(shù);Tis是待分析文本i的主題詞數(shù);Cs是標(biāo)準(zhǔn)類的主題詞數(shù),“∩”是求交運(yùn)算,即判斷Cs包含Tis的數(shù)量。
矯正基于向量空間模型文本相似度計(jì)算即=Sim(wi,vj)×Ris其中,Sim(wi,vj)為向量空間模型文本相似度計(jì)算。
所述的主題相關(guān)信息為主題詞或特征詞。
所述的訓(xùn)練端還包括訓(xùn)練效果的評(píng)估和指導(dǎo)模塊。
所述的訓(xùn)練效果的評(píng)估和指導(dǎo)模塊用于得到內(nèi)容特征詞數(shù)量評(píng)價(jià)、特征詞重復(fù)率的評(píng)價(jià)以及主題集中度評(píng)價(jià)的系數(shù)值,根據(jù)這些系數(shù)值,再得出訓(xùn)練效果評(píng)價(jià)的結(jié)果,給訓(xùn)練提出客觀和定量的指導(dǎo)。
特征詞數(shù)量的評(píng)價(jià)為 其中xi為訓(xùn)練文本包含的特征詞數(shù),A為特征詞表總詞數(shù),αI為對(duì)每個(gè)訓(xùn)練評(píng)估點(diǎn)的經(jīng)驗(yàn)給定一個(gè)特征詞數(shù)量閾值。
重復(fù)率的評(píng)價(jià)為 其中xI為平均重復(fù)率,β為經(jīng)驗(yàn)閾值。
主題集中度的評(píng)價(jià)為 其中,xi為最高文檔覆蓋率,χ為經(jīng)驗(yàn)閾值。
訓(xùn)練評(píng)價(jià)為Q=Q1*Q2*Q3或Q=Q1*Q2或Q=Q1*Q3或Q=Q2*Q3或Q=Q1或Q=Q2或Q=Q3最后,根據(jù)Q值確定訓(xùn)練效果等級(jí)。
所述的過濾端包括內(nèi)容過濾用分類特征詞典模塊、文本特征的抗干擾提取模塊、求待過濾文本內(nèi)容與已定義過濾內(nèi)容特征的相似程度模塊。
所述的過濾端包括用精確度矯正值解決局部相似和短文本高度相似問題模塊。
所述的用精確度矯正值解決局部相似和短文本高度相似問題模塊用于依據(jù)待分析文本標(biāo)準(zhǔn)向量,得到待分析文本準(zhǔn)確地歸屬于標(biāo)準(zhǔn)類的程度值數(shù)據(jù)精確度,使用精確度矯正基于向量空間模型文本相似度計(jì)算結(jié)果。
所述的矯正方法為Sim(wi,vj)×Pi其中,Pi為精確度矯正系數(shù)。
精確度矯正系數(shù)的得到方法為Pi=BΣ(σkvjk)2Σ(vjk)2]]>其中,B≥1,且 B為表示對(duì)精確度信息重視程度的經(jīng)驗(yàn)值。
所述的過濾端包括依據(jù)多步矯正后相似度值的過濾模塊。
所述的依據(jù)多步矯正后相似度值的過濾模塊用于匯總各模塊得出的精確度系數(shù)值,根據(jù)預(yù)先設(shè)定的過濾閾值Uw,判斷待過濾文本是否應(yīng)被過濾。
本發(fā)明通過對(duì)文本內(nèi)容的分析和判斷來實(shí)現(xiàn)內(nèi)容過濾,為用戶提供了一種智能的高效的內(nèi)容安全服務(wù);內(nèi)容過濾器為一個(gè)通用的而非對(duì)特定主題專用的過濾系統(tǒng),過濾的內(nèi)容可通過學(xué)習(xí)得到,也為用戶使用過濾器提供更大的靈活性;并且,過濾器根據(jù)用戶可以提供的已訓(xùn)練類的特征,來識(shí)別待過濾內(nèi)容特征,若特征相似程度超過設(shè)定閾值,則過濾該內(nèi)容,其過濾處理速度快,安裝方便。
圖8為本發(fā)明依據(jù)主題信息矯正后的結(jié)果矯正基于向量空間模型文本相似度計(jì)算的流程示意圖。
圖9為本發(fā)明訓(xùn)練模塊的學(xué)習(xí)處理模塊構(gòu)成示意圖。


圖1所示,本發(fā)明較大的特點(diǎn)是提供了訓(xùn)練-過濾的系統(tǒng)構(gòu)成概念模型。
內(nèi)容過濾器是通用的非限定性的文本內(nèi)容過濾方法。當(dāng)用戶產(chǎn)生對(duì)某一類特定內(nèi)容的相似文本進(jìn)行過濾的需求時(shí),首先使過濾器通過學(xué)習(xí)得到能夠表示這一類文本特征的相關(guān)知識(shí),然后把這些知識(shí)交由過濾器使用?!坝?xùn)練”就是這種自動(dòng)學(xué)習(xí)的過程。過濾器根據(jù)用戶提供的已訓(xùn)練類的特征,識(shí)別待過濾內(nèi)容特征,若特征相似程度超過設(shè)定閾值,則過濾該內(nèi)容。
訓(xùn)練過濾的概念模型可以實(shí)現(xiàn)內(nèi)容過濾器對(duì)用戶開放過濾內(nèi)容,使內(nèi)容過濾器成為一個(gè)通用的而非對(duì)特定主題專用的過濾系統(tǒng)。
上面所述的內(nèi)容過濾器包括有過濾端和訓(xùn)練端;訓(xùn)練端采用預(yù)定的信息進(jìn)行學(xué)習(xí),獲得該信息的過濾特征,過濾端對(duì)信息過濾,訓(xùn)練端與過濾端進(jìn)行通信。本實(shí)施例中的內(nèi)容過濾器包括多個(gè)過濾端及多個(gè)訓(xùn)練端。實(shí)際的內(nèi)容過濾器還可以是僅包括一個(gè)訓(xùn)練端及一個(gè)或一個(gè)以上的過濾端,或者包括一個(gè)過濾端及一個(gè)或一個(gè)以上的訓(xùn)練端。無論過濾端和訓(xùn)練端的配置數(shù)量如何,本發(fā)明中,過濾端和訓(xùn)練端采用物理上分離的設(shè)置方法進(jìn)行設(shè)置,過濾端通過數(shù)據(jù)接口與訓(xùn)練端進(jìn)行通信達(dá)到數(shù)據(jù)信息的交互目的。
過濾端設(shè)置在網(wǎng)絡(luò)信息入口設(shè)備上,并且,訓(xùn)練端獲得的不同的過濾特征,分別配置到位于不同的網(wǎng)絡(luò)信息入口設(shè)備的過濾端。這里所述的配置是指訓(xùn)練端依據(jù)網(wǎng)絡(luò)信息入口設(shè)備的承載能力和在網(wǎng)絡(luò)中的位置及用途分配過濾端的過濾特征。
網(wǎng)絡(luò)信息入口設(shè)備為防火墻或郵件服務(wù)器或代理服務(wù)器或個(gè)人計(jì)算機(jī);也可以是一個(gè)或一個(gè)以上的網(wǎng)絡(luò)信息入口設(shè)備或任意種網(wǎng)絡(luò)信息入口設(shè)備的組合。
訓(xùn)練端包括有內(nèi)容過濾用分類特征詞典模塊,該分類特征詞典模塊用于建立從特定信息中學(xué)習(xí)的分類特征詞匯,并指導(dǎo)過濾端分類特征詞典的補(bǔ)充或更新。該分類特征詞典模塊是由該分類特征詞典模塊通過對(duì)指定的學(xué)習(xí)信息中獲取的,一旦建立了該字典,訓(xùn)練端將利用標(biāo)準(zhǔn)的數(shù)據(jù)接口將該字典的內(nèi)容傳送到過濾端,過濾端則利用該字典進(jìn)行過濾,從而實(shí)現(xiàn)了訓(xùn)練端對(duì)過濾端的過濾指導(dǎo)。
訓(xùn)練端還包括內(nèi)容過濾用文本特征的抗干擾提取模塊,該文本特征的抗干擾提取模塊用于在被檢查的信息中查找并獲取被干擾的文本,并依此指導(dǎo)過濾端的文本過濾。該模塊首先在被檢查的文本中查找指定的文本信息,檢查指定文本的是否符合預(yù)先設(shè)定的文本中的排列順序;然后判斷文本之間的干擾距離,如果該距離小于干擾距離,則該文本作為待選被干擾的文本。
再有,如圖2、3、4所示,本發(fā)明的系統(tǒng)結(jié)構(gòu)為訓(xùn)練端-過濾端分離的系統(tǒng)工作模式。
根據(jù)訓(xùn)練-過濾概念模型的定義,內(nèi)容過濾器系統(tǒng)分為訓(xùn)練端和過濾端兩個(gè)模塊。內(nèi)容過濾器過濾端可以安裝在網(wǎng)絡(luò)信息入口設(shè)備(如防火墻、郵件服務(wù)器、代理服務(wù)器等),響應(yīng)系統(tǒng)內(nèi)容安全鑒別請(qǐng)求,實(shí)時(shí)掃描未知文本內(nèi)容,根據(jù)加載的過濾類特征數(shù)據(jù),對(duì)未知文本與過濾類特征進(jìn)行相似程度判別,得到未知文本與過濾類的相似度,提請(qǐng)系統(tǒng)進(jìn)行相應(yīng)處理。
訓(xùn)練端-過濾端分離的工作模式使內(nèi)容過濾器有更好的靈活性。訓(xùn)練端體積大,功能強(qiáng),過濾所需的各種參數(shù)全部在訓(xùn)練端生成;過濾端體積小,靈活輕便,處理速度快,方便安裝在多種軟硬件系統(tǒng)中。
過濾端通過標(biāo)準(zhǔn)數(shù)據(jù)接口和訓(xùn)練端交互,訓(xùn)練端對(duì)過濾端提供多種方式的支持內(nèi)容過濾器通過過濾類特征數(shù)據(jù)和訓(xùn)練端建立邏輯聯(lián)系,在物理上是可以分離的,用戶可以通過從技術(shù)支持站點(diǎn)下載標(biāo)準(zhǔn)過濾類特征數(shù)據(jù)或自行用訓(xùn)練端軟件訓(xùn)練來滿足不同的內(nèi)容過濾需求。
內(nèi)容過濾器的構(gòu)成可以是一個(gè)訓(xùn)練端支持多個(gè)過濾端;或者一個(gè)過濾端也可以得到多個(gè)訓(xùn)練端的支持;再或者,多個(gè)訓(xùn)練端可以支持多個(gè)過濾端。
參見圖5,本發(fā)明內(nèi)容過濾器訓(xùn)練端訓(xùn)練模塊包括內(nèi)容過濾用分類特征詞典模塊;
過濾實(shí)質(zhì)上也是一個(gè)分類過程,但比分類要求嚴(yán)格。內(nèi)容過濾系統(tǒng)將在文本中具有典型區(qū)別意義的詞語定義為特征詞,并經(jīng)過對(duì)一億字文本的統(tǒng)計(jì)得到了一個(gè)內(nèi)容過濾用分類特征詞典,收入約20000詞條。
文本特征的抗干擾提取模塊;文本特征提取就是根據(jù)內(nèi)容過濾用分類特征詞典計(jì)算文本中特征詞的出現(xiàn)頻度等信息。當(dāng)前一些不受歡迎的網(wǎng)絡(luò)信息為了能夠通過關(guān)鍵詞過濾器,有意在一些重要的詞的寫法上加入干擾,如“法輪功”被寫成“法#輪#功”或“江澤民”寫成“江澤之民”,使關(guān)鍵詞過濾器失效。對(duì)內(nèi)容過濾器而言,文本內(nèi)容特征被削弱。針對(duì)這種情況,我們?cè)O(shè)計(jì)了抗干擾提取方法來實(shí)現(xiàn)對(duì)文本特征的抗干擾提取。
文本特征的提取是基于內(nèi)容過濾用分類特征詞典的,特征提取過程是文本特征向量的建立過程,是內(nèi)容過濾器形成“過濾知識(shí)”的過程。
文本主題的抗干擾提取模塊;與文本特征相比較,文本主題更具體地體現(xiàn)文本內(nèi)容的類別歸屬,每一過濾類在訓(xùn)練過程中都會(huì)形成一個(gè)主題詞集合,代表該類在內(nèi)容上的最典型特征。
訓(xùn)練效果的評(píng)估和指導(dǎo)方法模塊;評(píng)估和指導(dǎo)技術(shù)將對(duì)用戶的訓(xùn)練效果給出過濾效果評(píng)價(jià)和訓(xùn)練指導(dǎo)。
參見圖6,本發(fā)明的內(nèi)容過濾器過濾端模塊包括1.內(nèi)容過濾用分類特征詞典2.文本特征的抗干擾提取3.求待過濾文本內(nèi)容與已定義過濾內(nèi)容特征的相似程度將向量空間模型(VSM,Vector Space Model)應(yīng)用于內(nèi)容過濾系統(tǒng)的實(shí)現(xiàn),對(duì)待過濾文本內(nèi)容和過濾類特征進(jìn)行向量相似度計(jì)算,得到初步的相似度值。
標(biāo)準(zhǔn)的基于向量空間模型計(jì)算文本相似度的計(jì)算公式如下Sim(wi,vj)=Cosθ=Σk=1nwik.vjkΣk=1nwik2·Σk=1nvjk2]]>公式中Wi,Vi分別為待分析文本向量和標(biāo)準(zhǔn)向量,wik,vjk是向量的分量。
4.求待過濾文本內(nèi)容是否與已定義過濾內(nèi)容主題相關(guān)程度值Ris,通過主題詞相關(guān)矯正相似度值。
每一文本中都有一些對(duì)文本內(nèi)容的類別歸屬其特殊指導(dǎo)作用的詞稱為該文本的主題詞。在人類的智能分類過程中,會(huì)考慮到這些主題詞的特殊貢獻(xiàn),對(duì)文本類別歸屬進(jìn)行加權(quán)。文本主題詞通過事先指定獲主題詞提取算法提取。
5.用精確度矯正值Pi解決局部相似和短文本高度相似問題6.得到多步矯正后的相似度值,根據(jù)預(yù)先設(shè)定的過濾閾值Uw判斷待過濾文本是否應(yīng)被過濾。
得到多步矯正后的相似度值Sw,vSw,v=Sim(wi,vi)×Pi×Ris若Sw,v≥Uw則內(nèi)容過濾器提請(qǐng)系統(tǒng)過濾該文本。若Sw,v<Uw則內(nèi)容過濾器認(rèn)為該文本是安全的可以通過。
參見圖7,主題詞是指對(duì)特定文本內(nèi)容具有意義和類型上的重要性的詞。主題詞集大于或等于關(guān)鍵詞集,經(jīng)過抗干擾過濾得到的主題詞可用于關(guān)鍵詞過濾器或其他基于主題詞的處理方法。
特定類型文本的主題詞集可以人工指定也可以自動(dòng)獲取,其獲取方法與本專利無關(guān)。
主題詞抗干擾提取方法為設(shè)某一主題詞W=a1a2…an,其中a1…an為主題詞中的順序排列的字符。在掃描文本S時(shí),如果發(fā)現(xiàn)a1∈S,a2∈S,…an∈S,且滿足a1<a2<…<an,a1和an之間的字符數(shù)小于抗干擾距離D,a1和an之間不包含標(biāo)點(diǎn)符號(hào)則認(rèn)為a1和an之間是一個(gè)被干擾的主題詞。每發(fā)現(xiàn)一個(gè)這樣的詞串,記該詞侯選頻度F′(W)++。如果F′(W)達(dá)到某一預(yù)定閾值F0,則認(rèn)為文本中所有這些被干擾的詞串為主題詞W,并在計(jì)算相應(yīng)主題詞信息時(shí)增加F′(W)的影響。
其中“<”表示順序優(yōu)先關(guān)系(不一定相鄰)。
具體實(shí)例為內(nèi)容過濾器設(shè)定的抗干擾距離D=5,干擾詞頻度閾值F0=3。
某文本i中存在主題詞S,S=a1a2a3a4a5,經(jīng)初步分析,在文本i的兩個(gè)鄰近的標(biāo)點(diǎn)符號(hào)之間發(fā)現(xiàn)字符串S’S’=a1xa2xa3a4xa5其中,x是除標(biāo)點(diǎn)符號(hào)外的任意字符,根據(jù)抗干擾規(guī)則考查字符串S’和S的關(guān)系,存在a1<a2<a3<a4<a5,a1和a5之間的字符數(shù)為3,小于抗干擾距離D=5,a1和a5之間不包括標(biāo)點(diǎn)符號(hào)則,條件成立,所以,有S’=S成立,S’被認(rèn)為是文本i的一個(gè)候選主題詞。接著,若在文本中發(fā)現(xiàn)3處以上S’以及干擾字符x位置發(fā)生變化的S’的變形,則有S‘為S的干擾詞。也就是,干擾詞S的頻度F′(S)≥閾值F0成立,故經(jīng)過主題詞抗干擾處理,S’被認(rèn)為與文本i的主題詞S一致,在內(nèi)容過濾器中作為一個(gè)主題詞處理。
參見圖8,標(biāo)準(zhǔn)的基于向量空間模型文本相似度計(jì)算的方法為Sim(wi,vj)=Cosθ=Σk=1nwik.vjkΣk=1nwik2·Σk=1nvjk2]]>公式中Wi,Vj分別為待分析文本向量和標(biāo)準(zhǔn)向量,wik,vjk是向量的分量。由此可以看出,在相似度計(jì)算過程中,所有的詞都被同等對(duì)待。
除了特征詞之外,每一類文本中都存在一些特殊的詞,它們對(duì)文本的類別歸屬具有特殊的價(jià)值,這些特定的詞被稱為特征詞或主題詞。在人類的智能分類過程中,會(huì)考慮到這些主題詞的特殊貢獻(xiàn),對(duì)文本類別歸屬進(jìn)行加權(quán)。
基于這種思想,為使相似度計(jì)算的結(jié)果更加有效和自然,設(shè)置一依據(jù)主題詞的提取方法,并依據(jù)提取的主題詞對(duì)上述標(biāo)準(zhǔn)方法進(jìn)行的矯正。
在進(jìn)行主題詞相關(guān)矯正之前,首先要提取特定類別的主題詞。其過程是分析特定文本,提取文本特征向量時(shí),綜合考慮詞頻、集合頻度、詞長(zhǎng)信息提取主題詞。我們提出的具體方法如下 其中,①表示詞頻因子部分;②表示集合頻率因子;③表示詞長(zhǎng)因子;wik表示詞k在文本i中的權(quán)值;tf表示詞k在文本i中的頻率;MAXtf表示文本i中詞頻最大的詞的頻率;K1表示對(duì)tf的重視程度,通常取值0.5;wl為詞k的詞長(zhǎng); 為文本中詞長(zhǎng)的最大值;K2表示對(duì)wl的重視程度,通常取值0.5;Tw為文本i中的總詞數(shù)(僅指特征詞)。
在訓(xùn)練過程中,從標(biāo)準(zhǔn)文本中提取以上值最高的一批詞作為標(biāo)準(zhǔn)主題詞集,處理待分析文本時(shí),也依據(jù)這個(gè)公式計(jì)算待分析文本的主題詞集,以這兩個(gè)集合作為主題詞矯正的依據(jù)。
具體實(shí)例為判斷一個(gè)特征詞W是否屬于文本i的主題詞某一文本i中總特征詞數(shù)Tw=100,詞頻最大MAXtf=6,詞長(zhǎng)最大MAXwl=5,]]>文本中有特征詞W,其長(zhǎng)度wl=3,在文本中的頻率tf為5,取K1=K2=0.5,用主題詞提取公式計(jì)算特征詞W在文本i中的權(quán)值,得wik=(0.5+0.5×56)×1log21005×(0.5+0.5×36)≈0.159]]>重復(fù)上述步驟,計(jì)算文本i中所有100個(gè)特征詞的權(quán)值,將所有特征詞按權(quán)值大小排序,若在文本i中提取10個(gè)主題詞,則直接選取權(quán)值最大的前十個(gè)特征詞作為文本主題詞,若詞W的權(quán)值Wik滿足條件,詞W就是文本i的主題詞。
在計(jì)算待分析文本的相似度時(shí),基于主題詞矯正思想,根據(jù)待分析文本與標(biāo)準(zhǔn)主題詞集合的相交程度調(diào)節(jié)主題詞矯正系數(shù)。
主題詞矯正計(jì)算公式如下Ris=A+Tis∩CsCs]]>其中,A是經(jīng)驗(yàn)值(0<A<1),通常取值0.7,反映對(duì)主題詞相關(guān)的重視程度。Ris是主題詞相關(guān)系數(shù),取值范圍A-A+1;Tis是待分析文本i的主題詞數(shù);Cw是標(biāo)準(zhǔn)類的主題詞數(shù),“∩”是求交運(yùn)算,即判斷Cs包含Tis的數(shù)量,求交運(yùn)算不受主題詞的排列順序影響。
主題詞相關(guān)系數(shù)的目的在于通過主題詞相交程度來判斷內(nèi)容的相似度。公式表明,只要達(dá)到1-A的主題詞相交,即待分析文本主題詞數(shù)與標(biāo)準(zhǔn)文本主題詞數(shù)的比值 大于1-A,Ris大于1,就強(qiáng)化特征向量相似度值;反之,Ris小于1,就弱化特征向量相似度值。
本發(fā)明的方法目的是通過主題詞矯正基于向量空間模型文本相似度計(jì)算的方法,即為用主題詞矯正修正基于向量空間模型文本相似度計(jì)算待分析文本i與標(biāo)準(zhǔn)文本的相關(guān)程度=Sim(wi,vj)×Ris其中Ris為主題詞相關(guān)矯正系數(shù)。
具體實(shí)例為某一過濾類T有主題詞集Subj_T={S1,S2,S3,S4,S5,S6,S7,S8,S9,S10}某一文本i經(jīng)向量空間模型計(jì)算得到與過濾類T的相似度為Sim(t,i),經(jīng)主題詞抽取得到主題詞集Subj_i={i1,i2,i3,i4,i5,i6,i7,i8,i9,i10}對(duì)Subj_T和Subj_i求交,即判斷Si等于ik的個(gè)數(shù),1)假設(shè)有Subj_T∩Subj_i=7,取A=0.7,則主題詞矯正值Ris=0.7+Tis∩CsCs=0.7+710=1.4]]>用Ris對(duì)由VSM模型文本相似度進(jìn)行矯正待分析文本i與T類的相關(guān)程度=Sim(i,T)×Ris=1.4×Sim(i,T)文本相似度被矯正提高,說明文本i與過濾類T的主題高度相關(guān)增強(qiáng)了文本內(nèi)容相似程度。
2)假設(shè)有Subj_T∩Subj_i=1,取A=0.7,則主題詞矯正值Ris=0.7+Tis∩CsCs=0.7+110=0.8]]>用Ris對(duì)由VSM模型文本相似度進(jìn)行矯正待分析文本i與T類的相關(guān)程度=Sim(i,T)×Ris=0.8×Sim(i,T)
文本相似度被矯正降低,說明文本i與過濾類T的主題偏離削弱了文本內(nèi)容相似程度。
參見圖9,訓(xùn)練效果評(píng)價(jià)的過程包括采用指定的擁護(hù)訓(xùn)練文本,通過訓(xùn)練提取類特征,然后將文本內(nèi)容進(jìn)行表示,最后提交到過濾器以指導(dǎo)過濾器的過濾操作。
訓(xùn)練效果評(píng)價(jià)包括三方面的內(nèi)容特征詞數(shù)量評(píng)價(jià)、特征詞重復(fù)率的評(píng)價(jià)以及主題集中度評(píng)價(jià)。當(dāng)訓(xùn)練量達(dá)到某個(gè)數(shù)量(如100k,200k等等)時(shí)(稱這些點(diǎn)訓(xùn)練評(píng)估點(diǎn)),根據(jù)這些評(píng)價(jià)所表述的系數(shù)值,再得出訓(xùn)練效果評(píng)價(jià)的結(jié)果。
其中具體地,特征詞數(shù)量評(píng)價(jià)系數(shù)的得到為因?yàn)樘卣髟~反映了語料的主要內(nèi)容,所以如果訓(xùn)練文本中涉及的特征詞數(shù)量越少,說明訓(xùn)練語料越集中,因此,設(shè)置一特征詞數(shù)量評(píng)價(jià)系數(shù)。
訓(xùn)練文本包含的特征詞數(shù)為xi,特征詞表總詞數(shù)為A。對(duì)每個(gè)訓(xùn)練評(píng)估點(diǎn),根據(jù)經(jīng)驗(yàn)給定一個(gè)特征詞數(shù)量閾值αi。Q1計(jì)算公式 根據(jù)經(jīng)驗(yàn),各評(píng)估點(diǎn)的αi如下訓(xùn)練量100k 200k 300k 400kαi 2500 3400 4200 4800特征詞重復(fù)率評(píng)價(jià)系數(shù)的得到為因?yàn)樘卣髟~反映了語料的主要內(nèi)容,所以訓(xùn)練文本中特征詞重復(fù)率越高,說明訓(xùn)練語料越集中,因此設(shè)置一特征詞重復(fù)率評(píng)價(jià)系數(shù)。
設(shè)第i個(gè)訓(xùn)練評(píng)估點(diǎn)上,從第i批訓(xùn)練文本中提取出特征詞,將其與前(i-1)批訓(xùn)練文本中提出的特征詞集合進(jìn)行比較,計(jì)算特征詞的平均重復(fù)率。設(shè)平均重復(fù)率為xi,取經(jīng)驗(yàn)閾值β,Q2計(jì)算公式 取β=0.4。
再有,主題集中度評(píng)價(jià)系數(shù)的得到為如果訓(xùn)練語料的主題比較集中,則必然大部分語料會(huì)談到相同的話題。根據(jù)這種思想,設(shè)置一主題集中度評(píng)價(jià)系數(shù)。
設(shè)第i個(gè)訓(xùn)練評(píng)估點(diǎn)上,從第i批訓(xùn)練語料中提取出前n個(gè)高頻特征詞中最高的文檔覆蓋率xi,取經(jīng)驗(yàn)閾值χ,Q2計(jì)算公式 取經(jīng)驗(yàn)值為χ=0.8,n=50。
最后,訓(xùn)練效果評(píng)價(jià)公式Q=Q1*Q2*Q3或Q=Q1*Q2或Q=Q1*Q3或Q=Q1或Q=Q2或Q=Q3根據(jù)Q值確定訓(xùn)練效果等級(jí)。
Q0-0.2 0.2-0.4 0.4-0.6 0.6-0.8 0.8-1.0效果等級(jí)差、較差、一般、較好、好。
依據(jù)上述結(jié)果可以更好地對(duì)過濾器訓(xùn)練端的效果進(jìn)行指導(dǎo),提高訓(xùn)練效果。
具體實(shí)例的對(duì)比為針對(duì)幾類集中程度好的訓(xùn)練文本,并從某一綜合網(wǎng)站上隨機(jī)抽取一些雜類文本作為實(shí)驗(yàn)對(duì)照,用以上方法驗(yàn)證其訓(xùn)練效果。其結(jié)果如下較好的訓(xùn)練文本訓(xùn)練量100k 200k 300k 400kQ11111Q21111Q31111Q 1111內(nèi)容雜糅的一批文本訓(xùn)練量100k 200k 300k 400kQ10.95 0.90.86 0.85Q21 0.80.70.75Q30.85 0.67 0.65 0.35Q 0.80 0.48 0.39 0.22很明顯,雜糅的訓(xùn)練文本的訓(xùn)練效果相對(duì)于本發(fā)明的效果有相當(dāng)?shù)牟罹唷?br> 向量空間模型(SVM)的概念是將文檔看成是由一組詞條(T1,T2,……,Tn)構(gòu)成,根據(jù)每一詞條在文檔的重要程度(通常為出現(xiàn)頻率)賦以一定的權(quán)值Wi。這樣就構(gòu)成了一個(gè)向量空間,每一文檔都可以表示成由詞條和權(quán)值組成的向量模型TW=((t1,w1),(t2,w2),……,(tn,wn))從而把文檔內(nèi)容匹配問題轉(zhuǎn)化為求向量空間中的向量匹配問題。
基于向量空間模型文本相似度的標(biāo)準(zhǔn)計(jì)算公式Sim(wi,vj)=Cosθ=Σk=1nwik.vjkΣk=1nwik2·Σk=1nvjk2]]>公式中Wi,Vj分別為待分析文本向量和標(biāo)準(zhǔn)向量,wik,vjk是向量的分量。以上公式的作用是計(jì)算Wi與Vj相似的程度。
在實(shí)際應(yīng)用中,此公式存在這樣的問題不歸屬于類別Vj的待分析文本,可能因?yàn)榘瑯?biāo)準(zhǔn)向量Vj中部分高權(quán)重詞而得到比較高的相似度。這是不符合常規(guī)的,也是該算法的缺陷。這種情況在待分析文本中包含的特征詞數(shù)較少但權(quán)重較高的時(shí)候尤為突出。
在智能分類過程中,不會(huì)因?yàn)榇治鑫谋局话承└邫?quán)重詞就將其歸類為Vj,而是會(huì)自動(dòng)降低這種文本的相似度。
為此,一基于相似度精確度信息進(jìn)行矯正的方法,使得相似度計(jì)算的結(jié)果更加有效和自然。該方法可以表示為待分析文本i與標(biāo)準(zhǔn)文本的相關(guān)程度=Sim(wi,vj)×Pi其中Pi為精確度矯正系數(shù)。
精確度概念Pi是一個(gè)表示待分析文本準(zhǔn)確地歸屬于標(biāo)準(zhǔn)類的程度值數(shù)據(jù),稱之為(相似度)的精確度。其計(jì)算公式如下Pi=BΣ(σkvjk)2Σ(vjk)2]]>其中,B≥1,且 B為經(jīng)驗(yàn)值,表示對(duì)精確度信息的重視程度。當(dāng)Pi>1則強(qiáng)化特征向量相似度值;反之則弱化特征向量相似度值。
具體實(shí)施例為某一類文本T可以由特征詞向量空間模型T={(t1,100),(t2,100),(t3,50),(t4,50),(t5,10),…,(t20,10)}來表示,(其中,ti是特征詞)。
一個(gè)待分析文本M經(jīng)處理,得到其特征向量模型為M={(ti,100),(t2,100)}
根據(jù)待分析向量M調(diào)整類文本向量T,用向量空間模型文本相似度的計(jì)算得到Sim(T,M)=0.87從計(jì)算結(jié)果表面上看文本M和T類高度很高,而實(shí)際上文本M只反映了T類的局部,只是局部高度相似。向量空間模型計(jì)算文本相似度值時(shí),不能解決局部相似和短文本相似問題。但這種少量高權(quán)值詞造成的相似度是不自然的。
加入精確度矯正,取B=1,則Pi=0.8,相似度被進(jìn)一步降低了。經(jīng)過上述的精確度矯正,所述的局部相似造成的相似度被降低了,結(jié)果更自然了。這種方法尤其在類別歸屬判斷的閾值附近會(huì)起到較大影響,使一些相似度略微高出閾值的文本被降低到閾值之下。
權(quán)利要求
1.一種基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的內(nèi)容過濾器包括過濾端和訓(xùn)練端;訓(xùn)練端采用預(yù)定的信息進(jìn)行學(xué)習(xí),獲得該信息的過濾特征,過濾端對(duì)信息過濾,訓(xùn)練端與過濾端進(jìn)行通信。
2.根據(jù)權(quán)利要求1所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的內(nèi)容過濾器至少包括一個(gè)訓(xùn)練端及一個(gè)或一個(gè)以上的過濾端。
3.根據(jù)權(quán)利要求1所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的內(nèi)容過濾器至少包括一個(gè)過濾端及一個(gè)或一個(gè)以上的訓(xùn)練端。
4.根據(jù)權(quán)利要求1所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的內(nèi)容過濾器包括一個(gè)以上過濾端及一個(gè)以上的訓(xùn)練端。
5.根據(jù)權(quán)利要求1-4所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于過濾端和訓(xùn)練端分離設(shè)置,過濾端通過數(shù)據(jù)接口與訓(xùn)練端進(jìn)行通信。
6.根據(jù)權(quán)利要求5所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的分離為物理分離。
7.根據(jù)上述權(quán)利要求所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的過濾端可設(shè)置在網(wǎng)絡(luò)信息入口設(shè)備上。
8.根據(jù)權(quán)利要求7所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于訓(xùn)練端獲得的不同的過濾特征,分別配置到位于不同的網(wǎng)絡(luò)信息入口設(shè)備的過濾端。
9.根據(jù)權(quán)利要求8所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的配置是指訓(xùn)練端依據(jù)網(wǎng)絡(luò)信息入口設(shè)備的承載能力和在網(wǎng)絡(luò)中的位置及用途分配過濾端的過濾特征。
10.根據(jù)權(quán)利要求7所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的網(wǎng)絡(luò)信息入口設(shè)備為防火墻。
11.根據(jù)權(quán)利要求7所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的網(wǎng)絡(luò)信息入口設(shè)備為郵件服務(wù)器。
12.根據(jù)權(quán)利要求7所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的網(wǎng)絡(luò)信息入口設(shè)備為代理服務(wù)器。
13.根據(jù)權(quán)利要求7所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的網(wǎng)絡(luò)信息入口設(shè)備為個(gè)人計(jì)算機(jī)。
14.根據(jù)權(quán)利要求7或10或11或12或13所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的網(wǎng)絡(luò)信息入口設(shè)備為一個(gè)以上網(wǎng)絡(luò)信息入口設(shè)備或其組合。
15.根據(jù)權(quán)利要求1、2、3、4、5、8所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的訓(xùn)練端包括內(nèi)容過濾用分類特征詞典模塊,分類特征詞典模塊用于建立從特定信息中學(xué)習(xí)的分類特征詞匯,并指導(dǎo)過濾端分類特征詞典的補(bǔ)充或更新。
16.根據(jù)權(quán)利要求1、2、3、4、5、8所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的訓(xùn)練端包括內(nèi)容過濾用文本特征的抗干擾提取模塊,文本特征的抗干擾提取模塊用于在被檢查的信息中查找并獲取被干擾的文本,并依此指導(dǎo)過濾端的文本過濾。
17.根據(jù)權(quán)利要求1、2、3、4、5、8所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的訓(xùn)練端還包括文本主題的抗干擾提取模塊。
18.根據(jù)權(quán)利要求17所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的文本主題的抗干擾提取模塊提取抗干擾主題詞的方法包括如下步驟步驟1在被檢查的文本中查找指定的字符,檢查指定字符的順序是否符合預(yù)先設(shè)定的主題詞中字符的排列順序,也就是查找指定的字符串;步驟2判斷字符之間的干擾距離,距離小于干擾距離,則該字符串為待選被干擾的主題詞;步驟3在文本中檢查該待選被干擾的主題詞出現(xiàn)的頻度大于設(shè)定的閾值后,將該待選被干擾的主題詞設(shè)置為過濾器的關(guān)鍵詞。
19.根據(jù)權(quán)利要求18所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的查找指定的字符還包括指定的字符之間是否有中文標(biāo)點(diǎn)符號(hào),若不包含中文標(biāo)點(diǎn)符號(hào),則該字符串為被干擾的主題詞,設(shè)置為過濾器的關(guān)鍵詞。
20.根據(jù)權(quán)利要求18所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的步驟1可直接為在兩個(gè)相鄰的標(biāo)點(diǎn)符號(hào)之間查找指定的字符串。
21.根據(jù)權(quán)利要求18所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的待選被干擾的主題詞出現(xiàn)頻度可為一種以上不同形式的干擾主題詞的總和。
22.根據(jù)權(quán)利要求17所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述文本主題的抗干擾提取模塊為用于提取文本的主題相關(guān)信息;對(duì)所提取的主題相關(guān)信息進(jìn)行矯正,再依據(jù)主題信息矯正后的結(jié)果矯正基于向量空間模型文本相似度計(jì)算。
23.根據(jù)權(quán)利要求22所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于依據(jù)主題信息矯正后的結(jié)果矯正基于向量空間模型文本相似度計(jì)算包括如下步驟步驟1提取文本的主題相關(guān)信息;步驟2矯正基于向量空間模型文本相似度計(jì)算。
24.根據(jù)權(quán)利要求23所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述步驟2之前還包括對(duì)依據(jù)步驟1所提取的主題相關(guān)信息進(jìn)行矯正,再依據(jù)主題信息矯正后的結(jié)果矯正基于向量空間模型文本相似度計(jì)算。
25.根據(jù)權(quán)利要求23所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述步驟1提取主題相關(guān)信息依據(jù)詞頻、集合頻度、詞長(zhǎng)信息、詞以及總詞數(shù),取加權(quán)后權(quán)重最高的為主題相關(guān)信息。
26.根據(jù)權(quán)利要求25所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的提取主題相關(guān)信息依據(jù)如下計(jì)算公式進(jìn)行 其中,①表示詞頻因子部分;②表示集合頻率因子;③二氛示詞長(zhǎng)因子;wik表示k在文本i中的權(quán)值;tf表示詞k在文本i中的頻率;MAXtf表示文本i中詞頻最大的詞的頻率;Ki表示對(duì)tf的重視程度,通常取值0.5;wl為詞k的詞長(zhǎng); 為文本中詞長(zhǎng)的最大值;K2表示對(duì)wi的重視程度,通常取值0.5;Tw為文本i中的總詞數(shù)(僅指特征詞)。
27.根據(jù)權(quán)利要求24所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于對(duì)所提取的主題相關(guān)信息進(jìn)行矯正為通過主題信息的相交程度,判斷內(nèi)容的相似度。
28.根據(jù)權(quán)利要求24或27所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于矯正基于向量空間模型文本相似度計(jì)算為相交度大于閾值時(shí),強(qiáng)化特征向量相似度值;相交度小于閾值時(shí),弱化特征向量相似度值。
29.根據(jù)權(quán)利要求24所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于主題相關(guān)信息矯正為Ris=A+Tis∩CsCs]]>其中,A是反映對(duì)主題詞相關(guān)的重視程度經(jīng)驗(yàn)值(0<A<1),Ris是主題詞相關(guān)系數(shù);Tis是待分析文本i的主題詞數(shù);Cs是標(biāo)準(zhǔn)類的主題詞數(shù),“∩”是求交運(yùn)算,即判斷Cs包含Tis的數(shù)量。
30.根據(jù)權(quán)利要求28或29所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于矯正基于向量空間模型文本相似度計(jì)算即=Sim(wi,vj)×Ris其中,Sim(wi,vj)為向量空間模型文本相似度計(jì)算。
31.根據(jù)權(quán)利要求23、24、25、26、27或29所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的主題相關(guān)信息為主題詞或特征詞。
32.根據(jù)權(quán)利要求1、2、3、4、5、8所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的訓(xùn)練端還包括訓(xùn)練效果的評(píng)估和指導(dǎo)模塊。
33.根據(jù)權(quán)利要求32所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的訓(xùn)練效果的評(píng)估和指導(dǎo)模塊用于得到內(nèi)容特征詞數(shù)量評(píng)價(jià)、特征詞重復(fù)率的評(píng)價(jià)以及主題集中度評(píng)價(jià)的系數(shù)值,根據(jù)這些系數(shù)值,再得出訓(xùn)練效果評(píng)價(jià)的結(jié)果,給訓(xùn)練提出客觀和定量的指導(dǎo)。
34.根據(jù)權(quán)利要求33所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于特征詞數(shù)量的評(píng)價(jià)為 其中xi為訓(xùn)練文本包含的特征詞數(shù),A為特征詞表總詞數(shù),αI為對(duì)每個(gè)訓(xùn)練評(píng)估點(diǎn)的經(jīng)驗(yàn)給定一個(gè)特征詞數(shù)量閾值。
35.根據(jù)權(quán)利要求33所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于重復(fù)率的評(píng)價(jià)為 其中xI為平均重復(fù)率,β為經(jīng)驗(yàn)閾值。
36.根據(jù)權(quán)利要求34所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于主題集中度的評(píng)價(jià)為 其中,xi為最高文檔覆蓋率,χ為經(jīng)驗(yàn)閾值。
37.根據(jù)權(quán)利要求34或35或36所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于訓(xùn)練評(píng)價(jià)為Q=Q1*Q2*Q3或Q=Q1*Q2或Q=Q1*Q3或Q=Q2*Q3或Q=Q1或Q=Q2或Q=Q3最后,根據(jù)Q值確定訓(xùn)練效果等級(jí)。
38.根據(jù)權(quán)利要求1、2、3、4、5、8所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的過濾端包括內(nèi)容過濾用分類特征詞典模塊、文本特征的抗干擾提取模塊、求待過濾文本內(nèi)容與已定義過濾內(nèi)容特征的相似程度模塊。
39.根據(jù)權(quán)利要求1、2、3、4、5、8所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的過濾端包括用精確度矯正值解決局部相似和短文本高度相似問題模塊。
40.根據(jù)權(quán)利要求39所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的用精確度矯正值解決局部相似和短文本高度相似問題模塊用于依據(jù)待分析文本標(biāo)準(zhǔn)向量,得到待分析文本準(zhǔn)確地歸屬于標(biāo)準(zhǔn)類的程度值數(shù)據(jù)精確度,使用精確度矯正基于向量空間模型文本相似度計(jì)算結(jié)果。
41.根據(jù)權(quán)利要求40所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的矯正方法為Sim(wi,vj)×Pi其中,Pi為精確度矯正系數(shù)。
42.根據(jù)權(quán)利要求41所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于精確度矯正系數(shù)的得到方法為Pi=BΣ(σkvjk)2Σ(vjk)2]]>其中,B≥1,且 B為表示對(duì)精確度信息重視程度的經(jīng)驗(yàn)值。
43.根據(jù)權(quán)利要求1、2、3、4、5、8所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的過濾端包括依據(jù)多步矯正后相似度值的過濾模塊。
44.根據(jù)權(quán)利要求43所述的基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,其特征在于所述的依據(jù)多步矯正后相似度值的過濾模塊用于匯總各模塊得出的精確度系數(shù)值,根據(jù)預(yù)先設(shè)定的過濾閾值Uw,判斷待過濾文本是否應(yīng)被過濾。
全文摘要
一種基于文本內(nèi)容特征相似度和主題相關(guān)程度比較的內(nèi)容過濾器,內(nèi)容過濾器包括過濾端和訓(xùn)練端,過濾端和訓(xùn)練端物理分離設(shè)置,過濾端通過數(shù)據(jù)接口與訓(xùn)練端進(jìn)行數(shù)據(jù)交互;通過對(duì)文本內(nèi)容的分析和判斷實(shí)現(xiàn)過濾;內(nèi)容過濾器為一通用的而非對(duì)特定主題專用的過濾系統(tǒng),過濾的內(nèi)容可通過學(xué)習(xí)得到,為使用過濾器提供了靈活性;并且,過濾器根據(jù)已訓(xùn)練類的特征識(shí)別待過濾內(nèi)容,其過濾處理速度快,安裝方便。
文檔編號(hào)G06F17/30GK1403959SQ01131420
公開日2003年3月19日 申請(qǐng)日期2001年9月7日 優(yōu)先權(quán)日2001年9月7日
發(fā)明者肖航, 高建忠, 王江, 諸光, 王楠 申請(qǐng)人:聯(lián)想(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
布拖县| 嘉义县| 栾川县| 桐柏县| 开平市| 揭西县| 伊宁市| 梅州市| 布尔津县| 黄大仙区| 武陟县| 金秀| 天气| 益阳市| 当雄县| 五家渠市| 运城市| 集安市| 正蓝旗| 凉城县| 固阳县| 贵溪市| 永安市| 辽源市| 合水县| 嫩江县| 延川县| 丰城市| 弋阳县| 尼玛县| 横山县| 河西区| 绍兴市| 武义县| 明水县| 怀集县| 达孜县| 高阳县| 内江市| 西安市| 黑龙江省|