本發(fā)明涉及一種動機(jī)詞匯的自動分類過濾生成創(chuàng)意點(diǎn)計算方法。
背景技術(shù):
隨著計算機(jī)技術(shù)的快速發(fā)展和網(wǎng)絡(luò)的日益普及,用戶可獲取的信息量呈現(xiàn)指數(shù)級增長[1],極大地豐富了用戶所處的信息環(huán)境,但是,同時造成了信息過載等問題,增加了用戶獲取所需動機(jī)詞匯的難度[2]。自動分類過濾作為最簡單有效的解決方法,被認(rèn)為是處理和組織大量數(shù)據(jù)的關(guān)鍵技術(shù)[3],而對其創(chuàng)意點(diǎn)進(jìn)行計算,是對自動分類過濾方法優(yōu)劣評判最有效的方法,成為了該領(lǐng)域亟待解決的問題,受到了廣大學(xué)者的關(guān)注,也出現(xiàn)了很多好的好方法[4-5]。
文獻(xiàn)[6]提出基于貝葉斯分類的動機(jī)詞匯自動分類過濾方法,該方法通過貝葉斯分類進(jìn)行分類,并給出核心過濾算法在動機(jī)詞匯分類中的具體實(shí)現(xiàn)方法及過程,進(jìn)而完成對動機(jī)詞匯的自動分類過濾。但是存在分類時間長的問題;文獻(xiàn)[7]提出基于信息反饋的自動分類過濾方法,該方法在現(xiàn)有分類算法的基礎(chǔ)上選取了SNoW作為具體主體分類算法,并提出信息反饋和閾值過濾的策略以達(dá)到準(zhǔn)確過濾無關(guān)詞匯的目的,實(shí)現(xiàn)動機(jī)詞匯的自動分類過濾。該方法雖然能實(shí)現(xiàn)動機(jī)詞匯的自動分類過濾,但是存在分類過濾效果不佳的問題;文獻(xiàn)[8]提出基于啟發(fā)式規(guī)則的自動分類過濾方法,該方法通過對動機(jī)詞匯進(jìn)行分詞、特征提取的基礎(chǔ)上,采用NB分類器進(jìn)行分類、過濾,實(shí)現(xiàn)對動機(jī)詞匯的自動分類過濾,但是存在分類過濾精度低的問題;文獻(xiàn)[9]提出基于潛在語義索引和支持向量機(jī)的分類過濾方法,在建立動機(jī)詞匯信息過濾模型的基礎(chǔ)上,分別聽過預(yù)處理、特征降維、訓(xùn)練、過濾等步驟,達(dá)到動機(jī)詞匯的自動分類過濾,但是存在過濾信息不完整的問題。
針對上述問題的產(chǎn)生,提出基于貝葉斯網(wǎng)絡(luò)計算的動機(jī)詞匯自動分類過濾方法?;谂老x對動機(jī)詞匯語料信息進(jìn)行獲取,通過建立向量空間模型對采集的信息進(jìn)行聚類,并以此為依據(jù),采用貝葉斯網(wǎng)絡(luò)計算動機(jī)詞匯之間的相關(guān)性,并在本體理論基礎(chǔ)上按短語或者句子結(jié)構(gòu),對動機(jī)詞匯進(jìn)行分類過濾。實(shí)驗(yàn)結(jié)果證明,采用改進(jìn)的方法進(jìn)行動機(jī)詞匯分類過濾,相比傳統(tǒng)的分類過濾方法,其分類過濾精度高、效率好,具有一定的優(yōu)勢。
參考文獻(xiàn):
[1]侯風(fēng)巍,郭東軍,李世磊,等.基于信息反饋的文本主題分類過濾方法[J].通信學(xué)報,2009(s1):139-144.
[2]原媛,孫敏.基于CLARA的KNN文本分類過濾防火墻的設(shè)計實(shí)現(xiàn)[J].電腦開發(fā)與應(yīng)用,2007,20(10):19-21.
[3]李健.面向智能電網(wǎng)的多領(lǐng)域海量文本過濾框架研究[J].電力信息與通信技術(shù),2015(11):31-35.
[4]馬慧媛.如何在大學(xué)英語詞匯教學(xué)中激發(fā)學(xué)生的學(xué)習(xí)動機(jī)[J].時代教育,2014(3):234-234.
[5]李志義,沈之銳,義梅練.貝葉斯分類算法在社交網(wǎng)站信息過濾中的應(yīng)用分析[J].圖書情報工作,2014(13):100-106.
[6]賈宇波.大數(shù)據(jù)挖掘分類算法在垃圾郵件過濾中的應(yīng)用[J].工業(yè)控制計算機(jī),2016,29(5).23-26.
[7]高俊波,梅波.基于文本內(nèi)容分析的微博廣告過濾模型研究[J].計算機(jī)工程,2014,40(5):17-20.
[8]康建.用詞法分析工具實(shí)現(xiàn)英語單詞提取及分類[J].電腦編程技巧與維護(hù),2015(19):17-17.
[9]吳瑋.基于空間向量模型的垃圾文本過濾方法[J].湖南科技大學(xué)學(xué)報(自然科學(xué)版),2014(1):78-83.
[10]王文霞.基于貝葉斯文本分類算法的垃圾短信過濾系統(tǒng)[J].山西大同大學(xué)學(xué)報(自然科學(xué)版),2016(3):13-18.。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種動機(jī)詞匯的自動分類過濾生成創(chuàng)意點(diǎn)計算方法,該方法采用改進(jìn)的方法進(jìn)行動機(jī)詞匯分類過濾,相比傳統(tǒng)的分類過濾方法,其分類過濾精度高、效率好,具有一定的優(yōu)勢。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種動機(jī)詞匯的自動分類過濾生成創(chuàng)意點(diǎn)計算方法,包括如下步驟,
S1、采用爬蟲法對動機(jī)詞匯語料信息進(jìn)行采集,為動機(jī)詞匯語料信息聚類處理提供基礎(chǔ)依據(jù);
S2、根據(jù)步驟S1獲取的動機(jī)詞匯語料信息,采用SVD進(jìn)行動機(jī)詞匯信息聚類處理;
S3、在對動機(jī)詞匯進(jìn)行聚類處理的基礎(chǔ)上,利用貝葉斯網(wǎng)絡(luò)計算動機(jī)詞匯之間的相關(guān)性,并以本體理論為基礎(chǔ),按短語或者句子結(jié)構(gòu)生成創(chuàng)意點(diǎn),對動機(jī)詞匯進(jìn)行分類過濾生成。
在本發(fā)明一實(shí)施例中,所述步驟S1具體實(shí)現(xiàn)如下,
S11、可獲取信息權(quán)值的計算:
假設(shè)關(guān)鍵詞匯集合W=(W1,W2,...,Wn),第i個關(guān)鍵詞匯Wi有x(x≥1)個概念意義,記作從關(guān)鍵詞匯集合轉(zhuǎn)化到概念集合TW,每個關(guān)鍵詞匯的概念可表示為:tjwi=(wi,tji),j=1,2,...,xi;則第i個動機(jī)詞匯的第j個意義可表示為:
則關(guān)鍵動機(jī)詞匯tk在動機(jī)詞匯語料庫di里的動機(jī)詞匯權(quán)值為:
wik=tfik×log(N/nk) (2)
其中,N為語料庫di中動機(jī)詞匯的總數(shù),nk為包含關(guān)鍵動機(jī)詞匯tk的動機(jī)詞匯的總數(shù),tfik為tk在語料庫di中出現(xiàn)的頻數(shù);則語料庫di的向量可表示為:di=(wi1,wi2,...,win);
S12、基于權(quán)值的動機(jī)詞匯相關(guān)語料相關(guān)度計算:
先通過權(quán)值計算動機(jī)詞匯屬于每個類別的概率,用向量(w1,w2,...,wn)表示;計算獲取的動機(jī)詞匯語料庫di中動機(jī)詞匯屬于每一類別的概率,可用下式進(jìn)行表示:
其中:|D|為動機(jī)詞匯語料庫di中類Bj的訓(xùn)練樣本數(shù),N(wm,di)為動機(jī)詞匯wm在動機(jī)詞匯語料庫di中的詞頻,|V|為總動機(jī)詞匯數(shù),為類Bj中所有動機(jī)詞匯的詞頻和;則其動機(jī)詞匯相關(guān)語料相關(guān)度可用下式進(jìn)行計算:
式中:訓(xùn)練樣本數(shù)/總訓(xùn)練樣本數(shù),為相似含義,|C|為類的總數(shù),N(wm,di)為wm在動機(jī)詞匯語料庫di中的詞頻,n為關(guān)鍵動機(jī)詞匯的總數(shù),通過相關(guān)度計算,確定所要獲取的動機(jī)詞匯信息;
S13、基于相關(guān)度的動機(jī)詞匯相關(guān)語料信息獲?。?/p>
結(jié)合相關(guān)度的計算結(jié)果,通過爬蟲去采集動機(jī)詞匯相關(guān)語料信息,為動機(jī)詞匯語料信息聚類處理提供基礎(chǔ)依據(jù)。
在本發(fā)明一實(shí)施例中,所述步驟S2具體實(shí)現(xiàn)如下,
S21、根據(jù)信息論,計算動機(jī)詞匯出現(xiàn)的概率;定義基于帶單個詞匯在語料庫中出現(xiàn)的平均信息量為:
式中:Pi(w)為單個動機(jī)詞匯w在語料庫中出現(xiàn)的概率,n為常數(shù);W(w)的值越大,說明單個動機(jī)詞匯w所表示的平均信息量越大,單個動機(jī)詞匯就越普通,可以當(dāng)作是噪聲詞省略掉;
考慮到當(dāng)一個動機(jī)詞匯在句子中出現(xiàn)的平均信息量和包含該動機(jī)詞匯的句子在語料庫中的平均信息量都較大時,表示該詞較為普通;定義兩者之和為聯(lián)合嫡W'(w):
W'(w)=H(w)+H(s|w) (9)
單個動機(jī)詞匯在句子中出現(xiàn)的平均信息量H(w):
包含此單個動機(jī)詞匯w的句子在語料庫中的平均信息量H(s|w):
單個動機(jī)詞匯w在語料庫中出現(xiàn)的概率Pj(w):
包含單個動機(jī)詞匯w的句子在語料庫中出現(xiàn)的概率Pl(s|w):
式中:fj(w)為單個動機(jī)詞匯w在語料庫中出現(xiàn)的頻率,n為語料庫中的動機(jī)詞匯數(shù),fl(s|w)為包含單個動機(jī)詞匯的句子s在語料庫l中出現(xiàn)的頻率;
S22、通過計算閾值,對動機(jī)詞匯特征進(jìn)行選擇;假設(shè),TF是詞頻,表示特征tk在此語料庫中出現(xiàn)的頻率,IDF是反語料庫頻率,IDF=log(N/n),N表示語料庫中所有的動機(jī)詞匯數(shù),n為包含特征tk的動機(jī)詞匯數(shù);IDF的的基本思想是如果包含某個特征tk的語料信息越少,IDF就越大,說明特征tk有很好的類別區(qū)分能力,則TF-IDF方法的計算公式如下所示:
為了使TF值對權(quán)重的影響進(jìn)一步降低,對上式進(jìn)行改進(jìn),表達(dá)式如下所示:
通過計算每個特征tk的期望交又嫡,選取預(yù)定數(shù)目的最佳特征作為結(jié)果的特征子集;計算公式如下:
式中:P(tk)為特征tk出現(xiàn)的概率,P(Ci|tk)為類別Ci在特征tk出現(xiàn)情況下的概率,P(Ci)為Ci的出現(xiàn)概率;
S23、在根據(jù)信息增益法計算動機(jī)詞匯的信息增益,當(dāng)動機(jī)詞匯特征tk信息增益大于給定值時作為特征項,計算公式如下:
其中,n為特征集中的維數(shù),pi為當(dāng)前詞匯特征出現(xiàn)的概率;當(dāng)tk互信息量大于給定值時作為特征項;特征tk和類別Ci的互信息體現(xiàn)了特征與類別的相關(guān)程度;特征tk的互信息量為:
S24、應(yīng)用SVD進(jìn)行動機(jī)詞匯聚類處理,k為動機(jī)詞匯向量中最關(guān)鍵的詞匯元素,動機(jī)詞匯向量是由n個特征組成的n維向量,由于每個動機(jī)詞匯的特征數(shù)不同,可以認(rèn)為每個動機(jī)詞匯向量都處于一個空間中,若想要對不同的動機(jī)詞匯進(jìn)行聚類處理,就需要將不同維數(shù)的動機(jī)詞匯向量映射到同一個空間中進(jìn)行比較,降維節(jié)后的新矩陣也將大大減少文本處理中不良信息的干擾,則矩陣A進(jìn)行奇異分解降維寫成矩陣Ak:
式中:ui和vi表示動機(jī)詞匯特征向量和動機(jī)詞匯向量的語義空間,同樣的,在進(jìn)行文本相似度計算的時候,需要將代表文本特征的向量映射到與Ak行向量具有相同的維數(shù);則得到k維映射后的向量t'為:
通過k維映射后,就可以得到初始向量的相似向量,接下來就可以采用SVD進(jìn)行動機(jī)詞匯聚類處理,假設(shè)有一組動機(jī)詞匯序列(X,s)或者(X,d),其中X表示一組樣本,s和d分別表示度量樣本間相似度或相異度的標(biāo)準(zhǔn);若C={C1,C2,...,Ck}其中Ci=(i=1,2,...,k)是X的子集,如下所示:
X=C1∪C2...∪Ck (21)
對任意的i≠j,有Ci∩Cj=φ,C中的動機(jī)詞匯C1,C2,...,Ck叫作簇;對于動機(jī)詞匯特征相似度作為動機(jī)詞匯相似度的聚類來說,讓同一個聚類簇中的單個動機(jī)詞匯間相似度更高,則得到聚類結(jié)果表達(dá)式如下所示:
綜上所述,在獲取動機(jī)詞匯語料信息的基礎(chǔ)上,可采用SVD進(jìn)行動機(jī)詞匯信息聚類處理,為動機(jī)詞匯自動分類過濾生成創(chuàng)意點(diǎn)的計算提供基礎(chǔ)依據(jù)。
相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:本發(fā)明針對傳統(tǒng)的自動分類過濾法一直存在分類過濾不準(zhǔn)確,效率低的問題,提出基于貝葉斯網(wǎng)絡(luò)計算的動機(jī)詞匯自動分類過濾方法;該方法基于爬蟲對動機(jī)詞匯語料信息進(jìn)行獲取,通過建立向量空間模型對采集的信息進(jìn)行聚類,并以此為依據(jù),采用貝葉斯網(wǎng)絡(luò)計算動機(jī)詞匯之間的相關(guān)性,并在本體理論基礎(chǔ)上按短語或者句子結(jié)構(gòu),對動機(jī)詞匯進(jìn)行分類過濾;實(shí)驗(yàn)結(jié)果證明,采用改進(jìn)的方法進(jìn)行動機(jī)詞匯分類過濾,相比傳統(tǒng)的分類過濾方法,其分類過濾精度高、效率好,具有一定的優(yōu)勢。
附圖說明
圖1為本發(fā)明采用的基于爬蟲的動機(jī)詞匯相關(guān)語料信息獲取流程圖。
圖2為本發(fā)明采用的貝葉斯網(wǎng)絡(luò)模型。
圖3為不同方法下召回率對比分析。
圖4為不同方法下正確率對比分析。
圖5為不同方法下錯誤率對比分析。
具體實(shí)施方式
下面結(jié)合附圖1-5,對本發(fā)明的技術(shù)方案進(jìn)行具體說明。
本發(fā)明的一種動機(jī)詞匯的自動分類過濾生成創(chuàng)意點(diǎn)計算方法,包括如下步驟,
S1、采用爬蟲法對動機(jī)詞匯語料信息進(jìn)行采集,為動機(jī)詞匯語料信息聚類處理提供基礎(chǔ)依據(jù);
S2、根據(jù)步驟S1獲取的動機(jī)詞匯語料信息,采用SVD進(jìn)行動機(jī)詞匯信息聚類處理;
S3、在對動機(jī)詞匯進(jìn)行聚類處理的基礎(chǔ)上,利用貝葉斯網(wǎng)絡(luò)計算動機(jī)詞匯之間的相關(guān)性,并以本體理論為基礎(chǔ),按短語或者句子結(jié)構(gòu)生成創(chuàng)意點(diǎn),對動機(jī)詞匯進(jìn)行分類過濾生成。
以下對本發(fā)明的技術(shù)方案進(jìn)行具體描述。
本發(fā)明動機(jī)詞匯的自動分類過濾生成創(chuàng)意點(diǎn)計算方法,具體實(shí)現(xiàn)步驟如下:
1基于爬蟲算法的動機(jī)詞匯語料信息獲取
由于動機(jī)詞匯的特殊性,采用爬蟲法對動機(jī)詞匯語料信息進(jìn)行采集,為動機(jī)詞匯語料信息聚類處理提供基礎(chǔ)依據(jù)。
1.1可獲取信息權(quán)值的計算
采用改進(jìn)的TF/IDF算法對動機(jī)詞匯語料信息權(quán)值進(jìn)行計算,通過統(tǒng)計一個詞匯在語料庫中出現(xiàn)的頻度來評估該詞匯的重要性,若一個關(guān)鍵詞匯A比一個關(guān)鍵詞匯B在語料庫中出現(xiàn)的頻度大,則說明關(guān)鍵詞匯A比關(guān)鍵詞匯B重要,以此方法來決定權(quán)重[10],而這一量度只反應(yīng)了某特定文檔的局部特征,不夠完善。從整個語料庫來看,一個詞匯的頻度高,針對特定查詢需求區(qū)分相關(guān)語料和不相關(guān)語料重要性就不會很大,一個關(guān)鍵詞匯的權(quán)重還應(yīng)該和該詞所在語料庫的總數(shù)成反比關(guān)系。
假設(shè)關(guān)鍵詞匯集合W=(W1,W2,...,Wn),第i個關(guān)鍵詞匯Wi有x(x≥1)個概念意義,記作從關(guān)鍵詞匯集合轉(zhuǎn)化到概念集合TW,每個關(guān)鍵詞匯的概念可表示為:tjwi=(wi,tji),j=1,2,...,xi;則第i個動機(jī)詞匯的第j個意義可表示為:
則關(guān)鍵動機(jī)詞匯tk在動機(jī)詞匯語料庫di里的動機(jī)詞匯權(quán)值為:
wik=tfik×log(N/nk) (2)
其中,N為語料庫di中動機(jī)詞匯的總數(shù),nk為包含關(guān)鍵動機(jī)詞匯tk的動機(jī)詞匯的總數(shù),tfik為tk在語料庫di中出現(xiàn)的頻數(shù);則語料庫di的向量可表示為:di=(wi1,wi2,...,win);
其中,N為動機(jī)詞匯語料庫中動機(jī)詞匯的總數(shù),nk為包含關(guān)鍵動機(jī)詞匯tk的動機(jī)詞匯的總數(shù),tfik為tk在動機(jī)詞匯語料庫di中出現(xiàn)的頻數(shù)。則動機(jī)詞匯語料庫di的向量可表示為:di=(wi1,wi2,...,win)。需要注意的是:如果動機(jī)詞匯訓(xùn)練樣本集的語料信息都屬于同一類,其中重要動機(jī)詞匯幾乎在每個語料庫中都會出現(xiàn),就會導(dǎo)致IDF的值極小,影響權(quán)值。當(dāng)語料信息全部屬于同一個類別時,動機(jī)詞匯的重要性應(yīng)該與語料信息在語料庫中出現(xiàn)的頻率成正比?;蛘哒f某一個關(guān)鍵詞匯在一個類中出現(xiàn)的次數(shù)很大,在別的類中出現(xiàn)的次數(shù)都很小,顯然此關(guān)鍵詞匯具有很好的表征此類文檔的能力,所以傳統(tǒng)的權(quán)值計算方法具有缺陷,并不是對所有的情況都表現(xiàn)優(yōu)秀需要對其進(jìn)行改進(jìn)。
假設(shè)總的動機(jī)詞匯語料庫中的動機(jī)詞匯數(shù)為N,tfik為tk在動機(jī)詞匯語料庫di中出現(xiàn)的頻數(shù),某一類Bi中出現(xiàn)此關(guān)鍵詞匯的個數(shù)為nbi,nki表示除類Bi以外的類中包含關(guān)鍵詞匯tki的動機(jī)詞匯語料信息數(shù),則權(quán)值計算公式可以表示為:
其中:
設(shè)函數(shù):令x1>x2>0,則有:
很顯然當(dāng)x增大,IDF的值隨著增大。所以說如果關(guān)鍵詞匯tk在類別Bi里出現(xiàn)的次數(shù)多,在其他類別中的出現(xiàn)次數(shù)少,則關(guān)鍵詞匯tk就能很好的代表Bi類的特征,具有很好的區(qū)別能力。假如在其他類中出現(xiàn)的次數(shù)多,則在此類中的IDF值就會變小,所以此方法獲取的權(quán)值為最優(yōu)值。
1.2基于權(quán)值的動機(jī)詞匯相關(guān)語料相關(guān)度計算
動機(jī)詞匯語料相關(guān)度評價是采用爬蟲獲取動機(jī)詞匯相關(guān)語料非常重要的一個環(huán)節(jié)。通過相關(guān)度計算可以預(yù)測目標(biāo)動機(jī)詞匯語料的相關(guān)度,引導(dǎo)搜索方向另外對采集的動機(jī)詞匯語料進(jìn)行相關(guān)度計算,與預(yù)先設(shè)定的語料權(quán)值相比較,大于權(quán)值的動機(jī)詞匯語料保留,小于權(quán)值的動機(jī)詞匯語料直接拋棄。這樣既提高所采集語料與動機(jī)詞匯語料的相關(guān)度,又減少了本地的存儲空間。所以引入上文權(quán)值方法來計算動機(jī)詞匯語料的相關(guān)度。相關(guān)度計算常用的方法主要有內(nèi)容分析法、鏈接結(jié)構(gòu)分析法。貝葉斯方法其實(shí)是一種概率統(tǒng)計的方法,通過計算動機(jī)詞匯屬于某個類別的概率的大小進(jìn)行匹配。先通過權(quán)值計算動機(jī)詞匯屬于每個類別的概率,用向量(w1,w2,...,wn)表示;計算獲取的動機(jī)詞匯語料庫di屬于每一類別的概率,可用下式進(jìn)行表示:
其中:|D|為動機(jī)詞匯語料庫di中類Bj的訓(xùn)練樣本數(shù),N(wm,di)為動機(jī)詞匯wm在動機(jī)詞匯語料庫di中的詞頻,|V|為總動機(jī)詞匯數(shù),為類Bj中所有動機(jī)詞匯的詞頻和;則其動機(jī)詞匯相關(guān)語料相關(guān)度可用下式進(jìn)行計算:
式中:訓(xùn)練樣本數(shù)/總訓(xùn)練樣本數(shù),為相似含義,|C|為類的總數(shù),N(wm,di)為wm在動機(jī)詞匯語料庫di中的詞頻,n為關(guān)鍵動機(jī)詞匯的總數(shù),通過相關(guān)度計算,確定所要獲取的動機(jī)詞匯信息;
1.3基于相關(guān)度的動機(jī)詞匯相關(guān)語料信息獲取
結(jié)合相關(guān)度的計算結(jié)果,可通過爬蟲去采集動機(jī)詞匯相關(guān)語料信息,詳細(xì)的獲取步驟如下所示:
Input:等待其他節(jié)點(diǎn)傳來的一個動機(jī)詞匯,或者它所管轄的抓取進(jìn)程返回的一個URL及相應(yīng)的動機(jī)詞匯;
Oitput:把動機(jī)詞匯下載或傳往其它節(jié)點(diǎn)。
(1)若得到其他節(jié)點(diǎn)傳來的一個動機(jī)詞匯,看動機(jī)詞匯是都出現(xiàn)在語料庫中;
(2)若得到抓取進(jìn)程返回的動機(jī)詞匯,則從動機(jī)詞匯對應(yīng)的語料庫中解析出超鏈接LINK。從語料庫中分給該抓取進(jìn)程一個新的動機(jī)詞匯,并將返回動機(jī)詞匯放到詞匯存儲器中;如果爬蟲用于普通的爬行則轉(zhuǎn)到A,如果用于詞匯爬行轉(zhuǎn)到B;
A:對每一個新得到的動機(jī)詞匯語料信息計算其權(quán)值,公式如下式(8),在節(jié)點(diǎn)由每個節(jié)點(diǎn)上面維護(hù)的一個映射表中得到具體的節(jié)點(diǎn)號;
node_num=hash(new_url.host)%node_sum_num (8)
B:對每一個新得到的動機(jī)詞匯語料信息計算其權(quán)值,公式如下式(9),在節(jié)點(diǎn)由每個上面維護(hù)的一個映射表中得到具體的節(jié)點(diǎn)號;
(3)對每一個超鏈接LINK及其對數(shù)的整數(shù),如果本節(jié)點(diǎn)標(biāo)號為整數(shù)重新進(jìn)行分配;反之,將LINK發(fā)給節(jié)點(diǎn);
(4)計算相關(guān)度,結(jié)合相關(guān)度判斷動機(jī)詞匯類型是否為所需的動機(jī)詞匯,如果不是則跳過,如果是則繼續(xù)進(jìn)行分析;
(5)讀取所需動機(jī)詞匯采用正則表達(dá)式匹配方法,尋找動機(jī)詞匯語料信息,并進(jìn)行記錄下來;
(6)將記錄下來的動機(jī)詞匯按照預(yù)定的形式進(jìn)行存儲,實(shí)現(xiàn)動機(jī)詞匯相關(guān)語料信息的獲取,表達(dá)式如下式(10)所示,流程如下圖1所示:
式中:Simcos為動機(jī)詞匯語料特征,Simmed為動機(jī)詞匯語料信息量。
2采集動機(jī)詞匯語料信息的聚類處理
在獲取動機(jī)詞匯語料信息的基礎(chǔ)上,采用SVD進(jìn)行動機(jī)詞匯信息聚類處理。
第一、根據(jù)信息論,計算動機(jī)詞匯出現(xiàn)的概率;定義基于帶單個詞匯在語料庫中出現(xiàn)的平均信息量為:
式中:Pi(w)為單個動機(jī)詞匯w在語料庫中出現(xiàn)的概率,n為常數(shù);W(w)的值越大,說明單個動機(jī)詞匯w所表示的平均信息量越大,單個動機(jī)詞匯就越普通,可以當(dāng)作是噪聲詞省略掉;
考慮到當(dāng)一個動機(jī)詞匯在句子中出現(xiàn)的平均信息量和包含該動機(jī)詞匯的句子在語料庫中的平均信息量都較大時,表示該詞較為普通;定義兩者之和為聯(lián)合嫡W'(w):
W'(w)=H(w)+H(s|w) (12)
單個動機(jī)詞匯在句子中出現(xiàn)的平均信息量H(w):
包含此單個動機(jī)詞匯w的句子在語料庫中的平均信息量H(s|w):
單個動機(jī)詞匯w在語料庫中出現(xiàn)的概率Pj(w):
包含單個動機(jī)詞匯w的句子在語料庫中出現(xiàn)的概率Pl(s|w):
式中:fj(w)為單個動機(jī)詞匯w在語料庫中出現(xiàn)的頻率,n為語料庫中的動機(jī)詞匯數(shù),fl(s|w)為包含單個動機(jī)詞匯的句子s在語料庫l中出現(xiàn)的頻率;
第二、通過計算閾值,對動機(jī)詞匯特征進(jìn)行選擇;假設(shè),TF是詞頻,表示特征tk在此語料庫中出現(xiàn)的頻率,IDF是反語料庫頻率,IDF=log(N/n),N表示語料庫中所有的動機(jī)詞匯數(shù),n為包含特征tk的動機(jī)詞匯數(shù);IDF的的基本思想是如果包含某個特征tk的語料信息越少,IDF就越大,說明特征tk有很好的類別區(qū)分能力,則TF-IDF方法的計算公式如下所示:
為了使TF值對權(quán)重的影響進(jìn)一步降低,對上式進(jìn)行改進(jìn),表達(dá)式如下所示:
通過計算每個特征tk的期望交又嫡,選取預(yù)定數(shù)目的最佳特征作為結(jié)果的特征子集;計算公式如下:
式中:P(tk)為特征tk出現(xiàn)的概率,P(Ci|tk)為類別Ci在特征tk出現(xiàn)情況下的概率,P(Ci)為Ci的出現(xiàn)概率;
第三、在根據(jù)信息增益法計算動機(jī)詞匯的信息增益,當(dāng)動機(jī)詞匯特征tk信息增益大于給定值時作為特征項,計算公式如下:
其中,n為特征集中的維數(shù),pi為當(dāng)前詞匯特征出現(xiàn)的概率。當(dāng)tk互信息量大于給定值時作為特征項;特征tk和類別Ci的互信息體現(xiàn)了特征與類別的相關(guān)程度。特征tk的互信息量為:
第四、應(yīng)用SVD進(jìn)行動機(jī)詞匯聚類處理,k為動機(jī)詞匯向量中最關(guān)鍵的詞匯元素,動機(jī)詞匯向量是由n個特征組成的n維向量,由于每個動機(jī)詞匯的特征數(shù)不同,可以認(rèn)為每個動機(jī)詞匯向量都處于一個空間中,若想要對不同的動機(jī)詞匯進(jìn)行聚類處理,就需要將不同維數(shù)的動機(jī)詞匯向量映射到同一個空間中進(jìn)行比較,降維節(jié)后的新矩陣也將大大減少文本處理中不良信息的干擾,則矩陣A進(jìn)行奇異分解降維寫成矩陣Ak:
式中:ui和vi表示動機(jī)詞匯特征向量和動機(jī)詞匯向量的語義空間,同樣的,在進(jìn)行文本相似度計算的時候,需要將代表文本特征的向量映射到與Ak行向量具有相同的維數(shù);則得到k維映射后的向量t'為:
通過k維映射后,就可以得到初始向量的相似向量,接下來就可以采用SVD進(jìn)行動機(jī)詞匯聚類處理,假設(shè)有一組動機(jī)詞匯序列(X,s)或者(X,d),其中X表示一組樣本,s和d分別表示度量樣本間相似度或相異度的標(biāo)準(zhǔn);若C={C1,C2,...,Ck}其中Ci=(i=1,2,...,k)是X的子集,如下所示:
X=C1∪C2...∪Ck (24)
對任意的i≠j,有Ci∩Cj=φ,C中的動機(jī)詞匯C1,C2,...,Ck叫作簇;對于動機(jī)詞匯特征相似度作為動機(jī)詞匯相似度的聚類來說,讓同一個聚類簇中的單個動機(jī)詞匯間相似度更高,則得到聚類結(jié)果表達(dá)式如下所示:
綜上所述,在獲取動機(jī)詞匯語料信息的基礎(chǔ)上,可采用SVD進(jìn)行動機(jī)詞匯信息聚類處理,為動機(jī)詞匯自動分類過濾生成創(chuàng)意點(diǎn)的計算提供基礎(chǔ)依據(jù)。
3動機(jī)詞匯自動分類過濾生成創(chuàng)意點(diǎn)的計算
在對動機(jī)詞匯進(jìn)行聚類處理的基礎(chǔ)上,利用貝葉斯網(wǎng)絡(luò)計算動機(jī)詞匯之間的相關(guān)性,并以本體理論為基礎(chǔ),按短語或者句子結(jié)構(gòu)生成創(chuàng)意點(diǎn)。
采用貝葉斯網(wǎng)絡(luò)計算動機(jī)詞匯間的相關(guān)性,主要是由于其通過總體動機(jī)詞匯信息和先驗(yàn)信息來估計其后驗(yàn)信息。在對動機(jī)詞匯間的相關(guān)性進(jìn)行計算時,除了考慮動機(jī)詞匯A產(chǎn)生的概率,還需要考慮在已知的動機(jī)詞匯B獲取的情況下,動機(jī)詞匯A獲取的概率,這就需要計算其條件概率,記為P(A|B),計算公式如下所示:
式中:P(A|B)表示動機(jī)詞匯A和B同時被采集的概率,P(B)為動機(jī)詞匯B被采集的概率。
假設(shè)(Ω,F,P)為一概率空間。Ai∩Aj=φ(i≠j)且則對任意動機(jī)詞匯B∈F且P(B)>0,有:
式中:P(Ai)為先驗(yàn)概率,P(B|Ai)為條件概率,為全概率公式,且P(Ai)>0。如果用C表示動機(jī)詞匯類別結(jié)點(diǎn),用X1,X2,...,Xn表示n個屬性結(jié)點(diǎn),則貝葉斯網(wǎng)絡(luò)模型可用下圖2進(jìn)行表示。
將貝葉斯網(wǎng)絡(luò)運(yùn)用到動機(jī)詞匯自動分類的動機(jī)詞匯間相關(guān)性的計算,其具體計算流程如下所示:
1)把將要計算的動機(jī)詞匯X用一個n維特征向量X=(t1,t2,...,tn)表示,其中t1,t2,...,tn分別動機(jī)詞匯向量空間的n個特征項;
2)設(shè)有m個動機(jī)詞匯類別C1,C2,...,Cm,給定一個待計算詞匯X,采用貝葉斯網(wǎng)絡(luò)法將待計算的詞匯X分別具有最高后驗(yàn)概率的類別,即在給定詞匯X下,貝葉斯網(wǎng)絡(luò)法將待計算詞匯分配給類別Ci,當(dāng)且僅當(dāng)
P(Ci|X)>P(Cj|X),i≠j (28)
3)根據(jù)貝葉斯定理有
由于P(X)對于所有類別都為常數(shù),所以只需要P(X|Ci)P(Ci)最大即可,P(X|Ci)P(Ci)中類的先驗(yàn)概率P(Ci)可以由訓(xùn)練文本集估計得到,既可以用進(jìn)行估計,其中si是類別Ci中的訓(xùn)練動機(jī)詞匯的總數(shù),s是全部訓(xùn)練動機(jī)詞匯的總數(shù),此時只需要對條件概率P(X|Ci)進(jìn)行最大化處理;
4)根據(jù)樸素貝葉斯網(wǎng)絡(luò)的類條件獨(dú)立性假設(shè),即動機(jī)詞匯集中一個特征項對給定類的影響?yīng)毩⒂谄渌卣黜棧瑒t
式中:概率p(t1|Ci),p(t2|Ci),...,p(tn|Ci)的值同樣可以由訓(xùn)練樣本估計出來,主要表示類別Ci中出現(xiàn)tk的概率,具體為:
式中:count(tk|Ci)表示詞匯特征tk在訓(xùn)練樣本的類Ci中出現(xiàn)的次數(shù),表示類Ci中出現(xiàn)的所有動機(jī)詞匯特征的總次數(shù)。由于動機(jī)詞匯向量空間的稀疏性,導(dǎo)致一些特征項在某些語料庫中沒有出現(xiàn),這樣不管別的特征項的條件概率有多高,都會導(dǎo)致為零,為了避免這種情況的出現(xiàn),需要用Laplace平滑修正,表達(dá)式改為:
式中:n為動機(jī)詞匯特征項的總個數(shù),即特征向量空間的維數(shù),δ為任意的非零實(shí)數(shù)通常設(shè)置為1;
5)根據(jù)貝葉斯網(wǎng)絡(luò)分類器的判別規(guī)則,把待計算動機(jī)詞匯X判給類C,當(dāng)且僅當(dāng)
通過以上幾個步驟,采用貝葉斯網(wǎng)絡(luò)法計算動機(jī)詞匯間關(guān)聯(lián)度,表達(dá)式為:
式中:pi和pj分別為動機(jī)詞匯S1、S2的顯著特征,D為橫向關(guān)聯(lián)影響深度,d(pi,pj)為動機(jī)詞匯特征pi在語料庫pj中出現(xiàn)的次數(shù)。則動機(jī)詞匯間的相關(guān)性,可用其相關(guān)度表示,表達(dá)式為:
在此基礎(chǔ)上,基于本體理論基上,按短語或者句子結(jié)構(gòu)生成創(chuàng)意點(diǎn),計算公式為:
式中:X≠φ,|X|表示動機(jī)詞匯集合X的基數(shù)。當(dāng)αR(X)=1時,其創(chuàng)意點(diǎn)為最優(yōu);當(dāng)αR(X)=0時,其創(chuàng)意點(diǎn)為最差。
4實(shí)驗(yàn)結(jié)果分析
4.1實(shí)驗(yàn)參數(shù)設(shè)置
實(shí)驗(yàn)采用Reuters-21578語料庫,該語料庫一共包含22個文件,21578個動機(jī)詞匯。為了把該語料庫分為訓(xùn)練集和測試集,分為訓(xùn)練集9603個動機(jī)詞匯,測試集3299個動機(jī)詞匯,另有8676為未使用的動機(jī)詞匯。將Reuters-21578的動機(jī)詞匯分為135個類別,每個動機(jī)詞匯最多可以屬于14個類別,最少屬于1個類別,在訓(xùn)練集中動機(jī)詞匯數(shù)目最多的10個類別如表1所示:
表1在訓(xùn)練集中動機(jī)詞匯數(shù)目最多的10個類別
對于一個類別和一個動機(jī)詞匯來說,就是判斷該動機(jī)詞匯是否屬于此類別。分別以召回率、準(zhǔn)確率、錯誤率為指標(biāo)進(jìn)行分析,公式分別如下所示:
召回率:
準(zhǔn)確率:
錯誤率:
式中:a為正確計算的動機(jī)詞匯分類過濾創(chuàng)意點(diǎn)數(shù)目,b為錯誤計算的動機(jī)詞匯分類過濾創(chuàng)意點(diǎn)數(shù)目,d正確計算該原本正確的動機(jī)詞匯創(chuàng)意點(diǎn)數(shù)目,c錯誤計算該原本正確的動機(jī)詞匯創(chuàng)意點(diǎn)數(shù)目。
4.2實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證改進(jìn)方法的有效性及可行性,先采用改進(jìn)方法與信息反饋法、啟發(fā)式規(guī)則法為對比進(jìn)行分析。則Reuters-21578訓(xùn)練集中10個動機(jī)詞匯數(shù)目最大的類別,采用改進(jìn)方法進(jìn)行召回率和準(zhǔn)確率的計算,結(jié)果如下表2所示:
表2 Reuters-21578訓(xùn)練集中10個動機(jī)詞匯的召回率與準(zhǔn)確率對比
由表1可知,Reuters-21578訓(xùn)練集中10個動機(jī)詞匯,采用改進(jìn)方法時平均召回率約為87.6%,平均準(zhǔn)確率約為83.1%;其中acquisitions的召回率最高為97%,corn的召回率最低為63%;earnings的準(zhǔn)確率最高為93%,corn的準(zhǔn)確率最低70%;由此發(fā)現(xiàn),在動機(jī)詞匯訓(xùn)練數(shù)目和測試數(shù)目不同的情況下,會隨著動機(jī)詞匯的增加,召回率和準(zhǔn)確率均會提高。
為了驗(yàn)證改進(jìn)方法的有效性及可行性,先采用改進(jìn)方法與信息反饋法、啟發(fā)式規(guī)則法為對比進(jìn)行分析。在數(shù)量一定的情況下,其召回率、準(zhǔn)確率、錯誤率對比結(jié)果分別如下圖3、圖4、圖5所示:
由圖3可知,采用信息反饋法時,其召回率約為0.12,且隨著動機(jī)詞匯量的增加而降低;采用啟發(fā)式規(guī)則法時,其召回率約為0.10,且對著動機(jī)詞匯的增加在多處出現(xiàn)波動,不適合大面積范圍使用;采用改進(jìn)方法時,其召回率約為0.08,且隨著動機(jī)詞匯量的增加而降低,相比信息反饋法和啟發(fā)式規(guī)則法,其召回率分別降低了0.04和0.02,具有一定的優(yōu)勢。
由圖4可以看出,采用信息反饋法時,其準(zhǔn)確率約為76.2%,且隨著動機(jī)詞匯量的增加,其準(zhǔn)確度在200-400及600-800處出現(xiàn)了波動,穩(wěn)定性較差;采用啟發(fā)式規(guī)則法時,其準(zhǔn)確率約為58.4%,且隨著動機(jī)詞匯量的增加,準(zhǔn)確率為無大變化,相比信息反饋法,其準(zhǔn)確率下降了17.8%;采用改進(jìn)方法時,其準(zhǔn)確率約為94.3%,雖然隨著動機(jī)詞匯量的增加,其準(zhǔn)確率出現(xiàn)了多處波動,但其整體相比信息反饋法和啟發(fā)式規(guī)則法提高了分別提高了約18.1%、35.9%,具有一定的優(yōu)勢。
由圖5可以看出,采用信息反饋法時,其錯誤率約為32.2%,且隨著動機(jī)詞匯量的極速下降,其錯誤率在200-1000處出現(xiàn)了波動,穩(wěn)定性較差;采用啟發(fā)式規(guī)則法時,其錯誤率約為48.4%,且隨著動機(jī)詞匯量的增加,錯誤率無太大變化,相比信息反饋法,其錯誤率提高了16.2%;采用改進(jìn)方法時,其錯誤率約為18.3%,雖然隨著動機(jī)詞匯量的增加,其錯誤率處于穩(wěn)定狀態(tài),相比信息反饋法和啟發(fā)式規(guī)則法分別降低了降低了約30.1%、13.9%,具有一定的優(yōu)勢。
5結(jié)論
針對傳統(tǒng)的自動分類過濾法一直存在分類過濾不準(zhǔn)確,效率低的問題,提出基于貝葉斯網(wǎng)絡(luò)計算的動機(jī)詞匯自動分類過濾方法?;谂老x對動機(jī)詞匯語料信息進(jìn)行獲取,通過建立向量空間模型對采集的信息進(jìn)行聚類,并以此為依據(jù),采用貝葉斯網(wǎng)絡(luò)計算動機(jī)詞匯之間的相關(guān)性,并在本體理論基礎(chǔ)上按短語或者句子結(jié)構(gòu),對動機(jī)詞匯進(jìn)行分類過濾。實(shí)驗(yàn)結(jié)果證明,采用改進(jìn)的方法進(jìn)行動機(jī)詞匯分類過濾,相比傳統(tǒng)的分類過濾方法,其分類過濾精度高、效率好,具有一定的優(yōu)勢。
以上是本發(fā)明的較佳實(shí)施例,凡依本發(fā)明技術(shù)方案所作的改變,所產(chǎn)生的功能作用未超出本發(fā)明技術(shù)方案的范圍時,均屬于本發(fā)明的保護(hù)范圍。