基于動(dòng)態(tài)項(xiàng)權(quán)值的中文特征詞關(guān)聯(lián)模式挖掘方法及其系統(tǒng)的制作方法

文檔序號(hào)：6624905閱讀：219來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于動(dòng)態(tài)項(xiàng)權(quán)值的中文特征詞關(guān)聯(lián)模式挖掘方法及其系統(tǒng)的制作方法
【專利摘要】一種基于動(dòng)態(tài)項(xiàng)權(quán)值的矩陣加權(quán)中文特征詞關(guān)聯(lián)模式挖掘方法及系統(tǒng)，利用中文文本預(yù)處理模塊進(jìn)行預(yù)處理，構(gòu)建中文文本數(shù)據(jù)庫和特征詞項(xiàng)目庫；利用中文特征詞候選項(xiàng)集產(chǎn)生及其剪枝模塊產(chǎn)生矩陣加權(quán)特征詞候選項(xiàng)集，采用新的矩陣加權(quán)項(xiàng)集剪枝方法對(duì)候選項(xiàng)集進(jìn)行剪枝，得到最終矩陣加權(quán)特征詞候選項(xiàng)集；利用中文特征詞頻繁項(xiàng)集產(chǎn)生模塊計(jì)算項(xiàng)集權(quán)值，由此得到特征詞頻繁項(xiàng)集；利用中文特征詞關(guān)聯(lián)模式產(chǎn)生及結(jié)果顯示模塊生成項(xiàng)集的全部真子集，通過其項(xiàng)集權(quán)值的簡(jiǎn)單計(jì)算和比較挖掘有效的關(guān)聯(lián)規(guī)則模式，并顯示給用戶使用。本發(fā)明具有良好的剪枝性能，其候選項(xiàng)集和挖掘時(shí)間明顯減少，挖掘效率極大提高，其模式運(yùn)用于信息檢索領(lǐng)域，可提高信息查詢性能。
【專利說明】基于動(dòng)態(tài)項(xiàng)權(quán)值的中文特征詞關(guān)聯(lián)模式挖掘方法及其系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘領(lǐng)域，具體是一種基于動(dòng)態(tài)項(xiàng)權(quán)值的矩陣加權(quán)中文特征詞關(guān) 聯(lián)模式挖掘方法及其挖掘系統(tǒng)，適用于中文文本挖掘中特征詞關(guān)聯(lián)模式發(fā)現(xiàn)以及中文文本信息檢索查詢擴(kuò)展、文本跨語言信息檢索等領(lǐng)域，其挖掘出特征詞關(guān)聯(lián)模式可以作為高質(zhì) 量擴(kuò)展詞來源，應(yīng)用于web搜索引擎，有助于提高其信息檢索查詢性能。

【背景技術(shù)】
[0002] 當(dāng)前基于項(xiàng)頻度的挖掘方法和基于固定項(xiàng)權(quán)值的挖掘方法得到廣泛的研究和應(yīng) 用，基于動(dòng)態(tài)項(xiàng)權(quán)值的挖掘方法報(bào)道不多?；趧?dòng)態(tài)項(xiàng)權(quán)值的挖掘方法在文本挖掘、信息檢索等領(lǐng)域具有重要的應(yīng)用價(jià)值和廣闊的應(yīng)用前景。
[0003] 基于項(xiàng)頻度的挖掘也稱無加權(quán)關(guān)聯(lián)規(guī)則挖掘，這是早期傳統(tǒng)的關(guān)聯(lián)規(guī)則挖掘方法，其主要特點(diǎn)是按平等一致的原則處理項(xiàng)集，將項(xiàng)集在事務(wù)中出現(xiàn)的概率和條件概率作為其項(xiàng)集的支持度和關(guān)聯(lián)規(guī)則的置信度。其缺陷是：只重視項(xiàng)頻度，忽略存在項(xiàng)目權(quán)值的情況，導(dǎo)致冗余的、無效的和無趣的關(guān)聯(lián)模式增多。為了解決上述問題，基于項(xiàng)權(quán)值的加權(quán)模式挖掘方法得到廣泛討論和研究，其特點(diǎn)是引入項(xiàng)權(quán)值，以體現(xiàn)項(xiàng)目之間具有不同的重要性和項(xiàng)目在事務(wù)記錄中具有不同的權(quán)值。根據(jù)項(xiàng)權(quán)值的來源不同，基于項(xiàng)權(quán)值的挖掘分為基于固定項(xiàng)權(quán)值的加權(quán)模式挖掘方法和基于動(dòng)態(tài)項(xiàng)權(quán)值的矩陣加權(quán)模式挖掘方法兩類。
[0004] 基于固定項(xiàng)權(quán)值的加權(quán)模式挖掘是早期的基于項(xiàng)權(quán)值的挖掘方法，自1998年以來得到眾多學(xué)者的關(guān)注和深入研究，其特點(diǎn)是：項(xiàng)目權(quán)值來源于用戶或者領(lǐng)域?qū)＜以O(shè)置，在事務(wù)挖掘過程中固定不變。其缺陷是：沒有考慮項(xiàng)目權(quán)值隨著事務(wù)記錄變化而變化的情況，即忽略項(xiàng)權(quán)值變化的情況，不能解決具有項(xiàng)權(quán)值變化特征的數(shù)據(jù)挖掘問題。通常將具有項(xiàng) 權(quán)值變化特征的數(shù)據(jù)稱為矩陣加權(quán)數(shù)據(jù)，也稱完全加權(quán)數(shù)據(jù)。中文文本信息數(shù)據(jù)是典型的矩陣加權(quán)數(shù)據(jù)，海量的中文文本信息中其特征詞權(quán)值是依賴于各個(gè)文檔，并隨文檔不同而變化?；趧?dòng)態(tài)項(xiàng)權(quán)值的矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘方法克服了基于固定項(xiàng)權(quán)值的加權(quán)模式挖掘的缺陷，用于挖掘具有項(xiàng)權(quán)值變化特征的數(shù)據(jù)中各種關(guān)聯(lián)模式，主要特點(diǎn)是其項(xiàng)目權(quán)值依賴于事務(wù)而動(dòng)態(tài)變化。典型的矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘算法是2003年譚義紅等提出的向量空間模型中完全加權(quán)關(guān)聯(lián)規(guī)則的挖掘方法KWEstimate (譚義紅，林亞平.向量空間模型中完全加權(quán)關(guān)聯(lián)規(guī)則的挖掘[J].計(jì)算機(jī)工程與應(yīng)用，2003(13) :208-211.)以及面向查詢擴(kuò)展的矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘方法MWARM(黃名選，嚴(yán)小衛(wèi)，張師超.基于矩陣加權(quán)關(guān)聯(lián) 規(guī)則挖掘的偽相關(guān)反饋查詢擴(kuò)展[J].軟件學(xué)報(bào)，2009，20 (7) : 1854-1865.)，這些方法在挖掘矩陣加權(quán)數(shù)據(jù)關(guān)聯(lián)模式均獲得良好的挖掘效果，并且已經(jīng)成功地運(yùn)用于信息檢索查詢擴(kuò)展領(lǐng)域（黃名選，嚴(yán)小衛(wèi)，張師超.基于矩陣加權(quán)關(guān)聯(lián)規(guī)則挖掘的偽相關(guān)反饋查詢擴(kuò)展 [J].軟件學(xué)報(bào)，2009，20 (7) : 1854-1865.，黃名選，嚴(yán)小衛(wèi)，張師超.完全加權(quán)關(guān)聯(lián)規(guī) 則挖掘及其在查詢擴(kuò)展中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究，2008, 25 (6) : 1724-1727.)，獲得了顯著的效果?，F(xiàn)有的基于動(dòng)態(tài)項(xiàng)權(quán)值的挖掘方法缺陷是：其所挖掘的關(guān)聯(lián)模式數(shù)量仍然很龐大，無趣的、虛假的和無效的關(guān)聯(lián)模式很多，給用戶選擇所需模式時(shí)增加難度。針對(duì)上述問題，本發(fā)明根據(jù)中文文本信息數(shù)據(jù)的特點(diǎn)，提一種一種基于動(dòng)態(tài)權(quán)值的矩陣加權(quán)中文特征詞關(guān)聯(lián)模式挖掘方法及其挖掘系統(tǒng)。該發(fā)明提出矩陣加權(quán)項(xiàng)集獲取新方法及其項(xiàng)集剪枝方法，避免很多無效的、虛假的和無趣的關(guān)聯(lián)模式產(chǎn)生，極大提高中文文本挖掘效率，所挖掘出的中文特征詞關(guān)聯(lián)規(guī)則模式更加接近實(shí)際情況，其中文特征詞關(guān)聯(lián)模式可為中文信息檢索提供可靠的查詢擴(kuò)展詞來源，因此，該發(fā)明方法及其挖掘系統(tǒng)在中文文本挖掘、信息檢索等領(lǐng)域具有重要的應(yīng)用價(jià)值和廣闊的應(yīng)用前景。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明所要解決的技術(shù)問題在于，針對(duì)中文文本特征詞關(guān)聯(lián)模式挖掘進(jìn)行深入探索，提出一種基于動(dòng)態(tài)項(xiàng)權(quán)值的矩陣加權(quán)中文特征詞關(guān)聯(lián)模式挖掘方法及其挖掘系統(tǒng)，提高中文文本挖掘效率，應(yīng)用于中文文本信息檢索查詢擴(kuò)展，可以提高檢索性能，應(yīng)用于中文文本挖掘，能夠發(fā)現(xiàn)更加實(shí)際合理的詞間關(guān)聯(lián)模式，提高文本聚類和分類的精度。
[0006] 本發(fā)明解決上述技術(shù)問題所采取的技術(shù)方案是：一種基于動(dòng)態(tài)項(xiàng)權(quán)值的矩陣加權(quán) 中文特征詞關(guān)聯(lián)模式挖掘方法，包括如下步驟： (1)中文文本預(yù)處理：將待處理的中文文本信息數(shù)據(jù)進(jìn)行分詞，去除停用詞、特征詞的提取及其權(quán)值計(jì)算，構(gòu)建中文文本數(shù)據(jù)庫和特征詞項(xiàng)目庫。
[0007] 中文文本特征詞權(quán)值計(jì)算公式是

【權(quán)利要求】
1. 一種基于動(dòng)態(tài)項(xiàng)權(quán)值的矩陣加權(quán)中文特征詞關(guān)聯(lián)模式挖掘方法，其特征在于，包括如下步驟： (1) 中文文本預(yù)處理：將待處理的中文文本信息數(shù)據(jù)進(jìn)行分詞，去除停用詞、提取特征詞及計(jì)算其權(quán)值，構(gòu)建中文文本數(shù)據(jù)庫和特征詞項(xiàng)目庫； (2) 挖掘矩陣加權(quán)中文特征詞頻繁項(xiàng)集，包括以下步驟2.1和步驟2.2: (2.1)挖掘矩陣加權(quán)特征詞候選1_項(xiàng)集和頻繁1_項(xiàng)集，具體步驟按照2.I.1和2.1.2進(jìn)行： (2.I.1)從特征詞項(xiàng)目庫中提取特征詞候選1_項(xiàng)集，在中文文本數(shù)據(jù)庫累加全部項(xiàng)目權(quán)值總和，累加矩陣加權(quán)中文特征詞候選1_項(xiàng)集在中文文本信息數(shù)據(jù)庫中的項(xiàng)集權(quán)值總和，計(jì)算特征詞候選1_項(xiàng)集的最小頻繁權(quán)值閾值，若其項(xiàng)集權(quán)值大于或者等于相應(yīng)的最小頻繁權(quán)值閾值，則該候選項(xiàng)集為頻繁ι_項(xiàng)集乙，將該A加入到特征詞頻繁項(xiàng)集集合; (2.1.2)在中文文本數(shù)據(jù)庫中累加矩陣加權(quán)中文特征詞候選1-項(xiàng)集的項(xiàng)集頻度，計(jì)算候選1-項(xiàng)集的矩陣加權(quán)項(xiàng)集權(quán)值期望； (2.2)挖掘矩陣加權(quán)特征詞候選項(xiàng)集和頻繁項(xiàng)集，所述的A>2,按照步驟 2.2.f2.2.8進(jìn)行操作： (2.2.1)計(jì)算矩陣加權(quán)候選認(rèn)_1)_項(xiàng)集的矩陣加權(quán)項(xiàng)集權(quán)值期望，刪除矩陣加權(quán)候選仏_1)_項(xiàng)集的項(xiàng)集權(quán)值小于其項(xiàng)集權(quán)值期望的候選認(rèn)_1)_項(xiàng)集，得到新的矩陣加權(quán)特征詞候選認(rèn)_1)_項(xiàng)集集合； (2.2.2)將其項(xiàng)集頻度不為O的矩陣加權(quán)特征詞候選仏-1)_項(xiàng)集進(jìn)行Apriori連接產(chǎn)生矩陣加權(quán)特征詞候選t項(xiàng)集； (2. 2. 3)如果矩陣加權(quán)特征詞候選t項(xiàng)集不是空集，轉(zhuǎn)入2. 2. 4步，否則，退出2. 2步轉(zhuǎn)入（3)步； (2. 2. 4)對(duì)于矩陣加權(quán)特征詞候選項(xiàng)集，若存在一個(gè)其仏-1)_項(xiàng)子集的項(xiàng)集權(quán)值小于其對(duì)應(yīng)的項(xiàng)集權(quán)值期望，則將該候選慫項(xiàng)集刪除，得到新的矩陣加權(quán)特征詞候選L項(xiàng)集集合； (2. 2. 5)在中文文本數(shù)據(jù)庫中累加矩陣加權(quán)特征詞候選項(xiàng)集的項(xiàng)集頻度、項(xiàng)集權(quán)值及其矩陣加權(quán)項(xiàng)集權(quán)值期望； (2.2.6)刪除其項(xiàng)集頻度為0的矩陣加權(quán)特征詞候選項(xiàng)集，得到新的矩陣加權(quán)特征詞候選項(xiàng)集集合； (2. 2. 7)計(jì)算矩陣加權(quán)特征詞候選項(xiàng)集G的最小頻繁權(quán)值閾值^^(6；)，若矩陣加權(quán) 候選項(xiàng)集的項(xiàng)集權(quán)值大于或者等于其最小頻繁權(quán)值閾值《以4)，那么該特征詞候選項(xiàng)集G是頻繁的，加入到特征詞頻繁項(xiàng)集集合; (2.2.8)將左的值加1，循環(huán)2.2.f2.2. 7步驟，直到G為空，則退出2.2步轉(zhuǎn)入如下 (3)步； (3) 從矩陣加權(quán)特征詞頻繁項(xiàng)集集合中挖掘矩陣加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則模式，包括以下步驟： (3.1)對(duì)于矩陣加權(quán)特征詞頻繁項(xiàng)集集合中每項(xiàng)特征詞頻繁項(xiàng)集Zi，求出Zi的全部真子集； (3. 2)對(duì)于Zi的真子集集合中任意兩個(gè)真子集J7和心，并且J7Π0 ,/,UA=Zi, 若（W12X之V(W1X^12)的值大于或者等于最小置信度閾值，則挖掘出矩陣加權(quán)特征詞關(guān)聯(lián) 規(guī)則/7-厶；若（W12X毛V(A2Xw2)的值大于或者等于最小置信度閾值，則挖掘出矩陣加權(quán) 特征詞關(guān)聯(lián)規(guī)則厶一/7;所述的之、毛和&分別為項(xiàng)集、厶和（/7，幻的項(xiàng)目個(gè)數(shù)， h和化分別為A、厶和，石）的項(xiàng)集權(quán)值； (3. 3)繼續(xù)3. 2步驟，直到Zi的真子集集合中每個(gè)真子集都被取出一次，而且僅能取出一次，則轉(zhuǎn)入步驟3.4 ; (3. 4)繼續(xù)3. 1步驟，當(dāng)中每個(gè)Zi都被取出一次，而且僅能取出一次，則退出（3) I K 少；至此，矩陣加權(quán)特征詞關(guān)聯(lián)規(guī)則模式挖掘結(jié)束。
2. -種適用于權(quán)利要求1所述的基于動(dòng)態(tài)項(xiàng)權(quán)值的中文特征詞關(guān)聯(lián)模式挖掘系統(tǒng)，其特征在于，包括以下4個(gè)模塊：中文文本預(yù)處理模塊：用于待處理的中文文本數(shù)據(jù)進(jìn)行分詞、去除停用詞和特征詞提取及其權(quán)值計(jì)算等預(yù)處理，構(gòu)建中文文本數(shù)據(jù)庫和特征詞項(xiàng)目庫；中文特征詞候選項(xiàng)集產(chǎn)生及其剪枝模塊：該模塊從中文文本數(shù)據(jù)庫首先挖掘中文特征詞候選1-項(xiàng)集，然后，由候選a-ι)-項(xiàng)集α>2)生成候選i-項(xiàng)集，最后采用本發(fā)明的剪枝方法對(duì)中文特征詞候選項(xiàng)集剪枝，得到最終的中文特征詞候選項(xiàng)集集合；中文特征詞頻繁項(xiàng)集產(chǎn)生模塊：該模塊首先求出中文特征詞候選項(xiàng)集在中文文本數(shù) 據(jù)庫中的項(xiàng)集權(quán)值，與最小頻繁權(quán)值閾值比較，從候選項(xiàng)集中挖掘中文特征詞頻繁項(xiàng)集模式；中文特征詞關(guān)聯(lián)模式產(chǎn)生及結(jié)果顯示模塊：該模塊生成中文特征詞頻繁項(xiàng)集的所有真子集，通過其項(xiàng)集權(quán)重的簡(jiǎn)單計(jì)算，并與最小置信度閾值比較，從中文特征詞頻繁項(xiàng)集中挖掘矩陣加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則模式，并將最終結(jié)果按用戶的需要顯示給用戶，供用戶選擇和使用。
3.根據(jù)權(quán)利要求2所述的挖掘系統(tǒng)，其特征在于，所述的中文文本預(yù)處理模塊包括以下2個(gè)模塊：特征詞分詞及其權(quán)值計(jì)算模塊：該模塊對(duì)中文文本信息進(jìn)行分詞、去除中文停用詞和提取特征詞，根據(jù)中文文本特征詞權(quán)值公式計(jì)算其權(quán)值；中文文本數(shù)據(jù)庫和特征詞庫構(gòu)建模塊：該模塊主要根據(jù)數(shù)據(jù)庫理論原理，構(gòu)建基于向量空間模型的中文文本數(shù)據(jù)庫和特征詞項(xiàng)目庫。
4. 根據(jù)權(quán)利要求2所述的挖掘系統(tǒng)，其特征在于，所述的中文特征詞候選項(xiàng)集產(chǎn)生及其剪枝模塊包括以下2個(gè)模塊：特征詞候選項(xiàng)集產(chǎn)生模塊：該模塊主要從中文文本數(shù)據(jù)庫中挖掘中文特征詞候選項(xiàng) 集，具體過程如下：從特征詞項(xiàng)目庫中提取候選1-項(xiàng)集，在中文文本數(shù)據(jù)庫中累加其項(xiàng)集權(quán)值，與1-項(xiàng)集最小頻繁權(quán)值閾值比較，得出矩陣加權(quán)特征詞頻繁1_項(xiàng)集；然后，由候選 (i-Ι)-項(xiàng)集（i>2)通過Apriori連接得到矩陣加權(quán)特征詞候選i-項(xiàng)集；特征詞候選項(xiàng)集剪枝模塊：該模塊利用本發(fā)明的剪枝方法對(duì)矩陣加權(quán)中文特征詞候選項(xiàng)集進(jìn)行剪枝，將不可能頻繁的中文特征詞候選項(xiàng)集刪除，得到最終矩陣加權(quán)中文特征詞候選項(xiàng)集集合。
5. 根據(jù)權(quán)利要求2所述的挖掘系統(tǒng)，其特征在于，所述的中文特征詞關(guān)聯(lián)模式產(chǎn)生及結(jié)果顯示模塊包括以下3個(gè)模塊：頻繁項(xiàng)集的子項(xiàng)集生成模塊：該模塊主要負(fù)責(zé)生成中文特征詞頻繁項(xiàng)集的所有真子集及其項(xiàng)集權(quán)值和維數(shù)，為挖掘關(guān)聯(lián)規(guī)則模式做準(zhǔn)備；生成特征詞強(qiáng)關(guān)聯(lián)規(guī)則模塊：該模塊主要負(fù)責(zé)通過項(xiàng)集權(quán)值和維數(shù)的簡(jiǎn)單計(jì)算，與最小置信度比較，從中文特征詞頻繁項(xiàng)集中挖掘矩陣加權(quán)特征詞強(qiáng)關(guān)聯(lián)規(guī)則模式；特征詞強(qiáng)關(guān)聯(lián)規(guī)則顯示模塊：該模塊主要負(fù)責(zé)將最終中文特征詞強(qiáng)關(guān)聯(lián)規(guī)則模式按用戶的需要顯示給用戶，供用戶選擇和使用。
6.根據(jù)權(quán)利要求2-5中任一項(xiàng)所述的挖掘系統(tǒng)，其特征在于，所述的挖掘系統(tǒng)中的最小支持度閾值as,最小置信度閾值由用戶輸入。
【文檔編號(hào)】G06F17/30GK104317794SQ201410427503
【公開日】2015年1月28日申請(qǐng)日期:2014年8月27日優(yōu)先權(quán)日:2014年8月27日
【發(fā)明者】黃名選申請(qǐng)人:廣西教育學(xué)院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃名選
技術(shù)所有人：廣西教育學(xué)院
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

特征關(guān)聯(lián)分析相關(guān)技術(shù)

關(guān)聯(lián)特征相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于動(dòng)態(tài)項(xiàng)權(quán)值的中文特征詞關(guān)聯(lián)模式挖掘方法及其系統(tǒng)的制作方法