本發(fā)明涉及計算機數(shù)據(jù)處理,特別涉及一種基于卷積神經(jīng)網(wǎng)絡(luò)的多視圖文本聚類方法。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)的迅速發(fā)展,文本信息量迅猛增長,海量的非結(jié)構(gòu)化文本信息與日俱增,呈現(xiàn)爆炸式增長,曾經(jīng)提出的相關(guān)文本聚類算法難以滿足人們在文本分析、商務(wù)應(yīng)用、推薦系統(tǒng)、生物醫(yī)學(xué)等多個領(lǐng)域的需要,如何從大量的文本數(shù)據(jù)中挖掘有用的信息和知識是人們急需解決的主要難題。
2、文本聚類是一項重要的自然語言處理任務(wù),旨在根據(jù)文本的相似性將大量的文本數(shù)據(jù)自動分為若干個組,每個組中的文本在內(nèi)容或主題上具有相似性。它在信息檢索、數(shù)據(jù)挖掘、文本分類、推薦系統(tǒng)等領(lǐng)域有著廣泛的應(yīng)用。然而,文本聚類任務(wù)面臨著諸多挑戰(zhàn)和難題。
3、傳統(tǒng)的無監(jiān)督聚類方法不需要標記數(shù)據(jù),因此適用于缺乏標簽的大規(guī)模數(shù)據(jù)集。這種方法對新數(shù)據(jù)的適應(yīng)性強,但由于缺乏先驗知識,聚類結(jié)果的解釋性和準確性可能受到限制。由于未標記數(shù)據(jù)中沒有明確的類別信息,模型無法借助標簽來校正或驗證聚類結(jié)果。聚類的好壞完全依賴于算法和特征選擇,容易受噪聲和特征選擇不當?shù)挠绊?,?dǎo)致結(jié)果不穩(wěn)定或不準確。相比而言半監(jiān)督文本聚類結(jié)合了少量標記數(shù)據(jù)和大量未標記數(shù)據(jù),通過標記數(shù)據(jù)提供的先驗信息來引導(dǎo)聚類過程,能顯著提高聚類結(jié)果的準確性和穩(wěn)定性。半監(jiān)督文本聚類仍然存在著一些問題和挑戰(zhàn):盡管半監(jiān)督方法減少了對標記樣本的需求,但在某些文本數(shù)據(jù)集中,標記樣本仍然可能稀缺或難以獲取。尤其在需要專家知識或?qū)I(yè)領(lǐng)域中,標記樣本的獲取可能會成為瓶頸;半監(jiān)督文本聚類方法對標記樣本的質(zhì)量和代表性非常依賴。如果標記樣本不具備代表性,或存在標記錯誤,可能會導(dǎo)致聚類結(jié)果不準確。標記樣本的選擇和標記過程也可能會引入偏差,從而影響最終的聚類效果。
4、現(xiàn)有技術(shù)中,如專利cn106776740a一種基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法,基于卷積神經(jīng)網(wǎng)絡(luò)的社交網(wǎng)絡(luò)文本聚類方法,利用卷積神經(jīng)網(wǎng)絡(luò)對局部特征強大的抽象表示能力學(xué)習(xí)微博文本的特征,并使用機器學(xué)習(xí)中的聚類算法對特征進行處理,實現(xiàn)微博文本的聚類。本方法考慮到手工標記數(shù)據(jù)集類別的成本過高,因此使用自然語言處理中的局部保持限制算法對原始特征進行處理,將文本信息映射為二元數(shù)值向量,作為該微博文本的抽象表示。又如專利cn113704429a一種基于半監(jiān)督學(xué)習(xí)的意圖識別方法,包括如下步驟:步驟1:從會話意圖語料庫中抽取用戶的意圖文本,對所述意圖文本進行實體標注及實體增強處理,得到意圖實體集合;步驟2:對所述意圖實體集合中的意圖實體進行標簽聚類,得到意圖類別;步驟3:利用所述意圖類別的意圖標簽得到標注訓(xùn)練集,利用所述標注訓(xùn)練集訓(xùn)練預(yù)構(gòu)建的神經(jīng)網(wǎng)絡(luò),得到原始意圖識別模型;步驟4:從所述會話意圖語料庫中抽取未標注訓(xùn)練集,并利用所述未標注訓(xùn)練集及所述標注訓(xùn)練集對所述原始意圖識別模型進行迭代訓(xùn)練,得到半監(jiān)督訓(xùn)練模型;步驟5:利用交叉驗證法對所述半監(jiān)督訓(xùn)練模型進行交叉訓(xùn)練,得到標準意圖識別模型,并利用所述標準意圖識別模型輸出待識別文本的意圖識別結(jié)果。
5、現(xiàn)有技術(shù)的缺點:
6、1、在傳統(tǒng)的半監(jiān)督文本聚類方法中,標記樣本是至關(guān)重要的。然而,獲取足夠且具有代表性的標記樣本通常是耗時且昂貴的,特別是在需要專家知識的領(lǐng)域。標記樣本的稀缺性和高成本限制了這些方法的廣泛應(yīng)用,同時人工標記樣本目前仍存在樣本選擇偏差,類別不平衡等問題,對聚類結(jié)果的質(zhì)量產(chǎn)生負面影響。
7、2、現(xiàn)有的方法多使用傳統(tǒng)的特征表示,如tf-idf或詞袋模型,這些方法無法充分捕捉文本的語義信息,導(dǎo)致聚類效果不佳。此外,高維度和稀疏性的特征表示也增加了聚類過程的復(fù)雜性和計算開銷。
8、3傳統(tǒng)的半監(jiān)督聚類方法可能需要復(fù)雜的計算步驟,如相似性計算、大規(guī)模矩陣操作等,這些操作的計算成本較高,影響了算法的效率和實際應(yīng)用。
技術(shù)實現(xiàn)思路
1、本發(fā)明目的之一在于提供了一種基于卷積神經(jīng)網(wǎng)絡(luò)的多視圖文本聚類方法,解決現(xiàn)有的文本聚類方法無法降低特征維度,充分捕捉文本的語義信息的問題;解決半監(jiān)督文本聚類方法中人工標記樣本,樣本選擇偏差、類別不平衡的問題,減少了開銷和人力資源。
2、本發(fā)明實施例提供的一種基于卷積神經(jīng)網(wǎng)絡(luò)的多視圖文本聚類方法,包括:
3、s01:對原始多視圖文本數(shù)據(jù)進行預(yù)處理;
4、s02:對預(yù)處理后的原始多視圖文本數(shù)據(jù)先計算tf-idf值再與word2vec詞向量結(jié)合,生成文本詞嵌入加權(quán)向量;
5、s03:對預(yù)處理后的原始多視圖文本數(shù)據(jù)生成lda文本主題向量;
6、s04:對文本詞嵌入加權(quán)向量和lda文本主題向量形成的向量組分別進行譜聚類,獲得聚類結(jié)果;
7、s05:將聚類結(jié)果中相同的分類數(shù)據(jù)作為有標記數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,聚類結(jié)果中不同的分類數(shù)據(jù)作為未標記樣本,利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)對未標記樣本進行特征提取并將得到的特征向量進行譜聚類,獲得最終聚類結(jié)果。
8、優(yōu)選的,所述對原始多視圖文本數(shù)據(jù)進行預(yù)處理包括:
9、s11:使用正則表達式遍歷原始多視圖文本數(shù)據(jù)的文章內(nèi)容,僅保留文章內(nèi)容中中文字符,過濾掉所有非中文字符和數(shù)字字符,采用結(jié)巴分詞工具對文章內(nèi)容進行分詞處理,將文章內(nèi)容劃分為單個詞匯作為基本單元;
10、s12:使用哈工大停用詞表、百度停用詞或自定義的停用詞表對文章內(nèi)容進行停用詞刪除;
11、s13:使用cbow模型中的word2vec方法,生成文章內(nèi)容劃分的每個詞的詞向量表示,通過計算詞向量之間的余弦相似度式中wi為第i個詞,wj為第j個詞,vi為詞wi的詞向量,vj為詞wj的詞向量,相似度超過自定義的閾值的詞匯作為關(guān)聯(lián)詞,為每個詞找到與之語義最接近的關(guān)聯(lián)詞集合;
12、s14:選取每個關(guān)聯(lián)詞集合中出現(xiàn)頻率最高的詞作為代表詞,使用正則表達式在文章內(nèi)容中查找并替換所有關(guān)聯(lián)詞集合中的詞匯為代表詞,得到預(yù)處理之后的文本數(shù)據(jù)。
13、優(yōu)選的,所述對預(yù)處理后的原始多視圖文本數(shù)據(jù)先計算tf-idf值再與word2vec詞向量結(jié)合,生成文本詞嵌入加權(quán)向量,包括:
14、s21:對于預(yù)處理后的原始多視圖文本數(shù)據(jù)中的每個文本,計算文本中每個詞的詞頻式中nd表示原始多視圖文本數(shù)據(jù)中的文本d中的總詞數(shù),count(w,d)表示詞w在原始多視圖文本數(shù)據(jù)中的文本d中出現(xiàn)的次數(shù);計算逆文本頻率式中n為原始多視圖文本數(shù)據(jù)中的文本數(shù),df(w)是原始多視圖文本數(shù)據(jù)中包含詞w的文本數(shù)量;對原始多視圖文本數(shù)據(jù)中每個文本的詞w,計算tf-idf(w,d)=tf(w,d)·idf(w);
15、s22:使用訓(xùn)練好的word2vec模型確定原始多視圖文本數(shù)據(jù)中的文本中的每個詞獲取其詞向量表示;
16、s23:對于原始多視圖文本數(shù)據(jù)中的文本的每個詞,進行詞嵌入加權(quán)v′w=tf-idf(w,d)·vw,式中vw是詞w的word2vec向量,tf-idf(w,d)是詞w在文本d中的tf-idf值;
17、s24:對原始多視圖文本數(shù)據(jù)中的文本中的所有加權(quán)詞向量進行加權(quán)平均,得到文本詞嵌入加權(quán)特征向量式中vd是原始多視圖文本數(shù)據(jù)中的文本d的向量表示,∑wedtf-idf(w,d)是原始多視圖文本數(shù)據(jù)中的文本中所有詞的tf-idf值之和。
18、優(yōu)選的,所述對預(yù)處理后的原始多視圖文本數(shù)據(jù)生成lda文本主題向量,包括:
19、s31:對lda文本主題模型建模,用聯(lián)合概率公式生成第m篇文章,過程表示為式中m表示生成第m篇文章,α為主題分布的超參數(shù),β為詞匯分布的超參數(shù),為某主題下的詞分布概率,wm為第m篇文章所有詞的集合,wm,n為第m篇文章第n個詞,zm為第m篇文章中所有詞分配的主題,zm,n為第m篇文章中第n個詞分配的主題,θm為第m篇文章的主題分布,為第m篇文章中主題z中第n個詞的概率,nm為第m篇文章中詞的總數(shù);
20、s32:將預(yù)處理后的原始多視圖文本數(shù)據(jù)輸入到lda文本主題模型中,得到lda文本主題特征向量。
21、優(yōu)選的,所述對文本詞嵌入加權(quán)向量和lda文本主題向量形成的向量組分別進行譜聚類,獲得聚類結(jié)果,包括:
22、s41:對s24和s32中獲得的特征向量分別使用余弦相似度或者高斯核函數(shù)構(gòu)建相似度矩陣,根據(jù)相似度矩陣構(gòu)建度矩陣;
23、s42:基于度矩陣和相似度矩陣得到拉普拉斯矩陣l=d-w,式中d為度矩陣,w為拉普拉斯矩陣;
24、s43:對拉普拉斯矩陣進行特征值分解,獲得其前k個最小特征值對應(yīng)的特征向量,k為預(yù)設(shè)的聚類數(shù)量;
25、s44:將s43中得到的特征向量堆疊成一個新的特征向量矩陣,每個樣本對應(yīng)一行,該矩陣作為樣本在低維空間中的新表示;
26、s45:對s44中得到的新的特征向量矩陣應(yīng)用k-means聚類算法,將樣本分為k個類,獲得聚類結(jié)果。
27、優(yōu)選的,所述將聚類結(jié)果中相同的分類數(shù)據(jù)作為有標記數(shù)據(jù)輸入卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,聚類結(jié)果中不同的分類數(shù)據(jù)作為未標記樣本,利用訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)對未標記樣本進行特征提取并將得到的特征向量進行譜聚類,獲得最終聚類結(jié)果,包括:
28、s51:在詞嵌入加權(quán)視圖中的每個文本的詞向量序列是一個n·m1的矩陣,式中n為詞嵌入加權(quán)視圖中的文本的詞數(shù),m1是詞嵌入加權(quán)視圖中的文本中每個詞的詞嵌入加權(quán)特征向量;在lda文本主題視圖中的每個文本的lda特征可以視作一個1·m2向量,式中m2是文本主題視圖中的每個文本的lda文本主題特征向量;
29、s52:將每個詞的詞嵌入加權(quán)特征向量與lda文本主題特征向量拼接在一起,得到一個新的詞向量,其維度為m1+m2,對每個文本,拼接后的特征向量形成一個n·m矩陣,式中每個詞的特征維度m=m1+m2;
30、s53:將s45中得到的兩組聚類結(jié)果中相同的分類數(shù)據(jù)作為有標記樣本,不同的分類數(shù)據(jù)作為未標記樣本;對有標記樣本輸入卷積神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,使用窗口大小為1·m的卷積核進行卷積運算,得到1維向量,再使用大小為1·n的池化窗口進行最大池化,在池化后連接一個帶dropout的全連接層進行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練;
31、s54:使用f個不同權(quán)重參數(shù)的卷積核對g個未標記樣本進行卷積神經(jīng)網(wǎng)絡(luò)提取特征,對未標記樣本使用窗口大小為1·m的卷積核進行卷積運算,得到1維向量,再使用大小為1·n的池化窗口進行最大池化提取最重要的特征,得到標量,則所有未標記樣本池化后的結(jié)果可以組成為f·g維的特征向量;
32、s55:對得到的特征向量執(zhí)行s04操作進行譜聚類。
33、優(yōu)選的,所述原始多視圖文本數(shù)據(jù)的獲取步驟包括:
34、向用戶顯示多視圖文本數(shù)據(jù)選擇框;
35、獲取用戶的畫像序列;所述畫像序列中包含用戶歷史上最近預(yù)設(shè)時間內(nèi)每隔預(yù)設(shè)時間間隔產(chǎn)生的新的畫像;
36、從畫像序列中確定符合序列項簇條件的序列項簇;
37、依次遍歷畫像序列中的序列項,當遍歷到畫像序列中第i個序列項時,若第i個序列項落入畫像序列中第j個序列項簇中時,對畫像序列中前i個序列項以及前j個序列項簇進行特征描述,獲得第一描述向量;
38、從觸發(fā)值庫中確定第一描述向量對應(yīng)的觸發(fā)值;
39、當觸發(fā)值大于等于觸發(fā)閾值時,從數(shù)據(jù)源篩選條件庫中確定第一描述向量對應(yīng)的數(shù)據(jù)源篩選條件;觸發(fā)閾值為第一權(quán)重與i的積加第二權(quán)重與j的積的和;
40、基于數(shù)據(jù)源篩選條件,從數(shù)據(jù)源庫中篩選出數(shù)據(jù)源;
41、將數(shù)據(jù)源補充接入到多視圖文本數(shù)據(jù)選擇框中;
42、對用戶基于多視圖文本數(shù)據(jù)選擇框產(chǎn)生的選擇操作序列進行特征描述,獲得第二特征向量;
43、從數(shù)據(jù)篩選條件庫中嘗試確定第二特征向量對應(yīng)的數(shù)據(jù)篩選條件;
44、當嘗試成功時,基于數(shù)據(jù)篩選條件,從當前的多視圖文本數(shù)據(jù)選擇框中的待選擇數(shù)據(jù)中篩選出目標數(shù)據(jù);
45、當嘗試失敗時,從畫像序列中第j個序列項簇中的末尾序列項的后一個序列項開始繼續(xù)依次遍歷序列項簇;
46、遍歷序列項簇結(jié)束后,基于每次遍歷到一個序列項獲得的目標數(shù)據(jù),確定原始多視圖文本數(shù)據(jù)。
47、優(yōu)選的,所述序列項簇條件包括多種結(jié)合:
48、序列項簇中的包含至少預(yù)設(shè)數(shù)目個連續(xù)的序列項;
49、序列項簇中兩兩序列項之間存在產(chǎn)生關(guān)聯(lián)關(guān)系;
50、序列項簇中全部序列項的序列項類型相同。
51、本技術(shù)取得了以下有益效果:
52、1、從不同視圖的聚類結(jié)果中選取一致的樣本作為標記樣本,本發(fā)明減少了對外部標記樣本的需求,從而降低了標記成本和時間投入;
53、2、提出了結(jié)合lda文本主題視圖和文本詞嵌入加權(quán)視圖的方法,充分利用多視圖的信息互補性,增強了聚類的效果。通過整合多個視圖的特征,本發(fā)明能更好地捕捉文本的多重語義信息,提高了聚類結(jié)果的穩(wěn)定性;
54、3、將詞嵌入加權(quán)特征向量和lda文本主題特征向量拼接成統(tǒng)一的特征向量,提升了特征表示的質(zhì)量;
55、4、采用卷積神經(jīng)網(wǎng)絡(luò)進行文本特征提取,有效捕捉文本的語義信息,降低特征維度,減少標簽噪聲的影響,從而提高聚類結(jié)果的準確性和魯棒性。
56、本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。
57、下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。