文本聚類方法、裝置及計(jì)算設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種文本聚類方法,文本聚類裝置以及用于文本聚類的計(jì)算設(shè)備。
【背景技術(shù)】
[0002]當(dāng)存在大量文本時(shí),常需要對(duì)這些文本進(jìn)行聚類,即將大量文本歸類到一定數(shù)量的簇(英文:cluster)中,以方便后續(xù)對(duì)這些文本的處理。
[0003]文本的聚類過(guò)程,也即將相似的文本聚集到一起的過(guò)程?,F(xiàn)有技術(shù)中,常根據(jù)文本內(nèi)包含的內(nèi)容來(lái)計(jì)算文本之間的相似度,一般包含相同內(nèi)容較多的多個(gè)文本被視為相似程度較高。
[0004]然而,一些類型的文本,例如日志,包含的內(nèi)容會(huì)隨著輸入?yún)?shù)和輸出參數(shù)的變化而變化,因此根據(jù)文本包含的內(nèi)容來(lái)對(duì)這些文本進(jìn)行聚類的精度不高。
【發(fā)明內(nèi)容】
[0005]本申請(qǐng)?zhí)峁┝艘环N文本聚類方法,文本聚類裝置以及用于文本聚類的計(jì)算設(shè)備,以提升文本聚類的精度。
[0006]本申請(qǐng)的第一方面提供了一種文本聚類方法,該方法由計(jì)算機(jī)執(zhí)行,包括:接收待聚類的N個(gè)文本,N為大于I的整數(shù),將這N個(gè)文本中的數(shù)字替換為第一標(biāo)識(shí)。對(duì)這N個(gè)文本執(zhí)行預(yù)處理操作,將這N個(gè)文本中相鄰的第一標(biāo)識(shí)合并,獲得這N個(gè)文本對(duì)應(yīng)的N個(gè)預(yù)處理文本。對(duì)N個(gè)預(yù)處理文本進(jìn)行分詞,獲取這N個(gè)預(yù)處理文本的分詞結(jié)果,并獲取這N個(gè)預(yù)處理文本的分詞結(jié)果中各個(gè)詞的統(tǒng)計(jì)特征。根據(jù)這N個(gè)預(yù)處理文本的分詞結(jié)果中各個(gè)詞的統(tǒng)計(jì)特征,對(duì)這N個(gè)文本進(jìn)行聚類。
[0007]通過(guò)對(duì)待聚類的文本進(jìn)行預(yù)處理操作,使得文本的預(yù)處理文本中保留的不再是文本的內(nèi)容本身,而是文本的格式,隨后根據(jù)各個(gè)文本的預(yù)處理文本來(lái)對(duì)文本進(jìn)行聚類,使得聚類過(guò)程能夠?qū)⑽谋镜母袷郊尤肟紤],提升了文本聚類的精度。
[0008]結(jié)合第一方面,在第一方面的第一種實(shí)現(xiàn)方式中,不僅將N個(gè)文本中的數(shù)字替換為第一標(biāo)識(shí),還將這N文本中的字素替換為第二標(biāo)識(shí)。因此,預(yù)處理操作還包括:將相鄰的兩個(gè)第二標(biāo)識(shí)合并為一個(gè)第二標(biāo)識(shí)。
[0009]進(jìn)一步的,不僅僅針對(duì)待聚類的文本中的數(shù)字進(jìn)行處理,還對(duì)待聚類的文本中的字素進(jìn)行處理,進(jìn)一步抽象出待處理的文本的格式,以供后續(xù)聚類中使用,能夠進(jìn)一步提升文本聚類的精度。
[0010]結(jié)合第一方面和第一方面的第一種實(shí)現(xiàn)方式,在第一方面的第二種實(shí)現(xiàn)方式中,對(duì)N個(gè)文本進(jìn)行聚類后,獲取M個(gè)文本簇。從每個(gè)文本簇的文本中提取該文本簇對(duì)應(yīng)的正則表達(dá)式;獲取新文本,判斷新文本是否滿足M個(gè)文本簇中任一文本簇對(duì)應(yīng)的正則表達(dá)式,如果該新文本符合任一文本簇對(duì)應(yīng)的正則表達(dá)式,則該新文本屬于該文本簇。
[0011]從已經(jīng)獲得的文本簇中提取正則表達(dá)式,獲取各個(gè)文本簇在內(nèi)容上的共性,獲取了新文本之后,無(wú)須將新文本和已經(jīng)執(zhí)行過(guò)聚類的文本一起重新進(jìn)行聚類,而是將新文本與各個(gè)文本簇對(duì)應(yīng)的正則表達(dá)式進(jìn)行匹配,大幅提升了新文本的聚類速度。
[0012]結(jié)合第一方面和第一方面的第一種實(shí)現(xiàn)方式,在第一方面的第三種實(shí)現(xiàn)方式中,對(duì)N個(gè)文本進(jìn)行聚類后,獲取M個(gè)文本簇。從每個(gè)文本簇包括的文本的預(yù)處理文本中提取該文本簇對(duì)應(yīng)的正則表達(dá)式;獲取新文本,判斷新文本是否滿足M個(gè)文本簇中任一文本簇對(duì)應(yīng)的正則表達(dá)式,如果該新文本符合任一文本簇對(duì)應(yīng)的正則表達(dá)式,則該新文本屬于該文本簇。
[0013]從已經(jīng)獲得的文本簇的預(yù)處理文本中提取正則表達(dá)式,獲取各個(gè)文本簇的預(yù)處理文本在格式上的共性,獲取了新文本之后,無(wú)須將新文本和已經(jīng)執(zhí)行過(guò)聚類的文本一起重新進(jìn)行聚類,而是將新文本與各個(gè)文本簇對(duì)應(yīng)的正則表達(dá)式進(jìn)行匹配,大幅提升了新文本的聚類速度。
[0014]本申請(qǐng)的第二方面提供了一種文本聚類裝置,該裝置包括獲取單元和處理單元。獲取單元用于,接收待聚類的N個(gè)文本,N為大于I的整數(shù),將這N個(gè)文本中的數(shù)字替換為第一標(biāo)識(shí)。處理單元用于,對(duì)這N個(gè)文本執(zhí)行預(yù)處理操作,將這N個(gè)文本中相鄰的第一標(biāo)識(shí)合并,獲得這N個(gè)文本對(duì)應(yīng)的N個(gè)預(yù)處理文本;并對(duì)這N個(gè)預(yù)處理文本進(jìn)行分詞,獲取這N個(gè)預(yù)處理文本的分詞結(jié)果,并獲取這N個(gè)預(yù)處理文本的分詞結(jié)果中各個(gè)詞的統(tǒng)計(jì)特征;隨后根據(jù)這N個(gè)預(yù)處理文本的分詞結(jié)果中各個(gè)詞的統(tǒng)計(jì)特征,對(duì)這N個(gè)文本進(jìn)行聚類。該裝置用于實(shí)現(xiàn)第一方面提供的文本聚類方法。
[0015]本申請(qǐng)的第三方面提供了一種計(jì)算設(shè)備,包括處理器、存儲(chǔ)器。該計(jì)算設(shè)備運(yùn)行時(shí)能夠?qū)崿F(xiàn)第一方面提供的文本聚類方法,用于實(shí)現(xiàn)第一方面提供的文本聚類方法的程序代碼可以保存在存儲(chǔ)器中,并由處理器來(lái)執(zhí)行。
[0016]本申請(qǐng)的第四方面提供了一種存儲(chǔ)介質(zhì),該存儲(chǔ)介質(zhì)中存儲(chǔ)的程序代碼被執(zhí)行時(shí)能夠?qū)崿F(xiàn)第一方面提供的文本聚類方法。該程序代碼由實(shí)現(xiàn)第一方面提供的文本聚類方法的計(jì)算機(jī)指令構(gòu)成。
【附圖說(shuō)明】
[0017]為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例中所需要使用的附圖作以簡(jiǎn)單地介紹,顯而易見的,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0018]圖1為本發(fā)明提供的文本聚類系統(tǒng)的組織結(jié)構(gòu)示意圖;
[0019]圖2為本發(fā)明提供的計(jì)算設(shè)備的組織結(jié)構(gòu)示意圖;
[0020]圖3為本發(fā)明提供的文本聚類方法的流程示意圖;
[0021 ]圖4為本發(fā)明提供的文本聚類裝置的組織結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0022]下面結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行描述。
[0023]貫穿本說(shuō)明書,術(shù)語(yǔ)“無(wú)邊界語(yǔ)言”指代字符間沒有用于劃定界限的標(biāo)點(diǎn)符號(hào)或空格的語(yǔ)言,常見的無(wú)邊界語(yǔ)言包括中文、日文等。相應(yīng)的,有邊界語(yǔ)言指代字符間有用于劃定界限的標(biāo)點(diǎn)符號(hào)或空格的語(yǔ)言,最常見的有邊界語(yǔ)言包括英文。
[0024]貫穿本說(shuō)明書,術(shù)語(yǔ)“聚類”指代根據(jù)不同對(duì)象的特征,將對(duì)象歸類到不同的簇的過(guò)程。每一個(gè)簇包含了有一定共性或者相似程度較高的多個(gè)對(duì)象。
[0025]貫穿本說(shuō)明書,術(shù)語(yǔ)“正則表達(dá)式”指代一串字符串,該字符串用于描述一系列句法規(guī)則,例如包括什么字符、字符位置、字符順序等。
[0026]圖1為文本聚類系統(tǒng)200的一種實(shí)現(xiàn)方式,包括存儲(chǔ)設(shè)備206、文本聚類設(shè)備202。其中存儲(chǔ)設(shè)備206中存儲(chǔ)了用于存儲(chǔ)待聚類的文本的文本庫(kù),存儲(chǔ)設(shè)備206可以通過(guò)通信網(wǎng)絡(luò)204與文本聚類設(shè)備202建立通信,存儲(chǔ)設(shè)備206也可以直接設(shè)置在文本聚類設(shè)備202中,通過(guò)輸入輸入單元2021與文本聚類設(shè)備202建立通信。文本聚類設(shè)備202中包括輸入輸出單元2021和處理單元2022。如果存儲(chǔ)設(shè)備206通過(guò)通信網(wǎng)絡(luò)204與文本聚類設(shè)備202通信,則輸入輸出單元2021可以為網(wǎng)絡(luò)接口,如果存儲(chǔ)設(shè)備206部署于文本聚類設(shè)備202內(nèi),則輸入輸出單元2021還可以為文本聚類設(shè)備202訪問(wèn)本地存儲(chǔ)設(shè)備的接口。
[0027]其中,處理器402、存儲(chǔ)器404和通信接口406可以通過(guò)總線408實(shí)現(xiàn)彼此之間的通信連接,也可以通過(guò)無(wú)線傳輸?shù)绕渌侄螌?shí)現(xiàn)通信。
[0028]存儲(chǔ)器404存儲(chǔ)器可以包括易失性存儲(chǔ)器(英文volatile memory),例如隨機(jī)存取存儲(chǔ)器(英文:random-access memory,縮寫:RAM);存儲(chǔ)器也可以包括非易失性存儲(chǔ)器(英文:non_volatile memory),例如只讀存儲(chǔ)器(英文:read_only memory,縮寫:ROM),快閃存儲(chǔ)器(英文:f lash memory),硬盤(英文:hard disk drive,縮寫:HDD)或固態(tài)硬盤(英文:solid-state drive,縮寫:SSD);存儲(chǔ)器404還可以包括上述種類的存儲(chǔ)器的組合。計(jì)算設(shè)備400運(yùn)行時(shí),存儲(chǔ)器404加載存儲(chǔ)設(shè)備206中文本庫(kù)中存儲(chǔ)的文本,以供處理器402使用。在通過(guò)軟件來(lái)實(shí)現(xiàn)本發(fā)明提供的技術(shù)方案時(shí),用于實(shí)現(xiàn)本發(fā)明圖3提供的文本聚類方法的程序代碼可以保存在存儲(chǔ)器404中,并由處理器402來(lái)執(zhí)行。
[0029]計(jì)算設(shè)備400通過(guò)通信接口406獲取待處理的文本,當(dāng)獲取文本聚類的結(jié)果后,還可以通過(guò)通信接口 406返回給用戶。
[0030]處理器402可以為中央處理器(英文:central processing unit,縮寫:CPU)。處理器402獲取文本庫(kù)中存儲(chǔ)的多個(gè)文本,并將這些文本中的數(shù)字替換為第一標(biāo)識(shí),第一標(biāo)識(shí)可以為一個(gè)特定的字符,例如字母d。對(duì)執(zhí)行完替換操作的文本進(jìn)行預(yù)處理操作,預(yù)處理操作即將每一個(gè)執(zhí)行完替換操作的文本中相鄰的兩個(gè)第一標(biāo)識(shí)合并為一個(gè)第一標(biāo)識(shí)。如果文本中有多個(gè)相鄰的第一標(biāo)識(shí),則可以將多個(gè)相鄰的第一標(biāo)識(shí)合并為一個(gè)第一標(biāo)識(shí)。文本中的空格、標(biāo)點(diǎn)符號(hào)可以保留。
[0031]一個(gè)文本執(zhí)行完預(yù)處理操作后,生成該文本對(duì)應(yīng)的一個(gè)預(yù)處理文本。因此,N個(gè)文本對(duì)應(yīng)于N個(gè)預(yù)處理文本,N為正整數(shù)且N等于待聚類的文本的數(shù)量。對(duì)每個(gè)文本的預(yù)處理文本進(jìn)行分詞,如果預(yù)處理文本中僅包括標(biāo)點(diǎn)符號(hào)和第一標(biāo)識(shí),或僅包括有邊界語(yǔ)言,例如英文,則根據(jù)空格對(duì)文本進(jìn)行分詞即可,如果文本中包括無(wú)邊界語(yǔ)言,則分詞還需根據(jù)詞庫(kù)中已有詞、以