本發(fā)明涉及專利主題聚類分析,具體涉及一種基于強(qiáng)化學(xué)習(xí)微調(diào)語義向量模型的專利主題聚類方法。
背景技術(shù):
1、近年來,在巨大的發(fā)明專利數(shù)量增長下,企業(yè)亟需對相關(guān)領(lǐng)域內(nèi)大體量的專利進(jìn)行主題分類、價(jià)值評(píng)估等,實(shí)現(xiàn)高價(jià)值專利挖掘,并進(jìn)一步引導(dǎo)企業(yè)進(jìn)行科技創(chuàng)新領(lǐng)域布局,貢獻(xiàn)更強(qiáng)大的科技驅(qū)動(dòng)力。
2、高價(jià)值專利挖掘的第一步就在于如何科學(xué)地從領(lǐng)域內(nèi)巨大體量的專利中進(jìn)行主題識(shí)別和分類。目前,一方面以人工經(jīng)驗(yàn)為主,形成以專家經(jīng)驗(yàn)為基礎(chǔ)的技術(shù)譜系或主題類目。另一方面以智能技術(shù)為主,通過文本主題識(shí)別和聚類算法,形成以專利數(shù)據(jù)為基礎(chǔ)的主題分類挖掘結(jié)果。對于人工經(jīng)驗(yàn)的方法,分類結(jié)果較為穩(wěn)定,各主題之間往往具有較強(qiáng)的邏輯關(guān)系,但無法全面覆蓋所有的專利內(nèi)容。而對于智能技術(shù)的方法,分類結(jié)果能夠全面覆蓋歷史海量專利數(shù)據(jù),但基于不同的智能技術(shù)方案,分類結(jié)果的質(zhì)量也有較大差異。傳統(tǒng)的文本主題識(shí)別模型主要是lda(latent?dirichlet?allocation)模型,通過對文檔集進(jìn)行詞匯頻率的統(tǒng)計(jì)分析獲得特征詞權(quán)重向量,從而實(shí)現(xiàn)文本的主題分類,例如申請?zhí)枮?02210205214.7的中國專利公開了一種基于主題集成聚類的產(chǎn)品典型性特質(zhì)挖掘方法及系統(tǒng),主要通過改進(jìn)lda模型對特定領(lǐng)域內(nèi)噪聲較大的非結(jié)構(gòu)化文本進(jìn)行向量化處理,但該方法需要借助分詞軟件工具對非英文語言文本進(jìn)行詞性還原和詞干提取,分詞結(jié)果影響文本向量化質(zhì)量。此外,常見的聚類算法主要是k-means算法,其核心思想是通過將數(shù)據(jù)點(diǎn)劃分為 k個(gè)不同的簇,并將每個(gè)數(shù)據(jù)點(diǎn)分配到最近的簇中,實(shí)現(xiàn)聚類的目的,但該算法中聚類數(shù) k是一個(gè)超參數(shù),依賴領(lǐng)域經(jīng)驗(yàn),該參數(shù)的設(shè)定會(huì)影響聚類結(jié)果的質(zhì)量。
技術(shù)實(shí)現(xiàn)思路
1、發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對現(xiàn)有技術(shù)的不足,提供一種基于強(qiáng)化學(xué)習(xí)微調(diào)語義向量模型的專利主題聚類方法。
2、為了解決上述技術(shù)問題,本發(fā)明公開了一種基于強(qiáng)化學(xué)習(xí)微調(diào)語義向量模型的專利主題聚類方法,該方法具體包括以下步驟:
3、步驟1、獲取相關(guān)領(lǐng)域內(nèi)專利文本集,提取結(jié)構(gòu)化文本信息和非結(jié)構(gòu)化文本信息;
4、步驟2、初始化關(guān)鍵參數(shù);
5、步驟3、對結(jié)構(gòu)化文本信息進(jìn)行向量化處理;
6、步驟4、基于bge語義向量模型對非結(jié)構(gòu)化專利文本信息進(jìn)行向量化處理;
7、步驟5、特征融合并計(jì)算整體專利文本集的特征均值向量;
8、步驟6、基于k-means聚類算法對專利文本集進(jìn)行專利主題聚類;
9、步驟7、計(jì)算聚類結(jié)果的評(píng)價(jià)指標(biāo);
10、步驟8、基于強(qiáng)化學(xué)習(xí)中的pg定理計(jì)算關(guān)鍵參數(shù)導(dǎo)數(shù),并更新關(guān)鍵參數(shù),判斷循環(huán)跳出條件,若不滿足,則返回步驟3,否則跳出循環(huán);
11、步驟9、基于最新關(guān)鍵參數(shù),計(jì)算并輸出聚類結(jié)果。
12、在步驟1中,所述相關(guān)領(lǐng)域內(nèi)專利文本集是已經(jīng)通過篩選后的某相關(guān)領(lǐng)域內(nèi)待需主題分類的所有專利文本集合,假設(shè)該集合中專利文本總數(shù)為 n;在步驟1中,所述結(jié)構(gòu)化文本信息包括專利文本中的申請人信息和發(fā)明人信息;在步驟1中所述非結(jié)構(gòu)化文本信息包括專利文本中的摘要內(nèi)容。
13、在步驟2中,所述關(guān)鍵參數(shù)包括嵌入矩陣(和)、bge語義向量模型中的神經(jīng)網(wǎng)絡(luò)權(quán)重參數(shù)向量()、k-means聚類算法中產(chǎn)生參數(shù)的策略神經(jīng)網(wǎng)絡(luò)的權(quán)重參數(shù)向量(和),其中,、、和是通過隨機(jī)設(shè)置獲得,是使用已經(jīng)開源的預(yù)訓(xùn)練通用參數(shù)。
14、在步驟3中,所述對結(jié)構(gòu)化文本信息進(jìn)行向量化處理的具體步驟如下:
15、步驟3-1、將專利文本集合中所有的申請人和發(fā)明人各整合成一個(gè)匯總表,統(tǒng)計(jì)出申請人總數(shù)為和發(fā)明人總數(shù)為;
16、步驟3-2、為專利文本集合中的每一篇專利進(jìn)行申請人向量編碼和發(fā)明人向量編碼,假設(shè)第篇專利編碼后的申請人向量為,發(fā)明人向量為,,編碼方式如下:
17、
18、
19、其中,任意元素和取值均為0或1,表示申請人匯總表中第個(gè)申請人是第篇專利的申請人,否則并不是該專利的申請人,表示發(fā)明人匯總表中第個(gè)發(fā)明人是第篇專利的發(fā)明人,否則并不是該專利的發(fā)明人;j表示索引。
20、步驟3-3、為專利文本集合中的每一篇專利計(jì)算申請人嵌入向量和發(fā)明人嵌入向量,假設(shè)第篇專利的申請人嵌入向量為,發(fā)明人嵌入向量為,計(jì)算方式如下:
21、
22、
23、其中,為行列的嵌入矩陣,為行列的嵌入矩陣,和兩個(gè)矩陣中的參數(shù)會(huì)在迭代計(jì)算中不斷更新變化,初始化時(shí)通過隨機(jī)設(shè)置獲得,參數(shù)為人工預(yù)設(shè)。
24、對于上述步驟3,專利文本中申請人和發(fā)明人等結(jié)構(gòu)化信息包含了能夠提高專利主題聚類質(zhì)量的重要信息,如特定申請人會(huì)集中攻關(guān)特定主題的技術(shù)方向,同理,發(fā)明人也有各自主要研究的技術(shù)領(lǐng)域,故通過將專利文本中的申請人和發(fā)明人信息進(jìn)行向量化處理,并作為后續(xù)特征向量的組成部分,有助于學(xué)習(xí)其中規(guī)律,提高聚類質(zhì)量。
25、在步驟4中,所述基于bge語義向量模型對非結(jié)構(gòu)化專利文本信息進(jìn)行向量化處理的具體方式如下:假設(shè)專利文本集合中第篇專利的非結(jié)構(gòu)化信息(摘要內(nèi)容)記作,將輸入至bge語義向量模型,獲得非結(jié)構(gòu)化信息特征向量,計(jì)算過程表示如下:
26、
27、其中,是一個(gè)關(guān)于權(quán)重參數(shù)向量的神經(jīng)網(wǎng)絡(luò)模型,通過輸入專利文本的摘要內(nèi)容能夠?qū)崿F(xiàn)輸出特征向量,初始化時(shí)使用已經(jīng)開源的預(yù)訓(xùn)練參數(shù),該開源的參數(shù)值是基于通用文本數(shù)據(jù)訓(xùn)練而獲得的,基于該開源的權(quán)重參數(shù)而獲得的文本向量化結(jié)果可能在具體的某專業(yè)領(lǐng)域中表現(xiàn)欠佳,因此該神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)向量會(huì)在迭代計(jì)算中不斷更新變化。
28、對于上述步驟4,傳統(tǒng)的基于lda模型將非英文文本進(jìn)行向量化時(shí),需要依賴分詞軟件,如jieba分詞工具等,并且分詞結(jié)果直接影響語義向量化結(jié)果,而利用bge語義向量模型時(shí),可實(shí)現(xiàn)非英文文本語義直接向量化,且該結(jié)果在同等基于神經(jīng)網(wǎng)絡(luò)的語義向量化模型中表現(xiàn)最佳,進(jìn)一步,本發(fā)明通過融入強(qiáng)化學(xué)習(xí)的算法框架,學(xué)習(xí)特定領(lǐng)域的專利樣本,對bge語義向量模型中通用神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整,實(shí)現(xiàn)更加專業(yè)和準(zhǔn)確的語義向量轉(zhuǎn)化,這是本技術(shù)領(lǐng)域內(nèi)的一個(gè)重要?jiǎng)?chuàng)新點(diǎn)。
29、在步驟5中,所述特征融合并計(jì)算整體專利文本集的特征均值向量具體步驟如下:
30、步驟5-1、將專利文本集合中每一篇專利的結(jié)構(gòu)化和非結(jié)構(gòu)化本文信息向量化后的結(jié)果進(jìn)行向量拼接,假設(shè)專利文本集合中第篇專利拼接后的向量為,拼接方式如下:
31、
32、步驟5-2、以為均值向量,為協(xié)方差(為預(yù)設(shè)參數(shù)),構(gòu)造正態(tài)分布,并進(jìn)行采樣得到特征向量,同時(shí)計(jì)算得到采樣該的概率密度;
33、步驟5-3、計(jì)算整體專利文本集的特征均值向量,具體方式如下:假設(shè)是行的列向量,第行的元素記作,那么,整體專利文本集的特征均值向量記作,也是行的列向量,第行的元素記作,任意一行元素的計(jì)算方式如下:
34、
35、其中,是專利文本集中專利文本的總數(shù)。
36、對于上述步驟5,將結(jié)構(gòu)化和非結(jié)構(gòu)化文本向量化后的結(jié)果進(jìn)行拼接融合能夠使得特征信息更加豐富,有利于提高聚類質(zhì)量,此外,根據(jù)強(qiáng)化學(xué)習(xí)中pg定理,特征向量及其概率密度需要通過構(gòu)造正態(tài)分布函數(shù)和概率采樣的方式獲得,以此滿足參數(shù)可導(dǎo)及求導(dǎo)的要求,促使參數(shù)正確反饋,實(shí)現(xiàn)算法有效收斂。
37、在步驟6中,所述基于k-means聚類算法對專利文本集進(jìn)行專利主題聚類的具體步驟如下:
38、步驟6-1、根據(jù)策略設(shè)置k-means聚類算法中的參數(shù),該策略表示如下:
39、
40、其中,是一個(gè)關(guān)于權(quán)重參數(shù)向量和的策略神經(jīng)網(wǎng)絡(luò)模型,通過輸入所有專利融合后的特征均值向量能夠?qū)崿F(xiàn)輸出一個(gè)離散概率分布,再根據(jù)該離散概率分布得到參數(shù)及其對應(yīng)的離散概率,該神經(jīng)網(wǎng)絡(luò)模型中的參數(shù)向量和會(huì)在迭代計(jì)算中不斷更新變化,初始化時(shí)通過隨機(jī)設(shè)置獲得;
41、步驟6-2、隨機(jī)設(shè)置個(gè)中心點(diǎn),其中,任意中心點(diǎn)都是行的列向量,將第行的元素記作;
42、步驟6-3、計(jì)算每個(gè)專利的特征向量到每個(gè)中心點(diǎn)的歐式距離,計(jì)算方法如下:
43、
44、步驟6-4、將每個(gè)專利分配到對應(yīng)的類簇中,具體分配方式如下:對任意一個(gè)專利的特征向量,根據(jù)計(jì)算得到的歐式距離,找到它到個(gè)中心點(diǎn)中最近的一個(gè),即,則將專利文本集合中第篇專利劃歸至第類簇中,直至所有專利都分類完成;
45、步驟6-5、重新計(jì)算個(gè)中心點(diǎn),對任意一個(gè)中心點(diǎn)中任意一行的元素計(jì)算方法如下:
46、
47、其中,表示當(dāng)前最新循環(huán)計(jì)算中分類到第類簇的專利文本序號(hào)集合,表示中的專利文本總數(shù);
48、步驟6-6、重復(fù)步驟6-3至步驟6-5,直到預(yù)設(shè)的最大迭代次數(shù)為止。
49、對于上述步驟6,通過設(shè)計(jì)關(guān)于權(quán)重參數(shù)向量和的策略神經(jīng)網(wǎng)絡(luò)模型,并結(jié)合強(qiáng)化學(xué)習(xí)算法框架,實(shí)現(xiàn)對參數(shù)的無監(jiān)督自適應(yīng)學(xué)習(xí),有利于增強(qiáng)聚類結(jié)果的客觀性。
50、進(jìn)一步地,步驟s7中所述聚類結(jié)果的評(píng)價(jià)指標(biāo)采用鄧恩指標(biāo),的值越大表明聚類效果越好,計(jì)算方式如下:
51、
52、其中,表示任意兩類簇和的遠(yuǎn)離程度,計(jì)算方式為分別在兩個(gè)類簇和中各取一個(gè)樣本點(diǎn)和,計(jì)算歐式距離,取最小的歐式距離作為這兩個(gè)類簇之間的遠(yuǎn)離程度;表示任意一個(gè)類簇的覆蓋直徑,計(jì)算方式為取類簇內(nèi)任意兩個(gè)樣本點(diǎn)和,計(jì)算歐式距離,取最大的歐式距離作為這個(gè)類簇的覆蓋直徑。
53、對于上述步驟7,采用鄧恩指標(biāo)能較為綜合的評(píng)價(jià)聚類結(jié)果的質(zhì)量,該指標(biāo)在整個(gè)算法中起到了指引聚類優(yōu)化的方向,也是判斷算法循環(huán)結(jié)束的重要標(biāo)志。
54、在步驟8中,所述基于強(qiáng)化學(xué)習(xí)中的pg定理計(jì)算關(guān)鍵參數(shù)導(dǎo)數(shù)的方式如下:
55、
56、其中,可以為關(guān)鍵參數(shù)、、、和中的任意一個(gè),表示求關(guān)于關(guān)鍵參數(shù)的導(dǎo)數(shù),表示對中括號(hào)中的內(nèi)容求期望值,對,是步驟5-2中采樣的概率密度,是步驟6-1中獲得參數(shù)時(shí)的離散概率。
57、在步驟8中,所述更新關(guān)鍵參數(shù)具體方式如下:
58、
59、其中,表示更新后的關(guān)鍵參數(shù)值,表示更新前的關(guān)鍵參數(shù)值,可以為關(guān)鍵參數(shù)、、、和中的任意一個(gè),為學(xué)習(xí)率,在循環(huán)迭代計(jì)算中以固定模式遞減。
60、在步驟8中,所述循環(huán)跳出條件為,其中,表示最新一輪迭代計(jì)算得到的鄧恩指標(biāo)值,表示前一輪迭代計(jì)算得到的鄧恩指標(biāo)值,為預(yù)設(shè)的閾值。
61、對于上述步驟8,設(shè)置合理的學(xué)習(xí)率能夠平衡強(qiáng)化學(xué)習(xí)算法的收斂速度和學(xué)習(xí)質(zhì)量,特別是以固定模式遞減的方法設(shè)置參數(shù),使得算法在迭代前期加快收斂而在迭代后期精細(xì)學(xué)習(xí)規(guī)律,達(dá)到收斂速度和學(xué)習(xí)質(zhì)量之間保持良性平衡的目的。
62、有益效果:本發(fā)明采用bge語義向量模型實(shí)現(xiàn)將非英文文本的專利內(nèi)容直接向量轉(zhuǎn)換,同時(shí)在使用bge語義向量模型時(shí),考慮到相關(guān)領(lǐng)域內(nèi)文本內(nèi)容的專業(yè)性,利用強(qiáng)化學(xué)習(xí)方法對bge語義向量模型中的關(guān)鍵參數(shù)進(jìn)行微調(diào),提高專利文本信息向量化的準(zhǔn)確性和專利主題聚類結(jié)果的準(zhǔn)確性。此外,進(jìn)一步利用強(qiáng)化學(xué)習(xí)對傳統(tǒng)k-means聚類算法中參數(shù)進(jìn)行迭代調(diào)整,解決了依賴人工經(jīng)驗(yàn)設(shè)置參數(shù)的問題,增強(qiáng)了專利主題聚類結(jié)果的客觀性。解決了現(xiàn)有技術(shù)無法客觀對主題數(shù)目確認(rèn)和難以直接對非英文語言文本處理的技術(shù)問題。