本發(fā)明涉及語言處理,尤其涉及一種領(lǐng)域詞典構(gòu)建方法及裝置。
背景技術(shù):
1、詞是語言系統(tǒng)中重要的語言單元,詞語是開展文本處理的基礎(chǔ),在語義表示上具有比字符更豐富的表達能力。詞語具有領(lǐng)域特性,不同的領(lǐng)域具有不同的詞匯體系,例如,軍事領(lǐng)域、醫(yī)療領(lǐng)域、公共治安領(lǐng)域、金融領(lǐng)域之間存在著很大的差異性。這種領(lǐng)域性的特性,一方面可用于領(lǐng)域分類、領(lǐng)域標(biāo)簽化、領(lǐng)域區(qū)分、關(guān)鍵詞提取以及特征詞提取,也可支持知識圖譜知識體系如本體與實例體系的搭建。另一方面,也提出了領(lǐng)域詞的抽取,領(lǐng)域詞之間語義關(guān)聯(lián)的抽取、領(lǐng)域詞的擴展、領(lǐng)域詞知識庫的構(gòu)建等多項任務(wù)。
2、不同的領(lǐng)域詞典或領(lǐng)域詞庫能夠支持不同的應(yīng)用,例如,領(lǐng)域詞典可以細分為領(lǐng)域特征詞典、領(lǐng)域停用詞典、領(lǐng)域情感詞典、領(lǐng)域抽象詞典、領(lǐng)域語義詞典、領(lǐng)域事件詞庫等6種詞典。目前常用的一種構(gòu)建領(lǐng)域詞典的方法為基于統(tǒng)計的領(lǐng)域詞典構(gòu)建方法,例如,如圖1所示,第一步,先通過積累的領(lǐng)域詞對領(lǐng)域文本進行標(biāo)注;第二步,采用實體識別任務(wù)去訓(xùn)練lstm、bert等模型;第三步,利用訓(xùn)練得到的模型識別待識別數(shù)據(jù)中的領(lǐng)域詞;第四步,對第三步識別得到的領(lǐng)域詞進行過濾,通過置信度、詞頻等方式進行篩選;第五步,將篩選后的領(lǐng)域詞加入到領(lǐng)域詞典中。由此可知,上述基于統(tǒng)計的領(lǐng)域詞典構(gòu)建方法不僅需要一定的領(lǐng)域詞積累,需要人工標(biāo)注,還對模型的識別準(zhǔn)確率要求較高。也就是說,現(xiàn)有的領(lǐng)域詞典構(gòu)建方法不僅效率較低,還存在使用條件限制。
技術(shù)實現(xiàn)思路
1、本發(fā)明實施例提供一種領(lǐng)域詞典構(gòu)建方法及裝置,以解決現(xiàn)有技術(shù)中構(gòu)建領(lǐng)域詞典的效率較低且存在使用條件限制的問題。
2、為了解決上述技術(shù)問題,本發(fā)明是這樣實現(xiàn)的:
3、第一方面,本發(fā)明實施例提供了一種領(lǐng)域詞典構(gòu)建方法。該方法包括:
4、對至少一條領(lǐng)域語料進行切分,得到第一字符片段集合,所述第一字符片段集合包括至少一個第一字符片段;
5、計算所述第一字符片段的字符間的關(guān)聯(lián)性指標(biāo)值;
6、根據(jù)所述關(guān)聯(lián)性指標(biāo)值確定第二字符片段集合,所述第二字符片段集合包括所述關(guān)聯(lián)性指標(biāo)值大于或等于預(yù)設(shè)閾值的第一字符片段;
7、根據(jù)所述第二字符片段集合確定第三字符片段集合,所述第三字符片段集合包括所述第二字符片段集合和所述至少一個領(lǐng)域語料的第二字符片段,所述第二字符片段為所述至少一個領(lǐng)域語料內(nèi)與由所述第二字符片段集合的至少兩個字符片段組合得到的字符片段相同的字符片段;
8、根據(jù)所述第三字符片段集合構(gòu)建領(lǐng)域詞典。
9、第二方面,本發(fā)明實施例還提供一種領(lǐng)域詞典構(gòu)建裝置。該領(lǐng)域詞典構(gòu)建裝置包括:
10、切分模塊,用于對至少一條領(lǐng)域語料進行切分,得到第一字符片段集合,所述第一字符片段集合包括至少一個第一字符片段;
11、第一計算模塊,用于計算所述第一字符片段的字符間的關(guān)聯(lián)性指標(biāo)值;
12、第一確定模塊,用于根據(jù)所述關(guān)聯(lián)性指標(biāo)值確定第二字符片段集合,所述第二字符片段集合包括所述關(guān)聯(lián)性指標(biāo)值大于或等于預(yù)設(shè)閾值的第一字符片段;
13、第二確定模塊,用于根據(jù)所述第二字符片段集合確定第三字符片段集合,所述第三字符片段集合包括所述第二字符片段集合和所述至少一個領(lǐng)域語料的第二字符片段,所述第二字符片段為所述至少一個領(lǐng)域語料內(nèi)與由所述第二字符片段集合的至少兩個字符片段組合得到的字符片段相同的字符片段;
14、構(gòu)建模塊,用于根據(jù)所述第三字符片段集合構(gòu)建領(lǐng)域詞典。
15、第三方面,本發(fā)明實施例還提供一種領(lǐng)域詞典構(gòu)建裝置,包括處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)上述的領(lǐng)域詞典構(gòu)建方法的步驟。
16、第四方面,本發(fā)明實施例還提供一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)上述的領(lǐng)域詞典構(gòu)建方法的步驟。
17、本發(fā)明實施例中,對至少一條領(lǐng)域語料進行切分,得到第一字符片段集合,所述第一字符片段集合包括至少一個第一字符片段;計算所述第一字符片段的字符間的關(guān)聯(lián)性指標(biāo)值;根據(jù)所述關(guān)聯(lián)性指標(biāo)值確定第二字符片段集合,所述第二字符片段集合包括所述關(guān)聯(lián)性指標(biāo)值大于或等于預(yù)設(shè)閾值的第一字符片段;根據(jù)所述第二字符片段集合確定第三字符片段集合,所述第三字符片段集合包括所述第二字符片段集合和所述至少一個領(lǐng)域語料的第二字符片段,所述第二字符片段為所述至少一個領(lǐng)域語料內(nèi)與由所述第二字符片段集合的至少兩個字符片段組合得到的字符片段相同的字符片段;根據(jù)所述第三字符片段集合構(gòu)建領(lǐng)域詞典,由上可知,本申請實施例可以在沒有領(lǐng)域詞積累以及對領(lǐng)域詞的人工標(biāo)注的情況下即可實現(xiàn)領(lǐng)域詞典的挖掘與構(gòu)建,不僅實現(xiàn)較為簡單,還可以提高構(gòu)建領(lǐng)域詞典的效率;此外,通過對各個第一字符片段進行字符間的關(guān)聯(lián)性指標(biāo)值計算、與預(yù)設(shè)閾值比較等篩選過程,這樣可以保證挖掘到的領(lǐng)域詞的準(zhǔn)確性,且通過將至少一個領(lǐng)域語料內(nèi)與由所述第二字符片段集合的至少兩個字符片段組合得到的字符片段相同的字符片段也作為挖掘的領(lǐng)域詞,這樣可以擴充從上述至少一個領(lǐng)域語料所挖掘到的領(lǐng)域詞,減少至少一個領(lǐng)域語料內(nèi)的領(lǐng)域詞的遺漏。
1.一種領(lǐng)域詞典構(gòu)建方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算所述第一字符片段的字符間的關(guān)聯(lián)性指標(biāo)值,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計算所述第一字符片段的每種子片段組合的子關(guān)聯(lián)性指標(biāo)值,包括:
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述根據(jù)所述子關(guān)聯(lián)性指標(biāo)值計算所述第一字符片段的字符間的關(guān)聯(lián)性指標(biāo)值,包括:
5.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述對至少一條領(lǐng)域語料進行切分,得到第一字符片段集合,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述第一字符片段對應(yīng)的預(yù)設(shè)閾值與所述第一字符片段的長度正相關(guān)。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,對所述領(lǐng)域語料的最大切分長度為l,l為正整數(shù);所述根據(jù)所述第三字符片段集合構(gòu)建領(lǐng)域詞典,包括:
8.一種領(lǐng)域詞典構(gòu)建裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括處理器、存儲器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述計算機程序被所述處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的領(lǐng)域詞典構(gòu)建方法的步驟。
10.一種計算機可讀存儲介質(zhì),其特征在于,所述計算機可讀存儲介質(zhì)上存儲有計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至7中任一項所述的領(lǐng)域詞典構(gòu)建方法的步驟。