本發(fā)明涉及自動(dòng)問答技術(shù)領(lǐng)域,尤其涉及一種領(lǐng)域新詞發(fā)現(xiàn)的方法及裝置。
背景技術(shù):
新詞抽取主要是基于統(tǒng)計(jì)和規(guī)則的方法。基于規(guī)則的方法通常是新詞的內(nèi)部構(gòu)成語法規(guī)則或者新詞的前后綴規(guī)則,以此為準(zhǔn)則發(fā)現(xiàn)新詞?;诮y(tǒng)計(jì)方法一般是尋找描述新詞特征的統(tǒng)計(jì)量抽取候選詞串,計(jì)算其內(nèi)部聚合度和自由度,在此基礎(chǔ)上確定閾值,尋找聚合度和自由度最大的字符串組合。但閾值的確定是個(gè)難題,必然存在抽取的新詞并非新詞的問題,因此,新詞候選詞中包含垃圾詞串、通用詞、通用新詞和領(lǐng)域新詞,其中通用新詞屬于通用詞的一部分。之后,需要大量人工參與新詞過濾。而領(lǐng)域新詞發(fā)現(xiàn)通常是在通用新詞發(fā)現(xiàn)的基礎(chǔ)上,經(jīng)過人工過濾并分類實(shí)現(xiàn)的,工作量大且人工成本非常高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是,提供一種領(lǐng)域新詞發(fā)現(xiàn)的方法及裝置,能夠從領(lǐng)域新詞候選詞中自動(dòng)過濾掉部分垃圾詞串和通用詞,有效地獲得更加準(zhǔn)確的領(lǐng)域新詞候選詞。
本發(fā)明采用的技術(shù)方案是,所述領(lǐng)域新詞發(fā)現(xiàn)的方法,包括:
獲取通用新詞候選詞串;
根據(jù)預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的領(lǐng)域語料,采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串;
當(dāng)所述新詞候選詞串為領(lǐng)域新詞候選詞串時(shí),通過相似度計(jì)算判斷所述領(lǐng)域新詞候選詞串是否為領(lǐng)域新詞。
進(jìn)一步的,所述獲取通用新詞候選詞串采用以下一種或多種方法的結(jié)合:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計(jì)方法。
進(jìn)一步的,采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串包括:
采用包括所述通用新詞候選詞串的詞典對(duì)每個(gè)所述領(lǐng)域語料進(jìn)行分詞處理,得到各領(lǐng)域的詞語集;
計(jì)算所述通用新詞候選詞串在每個(gè)領(lǐng)域的詞語集中出現(xiàn)概率,并將最大的所述出現(xiàn)概率對(duì)應(yīng)的領(lǐng)域類別作為目標(biāo)領(lǐng)域類別;
計(jì)算所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵,當(dāng)所述信息熵小于或等于信息熵閾值時(shí),所述通用新詞候選詞串為所述目標(biāo)領(lǐng)域類別的領(lǐng)域新詞候選詞串。
進(jìn)一步的,所述信息熵閾值的取值范圍為:1.5~2.5。
進(jìn)一步的,設(shè)a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預(yù)先設(shè)定的領(lǐng)域類別的個(gè)數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個(gè)所述領(lǐng)域語料的出現(xiàn)概率。
進(jìn)一步的,所述方法還包括:在采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串之前,對(duì)所述預(yù)先設(shè)定的領(lǐng)域類別的領(lǐng)域語料進(jìn)行如下預(yù)處理:
將所述預(yù)先設(shè)定的領(lǐng)域類別的領(lǐng)域語料的格式統(tǒng)一為文本格式;
去除含有敏感詞的領(lǐng)域語料,根據(jù)剩余的領(lǐng)域語料中所含有的斷句標(biāo)點(diǎn)將所述剩余的領(lǐng)域語料分割成句。
進(jìn)一步的,所述通過相似度計(jì)算判斷所述領(lǐng)域新詞候選詞串是否為領(lǐng)域新詞包括:
從所述領(lǐng)域新詞候選詞串對(duì)應(yīng)的領(lǐng)域語料中選擇全部或部分的其他詞串作為種子詞串;
計(jì)算所述領(lǐng)域新詞候選詞串與每個(gè)所述種子詞串的相似度;
當(dāng)最大所述相似度大于相似度閾值時(shí),所述領(lǐng)域新詞候選詞串為領(lǐng)域新詞。
進(jìn)一步的,所述相似度閾值的取值范圍為0.6-0.8。
進(jìn)一步的,判定為領(lǐng)域新詞的領(lǐng)域新詞候選詞串也作為相應(yīng)領(lǐng)域的種子詞串。
進(jìn)一步的,所述方法還包括:
在得到多個(gè)所述領(lǐng)域新詞后,進(jìn)行人工審核,得到領(lǐng)域新詞的發(fā)現(xiàn)準(zhǔn)確率;
當(dāng)所述發(fā)現(xiàn)準(zhǔn)確率小于或等于準(zhǔn)確率閾值時(shí),調(diào)整所述信息熵閾值和/或所述相似度閾值,直至根據(jù)調(diào)整后的所述信息熵閾值和/或所述相似度閾值得到的發(fā)現(xiàn)準(zhǔn)確率大于準(zhǔn)確率閾值為止。
本發(fā)明還提供一種領(lǐng)域新詞發(fā)現(xiàn)的裝置,包括:
獲取模塊,用于獲取通用新詞候選詞串;
存儲(chǔ)模塊,用于存儲(chǔ)預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的領(lǐng)域語料;
統(tǒng)計(jì)模塊,用于根據(jù)預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的領(lǐng)域語料,采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串;
相似度計(jì)算模塊,用于當(dāng)所述新詞候選詞串為領(lǐng)域新詞候選詞串時(shí),通過相似度計(jì)算判斷所述領(lǐng)域新詞候選詞串是否為領(lǐng)域新詞。
進(jìn)一步的,所述獲取模塊,用于采用以下一種或多種方法的結(jié)合獲取通用新詞候選詞串:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計(jì)方法。
進(jìn)一步的,所述統(tǒng)計(jì)模塊,包括:
分詞單元,用于采用包括所述通用新詞候選詞串的詞典對(duì)每個(gè)所述領(lǐng)域語料進(jìn)行分詞處理,得到各領(lǐng)域的詞語集;
概率計(jì)算單元,用于計(jì)算所述通用新詞候選詞串在每個(gè)領(lǐng)域的詞語集中出現(xiàn)概率;
目標(biāo)領(lǐng)域確定單元,用于將最大的所述出現(xiàn)概率對(duì)應(yīng)的領(lǐng)域類別作為目標(biāo)領(lǐng)域類別;
信息熵計(jì)算單元,用于計(jì)算所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵;
新詞確認(rèn)單元,用于當(dāng)所述信息熵小于或等于信息熵閾值時(shí),確認(rèn)所述通用新詞候選詞串為所述目標(biāo)領(lǐng)域類別的領(lǐng)域新詞候選詞串。
進(jìn)一步的,所述統(tǒng)計(jì)模塊,還包括:
預(yù)處理單元,用于在采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串之前,將所述預(yù)先設(shè)定的領(lǐng)域類別的領(lǐng)域語料的格式統(tǒng)一為文本格式;去除含有敏感詞的領(lǐng)域語料,根據(jù)剩余的領(lǐng)域語料中所含有的斷句標(biāo)點(diǎn)將所述剩余的領(lǐng)域語料分割成句。
進(jìn)一步的,所述信息熵閾值的取值范圍為:1.5~2.5。
進(jìn)一步的,所述信息熵計(jì)算單元采用以下公式進(jìn)行計(jì)算:設(shè)a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預(yù)先設(shè)定的領(lǐng)域類別的個(gè)數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個(gè)所述領(lǐng)域語料的出現(xiàn)概率。
進(jìn)一步的,所述相似度計(jì)算模塊,包括:
種子詞串選擇單元,用于從所述領(lǐng)域新詞候選詞串對(duì)應(yīng)的領(lǐng)域語料中選擇全部或部分的其他詞串作為種子詞串;
相似運(yùn)算單元,用于計(jì)算所述領(lǐng)域新詞候選詞串與每個(gè)所述種子詞串的相似度;
判定單元,用于當(dāng)最大所述相似度大于相似度閾值時(shí),所述領(lǐng)域新詞候選詞串為領(lǐng)域新詞。
進(jìn)一步的,所述相似度閾值的取值范圍為0.6-0.8。
進(jìn)一步的,所述相似度計(jì)算模塊,還包括:
種子詞串更新單元,用于將判定為領(lǐng)域新詞的領(lǐng)域新詞候選詞串也作為相應(yīng)領(lǐng)域的種子詞串。
進(jìn)一步的,所述裝置還包括:
準(zhǔn)確率確定模塊,用于在得到多個(gè)所述領(lǐng)域新詞后,進(jìn)行人工審核,得到領(lǐng)域新詞的發(fā)現(xiàn)準(zhǔn)確率;
校正模塊,用于當(dāng)所述發(fā)現(xiàn)準(zhǔn)確率小于或等于準(zhǔn)確率閾值時(shí),調(diào)整所述信息熵閾值和/或所述相似度閾值,直至根據(jù)調(diào)整后的所述信息熵閾值和/或所述相似度閾值得到的發(fā)現(xiàn)準(zhǔn)確率大于準(zhǔn)確率閾值為止。
采用上述技術(shù)方案,本發(fā)明至少具有下列優(yōu)點(diǎn):
作為自動(dòng)問答領(lǐng)域的基礎(chǔ)技術(shù)和重要的步驟,本發(fā)明所述領(lǐng)域新詞發(fā)現(xiàn)的方法及裝置為領(lǐng)域新詞候選詞的過濾提供了新的思路,本發(fā)明能夠簡便且有效地過濾掉部分垃圾詞串和通用詞,篩選出領(lǐng)域新詞從而減少了工作量,降低了人工成本。以爬取的百度知道語料為例,領(lǐng)域新詞的準(zhǔn)確率為91.5%左右。
附圖說明
圖1為本發(fā)明第一實(shí)施例的領(lǐng)域新詞發(fā)現(xiàn)的方法流程圖;
圖2為本發(fā)明第二實(shí)施例的領(lǐng)域新詞發(fā)現(xiàn)的方法流程圖;
圖3為本發(fā)明第三實(shí)施例的領(lǐng)域新詞發(fā)現(xiàn)的方法流程圖;
圖4為本發(fā)明第四實(shí)施例的領(lǐng)域新詞發(fā)現(xiàn)的裝置組成結(jié)構(gòu)示意圖;
圖5為本發(fā)明第五實(shí)施例的領(lǐng)域新詞發(fā)現(xiàn)的裝置組成結(jié)構(gòu)示意圖;
圖6為本發(fā)明第六實(shí)施例的領(lǐng)域新詞發(fā)現(xiàn)的裝置組成結(jié)構(gòu)示意圖;
圖7為本發(fā)明第七實(shí)施例的各領(lǐng)域語料的獲取及預(yù)處理流程圖;
圖8為本發(fā)明第七實(shí)施例的領(lǐng)域新詞候選詞串的篩選流程圖;
圖9為本發(fā)明第七實(shí)施例的領(lǐng)域新詞的篩選流程圖。
具體實(shí)施方式
為更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定目的所采取的技術(shù)手段及功效,以下結(jié)合附圖及較佳實(shí)施例,對(duì)本發(fā)明進(jìn)行詳細(xì)說明如后。
本發(fā)明第一實(shí)施例,一種領(lǐng)域新詞發(fā)現(xiàn)的方法,如圖1所示,包括以下具體步驟:
步驟S101,獲取通用新詞候選詞串。
具體的,所述獲取通用新詞候選詞串采用以下一種或多種方法的結(jié)合:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計(jì)方法。
步驟S102,根據(jù)預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的領(lǐng)域語料,采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串。
具體的,預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的領(lǐng)域語料可以基于網(wǎng)絡(luò)爬蟲獲得的新語料設(shè)定,通常語料的領(lǐng)域有14個(gè)大的領(lǐng)域。
需要說明的是,本發(fā)明不限定領(lǐng)域類別及每個(gè)領(lǐng)域類別對(duì)應(yīng)的領(lǐng)域語料。
在步驟S102中,采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串包括:
采用包括所述通用新詞候選詞串的詞典對(duì)每個(gè)所述領(lǐng)域語料進(jìn)行分詞處理,得到各領(lǐng)域的詞語集;
計(jì)算所述通用新詞候選詞串在每個(gè)領(lǐng)域的詞語集中出現(xiàn)概率,并將最大的所述出現(xiàn)概率對(duì)應(yīng)的領(lǐng)域類別作為目標(biāo)領(lǐng)域類別;
計(jì)算所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵,當(dāng)所述信息熵小于或等于信息熵閾值時(shí),所述通用新詞候選詞串為所述目標(biāo)領(lǐng)域類別的領(lǐng)域新詞候選詞串。
其中,所述信息熵閾值的取值范圍可以為:1.5~2.5,如:1.5、2.0或2.5等。
進(jìn)一步的,設(shè)a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預(yù)先設(shè)定的領(lǐng)域類別的個(gè)數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個(gè)所述領(lǐng)域語料的出現(xiàn)概率。由于新詞候選詞中的垃圾詞串、通用詞通常出現(xiàn)概率較高,并且垃圾詞串和通用詞均在各個(gè)領(lǐng)域出現(xiàn)頻率相近,而領(lǐng)域新詞出現(xiàn)的概率較小,并且領(lǐng)域新詞會(huì)在不同的領(lǐng)域有明顯的偏重,甚至只出現(xiàn)在對(duì)應(yīng)領(lǐng)域。本發(fā)明實(shí)施例根據(jù)這一原理,在現(xiàn)有的通用新詞發(fā)現(xiàn)方法發(fā)現(xiàn)的通用新詞候選詞的基礎(chǔ)上,將得到的通用新詞候選詞串進(jìn)一步處理,通過計(jì)算各個(gè)通用新詞候選詞串在所有領(lǐng)域類別中分布上的信息熵,信息熵越大表明該通用新詞候選詞串在各個(gè)領(lǐng)域上的分布越平衡,反之,表明該通用新詞候選詞串的分布偏重某領(lǐng)域。之后,通過確定一個(gè)合適的信息熵閾值h過濾掉部分垃圾詞串和通用詞串,若H(a)>h時(shí),則通用新詞候選詞串a(chǎn)為垃圾詞串或通用詞,反之,則通用新詞候選詞串a(chǎn)為對(duì)應(yīng)出現(xiàn)概率最大的領(lǐng)域的領(lǐng)域新詞候選詞串,從而篩選出領(lǐng)域新詞候選詞串。
步驟S103,當(dāng)所述新詞候選詞串為領(lǐng)域新詞候選詞串時(shí),通過相似度計(jì)算判斷所述領(lǐng)域新詞候選詞串是否為領(lǐng)域新詞。
具體的,在步驟S103中,通過相似度計(jì)算判斷所述領(lǐng)域新詞候選詞串是否為領(lǐng)域新詞,包括:
從所述領(lǐng)域新詞候選詞串對(duì)應(yīng)的領(lǐng)域語料中選擇全部或部分的其他詞串作為種子詞串;
計(jì)算所述領(lǐng)域新詞候選詞串與每個(gè)所述種子詞串的相似度;進(jìn)一步的,可以將領(lǐng)域新詞候選詞輸入到word2vec模型得到領(lǐng)域新詞候選詞串的詞向量,將每個(gè)所述種子詞串輸入到word2vec模型得到相應(yīng)的每個(gè)所述種子詞串的詞向量,再計(jì)算該領(lǐng)域新詞候選詞串的詞向量與每個(gè)所述種子詞串的詞向量的語義相似度。
當(dāng)最大所述相似度大于相似度閾值時(shí),所述領(lǐng)域新詞候選詞串為領(lǐng)域新詞。所述相似度閾值的取值范圍可以為0.6-0.8,如:0.6、0.7或0.8等。優(yōu)選的,判定為領(lǐng)域新詞的領(lǐng)域新詞候選詞串后續(xù)也可以作為相應(yīng)領(lǐng)域的種子詞串,這樣做可以對(duì)每個(gè)領(lǐng)域的語料進(jìn)行及時(shí)的完善。
本發(fā)明實(shí)施例的步驟S102是基于統(tǒng)計(jì)的思想尋找領(lǐng)域新詞候選詞串,而未考慮詞與領(lǐng)域的語義關(guān)系,為了提高確定領(lǐng)域新詞的準(zhǔn)確度,步驟S103是在語義層面進(jìn)一步篩選出領(lǐng)域新詞。即,將利用word2vec模型計(jì)算該領(lǐng)域新詞候選詞串與某一領(lǐng)域語料中的各詞串之間的語義相似度,相似度越大越則越有可能是對(duì)應(yīng)領(lǐng)域的領(lǐng)域新詞。之后,領(lǐng)域新詞逐漸增加,可以逐漸完善領(lǐng)域詞典。
本發(fā)明第二實(shí)施例,一種領(lǐng)域新詞發(fā)現(xiàn)的方法,如圖2所示,包括以下具體步驟:
步驟S201,獲取通用新詞候選詞串。
具體的,所述獲取通用新詞候選詞串采用以下一種或多種方法的結(jié)合:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計(jì)方法。
步驟S202,對(duì)預(yù)先設(shè)定的領(lǐng)域類別的領(lǐng)域語料進(jìn)行預(yù)處理。
具體的,步驟S202包括:
將所述預(yù)先設(shè)定的領(lǐng)域類別的領(lǐng)域語料的格式統(tǒng)一為文本格式;
去除含有敏感詞的領(lǐng)域語料,根據(jù)剩余的領(lǐng)域語料中所含有的斷句標(biāo)點(diǎn)將所述剩余的領(lǐng)域語料分割成句。
需要說明的是,本發(fā)明實(shí)施例與第一實(shí)施例的區(qū)別就在于,本實(shí)施例的所述方法在步驟S203采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串之前,還要通過步驟S202對(duì)所述預(yù)先設(shè)定的領(lǐng)域類別的領(lǐng)域語料進(jìn)行預(yù)處理,由于已對(duì)領(lǐng)域語料統(tǒng)一格式并去除敏感詞和斷句,這樣做便于步驟S203中對(duì)每個(gè)領(lǐng)域的語料進(jìn)行分詞處理,提高分詞處理的效率和準(zhǔn)確率。
步驟S203,根據(jù)預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的經(jīng)過預(yù)處理后的領(lǐng)域語料,采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串。
具體的,在步驟S203中,采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串包括:
采用包括所述通用新詞候選詞串的詞典對(duì)每個(gè)所述領(lǐng)域語料進(jìn)行分詞處理,得到各領(lǐng)域的詞語集;
計(jì)算所述通用新詞候選詞串在每個(gè)領(lǐng)域的詞語集中出現(xiàn)概率,并將最大的所述出現(xiàn)概率對(duì)應(yīng)的領(lǐng)域類別作為目標(biāo)領(lǐng)域類別;
計(jì)算所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵,當(dāng)所述信息熵小于或等于信息熵閾值時(shí),所述通用新詞候選詞串為所述目標(biāo)領(lǐng)域類別的領(lǐng)域新詞候選詞串。所述信息熵閾值的取值范圍為:1.5~2.5。
進(jìn)一步的,設(shè)a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預(yù)先設(shè)定的領(lǐng)域類別的個(gè)數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個(gè)所述領(lǐng)域語料的出現(xiàn)概率。
步驟S204,當(dāng)所述新詞候選詞串為領(lǐng)域新詞候選詞串時(shí),通過相似度計(jì)算判斷所述領(lǐng)域新詞候選詞串是否為領(lǐng)域新詞。
具體的,在步驟S204中,通過相似度計(jì)算判斷所述領(lǐng)域新詞候選詞串是否為領(lǐng)域新詞,包括:
從所述領(lǐng)域新詞候選詞串對(duì)應(yīng)的領(lǐng)域語料中選擇全部或部分的其他詞串作為種子詞串;
計(jì)算所述領(lǐng)域新詞候選詞串與每個(gè)所述種子詞串的相似度;
當(dāng)最大所述相似度大于相似度閾值時(shí),所述領(lǐng)域新詞候選詞串為領(lǐng)域新詞。所述相似度閾值的取值范圍為0.6-0.8。優(yōu)選的,判定為領(lǐng)域新詞的領(lǐng)域新詞候選詞串也作為相應(yīng)領(lǐng)域的種子詞串,這樣做可以對(duì)每個(gè)領(lǐng)域的語料進(jìn)行及時(shí)的完善。
本發(fā)明第三實(shí)施例,一種領(lǐng)域新詞發(fā)現(xiàn)的方法,如圖3所示,包括以下具體步驟:
步驟S301,獲取通用新詞候選詞串。
具體的,所述獲取通用新詞候選詞串采用以下一種或多種方法的結(jié)合:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計(jì)方法。
步驟S302,對(duì)預(yù)先設(shè)定的領(lǐng)域類別的領(lǐng)域語料進(jìn)行預(yù)處理。
具體的,步驟S302包括:
將所述預(yù)先設(shè)定的領(lǐng)域類別的領(lǐng)域語料的格式統(tǒng)一為文本格式;
去除含有敏感詞的領(lǐng)域語料,根據(jù)剩余的領(lǐng)域語料中所含有的斷句標(biāo)點(diǎn)將所述剩余的領(lǐng)域語料分割成句。
步驟S303,根據(jù)預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的經(jīng)過預(yù)處理后的領(lǐng)域語料,采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串。
具體的,在步驟S303中,采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串包括:
采用包括所述通用新詞候選詞串的詞典對(duì)每個(gè)所述領(lǐng)域語料進(jìn)行分詞處理,得到各領(lǐng)域的詞語集;
計(jì)算所述通用新詞候選詞串在每個(gè)領(lǐng)域的詞語集中出現(xiàn)概率,并將最大的所述出現(xiàn)概率對(duì)應(yīng)的領(lǐng)域類別作為目標(biāo)領(lǐng)域類別;
計(jì)算所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵,當(dāng)所述信息熵小于或等于信息熵閾值時(shí),所述通用新詞候選詞串為所述目標(biāo)領(lǐng)域類別的領(lǐng)域新詞候選詞串。所述信息熵閾值的取值范圍為:1.5~2.5。
進(jìn)一步的,設(shè)a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預(yù)先設(shè)定的領(lǐng)域類別的個(gè)數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個(gè)所述領(lǐng)域語料的出現(xiàn)概率。
步驟S304,當(dāng)所述新詞候選詞串為領(lǐng)域新詞候選詞串時(shí),通過相似度計(jì)算判斷所述領(lǐng)域新詞候選詞串是否為領(lǐng)域新詞。
具體的,在步驟S304中,通過相似度計(jì)算判斷所述領(lǐng)域新詞候選詞串是否為領(lǐng)域新詞,包括:
從所述領(lǐng)域新詞候選詞串對(duì)應(yīng)的領(lǐng)域語料中選擇全部或部分的其他詞串作為種子詞串;
計(jì)算所述領(lǐng)域新詞候選詞串與每個(gè)所述種子詞串的相似度;
當(dāng)最大所述相似度大于相似度閾值時(shí),所述領(lǐng)域新詞候選詞串為領(lǐng)域新詞。所述相似度閾值的取值范圍為0.6-0.8。
優(yōu)選的,判定為領(lǐng)域新詞的領(lǐng)域新詞候選詞串也作為相應(yīng)領(lǐng)域的種子詞串。
步驟S305,在得到多個(gè)所述領(lǐng)域新詞后,進(jìn)行人工審核,得到領(lǐng)域新詞的發(fā)現(xiàn)準(zhǔn)確率;
步驟S306,當(dāng)所述發(fā)現(xiàn)準(zhǔn)確率小于或等于準(zhǔn)確率閾值時(shí),調(diào)整所述信息熵閾值和/或所述相似度閾值,直至根據(jù)調(diào)整后的所述信息熵閾值和/或所述相似度閾值得到的發(fā)現(xiàn)準(zhǔn)確率大于準(zhǔn)確率閾值為止。
本發(fā)明實(shí)施例與第二實(shí)施例的區(qū)別在于,本實(shí)施例在確定出領(lǐng)域新詞之后,還要審核領(lǐng)域新詞的發(fā)現(xiàn)準(zhǔn)確率,并據(jù)此對(duì)在領(lǐng)域新詞確定過程中所用到的所述信息熵閾值和/或所述相似度閾值進(jìn)行調(diào)整,以通過逐漸優(yōu)化的方式進(jìn)一步提高領(lǐng)域新詞發(fā)現(xiàn)的準(zhǔn)確率。之后,領(lǐng)域新詞在人工參與后逐漸增加,逐漸完善領(lǐng)域詞典。
本發(fā)明第四實(shí)施例,與第一實(shí)施例對(duì)應(yīng),本實(shí)施例介紹一種領(lǐng)域新詞發(fā)現(xiàn)的裝置,如圖4所示,包括以下組成部分:
1)獲取模塊100,用于獲取通用新詞候選詞串。
具體的,獲取模塊100,用于采用以下一種或多種方法的結(jié)合獲取通用新詞候選詞串:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計(jì)方法。
2)存儲(chǔ)模塊200,用于存儲(chǔ)預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的領(lǐng)域語料。
3)統(tǒng)計(jì)模塊300,用于根據(jù)預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的領(lǐng)域語料,采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串。
具體的,統(tǒng)計(jì)模塊300,包括:
分詞單元301,用于采用包括所述通用新詞候選詞串的詞典對(duì)每個(gè)所述領(lǐng)域語料進(jìn)行分詞處理,得到各領(lǐng)域的詞語集。
概率計(jì)算單元302,用于計(jì)算所述通用新詞候選詞串在每個(gè)領(lǐng)域的詞語集中出現(xiàn)概率。
目標(biāo)領(lǐng)域確定單元303,用于將最大的所述出現(xiàn)概率對(duì)應(yīng)的領(lǐng)域類別作為目標(biāo)領(lǐng)域類別。
信息熵計(jì)算單元304,用于計(jì)算所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵。信息熵計(jì)算單元304采用以下公式進(jìn)行計(jì)算:設(shè)a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預(yù)先設(shè)定的領(lǐng)域類別的個(gè)數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個(gè)所述領(lǐng)域語料的出現(xiàn)概率。
新詞確認(rèn)單元305,用于當(dāng)所述信息熵小于或等于信息熵閾值時(shí),確認(rèn)所述通用新詞候選詞串為所述目標(biāo)領(lǐng)域類別的領(lǐng)域新詞候選詞串。所述信息熵閾值的取值范圍為:1.5~2.5。
4)相似度計(jì)算模塊400,用于當(dāng)所述新詞候選詞串為領(lǐng)域新詞候選詞串時(shí),通過相似度計(jì)算判斷所述領(lǐng)域新詞候選詞串是否為領(lǐng)域新詞。
具體的,相似度計(jì)算模塊400,包括:
種子詞串選擇單元401,用于從所述領(lǐng)域新詞候選詞串對(duì)應(yīng)的領(lǐng)域語料中選擇全部或部分的其他詞串作為種子詞串;
相似運(yùn)算單元402,用于計(jì)算所述領(lǐng)域新詞候選詞串與每個(gè)所述種子詞串的相似度;
判定單元403,用于當(dāng)最大所述相似度大于相似度閾值時(shí),所述領(lǐng)域新詞候選詞串為領(lǐng)域新詞。所述相似度閾值的取值范圍為0.6-0.8。
優(yōu)選的,相似度計(jì)算模塊400,還包括:
種子詞串更新單元404,用于將判定為領(lǐng)域新詞的領(lǐng)域新詞候選詞串也作為相應(yīng)領(lǐng)域的種子詞串。
本發(fā)明第五實(shí)施例,與第二實(shí)施例對(duì)應(yīng),本實(shí)施例介紹一種領(lǐng)域新詞發(fā)現(xiàn)的裝置,如圖5所示,包括以下組成部分:
1)獲取模塊100,用于獲取通用新詞候選詞串。
具體的,獲取模塊100,用于采用以下一種或多種方法的結(jié)合獲取通用新詞候選詞串:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計(jì)方法。
2)存儲(chǔ)模塊200,用于存儲(chǔ)預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的領(lǐng)域語料。
3)統(tǒng)計(jì)模塊300,用于根據(jù)預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的領(lǐng)域語料,采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串。
具體的,統(tǒng)計(jì)模塊300,包括:
預(yù)處理單元306,用于將所述預(yù)先設(shè)定的領(lǐng)域類別的領(lǐng)域語料的格式統(tǒng)一為文本格式;去除含有敏感詞的領(lǐng)域語料,根據(jù)剩余的領(lǐng)域語料中所含有的斷句標(biāo)點(diǎn)將所述剩余的領(lǐng)域語料分割成句。
分詞單元301,用于采用包括所述通用新詞候選詞串的詞典對(duì)預(yù)處理單元306輸出的每個(gè)所述領(lǐng)域語料進(jìn)行分詞處理,得到各領(lǐng)域的詞語集。
概率計(jì)算單元302,用于計(jì)算所述通用新詞候選詞串在每個(gè)領(lǐng)域的詞語集中出現(xiàn)概率。
目標(biāo)領(lǐng)域確定單元303,用于將最大的所述出現(xiàn)概率對(duì)應(yīng)的領(lǐng)域類別作為目標(biāo)領(lǐng)域類別。
信息熵計(jì)算單元304,用于計(jì)算所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵。信息熵計(jì)算單元304采用以下公式進(jìn)行計(jì)算:設(shè)a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預(yù)先設(shè)定的領(lǐng)域類別的個(gè)數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個(gè)所述領(lǐng)域語料的出現(xiàn)概率。
新詞確認(rèn)單元305,用于當(dāng)所述信息熵小于或等于信息熵閾值時(shí),確認(rèn)所述通用新詞候選詞串為所述目標(biāo)領(lǐng)域類別的領(lǐng)域新詞候選詞串。所述信息熵閾值的取值范圍為:1.5~2.5。
4)相似度計(jì)算模塊400,用于當(dāng)所述新詞候選詞串為領(lǐng)域新詞候選詞串時(shí),通過相似度計(jì)算判斷所述領(lǐng)域新詞候選詞串是否為領(lǐng)域新詞。
具體的,相似度計(jì)算模塊400,包括:
種子詞串選擇單元401,用于從所述領(lǐng)域新詞候選詞串對(duì)應(yīng)的領(lǐng)域語料中選擇全部或部分的其他詞串作為種子詞串;
相似運(yùn)算單元402,用于計(jì)算所述領(lǐng)域新詞候選詞串與每個(gè)所述種子詞串的相似度;
判定單元403,用于當(dāng)最大所述相似度大于相似度閾值時(shí),所述領(lǐng)域新詞候選詞串為領(lǐng)域新詞。所述相似度閾值的取值范圍為0.6-0.8。
優(yōu)選的,相似度計(jì)算模塊400,還包括:
種子詞串更新單元404,用于將判定為領(lǐng)域新詞的領(lǐng)域新詞候選詞串也作為相應(yīng)領(lǐng)域的種子詞串。
本發(fā)明實(shí)施例與第四實(shí)施例的區(qū)別在于,本實(shí)施例的所述裝置的統(tǒng)計(jì)模塊300中還包括預(yù)處理單元306,用于在采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串之前,對(duì)所述預(yù)先設(shè)定的領(lǐng)域類別的領(lǐng)域語料進(jìn)行預(yù)處理,由于已對(duì)領(lǐng)域語料統(tǒng)一格式并去除敏感詞和斷句,這樣做便于分詞單元301對(duì)每個(gè)領(lǐng)域的語料進(jìn)行分詞處理,提高分詞處理的效率和準(zhǔn)確率。
本發(fā)明第六實(shí)施例,與第三實(shí)施例對(duì)應(yīng),本實(shí)施例介紹一種領(lǐng)域新詞發(fā)現(xiàn)的裝置,如圖6所示,包括以下組成部分:
1)獲取模塊100,用于獲取通用新詞候選詞串。
具體的,獲取模塊100,用于采用以下一種或多種方法的結(jié)合獲取通用新詞候選詞串:內(nèi)部構(gòu)成語法規(guī)則方法、前后綴規(guī)則方法和特征統(tǒng)計(jì)方法。
2)存儲(chǔ)模塊200,用于存儲(chǔ)預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的領(lǐng)域語料。
3)統(tǒng)計(jì)模塊300,用于根據(jù)預(yù)先設(shè)定的領(lǐng)域類別及對(duì)應(yīng)的領(lǐng)域語料,采用統(tǒng)計(jì)的方法判斷所述通用新詞候選詞串是否為領(lǐng)域新詞候選詞串。
具體的,統(tǒng)計(jì)模塊300,包括:
預(yù)處理單元306,用于將所述預(yù)先設(shè)定的領(lǐng)域類別的領(lǐng)域語料的格式統(tǒng)一為文本格式;去除含有敏感詞的領(lǐng)域語料,根據(jù)剩余的領(lǐng)域語料中所含有的斷句標(biāo)點(diǎn)將所述剩余的領(lǐng)域語料分割成句。
分詞單元301,用于采用包括所述通用新詞候選詞串的詞典對(duì)預(yù)處理單元306輸出的每個(gè)所述領(lǐng)域語料進(jìn)行分詞處理,得到各領(lǐng)域的詞語集。
概率計(jì)算單元302,用于計(jì)算所述通用新詞候選詞串在每個(gè)領(lǐng)域的詞語集中出現(xiàn)概率。
目標(biāo)領(lǐng)域確定單元303,用于將最大的所述出現(xiàn)概率對(duì)應(yīng)的領(lǐng)域類別作為目標(biāo)領(lǐng)域類別。
信息熵計(jì)算單元304,用于計(jì)算所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵。信息熵計(jì)算單元304采用以下公式進(jìn)行計(jì)算:設(shè)a為所述通用新詞候選詞串,所述通用新詞候選詞串在至少部分預(yù)先設(shè)定的領(lǐng)域類別中分布的信息熵H(a)=-p1×log2(p1)-p2×log2(p2)-…-pn×log2(pn),其中,n為所述至少部分預(yù)先設(shè)定的領(lǐng)域類別的個(gè)數(shù),p1、p2、…、pn為所述通用新詞候選詞串a(chǎn)在n個(gè)所述領(lǐng)域語料的出現(xiàn)概率。
新詞確認(rèn)單元305,用于當(dāng)所述信息熵小于或等于信息熵閾值時(shí),確認(rèn)所述通用新詞候選詞串為所述目標(biāo)領(lǐng)域類別的領(lǐng)域新詞候選詞串。所述信息熵閾值的取值范圍為:1.5~2.5。
4)相似度計(jì)算模塊400,用于當(dāng)所述新詞候選詞串為領(lǐng)域新詞候選詞串時(shí),通過相似度計(jì)算判斷所述領(lǐng)域新詞候選詞串是否為領(lǐng)域新詞。
具體的,相似度計(jì)算模塊400,包括:
種子詞串選擇單元401,用于從所述領(lǐng)域新詞候選詞串對(duì)應(yīng)的領(lǐng)域語料中選擇全部或部分的其他詞串作為種子詞串;
相似運(yùn)算單元402,用于計(jì)算所述領(lǐng)域新詞候選詞串與每個(gè)所述種子詞串的相似度;
判定單元403,用于當(dāng)最大所述相似度大于相似度閾值時(shí),所述領(lǐng)域新詞候選詞串為領(lǐng)域新詞。所述相似度閾值的取值范圍為0.6-0.8。
優(yōu)選的,相似度計(jì)算模塊400,還包括:
種子詞串更新單元404,用于將判定為領(lǐng)域新詞的領(lǐng)域新詞候選詞串也作為相應(yīng)領(lǐng)域的種子詞串。
5)準(zhǔn)確率確定模塊500,用于在得到多個(gè)所述領(lǐng)域新詞后,進(jìn)行人工審核,得到領(lǐng)域新詞的發(fā)現(xiàn)準(zhǔn)確率;
6)校正模塊600,用于當(dāng)所述發(fā)現(xiàn)準(zhǔn)確率小于或等于準(zhǔn)確率閾值時(shí),調(diào)整新詞確認(rèn)單元305中用到的信息熵閾值和/或判定單元403中用到的相似度閾值,直至根據(jù)調(diào)整后的所述信息熵閾值和/或所述相似度閾值得到的發(fā)現(xiàn)準(zhǔn)確率大于準(zhǔn)確率閾值為止。
本發(fā)明實(shí)施例與第五實(shí)施例的區(qū)別在于,本實(shí)施例在確定出領(lǐng)域新詞之后,還要通過準(zhǔn)確率確定模塊500審核領(lǐng)域新詞的發(fā)現(xiàn)準(zhǔn)確率,并通過校正模塊600根據(jù)準(zhǔn)確率確定模塊500審核的結(jié)果,對(duì)在領(lǐng)域新詞確定過程中所用到的所述信息熵閾值和/或所述相似度閾值進(jìn)行調(diào)整,以通過逐漸優(yōu)化的方式進(jìn)一步提高領(lǐng)域新詞發(fā)現(xiàn)的準(zhǔn)確率。
本發(fā)明第七實(shí)施例,本實(shí)施例是在上述實(shí)施例的基礎(chǔ)上,結(jié)合附圖7~9介紹一個(gè)本發(fā)明的應(yīng)用實(shí)例。
本發(fā)明實(shí)施例提出一種自動(dòng)問答領(lǐng)域內(nèi)領(lǐng)域新詞的過濾方法,其基本思想是:在所有語料(通過網(wǎng)絡(luò)爬蟲獲得的新語料,14個(gè)大領(lǐng)域)中,新詞候選詞中的垃圾詞串、通用詞通常出現(xiàn)概率較高,并且垃圾詞串和通用詞均在各個(gè)領(lǐng)域出現(xiàn)頻率相近,而領(lǐng)域新詞和通用詞中的通用新詞出現(xiàn)的概率較小,并且領(lǐng)域新詞會(huì)在不同的領(lǐng)域有明顯的偏重,甚至只出現(xiàn)在對(duì)應(yīng)領(lǐng)域。根據(jù)這一原理,在現(xiàn)有的通用新詞發(fā)現(xiàn)方法發(fā)現(xiàn)的通用新詞候選詞串的基礎(chǔ)上,將得到的通用新詞候選詞串進(jìn)一步處理,通過計(jì)算各個(gè)通用新詞候選詞串在14個(gè)領(lǐng)域中分布上的信息熵,篩選出領(lǐng)域新詞候選詞串。即,將通用新詞候選詞串加入到分詞詞典后,基于該分詞詞典對(duì)所有領(lǐng)域即14個(gè)領(lǐng)域的語料分別進(jìn)行分詞,并分別計(jì)算每個(gè)通用新詞候選詞串在各個(gè)領(lǐng)域出現(xiàn)的概率;然后計(jì)算每個(gè)通用新詞候選詞串在14個(gè)領(lǐng)域中分布上的信息熵,例如:通用新詞候選詞串a(chǎn),其在各個(gè)領(lǐng)域出現(xiàn)的概率歸一化后為:p1,p2,…,p14,則通用新詞候選詞串a(chǎn)在14個(gè)領(lǐng)域中分布上的信息熵信息熵為H(a)=(-p1*log2(p1)-p2*log2(p2)-…-p14*log2(p14))。信息熵越大表明該通用新詞候選詞串在各個(gè)領(lǐng)域上的分布越平衡,反之,表明該通用新詞候選詞串的分布偏重某領(lǐng)域。之后,通過確定一個(gè)合適的信息熵閾值h過濾掉部分垃圾詞串和通用詞串,若H(a)>h時(shí),則通用新詞候選詞串a(chǎn)為垃圾詞串或通用詞,反之,則通用新詞候選詞串a(chǎn)為對(duì)應(yīng)出現(xiàn)概率最大的領(lǐng)域的領(lǐng)域新詞候選詞串,從而篩選出領(lǐng)域新詞候選詞串。
以上是基于統(tǒng)計(jì)的思想尋找領(lǐng)域新詞候選詞串,而未考慮詞與領(lǐng)域的語義關(guān)系,因此,為了提高確定領(lǐng)域新詞的準(zhǔn)確度,優(yōu)選的,可以在語義層面進(jìn)一步篩選出領(lǐng)域新詞。即,將利用word2vec模型計(jì)算該領(lǐng)域新詞候選詞串與某一領(lǐng)域語料中的各詞串之間的語義相似度,相似度越大越則越有可能是對(duì)應(yīng)領(lǐng)域的領(lǐng)域新詞。之后,領(lǐng)域新詞在人工參與后逐漸增加,逐漸完善領(lǐng)域詞典。
本實(shí)施例的所述自動(dòng)問答領(lǐng)域內(nèi)領(lǐng)域新詞的過濾方法,具體包括如果三個(gè)流程:
如圖7所示,各領(lǐng)域語料的獲取及預(yù)處理流程包括:
步驟S1:利用網(wǎng)絡(luò)爬蟲獲得所有14個(gè)領(lǐng)域的領(lǐng)域語料。
步驟S2:將獲取的所有領(lǐng)域的語料格式統(tǒng)一為文本格式,過濾無效的格式,去除含有敏感詞的文檔,并對(duì)處理后的語料按大標(biāo)點(diǎn),比如:“?”和“!”,分割成句后保存。
步驟S3:將采用通用新詞發(fā)現(xiàn)方法獲得的通用新詞候選詞串加載到分詞詞典后,基于該分詞詞典對(duì)預(yù)處理后的語料分別進(jìn)行分詞并過濾停用詞后,按領(lǐng)域類別分別保存;
現(xiàn)有的通用新詞發(fā)現(xiàn)方法一般采用基于統(tǒng)計(jì)或規(guī)則的方法或者兩者結(jié)合的方法?;谝?guī)則的方法通常是新詞的內(nèi)部構(gòu)成語法規(guī)則或者新詞的前后綴規(guī)則,以此為準(zhǔn)則發(fā)現(xiàn)新詞?;诮y(tǒng)計(jì)方法一般是尋找描述新詞特征的統(tǒng)計(jì)量來抽取候選詞串,常用統(tǒng)計(jì)量如成詞概率、互信息、剛性等等。
如圖8所示,領(lǐng)域新詞候選詞串的篩選流程包括:
步驟A1:采用通用新詞發(fā)現(xiàn)方法獲得的通用新詞候選詞串。
步驟A2:針對(duì)通用新詞候選側(cè)串x,分別計(jì)算通用新詞候選側(cè)串x在各個(gè)領(lǐng)域出現(xiàn)的概率,計(jì)算方法是:在某一領(lǐng)域的概率=通用新詞候選側(cè)串x串出現(xiàn)的次數(shù)÷某一領(lǐng)域的總詞數(shù),某一領(lǐng)域的總詞數(shù)可以由步驟S3得出。若通用新詞候選詞串在某一領(lǐng)域的語料中沒出現(xiàn),則概率為0。之后將結(jié)果存放到列表p_list=[p1,p2,…,p14];然后對(duì)該通用新詞候選側(cè)串x的概率列表值進(jìn)行歸一化,即p_list_1=[p1/sum(p_list),p2/sum(p_list),…,p14/sum(p_list)]。
步驟A3:求通用新詞候選側(cè)串x在所有14個(gè)領(lǐng)域中分布上的信息熵H(x)=-p1/sum(p_list)*log2(p1/sum(p_list))-p2/sum(p_list)*log2(p2/sum(p_list))-…-p14/sum(p_list)*log2(p14/sum(p_list))。
步驟A4:若H(x)大于閾值h,則該通用新詞候選側(cè)串x是通用詞串或垃圾詞串,反之,為領(lǐng)域新詞候選詞串。閾值h需要根據(jù)具體情況進(jìn)行調(diào)優(yōu),以爬取的百度知道語料為例,h取值2.0較合適。
如圖9所示,領(lǐng)域新詞的篩選流程包括:
步驟B1:將步驟S3中的分詞結(jié)果輸入到word2vec模型,得到所有詞的詞向量。
步驟B2:針對(duì)通用新詞候選側(cè)串x對(duì)應(yīng)的領(lǐng)域,選取部分領(lǐng)域詞作為種子(領(lǐng)域詞典較大的情況下,為了減少計(jì)算的復(fù)雜度,未選取全部領(lǐng)域詞作為種子),計(jì)算領(lǐng)域新詞候選詞x的詞向量和對(duì)應(yīng)領(lǐng)域的各種子向量的語義相似度的最大值sim,并設(shè)定特定的閾值p。語義相似度越大越可能是對(duì)應(yīng)領(lǐng)域的領(lǐng)域新詞,因此,sim大于閾值p時(shí),就進(jìn)一步認(rèn)為該是領(lǐng)域新詞,并且將該詞加入到對(duì)應(yīng)的種子中使其動(dòng)態(tài)更新,否則,不是領(lǐng)域新詞。閾值p需要根據(jù)具體情況進(jìn)行調(diào)優(yōu),以爬取的百度知道語料為例,p取值0.71較合適。
步驟B3:將人工過濾后的領(lǐng)域新詞加載到對(duì)應(yīng)領(lǐng)域新詞詞典,不斷完善領(lǐng)域詞典。
通過具體實(shí)施方式的說明,應(yīng)當(dāng)可對(duì)本發(fā)明為達(dá)成預(yù)定目的所采取的技術(shù)手段及功效得以更加深入且具體的了解,然而所附圖示僅是提供參考與說明之用,并非用來對(duì)本發(fā)明加以限制。