在文本中確定語義關(guān)鍵詞的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理領(lǐng)域,更具體地涉及一種在文本中確定語義關(guān)鍵詞的方法和 裝置。
【背景技術(shù)】
[0002] 隨著文本信息快速增長,如何從海量、非結(jié)構(gòu)化的文本內(nèi)容中挖掘出能夠表示文 本語義信息的語義關(guān)鍵詞是智能信息處理領(lǐng)域亟待解決的問題之一,利用文本的語義關(guān)鍵 詞能夠更有效地進(jìn)行文本信息的表示、索引、共享和檢索,同時(shí)支持多種應(yīng)用,如基于內(nèi)容 的廣告詞推薦系統(tǒng)、問答系統(tǒng)、查詢詞的精簡、擴(kuò)展系統(tǒng)以及輔助話題追蹤系統(tǒng)等等。
[0003] 因此,需要一種能夠在文本中確定語義關(guān)鍵詞的方法和裝置。
【發(fā)明內(nèi)容】
[0004] 在下文中給出關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理 解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān) 鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念, 以此作為稍后論述的更詳細(xì)描述的前序。
[0005] 本發(fā)明的一個(gè)主要目的在于,提供一種在文本中確定語義關(guān)鍵詞的方法,包括:在 網(wǎng)絡(luò)資源中進(jìn)行挖掘,獲得詞或詞組與所述詞或詞組作為語義關(guān)鍵詞的概率的二元組集 合;在所述文本中抽取樣本集合,基于所獲得的所述二元組集合在所述樣本集合中獲取正 樣本集合;將所述樣本集合去除所述正樣本集合后的集合中的每一個(gè)樣本與所述正樣本集 合中的正樣本進(jìn)行比較,根據(jù)比較的相似度結(jié)果來獲得負(fù)樣本集合;從所述樣本集合去除 所述正樣本集合后的集合中再去除所述負(fù)樣本集合來獲得未標(biāo)注樣本集合;以及基于所述 正樣本集合、所述負(fù)樣本集合和所述未標(biāo)注樣本集合,利用分類算法來迭代訓(xùn)練語義關(guān)鍵 詞識別模型,基于所述語義關(guān)鍵詞識別模型來獲得語義關(guān)鍵詞集合和/或非語義關(guān)鍵詞集 合。
[0006] 根據(jù)本發(fā)明的一個(gè)方面,提供了一種在文本中確定語義關(guān)鍵詞的裝置,包括:二元 組集合挖掘單元,被配置為在網(wǎng)絡(luò)資源中進(jìn)行挖掘,獲得詞或詞組與所述詞或詞組作為語 義關(guān)鍵詞的概率的二元組集合;正樣本集合構(gòu)建單元,被配置為在所述文本中抽取樣本集 合,基于所獲得的所述二元組集合在所述樣本集合中獲取正樣本集合;負(fù)樣本集合構(gòu)建單 元,被配置為將所述樣本集合去除所述正樣本集合后的集合中的每一個(gè)樣本與所述正樣本 集合中的正樣本進(jìn)行比較,根據(jù)比較的相似度結(jié)果來獲得負(fù)樣本集合;未標(biāo)注樣本集合構(gòu) 建單元,被配置為從所述樣本集合去除所述正樣本集合后的集合中再去除負(fù)樣本集合來獲 得未標(biāo)注樣本集合;以及語義關(guān)鍵詞確定單元,被配置為基于所述正樣本集合、所述負(fù)樣本 集合和所述未標(biāo)注樣本集合,利用分類算法來迭代訓(xùn)練語義關(guān)鍵詞識別模型,基于所述語 義關(guān)鍵詞識別模型來獲得語義關(guān)鍵詞集合和/或非語義關(guān)鍵詞集合。
[0007] 另外,本發(fā)明的實(shí)施例還提供了用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序。
[0008] 此外,本發(fā)明的實(shí)施例還提供了至少計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品,其 上記錄有用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序代碼。
[0009] 通過以下結(jié)合附圖對本發(fā)明的最佳實(shí)施例的詳細(xì)說明,本發(fā)明的這些以及其他優(yōu) 點(diǎn)將更加明顯。
【附圖說明】
[0010] 參照下面結(jié)合附圖對本發(fā)明實(shí)施例的說明,會(huì)更加容易地理解本發(fā)明的以上和其 它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似 的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。
[0011] 圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的在文本中確定語義關(guān)鍵詞的方法的流程 圖;
[0012] 圖2是示出圖1中的步驟S104的一種示例性過程的流程圖;
[0013] 圖3是示出圖1中的步驟S106的一種示例性過程的流程圖;
[0014] 圖4是示出圖1中的步驟S106'的另一種示例性過程的流程圖;
[0015] 圖5是示出圖1中的步驟SllO的一種示例性過程的流程圖;
[0016] 圖6是示出根據(jù)本發(fā)明的一個(gè)實(shí)施例的在文本中確定語義關(guān)鍵詞的裝置600的示 例性配置的框圖;
[0017] 圖7是示出圖6中的正樣本集合構(gòu)建單元604的一種示例性配置的框圖;
[0018] 圖8是示出圖6中的負(fù)樣本集合構(gòu)建單元606的一種示例性配置的框圖;
[0019] 圖9是示出圖6中的負(fù)樣本集合構(gòu)建單元606'的另一種示例性配置的框圖;
[0020] 圖10是示出圖6中的語義關(guān)鍵詞確定單元610的一種示例性配置的框圖;以及
[0021] 圖11是示出可以用于實(shí)施本發(fā)明的在文本中確定語義關(guān)鍵詞的裝置和方法的計(jì) 算設(shè)備的示例性結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0022] 下面參照附圖來說明本發(fā)明的實(shí)施例。在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描 述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng) 當(dāng)注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知 的部件和處理的表示和描述。
[0023] 本發(fā)明提出一種基于機(jī)器學(xué)習(xí)的語義關(guān)鍵詞挖掘方法,首先從網(wǎng)絡(luò)資源(互聯(lián)網(wǎng) 網(wǎng)頁、搜索引擎查詢?nèi)罩镜龋┲型诰蜿P(guān)鍵詞知識庫,然后根據(jù)該知識庫和給定文本構(gòu)建訓(xùn) 練樣本集合,最后通過迭代訓(xùn)練獲得語義關(guān)鍵詞識別模型,并利用該模型從未標(biāo)注樣本中 識別語義關(guān)鍵詞。
[0024] 下面結(jié)合附圖詳細(xì)說明根據(jù)本發(fā)明的一個(gè)實(shí)施例的在文本中確定語義關(guān)鍵詞的 方法。
[0025] 圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的在文本中確定語義關(guān)鍵詞的流程圖。
[0026] 首先,在步驟S102中,在網(wǎng)絡(luò)資源中進(jìn)行挖掘,獲得詞或詞組與該詞或詞組作為 語義關(guān)鍵詞的概率的二元組集合。
[0027] 其中,在網(wǎng)絡(luò)資源中進(jìn)行挖掘可以包括基于互聯(lián)網(wǎng)網(wǎng)頁的語義關(guān)鍵詞挖掘和基于 查詢?nèi)罩镜恼Z義關(guān)鍵詞挖掘。下面分別詳細(xì)說明這兩種語義關(guān)鍵詞挖掘方法。
[0028] (1)基于互聯(lián)網(wǎng)網(wǎng)頁的語義關(guān)鍵詞挖掘方法
[0029] 首先從web上獲取網(wǎng)頁集合C,在實(shí)際操作中可以選擇例如Wikipedia(維基百 科)作為網(wǎng)頁集合C。接下來對網(wǎng)頁集合中的網(wǎng)頁進(jìn)行字符歸一化,包括繁簡體轉(zhuǎn)換、數(shù)字 歸一化等等。然后從網(wǎng)頁集合C中挖掘出錨文本,并過濾掉是鏈接和停止詞的錨文本,得到 錨文本集合A,錨文本集合中的元素是詞或者詞組。由于錨文本往往為重要程度較高的詞 或詞組,所以本發(fā)明假設(shè)可以利用互聯(lián)網(wǎng)網(wǎng)頁估計(jì)詞或詞組作為錨文本的概率來近似得到 該詞或詞組作為語義關(guān)鍵詞的概率。對于每個(gè)錨文本a e A,統(tǒng)計(jì)該詞或詞組在網(wǎng)頁集合C 中作為錨文本出現(xiàn)的次數(shù)A,以及該詞或詞組在網(wǎng)頁集合C中作為普通文本出現(xiàn)的次數(shù)f2, 通過下面的公式(1)計(jì)算該詞或詞組可能為語義關(guān)鍵詞的概率P (a)。
[0030]
( 1 )
[0031] 在一個(gè)示例中,也可以利用搜索引擎搜索詞或詞組a,將搜索到a的總次數(shù)作為上 式中的fi+f 2。
[0032] 通過以上步驟,可以獲得二元組<a,p (a) >的集合,其中a為詞或詞組,p (a)為a可 能為語義關(guān)鍵詞的概率。
[0033] (2)基于查詢?nèi)罩镜恼Z義關(guān)鍵詞挖掘方法
[0034] 首先利用搜索引擎的查詢?nèi)罩?,對查詢?nèi)罩局械牟樵冊~進(jìn)行字符歸一化,包括繁 簡體轉(zhuǎn)換、數(shù)字歸一化等等,然后從查詢?nèi)罩局袨V掉是鏈接和停止詞,構(gòu)建查詢?nèi)罩局谐霈F(xiàn) 的詞的集合Q。由于查詢詞往往為重要程度較高的詞或詞組,所以本發(fā)明假設(shè)可以利用查詢 日志估計(jì)查詢詞作為語義關(guān)鍵詞的概率。遍歷Q,統(tǒng)計(jì)出Q中詞或詞組q作為查詢詞在查詢 日志中出現(xiàn)的次數(shù)fi,然后統(tǒng)計(jì)查詢?nèi)罩局兴性~或詞組出現(xiàn)的次數(shù)的總和
,其 中t為查詢?nèi)罩局腥コ貜?fù)詞之后的詞或詞組的總數(shù)。最后,通過下面的公式(2)計(jì)算該 詞或詞組可能為語義關(guān)鍵詞的概率P (q)。
[0035]
( 2 )
[0036] 通過以上步驟,可以獲得如下二元組<q,p (q) >的集合,其中q為詞或詞組,p (q)為 q可能為語義關(guān)鍵詞的概率。
[0037] 本領(lǐng)域技術(shù)人員可以理解,在網(wǎng)絡(luò)資源中進(jìn)行挖掘,獲得詞或詞組與該詞或詞組 作為語義關(guān)鍵詞的概率的二元組集合的步驟可以只基于互聯(lián)網(wǎng)網(wǎng)頁進(jìn)行挖掘、只基于查詢 日志進(jìn)行挖掘、或者同時(shí)基于互聯(lián)網(wǎng)網(wǎng)頁和查詢?nèi)罩具M(jìn)行挖掘。
[0038] 接下來,在步驟S104中,在給定文本中抽取樣本集合,基于所獲得的二元組集合 在樣本集合中獲取正樣本集合。
[0039] 圖2是示出圖1中的步驟S104(即在給定文本中抽取樣本集合,基于所獲得的二 元組集合在樣本集合中獲取