專利名稱:關(guān)于關(guān)鍵詞提取的系統(tǒng)和方法
關(guān)于關(guān)鍵詞提取的系統(tǒng)和方法
背景技術(shù):
關(guān)鍵詞提取典型地用作上下文廣告系統(tǒng)的核心組件,其中基于從頁(yè)面文本中自動(dòng)選擇的關(guān)鍵詞選擇與網(wǎng)頁(yè)內(nèi)容匹配的廣告。為了顯示與網(wǎng)頁(yè)相關(guān)、從而可能使用戶更感興趣的廣告,需要對(duì)文本中出現(xiàn)的許多特征進(jìn)行評(píng)估,以作出哪些關(guān)鍵詞準(zhǔn)確反映頁(yè)面內(nèi)容的決定。在本文描述的示例性實(shí)施例中,關(guān)鍵詞提取系統(tǒng)將頁(yè)面url作為輸入,并返回由系統(tǒng)排序的10個(gè)關(guān)鍵詞短語(yǔ)作為最高關(guān)鍵詞候選。該系統(tǒng)首先處理網(wǎng)頁(yè)文本,并使用它的結(jié)構(gòu)來(lái)提取作為關(guān)鍵詞候選池的短語(yǔ)。每個(gè)短語(yǔ)然后可以由一組特征(例如其在網(wǎng)頁(yè)上的頻率、在文本中的位置、大寫(xiě)及其語(yǔ)言結(jié)構(gòu)(例如,其是否構(gòu)成名詞短語(yǔ))來(lái)描述?;诰哂腥斯?biāo)注的關(guān)鍵詞的樣本網(wǎng)頁(yè)的集合,該系統(tǒng)學(xué)習(xí)這些特征如何有助于候選短語(yǔ)是否有可能是“好的”關(guān)鍵詞的決定。一旦它以這種方式被訓(xùn)練,該系統(tǒng)可以被用來(lái)識(shí)別先前沒(méi)有見(jiàn)過(guò)的網(wǎng)頁(yè)上的(即,在訓(xùn)練集中所沒(méi)有的)關(guān)鍵詞。大多數(shù)現(xiàn)有的關(guān)鍵詞提取系統(tǒng)依靠采用統(tǒng)計(jì)頻率措施(如tf-1df1)的信息檢索模型。示例性系統(tǒng)的實(shí)施例通過(guò)使用自然語(yǔ)言處理技術(shù)改進(jìn)該方式以實(shí)現(xiàn)改進(jìn)的性能。一個(gè)或多個(gè)示例性實(shí)施例采用了一種新的關(guān)鍵詞候選提取方法,該方法對(duì)于短語(yǔ)結(jié)構(gòu)是敏感的,并且可以包括附加的導(dǎo)致更好的機(jī)器學(xué)習(xí)結(jié)果的語(yǔ)言特征。
發(fā)明內(nèi)容
一個(gè)示例性方面包括一種計(jì)算機(jī)系統(tǒng),包括:(a)預(yù)處理單元,----------------------kf-1df權(quán)重(詞頻- 逆文檔頻率)是通常用于信息檢索和文本挖掘中的權(quán)重。該權(quán)重是用于評(píng)估詞對(duì)于集合或文集中的文檔的重要性的統(tǒng)計(jì)措施。重要性與詞在文檔中出現(xiàn)的次數(shù)成比例地增大,但是由詞在文集中的頻率來(lái)進(jìn)行偏移。從網(wǎng)頁(yè)中提取文本,以產(chǎn)生至少第一組的候選關(guān)鍵詞,應(yīng)用語(yǔ)言處理以產(chǎn)生至少第二組的候選關(guān)鍵詞,并將所述第一組和第二組候選關(guān)鍵詞組成第一候選池;(b)候選提取單元,從所述預(yù)處理單元接收描述至少所述第一候選池的數(shù)據(jù),并產(chǎn)生第二候選池;(C)特征提取單元,接收描述至少所述第二候選池的數(shù)據(jù),并針對(duì)一般特征和語(yǔ)言特征來(lái)分析所述第二候選池;以及(d)分類單元,從所述特征提取單元接收描述至少所述第二候選池的所述數(shù)據(jù)和相關(guān)數(shù)據(jù),并確定所述第二候選池中每個(gè)候選成為主關(guān)鍵詞或次關(guān)鍵詞的可能性。在一個(gè)或多個(gè)示例性實(shí)施例及其組合中:(I)所述語(yǔ)言處理的至少一部分是由標(biāo)記器和解析器來(lái)執(zhí)行的;(2)所述語(yǔ)言處理的至少一部分是由標(biāo)記器(tokenizer)、解析器、詞性標(biāo)注器(tagger)和命名實(shí)體標(biāo)注器來(lái)執(zhí)行的;(3)所述語(yǔ)言處理的至少一部分是由標(biāo)記器執(zhí)行的;(4)所述語(yǔ)言處理的至少一部分是由解析器執(zhí)行的;(5)所述語(yǔ)言處理的至少一部分是由詞性標(biāo)注器執(zhí)行的;(6)所述語(yǔ)言處理的至少一部分是由命名實(shí)體標(biāo)注器執(zhí)行的;(7)所述第一組候選關(guān)鍵詞包括元數(shù)據(jù)文本;(8)所述第二候選池包括名詞短語(yǔ)和名詞序列;(9)所述第二候選池包括名詞短語(yǔ)、名詞序列和η元語(yǔ)言;(10)所述一般特征包括以下一個(gè)或多個(gè):頻率、在文檔中的位置、大寫(xiě);(11)所述語(yǔ)言特征涉及以下一個(gè)或多個(gè):詞性、短語(yǔ)結(jié)構(gòu)和命名實(shí)體信息;(12)所述一般特征包括頻率特征,并且所述頻率特征包括以下一個(gè)或多個(gè):所述網(wǎng)頁(yè)內(nèi)的相對(duì)詞頻和詞頻的對(duì)數(shù);(13)確定每個(gè)候選是主關(guān)鍵詞或次關(guān)鍵詞的可能性的所述確定基于注釋訓(xùn)練數(shù)據(jù);(14)確定每個(gè)候選是主關(guān)鍵詞或次關(guān)鍵詞的可能性的所述確定基于通過(guò)組合來(lái)自多個(gè)注釋器的注釋輸入而創(chuàng)建的訓(xùn)練數(shù)據(jù),其中每個(gè)注釋包括主關(guān)鍵詞和次關(guān)鍵詞之間的區(qū)別;(15)所述一般特征包括頻率、在文檔中的位置和大寫(xiě),并且所述語(yǔ)言特征涉及詞性、短語(yǔ)結(jié)構(gòu)、和命名實(shí)體信息;和/或
(16)所述一般特征包括頻率特征,所述頻率特征包括以下一個(gè)或多個(gè):所述網(wǎng)頁(yè)內(nèi)的相對(duì)詞頻和詞頻的對(duì)數(shù),以及所述語(yǔ)言特征涉及詞性、短語(yǔ)結(jié)構(gòu)和命名實(shí)體信息。另一個(gè)方面包括一種包括由計(jì)算機(jī)處理系統(tǒng)實(shí)現(xiàn)的步驟的方法,所述步驟包括:(a)從網(wǎng)頁(yè)提取文本以產(chǎn)生至少第一組候選關(guān)鍵詞,應(yīng)用語(yǔ)言處理以產(chǎn)生至少第二組候選關(guān)鍵詞,以及將所述第一組和第二組候選關(guān)鍵詞組成第一候選池;(b)接收描述至少所述第一候選池的數(shù)據(jù),并產(chǎn)生第二候選池;(c)接收描述至少所述第二候選池的數(shù)據(jù),并針對(duì)一般特征和語(yǔ)言特征分析所述第二候選池;以及(d)從所述特征提取單元接收描述至少所述第二候選池的所述數(shù)據(jù)和相關(guān)數(shù)據(jù),并確定所述第二候選池中每個(gè)候選是主關(guān)鍵詞或次關(guān)鍵詞的可能性。另一個(gè)方面包括一種存儲(chǔ)有軟件的有形計(jì)算機(jī)可讀介質(zhì),可操作用于執(zhí)行如下步驟:(a)從網(wǎng)頁(yè)提取文本以產(chǎn)生至少第一組候選關(guān)鍵詞,應(yīng)用語(yǔ)言處理以產(chǎn)生至少第二組候選關(guān)鍵詞,以及將所述第一組和第二組候選關(guān)鍵詞組成第一候選池;(b)接收描述至少所述第一候選池的數(shù)據(jù),并產(chǎn)生第二候選池;(c)接收描述至少所述第二候選池的數(shù)據(jù),并針對(duì)一般特征和語(yǔ)言特征分析所述第二候選池;以及(d)從所述特征提取單元接收描述至少所述第二候選池的所述數(shù)據(jù)和相關(guān)數(shù)據(jù),并確定所述第二候選池中每個(gè)候選是主關(guān)鍵詞或次關(guān)鍵詞的可能性。根據(jù)本文所提供的描述和附圖,其它方面和實(shí)施例對(duì)于本領(lǐng)域技術(shù)人員將是顯而易見(jiàn)的。
圖1示出了示例實(shí)施例的處理的總覽圖。圖2示出了可以實(shí)現(xiàn)示例實(shí)施例的計(jì)算機(jī)系統(tǒng)。
具體實(shí)施例方式圖1示出了計(jì)算機(jī)實(shí)現(xiàn)的示例性實(shí)施例的概述。在本說(shuō)明書(shū)的余下部分中,進(jìn)一步詳細(xì)描述每一個(gè)組件。示例預(yù)處理單元在示例性實(shí)施例中,在可以從頁(yè)面中選擇可能的關(guān)鍵詞短語(yǔ)之前,可以從HTML格式中提取頁(yè)面的純文本。該文本可以被進(jìn)一步處理,以獲得有關(guān)它的結(jié)構(gòu)的信息,該信息對(duì)于關(guān)鍵詞提取系統(tǒng)是有用的。優(yōu)選地,系統(tǒng)的預(yù)處理單元執(zhí)行提取以及標(biāo)注和格式化網(wǎng)頁(yè)文本,以便為隨后的候選短語(yǔ)選擇階段和特征提取階段提供合適的輸入。在預(yù)處理階段,首先可以使用BoilerPipe (例如,見(jiàn)[9])從網(wǎng)頁(yè)中提取內(nèi)容文本,其消除了樣板內(nèi)容,僅保留頁(yè)面的主要文本主體。除了主體文本,可以提取如標(biāo)題、元描述和元關(guān)鍵詞的首部信息,并與BoilerPipe輸出組合以形成用于進(jìn)一步處理的純文本輸入。然后,頁(yè)面文本可以被標(biāo)記,而且標(biāo)記器的輸出傳遞至詞性標(biāo)注器(例如,見(jiàn))和解析器(例如,見(jiàn)[13])。由于構(gòu)成名詞短語(yǔ)的關(guān)鍵詞有一種傾向,解析器輸出可用于在文本中查找名詞短語(yǔ)。使用解析器而不是分塊器(chunker)可能由獲得更細(xì)粒度的分層短語(yǔ)結(jié)構(gòu)信息(與基本的名詞短語(yǔ)塊相比)的愿望而激勵(lì),以改進(jìn)關(guān)鍵詞候選提取。由于命名實(shí)體(“NE”)(如個(gè)人或組織名稱)可能是有用的關(guān)鍵詞,還可以從網(wǎng)頁(yè)文本中提取命名實(shí)體。優(yōu)選地使用兩個(gè)不同的NE系統(tǒng)(參見(jiàn),例如[18]、[4]),以提供更大的一組實(shí)體類型的覆蓋。示例性候選提取單元候選提取可用于選擇作為可能關(guān)鍵詞的短語(yǔ),并且可以用作分類器的輸入,該分類器估計(jì)給定的短語(yǔ)是關(guān)鍵詞的可能性。此外,在示例性分類器的訓(xùn)練階段,候選提取的更好的精度有助于過(guò)濾不可能是關(guān)鍵詞的詞組合,從而降低了負(fù)面訓(xùn)練樣本的數(shù)量,由此提高了正面與負(fù)面訓(xùn)練數(shù)據(jù)的比率(關(guān)鍵詞提取任務(wù)具有正面和負(fù)面樣本之間的不平衡,有極少數(shù)的正面標(biāo)簽數(shù)據(jù))。在示例性實(shí)施例中,關(guān)鍵詞提取方法如下執(zhí)行。首先,通過(guò)遞歸地從解析的文本中提取所有名詞短語(yǔ),形成基礎(chǔ)候選集。然后,僅包括名詞的(從左到右提取的)所有候選子序列被加入候選集(例如,如果最好的Nixon相機(jī)配件是候選,Nixon相機(jī)配件、相機(jī)配件和配件將被添加到候選集)。最后,向候選集添加從候選短語(yǔ)中提取的所有一元語(yǔ)言(unigram)、二元語(yǔ)言(bigrams)和三元語(yǔ)言(trigrams)
也可以參照最常見(jiàn)的英語(yǔ)單詞的停止列表來(lái)過(guò)濾候選集。優(yōu)選地,從候選集中移除包含停止詞的一元語(yǔ)言或二元語(yǔ)言。然而,可以保留在短語(yǔ)中部包含停止列表中的詞的較長(zhǎng)短語(yǔ)。示例性關(guān)鍵詞分類單元為了識(shí)別哪些候選短語(yǔ)是關(guān)鍵詞,示例性實(shí)施例采用了分類器,該分類器使用輸入(候選短語(yǔ)的特征)來(lái)估計(jì)短語(yǔ)是關(guān)鍵詞的概率,并向短語(yǔ)指派輸出標(biāo)簽(關(guān)鍵詞或非關(guān)鍵詞)??梢允褂帽O(jiān)督機(jī)器學(xué)習(xí)來(lái)獲得將特征輸入映射到關(guān)鍵詞標(biāo)簽的分類器功能。也就是說(shuō),映射可以由分類器系統(tǒng)根據(jù)其中“正確”輸出的標(biāo)簽已被人類注解者提供的數(shù)據(jù)集來(lái)學(xué)習(xí)。為了訓(xùn)練用于示例性系統(tǒng)的分類器,可使用最大熵(ME)模型(這有時(shí)被稱為邏輯回歸模型,請(qǐng)參見(jiàn)[11]的介紹)。ME模型從訓(xùn)練數(shù)據(jù)中導(dǎo)出約束,并假定不包括訓(xùn)練集的最大熵分布。ME分類器的輸入由每個(gè)關(guān)鍵詞候選的值向量組成,其由模型使用以學(xué)習(xí)與每個(gè)特征相關(guān)聯(lián)的權(quán)重。給定新的輸入數(shù)據(jù),然后訓(xùn)練分類器可以計(jì)算在給定該候選短語(yǔ)的輸入值的情況下短語(yǔ)是關(guān)鍵詞的概率。給定輸入值了標(biāo)簽c的概率可以根據(jù)以下公式來(lái)計(jì)算:
權(quán)利要求
1.一種計(jì)算機(jī)系統(tǒng),包括: (a)預(yù)處理單元,從網(wǎng)頁(yè)中提取文本以產(chǎn)生至少第一組候選關(guān)鍵詞,應(yīng)用語(yǔ)言處理以產(chǎn)生至少第二組候選關(guān)鍵詞,并將所述第一組候選關(guān)鍵詞和第二組候選關(guān)鍵詞組成第一候選池; (b)候選提取單元,從所述預(yù)處理單元接收描述至少所述第一候選池的數(shù)據(jù),并產(chǎn)生第二候選池; (c)特征提取單元,接收描述至少所述第二候選池的數(shù)據(jù),并針對(duì)一般特征和語(yǔ)言特征來(lái)分析所述第二候選池;以及 (d)分類單元,從所述特征提取單元接收描述至少所述第二候選池的所述數(shù)據(jù)和相關(guān)數(shù)據(jù),并確定所述第二候選池中每個(gè)候選是主關(guān)鍵詞或次關(guān)鍵詞的可能性。
2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述語(yǔ)言處理的至少一部分是由標(biāo)記器和解析器來(lái)執(zhí)行的。
3.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述語(yǔ)言處理的至少一部分是由標(biāo)記器、解析器、詞性標(biāo)注器和命名實(shí)體標(biāo)注器來(lái)執(zhí)行的。
4.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述語(yǔ)言處理的至少一部分是由標(biāo)記器執(zhí)行的。
5.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述語(yǔ)言處理的至少一部分是由解析器執(zhí)行的。
6.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述語(yǔ)言處理的至少一部分是由詞性標(biāo)注器執(zhí)行的。
7.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述語(yǔ)言處理的至少一部分是由命名實(shí)體標(biāo)注器執(zhí)行的。
8.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述第一組候選關(guān)鍵詞包括元數(shù)據(jù)文本。
9.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述第二候選池包括名詞短語(yǔ)和名詞序列。
10.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述第二候選池包括名詞短語(yǔ)、名詞序列和η兀語(yǔ)目。
11.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述一般特征包括以下一個(gè)或更多個(gè):頻率、文檔中的位置和大寫(xiě)。
12.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述語(yǔ)言特征涉及以下一個(gè)或更多個(gè):詞性、短語(yǔ)結(jié)構(gòu)和命名實(shí)體信息。
13.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述一般特征包括頻率特征,并且所述頻率特征包括以下一個(gè)或更多個(gè):所述網(wǎng)頁(yè)內(nèi)的相對(duì)詞頻和詞頻的對(duì)數(shù)。
14.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,基于注釋訓(xùn)練數(shù)據(jù)來(lái)確定每個(gè)候選是主關(guān)鍵詞或次關(guān)鍵詞的可能性。
15.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,基于通過(guò)組合來(lái)自多個(gè)注釋器的注釋輸入而創(chuàng)建的訓(xùn)練數(shù)據(jù)來(lái)確定每個(gè)候選是主關(guān)鍵詞或次關(guān)鍵詞的可能性,以及每個(gè)注釋包括主關(guān)鍵詞和次關(guān)鍵詞之間的區(qū)別。
16.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述一般特征包括頻率、文檔中的位置和大寫(xiě),并且所述語(yǔ)言特征涉及詞性、短語(yǔ)結(jié)構(gòu)和命名實(shí)體信息。
17.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)系統(tǒng),其中,所述一般特征包括頻率特征,所述頻率特征包括以下一個(gè)或更多個(gè):所述網(wǎng)頁(yè)內(nèi)的相對(duì)詞頻和詞頻的對(duì)數(shù),以及所述語(yǔ)言特征涉及詞性、短語(yǔ)結(jié)構(gòu)和命名實(shí)體信息。
18.—種包括由計(jì)算機(jī)處理系統(tǒng)實(shí)現(xiàn)的步驟的方法,所述步驟包括: (a)從網(wǎng)頁(yè)提取文本以產(chǎn)生至少第一組候選關(guān)鍵詞,應(yīng)用語(yǔ)言處理以產(chǎn)生至少第二組候選關(guān)鍵詞,以及將所述第一組候選關(guān)鍵詞和第二組候選關(guān)鍵詞組成第一候選池; (b)接收描述至少所述第一候選池的數(shù)據(jù),并產(chǎn)生第二候選池; (c)接收描述至少所述第二候選池的數(shù)據(jù),并針對(duì)一般特征和語(yǔ)言特征分析所述第二候選池;以及 (d)從所述特征提取單元接收描述至少所述第二候選池的所述數(shù)據(jù)和相關(guān)數(shù)據(jù),并確定所述第二候選池中每個(gè)候選是主關(guān)鍵詞或次關(guān)鍵詞的可能性。
19.一種存儲(chǔ)有軟 件的有形計(jì)算機(jī)可讀介質(zhì),操作用于執(zhí)行如下步驟: (a)從網(wǎng)頁(yè)提取文本以產(chǎn)生至少第一組候選關(guān)鍵詞,應(yīng)用語(yǔ)言處理以產(chǎn)生至少第二組候選關(guān)鍵詞,以及將所述第一組和第二組候選關(guān)鍵詞組成第一候選池; (b)接收描述至少所述第一候選池的數(shù)據(jù),并產(chǎn)生第二候選池; (C)接收描述至少所述第二候選池的數(shù)據(jù),并針對(duì)一般特征和語(yǔ)言特征分析所述第二候選池;以及 (d)從所述特征提取單元接收描述至少所述第二候選池的所述數(shù)據(jù)和相關(guān)數(shù)據(jù),并確定所述第二候選池中每個(gè)候選是主關(guān)鍵詞或次關(guān)鍵詞的可能性。
全文摘要
一個(gè)示例性方面包括一種計(jì)算機(jī)系統(tǒng),包括(a)預(yù)處理單元,從網(wǎng)頁(yè)中提取文本,以產(chǎn)生至少第一組候選關(guān)鍵詞,應(yīng)用語(yǔ)言處理以產(chǎn)生至少第二組候選關(guān)鍵詞,并將所述第一組和第二組候選關(guān)鍵詞組成第一候選池;(b)候選提取單元,從所述預(yù)處理單元接收描述至少所述第一候選池的數(shù)據(jù),并產(chǎn)生第二候選池;(c)特征提取單元,接收描述至少所述第二候選池的數(shù)據(jù),并針對(duì)一般特征和語(yǔ)言特征來(lái)分析所述第二候選池;以及(d)分類單元,從所述特征提取單元接收描述至少所述第二候選池的所述數(shù)據(jù)和相關(guān)數(shù)據(jù),并確定所述第二候選池中每個(gè)候選成為主關(guān)鍵詞或次關(guān)鍵詞的可能性。
文檔編號(hào)G06F7/06GK103201718SQ201180053175
公開(kāi)日2013年7月10日 申請(qǐng)日期2011年11月2日 優(yōu)先權(quán)日2010年11月5日
發(fā)明者佐菲亞·斯坦基維茲, 關(guān)根聰 申請(qǐng)人:樂(lè)天株式會(huì)社