本發(fā)明一般地涉及信息處理領(lǐng)域。具體而言,本發(fā)明涉及一種能夠?qū)⒍涛谋局械膶嶓w提及與語義知識庫中的實體連接的方法和設(shè)備。
背景技術(shù):
:近年來,隨著互聯(lián)網(wǎng)語義知識庫如dbpedia和短文本信息平臺如微博、短信等的飛速發(fā)展,如何將短文本中的“實體提及(mention)”與互聯(lián)網(wǎng)語義知識庫中的實體(entity)相關(guān)聯(lián),從而將短文本內(nèi)容語義化是語言信息處理領(lǐng)域亟待解決的問題之一。將短文本內(nèi)容語義化使得用戶和計算機可以有效地檢索和利用短文本的語義信息,同時也為實現(xiàn)短文本數(shù)據(jù)的語義分析提供必要的基礎(chǔ)。另外,還可以對互聯(lián)網(wǎng)知識庫進行實時擴充,提高互聯(lián)網(wǎng)知識庫的動態(tài)更新能力。因此,本發(fā)明旨在準確地將短文本中的實體提及與語義知識庫中的實體連接。技術(shù)實現(xiàn)要素:在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應當理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。本發(fā)明的目的是提出一種能夠?qū)⒍涛谋局械膶嶓w提及與語義知識庫中 的實體連接的方法和設(shè)備。為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種將短文本中的實體提及與語義知識庫中的實體連接的方法,該方法包括:從語義知識庫中的實體中,選擇與短文本中的實體提及相關(guān)的候選實體;確定候選實體和實體提及所屬的類別;確定實體提及所屬的類別的最具區(qū)分性的屬性集合;基于該屬性集合,計算屬于該類別的候選實體與實體提及的相似度;以及基于所述相似度,選擇候選實體與實體提及連接。根據(jù)本發(fā)明的另一個方面,提供了一種將短文本中的實體提及與語義知識庫中的實體連接的設(shè)備,該設(shè)備包括:候選實體選擇裝置,被配置為:從語義知識庫中的實體中,選擇與短文本中的實體提及相關(guān)的候選實體;類別確定裝置,被配置為:確定候選實體和實體提及所屬的類別;屬性集合確定裝置,被配置為:確定實體提及所屬的類別的最具區(qū)分性的屬性集合;相似度計算裝置,被配置為:基于該屬性集合,計算屬于該類別的候選實體與實體提及的相似度;以及連接裝置,被配置為:基于所述相似度,選擇候選實體與實體提及連接。另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲介質(zhì)。所述存儲介質(zhì)包括機器可讀的程序代碼,當在信息處理設(shè)備上執(zhí)行所述程序代碼時,所述程序代碼使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。此外,根據(jù)本發(fā)明的再一方面,還提供了一種程序產(chǎn)品。所述程序產(chǎn)品包括機器可執(zhí)行的指令,當在信息處理設(shè)備上執(zhí)行所述指令時,所述指令使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。附圖說明參照下面結(jié)合附圖對本發(fā)明的實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標記來表示。附圖中:圖1示出了根據(jù)本發(fā)明的實施例的將短文本中的實體提及與語義知識庫中的實體連接的方法的流程圖;圖2示出了確定候選實體和實體提及所屬的類別的第一方法的流程圖;圖3示出了確定候選實體和實體提及所屬的類別的第二方法的流程圖;圖4示出了根據(jù)本發(fā)明的實施例的將短文本中的實體提及與語義知識庫中的實體連接的設(shè)備的結(jié)構(gòu)方框圖;以及圖5示出了可用于實施根據(jù)本發(fā)明的實施例的方法和設(shè)備的計算機的示意性框圖。具體實施方式在下文中將結(jié)合附圖對本發(fā)明的示范性實施例進行詳細描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發(fā)任何這種實際實施方式的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符合與系統(tǒng)及業(yè)務相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發(fā)工作有可能是非常復雜和費時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務。在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細節(jié)。另外,還需要指出的是,在本發(fā)明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。下面將參照圖1描述根據(jù)本發(fā)明的實施例的將短文本中的實體提及與語義知識庫中的實體連接的方法的流程。圖1示出了根據(jù)本發(fā)明的實施例的將短文本中的實體提及與語義知識庫中的實體連接的方法的流程圖。如圖1所示,根據(jù)本發(fā)明的實施例的將短文 本中的實體提及與語義知識庫中的實體連接的方法包括如下步驟:從語義知識庫中的實體中,選擇與短文本中的實體提及相關(guān)的候選實體(步驟s1);確定候選實體和實體提及所屬的類別(步驟s2);確定實體提及所屬的類別的最具區(qū)分性的屬性集合(步驟s3);基于該屬性集合,計算屬于該類別的候選實體與實體提及的相似度(步驟s4);以及基于所述相似度,選擇候選實體與實體提及連接(步驟s5)。在步驟s1中,選擇與短文本中的實體提及相關(guān)的候選實體。也就是說,先初步選擇一些潛在的連接對象,作為候選,然后在后續(xù)的步驟中,加以篩選。具體的實現(xiàn)方式有多種。例如,可以將語義知識庫中的實體名與實體提及相同的同名實體,選擇為候選實體。該知識庫包括但不限于與該方法所應用的場景對應的特定知識庫,例如互聯(lián)網(wǎng)語義知識庫wikipedia(維基百科)、dbpedia、baidubaike(百度百科)等。例如當實體提及為“apple”時,從互聯(lián)網(wǎng)語義知識庫中可能搜索到“蘋果”、“美國蘋果公司”等多個候選實體。也可以將語義知識庫中的與同名實體存在等價關(guān)系的實體,選擇為候選實體,其中,等價關(guān)系包括重定向關(guān)系和別稱關(guān)系。例如,對于實體提及“ibm”,在知識庫中搜索得到的內(nèi)容中,包括重定向鏈接“國際商業(yè)機器股份有限公司”,該內(nèi)容可以作為實體提及“ibm”的候選實體?;蛘撸瑢⒄Z義知識庫中的、實體提及作為錨文本鏈接到的實體,選擇為候選實體。對于實體提及“華盛頓”,點擊網(wǎng)頁的錨文本“華盛頓”,鏈接到百科中的“美國首都華盛頓”、鏈接到“美國人華盛頓”,則“美國首都華盛頓”、“美國人華盛頓”可以作為實體提及“華盛頓”的候選實體。又或者,將語義知識庫中的與實體提及存在百科中的消歧關(guān)系的實體,選擇為候選實體。例如,對于實體提及“蘋果”,在知識庫中搜索得到消歧義頁面,其中,“蘋果公司”、“蘋果日報”、“蘋果(電影)”等都可以作為實體提及“蘋果”的候選實體。再如,將語義知識庫中的實體名與實體提及在實體描述文本中具有指代 關(guān)系的實體,選擇為候選實體。還可以將語義知識庫中的實體名與實體提及在實體提及所在的文本中具有指代關(guān)系的實體,選擇為候選實體。其中,是否具有指代關(guān)系根據(jù)語義知識庫中的實體的實體名與實體提及在該實體的實體描述文本或?qū)嶓w提及所在的文本中是否符合特定指代模式確定。是否具有指代關(guān)系也可以依賴于對語義知識庫中的該實體的實體描述文本或該實體提及所在的文本進行文本分析來確定。文本分析包括指代消解。例如,短文本“ibm(國際商業(yè)機器股份有限公司)”、“agriculturalbankofchina(abc)”中括號前和括號中的內(nèi)容、“計算機又稱為電腦”中“又稱為”前后的內(nèi)容、“北京時間3月12日,2013亞冠聯(lián)賽小組賽第二輪,廣州恒大足球俱樂部客場挑戰(zhàn)全北現(xiàn)代,廣州恒大首發(fā)已經(jīng)公布”中的“廣州恒大”和“廣州恒大足球俱樂部”符合特定指代模式,并且可以通過文本分析如指代消解確定具有指代關(guān)系。在步驟s2中,確定候選實體和實體提及所屬的類別。以下給出兩種示例性的實施方式,但本發(fā)明不限于此。類別可以是已有知識庫中實體的分類體系,例如,類別可以分為組織機構(gòu)、人物、地名、建筑物等。至少部分實體在知識庫中存在類型信息,因此使用該信息確定實體提及或無類型信息的候選實體的類別,例如方式一。另外,可以根據(jù)已有類型信息的實體構(gòu)建訓練數(shù)據(jù),訓練分類器,并利用該分類器對無類型信息的候選實體或?qū)嶓w提及進行分類。例如方式二。方式一:利用主題向量確定實體提及或無類型信息的候選實體所屬的類別。圖2示出了確定候選實體和實體提及所屬的類別的第一方法的流程圖。具體地,在步驟s21中,獲得實體提及所在的文本或無類型信息的候選實體的實體描述文本(例如,主題subject、注釋說明comment、摘要abstract)對應的第一主題向量。可以通過將實體提及所在的文本或無類型信息的候選實體的實體描述文本輸入主題模型來獲得該向量。在步驟s22中,獲得每一類別的實體的實體描述文本對應的第二主題向量。可以通過將每一類別的實體的實體描述文本輸入主題模型來獲得該向量。在步驟s23中,計算第一主題向量與每一類別的第二主題向量的平均相似度。也就是說,分別計算第一主題向量與每一類別的一個或更多個實體對應的一個或更多個第二主題向量之間的相似度,向量的相似度例如基于余弦夾角計算,然后計算每一類別下的相似度的平均值。在步驟s24中,將平均相似度最大的類別確定為實體提及或無類型信息的候選實體所屬的類別。即,比較每一類別的平均相似度的大小,選取其中的最大平均相似度,將與最大平均相似度對應的類別確定為實體提及或無類型信息的候選實體所屬的類別。方式二:利用分類器確定候選實體和實體提及所屬的類別。圖3示出了確定候選實體和實體提及所屬的類別的第二方法的流程圖。具體地,在步驟s31中,基于如下特征中的至少一個,訓練分類器:每一類別的實體的實體描述文本與預定義模板的匹配情況、所述實體描述文本是否包含每一類別相關(guān)的關(guān)鍵詞、每一類別的實體在百科中對應的主題信息、每一類別的實體關(guān)聯(lián)的屬性類型。預定義模板特征:每一類別的實體的實體描述文本與預定義模板的匹配情況是指預定義模板能夠匹配每一類別的實體的實體描述文本,則該特征為1,否則為0。預定義模板的示例如下,左側(cè)列出了多個示例類別,右側(cè)列出了與類別分別對應的預定義模板示例。關(guān)鍵詞特征:每一類別的實體的實體描述文本是否包含每一類別相關(guān)的關(guān)鍵詞是指從每一類別的實體的實體描述文本中抽取一些關(guān)鍵詞,作為每一類別相關(guān)的關(guān)鍵詞。判斷每一類別的實體的實體描述文本中是否包括這些關(guān)鍵詞,如果包含這些關(guān)鍵詞中的至少一個,則該特征為1,否則為0。每一類別相關(guān)的關(guān)鍵詞的示例如下,左側(cè)列出了多個示例類別,右側(cè)列出了與類別分別對應的關(guān)鍵詞示例。百科主題特征:每一類別的實體在百科中對應的主題信息例如是實體青龍山在例如百度百科中的主題信息。判斷每一類別的實體的實體描述文本中是否包括這些主題信息,如果包含這些主題信息中的至少一個,則該特征為1,否則為0。每一類別相關(guān)的主題信息的示例如下,左側(cè)列出了多個示例類別,右側(cè)列出了與類別分別對應的主題信息示例。關(guān)聯(lián)屬性類型特征:每一類別的實體關(guān)聯(lián)的屬性類型是指每一類別的實體在知識庫中具有常見或固有的若干類型的屬性。例如,類別為“人”的實體通常包括“出生日期”、“出生地點”、“國籍”等屬性。類別為“公司”的實體通常包括“注冊地址”、“成立時間”、“經(jīng)營范圍”等屬性。判斷每一類別的實體是否包括這些屬性,如果包含這些屬性中的至少一個,則該特征為 1,否則為0。在步驟s32中,利用分類器,對候選實體和實體提及進行分類。進行分類時,預定義模板特征、關(guān)鍵詞特征、百科主題特征都是基于候選實體的實體描述文本、實體提及所在的文本,關(guān)聯(lián)屬性類型特征基于候選實體和實體提及本身。在步驟s3中,確定實體提及所屬的類別的最具區(qū)分性的屬性集合。將屬性區(qū)分度大于區(qū)分閾值的屬性,確定為該類別的最具區(qū)分性的屬性集合中的屬性。下面給出了屬性的屬性區(qū)分度的兩種示例性計算方式。方式一:針對語義知識庫中每個類別下的每個屬性,統(tǒng)計語義知識庫中該屬性在該類別下出現(xiàn)的第一頻率;統(tǒng)計語義知識庫中該類別下該屬性的每個屬性值在該屬性下出現(xiàn)次數(shù)相關(guān)的第二頻率;計算第一頻率與第二頻率之積,作為該類別下的該屬性的屬性區(qū)分度。舉例來說,對某一類候選實體集合e,e中的每個候選實體ei具有m(ei)個屬性、m(ei)個屬性值vj,為了簡單起見,這里假設(shè)一個屬性對應一個屬性值,其中i和j是序號。統(tǒng)計e中屬性的第一頻率pf,以及屬性值的第二頻率ief。pf為屬性p在集合e所有屬性中出現(xiàn)的頻率,ief計算方法如下,該屬性的每個屬性值在該屬性下出現(xiàn)的次數(shù)的倒數(shù)進行求和,然后再除以該屬性出現(xiàn)的總數(shù)。在表1的例子中,p1對應的pf=3,p1對應的屬性值有v1,v4,v7,那么p1對應的ief=(1/1+1/1+1/1)/3=1.0。p2對應的pf=3,p2對應的屬性值有v2和v5,其中v2出現(xiàn)一次,v5出現(xiàn)2次,那么p2對應的ief=(1/1+1/2)/3=0.5。p3對應的pf=3,p3對應的屬性值只有v3,那么p3對應的ief=(1/3)/3=0.11。那么e所對應類別下的p1、p2、p3的屬性區(qū)分度分別為3*1.0=3.0、3*0.5=1.5、3*0.11=0.33??梢栽O(shè)定區(qū)分閾值δ,大于δ的屬性構(gòu)成該類別的最具區(qū)分性的屬性集合。并且,將該類別的最具區(qū)分性的屬性集合中的屬性的屬性區(qū)分度歸一化。實體屬性屬性值e1p1v1p2v2p3v3e2p1v4p2v5p3v3p4v6e3p1v7p2v5p3v3表1.候選實體屬性及其屬性值示例方式二:針對語義知識庫中每個類別下的每個屬性,計算關(guān)于實體與屬性值的相關(guān)性矩陣;將相關(guān)性矩陣的每一列的最大值相加,所得到的和作為該類別下的該屬性的屬性區(qū)分度。例如,對于某一類別下的某一屬性p,根據(jù)點互信息(pmi,pointwisemutualinformation)函數(shù)計算概率p(ei|vj)得到相關(guān)性矩陣m,其中ei為實體,vj為屬性值。例如,對屬性p1、p2、p3分別得到矩陣m1、m2、m3,如下所示。v1v2v3e10.10.20.5e20.20.70.4e30.80.30.1m1v1v2v3e10.10.10.9e20.00.80.0e30.90.10.1m2v1v2v3e10.30.40.3e20.40.30.3e30.30.30.4m3將相關(guān)性矩陣m的每一列的最大值相加,所得到的和作為該類別下的該屬性p的屬性區(qū)分度。例如,對于屬性p1,屬性區(qū)分度=0.8+0.7+0.5=2.0。對于屬性p2,屬性區(qū)分度=0.9+0.8+0.9=2.6。對于屬性p3,屬性區(qū)分度=0.4+0.4+0.4=1.2??梢栽O(shè)定區(qū)分閾值δ,大于δ的屬性構(gòu)成該類別的最具區(qū)分性的屬性集合。并且,將該類別的最具區(qū)分性的屬性集合中的屬性的屬性區(qū)分度歸一化。以上兩種方式可以分別獲得兩種屬性區(qū)分度。既可以使用其中一種方式計算屬性區(qū)分度,也可以將兩種屬性區(qū)分度合并,以獲得最終的屬性區(qū)分度。合并的方法例如是將兩者加權(quán)求和,其中權(quán)重的總和等于一。在步驟s4中,基于該屬性集合,計算屬于該類別的候選實體與實體提及的相似度。具體地,從實體提及所在的文本中,利用關(guān)系抽取/分類技術(shù),提取實體提及的、該屬性集合的屬性的屬性值;然后,基于屬于該類別的候選實體的、該屬性集合的屬性的屬性值與實體提及的對應屬性值之間的相似度,計算該候選實體與該實體提及的相似度。也就是說,對于屬于同一類別的候選實體與實體提及,基于該類別的最具區(qū)分性的屬性集合中的屬性,比較其屬性值的相似度,作為候選實體與實體提及的相似度。例如,候選實體entity與實體提及mention的相似度sim(mention,entity)=∑sim(vi(mention),vi(entity))其中,sim(vi(mention),vi(entity)是實體提及mention和候選實體entity的屬性pi對應屬性值vi的相似度。此外,在優(yōu)選實施例中,還基于該候選實體與該實體提及的互指概率和該屬性集合的各個屬性的屬性區(qū)分度中的至少一個,計算該候選實體與該實體提及的相似度。例如,候選實體entity與實體提及mention的相似度sim(mention,entity)=∑weight(pi)*sim(vi(mention),vi(entity))其中,weight(pi)是屬性pi的屬性區(qū)分度,sim(vi(mention),vi(entity) 是實體提及mention和候選實體entity的屬性pi對應屬性值vi的相似度。也就是說,計算候選實體與實體提及的相似度時,還可利用候選實體與實體提及的互指概率、該類別的最具區(qū)分性的屬性集合中的屬性的屬性區(qū)分度這兩方面的信息。其中,實體提及與候選實體的互指概率表明選擇該候選實體的過程中所利用的信息的可靠性。也就是說,在之前的步驟s1中,從語義知識庫中的實體中,選擇與短文本中的實體提及相關(guān)的候選實體。由于采用多種方式獲得候選實體,根據(jù)候選實體的來源,可以給出不同的互指概率,表明候選實體被選擇時利用的信息的可靠程度。例如,候選實體e、實體提及m的互指概率為p(e|m)。如果候選實體e來源于語義知識庫中的同名實體,則互指概率p(e|m)=1/r,r為同名實體的總數(shù)。如果候選實體e來源于等價關(guān)系(重定向關(guān)系、別稱關(guān)系),則互指概率p(e|m)=1。如果候選實體e來源于特定模式的指代關(guān)系,則互指概率p(e|m)=1。如果候選實體e來源于消岐頁面,則互指概率p(e|m)=1/k,k為歧義的實體總數(shù)。如果候選實體e來源于互聯(lián)網(wǎng)的錨文本,則互指概率p(e|m)=w/n,w為實體提及與錨文本鏈接到的實體存在的鏈接數(shù),n為實體提及與所有實體存在的鏈接數(shù)。在步驟s5中,基于所述相似度,選擇候選實體與實體提及連接。具體地,選擇相似度大于相似度閾值的候選實體,將其與實體提及連接。另外,在所述相似度均小于相似度閾值的情況下,將實體提及作為新的實體加入到語義知識庫中。下面,將參照圖4描述根據(jù)本發(fā)明的實施例的將短文本中的實體提及與語義知識庫中的實體連接的設(shè)備。圖4示出了根據(jù)本發(fā)明的實施例的將短文本中的實體提及與語義知識庫中的實體連接的設(shè)備的結(jié)構(gòu)方框圖。如圖4所示,根據(jù)本發(fā)明的連接設(shè)備400包括:候選實體選擇裝置41,被配置為:從語義知識庫中的實體中,選擇與短文本中的實體提及相關(guān)的候選實體;類別確定裝置42,被配置為:確定候選實體和實體提及所屬的類別;屬性集合確定裝置43,被配置為:確定實體提及所屬的類別的最具區(qū)分性的屬性集合;相似度計算裝置44,被配置為:基于該屬性集合,計算屬于該類別的候選實體與實體提及的相似度;以及連接裝置45,被配置為:基于所述相似度,選擇候選實體與實體提及連接。在一個實施例中,候選實體選擇裝置41被進一步配置為執(zhí)行以下操作之一:將語義知識庫中的實體名與實體提及相同的同名實體,選擇為候選實體;將語義知識庫中的與同名實體存在等價關(guān)系的實體,選擇為候選實體;將語義知識庫中的實體名與實體提及在實體描述文本中具有指代關(guān)系的實體,選擇為候選實體;將語義知識庫中的與實體提及存在百科中的消歧關(guān)系的實體,選擇為候選實體;將語義知識庫中的、實體提及作為錨文本鏈接到的實體,選擇為候選實體;將語義知識庫中的實體名與實體提及在實體提及所在的文本中具有指代關(guān)系的實體,選擇為候選實體。在一個實施例中,是否具有指代關(guān)系根據(jù)如下兩者之一確定:語義知識庫中的實體的實體名與實體提及在該實體的實體描述文本或?qū)嶓w提及所在的文本中是否符合特定指代模式;或者對語義知識庫中的該實體的實體描述文本或該實體提及所在的文本進行文本分析。在一個實施例中,類別確定裝置42被進一步配置為:獲得與實體提及所在的文本或無類型信息的候選實體的實體描述文本對應的第一主題向量;獲得每一類別的實體的實體描述文本對應的第二主題向量;計算第一主題向量與每一類別的第二主題向量的平均相似度;將平均相似度最大的類別確定為實體提及或無類型信息的候選實體所屬的類別。在一個實施例中,類別確定裝置42被進一步配置為:基于如下特征中的至少一個,訓練分類器:每一類別的實體的實體描述文本與預定義模板的匹配情況、所述實體描述文本是否包含每一類別相關(guān)的關(guān)鍵詞、每一類別的 實體在百科中對應的主題信息、每一類別的實體關(guān)聯(lián)的屬性類型;利用分類器,對候選實體和實體提及進行分類。在一個實施例中,相似度計算裝置44被進一步配置為:從實體提及所在的文本中,提取實體提及的、該屬性集合的屬性的屬性值;基于屬于該類別的候選實體的、該屬性集合的屬性的屬性值與實體提及的對應屬性值之間的相似度,計算該候選實體與該實體提及的相似度。在一個實施例中,相似度計算裝置44被進一步配置為:還基于該候選實體與該實體提及的互指概率和該屬性集合的各個屬性的屬性區(qū)分度中的至少一個,計算該候選實體與該實體提及的相似度。在一個實施例中,屬性集合確定裝置43被進一步配置為:通過執(zhí)行如下操作獲得屬性的屬性區(qū)分度:針對語義知識庫中每個類別下的每個屬性,統(tǒng)計語義知識庫中該屬性在該類別下出現(xiàn)的第一頻率;統(tǒng)計語義知識庫中該類別下該屬性的每個屬性值在該屬性下出現(xiàn)次數(shù)相關(guān)的第二頻率;計算第一頻率與第二頻率之積,作為該類別下的該屬性的屬性區(qū)分度;并且將屬性區(qū)分度大于區(qū)分閾值的屬性,確定為該類別的最具區(qū)分性的屬性集合中的屬性。在一個實施例中,屬性集合確定裝置43被進一步配置為:通過執(zhí)行如下操作獲得屬性的屬性區(qū)分度:針對語義知識庫中每個類別下的每個屬性,計算關(guān)于實體與屬性值的相關(guān)性矩陣;將相關(guān)性矩陣的每一列的最大值相加,所得到的和作為該類別下的該屬性的屬性區(qū)分度;并且將屬性區(qū)分度大于區(qū)分閾值的屬性,確定為該類別的最具區(qū)分性的屬性集合中的屬性。在一個實施例中,連接裝置45被進一步配置為:選擇相似度大于相似度閾值的候選實體,將其與實體提及連接;其中,在所述相似度均小于相似度閾值的情況下,連接裝置45將實體提及作為新的實體加入到語義知識庫中。由于在根據(jù)本發(fā)明的連接設(shè)備400中所包括的各個裝置中的處理分別與上面描述的連接方法中所包括的各個步驟中的處理類似,因此為了簡潔起 見,在此省略這些裝置和單元的詳細描述。此外,這里尚需指出的是,上述設(shè)備中各個組成裝置、單元可以通過軟件、固件、硬件或其組合的方式進行配置。配置可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知,在此不再贅述。在通過軟件或固件實現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡向具有專用硬件結(jié)構(gòu)的計算機(例如圖5所示的通用計算機500)安裝構(gòu)成該軟件的程序,該計算機在安裝有各種程序時,能夠執(zhí)行各種功能等。圖5示出了可用于實施根據(jù)本發(fā)明的實施例的方法和設(shè)備的計算機的示意性框圖。在圖5中,中央處理單元(cpu)501根據(jù)只讀存儲器(rom)502中存儲的程序或從存儲部分508加載到隨機存取存儲器(ram)503的程序執(zhí)行各種處理。在ram503中,還根據(jù)需要存儲當cpu501執(zhí)行各種處理等等時所需的數(shù)據(jù)。cpu501、rom502和ram503經(jīng)由總線504彼此連接。輸入/輸出接口505也連接到總線504。下述部件連接到輸入/輸出接口505:輸入部分506(包括鍵盤、鼠標等等)、輸出部分507(包括顯示器,比如陰極射線管(crt)、液晶顯示器(lcd)等,和揚聲器等)、存儲部分508(包括硬盤等)、通信部分509(包括網(wǎng)絡接口卡比如lan卡、調(diào)制解調(diào)器等)。通信部分509經(jīng)由網(wǎng)絡比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器510也可連接到輸入/輸出接口505??刹鹦督橘|(zhì)511比如磁盤、光盤、磁光盤、半導體存儲器等等可以根據(jù)需要被安裝在驅(qū)動器510上,使得從中讀出的計算機程序根據(jù)需要被安裝到存儲部分508中。在通過軟件實現(xiàn)上述系列處理的情況下,從網(wǎng)絡比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)511安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應當理解,這種存儲介質(zhì)不局限于圖5所示的其中存儲有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)511。可拆卸介質(zhì)511的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(cd-rom)和數(shù)字通用盤(dvd))、磁光盤(包含迷你盤(md)(注冊商標)) 和半導體存儲器?;蛘?,存儲介質(zhì)可以是rom502、存儲部分508中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。本發(fā)明還提出一種存儲有機器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機器讀取并執(zhí)行時,可執(zhí)行上述根據(jù)本發(fā)明的實施例的方法。相應地,用于承載上述存儲有機器可讀取的指令代碼的程序產(chǎn)品的存儲介質(zhì)也包括在本發(fā)明的公開中。所述存儲介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等等。在上面對本發(fā)明具體實施例的描述中,針對一種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特征相組合,或替代其它實施方式中的特征。應該強調(diào),術(shù)語“包括/包含”在本文使用時指特征、要素、步驟或組件的存在,但并不排除一個或更多個其它特征、要素、步驟或組件的存在或附加。此外,本發(fā)明的方法不限于按照說明書中描述的時間順序來執(zhí)行,也可以按照其他的時間順序地、并行地或獨立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對本發(fā)明的技術(shù)范圍構(gòu)成限制。盡管上面已經(jīng)通過對本發(fā)明的具體實施例的描述對本發(fā)明進行了披露,但是,應該理解,上述的所有實施例和示例均是示例性的,而非限制性的。本領(lǐng)域的技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設(shè)計對本發(fā)明的各種修改、改進或者等同物。這些修改、改進或者等同物也應當被認為包括在本發(fā)明的保護范圍內(nèi)。附記1.一種將短文本中的實體提及與語義知識庫中的實體連接的方法,包括:從語義知識庫中的實體中,選擇與短文本中的實體提及相關(guān)的候選實體;確定候選實體和實體提及所屬的類別;確定實體提及所屬的類別的最具區(qū)分性的屬性集合;基于該屬性集合,計算屬于該類別的候選實體與實體提及的相似度;以及基于所述相似度,選擇候選實體與實體提及連接。2.如附記1所述的方法,從語義知識庫中的實體中,選擇與短文本中的實體提及相關(guān)的候選實體包括如下方式之一:將語義知識庫中的實體名與實體提及相同的同名實體,選擇為候選實體;將語義知識庫中的與同名實體存在等價關(guān)系的實體,選擇為候選實體;將語義知識庫中的實體名與實體提及在實體描述文本中具有指代關(guān)系的實體,選擇為候選實體;將語義知識庫中的與實體提及存在百科中的消歧關(guān)系的實體,選擇為候選實體;將語義知識庫中的、實體提及作為錨文本鏈接到的實體,選擇為候選實體;將語義知識庫中的實體名與實體提及在實體提及所在的文本中具有指代關(guān)系的實體,選擇為候選實體。3.如附記2所述的方法,其中是否具有指代關(guān)系根據(jù)如下兩者之一確定:語義知識庫中的實體的實體名與實體提及在該實體的實體描述文本或?qū)嶓w提及所在的文本中是否符合特定指代模式;或者對語義知識庫中的該實體的實體描述文本或該實體提及所在的文本進行文本分析。4.如附記1所述的方法,其中確定實體提及所屬的類別包括:獲得與實體提及所在的文本或無類型信息的候選實體的實體描述文本對應的第一主題向量;獲得每一類別的實體的實體描述文本對應的第二主題向量;計算第一主題向量與每一類別的第二主題向量的平均相似度;將平均相似度最大的類別確定為實體提及或無類型信息的候選實體所屬的類別。5.如附記1所述的方法,其中確定候選實體和實體提及所屬的類別包括:基于如下特征中的至少一個,訓練分類器:每一類別的實體的實體描述文本與預定義模板的匹配情況、所述實體描述文本是否包含每一類別相關(guān)的關(guān)鍵詞、每一類別的實體在百科中對應的主題信息、每一類別的實體關(guān)聯(lián)的屬性類型;利用分類器,對候選實體和實體提及進行分類。6.如附記1所述的方法,其中基于該屬性集合,計算屬于該類別的候選實體與實體提及的相似度包括:從實體提及所在的文本中,提取實體提及的、該屬性集合的屬性的屬性值;基于屬于該類別的候選實體的、該屬性集合的屬性的屬性值與實體提及的對應屬性值之間的相似度,計算該候選實體與該實體提及的相似度。7.如附記6所述的方法,其中基于該屬性集合,計算屬于該類別的候選實體與實體提及的相似度包括:還基于該候選實體與該實體提及的互指概率和該屬性集合的各個屬性的屬性區(qū)分度中的至少一個,計算該候選實體與該實體提及的相似度。8.如附記1所述的方法,確定實體提及所屬的類別的最具區(qū)分性的屬性集合包括:將屬性區(qū)分度大于區(qū)分閾值的屬性,確定為該類別的最具區(qū)分性的屬性集合中的屬性;其中屬性的屬性區(qū)分度通過如下方式獲得:針對語義知識庫中每個類別下的每個屬性,統(tǒng)計語義知識庫中該屬性在該類別下出現(xiàn)的第一頻率;統(tǒng)計語義知識庫中該類別下該屬性的每個屬性值在該屬性下出現(xiàn)次數(shù)相關(guān)的第二頻率;計算第一頻率與第二頻率之積,作為該類別下的該屬性的屬性區(qū)分度。9.如附記1所述的方法,其中確定實體提及所屬的類別的最具區(qū)分性的屬性集合包括:將屬性區(qū)分度大于區(qū)分閾值的屬性,確定為該類別的最具區(qū)分性的屬性集合中的屬性;屬性的屬性區(qū)分度通過如下方式獲得:針對語義知識庫中每個類別下的每個屬性,計算關(guān)于實體與屬性值的相關(guān)性矩陣;將相關(guān)性矩陣的每一列的最大值相加,所得到的和作為該類別下的該屬性的屬性區(qū)分度。10.如附記1所述的方法,其中基于所述相似度,選擇候選實體與實體提及連接包括:選擇相似度大于相似度閾值的候選實體,將其與實體提及連接;其中,在所述相似度均小于相似度閾值的情況下,將實體提及作為新的實體加入到語義知識庫中。11.一種將短文本中的實體提及與語義知識庫中的實體連接的設(shè)備,包括:候選實體選擇裝置,被配置為:從語義知識庫中的實體中,選擇與短文本中的實體提及相關(guān)的候選實體;類別確定裝置,被配置為:確定候選實體和實體提及所屬的類別;屬性集合確定裝置,被配置為:確定實體提及所屬的類別的最具區(qū)分性的屬性集合;相似度計算裝置,被配置為:基于該屬性集合,計算屬于該類別的候選實體與實體提及的相似度;以及連接裝置,被配置為:基于所述相似度,選擇候選實體與實體提及連接。12.如附記11所述的設(shè)備,候選實體選擇裝置被進一步配置為執(zhí)行以下操作之一:將語義知識庫中的實體名與實體提及相同的同名實體,選擇為候選實體;將語義知識庫中的與同名實體存在等價關(guān)系的實體,選擇為候選實體;將語義知識庫中的實體名與實體提及在實體描述文本中具有指代關(guān)系的實體,選擇為候選實體;將語義知識庫中的與實體提及存在百科中的消歧關(guān)系的實體,選擇為候選實體;將語義知識庫中的、實體提及作為錨文本鏈接到的實體,選擇為候選實體;將語義知識庫中的實體名與實體提及在實體提及所在的文本中具有指代關(guān)系的實體,選擇為候選實體。13.如附記12所述的設(shè)備,其中是否具有指代關(guān)系根據(jù)如下兩者之一確定:語義知識庫中的實體的實體名與實體提及在該實體的實體描述文本或?qū)嶓w提及所在的文本中是否符合特定指代模式;或者對語義知識庫中的該實體的實體描述文本或該實體提及所在的文本進行文本分析。14.如附記11所述的設(shè)備,其中類別確定裝置被進一步配置為:獲得與實體提及所在的文本或無類型信息的候選實體的實體描述文本對應的第一主題向量;獲得每一類別的實體的實體描述文本對應的第二主題向量;計算第一主題向量與每一類別的第二主題向量的平均相似度;將平均相似度最大的類別確定為實體提及或無類型信息的候選實體所屬的類別。15.如附記11所述的設(shè)備,其中類別確定裝置被進一步配置為:基于如下特征中的至少一個,訓練分類器:每一類別的實體的實體描述文本與預定義模板的匹配情況、所述實體描述文本是否包含每一類別相關(guān)的關(guān)鍵詞、每一類別的實體在百科中對應的主題信息、每一類別的實體關(guān)聯(lián)的屬性類型;利用分類器,對候選實體和實體提及進行分類。16.如附記11所述的設(shè)備,其中相似度計算裝置被進一步配置為:從實體提及所在的文本中,提取實體提及的、該屬性集合的屬性的屬性值;基于屬于該類別的候選實體的、該屬性集合的屬性的屬性值與實體提及的對應屬性值之間的相似度,計算該候選實體與該實體提及的相似度。17.如附記16所述的設(shè)備,其中相似度計算裝置被進一步配置為:還基于該候選實體與該實體提及的互指概率和該屬性集合的各個屬性的屬性區(qū)分度中的至少一個,計算該候選實體與該實體提及的相似度。18.如附記11所述的設(shè)備,其中屬性集合確定裝置被進一步配置為:通過執(zhí)行如下操作獲得屬性的屬性區(qū)分度:針對語義知識庫中每個類別下的每個屬性,統(tǒng)計語義知識庫中該屬性在該類別下出現(xiàn)的第一頻率;統(tǒng)計語義知識庫中該類別下該屬性的每個屬性值在該屬性下出現(xiàn)次數(shù)相關(guān)的第二頻率;計算第一頻率與第二頻率之積,作為該類別下的該屬性的屬性區(qū)分度;并且將屬性區(qū)分度大于區(qū)分閾值的屬性,確定為該類別的最具區(qū)分性的屬性集合中的屬性。19.如附記11所述的設(shè)備,其中屬性集合確定裝置被進一步配置為:通過執(zhí)行如下操作獲得屬性的屬性區(qū)分度:針對語義知識庫中每個類別下的每個屬性,計算關(guān)于實體與屬性值的相關(guān)性矩陣;將相關(guān)性矩陣的每一列的最大值相加,所得到的和作為該類別下的該屬性的屬性區(qū)分度;并且將屬性區(qū)分度大于區(qū)分閾值的屬性,確定為該類別的最具區(qū)分性的屬性集合中的屬性。20.如附記11所述的設(shè)備,其中連接裝置被進一步配置為:選擇相似度大于相似度閾值的候選實體,將其與實體提及連接;其中,在所述相似度均小于相似度閾值的情況下,連接裝置將實體提及作為新的實體加入到語義知識庫中。當前第1頁12