專利名稱:一種基于中文詞對關(guān)系相似度的類比檢索控制方法
技術(shù)領域:
本發(fā)明涉及中文詞對關(guān)系相似度和信息檢索技術(shù)領域,具體地說是基于中文詞對關(guān)系相似度的類比檢索技術(shù)。
背景技術(shù):
隨著WWW的持續(xù)發(fā)展和搜索引擎的不斷進步,網(wǎng)絡搜索變得越來越容易。第一代搜索引擎是以Yah00為代表的人工目錄分類導航檢索的網(wǎng)站搜索,它開始了互聯(lián)網(wǎng)搜索的時代。第二代是以Google為代表的是基于關(guān)鍵詞和特殊算法的搜索,是依靠機器抓取的、建立在超鏈分析基礎上的大規(guī)模網(wǎng)頁搜索,其搜索結(jié)果的準確度從網(wǎng)站上升至了網(wǎng)頁。目前的搜索引擎還存在一些問題,如單一的搜索引擎不能覆蓋整個Internet資源,搜索不夠精確,不能真實反映用戶意圖。下一代搜索引擎的目標是能夠模仿人的一些思維和想法,是 概念的模糊搜索,它通過分析網(wǎng)頁之間的關(guān)聯(lián),建立一種類似人的思維的更智能化的概念分類方式,通過模仿人的思維模式,對要查找的概念進行關(guān)鍵字聯(lián)想和分類來擴大搜索的外延和深度。本發(fā)明希望提出一種新的檢索控制方法。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種基于中文詞對關(guān)系相似度的類比檢索控制方法。根據(jù)本發(fā)明的一個方面,提供一種基于中文詞對關(guān)系相似度的類比檢索控制方法,其用于基于至少一個關(guān)鍵詞檢索獲取至少一個目標詞,其特征在于,包括如下步驟
a.獲取詞對,其中所述詞對為與所述關(guān)鍵詞和所述目標詞相同關(guān)系的詞對;b.根據(jù)所述檢索結(jié)果,抽取包含所述詞對的短句,其中所述短句為同時包含所述詞對的一個完整的句子;c.根據(jù)所述包含所述詞對的短句集合抽取詞對關(guān)系模式集合;d.對所述詞對關(guān)系模式集合中的第一關(guān)系詞集合進行一次聚類以獲得第二關(guān)系詞集合;e.對所述第二關(guān)系詞集合進行二次聚類,并將所述二次聚類獲得的結(jié)果作為第一中間關(guān)系詞集合;g.將所述第一中間關(guān)系詞集合中的關(guān)系詞逐一與所述關(guān)鍵詞形成第一詞對,重復上述步驟a至步驟e,從而針對每一個所述第一詞對得到與所述第一詞對對應的第二中間關(guān)系詞集合,其中,所述關(guān)系詞為所述關(guān)系模式中除所述詞對之外的至少一個詞語;h.將每一個所述第二中間關(guān)系詞集合作為目標詞集合,其中,每一個所述第二中間關(guān)系詞集合中的關(guān)系詞對應一個所述目標詞集合,所述第四關(guān)系詞集合與所述第二中間關(guān)系詞集合形成二維結(jié)果集。優(yōu)選地,在所述步驟e與所述步驟g之間還包括步驟f.對所述第一中間關(guān)系詞集合進行三次聚類,并將所述三次聚類獲得的結(jié)果作為所述第一中間關(guān)系詞集合,其中,所述步驟g中對所述每個第一詞對重復上述步驟a至步驟f。優(yōu)選地,所述步驟a包括如下步驟a’在搜索引擎中檢索所述詞對。優(yōu)選地,所述步驟a包括如下步驟al.將所述詞對的檢索結(jié)果中的標題分條目抽取出來。優(yōu)選地,所述步驟c包括如下步驟cl.抽取所述包含所述詞對的短句的集合中所述每一個短句的關(guān)系模式;c2.將所述關(guān)系模式按照關(guān)系模型進行分組,形成所述詞對關(guān)系模式集合。優(yōu)選地,所述步驟Cl還包括如下步驟cll.將所述包含所述詞對的短句的集合中所述每一個短句分成具有獨立語義的詞語;cl2.將所述每一個短句中的所述每一個具有獨立語義的詞語進行詞性標注;cl3.抽取所述每一個短句中詞性為名詞和動詞的所述具有獨立語義的詞語;cl4.將抽取得到的所述每一個短句中的詞語組合作為所述短句的所述關(guān)系模式。優(yōu)選地,所述步驟c2還包括如下步驟c21.將所述關(guān)系模式與所述關(guān)系模型進 行匹配,具有相同的所述關(guān)系模型的所述關(guān)系模式分為一組;c22.將每一組中相同的所述關(guān)系模式進行合并,并累加所述關(guān)系模式的頻率;c23.將每一組中不同的所述關(guān)系模式進行相似度計算;c24.將所述相似度超過第一閾值的所述關(guān)系模式進行合并,并累加所述關(guān)系模式的頻率;c25.將所有經(jīng)過上述合并操作的所述關(guān)系模式作為所述詞對關(guān)系模式集合,其中所述每個詞對關(guān)系模式對應一個頻率值。優(yōu)選地,所述步驟d包括如下步驟dl.抽取所述詞對關(guān)系模式集合中所述第一關(guān)系詞集合;d2.將所述第一關(guān)系詞集合進行一次聚類,以獲得所述第二關(guān)系詞集合。優(yōu)選地,所述步驟dl還包括如下步驟dll.抽取所述詞對關(guān)系模式集合中所述每一個詞對關(guān)系模式中的關(guān)系詞,其中,所述關(guān)系詞為所述詞對關(guān)系模式中除了所述詞對外的詞語;dl2.將所有所述關(guān)系詞作為所述第一關(guān)系詞集合,其中,所述每個關(guān)系詞對應一個頻率值,所述頻率值為所述關(guān)系詞所在所述詞對關(guān)系模式出現(xiàn)的頻率;
優(yōu)選地,所述步驟d2還包括如下步驟d21.將所述第一關(guān)系詞集合中相同的所述關(guān)系詞進行合并,并累加所述關(guān)系詞對應的所述頻率值;d22.將經(jīng)過上述合并的所述關(guān)系詞根據(jù)所述頻率值進行排序;d23.將經(jīng)過上述排序的所述關(guān)系詞集合作為所述第二關(guān)系詞
隹A
口 O優(yōu)選地,所述步驟e包括如下步驟el.將所述第二關(guān)系詞集合中的所述關(guān)系詞進行分組;e2.將每組中所述關(guān)系詞的所述頻率值最高的所述關(guān)系詞作為候選詞;e3.所述每組選出的候選詞集合作為所述第一中間關(guān)系詞集合;
優(yōu)選地,所述步驟el還包括如下步驟ell.將所述第二關(guān)系詞集合中的所述頻率值最高的所述關(guān)系詞作為中心詞;el2.將所述第二關(guān)系詞集合中的除所述中心詞外所述所有的關(guān)系詞與所述中心詞進行相似度計算;el3.將所述相似度相同的所述關(guān)系詞分為一組。優(yōu)選地,所述步驟f包括如下步驟fl.將所述第一中間關(guān)系詞集合中的所述所有的關(guān)系詞進行兩兩相似度計算;f2.將所述相似度超過第二閾值的所述關(guān)系詞進行合并,并累加所述關(guān)系詞對應的所述頻率值;f3.經(jīng)過上述合并后的關(guān)系詞集合作為所述第~■中間關(guān)系詞集合。優(yōu)選地,所述步驟g前還包括如下步驟il.判斷所述第二中間關(guān)系詞集合是否為所述目標詞集合。;i2.若所述第二中間關(guān)系詞集合不為所述目標詞集合,則繼續(xù)執(zhí)行步驟g。
優(yōu)選地,在所述步驟i2后還包括如下步驟i3.若所述第二中間關(guān)系詞集合為所述目標詞集合,則執(zhí)行步驟h。本發(fā)明基于詞對之間的關(guān)系相似度對搜索關(guān)鍵詞進行類比擴展,假設未知領域信息與已知領域信息在表現(xiàn)形式上具有相似性,通過比較已知領域信息和未知領域信息的關(guān)系相似度可以推測出未知領域的相關(guān)信息。例如,如果某一品牌產(chǎn)品的用戶想搜索其他品牌的產(chǎn)品,她不知道想要的產(chǎn)品的名稱或描述自己想要的產(chǎn)品的關(guān)鍵字,但常用品牌的產(chǎn)品及熟知品牌產(chǎn)品如何工作,產(chǎn)品功能和使用場合等等是用戶熟知的,這是搜索其他品牌產(chǎn)品的一個重要線索。具體來講,大多數(shù)用戶知道ipod,一種蘋果公司銷售的音樂播放器。如果想要查找微軟的相關(guān)產(chǎn)品,他們就要找到ipod和微軟銷售的音樂播放器的類比關(guān)系。更具體的就是,提供一個包含三個詞條的元組,例如(蘋果、iPod、微軟),本發(fā)明就能把Zune查找出來。本領域技術(shù)人員理解,iPod是蘋果公司的音樂播放器,Zune是微軟的音樂播放器。潛在關(guān)系搜索是一種基于中文詞對間類比關(guān)系程度進行檢索的一種新型檢索?!な健τ谟脩舻奈粗I域,可以有效的獲取需要的信息。本發(fā)明采用的方法基于大規(guī)模文本信息統(tǒng)計,可以在實體關(guān)系未知的前提下,找出實體對間存在的多種關(guān)系,然后根據(jù)每個關(guān)系找出此關(guān)系對應的候選項。
通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯
圖I示出了獲得間關(guān)系詞的控制方法的示意 圖2不出18種關(guān)系I旲型的不意 圖3示出本發(fā)明第一實施例的,基于中文詞對關(guān)系相似度的類比檢索方法的流程圖; 圖4示出本發(fā)明第一實施例的,抽取詞對關(guān)系的流程圖;以及 圖5示出本發(fā)明第一實施例的,三次聚類的流程圖。
具體實施例方式通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯
圖I示出了獲得間關(guān)系詞的方法。圖示將查詢作為例子。具體地看,本圖示出本發(fā)明提供的六個處理模型,用戶將需要檢索的詞對經(jīng)過所述六個處理模型的處理最終獲得中間關(guān)系詞集合。具體地,本領域技術(shù)人員理解,所述詞對為與所述關(guān)鍵詞與所述目標詞相同關(guān)系的詞對,例如用戶想要通過關(guān)鍵詞“SQL Server 2008”檢索出目標詞“Microsoft”,因為SQL Server 2008是Microsoft的關(guān)系數(shù)據(jù)庫管理系統(tǒng),而所述用戶已知mySQL是Oracle公司的關(guān)系數(shù)據(jù)庫管理系統(tǒng),則所述用戶可以使用(mySQUOracle)作為所述詞對。更為具體地,所述六個處理模型分別為預處理模型,短句抽取模型,關(guān)系模式抽取模型,聚類模型,二次聚類模型以及三次聚類模型。首先將所述詞對輸入所述預處理模型,所述預處理模型借助現(xiàn)有的搜索引擎,如Google、Bing、Baidu和Wikipedia,將詞對輸入搜索引擎中。從返回的結(jié)果頁面中可以得到一系列包含詞的句子。經(jīng)過所述短句抽取模型的抽取處理得到所述短句集合。所述短句集合又經(jīng)過所述關(guān)系模式抽取模型的匹配抽取處理得到所述詞對關(guān)系模式集合。所述聚類模型對所述詞對關(guān)系模式集合中的所述第一關(guān)系詞集合進行模式聚類得到按頻率排好序的第二關(guān)系詞集合,所述二次聚類模型對所述第二關(guān)系詞集合中的所述關(guān)系詞進行2次聚類得到第一中間關(guān)系詞集合,其中,所述第二關(guān)系詞集合經(jīng)過相似度計算進行分組,選取每組中頻率最高的所述關(guān)系詞得到所述第一中間關(guān)系詞集合,對于所述第一中間關(guān)系詞集合經(jīng)過所述三次聚類模型的聚類處理獲得所述第二中間關(guān)系詞集合。更具體地,本領域技術(shù)人員理解,得到所述第二中間關(guān)系詞集合后,將所述第二中間關(guān)系詞集合中的所述每一個關(guān)系詞結(jié)合所述關(guān)鍵詞形成另一詞對,所述另一詞對將通過所述六個處理模型經(jīng)過搜索引擎中搜索。抽取,聚類得出所述每一個關(guān)系詞對應的更精確的目標詞集合。圖中輸入獲取目標詞D的方法與圖示相同,不再贅述。圖2示出18種關(guān)系模型。具體地,本圖示出的18種關(guān)系模式分別為ηνΧΥ,ΧηνΥ,XYnv,nXvY, nXYv, XnYv, nXY, XnY,XYn,νηΧΥ, XvnY, XYvn, vXnY, νΧΥη, XvYn, νΧΥ, XvY 以及ΧΥν,其中,η為詞性為名詞的一個詞語,V為詞性為動詞的一個詞語,X和Y為所述詞對。例如所述詞對可以是iPod和蘋果,則所述X Y為iPod和蘋果,具體地,本領域技術(shù)人員理解,所述XY的順序并不影響本發(fā)明的實施,因此XY和YX所表達的意義相同,例如所述關(guān)系模 型nvXY與所述關(guān)系模型ηνΥΧ為同一種關(guān)系模型。所述詞對為iPod和蘋果時,所述所述關(guān)系模型nvXY,其組成首先是一個名詞,之后為一個動詞,最后是所述詞對,例如“軟件下載蘋果iPod”,其與所述關(guān)系模型nvXY相匹配;所述所述關(guān)系模型ΧηνΥ,其組成首先是所述詞對中的一個詞語,之后為一個名詞,一個動詞在所述一個名詞后,最后是所述詞對中的另一個詞語,例如“蘋果新品發(fā)布iPod”,其與所述關(guān)系模型XnvY相匹配;所述所述關(guān)系模型ΧΥην,其組成首先是所述詞對,之后為一個名詞,之后是一個動詞,例如“蘋果iPod商品出售”,其與所述關(guān)系模型XYnv相匹配;剩余所述15種關(guān)系模型匹配方法與上述3種關(guān)系模型類似,具體地,在此不予贅述。圖3示出本發(fā)明第一實施例的,基于中文詞對關(guān)系相似度的類比檢索方法的流程圖。具體地,本圖示出了從用戶輸入檢索詞對至最后獲得二維結(jié)果集的整個流程圖,其一共有7個步驟。首先是步驟201,本發(fā)明技術(shù)方案提供的預處理模型根據(jù)用戶輸入的詞對進行檢索,根據(jù)搜索引擎返回的搜索結(jié)果,將標題分條目抽取。所述搜索引擎優(yōu)選地,為百度搜索引擎。具體地,本領域技術(shù)人員理解,所述詞對是用戶根據(jù)目標詞與所述已知關(guān)鍵詞的關(guān)系,輸入的與之相同關(guān)系的另一已知詞對。例如用戶想要通過關(guān)鍵詞“SQL Server 2008”檢索出目標詞“Microsoft”,因為SQL Server 2008是Microsoft的關(guān)系數(shù)據(jù)庫管理系統(tǒng),而所述用戶已知mySQL是Oracle公司的關(guān)系數(shù)據(jù)庫管理系統(tǒng),則所述用戶可以使用(mySQL,Oracle)作為所述詞對。此后是步驟202,抽取包含所述詞對的短句。具體地,本領域技術(shù)人員理解,根據(jù)上述抽取的標題判斷所述詞對之間是否存在任何的空格或標點符號,將所述詞對之間不存在任何的空格的標點符合的所有標題作為短句形成短句集合,以保證詞對出現(xiàn)在一個完整的句子中。例如,當所述詞對為“蘋果”和“iPod”時,所述標題為“蘋果在線_中國蘋果門戶網(wǎng)站_蘋果專賣店蘋果軟件下載iphoneipod”,則為了保證所述詞對出現(xiàn)在一個完整的句子中,該標題抽取出的短句應為“蘋果專賣店蘋果軟件下載iphoneipod”。又例如,當所述詞對為“蘋果”和“ iPod”時,所述標題為“iPod專區(qū)蘋果iPod大全_蘋果MP3報價-ZOL中關(guān)村在線”,則為了保證所述詞對出現(xiàn)在一個完整的句子中,該標題抽取出的短句應為“蘋果iPod大全”。步驟202后是步驟203,根據(jù)所述短句集合,對每一個短句進行相應的分詞,分組匹配,計算頻率等操作。將操作后的短句及其頻率形成詞對關(guān)系模式的集合。所述詞對關(guān)系模式由所述詞語組合構(gòu)成,所述詞語組合包括所述詞對,至少一個名詞或者至少一個動詞。例如,當 所述詞對為“蘋果”和“iPod”時,所述詞對關(guān)系模式可以是“蘋果iPod新品出售”其頻率值為3或者“蘋果新品發(fā)布iPod”其頻率值為5。具體地,所述詞對關(guān)系模式的抽取和頻率計算將在下文說明,在此不予贅述。形成了詞對關(guān)系模式的集合后,執(zhí)行步驟204,提取所述詞對關(guān)系模式中的關(guān)系詞,具體地,本領域技術(shù)人員理解,所述關(guān)系詞為其對應關(guān)系模式中除所述詞對外的詞語,例如,當所述詞對為“蘋果”和“iPod”時,所述詞對關(guān)系模式為“蘋果新品發(fā)布iPod”的關(guān)系詞為“新品”和“發(fā)布”,且所述詞對關(guān)系模式為“蘋果新品發(fā)布iPod”的頻率值為5,則所述關(guān)系詞為“新品”和“發(fā)布”的頻率值也都為5。并將所述關(guān)系詞及其相應的頻率值加入所述第一關(guān)系詞集合。又例如,所述詞對關(guān)系模式為“蘋果iPod新品出售”的關(guān)系詞為“新品”和“出售”,且所述詞對關(guān)系模式為“蘋果iPod新品出售”的頻率值為3,則所述關(guān)系詞為“新品”和“出售”的頻率值也都為
3。并將所述關(guān)系詞及其相應的關(guān)系詞加入所述第一關(guān)系詞集合。形成第一關(guān)系詞集合后,將所述第一關(guān)系詞集合進行去重和頻率累加操作,并根據(jù)頻率將關(guān)系詞進行排序形成第一次聚類后的第二關(guān)系詞集合。具體地,例如所述第一關(guān)系詞集合內(nèi)有“新品”其頻率值為5,“發(fā)布”其頻率值為5,“新品”其頻率值為3以及“出售”其頻率值為3,則首先合并所述關(guān)系詞“新品”,合并后其頻率值為8。經(jīng)所述頻率值排序后得到所述第二關(guān)系詞集合,其包括“新品”其頻率值為8,“發(fā)布”其頻率值為5,以及“出售”其頻率值為3。更具體地,本領域技術(shù)人員理解,當所述關(guān)系詞的頻率值相同時,其優(yōu)選地,可以根據(jù)首字母進行排序,其排序情況不影響本發(fā)明的實施情況,在此不予贅述。第一次聚類后執(zhí)行第二次聚類,也就是步驟205,第二次聚類將第一次聚類后的第二關(guān)系詞集合中頻率最高的關(guān)系詞作為中心詞,例如上述例子中的所述關(guān)系詞“新品”作為所述中心詞,并將集合中其他的關(guān)系詞與所述中心詞進行相似度計算,將相似度相同的分為一組,提取每組中頻率值最高的關(guān)系詞形成第一中間關(guān)系詞集合。之后為第三次聚類,步驟206,通過計算所述關(guān)系詞集合中兩兩關(guān)系詞的相似度,進一步聚類,將相似度超過第二閾值的關(guān)系詞合并加入新的關(guān)系詞集合,對所述第二次聚類后形成的關(guān)系詞集合內(nèi)的關(guān)系詞全部進行上述操作后形成的新的關(guān)系詞集合為第三次聚類后的第二中間關(guān)系詞集合。三次聚類后,執(zhí)行步驟207,判斷三次聚類后得到第二中間關(guān)系詞集合是否為目標詞集合,如果不是目標詞集合。則執(zhí)行步驟208,提取所述三次聚類后的關(guān)系詞集合中的關(guān)系詞與所述欲進行檢索的關(guān)鍵詞作為所述詞對,按上述步驟201至206進行處理,每一個所述三次聚類后的關(guān)系詞集合中的關(guān)系詞,根據(jù)上述操作都將得到一組候選詞集合。步驟207判斷所述候選詞集合為目標詞集合,則最終步驟209,根據(jù)所述關(guān)系詞集合獲得二維結(jié)果集也就是目標詞集合,并將所述二維結(jié)果集返回至用戶。圖4示出本發(fā)明第一實施例的,抽取詞對關(guān)系的流程圖。具體地,本圖示出了本發(fā)明提供的關(guān)系模式抽取模型抽取所述輸入詞對的關(guān)系模式并形成所述關(guān)系模式集合的整個過程,其共有5個步驟。首先是步驟231,對于上述短句集合中的每一個短句,本發(fā)明用中文分詞工具將所述短句分詞。所述分詞工具優(yōu)選地,可以是ICTCLAS分詞工具,其分詞及詞性標注精度達95%以上。分詞后所述短句被分成具有獨立語義的詞語,每個詞語都有詞性標注。對于集合中的每個短句中存在沒有語義的詞語,如停用詞和連詞。根據(jù)詞性標注本發(fā)明可以去除這些無意義的詞語。在本發(fā)明的方法中本發(fā)明只抽取名詞和動詞,這些名詞和動詞代表了整個句子的主干和意義。抽取后的詞語組合構(gòu)成詞語組合集合。其后為步驟232,將所述詞語組合的集合根據(jù)所述句子模式進行分組。具體地,本領域技術(shù)人員理解,為了更好地分組,本發(fā)明提出了一個包含18種模式的模型。如附圖2所示,X代表詞語A,Y代表詞語B,n代表名詞,V代表動詞。對于集合中的每一個詞語組合,本發(fā)明都對其進行句子模式匹配,然后按照其匹配的句子模式歸類到18種句子模式對應的不同分組中。步驟232后為步驟233,在聚類的過程中要對分到同一組中的兩個不同的詞語組合進行相似度計算。具體地,本領域技術(shù)人員理解,所述相似度的計算使用同義詞林。此后為步驟234,根據(jù)所述相似度計算在分組的過程中將句子模式相同且內(nèi)容相同或相似的詞語組合進行頻率累加并記錄。最后為步驟235,將上述操作后的詞語組合及其頻率的集合作為詞對關(guān)系模式的集
口 ο圖5示出本發(fā)明第一實施例的,三次聚類的流程圖。具體地,本圖示出了本發(fā)明提供的基于中文詞對關(guān)系相似度的類比檢索方法中第一次類聚,第二次類聚以及第三次類聚 獲得所述第二中間關(guān)系詞集合的整個過程,其共有9步,首先是步驟241,抽取上述詞對關(guān)系模式集合中每個關(guān)系模式中的關(guān)系得到所述第一關(guān)系詞集合。其后是步驟242,對所述第一關(guān)系詞集合中的關(guān)系詞進行去重即將相同的關(guān)系詞進行合并,并將合并的關(guān)系詞的出現(xiàn)頻率累加。步驟243,所述關(guān)系詞去重以后,根據(jù)每個關(guān)系詞相適應的頻率進行排名,獲得所述第二關(guān)系詞集合。其后為步驟244,對于所述第二關(guān)系詞集合,本發(fā)明選取排名第一的關(guān)系詞為中心詞。計算所述第二關(guān)系詞集合中的任意關(guān)系詞與所述中心詞的詞語相似度。計算完相似度后,為步驟245,根據(jù)所述相似度進行二次分組,將所述相似度相同的關(guān)系詞分到一組中,將每一組中出現(xiàn)頻率最高的關(guān)系詞提取出來作為候選詞。其后為步驟246,所有所述候選詞構(gòu)成所述第一中間關(guān)系詞集合。步驟246后為步驟247,計算所述第一中間關(guān)系詞集合中關(guān)系詞兩兩之間的相似度,進一步對所述關(guān)系詞進行聚類。其后為步驟248,如果計算結(jié)果中兩個詞的相似度超過所述第二閾值就將關(guān)系詞合并重新加入新的關(guān)系詞集合中。最終為步驟249,所述新的關(guān)系詞集合構(gòu)成所述第二中間關(guān)系詞集合。更為具體地,本領域技術(shù)人員理解,在一個優(yōu)選實施例中,可以通過如下步驟來實現(xiàn)本發(fā)明所述的控制方法
步驟一、抽取關(guān)系詞。首先抓取網(wǎng)頁并抽取信息。本發(fā)明使用baidu作為搜索引擎。將詞對輸入搜索引擎中,將會返回一系列的搜索結(jié)果,將這些搜索結(jié)果保存為原始語料。從原始語料中將標題分條目抽取出來。為了提高搜索出的候選詞D的準確性,需要抽取足夠多的語料。步驟二、找到包含A和B的詞條。本發(fā)明的目的是找到包含詞對的句子。為了找到代表A和B兩個詞之間語義關(guān)系的句法模式,本發(fā)明考慮匹配形如的短句,匹配出的字串用t表示。其中P代表標點符號,*代表除空格和標點符號的任意連續(xù)字符,并且A和B詞之間不存在任何的空格或標點符號。在這個前提下,本發(fā)明可以保證A詞和B詞出現(xiàn)在一個完整的句子中。經(jīng)過抽取后,本發(fā)明得到t的集合。步驟三、分詞,抽取主干和聚類。對于集合T中的每一個短句t,本發(fā)明用中文分詞工具將t分詞。分詞后t被分成具有獨立語義的詞語,每個詞語都有詞性標注。本發(fā)明用表標注后的句子的集合。對于中的每個中存在沒有語義的詞語,如停用詞和連詞。根據(jù)詞性標注本發(fā)明可以去除這些無意義的詞語。在本發(fā)明的方法中本發(fā)明只抽取名詞和動詞,這些名詞和動詞代表了整個句子的主干和意義。抽取后的詞語組合S構(gòu)成集合。經(jīng)過上述處理步驟本發(fā)明得到了包含詞語碎片的集合。為了對集合進行聚類,本發(fā)明提出了一個包含18種模式的模型。如附圖2所示,X代表詞語A,Y代表詞語B,n代表名詞,V代表動詞。對于集合中的每一個短句S,本發(fā)明都對其進行句子模式匹配,然后按照其匹配的句子模式歸類到18種句子模式對應的不同分組中。在分組的過程中將句子模式相同且內(nèi)容相同或相似的句子進行頻率累加并記錄,為了實現(xiàn)這一目標,在聚類的過程中要對分到同一組中的兩個不同的s進行相似度計算。相似度的計算使用同義詞林。經(jīng)過聚類以后本發(fā)明得到包含聚類后模式P的集合,每個模式P對應一個頻率值 fo步驟四、關(guān)系排名。將集合中的關(guān)系詞抽取出來,因為在不同的句子結(jié)構(gòu)中抽取出的詞語存在大量重復的現(xiàn)象,所以要對關(guān)系詞進行去重并將出現(xiàn)頻率累加。關(guān)系詞去重以后,根據(jù)頻率值f進行排名,然后得到一個按頻率排好名的詞語集合。步驟五、利用關(guān)系相似度二次聚類。對于集合,本發(fā)明選取排名第一的關(guān)系詞為中心詞。對于任意的,計算與的詞語相似度。計算完相似度后,根據(jù)相似度進行二次分組,相似度相同的詞語被分到一組中,分組后的數(shù)據(jù)集合為。對于,按分組取分組中出現(xiàn)頻率最高的詞語提取出來作為候選詞,得到關(guān)系詞集合。步驟六、第三次聚類獲得關(guān)系詞。在集合依然存在一些關(guān)系相關(guān)度非常高的詞,我們通過計算關(guān)系詞兩兩之間的相關(guān)度,進一步對關(guān)系詞進行聚類。如果兩個詞的相關(guān)度超過閾值就將詞語合并重新加入新的關(guān)系詞集合中,由此我們得到更精確的關(guān)系詞集合。步驟七、獲得目標詞。對于集合中的每一個,按照I到6步對詞對進行處理,最后得到目標詞集合。對于每一個本發(fā)明都得到一組候選詞集合。最終我們得到一個二維結(jié)果集。更為具體地,以下示出了本發(fā)明的另一個實施例,其通過一個具體的例子實現(xiàn)了本發(fā)明所述的控制方法。我們以{(姚明,葉莉);(林丹, )}作為例子,將(姚明,葉莉)輸入搜索引擎中,我們得到完整的包含(姚明,葉莉)的句子,例如
姚明葉莉愛情童話_在線視頻觀看_土豆網(wǎng)視頻姚明葉莉 楊瀾英文專欄泄天機姚明葉莉?qū)殞毷桥畠?圖)一青島新聞網(wǎng) 姚明老婆葉莉姚明老婆葉莉身高是多少/詳情_姚明老婆葉莉,葉莉身... 利用模版抽取句子后我們得到
姚明葉莉愛情童話 姚明葉莉?qū)殞毷桥畠? 姚明老婆葉莉身高是多少 對短句進行分詞后得到
姚明/n葉莉/n愛情/n童話/n 姚明/n葉莉/n寶寶/n是/v女兒/n 姚明/n老婆/n葉莉/n身高/n是/v多少/r 抽取主干后得到姚明/n葉莉/n愛情/n童話/n姚明/n葉莉/n寶寶/n是/v姚明/n老婆/n葉莉/n對于抽取出的關(guān)鍵詞統(tǒng)計詞頻的結(jié)果為(為避免冗余,只列出前十個)婚禮/n 13愛情/n 12婚紗照/n 8澳洲/n 7結(jié)婚照/n 7舉辦/v 6拍/v 6女兒/n 6老婆/n 5攜手/V 4 二次聚類后的結(jié)果為(只列出4組作為示例) 第一組
婚禮1.0 13 第二組
體育 O. 36923076923076925 I第三組
全家福 0.21721212121212127 I 照片 0.21721212121212127 2 合影 O. 21721212121212127 I 結(jié)婚照 0.21721212121212127 7 床頭 O. 21721212121212127 I 第四組
后代 O. 12631578947368424 I千金 O. 12631578947368424 4小孩 O. 12631578947368424 I妻子 O. 12631578947368424 I女兒 O. 12631578947368424 6夫婦 O. 12631578947368424 2孩子 O. 12631578947368424 4老婆 O. 12631578947368424 5寶寶 O. 12631578947368424 3最后我們得到關(guān)系詞如下所示
婚禮 13 I. O
喜酒 I 0.896
歷程 2 0.6153846153846154趣事 4 0.6000000000000001 體育 I O. 36923076923076925 內(nèi)幕 2 O. 28571428571428575 手段 3 O. 2424242424242425 結(jié)婚照 7 O. 21721212121212127 廣告 2 O. 18863157894736846 愛情 12 O. 17142857142857146 體育場 I O. 1666976744186047 新房 I O. 14933333333333335 女兒 6 O. 12631578947368424 有情人 I O. 12193684210526318 美國 2 O. 11162790697674421 澳洲 7 O. 1116279069767442 結(jié)婚 3 0.07407407407407407 新婚 2 0.044444444444444446· 第三次聚類后得到
婚禮14 結(jié)婚照9 愛情12 有情人I 結(jié)婚3 新婚2 新房I 女兒7 體育I 體育場 I 手段3 廣告2 美國3 澳洲I
對于以上關(guān)系詞,例如(林丹,愛情)進行相同過程處理后,我們得到謝杏芳。對于確定關(guān)系的示例,準確匹配到謝杏芳即達到了本發(fā)明的目的。進一步地,本領域技術(shù)人員還理解,在另一個變化例中,優(yōu)選地,提供包含三個關(guān)鍵詞A,B, C,利用本發(fā)明能找出目標關(guān)鍵詞D,其中A與B的關(guān)系近似等于C和D的關(guān)系。例如,輸入詞條A =蘋果,B = iPod, and C =微軟,輸出Zune作為D,其中(蘋果,iPod)和(微軟,Zune)的關(guān)系是幾乎相同的。如果兩個實體之間的關(guān)系是唯一確定的,我們得到唯一的目標候選詞或一組目標候選詞集合。如果兩個詞語具有多種關(guān)系,則可以找出每種關(guān)系對應的一個或多個目標候選詞,進而得到一個具有二維結(jié)構(gòu)的結(jié)果集。以上對本發(fā)明的具體實施例進行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,本領域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實 質(zhì)內(nèi)容。
權(quán)利要求
1.一種基于中文詞對關(guān)系相似度的類比檢索控制方法,其用于基于至少一個關(guān)鍵詞檢索獲取至少一個目標詞,其特征在于,包括如下步驟 a.獲取詞對,其中所述詞對為與所述關(guān)鍵詞和所述目標詞相同關(guān)系的詞對; b.根據(jù)所述檢索結(jié)果,抽取包含所述詞對的短句,其中所述短句為同時包含所述詞對的一個完整的句子; c.根據(jù)所述包含所述詞對的短句集合抽取詞對關(guān)系模式集合; d.對所述詞對關(guān)系模式集合中的第一關(guān)系詞集合進行一次聚類以獲得第二關(guān)系詞集合; e.對所述第二關(guān)系詞集合進行二次聚類,并將所述二次聚類獲得的結(jié)果作為第一中間關(guān)系詞集合; g.將所述第一中間關(guān)系詞集合中的關(guān)系詞逐一與所述關(guān)鍵詞形成第一詞對,重復上述步驟a至步驟e,從而針對每一個所述第一詞對得到與所述第一詞對對應的第二中間關(guān)系詞集合,其中,所述關(guān)系詞為所述關(guān)系模式中除所述詞對之外的至少一個詞語; h.將每一個所述第二中間關(guān)系詞集合作為目標詞集合,其中,每一個所述第二中間關(guān)系詞集合中的關(guān)系詞對應一個所述目標詞集合,所述第四關(guān)系詞集合與所述第二中間關(guān)系詞集合形成二維結(jié)果集。
2.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,在所述步驟e與所述步驟g之間還包括步驟 f.對所述第一中間關(guān)系詞集合進行三次聚類,并將所述三次聚類獲得的結(jié)果作為所述第一中間關(guān)系詞集合, 其中,所述步驟g中對所述每個第一詞對重復上述步驟a至步驟f。
3.根據(jù)權(quán)利要求I或2所述的控制方法,其特征在于,所述步驟a包括如下步驟 a’在搜索引擎中檢索所述詞對。
4.根據(jù)權(quán)利要求I至3中任一項所述的控制方法,其特征在于,所述步驟a包括如下步 驟 al.將所述詞對的檢索結(jié)果中的標題分條目抽取出來。
5.根據(jù)權(quán)利要求I至4中任一項所述的控制方法,其特征在于,所述步驟c包括如下步驟 Cl.抽取所述包含所述詞對的短句的集合中所述每一個短句的關(guān)系模式; c2.將所述關(guān)系模式按照關(guān)系模型進行分組,形成所述詞對關(guān)系模式集合。
6.根據(jù)權(quán)利要求5所述的控制方法,其特征在于,所述步驟Cl還包括如下步驟 cll.將所述包含所述詞對的短句的集合中所述每一個短句分成具有獨立語義的詞語; cl2.將所述每一個短句中的所述每一個具有獨立語義的詞語進行詞性標注; cl3.抽取所述每一個短句中詞性為名詞和動詞的所述具有獨立語義的詞語; cl4.將抽取得到的所述每一個短句中的詞語組合作為所述短句的所述關(guān)系模式。
7.根據(jù)權(quán)利要求5或6所述的控制方法,其特征在于,所述步驟c2還包括如下步驟 c21.將所述關(guān)系模式與所述關(guān)系模型進行匹配,具有相同的所述關(guān)系模型的所述關(guān)系模式分為一組;c22.將每一組中相同的所述關(guān)系模式進行合并,并累加所述關(guān)系模式的頻率; c23.將每一組中不同的所述關(guān)系模式進行相似度計算; c24.將所述相似度超過第一閾值的所述關(guān)系模式進行合并,并累加所述關(guān)系模式的頻率; c25.將所有經(jīng)過上述合并操作的所述關(guān)系模式作為所述詞對關(guān)系模式集合,其中所述每個詞對關(guān)系模式對應一個頻率值。
8.根據(jù)權(quán)利要求I至7中任一項所述的控制方法,其特征在于,所述步驟d包括如下步驟 dl.抽取所述詞對關(guān)系模式集合中所述第一關(guān)系詞集合; d2.將所述第一關(guān)系詞集合進行一次聚類,以獲得所述第二關(guān)系詞集合。
9.根據(jù)權(quán)利要求8所述的控制方法,其特征在于,所述步驟dl還包括如下步驟 dll.抽取所述詞對關(guān)系模式集合中所述每一個詞對關(guān)系模式中的關(guān)系詞,其中,所述關(guān)系詞為所述詞對關(guān)系模式中除了所述詞對外的詞語; dl2.將所有所述關(guān)系詞作為所述第一關(guān)系詞集合,其中,所述每個關(guān)系詞對應一個頻率值,所述頻率值為所述關(guān)系詞所在所述詞對關(guān)系模式出現(xiàn)的頻率。
10.根據(jù)權(quán)利要求8或9所述的控制方法,其特征在于,所述步驟d2還包括如下步驟 d21.將所述第一關(guān)系詞集合中相同的所述關(guān)系詞進行合并,并累加所述關(guān)系詞對應的所述頻率值; d22.將經(jīng)過上述合并的所述關(guān)系詞根據(jù)所述頻率值進行排序; d23.將經(jīng)過上述排序的所述關(guān)系詞集合作為所述第二關(guān)系詞集合。
11.根據(jù)權(quán)利要求I至10中任一項所述的控制方法,其特征在于,所述步驟e包括如下步驟 el.將所述第二關(guān)系詞集合中的所述關(guān)系詞進行分組; e2.將每組中所述關(guān)系詞的所述頻率值最高的所述關(guān)系詞作為候選詞; e3.所述每組選出的候選詞集合作為所述第一中間關(guān)系詞集合; 根據(jù)權(quán)利要求11所述的控制方法,其特征在于,所述步驟el還包括如下步驟ell.將所述第二關(guān)系詞集合中的所述頻率值最高的所述關(guān)系詞作為中心詞;el2.將所述第二關(guān)系詞集合中的除所述中心詞外所述所有的關(guān)系詞與所述中心詞進行相似度計算; el3.將所述相似度相同的所述關(guān)系詞分為一組。
12.根據(jù)權(quán)利要求2至12中任一項所述的控制方法,其特征在于,所述步驟f包括如下步驟 fl.將所述第一中間關(guān)系詞集合中的所述所有的關(guān)系詞進行兩兩相似度計算;f2.將所述相似度超過第二閾值的所述關(guān)系詞進行合并,并累加所述關(guān)系詞對應的所述頻率值; f3.經(jīng)過上述合并后的關(guān)系詞集合作為所述第二中間關(guān)系詞集合。
13.根據(jù)權(quán)利要求I至13中任一項所述的控制方法,其特征在于,所述步驟g前還包括如下步驟 il.判斷所述第二中間關(guān)系詞集合是否為所述目標詞集合。
14.; . 12.若所述第二中間關(guān)系詞集合不為所述目標詞集合,則繼續(xù)執(zhí)行步驟g。
15.根據(jù)權(quán)利要求14所述的控制方法,其特征在于,在所述步驟i2后還包括如下步驟 . 13.若所述第二中間關(guān)系詞集合為所述目標詞集合,則執(zhí)行步驟h。
全文摘要
本發(fā)明提供基于中文詞對關(guān)系相似度類比檢索控制方法,其用于基于關(guān)鍵詞檢索獲取目標詞,包括a.獲取詞對;b.根據(jù)所述檢索結(jié)果抽取包含所述詞對的短句;c.根據(jù)所述包含所述詞對的短句集合抽取詞對關(guān)系模式集合;d.對所述詞對關(guān)系模式集合中的第一關(guān)系詞集合進行一次聚類以獲得第二關(guān)系詞集合;e.對所述第二關(guān)系詞集合進行二次聚類,并將所述二次聚類獲得的結(jié)果作為第一中間關(guān)系詞集合;g.將所述第一中間關(guān)系詞集合中的關(guān)系詞逐一與所述關(guān)鍵詞形成第一詞對,重復步驟a至e;h.將每一個所述第二中間關(guān)系詞集合作為目標詞集合。本發(fā)明基于大規(guī)模文本信息統(tǒng)計,在實體關(guān)系未知的前提下找出實體對間存在的多種關(guān)系,并根據(jù)每個關(guān)系找出對應的候選項。
文檔編號G06F17/30GK102955837SQ20111041540
公開日2013年3月6日 申請日期2011年12月13日 優(yōu)先權(quán)日2011年12月13日
發(fā)明者呂釗, 梁超 申請人:華東師范大學