一種基于自然語言的信息搜索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理,特別涉及一種自然語言檢索方法。
【背景技術(shù)】
[0002]關(guān)鍵詞語義近似性的研究在文本搜索應(yīng)用中都是一個重要的問題。例如主題檢測、推薦查詢等。近年來隨著網(wǎng)絡(luò)的快速發(fā)展,在許多基于金融領(lǐng)域的Web相關(guān)任務(wù)中關(guān)鍵詞語義近似性的計算也越來越重要。現(xiàn)有金融相關(guān)搜索引擎都提供一系列相關(guān)詞來幫助用戶找到最想要的結(jié)果,從而改善用戶的搜索體驗和檢索效率。在金融信息領(lǐng)域,關(guān)鍵詞語義近似性的計算也起著重要的作用。然而現(xiàn)有的基于Web的關(guān)鍵詞語義近似性的計算方法沒有考慮到搜索引擎反饋的結(jié)果中存在干擾和重復(fù)。干擾的來源主要是關(guān)鍵詞隨機地出現(xiàn)在一些文檔中,這將會降低文檔搜索數(shù)量的準(zhǔn)確度。很多重復(fù)出現(xiàn)的文檔使得搜索結(jié)果數(shù)量不可信。
【發(fā)明內(nèi)容】
[0003]為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種基于自然語言的信息搜索方法,包括:
[0004]接收用戶輸入的至少第一和第二關(guān)鍵詞,
[0005]對第一和第二關(guān)鍵詞分別進(jìn)行檢索,獲得包含所述關(guān)鍵詞相應(yīng)第一和第二的文檔數(shù)量;
[0006]對第一和第二關(guān)鍵詞進(jìn)行與操作的結(jié)果進(jìn)行檢索,獲得包含與操作結(jié)果的第三文檔數(shù)量;
[0007]根據(jù)所述第一、第二和第三文檔數(shù)量計算所述第一和第二關(guān)鍵詞的近似性。
[0008]優(yōu)選地,所述對第一和第二關(guān)鍵詞進(jìn)行與操作的結(jié)果進(jìn)行檢索,進(jìn)一步包括:
[0009]在第一關(guān)鍵詞a和第二關(guān)鍵詞b的與操作的檢索結(jié)果a n b中,將關(guān)鍵詞a和b在同一個語句中共同出現(xiàn)的檢索結(jié)果分段表示為語義分段,并計算所述語義分段在前η個分段中的比例,記為K(a Π b),其中η為預(yù)設(shè)分段數(shù);利用N(a Π b)表示檢索與操作結(jié)果“a AND b”的第三文檔數(shù)量;利用N(a Π b)*K(a Π b)計算關(guān)鍵詞之間的近似性:
[0010]SimK (a,b) = N (a 門 b) *K (a 門 b) / (N (a) +N (b) _N (a Π b) *K (a 門 b))
[0011]+N(a Π b)*K(a Π b) (min(N(a),N(b)))
[0012]+log ((N*N (a n b) *K (a n b)) / ((N (a) *N (b)))/log N ;
[0013]其中SimK(a,b)表示用戶輸入的不同關(guān)鍵詞a,b之間基于語義分段信息的語義近似性度量;N是搜索引擎中的文檔數(shù)量,N(a)表示用檢索關(guān)鍵詞a的返回第一文檔數(shù)量;N(b)表示用檢索關(guān)鍵詞b的返回第二文檔數(shù)量。
[0014]優(yōu)選地,根據(jù)所述第一、第二和第三文檔數(shù)量計算所述第一和第二關(guān)鍵詞的近似性,進(jìn)一步包括:
[0015]預(yù)設(shè)前η個分段中語義分段的比例閾值β,
[0016]當(dāng)K(a Π b) < β 時,Sim (a, b) = 0 ;
[0017]當(dāng)K(a Π b) < β 時,Sim (a, b)=
[0018]N(a Π b)*R(a Π b)*K(a Π b)/(N(a)*R(a)+N(b)*R(b)_N(a Π b)*R(a Π b)*K(a
n b)
[0019]+N (a n b) *R (a Π b) *K (a Π b) (min (N (a) *R (a),N (b) *R (b)))
[0020]+log ((N*N (a Π b) *R (a n b) *K (a n b)) / ((N (a) *R (a) *N (b) *R (b)))/logN ;
[0021]其中R(a)、R(b)和R(a n b)分別為檢索關(guān)鍵詞a、b、“a AND b”時的重復(fù)結(jié)果數(shù)量。
[0022]本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點:
[0023]本發(fā)明提出了一種自然語言檢索方法,不需要人工干預(yù);而且易于應(yīng)用到金融信息檢索相關(guān)的工作中,提高檢索擴展任務(wù)的準(zhǔn)確度。
【附圖說明】
[0024]圖1是根據(jù)本發(fā)明實施例的基于自然語言的信息搜索方法的流程圖。
【具體實施方式】
[0025]下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細(xì)描述。結(jié)合這樣的實施例描述本發(fā)明、但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權(quán)利要求書限定、并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)以便提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié)、并且無這些具體細(xì)節(jié)中的一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書實現(xiàn)本發(fā)明。
[0026]本發(fā)明的一方面提供了一種基于自然語言的信息搜索方法。圖1是根據(jù)本發(fā)明實施例的基于自然語言的信息搜索方法流程圖。本發(fā)明通過融合檢索文檔數(shù)量和檢索結(jié)果分段來計算關(guān)鍵詞之間的語義近似性。本發(fā)明提出的方法不需要人工干預(yù);而且易于被應(yīng)用到如檢索建議等與網(wǎng)絡(luò)相關(guān)的工作中。利用關(guān)鍵詞共同出現(xiàn)在同一句中來去除干擾,利用搜索引擎的重復(fù)結(jié)果數(shù)來去除重復(fù),能夠有效地計算詞語間的近似性。同時,所提出的方法可以提高檢索擴展任務(wù)的準(zhǔn)確度。
[0027]本發(fā)明的檢索文檔數(shù)是指包含檢索關(guān)鍵詞b的文檔數(shù)量。在本發(fā)明的剩余部分,將使用符號N(b)表示用搜索引擎檢索關(guān)鍵詞b的返回檢索文檔數(shù)。然而,詞語a和b的單獨的檢索文檔數(shù)不足以計算其語義近似性,還應(yīng)該加入檢索“a AND b”的檢索文檔數(shù)。
[0028]具體地,在本發(fā)明中使用以下方法計算關(guān)鍵詞語義近似性、具體公式如下。
[0029]S i m ( a , b ) = N ( a Π b) / (N (a) + N (b) - N (a Π b))+N(a,b)(min (N (a), N (b))) +log ((N*N (P Π b)) / ((N (a) *N (b))) /log N
[0030]其中N是搜索引擎中的文檔數(shù)量。
[0031]使用檢索文檔數(shù)計算語義近似性忽略了網(wǎng)絡(luò)數(shù)據(jù)中存在的干擾和重復(fù)。因此需要進(jìn)一步減少兩個關(guān)鍵詞隨機出現(xiàn)以及文檔也存在大量的重復(fù)的情況,以提高語義近似性計算的準(zhǔn)確度。因此基于檢索文檔數(shù)的關(guān)鍵詞語義近似性計算方法中的N(a Π b)部分需要進(jìn)行修正。搜索引擎返回搜索結(jié)果時也會返回檢索結(jié)果分段、這些分段通常是不超過30個詞的短小的文本、這些文本提供了非常重要的語義信息。
[0032]將詞語a和b在同一個語句中共同出現(xiàn)的檢索結(jié)果分段表示為語義分段。分段中以句號為結(jié)尾的稱之為一個語句。語義分段提供了詞語a和b之間的有用的語義關(guān)系。因此語義分段可以用來判斷兩個關(guān)鍵詞是否隨機地出現(xiàn)在文本文檔中。
[0033]搜索引擎提供了每個結(jié)果的鏈接,由于文檔數(shù)量巨大、而且增長速度快,因此對每個搜索結(jié)果進(jìn)行直接的分析是非常困難的。搜索引擎提供了一個去除重復(fù)結(jié)果的功能。當(dāng)用搜索引擎搜索時,為了使結(jié)果的相關(guān)度高,搜索引擎省略了一些非常相似的搜索結(jié)果。搜索引擎的重復(fù)結(jié)果數(shù)量可以用來去除重復(fù)。
[0034]本發(fā)明進(jìn)一步通過融合檢索文檔數(shù)、語義分段和重復(fù)結(jié)果數(shù)量來計算關(guān)鍵詞語義近似性。
[0035]方式1:關(guān)鍵詞間的語義相似程度是由檢索文檔數(shù)和語義分段決定的。主要步驟如下:
[0036]1)在搜索引擎中分別搜索“a”、“b”、“a AND b” ;
[0037]2)得到 N(a)、N(b)和 N(a 門 b);
[0038]3)在“a AND b”的結(jié)果中,計算語義分段在前n個分段中的比例,記為:K(anb),η為預(yù)設(shè)分段數(shù);例如在搜索結(jié)果