一種基于自然語言的信息搜索方法

文檔序號：9579393閱讀：612來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于自然語言的信息搜索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理，特別涉及一種自然語言檢索方法。
【背景技術(shù)】
[0002]關(guān)鍵詞語義近似性的研究在文本搜索應(yīng)用中都是一個重要的問題。例如主題檢測、推薦查詢等。近年來隨著網(wǎng)絡(luò)的快速發(fā)展，在許多基于金融領(lǐng)域的Web相關(guān)任務(wù)中關(guān)鍵詞語義近似性的計算也越來越重要。現(xiàn)有金融相關(guān)搜索引擎都提供一系列相關(guān)詞來幫助用戶找到最想要的結(jié)果，從而改善用戶的搜索體驗和檢索效率。在金融信息領(lǐng)域，關(guān)鍵詞語義近似性的計算也起著重要的作用。然而現(xiàn)有的基于Web的關(guān)鍵詞語義近似性的計算方法沒有考慮到搜索引擎反饋的結(jié)果中存在干擾和重復(fù)。干擾的來源主要是關(guān)鍵詞隨機地出現(xiàn)在一些文檔中，這將會降低文檔搜索數(shù)量的準(zhǔn)確度。很多重復(fù)出現(xiàn)的文檔使得搜索結(jié)果數(shù)量不可信。

【發(fā)明內(nèi)容】

[0003]為解決上述現(xiàn)有技術(shù)所存在的問題，本發(fā)明提出了一種基于自然語言的信息搜索方法，包括:
[0004]接收用戶輸入的至少第一和第二關(guān)鍵詞，
[0005]對第一和第二關(guān)鍵詞分別進(jìn)行檢索，獲得包含所述關(guān)鍵詞相應(yīng)第一和第二的文檔數(shù)量；
[0006]對第一和第二關(guān)鍵詞進(jìn)行與操作的結(jié)果進(jìn)行檢索，獲得包含與操作結(jié)果的第三文檔數(shù)量；
[0007]根據(jù)所述第一、第二和第三文檔數(shù)量計算所述第一和第二關(guān)鍵詞的近似性。
[0008]優(yōu)選地，所述對第一和第二關(guān)鍵詞進(jìn)行與操作的結(jié)果進(jìn)行檢索，進(jìn)一步包括:
[0009]在第一關(guān)鍵詞a和第二關(guān)鍵詞b的與操作的檢索結(jié)果a n b中，將關(guān)鍵詞a和b在同一個語句中共同出現(xiàn)的檢索結(jié)果分段表示為語義分段，并計算所述語義分段在前η個分段中的比例，記為K(a Π b)，其中η為預(yù)設(shè)分段數(shù)；利用N(a Π b)表示檢索與操作結(jié)果“a AND b”的第三文檔數(shù)量；利用N(a Π b)*K(a Π b)計算關(guān)鍵詞之間的近似性:
[0010]SimK (a，b) = N (a 門 b) *K (a 門 b) / (N (a) +N (b) _N (a Π b) *K (a 門 b))
[0011]+N(a Π b)*K(a Π b) (min(N(a)，N(b)))
[0012]+log ((N*N (a n b) *K (a n b)) / ((N (a) *N (b)))/log N ；
[0013]其中SimK(a，b)表示用戶輸入的不同關(guān)鍵詞a，b之間基于語義分段信息的語義近似性度量；N是搜索引擎中的文檔數(shù)量，N(a)表示用檢索關(guān)鍵詞a的返回第一文檔數(shù)量；N(b)表示用檢索關(guān)鍵詞b的返回第二文檔數(shù)量。
[0014]優(yōu)選地，根據(jù)所述第一、第二和第三文檔數(shù)量計算所述第一和第二關(guān)鍵詞的近似性，進(jìn)一步包括:
[0015]預(yù)設(shè)前η個分段中語義分段的比例閾值β，
[0016]當(dāng)K(a Π b) < β 時，Sim (a, b) = 0 ；
[0017]當(dāng)K(a Π b) < β 時，Sim (a, b)=
[0018]N(a Π b)*R(a Π b)*K(a Π b)/(N(a)*R(a)+N(b)*R(b)_N(a Π b)*R(a Π b)*K(a
n b)
[0019]+N (a n b) *R (a Π b) *K (a Π b) (min (N (a) *R (a)，N (b) *R (b)))
[0020]+log ((N*N (a Π b) *R (a n b) *K (a n b)) / ((N (a) *R (a) *N (b) *R (b)))/logN ；
[0021]其中R(a)、R(b)和R(a n b)分別為檢索關(guān)鍵詞a、b、“a AND b”時的重復(fù)結(jié)果數(shù)量。
[0022]本發(fā)明相比現(xiàn)有技術(shù)，具有以下優(yōu)點:
[0023]本發(fā)明提出了一種自然語言檢索方法，不需要人工干預(yù)；而且易于應(yīng)用到金融信息檢索相關(guān)的工作中，提高檢索擴展任務(wù)的準(zhǔn)確度。
【附圖說明】
[0024]圖1是根據(jù)本發(fā)明實施例的基于自然語言的信息搜索方法的流程圖。
【具體實施方式】
[0025]下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細(xì)描述。結(jié)合這樣的實施例描述本發(fā)明、但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權(quán)利要求書限定、并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細(xì)節(jié)以便提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細(xì)節(jié)、并且無這些具體細(xì)節(jié)中的一些或者所有細(xì)節(jié)也可以根據(jù)權(quán)利要求書實現(xiàn)本發(fā)明。
[0026]本發(fā)明的一方面提供了一種基于自然語言的信息搜索方法。圖1是根據(jù)本發(fā)明實施例的基于自然語言的信息搜索方法流程圖。本發(fā)明通過融合檢索文檔數(shù)量和檢索結(jié)果分段來計算關(guān)鍵詞之間的語義近似性。本發(fā)明提出的方法不需要人工干預(yù)；而且易于被應(yīng)用到如檢索建議等與網(wǎng)絡(luò)相關(guān)的工作中。利用關(guān)鍵詞共同出現(xiàn)在同一句中來去除干擾，利用搜索引擎的重復(fù)結(jié)果數(shù)來去除重復(fù)，能夠有效地計算詞語間的近似性。同時，所提出的方法可以提高檢索擴展任務(wù)的準(zhǔn)確度。
[0027]本發(fā)明的檢索文檔數(shù)是指包含檢索關(guān)鍵詞b的文檔數(shù)量。在本發(fā)明的剩余部分，將使用符號N(b)表示用搜索引擎檢索關(guān)鍵詞b的返回檢索文檔數(shù)。然而，詞語a和b的單獨的檢索文檔數(shù)不足以計算其語義近似性，還應(yīng)該加入檢索“a AND b”的檢索文檔數(shù)。
[0028]具體地，在本發(fā)明中使用以下方法計算關(guān)鍵詞語義近似性、具體公式如下。
[0029]S i m ( a , b ) = N ( a Π b) / (N (a) + N (b) - N (a Π b))+N(a,b)(min (N (a), N (b))) +log ((N*N (P Π b)) / ((N (a) *N (b))) /log N
[0030]其中N是搜索引擎中的文檔數(shù)量。
[0031]使用檢索文檔數(shù)計算語義近似性忽略了網(wǎng)絡(luò)數(shù)據(jù)中存在的干擾和重復(fù)。因此需要進(jìn)一步減少兩個關(guān)鍵詞隨機出現(xiàn)以及文檔也存在大量的重復(fù)的情況，以提高語義近似性計算的準(zhǔn)確度。因此基于檢索文檔數(shù)的關(guān)鍵詞語義近似性計算方法中的N(a Π b)部分需要進(jìn)行修正。搜索引擎返回搜索結(jié)果時也會返回檢索結(jié)果分段、這些分段通常是不超過30個詞的短小的文本、這些文本提供了非常重要的語義信息。
[0032]將詞語a和b在同一個語句中共同出現(xiàn)的檢索結(jié)果分段表示為語義分段。分段中以句號為結(jié)尾的稱之為一個語句。語義分段提供了詞語a和b之間的有用的語義關(guān)系。因此語義分段可以用來判斷兩個關(guān)鍵詞是否隨機地出現(xiàn)在文本文檔中。
[0033]搜索引擎提供了每個結(jié)果的鏈接，由于文檔數(shù)量巨大、而且增長速度快，因此對每個搜索結(jié)果進(jìn)行直接的分析是非常困難的。搜索引擎提供了一個去除重復(fù)結(jié)果的功能。當(dāng)用搜索引擎搜索時，為了使結(jié)果的相關(guān)度高，搜索引擎省略了一些非常相似的搜索結(jié)果。搜索引擎的重復(fù)結(jié)果數(shù)量可以用來去除重復(fù)。
[0034]本發(fā)明進(jìn)一步通過融合檢索文檔數(shù)、語義分段和重復(fù)結(jié)果數(shù)量來計算關(guān)鍵詞語義近似性。
[0035]方式1:關(guān)鍵詞間的語義相似程度是由檢索文檔數(shù)和語義分段決定的。主要步驟如下:
[0036]1)在搜索引擎中分別搜索“a”、“b”、“a AND b” ；
[0037]2)得到 N(a)、N(b)和 N(a 門 b)；
[0038]3)在“a AND b”的結(jié)果中，計算語義分段在前n個分段中的比例，記為:K(anb)，η為預(yù)設(shè)分段數(shù)；例如在搜索結(jié)果

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李垚霖;
技術(shù)所有人：成都博睿德科技有限公司;
我是此專利的發(fā)明人

上一篇：一種電子檔案編研方法及系統(tǒng)的制作方法
上一篇：一種基于自然語言的信息檢索方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

自然語言處理方法相關(guān)技術(shù)

自然語言處理的方法相關(guān)技術(shù)

自然語言處理常用方法相關(guān)技術(shù)

信息搜索方法相關(guān)技術(shù)

自然語言處理相關(guān)技術(shù)

自然語言相關(guān)技術(shù)

python自然語言處理相關(guān)技術(shù)

自然語言理解相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于自然語言的信息搜索方法