一種基于匹配度檢索英文文本的方法與流程

文檔序號(hào)：11216486閱讀：1455來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及英文文本檢索，具體涉及一種基于匹配度檢索英文文本的方法。

背景技術(shù)：

對(duì)于英文文本的檢索，目前的主要方式是根據(jù)檢索對(duì)象與預(yù)先設(shè)定的關(guān)鍵詞進(jìn)行匹配，確定是否匹配，即將待檢索的英文文本分割成不同關(guān)鍵詞的形式分別進(jìn)行檢索，但是計(jì)算機(jī)不能有效拆解人類的語(yǔ)言模式，因此不能理解查詢意圖，從而導(dǎo)致搜索出的信息不夠準(zhǔn)確。

針對(duì)上述問題，用戶在搜索時(shí)可以加入高級(jí)語(yǔ)法進(jìn)行操作，但高級(jí)語(yǔ)法輸入復(fù)雜對(duì)用戶要求高，使得用戶體驗(yàn)度降低，并且待檢索語(yǔ)句與事先設(shè)定的關(guān)鍵詞匹配度不夠。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明設(shè)計(jì)開發(fā)了一種基于匹配度檢索英文文本的方法，本發(fā)明的發(fā)明目的之一是解決待檢索語(yǔ)句的檢索結(jié)果列表。

本發(fā)明的發(fā)明目的之二是提高待檢索語(yǔ)句與預(yù)先設(shè)定匹配度的問題。

本發(fā)明提供的技術(shù)方案為：

一種基于匹配度檢索英文文本的方法，包括如下步驟：

步驟一、在服務(wù)器預(yù)先存儲(chǔ)檢索信息，每篇英文文獻(xiàn)關(guān)聯(lián)一個(gè)檢索單位，對(duì)于任意一個(gè)檢索單位均包括id、英文文獻(xiàn)錄入時(shí)間和至少一個(gè)檢索條，所述檢索條為由所述檢索單位關(guān)聯(lián)的英文文獻(xiàn)的摘要中的至少一個(gè)名詞和實(shí)意動(dòng)詞組成，并且對(duì)全部檢索條進(jìn)行預(yù)設(shè)權(quán)重；

步驟二、輸入檢索英文，對(duì)所述檢索英文拆分名詞與實(shí)意動(dòng)詞，并且將所述名詞與所述實(shí)意動(dòng)詞擴(kuò)展成為檢索語(yǔ)句；

步驟三、對(duì)所述檢索語(yǔ)句進(jìn)行相似度評(píng)價(jià)得到檢索權(quán)重，并將所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進(jìn)行匹配，按照匹配度進(jìn)行排序得到檢索結(jié)果列表。

優(yōu)選的是，在所述步驟二中，所述檢索語(yǔ)句為所述名詞和所述實(shí)意動(dòng)詞的邏輯組合；其中，所述邏輯組合包括：或、且、非邏輯關(guān)系。

優(yōu)選的是，在所述步驟三中，對(duì)所述檢索語(yǔ)句進(jìn)行相似度評(píng)價(jià)得到檢索權(quán)重包括如下步驟：

根據(jù)所述名詞查找所述名詞所述領(lǐng)域，并且確定在所述領(lǐng)域內(nèi)關(guān)鍵詞；

將所述名詞在所述領(lǐng)域內(nèi)的領(lǐng)域密度、領(lǐng)域深度、與所述關(guān)鍵詞的關(guān)系以及與所述關(guān)鍵詞之間的聯(lián)系強(qiáng)度，計(jì)算與所述關(guān)鍵詞之間的詞權(quán)；

根據(jù)所述詞權(quán)，計(jì)算與所述關(guān)鍵詞之間的檢索距離；

根據(jù)所述檢索距離，計(jì)算所述檢索語(yǔ)句的相似度評(píng)分；

將所述檢索語(yǔ)句的相似度評(píng)分作為所述檢索權(quán)重。

優(yōu)選的是，在所述步驟三中，匹配時(shí)按所述預(yù)設(shè)權(quán)重大小依次進(jìn)行匹配。

優(yōu)選的是，在所述步驟三中，匹配后得到的檢索結(jié)果列表對(duì)應(yīng)的信息數(shù)量是否大于預(yù)定數(shù)量，如果大于預(yù)定數(shù)量，則取預(yù)定數(shù)量的檢索結(jié)果列表。

優(yōu)選的是，所述預(yù)定數(shù)量為25條。

優(yōu)選的是，在所述步驟三中，所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進(jìn)行匹配的匹配過程采用模糊控制方法進(jìn)行匹配；

分別將檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη、檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值匹配度φ轉(zhuǎn)換為模糊論域中的量化等級(jí)；

將所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη、所述檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值輸入模糊控制模型，將所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη分為7個(gè)等級(jí)，將所述檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值分為7個(gè)等級(jí)，匹配度φ分為5個(gè)等級(jí)；

模糊控制模型輸出為匹配度φ；根據(jù)所述匹配度φ，進(jìn)行檢索輸出。

優(yōu)選的是，所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη的論域?yàn)閇-10，10]，檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值的論域?yàn)閇-0.1，0.1]，設(shè)定量化因子都為1，匹配度φ的論域?yàn)閇0，1]。

優(yōu)選的是，所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη分為7個(gè)等級(jí)，模糊集為{nb，nm，ns，0，ps，pm，pb}，檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值分為7個(gè)等級(jí)，模糊集為{nb，nm，ns，0，ps，pm，pb}，將匹配度φ分為5個(gè)等級(jí)，模糊集為{0，ps，pm，pb，pvb}；隸屬函數(shù)均選用三角形隸屬函數(shù)。

優(yōu)選的是，模糊控制模型控制規(guī)則為：

如果權(quán)重差δη為nm，權(quán)重差比值為pm或者pb，則匹配度φ為s；如果權(quán)重差δη為pb，權(quán)重差比值為pm或者pb，則匹配度φ為pvb。

本發(fā)明與現(xiàn)有技術(shù)相比較所具有的有益效果：

1、本發(fā)明將關(guān)鍵詞進(jìn)行匹配度計(jì)算的過程設(shè)定在限定的名詞上，消除了借此、連詞以及其他無實(shí)意的詞對(duì)檢索結(jié)果造成的干擾，減小檢索負(fù)擔(dān)，提高檢索效率；

2、本發(fā)明通過模糊控制的方式運(yùn)算檢索的文本與預(yù)先設(shè)定文本的匹配度，提高了匹配效率以及增加結(jié)果的準(zhǔn)確性；

3、本發(fā)明通過對(duì)預(yù)設(shè)多個(gè)檢索條，分別進(jìn)行匹配度的計(jì)算，提高了檢索結(jié)果的全面性。

附圖說明

圖1為本發(fā)明所述的流程圖。

圖2是檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη的隸屬函數(shù)。

圖3是檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值的隸屬函數(shù)。

圖4是匹配度φ的隸屬函數(shù)。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說明，以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實(shí)施。

如圖1所示，本發(fā)明提供一種基于匹配度檢索英文文本的方法，包括如下步驟：

步驟二、輸入檢索英文，對(duì)所述檢索英文拆分名詞與實(shí)意動(dòng)詞，并且將所述名詞與所述實(shí)意動(dòng)詞擴(kuò)展成為檢索語(yǔ)句；

在另一種實(shí)施例中，在步驟二中，檢索語(yǔ)句為名詞和實(shí)意動(dòng)詞的邏輯組合；其中，邏輯組合包括：或、且、非邏輯關(guān)系。

在另一種實(shí)施例中，在步驟三中，對(duì)檢索語(yǔ)句進(jìn)行相似度評(píng)價(jià)得到檢索權(quán)重包括如下步驟：

根據(jù)所述名詞查找名詞所在的領(lǐng)域，并且確定在領(lǐng)域內(nèi)的關(guān)鍵詞；將所述名詞在所述領(lǐng)域內(nèi)的領(lǐng)域密度、領(lǐng)域深度、與所述關(guān)鍵詞的關(guān)系以及與所述關(guān)鍵詞之間的聯(lián)系強(qiáng)度，計(jì)算與所述關(guān)鍵詞之間的詞權(quán)；根據(jù)所述詞權(quán)，計(jì)算與所述關(guān)鍵詞之間的檢索距離；根據(jù)所述檢索距離，計(jì)算所述檢索語(yǔ)句的相似度評(píng)分；將所述檢索語(yǔ)句的相似度評(píng)分作為所述檢索權(quán)重。

在另一種實(shí)施例中，在步驟三中，匹配時(shí)根據(jù)預(yù)設(shè)權(quán)重的大小依次進(jìn)行匹配，從預(yù)設(shè)權(quán)重大的開始匹配，依次到最后預(yù)設(shè)權(quán)重小的，得到多個(gè)不同的檢索結(jié)果列表。

在另一種實(shí)施例中，在步驟三中，匹配后得到的檢索結(jié)果列表對(duì)應(yīng)的信息數(shù)量是否大于預(yù)定數(shù)量，如果大于預(yù)定數(shù)量，則取預(yù)定數(shù)量的檢索結(jié)果列表；在本實(shí)施例中，預(yù)定數(shù)量為25條。

實(shí)施例

在名詞所在的領(lǐng)域內(nèi)確定關(guān)鍵詞c2，名詞c1與關(guān)鍵詞c2之間的語(yǔ)義相似性被定義為：

其中，distc1，c2為名詞c1與關(guān)鍵詞c2之間的檢索距離，利用兩者之間最短路徑的邊上權(quán)值(詞權(quán))之和計(jì)算；詞權(quán)與關(guān)鍵詞之間連系的強(qiáng)度直接相關(guān)，則子概念ci和其父概念c′聯(lián)系的強(qiáng)度，可以表示為：

優(yōu)選的是，考慮到其他因素，如在所屬領(lǐng)域內(nèi)的局部密度、概念深度和概念關(guān)系，整個(gè)概念之間的邊權(quán)wt(ci，c′)表示為：

其中，d(c′)表示c′在名詞所在的領(lǐng)域中的深度，e(c′)為名詞所在的領(lǐng)域的關(guān)系數(shù)，為名詞所在的領(lǐng)域中的平均關(guān)系數(shù)，r(ci，c′)表示概念關(guān)系因子，參數(shù)α(α≥0)和β(0≤β≤1)控制領(lǐng)域深度和密度對(duì)于整個(gè)詞權(quán)計(jì)算的貢獻(xiàn)，ic(c)是概念之間連系計(jì)算的變形形式，即：

ic(c)＝-logp(c)，

其中，p(c)為概念c在整個(gè)領(lǐng)域內(nèi)出現(xiàn)的概率。

綜上所述，名詞c1與關(guān)鍵詞c2之間的語(yǔ)義距離可以表示為：

其中，path(c1，c2)是從名詞c1到關(guān)鍵詞c2經(jīng)過路徑上的所有概念，lsuper(c1，c2)表示c1、c2之間最小父概念；

根據(jù)等同關(guān)系、繼承關(guān)系和屬性關(guān)系分別對(duì)應(yīng)的r(ci，c′)定義為1.0、0.6和0.3；在實(shí)際應(yīng)用過程中密度e(c′)和深度d(c′)并不起什么作用，α與β分別設(shè)置0和1，擴(kuò)展性語(yǔ)義搜索中，名詞c1為關(guān)鍵詞c2的父概念，最終的語(yǔ)義距離可以簡(jiǎn)化為：

通過名詞c1和關(guān)鍵詞c2之間的語(yǔ)義距離得到檢索語(yǔ)句的相似度評(píng)分，并且將該相似度評(píng)分作為檢索權(quán)重。

在另一種實(shí)施例中，采用模糊控制方法計(jì)算檢索權(quán)重與預(yù)設(shè)權(quán)重的匹配度φ，模糊控制模型的輸入是檢索權(quán)重η與預(yù)設(shè)權(quán)重η′的權(quán)重差δη和檢索權(quán)重與預(yù)設(shè)權(quán)重的之差δη與預(yù)設(shè)權(quán)重η′的權(quán)重差比值輸出是匹配度φ；所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′的權(quán)重差δη的變化范圍為[-10，10]，檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的權(quán)重差比值變化范圍為[-0.1，0.1]，設(shè)定量化因子都為1，因此其論域分別為[-10，10]和[-0.1，0.1]；匹配度φ的模糊論域?yàn)閇0，1]，為了保證控制的精度，使其在各種模式下都能很好地進(jìn)行控制，根據(jù)反復(fù)試驗(yàn)，最終將權(quán)重差δη變化范圍分為七個(gè)等級(jí)，權(quán)重差δη的模糊集為{nb，nm，ns，zo，ps，pm，pb}，nb表示負(fù)大，nm表示負(fù)中等，ns表示負(fù)小，zo表示零，ps表示正小，pm表示正中等，pb表示正大；權(quán)重差比值變化范圍分為七個(gè)等級(jí)，模糊集為{nb，nm，ns，zo，ps，pm，pb}，nb表示負(fù)大，nm表示負(fù)中等，ns表示負(fù)小，zo表示零，ps表示正小，pm表示正中等，pb表示正大；輸出的匹配度φ分為5個(gè)等級(jí)，分別為{zo，ps，pm，pb，pvb}，zo表示零，ps表示小，pm表示中等，pb表示大，pvb表示極大；隸屬函數(shù)均選用三角形隸屬函數(shù)，如圖2、3、4所示。

模糊控制模型的控制規(guī)則選取經(jīng)驗(yàn)為：

如果權(quán)重差δη為負(fù)中等，權(quán)重差比值為正中等或者正大，則匹配度φ為小；如果權(quán)重差δη為正大，權(quán)重差比值為正中等或者正大，則匹配度φ為極大；具體的模糊控制規(guī)則如表1所示。

表1模糊控制規(guī)則

盡管本發(fā)明的實(shí)施方案已公開如上，但其并不僅僅限于說明書和實(shí)施方式中所列運(yùn)用，它完全可以被適用于各種適合本發(fā)明的領(lǐng)域，對(duì)于熟悉本領(lǐng)域的人員而言，可容易地實(shí)現(xiàn)另外的修改，因此在不背離權(quán)利要求及等同范圍所限定的一般概念下，本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉曲;楊天地;馬麗娣;
技術(shù)所有人：錦州醫(yī)科大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本檢索相關(guān)技術(shù)

文本檢索工具相關(guān)技術(shù)

文本信息檢索技術(shù)相關(guān)技術(shù)

基于文本的圖像檢索相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于匹配度檢索英文文本的方法與流程