本發(fā)明涉及英文文本檢索,具體涉及一種基于匹配度檢索英文文本的方法。
背景技術(shù):
對(duì)于英文文本的檢索,目前的主要方式是根據(jù)檢索對(duì)象與預(yù)先設(shè)定的關(guān)鍵詞進(jìn)行匹配,確定是否匹配,即將待檢索的英文文本分割成不同關(guān)鍵詞的形式分別進(jìn)行檢索,但是計(jì)算機(jī)不能有效拆解人類的語(yǔ)言模式,因此不能理解查詢意圖,從而導(dǎo)致搜索出的信息不夠準(zhǔn)確。
針對(duì)上述問題,用戶在搜索時(shí)可以加入高級(jí)語(yǔ)法進(jìn)行操作,但高級(jí)語(yǔ)法輸入復(fù)雜對(duì)用戶要求高,使得用戶體驗(yàn)度降低,并且待檢索語(yǔ)句與事先設(shè)定的關(guān)鍵詞匹配度不夠。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明設(shè)計(jì)開發(fā)了一種基于匹配度檢索英文文本的方法,本發(fā)明的發(fā)明目的之一是解決待檢索語(yǔ)句的檢索結(jié)果列表。
本發(fā)明的發(fā)明目的之二是提高待檢索語(yǔ)句與預(yù)先設(shè)定匹配度的問題。
本發(fā)明提供的技術(shù)方案為:
一種基于匹配度檢索英文文本的方法,包括如下步驟:
步驟一、在服務(wù)器預(yù)先存儲(chǔ)檢索信息,每篇英文文獻(xiàn)關(guān)聯(lián)一個(gè)檢索單位,對(duì)于任意一個(gè)檢索單位均包括id、英文文獻(xiàn)錄入時(shí)間和至少一個(gè)檢索條,所述檢索條為由所述檢索單位關(guān)聯(lián)的英文文獻(xiàn)的摘要中的至少一個(gè)名詞和實(shí)意動(dòng)詞組成,并且對(duì)全部檢索條進(jìn)行預(yù)設(shè)權(quán)重;
步驟二、輸入檢索英文,對(duì)所述檢索英文拆分名詞與實(shí)意動(dòng)詞,并且將所述名詞與所述實(shí)意動(dòng)詞擴(kuò)展成為檢索語(yǔ)句;
步驟三、對(duì)所述檢索語(yǔ)句進(jìn)行相似度評(píng)價(jià)得到檢索權(quán)重,并將所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進(jìn)行匹配,按照匹配度進(jìn)行排序得到檢索結(jié)果列表。
優(yōu)選的是,在所述步驟二中,所述檢索語(yǔ)句為所述名詞和所述實(shí)意動(dòng)詞的邏輯組合;其中,所述邏輯組合包括:或、且、非邏輯關(guān)系。
優(yōu)選的是,在所述步驟三中,對(duì)所述檢索語(yǔ)句進(jìn)行相似度評(píng)價(jià)得到檢索權(quán)重包括如下步驟:
根據(jù)所述名詞查找所述名詞所述領(lǐng)域,并且確定在所述領(lǐng)域內(nèi)關(guān)鍵詞;
將所述名詞在所述領(lǐng)域內(nèi)的領(lǐng)域密度、領(lǐng)域深度、與所述關(guān)鍵詞的關(guān)系以及與所述關(guān)鍵詞之間的聯(lián)系強(qiáng)度,計(jì)算與所述關(guān)鍵詞之間的詞權(quán);
根據(jù)所述詞權(quán),計(jì)算與所述關(guān)鍵詞之間的檢索距離;
根據(jù)所述檢索距離,計(jì)算所述檢索語(yǔ)句的相似度評(píng)分;
將所述檢索語(yǔ)句的相似度評(píng)分作為所述檢索權(quán)重。
優(yōu)選的是,在所述步驟三中,匹配時(shí)按所述預(yù)設(shè)權(quán)重大小依次進(jìn)行匹配。
優(yōu)選的是,在所述步驟三中,匹配后得到的檢索結(jié)果列表對(duì)應(yīng)的信息數(shù)量是否大于預(yù)定數(shù)量,如果大于預(yù)定數(shù)量,則取預(yù)定數(shù)量的檢索結(jié)果列表。
優(yōu)選的是,所述預(yù)定數(shù)量為25條。
優(yōu)選的是,在所述步驟三中,所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進(jìn)行匹配的匹配過程采用模糊控制方法進(jìn)行匹配;
分別將檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη、檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值
將所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη、所述檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值
模糊控制模型輸出為匹配度φ;根據(jù)所述匹配度φ,進(jìn)行檢索輸出。
優(yōu)選的是,所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη的論域?yàn)閇-10,10],檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值
優(yōu)選的是,所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη分為7個(gè)等級(jí),模糊集為{nb,nm,ns,0,ps,pm,pb},檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值
優(yōu)選的是,模糊控制模型控制規(guī)則為:
如果權(quán)重差δη為nm,權(quán)重差比值
本發(fā)明與現(xiàn)有技術(shù)相比較所具有的有益效果:
1、本發(fā)明將關(guān)鍵詞進(jìn)行匹配度計(jì)算的過程設(shè)定在限定的名詞上,消除了借此、連詞以及其他無實(shí)意的詞對(duì)檢索結(jié)果造成的干擾,減小檢索負(fù)擔(dān),提高檢索效率;
2、本發(fā)明通過模糊控制的方式運(yùn)算檢索的文本與預(yù)先設(shè)定文本的匹配度,提高了匹配效率以及增加結(jié)果的準(zhǔn)確性;
3、本發(fā)明通過對(duì)預(yù)設(shè)多個(gè)檢索條,分別進(jìn)行匹配度的計(jì)算,提高了檢索結(jié)果的全面性。
附圖說明
圖1為本發(fā)明所述的流程圖。
圖2是檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη的隸屬函數(shù)。
圖3是檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值
圖4是匹配度φ的隸屬函數(shù)。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實(shí)施。
如圖1所示,本發(fā)明提供一種基于匹配度檢索英文文本的方法,包括如下步驟:
步驟一、在服務(wù)器預(yù)先存儲(chǔ)檢索信息,每篇英文文獻(xiàn)關(guān)聯(lián)一個(gè)檢索單位,對(duì)于任意一個(gè)檢索單位均包括id、英文文獻(xiàn)錄入時(shí)間和至少一個(gè)檢索條,所述檢索條為由所述檢索單位關(guān)聯(lián)的英文文獻(xiàn)的摘要中的至少一個(gè)名詞和實(shí)意動(dòng)詞組成,并且對(duì)全部檢索條進(jìn)行預(yù)設(shè)權(quán)重;
步驟二、輸入檢索英文,對(duì)所述檢索英文拆分名詞與實(shí)意動(dòng)詞,并且將所述名詞與所述實(shí)意動(dòng)詞擴(kuò)展成為檢索語(yǔ)句;
步驟三、對(duì)所述檢索語(yǔ)句進(jìn)行相似度評(píng)價(jià)得到檢索權(quán)重,并將所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進(jìn)行匹配,按照匹配度進(jìn)行排序得到檢索結(jié)果列表。
在另一種實(shí)施例中,在步驟二中,檢索語(yǔ)句為名詞和實(shí)意動(dòng)詞的邏輯組合;其中,邏輯組合包括:或、且、非邏輯關(guān)系。
在另一種實(shí)施例中,在步驟三中,對(duì)檢索語(yǔ)句進(jìn)行相似度評(píng)價(jià)得到檢索權(quán)重包括如下步驟:
根據(jù)所述名詞查找名詞所在的領(lǐng)域,并且確定在領(lǐng)域內(nèi)的關(guān)鍵詞;將所述名詞在所述領(lǐng)域內(nèi)的領(lǐng)域密度、領(lǐng)域深度、與所述關(guān)鍵詞的關(guān)系以及與所述關(guān)鍵詞之間的聯(lián)系強(qiáng)度,計(jì)算與所述關(guān)鍵詞之間的詞權(quán);根據(jù)所述詞權(quán),計(jì)算與所述關(guān)鍵詞之間的檢索距離;根據(jù)所述檢索距離,計(jì)算所述檢索語(yǔ)句的相似度評(píng)分;將所述檢索語(yǔ)句的相似度評(píng)分作為所述檢索權(quán)重。
在另一種實(shí)施例中,在步驟三中,匹配時(shí)根據(jù)預(yù)設(shè)權(quán)重的大小依次進(jìn)行匹配,從預(yù)設(shè)權(quán)重大的開始匹配,依次到最后預(yù)設(shè)權(quán)重小的,得到多個(gè)不同的檢索結(jié)果列表。
在另一種實(shí)施例中,在步驟三中,匹配后得到的檢索結(jié)果列表對(duì)應(yīng)的信息數(shù)量是否大于預(yù)定數(shù)量,如果大于預(yù)定數(shù)量,則取預(yù)定數(shù)量的檢索結(jié)果列表;在本實(shí)施例中,預(yù)定數(shù)量為25條。
實(shí)施例
在名詞所在的領(lǐng)域內(nèi)確定關(guān)鍵詞c2,名詞c1與關(guān)鍵詞c2之間的語(yǔ)義相似性被定義為:
其中,distc1,c2為名詞c1與關(guān)鍵詞c2之間的檢索距離,利用兩者之間最短路徑的邊上權(quán)值(詞權(quán))之和計(jì)算;詞權(quán)與關(guān)鍵詞之間連系的強(qiáng)度直接相關(guān),則子概念ci和其父概念c′聯(lián)系的強(qiáng)度,可以表示為:
優(yōu)選的是,考慮到其他因素,如在所屬領(lǐng)域內(nèi)的局部密度、概念深度和概念關(guān)系,整個(gè)概念之間的邊權(quán)wt(ci,c′)表示為:
其中,d(c′)表示c′在名詞所在的領(lǐng)域中的深度,e(c′)為名詞所在的領(lǐng)域的關(guān)系數(shù),
ic(c)=-logp(c),
其中,p(c)為概念c在整個(gè)領(lǐng)域內(nèi)出現(xiàn)的概率。
綜上所述,名詞c1與關(guān)鍵詞c2之間的語(yǔ)義距離可以表示為:
其中,path(c1,c2)是從名詞c1到關(guān)鍵詞c2經(jīng)過路徑上的所有概念,lsuper(c1,c2)表示c1、c2之間最小父概念;
根據(jù)等同關(guān)系、繼承關(guān)系和屬性關(guān)系分別對(duì)應(yīng)的r(ci,c′)定義為1.0、0.6和0.3;在實(shí)際應(yīng)用過程中密度e(c′)和深度d(c′)并不起什么作用,α與β分別設(shè)置0和1,擴(kuò)展性語(yǔ)義搜索中,名詞c1為關(guān)鍵詞c2的父概念,最終的語(yǔ)義距離可以簡(jiǎn)化為:
通過名詞c1和關(guān)鍵詞c2之間的語(yǔ)義距離得到檢索語(yǔ)句的相似度評(píng)分,并且將該相似度評(píng)分作為檢索權(quán)重。
在另一種實(shí)施例中,采用模糊控制方法計(jì)算檢索權(quán)重與預(yù)設(shè)權(quán)重的匹配度φ,模糊控制模型的輸入是檢索權(quán)重η與預(yù)設(shè)權(quán)重η′的權(quán)重差δη和檢索權(quán)重與預(yù)設(shè)權(quán)重的之差δη與預(yù)設(shè)權(quán)重η′的權(quán)重差比值
模糊控制模型的控制規(guī)則選取經(jīng)驗(yàn)為:
如果權(quán)重差δη為負(fù)中等,權(quán)重差比值
表1模糊控制規(guī)則
盡管本發(fā)明的實(shí)施方案已公開如上,但其并不僅僅限于說明書和實(shí)施方式中所列運(yùn)用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對(duì)于熟悉本領(lǐng)域的人員而言,可容易地實(shí)現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。