欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于匹配度檢索英文文本的方法與流程

文檔序號(hào):11216486閱讀:1455來源:國(guó)知局
一種基于匹配度檢索英文文本的方法與流程

本發(fā)明涉及英文文本檢索,具體涉及一種基于匹配度檢索英文文本的方法。



背景技術(shù):

對(duì)于英文文本的檢索,目前的主要方式是根據(jù)檢索對(duì)象與預(yù)先設(shè)定的關(guān)鍵詞進(jìn)行匹配,確定是否匹配,即將待檢索的英文文本分割成不同關(guān)鍵詞的形式分別進(jìn)行檢索,但是計(jì)算機(jī)不能有效拆解人類的語(yǔ)言模式,因此不能理解查詢意圖,從而導(dǎo)致搜索出的信息不夠準(zhǔn)確。

針對(duì)上述問題,用戶在搜索時(shí)可以加入高級(jí)語(yǔ)法進(jìn)行操作,但高級(jí)語(yǔ)法輸入復(fù)雜對(duì)用戶要求高,使得用戶體驗(yàn)度降低,并且待檢索語(yǔ)句與事先設(shè)定的關(guān)鍵詞匹配度不夠。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明設(shè)計(jì)開發(fā)了一種基于匹配度檢索英文文本的方法,本發(fā)明的發(fā)明目的之一是解決待檢索語(yǔ)句的檢索結(jié)果列表。

本發(fā)明的發(fā)明目的之二是提高待檢索語(yǔ)句與預(yù)先設(shè)定匹配度的問題。

本發(fā)明提供的技術(shù)方案為:

一種基于匹配度檢索英文文本的方法,包括如下步驟:

步驟一、在服務(wù)器預(yù)先存儲(chǔ)檢索信息,每篇英文文獻(xiàn)關(guān)聯(lián)一個(gè)檢索單位,對(duì)于任意一個(gè)檢索單位均包括id、英文文獻(xiàn)錄入時(shí)間和至少一個(gè)檢索條,所述檢索條為由所述檢索單位關(guān)聯(lián)的英文文獻(xiàn)的摘要中的至少一個(gè)名詞和實(shí)意動(dòng)詞組成,并且對(duì)全部檢索條進(jìn)行預(yù)設(shè)權(quán)重;

步驟二、輸入檢索英文,對(duì)所述檢索英文拆分名詞與實(shí)意動(dòng)詞,并且將所述名詞與所述實(shí)意動(dòng)詞擴(kuò)展成為檢索語(yǔ)句;

步驟三、對(duì)所述檢索語(yǔ)句進(jìn)行相似度評(píng)價(jià)得到檢索權(quán)重,并將所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進(jìn)行匹配,按照匹配度進(jìn)行排序得到檢索結(jié)果列表。

優(yōu)選的是,在所述步驟二中,所述檢索語(yǔ)句為所述名詞和所述實(shí)意動(dòng)詞的邏輯組合;其中,所述邏輯組合包括:或、且、非邏輯關(guān)系。

優(yōu)選的是,在所述步驟三中,對(duì)所述檢索語(yǔ)句進(jìn)行相似度評(píng)價(jià)得到檢索權(quán)重包括如下步驟:

根據(jù)所述名詞查找所述名詞所述領(lǐng)域,并且確定在所述領(lǐng)域內(nèi)關(guān)鍵詞;

將所述名詞在所述領(lǐng)域內(nèi)的領(lǐng)域密度、領(lǐng)域深度、與所述關(guān)鍵詞的關(guān)系以及與所述關(guān)鍵詞之間的聯(lián)系強(qiáng)度,計(jì)算與所述關(guān)鍵詞之間的詞權(quán);

根據(jù)所述詞權(quán),計(jì)算與所述關(guān)鍵詞之間的檢索距離;

根據(jù)所述檢索距離,計(jì)算所述檢索語(yǔ)句的相似度評(píng)分;

將所述檢索語(yǔ)句的相似度評(píng)分作為所述檢索權(quán)重。

優(yōu)選的是,在所述步驟三中,匹配時(shí)按所述預(yù)設(shè)權(quán)重大小依次進(jìn)行匹配。

優(yōu)選的是,在所述步驟三中,匹配后得到的檢索結(jié)果列表對(duì)應(yīng)的信息數(shù)量是否大于預(yù)定數(shù)量,如果大于預(yù)定數(shù)量,則取預(yù)定數(shù)量的檢索結(jié)果列表。

優(yōu)選的是,所述預(yù)定數(shù)量為25條。

優(yōu)選的是,在所述步驟三中,所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進(jìn)行匹配的匹配過程采用模糊控制方法進(jìn)行匹配;

分別將檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη、檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值匹配度φ轉(zhuǎn)換為模糊論域中的量化等級(jí);

將所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη、所述檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值輸入模糊控制模型,將所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη分為7個(gè)等級(jí),將所述檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值分為7個(gè)等級(jí),匹配度φ分為5個(gè)等級(jí);

模糊控制模型輸出為匹配度φ;根據(jù)所述匹配度φ,進(jìn)行檢索輸出。

優(yōu)選的是,所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη的論域?yàn)閇-10,10],檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值的論域?yàn)閇-0.1,0.1],設(shè)定量化因子都為1,匹配度φ的論域?yàn)閇0,1]。

優(yōu)選的是,所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη分為7個(gè)等級(jí),模糊集為{nb,nm,ns,0,ps,pm,pb},檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值分為7個(gè)等級(jí),模糊集為{nb,nm,ns,0,ps,pm,pb},將匹配度φ分為5個(gè)等級(jí),模糊集為{0,ps,pm,pb,pvb};隸屬函數(shù)均選用三角形隸屬函數(shù)。

優(yōu)選的是,模糊控制模型控制規(guī)則為:

如果權(quán)重差δη為nm,權(quán)重差比值為pm或者pb,則匹配度φ為s;如果權(quán)重差δη為pb,權(quán)重差比值為pm或者pb,則匹配度φ為pvb。

本發(fā)明與現(xiàn)有技術(shù)相比較所具有的有益效果:

1、本發(fā)明將關(guān)鍵詞進(jìn)行匹配度計(jì)算的過程設(shè)定在限定的名詞上,消除了借此、連詞以及其他無實(shí)意的詞對(duì)檢索結(jié)果造成的干擾,減小檢索負(fù)擔(dān),提高檢索效率;

2、本發(fā)明通過模糊控制的方式運(yùn)算檢索的文本與預(yù)先設(shè)定文本的匹配度,提高了匹配效率以及增加結(jié)果的準(zhǔn)確性;

3、本發(fā)明通過對(duì)預(yù)設(shè)多個(gè)檢索條,分別進(jìn)行匹配度的計(jì)算,提高了檢索結(jié)果的全面性。

附圖說明

圖1為本發(fā)明所述的流程圖。

圖2是檢索權(quán)重η與預(yù)設(shè)權(quán)重η′之差δη的隸屬函數(shù)。

圖3是檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的比值的隸屬函數(shù)。

圖4是匹配度φ的隸屬函數(shù)。

具體實(shí)施方式

下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的詳細(xì)說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實(shí)施。

如圖1所示,本發(fā)明提供一種基于匹配度檢索英文文本的方法,包括如下步驟:

步驟一、在服務(wù)器預(yù)先存儲(chǔ)檢索信息,每篇英文文獻(xiàn)關(guān)聯(lián)一個(gè)檢索單位,對(duì)于任意一個(gè)檢索單位均包括id、英文文獻(xiàn)錄入時(shí)間和至少一個(gè)檢索條,所述檢索條為由所述檢索單位關(guān)聯(lián)的英文文獻(xiàn)的摘要中的至少一個(gè)名詞和實(shí)意動(dòng)詞組成,并且對(duì)全部檢索條進(jìn)行預(yù)設(shè)權(quán)重;

步驟二、輸入檢索英文,對(duì)所述檢索英文拆分名詞與實(shí)意動(dòng)詞,并且將所述名詞與所述實(shí)意動(dòng)詞擴(kuò)展成為檢索語(yǔ)句;

步驟三、對(duì)所述檢索語(yǔ)句進(jìn)行相似度評(píng)價(jià)得到檢索權(quán)重,并將所述檢索權(quán)重與所述預(yù)設(shè)權(quán)重分別進(jìn)行匹配,按照匹配度進(jìn)行排序得到檢索結(jié)果列表。

在另一種實(shí)施例中,在步驟二中,檢索語(yǔ)句為名詞和實(shí)意動(dòng)詞的邏輯組合;其中,邏輯組合包括:或、且、非邏輯關(guān)系。

在另一種實(shí)施例中,在步驟三中,對(duì)檢索語(yǔ)句進(jìn)行相似度評(píng)價(jià)得到檢索權(quán)重包括如下步驟:

根據(jù)所述名詞查找名詞所在的領(lǐng)域,并且確定在領(lǐng)域內(nèi)的關(guān)鍵詞;將所述名詞在所述領(lǐng)域內(nèi)的領(lǐng)域密度、領(lǐng)域深度、與所述關(guān)鍵詞的關(guān)系以及與所述關(guān)鍵詞之間的聯(lián)系強(qiáng)度,計(jì)算與所述關(guān)鍵詞之間的詞權(quán);根據(jù)所述詞權(quán),計(jì)算與所述關(guān)鍵詞之間的檢索距離;根據(jù)所述檢索距離,計(jì)算所述檢索語(yǔ)句的相似度評(píng)分;將所述檢索語(yǔ)句的相似度評(píng)分作為所述檢索權(quán)重。

在另一種實(shí)施例中,在步驟三中,匹配時(shí)根據(jù)預(yù)設(shè)權(quán)重的大小依次進(jìn)行匹配,從預(yù)設(shè)權(quán)重大的開始匹配,依次到最后預(yù)設(shè)權(quán)重小的,得到多個(gè)不同的檢索結(jié)果列表。

在另一種實(shí)施例中,在步驟三中,匹配后得到的檢索結(jié)果列表對(duì)應(yīng)的信息數(shù)量是否大于預(yù)定數(shù)量,如果大于預(yù)定數(shù)量,則取預(yù)定數(shù)量的檢索結(jié)果列表;在本實(shí)施例中,預(yù)定數(shù)量為25條。

實(shí)施例

在名詞所在的領(lǐng)域內(nèi)確定關(guān)鍵詞c2,名詞c1與關(guān)鍵詞c2之間的語(yǔ)義相似性被定義為:

其中,distc1,c2為名詞c1與關(guān)鍵詞c2之間的檢索距離,利用兩者之間最短路徑的邊上權(quán)值(詞權(quán))之和計(jì)算;詞權(quán)與關(guān)鍵詞之間連系的強(qiáng)度直接相關(guān),則子概念ci和其父概念c′聯(lián)系的強(qiáng)度,可以表示為:

優(yōu)選的是,考慮到其他因素,如在所屬領(lǐng)域內(nèi)的局部密度、概念深度和概念關(guān)系,整個(gè)概念之間的邊權(quán)wt(ci,c′)表示為:

其中,d(c′)表示c′在名詞所在的領(lǐng)域中的深度,e(c′)為名詞所在的領(lǐng)域的關(guān)系數(shù),為名詞所在的領(lǐng)域中的平均關(guān)系數(shù),r(ci,c′)表示概念關(guān)系因子,參數(shù)α(α≥0)和β(0≤β≤1)控制領(lǐng)域深度和密度對(duì)于整個(gè)詞權(quán)計(jì)算的貢獻(xiàn),ic(c)是概念之間連系計(jì)算的變形形式,即:

ic(c)=-logp(c),

其中,p(c)為概念c在整個(gè)領(lǐng)域內(nèi)出現(xiàn)的概率。

綜上所述,名詞c1與關(guān)鍵詞c2之間的語(yǔ)義距離可以表示為:

其中,path(c1,c2)是從名詞c1到關(guān)鍵詞c2經(jīng)過路徑上的所有概念,lsuper(c1,c2)表示c1、c2之間最小父概念;

根據(jù)等同關(guān)系、繼承關(guān)系和屬性關(guān)系分別對(duì)應(yīng)的r(ci,c′)定義為1.0、0.6和0.3;在實(shí)際應(yīng)用過程中密度e(c′)和深度d(c′)并不起什么作用,α與β分別設(shè)置0和1,擴(kuò)展性語(yǔ)義搜索中,名詞c1為關(guān)鍵詞c2的父概念,最終的語(yǔ)義距離可以簡(jiǎn)化為:

通過名詞c1和關(guān)鍵詞c2之間的語(yǔ)義距離得到檢索語(yǔ)句的相似度評(píng)分,并且將該相似度評(píng)分作為檢索權(quán)重。

在另一種實(shí)施例中,采用模糊控制方法計(jì)算檢索權(quán)重與預(yù)設(shè)權(quán)重的匹配度φ,模糊控制模型的輸入是檢索權(quán)重η與預(yù)設(shè)權(quán)重η′的權(quán)重差δη和檢索權(quán)重與預(yù)設(shè)權(quán)重的之差δη與預(yù)設(shè)權(quán)重η′的權(quán)重差比值輸出是匹配度φ;所述檢索權(quán)重η與預(yù)設(shè)權(quán)重η′的權(quán)重差δη的變化范圍為[-10,10],檢索權(quán)重與預(yù)設(shè)權(quán)重之差δη與預(yù)設(shè)權(quán)重η′的權(quán)重差比值變化范圍為[-0.1,0.1],設(shè)定量化因子都為1,因此其論域分別為[-10,10]和[-0.1,0.1];匹配度φ的模糊論域?yàn)閇0,1],為了保證控制的精度,使其在各種模式下都能很好地進(jìn)行控制,根據(jù)反復(fù)試驗(yàn),最終將權(quán)重差δη變化范圍分為七個(gè)等級(jí),權(quán)重差δη的模糊集為{nb,nm,ns,zo,ps,pm,pb},nb表示負(fù)大,nm表示負(fù)中等,ns表示負(fù)小,zo表示零,ps表示正小,pm表示正中等,pb表示正大;權(quán)重差比值變化范圍分為七個(gè)等級(jí),模糊集為{nb,nm,ns,zo,ps,pm,pb},nb表示負(fù)大,nm表示負(fù)中等,ns表示負(fù)小,zo表示零,ps表示正小,pm表示正中等,pb表示正大;輸出的匹配度φ分為5個(gè)等級(jí),分別為{zo,ps,pm,pb,pvb},zo表示零,ps表示小,pm表示中等,pb表示大,pvb表示極大;隸屬函數(shù)均選用三角形隸屬函數(shù),如圖2、3、4所示。

模糊控制模型的控制規(guī)則選取經(jīng)驗(yàn)為:

如果權(quán)重差δη為負(fù)中等,權(quán)重差比值為正中等或者正大,則匹配度φ為小;如果權(quán)重差δη為正大,權(quán)重差比值為正中等或者正大,則匹配度φ為極大;具體的模糊控制規(guī)則如表1所示。

表1模糊控制規(guī)則

盡管本發(fā)明的實(shí)施方案已公開如上,但其并不僅僅限于說明書和實(shí)施方式中所列運(yùn)用,它完全可以被適用于各種適合本發(fā)明的領(lǐng)域,對(duì)于熟悉本領(lǐng)域的人員而言,可容易地實(shí)現(xiàn)另外的修改,因此在不背離權(quán)利要求及等同范圍所限定的一般概念下,本發(fā)明并不限于特定的細(xì)節(jié)和這里示出與描述的圖例。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
颍上县| 应用必备| 杭州市| 咸丰县| 五莲县| 玛多县| 务川| 遵化市| 桐柏县| 巴彦淖尔市| 河南省| 石嘴山市| 开封市| 蚌埠市| 无为县| 和林格尔县| 遂平县| 长海县| 旬邑县| 大同县| 敦化市| 岢岚县| 宜兰市| 内乡县| 崇左市| 泉州市| 合阳县| 塘沽区| 贵溪市| 凯里市| 广灵县| 密云县| 莫力| 临泽县| 康定县| 武城县| 金山区| 永胜县| 库尔勒市| 隆子县| 于都县|