一種基于實(shí)體及特征的搜索排序改進(jìn)算法
【專(zhuān)利摘要】本發(fā)明的提出了一種基于實(shí)體及特征的搜索排序改進(jìn)算法。屬于自然語(yǔ)言處理領(lǐng)域。本發(fā)明旨在通過(guò)實(shí)體及特征對(duì)已有的網(wǎng)絡(luò)頁(yè)面進(jìn)行重新計(jì)算,通過(guò)計(jì)算不同頁(yè)面出現(xiàn)特征詞數(shù)的不同。對(duì)現(xiàn)有的網(wǎng)絡(luò)搜索結(jié)果進(jìn)行重新排序。改進(jìn)后的網(wǎng)絡(luò)搜索結(jié)果排序能夠更好的適應(yīng)相關(guān)搜索結(jié)果的特征。
【專(zhuān)利說(shuō)明】一種基于實(shí)體及特征的搜索排序改進(jìn)算法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域,更為具體地講,涉及一種基于實(shí)體特征的搜索排序改進(jìn)算法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)web2.0時(shí)代的到來(lái),網(wǎng)絡(luò)信息呈現(xiàn)指數(shù)級(jí)增長(zhǎng)。大量的信息使得用戶(hù)發(fā)現(xiàn)自己得到自己準(zhǔn)確需要的信息變得異常困難。很多網(wǎng)頁(yè)搜索引擎包括谷歌,百度等主要通過(guò)PageRank等等算法得到相應(yīng)結(jié)果。但是必須看到算法沒(méi)有考慮到相應(yīng)網(wǎng)頁(yè)中的內(nèi)容中實(shí)體及特征的關(guān)系。本發(fā)明在考慮相應(yīng)實(shí)體及特征之后,對(duì)原有的頁(yè)面排序進(jìn)行重新排序。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的最終目的是對(duì)已有網(wǎng)絡(luò)搜索排序結(jié)果進(jìn)行重新排序。本發(fā)明的重新排序主要利用了實(shí)體及特征。實(shí)體就是網(wǎng)絡(luò)頁(yè)面中涉及的就是高頻名詞。特征就是實(shí)體高頻名詞對(duì)應(yīng)的描述詞。本文利用出現(xiàn)的實(shí)體出現(xiàn)的特征對(duì)排序進(jìn)行再排序。
[0004]為了實(shí)現(xiàn)上述目的,本發(fā)明基于實(shí)體特征搜索排序改進(jìn)算法,其算法構(gòu)成主要由以下特征構(gòu)成:
//Input (輸入)BR—base rank (原有搜索頁(yè)面排序)
SURL一search url (搜索頁(yè)面的 URL)
KB一knowledge base (需要進(jìn)行重新排序的實(shí)體及特征知識(shí)庫(kù)) //Output (輸出)IR—improved rank(改進(jìn)后的搜索頁(yè)面排序)
/^getEntities函數(shù),輸入為SURL,輸出為某URL頁(yè)面里面的高頻名詞,并將這些高頻名詞作為實(shí)體*/
Entities=getEntities(SURL)
/^getFeatures 函數(shù),輸入為 SURLJiS SURL 下的 Entities,輸出為 Entities 對(duì)應(yīng)的Features*/
Features=getFeatures(SURL, Entities) /*existKB函數(shù),輸入為KB,entity實(shí)體名詞,輸出為T(mén)rue或者False,判斷是否KB中的實(shí)體名詞*/
Exist=existKB(KB, entity)
IR=BR
FeaturesCount/*數(shù)組,記錄每一個(gè)搜索結(jié)果中出現(xiàn)實(shí)體特征的個(gè)數(shù)*/
For m=lto end of BR
SURL=getURL(BR) /*找到每一個(gè)搜索結(jié)果的URL*/
Entities=getEntities(SURL)
For entity in EntitiesIf(existKB(KB, entity))
Features=getFeatures(SURL, Entities)
break
FeatureCount [m] =Iength (Features)/*計(jì)算Features中實(shí)體特征的數(shù)量并將其加入對(duì)應(yīng)標(biāo)號(hào)FeatureCount數(shù)組*/
IR=fastSort (FeatureCount)/*使用快速排序算法對(duì)FeatureCount數(shù)組進(jìn)行排序得到的排序就是重新排序后順序*/
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0005]圖1是本發(fā)明基于實(shí)體特征的搜索排序改進(jìn)算法具體實(shí)施原理以及框圖。
【具體實(shí)施方式】
[0006]下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許會(huì)淡化本發(fā)明的主要內(nèi)容時(shí),這些描述在這里將被忽略。
[0007]圖1是本發(fā)明基于實(shí)體特征的搜索排序改進(jìn)算法具體實(shí)施原理以及框圖。
[0008]在本實(shí)施例中,如圖1所示,本發(fā)明基于實(shí)體特征的搜索排序改進(jìn)算法原有搜索排序101,搜索排序URL102,實(shí)體及特征知識(shí)庫(kù)103,實(shí)體提取104,特征提取105,數(shù)組記錄106,改進(jìn)后搜索排序107。
[0009]在本實(shí)例中通過(guò)原有搜索排序101,搜索排序URL102中的網(wǎng)絡(luò)頁(yè)面數(shù)據(jù)傳遞給實(shí)體提取104,實(shí)體提取104提取完成實(shí)體后傳入實(shí)體及特征知識(shí)庫(kù)103。通過(guò)實(shí)體及特征知識(shí)庫(kù)103進(jìn)行判斷實(shí)體是否存在于實(shí)體與特征知識(shí)庫(kù)中。如果存在則通過(guò)特征提取105。進(jìn)行了特征提取后。使用數(shù)組記錄106記錄下特征出現(xiàn)的次數(shù)。最后通過(guò)快速排序數(shù)組記錄106得到改進(jìn)后的搜索排序107。
[0010]盡管上面對(duì)本發(fā)明說(shuō)明性的【具體實(shí)施方式】進(jìn)行了描述,以便于本技術(shù)領(lǐng)的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于【具體實(shí)施方式】的范圍,對(duì)本【技術(shù)領(lǐng)域】的普通技術(shù)人員來(lái)講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見(jiàn)的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
【權(quán)利要求】
1.一種基于實(shí)體及特征的搜索排序改進(jìn)算法由以下特征構(gòu)成://Input (輸入)BR—base rank (原有搜索頁(yè)面排序)
SURL一 search url (搜索頁(yè)面的 URL)
KB一knowledge base(需要進(jìn)行重新排序的實(shí)體及特征知識(shí)庫(kù)) //Output (輸出)IR—improved rank(改進(jìn)后的搜索頁(yè)面排序) AgetEntities函數(shù),輸入為SURL,輸出為某URL頁(yè)面里面的高頻名詞,并將這些高頻名詞作為實(shí)體*/
Entities = g etEntities(SURL) AgetFeatures函數(shù),輸入為SURL,對(duì)應(yīng)SURL下的Entities,輸出為Entities對(duì)應(yīng)的Features*/
Features=getFeatures(SURL, Entities) /*existKB函數(shù),輸入為KB,entity實(shí)體名詞,輸出為T(mén)rue或者False,判斷是否KB中的實(shí)體名詞*/
Exist=existKB(KB, entity)
IR=BR FeaturesCount/*數(shù)組,記錄每一個(gè)搜索結(jié)果中出現(xiàn)實(shí)體特征的個(gè)數(shù)*/
For m=l to end of BR
SURL=getURL(BR) Λ找到每一個(gè)搜索結(jié)果的URL*/
Entities=getEntities(SURL)
For entity in Entities
If (existKB(KB, entity))
Features=getFeatures(SURL, Entities)
break FeatureCount [m] =Iength (Features) /*計(jì)算Features中實(shí)體特征的數(shù)量并將其加入對(duì)應(yīng)標(biāo)號(hào)FeatureCount數(shù)組*/ IR =fastSort (FeatureCount) /*使用快速排序算法對(duì)FeatureCount數(shù)組進(jìn)行排序得到的排序就是重新排序后順序*/。
【文檔編號(hào)】G06F17/30GK103914517SQ201410092520
【公開(kāi)日】2014年7月9日 申請(qǐng)日期:2014年3月13日 優(yōu)先權(quán)日:2014年3月13日
【發(fā)明者】秦志光, 周爾強(qiáng), 羅熹 申請(qǐng)人:電子科技大學(xué)