專利名稱:一種元搜索引擎的排名方法及元搜索引擎的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息檢索技術(shù)領(lǐng)域,尤其涉及一種元搜索引擎的排名方法及元
搜索引擎。
背景技術(shù):
搜索引擎是互聯(lián)網(wǎng)基礎(chǔ)結(jié)構(gòu)的關(guān)鍵組成部分。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,搜索引擎也得到了不斷的完善,通過搜索引擎可以從互聯(lián)網(wǎng)上獲取各種信息。然而各種搜索引擎都有其特定的索引范圍、獨特的功能、使用方法及預(yù)期的用戶群指向。 一種搜索引擎不可能滿足所有人或一個人所有的檢索需求。在某些情況下,如文獻(xiàn)普查、專題查詢、新聞?wù){(diào)查與朔源、軟件及MP3下載地址搜索、生活信息搜索等等,人們往往需要使用多種搜索引擎,對搜索結(jié)果進(jìn)行比較、篩選和相互印證。為簡化逐一登陸各搜索引擎,并在各搜索引擎中分別多次輸入同一檢索請求即同一個檢索字串等煩瑣操作,元搜索引擎應(yīng)運而生。
元搜索引擎(Meta-search Engine)將多個獨立搜索引擎集成在一起,提供統(tǒng)一的檢索界面,將用戶的檢索請求同時提交給多個獨立的搜索引擎,同時檢索多個數(shù)據(jù)庫;并根據(jù)多個獨立的搜索引擎的檢索結(jié)果進(jìn)行二次加工,如對檢索結(jié)果去重、排名等;最后將結(jié)果輸出給用戶。其中,獨立搜索引擎在元搜索引擎的系統(tǒng)中可以稱為源搜索引擎(SourceEngine)。 決定元搜索質(zhì)量的一個關(guān)鍵因素是其結(jié)果的排名。在現(xiàn)有技術(shù)中,沒有考慮到元搜索引擎調(diào)用的每個獨立搜索引擎其所側(cè)重的搜索信息類別的不同,即每個獨立搜索引擎對某一類或某幾類信息提供的搜索比較準(zhǔn)確。由于元搜索引擎提供的搜索結(jié)果較多,而用戶一般比較關(guān)注位置比較靠前的搜索結(jié)果,因此導(dǎo)致從元搜索引擎獲取的搜索結(jié)果不能令人滿意。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明提供一種元搜索引擎的排名方法及元搜索引擎,用以解決現(xiàn)有
技術(shù)中用戶從元搜索引擎獲取的搜索結(jié)果不準(zhǔn)確的問題。 本發(fā)明實施例提供的一種元搜索引擎的排名方法,包括 元搜索引擎根據(jù)用戶輸入的搜索請求提取搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞對應(yīng)的文本類別; 元搜索引擎將該搜索關(guān)鍵詞發(fā)送到其調(diào)用的每個獨立搜索引擎; 接收每個獨立搜索引擎返回的搜索結(jié)果,根據(jù)保存的每個獨立搜索引擎對應(yīng)所述
文本類別的權(quán)重系數(shù),確定每個搜索結(jié)果的排名; 將確定排名后的搜索結(jié)果提供給所述用戶。 本發(fā)明實施例提供的一種元搜索引擎,包括 文本類別確定模塊,用于根據(jù)用戶輸入的搜索請求提取搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞對應(yīng)的文本類別;
發(fā)送模塊,用于將該搜索關(guān)鍵詞發(fā)送到其調(diào)用的每個獨立搜索引擎,并將確定排 名后的搜索結(jié)果提供給所述用戶; 排名模塊,用于接收每個獨立搜索引擎返回的搜索結(jié)果,根據(jù)保存的每個獨立搜 索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),確定每個搜索結(jié)果的排名。 本發(fā)明實施例提供的元搜索引擎及搜索方法,確定用戶輸入的搜索請求對應(yīng)的文 本類別,在將每個獨立引擎返回的結(jié)果進(jìn)行排名時,根據(jù)每個獨立搜索引擎相對該文本類 別的權(quán)重系數(shù)確定,充分考慮了其調(diào)用的每個獨立搜索引擎的搜索特點,針對每個文本類 別的準(zhǔn)確性,從而可以向用戶提供更為準(zhǔn)確的搜索結(jié)果,大大提高了元搜索引擎提供的搜 索結(jié)果的搜索質(zhì)量。
圖1為本發(fā)明實施例提供的一種元搜索引擎的排名方法流程圖; 圖2為本發(fā)明實施例提供的用戶輸入的搜索請求包括一個文本類別,元搜索引擎
的排名方法流程圖; 圖3為本發(fā)明實施例提供的確定的搜索關(guān)鍵詞長度較長時,元搜索引擎的排名方 法流程圖; 圖4為本發(fā)明實施例提供的一種元搜索引擎結(jié)構(gòu)示意圖。
具體實施例方式
本發(fā)明實施例中為了有效提高用戶從元搜索引擎獲取的搜索結(jié)果的準(zhǔn)確性,提高 元搜索引擎提供的搜索結(jié)果的搜索質(zhì)量,如圖1所示,本發(fā)明實施例提供了一種元搜索引 擎的排名方法,具體包括以下步驟 S101 :元搜索引擎根據(jù)用戶輸入的搜索請求提取搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞 對應(yīng)的文本類別。
在本發(fā)明實施例中可以采用文本分類方法確定每個搜索關(guān)鍵詞的文本類別。
S102 :元搜索引擎將該搜索關(guān)鍵詞發(fā)送到其調(diào)用的每個獨立搜索引擎。
S103:接收每個獨立搜索引擎返回的搜索結(jié)果,根據(jù)每個獨立搜索引擎對應(yīng)所述 文本類別的權(quán)重系數(shù),確定每個搜索結(jié)果的排名。 在本發(fā)明實施例中,每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),根據(jù)每個 獨立搜索引擎對所述文本類別搜索的準(zhǔn)確度確定。 所述根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),確定每個搜索
結(jié)果的排名包括根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),及所述每
個獨立搜索引擎返回的搜索結(jié)果的位置,確定每個搜索結(jié)果的排名。
S104 :將確定排名后的搜索結(jié)果提供給所述用戶。
下面結(jié)合說明書附圖,對本發(fā)明實施例進(jìn)行詳細(xì)說明。 在本發(fā)明實施例中,根據(jù)用戶可能涉及到的搜索文本的類別,確定元搜索引擎中 調(diào)用的每個獨立搜索引擎相對每個文本類別的權(quán)重系數(shù),也可以理解為確定每個元搜索引 擎調(diào)用的每個獨立搜索引擎對每個搜索文本搜索的準(zhǔn)確度,其中,確定每個獨立搜索引擎 相對每個文本類別的權(quán)重系數(shù),可以通過用戶對每個獨立搜索引擎對其搜索每個文本類別的評價確定,例如用戶A,對獨立搜索引擎B搜索新聞文本類別的評價為較好,或評價為80分,則通過若干個用戶對獨立搜索引擎B搜索新聞文本類別的評價,確定獨立搜索引擎B搜索新聞文本類別的權(quán)重系數(shù)。 當(dāng)然,也可以通過第三方測試平臺,針對每個文本類別,確定元搜索引擎調(diào)用的每個獨立搜索引擎搜索該文本類別的準(zhǔn)確度,從而確定每個獨立搜索引擎相對每個文本類別的權(quán)重系數(shù)。在本發(fā)明實施例中,元搜索引擎調(diào)用的每個獨立搜索引擎相對一個文本類別的權(quán)重系數(shù)的和可以為1,當(dāng)然也可以不限定權(quán)重系數(shù)的和,只要該權(quán)重系數(shù)能夠體現(xiàn)其搜索對應(yīng)文本類別的準(zhǔn)確度即可。例如用戶常用的文本類別包括時政A、財經(jīng)B、娛樂C、 IT互聯(lián)網(wǎng)D、科技E、生活F、軟件G等,并且,該元搜索引擎調(diào)用的獨立搜索引擎分別為a、b和c時,通過評測后,確定獨立搜索引擎a相對時政A的權(quán)重系數(shù)為0. 6,可以理解為獨立搜索引擎a搜索文本類別時政的準(zhǔn)確性為0. 6,獨立搜索引擎b相對時政A的權(quán)重系數(shù)為0. 3,獨立搜索引擎c相對時政A的權(quán)重系數(shù)為0. l,獨立搜索引擎a相對娛樂C的權(quán)重系數(shù)為0. 2,獨立搜索引擎b相對娛樂C的權(quán)重系數(shù)為0. 5,獨立搜索引擎c相對娛樂C的權(quán)重系數(shù)為0. 3,等等,依次確定元搜索引擎調(diào)用的每個獨立搜索引擎相對每個文本類別的權(quán)重系數(shù)。 圖2為本發(fā)明實施例中,當(dāng)用戶輸入的搜索請求包括一個文本類別時,元搜索引擎的排名方法,具體包括以下步驟 S201 :元搜索引擎根據(jù)接收到的用戶輸入的搜索請求提取搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞對應(yīng)的文本類別。 例如可以采用文本分類方法確定搜索關(guān)鍵詞對應(yīng)的文本類別,當(dāng)然可以采用其他的方法確定搜索關(guān)鍵詞對應(yīng)的文本類別。 S202 :元搜索引擎將該搜索關(guān)鍵詞發(fā)送給其調(diào)用的每個獨立搜索引擎。 S203 :每個獨立搜索引擎接收到該搜索關(guān)鍵詞后,根據(jù)該搜索關(guān)鍵詞進(jìn)行搜索,并
向元搜索引擎返回其搜索結(jié)果。 S204 :元搜索引擎接收其調(diào)用的每個獨立搜索引擎返回的搜索結(jié)果。 S205:根據(jù)該搜索關(guān)鍵詞的文本類別,及每個獨立搜索引擎對應(yīng)該文本類別的權(quán)
重系數(shù),將每個獨立搜索引擎返回的搜索結(jié)果排名,并將確定排名后的搜索結(jié)果返回給用戶。 其中,根據(jù)接收到的用戶輸入的搜索請求提取搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞對應(yīng)的文本類別包括將用戶輸入的搜索請求進(jìn)行文檔切分處理,根據(jù)搜索請求的詞頻特性,提取該搜索請求中的類別關(guān)鍵詞,進(jìn)行類別關(guān)鍵詞的學(xué)習(xí)與調(diào)整,當(dāng)每個類別的關(guān)鍵詞學(xué)習(xí)完畢后,需要對原支持每個類別的向量進(jìn)行權(quán)重調(diào)整,從而確定搜索請求的搜索關(guān)鍵詞,及該搜索關(guān)鍵詞對應(yīng)的文本類別。 根據(jù)該搜索關(guān)鍵詞的文本類別,及每個獨立搜索引擎對應(yīng)該文本類別的權(quán)重系數(shù),將每個獨立搜索引擎返回的搜索結(jié)果排名包括 例如當(dāng)根據(jù)用戶輸入搜索請求提取的搜索關(guān)鍵詞為影視明星張三時,元搜索引擎確定該搜索關(guān)鍵詞的文本類別為娛樂。元搜索引擎將搜索關(guān)鍵詞張三發(fā)送到其調(diào)用的每個獨立搜索引擎a、 b和C。每個獨立搜索引擎根據(jù)接收到的搜索關(guān)鍵詞張三進(jìn)行搜索,并將搜索結(jié)果返回元搜索引擎。元搜索引擎接收到其調(diào)用的每個獨立搜索引擎返回的搜索結(jié)
6果后,根據(jù)每個獨立搜索引擎相對該娛樂文本類別的權(quán)重系數(shù),例如獨立搜索引擎a相對 娛樂C的權(quán)重系數(shù)為0. 2,獨立搜索引擎b相對娛樂C的權(quán)重系數(shù)為0. 5,獨立搜索引擎c 相對娛樂C的權(quán)重系數(shù)為0. 3,由于,獨立搜索引擎相對娛樂C的權(quán)重系數(shù)的高低順序為b、 c和a,因此,可以首先將獨立搜索引擎b返回的搜索結(jié)果進(jìn)行排名,然后排獨立搜索引擎c 返回的搜索結(jié)果,最后排獨立搜索引擎a返回的搜索結(jié)果。 由于獨立搜索引擎返回的搜索結(jié)果也可能是按照與搜索關(guān)鍵詞的密切程度進(jìn)行 排名的,可以認(rèn)為每個獨立搜索引擎返回的搜索結(jié)果排列在前的其與搜索關(guān)鍵詞的相關(guān)度 比較高。因此,在將每個獨立搜素引擎返回的搜索結(jié)果進(jìn)行排名時,也可以根據(jù)每個獨立搜 索引擎相對文本類別的權(quán)重系數(shù),及每個獨立搜索引擎返回的每個搜索結(jié)果在總搜索結(jié)果 中的位置,將每個獨立搜索引擎返回的每個搜索結(jié)果進(jìn)行排名輸出。 例如,獨立搜索引擎a相對娛樂C的權(quán)重系數(shù)為0. 2,獨立搜索引擎b相對娛樂C 的權(quán)重系數(shù)為0. 5,獨立搜索引擎c相對娛樂C的權(quán)重系數(shù)為0. 3,由于,獨立搜索引擎相對 娛樂C的權(quán)重系數(shù)的高低順序為b、c和a,同時,獨立搜索引擎a返回的搜索結(jié)果中排列順
序為la、2a、3a.......,獨立搜索引擎b返回的搜索結(jié)果中排列順序為lb、2b、3b.......,
獨立搜索引擎c返回的搜索結(jié)果中排列順序為lc、2c、3c.......,則排名后可以包括lb、
lc、 la、2b、2c、2a、3b、3c、3a、......。 或者,根據(jù)每個獨立搜索引擎返回的每個搜索結(jié)果在總搜索結(jié)果中的位置,確定 每個位置對應(yīng)的權(quán)重系數(shù),并且根據(jù)每個獨立搜索引擎相對每個文本類別的權(quán)重系數(shù),將 每個獨立搜索引擎返回的搜索結(jié)果進(jìn)行排名。 例如,根據(jù)每個獨立搜索引擎返回的每個搜索結(jié)果在總搜索結(jié)果中的位置,確定 每個位置對應(yīng)的權(quán)重系數(shù),例如每個位置對應(yīng)的權(quán)重系數(shù)為與該位置對應(yīng)數(shù)的倒數(shù),比如, 當(dāng)某一搜索結(jié)果為獨立搜索返回的搜索結(jié)果的第n個,n為正整數(shù),則該搜索結(jié)果對應(yīng)的權(quán) 重系數(shù)為1/n。因此再將每個獨立搜索引擎返回的結(jié)果進(jìn)行排名時,例如,獨立搜索引擎a 相對娛樂C的權(quán)重系數(shù)為0. 2,獨立搜索引擎b相對娛樂C的權(quán)重系數(shù)為0. 5,獨立搜索引 擎c相對娛樂C的權(quán)重系數(shù)為0. 3,由于,獨立搜索引擎相對娛樂C的權(quán)重系數(shù)的高低順序
為b、c和a,同時,獨立搜索引擎a返回的搜索結(jié)果中排列順序為la、2a、3a.......,獨立搜
索引擎b返回的搜索結(jié)果中排列順序為lb、2b、3b.......,獨立搜索引擎c返回的搜索結(jié)果
中排列順序為lc、2c、3c.......,則可知獨立搜索引擎a返回的每條搜索結(jié)果的排名參數(shù)
為0. 2、0. 1、0. 2/3.......,獨立搜索引擎b返回的每條搜索結(jié)果的排名參數(shù)為0. 5、0. 25、
0. 5/3.......,獨立搜索引擎c返回的每條搜索結(jié)果的排名參數(shù)為0.3、0. 15、0. 1.......,
因此將排名后的搜索結(jié)果為lb、lc、2b、la、3b、2c、2a、3c、3a.......。 在本發(fā)明實施例中,當(dāng)兩個獨立搜索引擎對應(yīng)的文本類別的權(quán)重系數(shù)相同時,該 兩個獨立搜索引擎返回的搜索結(jié)果的順序可以任意排列。 采用本發(fā)明實施例所提供的方法,根據(jù)每個獨立搜索引擎相對每個搜索文本類別 的權(quán)重系數(shù),以及根據(jù)每個獨立搜索引擎返回的結(jié)果的位置,確定每個搜索結(jié)果的排名,充 分考慮了每個獨立搜索引擎的搜索特點,并結(jié)合了每個獨立搜索引擎返回的結(jié)果的特點, 因此采用本發(fā)明實施例提供的確定排名的方法,可以使用戶從元搜索引擎獲取的搜索結(jié)果 更準(zhǔn)確。 或者,在對每個獨立搜索引擎返回的搜索結(jié)果進(jìn)行排名時,根據(jù)每個獨立搜索引擎搜索信息的準(zhǔn)確度,及每個獨立搜索引擎搜索每個文本類別的準(zhǔn)確度,確定每個搜索結(jié) 果的排名。 在本發(fā)明實施例中,可以根據(jù)每個獨立搜索引擎對搜索文本類別,即對綜合信息 的搜索的準(zhǔn)確度,確定每個獨立搜索引擎相對該綜合信息的第一權(quán)重系數(shù),再根據(jù)每個獨 立搜索引擎搜索每個文本類別的準(zhǔn)確度,確定每個獨立搜索引擎相對每個文本類別的權(quán)重 系數(shù),根據(jù)該兩個權(quán)重系數(shù),確定每個搜索引擎返回的每個搜索結(jié)果的排名。其中,綜合信 息包括時政、財經(jīng)、娛樂、IT互聯(lián)網(wǎng)、科技、生活、軟件等等信息。 例如,兩個獨立搜素引擎a和b,其相對綜合信息的第一權(quán)重系數(shù)分別為0.7和 0. 3,其相對經(jīng)濟(jì)文本類別的權(quán)重系數(shù)分別為0. 4和0. 6,則當(dāng)元搜索引擎調(diào)用該兩個獨立 搜索引擎,對文本類別為經(jīng)濟(jì)的搜索關(guān)鍵詞進(jìn)行搜索時,將該兩個獨立搜索引擎返回的搜 索結(jié)果進(jìn)行排序時,根據(jù)該兩個獨立搜素引擎相對綜合信息的第一權(quán)重系數(shù)和相對經(jīng)濟(jì)文 本類別的權(quán)重系數(shù),確定每個搜索結(jié)果的排名時,則獨立搜索引擎a返回的搜索結(jié)果la,
2a......的排名參數(shù)為0.28,獨立搜索引擎b返回的搜索結(jié)果lb,2b......的排名參數(shù)為
0. 18,因此,在將獨立搜索引擎返回的每個搜索結(jié)果進(jìn)行排名是,可以按照先排獨立搜索引 擎a返回的搜索結(jié)果,然后排獨立搜索引擎b返回的搜索結(jié)果。 同時,在上述將每個搜索結(jié)果進(jìn)行排名的過程中,也可以按照每個獨立搜索引擎 返回的搜索結(jié)果的位置進(jìn)行排名。例如,按照上述返回的結(jié)果,在排名時,可以確定排名為 la, lb,2a,2b......。 采用本發(fā)明實施例所提供的方法,根據(jù)每個獨立搜索引擎相對每個搜索文本類別
的權(quán)重系數(shù),以及根據(jù)每個獨立搜索引擎返回的結(jié)果的位置,確定每個搜索結(jié)果的排名,充
分考慮了每個獨立搜索引擎搜索綜合信息及各個文本信息的特點,因此采用本發(fā)明實施例
提供的確定排名的方法,可以使用戶從元搜索引擎獲取的搜索結(jié)果更準(zhǔn)確。 采用本發(fā)明實施例提供的元搜索引擎的搜索方法,充分考慮了其調(diào)用的每個獨立
搜索引擎的搜索特點,針對每個文本類別的準(zhǔn)確性,從而可以向用戶提供更為準(zhǔn)確的搜索結(jié)果。 同時,在本發(fā)明實施例中,在進(jìn)行搜索結(jié)果排名時還可以根據(jù)每個獨立搜索引擎
返回的搜索結(jié)果的位置,及每個獨立搜索引擎相對每個文本類別的權(quán)重系數(shù),確定每個獨
立搜索引擎返回的搜索結(jié)果的順序,從而可以向用戶提供更為準(zhǔn)確的搜索結(jié)果。 在本發(fā)明實施例中,為了提高元搜索引擎向用戶提供搜索結(jié)果的速度,可以在接
收到每個獨立的搜索引擎返回的部分搜索結(jié)果時,按照上述排名方法將該部分搜索結(jié)果進(jìn)
行排名,例如接收到每個獨立搜索引擎返回的搜索結(jié)果的首頁后者前幾頁時,將每個搜索
結(jié)果進(jìn)行排名。當(dāng)元搜索引擎接收到每個獨立搜索引擎返回的所有搜索結(jié)果后,將該所有
搜索結(jié)果按照上述方法進(jìn)行排名,將排名后的搜索結(jié)果提供給用戶。 由于各個獨立的搜索引擎,其接收搜索關(guān)鍵詞的長度都是有限制的,在本發(fā)明實
施例中,可以實現(xiàn)對超長關(guān)鍵詞的搜索,如圖3所示,具體包括以下步驟 S301 :元搜索引擎根據(jù)接收到的用戶輸入的搜索請求提取搜索關(guān)鍵詞,確定該搜
索關(guān)鍵詞對應(yīng)的文本類別。 S302:判斷搜索關(guān)鍵詞的長度是否不大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值, 當(dāng)判斷結(jié)果為是時,進(jìn)行步驟S303,否則進(jìn)行步驟S305 ;
S303 :元搜索引擎將該搜索關(guān)鍵詞發(fā)送到其調(diào)用的每個獨立搜索引擎。 S304:根據(jù)接收到每個獨立搜索引擎返回對搜索關(guān)鍵詞的搜索結(jié)果,及每個獨立
搜索引擎相對該文本類別的權(quán)重系數(shù),將每個獨立引擎返回的每個搜索結(jié)果進(jìn)行排名,并
將確定排名后的搜索結(jié)果提供給用戶。 S305:當(dāng)搜索關(guān)鍵詞的長度大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值時,將該搜索關(guān)鍵詞進(jìn)行拆分,拆分為至少兩個子句。 在本發(fā)明實施例中可以采用邏輯拆分的方法,將搜索關(guān)鍵詞拆分為至少兩個子
句,或者也可以采用其他的拆分方法,將該搜索關(guān)鍵詞拆分為至少兩個子句。 S306:判斷拆分后的子句的長度,是否不大于獨立搜索引擎搜索關(guān)鍵詞的長度閾
值,當(dāng)判斷結(jié)果為是時,進(jìn)行S307,否則,進(jìn)行S309。 S307 :當(dāng)拆分后的某一個子句或某幾個子句的長度不大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值時,將拆分后的該一個或幾個子句發(fā)送給其調(diào)用的每個獨立搜索引擎。
S308:根據(jù)接收到每個獨立搜索引擎返回對每個子句的搜索結(jié)果,及每個獨立搜索引擎相對該文本類別的權(quán)重系數(shù),將每個獨立引擎返回的每個搜索結(jié)果進(jìn)行排名,并將確定排名后的搜索結(jié)果提供給用戶。 S309:當(dāng)拆分后的某一個子句或某幾個子句的長度大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值時,根據(jù)獨立搜索引擎搜索關(guān)鍵詞的長度閾值,將該一個或幾個子句中的每個子句拆分為至少兩個分詞。將每個分詞發(fā)送給每個獨立搜索引擎。 在本發(fā)明實施例中,可以采用中文分詞方法將每個子句拆分為至少兩個分詞,當(dāng)然也可以采用其他方法,將每個子句拆分為至少兩個分詞。 S310:根據(jù)每個獨立搜索引擎返回的對每個分詞的搜索結(jié)果,及每個獨立搜索引擎相對該文本類別的權(quán)重系數(shù),將每個獨立搜索引擎返回的每個搜索結(jié)果進(jìn)行排名,并將排名后的搜索結(jié)果提供給用戶。 在本發(fā)明實施例中,當(dāng)確定的搜索關(guān)鍵詞的長度大于設(shè)定的獨立搜索引擎搜索關(guān)
鍵詞的長度閾值時,將該搜索關(guān)鍵詞進(jìn)行拆分首先進(jìn)行邏輯拆分,如果邏輯拆分后的子句
仍然大于獨立搜索引擎搜索關(guān)鍵詞的長度闕值時,再利用中文分詞技術(shù)進(jìn)行分拆。 在本發(fā)明實施例中所采用的邏輯分拆將搜索關(guān)鍵詞拆分為至少兩個子句包括針
對超出長度限制的詞句邏輯組合,將其分解為析取范式:(a廠a2"a3. ) | (bl"b2"b3.)
...,其中的合取子句(ara2"a3. ..), (bl~b2~b3...),...可以作為獨立的查詢分別發(fā)給搜索引擎,然后取返回結(jié)果的并集。
詞句邏輯組合分解為析取范式的步驟包括 首先,對搜索關(guān)鍵詞中的語句的邏輯組合進(jìn)行語法分析,在計算機中將語法分析后的結(jié)果存儲為分析樹。 然后,前序遍歷該分析樹,在遍歷該分析樹的過程中,利用德摩根(DeMorgan)定理進(jìn)行處理,即^H^-7org ,^^-7andg,直到所有的取否操作都應(yīng)用于原子命題上,其中,在本發(fā)明實施例中,原子命題包括不含邏輯連接字"and"或"or"的子句。
再后,對處理的分析樹再進(jìn)行一次前序遍歷,檢查分析樹內(nèi)部是否出現(xiàn)連續(xù)兩個取否操作,當(dāng)出現(xiàn)兩個連續(xù)取否操作時,將其消除,例如~~A = A。 繼而,對分析樹再進(jìn)行一次后序遍歷,利用命題公式的分配律,(AorB)and(CorD)
9=(AandC)or (AandD)or (BandC)or (BandD),將分析樹轉(zhuǎn)化為析取范式的形式。當(dāng)分析樹中 存在(Qand^ )的形式時,則該子句無效,可以將其刪除。 當(dāng)邏輯拆分后的子句的長度仍然大于獨立搜索引擎的搜索長度閾值時,采用中文 分詞方法將每個子句劃分為至少兩個分詞。例如拆分后的子句為"拆分后的子句的長度仍 然大于獨立搜索引擎的搜索長度閾值時,采用中文分詞方法將每個分句劃分為至少兩個分 詞",則采用中文分詞方法將該子句拆分為兩個分詞后得到第一分詞"拆分后的子句的長度 仍然大于獨立搜索引擎的搜索長度閾值時"和第二分詞"采用中文分詞方法將每個分句劃 分為至少兩個分詞"。 例如,當(dāng)元搜索引擎從用戶輸入的搜索請求中,確定了搜索關(guān)鍵詞及該搜索關(guān)鍵 詞對應(yīng)的文本類別時,當(dāng)該搜索關(guān)鍵詞的長度大于某一個或某幾個獨立搜索引擎搜索長度 閾值,則將該搜索關(guān)鍵詞進(jìn)行邏輯拆分或中文分詞方法拆分后,得到滿足長度要求的子句 或分詞。例如該搜索關(guān)鍵詞對應(yīng)的搜索文本類型為軟件G,以拆分得到的3個子句a、b和c 的長度滿足要求為例進(jìn)行說明。 元搜索引擎將拆分后的3個子句分別都發(fā)送到獨立搜索引擎A、 B和C,當(dāng)接收到 獨立搜索引擎A、 B和C對該3個子句的搜索結(jié)果后,將該搜索結(jié)果進(jìn)行排名。其中具體的 排名時,根據(jù)該每個獨立搜索引擎相對該文本類別的權(quán)重系數(shù)進(jìn)行,例如,獨立搜索引擎A
針對子句a返回的搜索結(jié)果分別為1Aa、2Aa.......,針對子句b返回的搜索結(jié)果分別為
1Ab、2Ab.......,針對子句c返回的搜索結(jié)果分別為1Ac、2Ac.......,獨立搜索引擎B針
對子句a返回的搜索結(jié)果分別為1Ba、2Ba.......,獨立搜索引擎B針對子句b返回的搜
索結(jié)果分別為1Bb、2Bb.......,獨立搜索引擎B針對子句c返回的搜索結(jié)果分別為lBc、
2Bc.......,獨立搜索引擎C針對子句a返回的搜索結(jié)果分別為1Ca、2Ca.......,獨立搜
索引擎C針對子句b返回的搜索結(jié)果分別為1Cb、2Cb.......,獨立搜索引擎C針對子句c
返回的搜索結(jié)果分別為1Cc、2Cc.......,當(dāng)根據(jù)每個獨立搜索引擎返回的搜索結(jié)果進(jìn)行排
名時,針對每個獨立搜索引擎相對搜索軟件文本類別的權(quán)重系數(shù)確定。 例如,獨立搜索引擎A相對搜索軟件文本類別的權(quán)重系數(shù)為0. 3,獨立搜索引擎B
相對搜索軟件文本類別的權(quán)重系數(shù)為0.2,獨立搜索引擎C相對搜索軟件文本類別的權(quán)重
系數(shù)為0.5。因此,在進(jìn)行搜索結(jié)果排名時,元搜索引擎可以首先排獨立搜索引擎C返回的
針對該3個子句的搜索結(jié)果,然后排獨立搜索引擎A返回的針對該3個子句的搜索結(jié)果,最
后排獨立搜索引擎B返回的針對該3個子句的搜索結(jié)果。 或者,在將每個獨立搜素引擎返回的搜索結(jié)果進(jìn)行排名時,也可以根據(jù)每個獨立 搜索引擎相對文本類別的權(quán)重系數(shù),及每個獨立搜索引擎返回的每個搜索結(jié)果在總搜索結(jié) 果中的位置,將每個獨立搜索引擎返回的每個搜索結(jié)果進(jìn)行排名輸出。 例如,元搜索引擎對獨立搜索引擎返回的結(jié)果排名時,由于獨立搜索引擎相對該 搜索軟件文本類別的權(quán)重系數(shù)由高到低的順序為C、A和B,因此在進(jìn)行搜索結(jié)果排名時,可 以首先排獨立搜索引擎C返回的針對每個子句的第一個搜索結(jié)果1Ca、lCb和1Cc,其中,該 三個搜索結(jié)果之間的順序可以任意排列,然后,排列獨立搜索引擎A返回的針對每個子句 的第一搜索結(jié)果1Aa、lAb和1Ac,其中,該三個搜索結(jié)果之間的順序可以任意排列,再后,排 列獨立搜索引擎B返回的針對每個子句的第一搜索結(jié)果1Bc、lBa和1Bb,其中,該三個搜索 結(jié)果之間的順序可以任意排列,再后,排獨立搜索引擎C返回的針對每個子句的第二個搜索結(jié)果2Ca、2Cb和2Cc,按照此順序依次將每個獨立搜索引擎返回的結(jié)果進(jìn)行排名,將排名 后的搜索結(jié)果提供給用戶。 或者,根據(jù)每個獨立搜索引擎返回的每個搜索結(jié)果在總搜索結(jié)果中的位置,確定 每個位置對應(yīng)的權(quán)重系數(shù),并且根據(jù)每個獨立搜索引擎相對每個文本類別的權(quán)重系數(shù),將 每個獨立搜索引擎返回的搜索結(jié)果進(jìn)行排名。 例如,根據(jù)每個獨立搜索引擎返回的每個搜索結(jié)果在總搜索結(jié)果中的位置,確定 每個位置對應(yīng)的權(quán)重系數(shù),例如每個位置對應(yīng)的權(quán)重系數(shù)為與該位置對應(yīng)數(shù)的倒數(shù),比如, 當(dāng)某一搜索結(jié)果為獨立搜索返回的搜索結(jié)果的第n個,n為正整數(shù),則該搜索結(jié)果對應(yīng)的權(quán) 重系數(shù)為1/n。其中,當(dāng)兩個搜索結(jié)果得到的權(quán)重系數(shù)相同時,該兩個搜索結(jié)果的可以任意 排列。 或者,在對每個獨立搜索引擎返回的搜索結(jié)果進(jìn)行排名時,根據(jù)每個獨立搜索引 擎搜索信息的準(zhǔn)確度,及每個獨立搜索引擎搜索每個文本類別的準(zhǔn)確度,確定每個搜索結(jié) 果的排名。 同時,在將每個獨立搜索引擎返回的搜索結(jié)果進(jìn)行排名時,還可以根據(jù)每個獨立 搜索引擎搜索信息的準(zhǔn)確度,每個獨立搜索引擎搜索每個文本類別的準(zhǔn)確度,以及每個獨 立搜索引擎返回的搜索結(jié)果的位置,確定每個搜索結(jié)果的排名。在這里就不一一贅述,相信 本領(lǐng)域技術(shù)人員可以根據(jù)上述實施例,按照本發(fā)明實施例提供的方法將每個搜索結(jié)果的排 名。 如圖4所示,為本發(fā)明實施例提供的一種元搜索引擎,包括 文本類別確定模塊40,用于根據(jù)用戶輸入的搜索請求提取搜索關(guān)鍵詞,確定該搜 索關(guān)鍵詞對應(yīng)的文本類別; 發(fā)送模塊41,用于將該搜索關(guān)鍵詞發(fā)送到每個獨立搜索引擎,并將確定排名后的 搜索結(jié)果提供給所述用戶; 排名模塊42,用于接收每個獨立搜索引擎返回的搜索結(jié)果,根據(jù)保存的每個獨立
搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),確定每個搜索結(jié)果的排名。 所述元搜索引擎還包括 判斷模塊43,用于判斷所述搜索關(guān)鍵詞的長度是否不大于獨立搜索引擎搜索關(guān)鍵 詞的長度閾值; 拆分模塊44,用于當(dāng)所述搜索關(guān)鍵詞的長度大于獨立搜索引擎搜索關(guān)鍵詞的長度
閾值時,將所述搜索關(guān)鍵詞拆分為至少兩個子句。
所述判斷模塊43還用于, 判斷每個子句的長度是否不大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值。
所述拆分模塊44還用于, 當(dāng)所述每個子句的長度大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值時,根據(jù)每個獨
立搜索引擎搜索關(guān)鍵詞的長度閾值,將所述每個子句拆分為至少兩個分詞。 所述排名模塊42還用于, 根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),及所述每個獨立搜
索引擎返回的搜索結(jié)果的位置,確定每個搜索結(jié)果的排名。 所述排名模塊42還用于,
根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),及所述每個獨立搜 索引擎相對綜合信息的權(quán)重系數(shù),確定每個搜索結(jié)果的排名。
所述排名模塊42還用于, 根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),所述每個獨立搜索 引擎返回的搜索結(jié)果的位置,及所述每個獨立搜索引擎相對綜合信息的權(quán)重系數(shù),確定每 個搜索結(jié)果的排名。 本發(fā)明實施例提供的元搜索引擎及搜索方法,確定用戶輸入的搜索請求對應(yīng)的文 本類別,在將每個獨立引擎返回的結(jié)果進(jìn)行排名時,根據(jù)每個獨立搜索引擎相對該文本類 別的權(quán)重系數(shù)確定,充分考慮了其調(diào)用的每個獨立搜索引擎的搜索特點,針對每個文本類 別的準(zhǔn)確性,從而可以向用戶提供更為準(zhǔn)確的搜索結(jié)果。 顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍 之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
一種元搜索引擎的排名方法,其特征在于,包括元搜索引擎根據(jù)用戶輸入的搜索請求提取搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞對應(yīng)的文本類別;元搜索引擎將該搜索關(guān)鍵詞發(fā)送到其調(diào)用的每個獨立搜索引擎;接收每個獨立搜索引擎返回的搜索結(jié)果,根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),確定每個搜索結(jié)果的排名;將確定排名后的搜索結(jié)果提供給所述用戶。
2. 如權(quán)利要求1所述的方法,其特征在于,所述每個獨立搜索引擎對應(yīng)所述文本類別 的權(quán)重系數(shù),根據(jù)每個獨立搜索引擎對所述文本類別搜索的準(zhǔn)確度確定。
3. 如權(quán)利要求1所述的方法,其特征在于,所述元搜索引擎將該搜索關(guān)鍵詞發(fā)送到每 個獨立搜索引擎之前所述方法進(jìn)一步包括判斷所述搜索關(guān)鍵詞的長度是否不大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值; 當(dāng)所述搜索關(guān)鍵詞的長度不大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值時,進(jìn)行所述的 將該搜索關(guān)鍵詞發(fā)送到每個獨立搜索引擎的步驟; 否則,將所述搜索關(guān)鍵詞拆分為至少兩個子句。
4. 如權(quán)利要求3所述的方法,其特征在于,所述方法進(jìn)一步包括 判斷每個子句的長度是否不大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值; 當(dāng)所述每個子句的長度不大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值時,進(jìn)行所述的將該搜索關(guān)鍵詞每個子句發(fā)送到每個獨立搜索引擎的步驟;否則,根據(jù)每個獨立搜索引擎搜索關(guān)鍵詞的長度閾值,將所述每個子句拆分為至少兩 個分詞。
5. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)保存的每個獨立搜索引擎對應(yīng)所 述文本類別的權(quán)重系數(shù),確定每個搜索結(jié)果的排名包括根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),及所述每個獨立搜索引 擎返回的搜索結(jié)果的位置,確定每個搜索結(jié)果的排名。
6. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)保存的每個獨立搜索引擎對應(yīng)所 述文本類別的權(quán)重系數(shù),確定每個搜索結(jié)果的排名包括根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),及所述每個獨立搜索引 擎相對綜合信息的權(quán)重系數(shù),確定每個搜索結(jié)果的排名。
7. 如權(quán)利要求1或6所述的方法,其特征在于,所述根據(jù)保存的每個獨立搜索引擎對應(yīng) 所述文本類別的權(quán)重系數(shù),確定每個搜索結(jié)果的排名包括根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),所述每個獨立搜索引擎 返回的搜索結(jié)果的位置,及所述每個獨立搜索引擎相對綜合信息的權(quán)重系數(shù),確定每個搜 索結(jié)果的排名。
8. —種元搜索引擎,其特征在于,包括文本類別確定模塊,用于根據(jù)用戶輸入的搜索請求提取搜索關(guān)鍵詞,確定該搜索關(guān)鍵 詞對應(yīng)的文本類別;發(fā)送模塊,用于將該搜索關(guān)鍵詞發(fā)送到其調(diào)用的每個獨立搜索引擎,并將確定排名后 的搜索結(jié)果提供給所述用戶;排名模塊,用于接收每個獨立搜索引擎返回的搜索結(jié)果,根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),確定每個搜索結(jié)果的排名。
9. 如權(quán)利要求8所述的元搜索引擎,其特征在于,所述元搜索引擎還包括判斷模塊,用于判斷所述搜索關(guān)鍵詞的長度是否不大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值;拆分模塊,用于當(dāng)所述搜索關(guān)鍵詞的長度大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值時,將所述搜索關(guān)鍵詞拆分為至少兩個子句。
10. 如權(quán)利要求9所述的元搜索引擎,其特征在于,所述判斷模塊還用于,判斷每個子句的長度是否不大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值。
11. 如權(quán)利要求10所述的元搜索引擎,其特征在于,所述拆分模塊還用于,當(dāng)所述每個子句的長度大于獨立搜索引擎搜索關(guān)鍵詞的長度閾值時,根據(jù)每個獨立搜索引擎搜索關(guān)鍵詞的長度閾值,將所述每個子句拆分為至少兩個分詞。
12. 如權(quán)利要求8所述的元搜索引擎,其特征在于,所述排名模塊還用于,根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),及所述每個獨立搜索引擎返回的搜索結(jié)果的位置,確定每個搜索結(jié)果的排名。
13. 如權(quán)利要求8所述的元搜索引擎,其特征在于,所述排名模塊還用于,根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),及所述每個獨立搜索引擎相對綜合信息的權(quán)重系數(shù),確定每個搜索結(jié)果的排名。
14. 如權(quán)利要求8所述的元搜索引擎,其特征在于,所述排名模塊還用于,根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),所述每個獨立搜索引擎返回的搜索結(jié)果的位置,及所述每個獨立搜索引擎相對綜合信息的權(quán)重系數(shù),確定每個搜索結(jié)果的排名。
全文摘要
本發(fā)明公開了一種元搜索引擎的排名方法及元搜索引擎,用以解決現(xiàn)有技術(shù)中用戶從元搜索引擎獲取的搜索結(jié)果不準(zhǔn)確的問題。該方法包括元搜索引擎根據(jù)用戶輸入的搜索請求提取搜索關(guān)鍵詞,確定該搜索關(guān)鍵詞對應(yīng)的文本類別;元搜索引擎將該搜索關(guān)鍵詞發(fā)送到其調(diào)用的每個獨立搜索引擎;接收每個獨立搜索引擎返回的搜索結(jié)果,根據(jù)保存的每個獨立搜索引擎對應(yīng)所述文本類別的權(quán)重系數(shù),確定每個搜索結(jié)果的排名;將確定排名后的搜索結(jié)果提供給所述用戶。如本發(fā)明提出的方案,可以向用戶提供更為準(zhǔn)確的搜索結(jié)果,大大提高了元搜索引擎提供的搜索結(jié)果的搜索質(zhì)量。
文檔編號G06F17/30GK101751434SQ20081024001
公開日2010年6月23日 申請日期2008年12月16日 優(yōu)先權(quán)日2008年12月16日
發(fā)明者吳新麗, 尹小剛, 楊建武 申請人:北大方正集團(tuán)有限公司;北京大學(xué);北京方正電子政務(wù)信息科技有限公司