一種基于點擊模型的搜索排序方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及搜索引擎,尤其是一種基于點擊模型的搜索排序方法及裝置。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)對于經(jīng)濟社會的作用,正在從消減信息不對稱,擴展至驅(qū)動大數(shù)據(jù)產(chǎn)生價 值。在這個過程中,搜索始終是人們從互聯(lián)網(wǎng)獲取信息和數(shù)據(jù)的重要手段,因此成為互聯(lián)網(wǎng) 的重要入口。提升搜索引擎的檢索相關(guān)性,是信息檢索領(lǐng)域的一個重要研究方向。近年來, 信息檢索領(lǐng)域中的點擊模型取得了長足發(fā)展。所謂點擊模型,就是利用用戶在使用搜索引 擎時的點擊數(shù)據(jù),計算搜索結(jié)果與用戶查詢相關(guān)性的數(shù)學(xué)模型。它使搜索系統(tǒng)在排序結(jié)果 時,獲得了使用以前用戶點擊信息的能力,從而能讓相關(guān)性高的結(jié)果排得更靠前。
[0003] 雖然利用點擊模型進行點擊調(diào)權(quán)具有很好的相關(guān)性查詢結(jié)果,但點擊調(diào)權(quán)并不適 合單獨決定搜索中的排序權(quán)重。首先,點擊率高和相關(guān)性好并不完全是一回事;其次,理論 上排序的本質(zhì)是合理使用結(jié)果包含的信息量計算其相關(guān)性,而點擊具有稀疏性的特點,即 用戶點擊過結(jié)果的查詢只是全部查詢的一小部分,且在一個查詢中用戶點擊過的結(jié)果只是 這個查詢結(jié)果的一小部分,故其能為計算相關(guān)性貢獻的信息量是有限的。綜上,點擊調(diào)權(quán)應(yīng) 該與搜索引擎已有的其它特征一起使用,即須把它融入到已有的排序框架中。但是,點擊調(diào) 權(quán)參與排序,往往導(dǎo)致"正反饋"問題,即被點擊調(diào)權(quán)排到前面的結(jié)果,往往會獲得更高的點 擊,從而更容易被排到前面。
[0004] 因此,如何將點擊調(diào)權(quán)合理的融入已有的排序框架中,而不引起不良影響,是本發(fā) 明要解決的問題。
【發(fā)明內(nèi)容】
[0005] 為此,本發(fā)明提供一種基于點擊模型的搜索排序方法及裝置,以力圖解決或者至 少緩解上面存在的至少一個問題。
[0006] 根據(jù)本發(fā)明的一個方面,提供了一種基于點擊模型的搜索排序方法,該方法包括 步驟:獲取關(guān)于查詢的第一結(jié)果序列,第一結(jié)果序列中各結(jié)果項具有第一分值,且所有結(jié)果 項按照第一分值從高到低的順序排序,第一分值根據(jù)至少一個預(yù)定特征計算得到;利用點 擊模型確定第一結(jié)果序列中各結(jié)果項的第二分值;選取第一結(jié)果序列中第二分值不為〇的 結(jié)果項,基于第二分值調(diào)整所選取的結(jié)果項的順序,得到第二結(jié)果序列。
[0007] 可選地,在根據(jù)本發(fā)明的基于點擊模型的搜索排序方法中,預(yù)定特征包括觀看量、 發(fā)布時間和回帖數(shù)量中的一個或多個。
[0008] 可選地,在根據(jù)本發(fā)明的基于點擊模型的搜索排序方法中,點擊模型是串聯(lián)點擊 模型。
[0009] 可選地,在根據(jù)本發(fā)明的基于點擊模型的搜索排序方法中,基于第二分值調(diào)整所 選取的結(jié)果項的順序的步驟包括:對于第二分值大于閾值的結(jié)果項,按照第二分值從高到 底的順序排序;對于第二分值不大于閾值的結(jié)果項,保持順序不變,并排在第二分值大于閾 值的所有結(jié)果項之后。
[0010] 可選地,在根據(jù)本發(fā)明的基于點擊模型的搜索排序方法中,閾值為串聯(lián)點擊模型 的值域均值。
[0011] 可選地,在根據(jù)本發(fā)明的基于點擊模型的搜索排序方法中,還包括步驟:將第二結(jié) 果序列中位置發(fā)生變化的結(jié)果項的第一分值,調(diào)整為該結(jié)果項現(xiàn)有位置對應(yīng)的第一結(jié)果序 列中結(jié)果項的第一分值。
[0012] 根據(jù)本發(fā)明的另一方面,提供了一種基于點擊模型的搜索排序裝置,該裝置包括: 獲取單元,適于獲取關(guān)于查詢的第一結(jié)果序列,其中第一結(jié)果序列中各結(jié)果項具有第一分 值;計算單元,適于根據(jù)至少一個預(yù)定特征計算得到第一分值、還適于利用點擊模型確定所 述第一結(jié)果序列中各結(jié)果項的第二分值;以及排序單元,適于將第一結(jié)果序列中所有結(jié)果 項按照第一分值從高到低的順序排序、還適于選取第一結(jié)果序列中第二分值不為0的結(jié)果 項,基于第二分值調(diào)整所選取的結(jié)果項的順序,以得到第二結(jié)果序列。
[0013] 可選地,在根據(jù)本發(fā)明的基于點擊模型的搜索排序裝置中,預(yù)定特征包括觀看量、 發(fā)布時間和回帖數(shù)量中的一個或多個。
[0014] 可選地,在根據(jù)本發(fā)明的基于點擊模型的搜索排序裝置中,點擊模型是串聯(lián)點擊 模型。
[0015] 可選地,在根據(jù)本發(fā)明的基于點擊模型的搜索排序裝置中,排序單元還包括判斷 子單元,適于判斷所選取的第二分值不為0的結(jié)果項中,第二分值是否大于閾值;排序單元 還適于對第二分值大于閾值的結(jié)果項,按照第二分值從高到底的順序排序;以及對于第二 分值不大于閾值的結(jié)果項,保持順序不變,并排在第二分值大于閾值的所有結(jié)果項之后。
[0016] 可選地,在根據(jù)本發(fā)明的基于點擊模型的搜索排序裝置中,閾值為串聯(lián)點擊模型 的值域均值。
[0017] 可選地,在根據(jù)本發(fā)明的基于點擊模型的搜索排序裝置中,排序單元還適于將第 二結(jié)果序列中位置發(fā)生變化的結(jié)果項的第一分值,調(diào)整為該結(jié)果項現(xiàn)有位置對應(yīng)的第一結(jié) 果序列中結(jié)果項的第一分值。
[0018] 根據(jù)本發(fā)明的另一個方面,提供了一種信息搜索引擎系統(tǒng),包括:信息庫,適于存 儲待投放的信息;如上所述的基于點擊模型的搜索排序裝置,適于對查詢得到的結(jié)果序列 進行排序;以及信息顯示裝置,適于按順序顯示查詢結(jié)果。根據(jù)本發(fā)明的基于點擊模型的搜 索排序方案,在舊有排序序列的基礎(chǔ)上,結(jié)合串聯(lián)點擊模型的模型特點,合理地將點擊調(diào)權(quán) 融入到搜索排序的框架中,改變結(jié)果項的位置和權(quán)值,使得查詢結(jié)果的最終顯示順序,不僅 反映了點擊模型對相關(guān)性的正面作用,還避免了正反饋缺點。
[0019] 另外,根據(jù)本發(fā)明的方案,保持了第二結(jié)果序列還是按照舊有排序的性質(zhì),使得搜 索引擎中基于該性質(zhì)的諸多操作,例如把這個序列與并行的其他搜索引擎的結(jié)果序列合并 起來一同再次排序,在使用本方法后仍然有效。
【附圖說明】
[0020] 為了實現(xiàn)上述以及相關(guān)目的,本文結(jié)合下面的描述和附圖來描述某些說明性方 面,這些方面指示了可以實踐本文所公開的原理的各種方式,并且所有方面及其等效方面 旨在落入所要求保護的主題的范圍內(nèi)。通過結(jié)合附圖閱讀下面的詳細(xì)描述,本公開的上述 以及其它目的、特征和優(yōu)勢將變得更加明顯。遍及本公開,相同的附圖標(biāo)記通常指代相同的 部件或元素。
[0021] 圖1示出了根據(jù)本發(fā)明一個實施例的搜索引擎在其中運行的示例性環(huán)境100 ;
[0022] 圖2示出了根據(jù)本發(fā)明一個實施例的基于點擊模型的搜索排序方法200的流程 圖;
[0023] 圖3示出了根據(jù)本發(fā)明一個實施例的點擊模型原理圖;
[0024] 圖4示出了根據(jù)本發(fā)明一個實施例的排序方法的示例性原理圖;以及
[0025] 圖5示出了根據(jù)本發(fā)明一個實施例的基于點擊模型的搜索排序裝置500的示意 圖。
【具體實施方式】
[0026] 下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開 的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例 所限制。相反,提供這些