欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多數(shù)據(jù)源的信息搜索方法和系統(tǒng)與流程

文檔序號(hào):12910204閱讀:315來源:國(guó)知局
一種基于多數(shù)據(jù)源的信息搜索方法和系統(tǒng)與流程
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種基于多數(shù)據(jù)源的信息搜索方法和系統(tǒng)。

背景技術(shù):
隨著互聯(lián)網(wǎng)信息搜索技術(shù)的高速發(fā)展,搜索引擎已不限于從某一單一數(shù)據(jù)源中查找結(jié)果。多數(shù)據(jù)源接入搜索引擎的方式一般分為兩種,其一為入口模式,其二為混排模式。在入口模式中,如果搜索引擎在某一數(shù)據(jù)源中搜索到目標(biāo)數(shù)據(jù),那么該數(shù)據(jù)源以該目標(biāo)數(shù)據(jù)作為入口,顯示在搜索結(jié)果中。在混排模式中,搜索引擎根據(jù)用戶輸入的查詢?cè)~,按照某種規(guī)則或算法,將在各數(shù)據(jù)源中搜索到的目標(biāo)數(shù)據(jù)進(jìn)行混合排序,將排序后的目標(biāo)數(shù)據(jù)顯示在搜索結(jié)果中。其中,對(duì)不同數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行混合排序,存在以下兩種方式:根據(jù)規(guī)則進(jìn)行混排和根據(jù)語言模型進(jìn)行混排。當(dāng)根據(jù)規(guī)則進(jìn)行混排時(shí),通過制定各種規(guī)則來決定不同數(shù)據(jù)源結(jié)果的展現(xiàn)。這類方法主要基于兩種方式來制定規(guī)則:一種是進(jìn)行用戶調(diào)研,了解用戶對(duì)那種數(shù)據(jù)源更感興趣;另一種是進(jìn)行對(duì)數(shù)據(jù)源進(jìn)行分析,通過對(duì)各個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行詳細(xì)的分析,根據(jù)數(shù)據(jù)源質(zhì)量、流量、信息側(cè)重等制定相應(yīng)規(guī)則。當(dāng)根據(jù)語言模型進(jìn)行混排時(shí),一般根據(jù)不同數(shù)據(jù)源的數(shù)據(jù),訓(xùn)練不同的語言模型。搜索引擎根據(jù)用戶輸入的查詢?cè)~,通過這些不同的語言模型得到在不同數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的得分。最終利用這些得分決定不同數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)在搜索結(jié)果中的順序。其中,在為每個(gè)數(shù)據(jù)源建立語言模型時(shí),依據(jù)該數(shù)據(jù)源自身的所有數(shù)據(jù)建立所述語言模型。在某些情況下,依據(jù)該語言模型為目標(biāo)數(shù)據(jù)確定的得分,并不能真實(shí)地反映該目標(biāo)數(shù)據(jù)的受關(guān)注度。產(chǎn)生這種問題的主要原因是,用戶關(guān)注的數(shù)據(jù)不一定是數(shù)據(jù)源的全部數(shù)據(jù),例如,在某一電影的數(shù)據(jù)源中,大多數(shù)的數(shù)據(jù)是外國(guó)電影,因此相對(duì)與國(guó)產(chǎn)電影的查詢?cè)~,外國(guó)電影的查詢?cè)~將獲得更高的分?jǐn)?shù),但是該數(shù)據(jù)源用戶的使用情況并不一定如此,如果使用該數(shù)據(jù)源的用戶多為國(guó)產(chǎn)電影愛好者,則事實(shí)上國(guó)產(chǎn)電影的查詢?cè)~應(yīng)該獲得更高的分?jǐn)?shù),這與語言模型給出結(jié)果相反。可見,目前,基于多數(shù)據(jù)源的搜索引擎,或者以入口模式實(shí)現(xiàn)多數(shù)據(jù)源的接入,或者以混排模式實(shí)現(xiàn)多數(shù)據(jù)源的接入,然而,在某些應(yīng)用場(chǎng)合,例如,在社區(qū)搜索中,這種單一的數(shù)據(jù)源接入方式并不能滿足信息搜索的需求。另外,當(dāng)基于語言模型對(duì)多數(shù)據(jù)源的數(shù)據(jù)進(jìn)行混排時(shí),由于語言模型基于數(shù)據(jù)源的所有數(shù)據(jù)建立,因此還常常存在這樣的問題:依據(jù)該語言模型為數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)所確定的得分,不能真實(shí)地反映該目標(biāo)數(shù)據(jù)的受關(guān)注度。

技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明提供了一種基于多數(shù)據(jù)源的信息搜索方法和系統(tǒng),以便滿足多種應(yīng)用場(chǎng)合的信息搜索需求。本發(fā)明的技術(shù)方案具體是這樣實(shí)現(xiàn)的:一種基于多數(shù)據(jù)源的信息搜索方法,該方法包括:在基于多個(gè)數(shù)據(jù)源進(jìn)行信息搜索時(shí),將該多個(gè)數(shù)據(jù)源劃分為主數(shù)據(jù)源和次數(shù)據(jù)源;根據(jù)查詢?cè)~,從各個(gè)主數(shù)據(jù)源和次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù);根據(jù)從每個(gè)次數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù),確定每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口;將從各個(gè)主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行混合排序,根據(jù)混合排序結(jié)果確定搜索結(jié)果。一種基于多數(shù)據(jù)源的信息搜索系統(tǒng),該系統(tǒng)包括主數(shù)據(jù)源搜索模塊、次數(shù)據(jù)源搜索模塊和混合排序模塊;所述主數(shù)據(jù)源搜索模塊,用于根據(jù)查詢?cè)~,從各個(gè)主數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù);所述次數(shù)據(jù)源搜索模塊,用于根據(jù)查詢?cè)~,從各個(gè)次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù),根據(jù)從每個(gè)次數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù),確定每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口;所述混合排序模塊,用于將從各個(gè)主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行混合排序,根據(jù)混合排序結(jié)果確定搜索結(jié)果。由上述技術(shù)方案可見,本發(fā)明在基于多個(gè)數(shù)據(jù)源進(jìn)行信息搜索時(shí),將該多個(gè)數(shù)據(jù)源劃分為主數(shù)據(jù)源和次數(shù)據(jù)源,對(duì)于各個(gè)主數(shù)據(jù)源,從所有主數(shù)據(jù)源的數(shù)據(jù)中查找目標(biāo)數(shù)據(jù),對(duì)于各個(gè)次數(shù)據(jù)源,則根據(jù)從每個(gè)次數(shù)據(jù)源查找到的目標(biāo)數(shù)據(jù)確定該個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口,然后將從所有主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行混合排序,根據(jù)混合排序結(jié)果確定搜索結(jié)果,從而實(shí)現(xiàn)了多數(shù)據(jù)源的入口模式和混排模式相結(jié)合,能夠滿足信息搜索的需求。附圖說明圖1是本發(fā)明提供的基于多數(shù)據(jù)源的信息搜索方法流程圖。圖2是本發(fā)明提供的基于多數(shù)據(jù)源的信息搜索的詳細(xì)流程圖。圖3是本發(fā)明提供的一種基于多數(shù)據(jù)源的信息搜索系統(tǒng)組成示意圖。具體實(shí)施方式圖1是本發(fā)明提供的基于多數(shù)據(jù)源的信息搜索方法流程圖。如圖1所示,該方法包括:步驟101,將信息搜索所基于的多個(gè)數(shù)據(jù)源劃分為主數(shù)據(jù)源和次數(shù)據(jù)源。本步驟中,可以根據(jù)信息搜索的應(yīng)用場(chǎng)景,預(yù)先將信息搜索所基于的多個(gè)數(shù)據(jù)源劃分為主數(shù)據(jù)源和次數(shù)據(jù)源,也可以在信息搜索的過程中,根據(jù)信息搜索的應(yīng)用場(chǎng)景和/或查詢?cè)~,將所述多個(gè)數(shù)據(jù)源劃分為主數(shù)據(jù)源和次數(shù)據(jù)源。步驟102,根據(jù)查詢?cè)~,從各個(gè)主數(shù)據(jù)源和次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)。本步驟中,可以分別獨(dú)立地從各個(gè)主數(shù)據(jù)源和各個(gè)次數(shù)據(jù)源查找目標(biāo)數(shù)據(jù)。本步驟中,也可以將所有主數(shù)據(jù)源的數(shù)據(jù)看作一個(gè)混合的整體,即將所有數(shù)據(jù)源的數(shù)據(jù)視為屬于一個(gè)數(shù)據(jù)源,從所有主數(shù)據(jù)源的數(shù)據(jù)中查找目標(biāo)數(shù)據(jù),至于從數(shù)據(jù)源,則仍然分別獨(dú)立地從各個(gè)從數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)。本步驟中,可以根據(jù)查詢?cè)~,確定查找到的目標(biāo)數(shù)據(jù)的相關(guān)性得分。步驟103,根據(jù)從每個(gè)次數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù),確定每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口。本步驟中,對(duì)于每個(gè)次數(shù)據(jù)源,根據(jù)從次數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù),確定該次數(shù)據(jù)源的數(shù)據(jù)入口具體可以包括:首先根據(jù)查詢?cè)~確定從每個(gè)次數(shù)據(jù)源中查找到的各個(gè)目標(biāo)數(shù)據(jù)的相關(guān)性得分,將相關(guān)性得分最高的目標(biāo)數(shù)據(jù)確定為該個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口。步驟104,將從各個(gè)主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行混合排序,根據(jù)混合排序結(jié)果確定搜索結(jié)果。圖1所示方法中,可以通過訓(xùn)練每個(gè)次數(shù)據(jù)源的語言模型,根據(jù)每個(gè)次數(shù)據(jù)源的語言模型,從相應(yīng)的次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)。其中,在訓(xùn)練次數(shù)據(jù)源的語言模型時(shí),鑒于現(xiàn)有技術(shù)中僅僅依據(jù)次數(shù)據(jù)源的所有數(shù)據(jù)來訓(xùn)練語言模型所帶來的問題,即依據(jù)現(xiàn)有技術(shù)中的語言模型為目標(biāo)數(shù)據(jù)所確定的得分不能真實(shí)地反映該目標(biāo)數(shù)據(jù)的受關(guān)注度,本發(fā)明對(duì)語言模型的建立方法進(jìn)行了改進(jìn)。具體地,本發(fā)明中,根據(jù)數(shù)據(jù)源的數(shù)據(jù)和該數(shù)據(jù)源的用戶行為日志,建立該數(shù)據(jù)源的語言模型,通過該數(shù)據(jù)源的語言模型查找該數(shù)據(jù)源中與查詢?cè)~對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。其中的數(shù)據(jù)源可以是主數(shù)據(jù)源,也可以是次數(shù)據(jù)源。換言之,可以為主數(shù)據(jù)源建立語言模型,也可以為次數(shù)據(jù)源建立語言模型,在為主數(shù)據(jù)源和/或次數(shù)據(jù)源建立語言模型時(shí),均利用該主數(shù)據(jù)源和/或次數(shù)據(jù)源自身的數(shù)據(jù)以及用戶行為日志,以使得依據(jù)語言模型為目標(biāo)數(shù)據(jù)所確定的得分能夠真實(shí)地反映該目標(biāo)數(shù)據(jù)的受關(guān)注度。其中,依據(jù)數(shù)據(jù)源的數(shù)據(jù)和用戶行為日志共同建立語言模型可以有很多種不同的方式,例如,將數(shù)據(jù)與用戶行為日志按某種比例混合訓(xùn)練語言模型;再例如,利用數(shù)據(jù)與用戶行為日志分別訓(xùn)練語言模型,再用公式對(duì)其得分進(jìn)行匯總等。其中的用戶行為日志,包括用戶對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行的各種行為信息,例如,瀏覽數(shù)據(jù)源中的數(shù)據(jù)等。圖1所示方法中,當(dāng)分別獨(dú)立地從各個(gè)主數(shù)據(jù)源和各個(gè)次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)、且根據(jù)查詢?cè)~確定查找到的各個(gè)目標(biāo)數(shù)據(jù)的相關(guān)性得分時(shí),由于各個(gè)主數(shù)據(jù)源和各個(gè)次數(shù)據(jù)源是相互獨(dú)立地,因此,可能存在不同數(shù)據(jù)源的目標(biāo)數(shù)據(jù)的相關(guān)性得分之間缺乏可比性的問題,例如,如果在第一主數(shù)據(jù)源中,大多數(shù)目標(biāo)數(shù)據(jù)的相關(guān)性得分都在0.5分以上,而在第二主數(shù)據(jù)源中,只有少部分目標(biāo)數(shù)據(jù)的相關(guān)性得分在0.5分以上,此時(shí),如果將第一主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)和第二主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)直接根據(jù)相關(guān)性得分進(jìn)行混合排序,將出現(xiàn)搜索結(jié)果中第一主數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的數(shù)量遠(yuǎn)遠(yuǎn)大于第二主數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的數(shù)量的問題。因此,本發(fā)明提出,在對(duì)從各個(gè)不同的主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)、以及各個(gè)不同的次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行混合排序時(shí),可以將不同主數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的相關(guān)性得分映射到同一區(qū)間,根據(jù)映射結(jié)果確定各個(gè)主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)之間的排序結(jié)果,根據(jù)查詢?cè)~確定每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分,根據(jù)次數(shù)據(jù)源數(shù)據(jù)入口的相關(guān)性得分,以及預(yù)定規(guī)則,將各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口與所述各個(gè)主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)之間的排序結(jié)果,進(jìn)行混合排序。所述預(yù)定規(guī)則可以有多種,例如,將不符合查詢?cè)~意圖的次數(shù)據(jù)源數(shù)據(jù)入口刪除,不參與混合排序,再例如,混合排序結(jié)果中主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)排序結(jié)果排在次數(shù)據(jù)源數(shù)據(jù)入口排序結(jié)果之前。還可以根據(jù)查詢?cè)~確定從主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)的相關(guān)性得分以及每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分,將不同主數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的相關(guān)性得分、以及不同次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分,映射到同一區(qū)間,根據(jù)映射結(jié)果確定各個(gè)主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口之間的排序結(jié)果。上述排序方案中,通過將相關(guān)性得分映射到同一區(qū)間,可以使得根據(jù)該排序結(jié)果所確定的搜索結(jié)果能夠更加準(zhǔn)確。其中,所述映射可以采用多種方式,例如,采用曲線擬合的方式、或函數(shù)映射的方式等。在根據(jù)混合排序結(jié)果確定出搜索結(jié)果之后,為了進(jìn)一步提高信息搜索的準(zhǔn)確性,還可以實(shí)時(shí)或定期或不定期地對(duì)搜索結(jié)果進(jìn)行更新。對(duì)搜索結(jié)果進(jìn)行更新時(shí),可以依據(jù)所有用戶針對(duì)搜索結(jié)果的行為日志,調(diào)整混合排序結(jié)果,從而更新搜索結(jié)果。進(jìn)一步地,注意到利用所有用戶針對(duì)搜索結(jié)果的行為日志、即利用全局用戶日志調(diào)整混合排序結(jié)果時(shí),由于全局用戶中不同用戶之間的差異性較大,因此對(duì)混合排序結(jié)果的調(diào)整不夠精確,因此,本發(fā)明提出,根據(jù)信息搜索的應(yīng)用場(chǎng)景和/或用戶輸入的查詢?cè)~,將與該用戶有相同信息需求的其他用戶確定為該用戶的相似用戶,根據(jù)該用戶的相似用戶針對(duì)搜索結(jié)果的行為日志,調(diào)整混合排序結(jié)果,從而提高信息搜索的準(zhǔn)確性。圖2是本發(fā)明提供的基于多數(shù)據(jù)源的信息搜索的詳細(xì)流程圖。如圖2所示,該流程包括:步驟一、在各個(gè)主數(shù)據(jù)源中搜索目標(biāo)數(shù)據(jù),該步驟一包括步驟201~步驟203。步驟二、在各個(gè)次數(shù)據(jù)源中搜索目標(biāo)數(shù)據(jù),并確定次數(shù)據(jù)源的數(shù)據(jù)入口,該步驟二包括步驟204~步驟207。步驟三、對(duì)步驟一和步驟二的搜索結(jié)果進(jìn)行混合排序,確定最終的搜索結(jié)果,并實(shí)時(shí)、定期或不定期地對(duì)最終的搜索結(jié)果進(jìn)行更新,該步驟三包括步驟208~步驟212。其中,步驟一與步驟二可以同步進(jìn)行。具體地,圖2所示流程包括:步驟201,在各個(gè)主數(shù)據(jù)源中搜索目標(biāo)數(shù)據(jù),并計(jì)算從每個(gè)主數(shù)據(jù)源中搜索到的目標(biāo)數(shù)據(jù)的相關(guān)性得分。步驟202,將從不同的主數(shù)據(jù)源搜索到的目標(biāo)數(shù)據(jù)的相關(guān)性得分映射到同一區(qū)間。步驟203,根據(jù)映射結(jié)果,對(duì)從不同的主數(shù)據(jù)源搜索到的目標(biāo)數(shù)據(jù)進(jìn)行排序。步驟204,根據(jù)每個(gè)次數(shù)據(jù)源的數(shù)據(jù)和用戶行為日志,為相應(yīng)的次數(shù)據(jù)源(即該個(gè)次數(shù)據(jù)源)建立語言模型。步驟205,根據(jù)查詢?cè)~,通過每個(gè)次數(shù)據(jù)源的語言模型從相應(yīng)的次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù),并計(jì)算目標(biāo)數(shù)據(jù)的相關(guān)性得分,選取相關(guān)性得分最大的目標(biāo)數(shù)據(jù)作為相應(yīng)次數(shù)據(jù)源的數(shù)據(jù)入口。步驟206,判斷每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分是否大于預(yù)定的閾值,如果是,將該次數(shù)據(jù)源加入候選集,如果否,確定不在搜索結(jié)果中展示該次數(shù)據(jù)源。步驟207,根據(jù)加入候選集的各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分,對(duì)各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行排序。步驟208,根據(jù)步驟203的排序結(jié)果和步驟207的排序結(jié)果進(jìn)行混合排序。其中,步驟203和步驟207可以省略,則步驟208中,根據(jù)步驟202的映射結(jié)果、以及步驟206中確定出的候選集中各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分進(jìn)行混合排序。步驟209,判斷是否有用戶數(shù)據(jù),如果是,執(zhí)行步驟210,否則,獲取所有用戶的行為日志,執(zhí)行步驟211。步驟210,確定當(dāng)前用戶的相似用戶,獲取相似用戶的行為日志。步驟211,根據(jù)獲取的用戶行為日志,對(duì)混合排序結(jié)果進(jìn)行更新。步驟212,記錄用戶行為日志,返回步驟211。根據(jù)上述方法,本發(fā)明還提供了相應(yīng)的系統(tǒng),具體請(qǐng)參見圖3。圖3是本發(fā)明提供的一種基于多數(shù)據(jù)源的信息搜索系統(tǒng)組成示意圖。如圖3所示,該系統(tǒng)包括主數(shù)據(jù)源搜索模塊301、次數(shù)據(jù)源搜索模塊302和混合排序模塊303。主數(shù)據(jù)源搜索模塊301,用于根據(jù)查詢?cè)~,從各個(gè)主數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)。次數(shù)據(jù)源搜索模塊302,用于根據(jù)查詢?cè)~,從各個(gè)次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù),根據(jù)從每個(gè)次數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù),確定每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口?;旌吓判蚰K303,用于將從各個(gè)主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行混合排序,根據(jù)混合排序結(jié)果確定搜索結(jié)果。其中的次數(shù)據(jù)源搜索模塊302,用于根據(jù)每個(gè)次數(shù)據(jù)源的數(shù)據(jù)和該個(gè)次數(shù)據(jù)源的用戶行為日志,建立該個(gè)次數(shù)據(jù)源的語言模型,通過每個(gè)次數(shù)據(jù)源的語言模型查找該個(gè)次數(shù)據(jù)源中與查詢?cè)~對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。其中的次數(shù)據(jù)源搜索模塊302,還用于根據(jù)每個(gè)次數(shù)據(jù)源的語言模型,確定從該個(gè)次數(shù)據(jù)源中查找到的各個(gè)目標(biāo)數(shù)據(jù)的相關(guān)性得分,將相關(guān)性得分最高的目標(biāo)數(shù)據(jù)確定為該個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口。其中的混合排序模塊303,用于根據(jù)查詢?cè)~確定從主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)的相關(guān)性得分,將不同主數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的相關(guān)性得分映射到同一區(qū)間,根據(jù)映射結(jié)果確定各個(gè)主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)之間的排序結(jié)果,根據(jù)查詢?cè)~確定每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分,根據(jù)次數(shù)據(jù)源數(shù)據(jù)入口的相關(guān)性得分,以及預(yù)定規(guī)則,將各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口與所述各個(gè)主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)之間的排序結(jié)果,進(jìn)行混合排序?;旌吓判蚰K303,可以用于根據(jù)查詢?cè)~確定從主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)的相關(guān)性得分以及每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分,將不同主數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的相關(guān)性得分、以及不同次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分,映射到同一區(qū)間,根據(jù)映射結(jié)果確定各個(gè)主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口之間的排序結(jié)果。圖3所示信息搜索系統(tǒng),還可以包括排序結(jié)果調(diào)整模塊。所述排序結(jié)果調(diào)整模塊,可以用于根據(jù)用戶針對(duì)搜索結(jié)果的行為日志,調(diào)整混合排序結(jié)果。所述排序結(jié)果調(diào)整模塊,具體可以用于根據(jù)信息搜索的應(yīng)用場(chǎng)景和/或用戶輸入的查詢?cè)~,將與該用戶有相同信息需求的其他用戶確定為該用戶的相似用戶,根據(jù)該用戶的相似用戶針對(duì)搜索結(jié)果的行為日志,調(diào)整混合排序結(jié)果??梢?,本發(fā)明提供的方法和系統(tǒng),主要涉及以下幾個(gè)方面:第一方面,提出了一種結(jié)合了多數(shù)據(jù)源入口與多數(shù)據(jù)源數(shù)據(jù)的混合接入模式,能夠適應(yīng)社區(qū)搜索等信息搜索領(lǐng)域的需求。對(duì)于很多搜索引擎,特別是基于社區(qū)的搜索平臺(tái),可以將數(shù)據(jù)源分為兩類,第一類是均可以作為主數(shù)據(jù)的主數(shù)據(jù)源,對(duì)于所有這類主數(shù)據(jù)源,將其各自的數(shù)據(jù)看成平等的數(shù)據(jù)進(jìn)行混合并查找目標(biāo)數(shù)據(jù),將查找到的目標(biāo)數(shù)據(jù)顯示在搜索結(jié)果中;第二類數(shù)據(jù)源即次數(shù)據(jù)源,搜索平臺(tái)僅在搜索到的目標(biāo)數(shù)據(jù)滿足預(yù)定條件時(shí),在搜索結(jié)果中顯示該次數(shù)據(jù)源的數(shù)據(jù)入口。第二方面,為了提高信息搜索的準(zhǔn)確性,根據(jù)數(shù)據(jù)源的數(shù)據(jù)和用戶行為日志共同建立語言模型。對(duì)于數(shù)據(jù)入口類的次數(shù)據(jù)源,本發(fā)明采用一種根據(jù)數(shù)據(jù)源數(shù)據(jù)與該數(shù)據(jù)源的獨(dú)立用戶行為日志建立語言模型的方法,對(duì)該數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)進(jìn)行排序。由于次數(shù)據(jù)源一般都有自己獨(dú)立的應(yīng)用場(chǎng)景,因此存在自己獨(dú)有的、可查詢的用戶行為日志。在考慮數(shù)據(jù)源自身數(shù)據(jù)的同時(shí),本發(fā)明同時(shí)使用該數(shù)據(jù)源的用戶行為日志,共同建立語言模型。需要說明的是,共同建立語言模型可以有很多種不同的方式,如將數(shù)據(jù)與用戶行為日志按某種比例混合訓(xùn)練語言模型;或利用數(shù)據(jù)與用戶行為日志分別訓(xùn)練語言模型,再用公式對(duì)其得分進(jìn)行匯總等。最終,該方法對(duì)每個(gè)數(shù)據(jù)源建立一個(gè)語言模型。并針對(duì)不同的數(shù)據(jù)源設(shè)置閾值。當(dāng)用戶輸入一個(gè)查詢?cè)~后,該查詢?cè)~將被輸入至各個(gè)語言模型并計(jì)算相關(guān)性得分。對(duì)于每個(gè)數(shù)據(jù)源,若得分大于其閾值,則展現(xiàn)該數(shù)據(jù)源的入口。所有被展現(xiàn)的數(shù)據(jù)源入口按照其相關(guān)性得分大小排序。第三方面,對(duì)來自不同主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)的相關(guān)性得分映射到同一區(qū)間內(nèi),即對(duì)來自不同主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)的相關(guān)性得分進(jìn)行規(guī)整,使其具有可比性。對(duì)于可同等看待的主數(shù)據(jù)源,本發(fā)明將采用根據(jù)相關(guān)性得分進(jìn)行規(guī)整的排序方式。對(duì)于不同數(shù)據(jù)源所得相關(guān)性得分進(jìn)行規(guī)整,即映射到同一區(qū)間,使得得分初步可比,從而得到數(shù)據(jù)源混合的初排序。這里的規(guī)整方式可以但不僅限于以下方法:在計(jì)算每個(gè)數(shù)據(jù)源相關(guān)性時(shí)進(jìn)行規(guī)整;或在各個(gè)數(shù)據(jù)源計(jì)算相關(guān)性后,用公式或模型進(jìn)行統(tǒng)一規(guī)整等。第四方面,本發(fā)明還提出利用全局用戶行為日志對(duì)搜索結(jié)果進(jìn)行更新,特別地,為了進(jìn)一步提高混合排序的精度,提出根據(jù)相似用戶的行為日志對(duì)搜索結(jié)果進(jìn)行更新。本發(fā)明可以通過用戶的行為日志動(dòng)態(tài)調(diào)整排序結(jié)果。對(duì)于以入口作為接入方式的次數(shù)據(jù)源,利用其在搜索結(jié)果中的表現(xiàn)動(dòng)態(tài)調(diào)整其相對(duì)位置。需要說明的是,所述表現(xiàn)可以有很多衡量標(biāo)準(zhǔn),例如,該數(shù)據(jù)源入口的點(diǎn)擊率、點(diǎn)擊數(shù)等。同時(shí),用戶行為日志也可以用于修正最終的總體排序結(jié)果,利用每一條搜索結(jié)果數(shù)據(jù)的表現(xiàn),對(duì)其進(jìn)行調(diào)整。這個(gè)更新的過程既可以是實(shí)時(shí)的,也可以定期進(jìn)行。另,本發(fā)明需要強(qiáng)調(diào)的是:當(dāng)搜索引擎可以得到用戶的信息(如用戶的登錄信息、社區(qū)搜索信息等),可以采用相似用戶的日志對(duì)搜索結(jié)果進(jìn)行修正。由于用戶之間的差異性很大,利用全局的用戶行為日志進(jìn)行修正有著一定的局限性,因此,本發(fā)明提出一種基于相似用戶日志的修正方法。相似的標(biāo)準(zhǔn)及相似用戶的選取根據(jù)搜索引擎的應(yīng)用場(chǎng)景可以有很多種選擇,例如,兩個(gè)用戶的地理距離可以作為基于位置(LBS)搜索引擎中的用戶相似標(biāo)準(zhǔn),購(gòu)買相同商品的用戶可以作為網(wǎng)上購(gòu)物搜索引擎中的用戶相似標(biāo)準(zhǔn)。因此,在某一用戶輸入某一查詢?cè)~后,搜索引擎將使用該用戶的相似用戶的所有行為日志對(duì)搜索結(jié)果進(jìn)行修正。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
营山县| 哈尔滨市| 梨树县| 桑日县| 眉山市| 西吉县| 晋州市| 乌鲁木齐市| 西畴县| 鲜城| 清徐县| 托克逊县| 昌乐县| 枣强县| 襄垣县| 江门市| 全州县| 寿宁县| 大埔县| 建水县| 正蓝旗| 新竹市| 临城县| 龙岩市| 太仆寺旗| 正安县| 襄樊市| 墨江| 德阳市| 光泽县| 蒲江县| 嘉祥县| 大英县| 嵊州市| 樟树市| 龙游县| 汉源县| 监利县| 栾城县| 孟津县| 隆昌县|