一種基于多數(shù)據(jù)源的信息搜索方法和系統(tǒng)與流程

文檔序號(hào)：12910204閱讀：315來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域，尤其涉及一種基于多數(shù)據(jù)源的信息搜索方法和系統(tǒng)。

背景技術(shù)：
隨著互聯(lián)網(wǎng)信息搜索技術(shù)的高速發(fā)展，搜索引擎已不限于從某一單一數(shù)據(jù)源中查找結(jié)果。多數(shù)據(jù)源接入搜索引擎的方式一般分為兩種，其一為入口模式，其二為混排模式。在入口模式中，如果搜索引擎在某一數(shù)據(jù)源中搜索到目標(biāo)數(shù)據(jù)，那么該數(shù)據(jù)源以該目標(biāo)數(shù)據(jù)作為入口，顯示在搜索結(jié)果中。在混排模式中，搜索引擎根據(jù)用戶輸入的查詢?cè)~，按照某種規(guī)則或算法，將在各數(shù)據(jù)源中搜索到的目標(biāo)數(shù)據(jù)進(jìn)行混合排序，將排序后的目標(biāo)數(shù)據(jù)顯示在搜索結(jié)果中。其中，對(duì)不同數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行混合排序，存在以下兩種方式：根據(jù)規(guī)則進(jìn)行混排和根據(jù)語言模型進(jìn)行混排。當(dāng)根據(jù)規(guī)則進(jìn)行混排時(shí)，通過制定各種規(guī)則來決定不同數(shù)據(jù)源結(jié)果的展現(xiàn)。這類方法主要基于兩種方式來制定規(guī)則：一種是進(jìn)行用戶調(diào)研，了解用戶對(duì)那種數(shù)據(jù)源更感興趣；另一種是進(jìn)行對(duì)數(shù)據(jù)源進(jìn)行分析，通過對(duì)各個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行詳細(xì)的分析，根據(jù)數(shù)據(jù)源質(zhì)量、流量、信息側(cè)重等制定相應(yīng)規(guī)則。當(dāng)根據(jù)語言模型進(jìn)行混排時(shí)，一般根據(jù)不同數(shù)據(jù)源的數(shù)據(jù)，訓(xùn)練不同的語言模型。搜索引擎根據(jù)用戶輸入的查詢?cè)~，通過這些不同的語言模型得到在不同數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的得分。最終利用這些得分決定不同數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)在搜索結(jié)果中的順序。其中，在為每個(gè)數(shù)據(jù)源建立語言模型時(shí)，依據(jù)該數(shù)據(jù)源自身的所有數(shù)據(jù)建立所述語言模型。在某些情況下，依據(jù)該語言模型為目標(biāo)數(shù)據(jù)確定的得分，并不能真實(shí)地反映該目標(biāo)數(shù)據(jù)的受關(guān)注度。產(chǎn)生這種問題的主要原因是，用戶關(guān)注的數(shù)據(jù)不一定是數(shù)據(jù)源的全部數(shù)據(jù)，例如，在某一電影的數(shù)據(jù)源中，大多數(shù)的數(shù)據(jù)是外國(guó)電影，因此相對(duì)與國(guó)產(chǎn)電影的查詢?cè)~，外國(guó)電影的查詢?cè)~將獲得更高的分?jǐn)?shù)，但是該數(shù)據(jù)源用戶的使用情況并不一定如此，如果使用該數(shù)據(jù)源的用戶多為國(guó)產(chǎn)電影愛好者，則事實(shí)上國(guó)產(chǎn)電影的查詢?cè)~應(yīng)該獲得更高的分?jǐn)?shù)，這與語言模型給出結(jié)果相反。可見，目前，基于多數(shù)據(jù)源的搜索引擎，或者以入口模式實(shí)現(xiàn)多數(shù)據(jù)源的接入，或者以混排模式實(shí)現(xiàn)多數(shù)據(jù)源的接入，然而，在某些應(yīng)用場(chǎng)合，例如，在社區(qū)搜索中，這種單一的數(shù)據(jù)源接入方式并不能滿足信息搜索的需求。另外，當(dāng)基于語言模型對(duì)多數(shù)據(jù)源的數(shù)據(jù)進(jìn)行混排時(shí)，由于語言模型基于數(shù)據(jù)源的所有數(shù)據(jù)建立，因此還常常存在這樣的問題：依據(jù)該語言模型為數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)所確定的得分，不能真實(shí)地反映該目標(biāo)數(shù)據(jù)的受關(guān)注度。

技術(shù)實(shí)現(xiàn)要素：
有鑒于此，本發(fā)明提供了一種基于多數(shù)據(jù)源的信息搜索方法和系統(tǒng)，以便滿足多種應(yīng)用場(chǎng)合的信息搜索需求。本發(fā)明的技術(shù)方案具體是這樣實(shí)現(xiàn)的：一種基于多數(shù)據(jù)源的信息搜索方法，該方法包括：在基于多個(gè)數(shù)據(jù)源進(jìn)行信息搜索時(shí)，將該多個(gè)數(shù)據(jù)源劃分為主數(shù)據(jù)源和次數(shù)據(jù)源；根據(jù)查詢?cè)~，從各個(gè)主數(shù)據(jù)源和次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)；根據(jù)從每個(gè)次數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)，確定每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口；將從各個(gè)主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行混合排序，根據(jù)混合排序結(jié)果確定搜索結(jié)果。一種基于多數(shù)據(jù)源的信息搜索系統(tǒng)，該系統(tǒng)包括主數(shù)據(jù)源搜索模塊、次數(shù)據(jù)源搜索模塊和混合排序模塊；所述主數(shù)據(jù)源搜索模塊，用于根據(jù)查詢?cè)~，從各個(gè)主數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)；所述次數(shù)據(jù)源搜索模塊，用于根據(jù)查詢?cè)~，從各個(gè)次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)，根據(jù)從每個(gè)次數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)，確定每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口；所述混合排序模塊，用于將從各個(gè)主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行混合排序，根據(jù)混合排序結(jié)果確定搜索結(jié)果。由上述技術(shù)方案可見，本發(fā)明在基于多個(gè)數(shù)據(jù)源進(jìn)行信息搜索時(shí)，將該多個(gè)數(shù)據(jù)源劃分為主數(shù)據(jù)源和次數(shù)據(jù)源，對(duì)于各個(gè)主數(shù)據(jù)源，從所有主數(shù)據(jù)源的數(shù)據(jù)中查找目標(biāo)數(shù)據(jù)，對(duì)于各個(gè)次數(shù)據(jù)源，則根據(jù)從每個(gè)次數(shù)據(jù)源查找到的目標(biāo)數(shù)據(jù)確定該個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口，然后將從所有主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行混合排序，根據(jù)混合排序結(jié)果確定搜索結(jié)果，從而實(shí)現(xiàn)了多數(shù)據(jù)源的入口模式和混排模式相結(jié)合，能夠滿足信息搜索的需求。附圖說明圖1是本發(fā)明提供的基于多數(shù)據(jù)源的信息搜索方法流程圖。圖2是本發(fā)明提供的基于多數(shù)據(jù)源的信息搜索的詳細(xì)流程圖。圖3是本發(fā)明提供的一種基于多數(shù)據(jù)源的信息搜索系統(tǒng)組成示意圖。具體實(shí)施方式圖1是本發(fā)明提供的基于多數(shù)據(jù)源的信息搜索方法流程圖。如圖1所示，該方法包括：步驟101，將信息搜索所基于的多個(gè)數(shù)據(jù)源劃分為主數(shù)據(jù)源和次數(shù)據(jù)源。本步驟中，可以根據(jù)信息搜索的應(yīng)用場(chǎng)景，預(yù)先將信息搜索所基于的多個(gè)數(shù)據(jù)源劃分為主數(shù)據(jù)源和次數(shù)據(jù)源，也可以在信息搜索的過程中，根據(jù)信息搜索的應(yīng)用場(chǎng)景和/或查詢?cè)~，將所述多個(gè)數(shù)據(jù)源劃分為主數(shù)據(jù)源和次數(shù)據(jù)源。步驟102，根據(jù)查詢?cè)~，從各個(gè)主數(shù)據(jù)源和次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)。本步驟中，可以分別獨(dú)立地從各個(gè)主數(shù)據(jù)源和各個(gè)次數(shù)據(jù)源查找目標(biāo)數(shù)據(jù)。本步驟中，也可以將所有主數(shù)據(jù)源的數(shù)據(jù)看作一個(gè)混合的整體，即將所有數(shù)據(jù)源的數(shù)據(jù)視為屬于一個(gè)數(shù)據(jù)源，從所有主數(shù)據(jù)源的數(shù)據(jù)中查找目標(biāo)數(shù)據(jù)，至于從數(shù)據(jù)源，則仍然分別獨(dú)立地從各個(gè)從數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)。本步驟中，可以根據(jù)查詢?cè)~，確定查找到的目標(biāo)數(shù)據(jù)的相關(guān)性得分。步驟103，根據(jù)從每個(gè)次數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)，確定每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口。本步驟中，對(duì)于每個(gè)次數(shù)據(jù)源，根據(jù)從次數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)，確定該次數(shù)據(jù)源的數(shù)據(jù)入口具體可以包括：首先根據(jù)查詢?cè)~確定從每個(gè)次數(shù)據(jù)源中查找到的各個(gè)目標(biāo)數(shù)據(jù)的相關(guān)性得分，將相關(guān)性得分最高的目標(biāo)數(shù)據(jù)確定為該個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口。步驟104，將從各個(gè)主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行混合排序，根據(jù)混合排序結(jié)果確定搜索結(jié)果。圖1所示方法中，可以通過訓(xùn)練每個(gè)次數(shù)據(jù)源的語言模型，根據(jù)每個(gè)次數(shù)據(jù)源的語言模型，從相應(yīng)的次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)。其中，在訓(xùn)練次數(shù)據(jù)源的語言模型時(shí)，鑒于現(xiàn)有技術(shù)中僅僅依據(jù)次數(shù)據(jù)源的所有數(shù)據(jù)來訓(xùn)練語言模型所帶來的問題，即依據(jù)現(xiàn)有技術(shù)中的語言模型為目標(biāo)數(shù)據(jù)所確定的得分不能真實(shí)地反映該目標(biāo)數(shù)據(jù)的受關(guān)注度，本發(fā)明對(duì)語言模型的建立方法進(jìn)行了改進(jìn)。具體地，本發(fā)明中，根據(jù)數(shù)據(jù)源的數(shù)據(jù)和該數(shù)據(jù)源的用戶行為日志，建立該數(shù)據(jù)源的語言模型，通過該數(shù)據(jù)源的語言模型查找該數(shù)據(jù)源中與查詢?cè)~對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。其中的數(shù)據(jù)源可以是主數(shù)據(jù)源，也可以是次數(shù)據(jù)源。換言之，可以為主數(shù)據(jù)源建立語言模型，也可以為次數(shù)據(jù)源建立語言模型，在為主數(shù)據(jù)源和/或次數(shù)據(jù)源建立語言模型時(shí)，均利用該主數(shù)據(jù)源和/或次數(shù)據(jù)源自身的數(shù)據(jù)以及用戶行為日志，以使得依據(jù)語言模型為目標(biāo)數(shù)據(jù)所確定的得分能夠真實(shí)地反映該目標(biāo)數(shù)據(jù)的受關(guān)注度。其中，依據(jù)數(shù)據(jù)源的數(shù)據(jù)和用戶行為日志共同建立語言模型可以有很多種不同的方式，例如，將數(shù)據(jù)與用戶行為日志按某種比例混合訓(xùn)練語言模型；再例如，利用數(shù)據(jù)與用戶行為日志分別訓(xùn)練語言模型，再用公式對(duì)其得分進(jìn)行匯總等。其中的用戶行為日志，包括用戶對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行的各種行為信息，例如，瀏覽數(shù)據(jù)源中的數(shù)據(jù)等。圖1所示方法中，當(dāng)分別獨(dú)立地從各個(gè)主數(shù)據(jù)源和各個(gè)次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)、且根據(jù)查詢?cè)~確定查找到的各個(gè)目標(biāo)數(shù)據(jù)的相關(guān)性得分時(shí)，由于各個(gè)主數(shù)據(jù)源和各個(gè)次數(shù)據(jù)源是相互獨(dú)立地，因此，可能存在不同數(shù)據(jù)源的目標(biāo)數(shù)據(jù)的相關(guān)性得分之間缺乏可比性的問題，例如，如果在第一主數(shù)據(jù)源中，大多數(shù)目標(biāo)數(shù)據(jù)的相關(guān)性得分都在0.5分以上，而在第二主數(shù)據(jù)源中，只有少部分目標(biāo)數(shù)據(jù)的相關(guān)性得分在0.5分以上，此時(shí)，如果將第一主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)和第二主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)直接根據(jù)相關(guān)性得分進(jìn)行混合排序，將出現(xiàn)搜索結(jié)果中第一主數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的數(shù)量遠(yuǎn)遠(yuǎn)大于第二主數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的數(shù)量的問題。因此，本發(fā)明提出，在對(duì)從各個(gè)不同的主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)、以及各個(gè)不同的次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行混合排序時(shí)，可以將不同主數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的相關(guān)性得分映射到同一區(qū)間，根據(jù)映射結(jié)果確定各個(gè)主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)之間的排序結(jié)果，根據(jù)查詢?cè)~確定每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分，根據(jù)次數(shù)據(jù)源數(shù)據(jù)入口的相關(guān)性得分，以及預(yù)定規(guī)則，將各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口與所述各個(gè)主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)之間的排序結(jié)果，進(jìn)行混合排序。所述預(yù)定規(guī)則可以有多種，例如，將不符合查詢?cè)~意圖的次數(shù)據(jù)源數(shù)據(jù)入口刪除，不參與混合排序，再例如，混合排序結(jié)果中主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)排序結(jié)果排在次數(shù)據(jù)源數(shù)據(jù)入口排序結(jié)果之前。還可以根據(jù)查詢?cè)~確定從主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)的相關(guān)性得分以及每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分，將不同主數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的相關(guān)性得分、以及不同次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分，映射到同一區(qū)間，根據(jù)映射結(jié)果確定各個(gè)主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口之間的排序結(jié)果。上述排序方案中，通過將相關(guān)性得分映射到同一區(qū)間，可以使得根據(jù)該排序結(jié)果所確定的搜索結(jié)果能夠更加準(zhǔn)確。其中，所述映射可以采用多種方式，例如，采用曲線擬合的方式、或函數(shù)映射的方式等。在根據(jù)混合排序結(jié)果確定出搜索結(jié)果之后，為了進(jìn)一步提高信息搜索的準(zhǔn)確性，還可以實(shí)時(shí)或定期或不定期地對(duì)搜索結(jié)果進(jìn)行更新。對(duì)搜索結(jié)果進(jìn)行更新時(shí)，可以依據(jù)所有用戶針對(duì)搜索結(jié)果的行為日志，調(diào)整混合排序結(jié)果，從而更新搜索結(jié)果。進(jìn)一步地，注意到利用所有用戶針對(duì)搜索結(jié)果的行為日志、即利用全局用戶日志調(diào)整混合排序結(jié)果時(shí)，由于全局用戶中不同用戶之間的差異性較大，因此對(duì)混合排序結(jié)果的調(diào)整不夠精確，因此，本發(fā)明提出，根據(jù)信息搜索的應(yīng)用場(chǎng)景和/或用戶輸入的查詢?cè)~，將與該用戶有相同信息需求的其他用戶確定為該用戶的相似用戶，根據(jù)該用戶的相似用戶針對(duì)搜索結(jié)果的行為日志，調(diào)整混合排序結(jié)果，從而提高信息搜索的準(zhǔn)確性。圖2是本發(fā)明提供的基于多數(shù)據(jù)源的信息搜索的詳細(xì)流程圖。如圖2所示，該流程包括：步驟一、在各個(gè)主數(shù)據(jù)源中搜索目標(biāo)數(shù)據(jù)，該步驟一包括步驟201～步驟203。步驟二、在各個(gè)次數(shù)據(jù)源中搜索目標(biāo)數(shù)據(jù)，并確定次數(shù)據(jù)源的數(shù)據(jù)入口，該步驟二包括步驟204～步驟207。步驟三、對(duì)步驟一和步驟二的搜索結(jié)果進(jìn)行混合排序，確定最終的搜索結(jié)果，并實(shí)時(shí)、定期或不定期地對(duì)最終的搜索結(jié)果進(jìn)行更新，該步驟三包括步驟208～步驟212。其中，步驟一與步驟二可以同步進(jìn)行。具體地，圖2所示流程包括：步驟201，在各個(gè)主數(shù)據(jù)源中搜索目標(biāo)數(shù)據(jù)，并計(jì)算從每個(gè)主數(shù)據(jù)源中搜索到的目標(biāo)數(shù)據(jù)的相關(guān)性得分。步驟202，將從不同的主數(shù)據(jù)源搜索到的目標(biāo)數(shù)據(jù)的相關(guān)性得分映射到同一區(qū)間。步驟203，根據(jù)映射結(jié)果，對(duì)從不同的主數(shù)據(jù)源搜索到的目標(biāo)數(shù)據(jù)進(jìn)行排序。步驟204，根據(jù)每個(gè)次數(shù)據(jù)源的數(shù)據(jù)和用戶行為日志，為相應(yīng)的次數(shù)據(jù)源(即該個(gè)次數(shù)據(jù)源)建立語言模型。步驟205，根據(jù)查詢?cè)~，通過每個(gè)次數(shù)據(jù)源的語言模型從相應(yīng)的次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)，并計(jì)算目標(biāo)數(shù)據(jù)的相關(guān)性得分，選取相關(guān)性得分最大的目標(biāo)數(shù)據(jù)作為相應(yīng)次數(shù)據(jù)源的數(shù)據(jù)入口。步驟206，判斷每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分是否大于預(yù)定的閾值，如果是，將該次數(shù)據(jù)源加入候選集，如果否，確定不在搜索結(jié)果中展示該次數(shù)據(jù)源。步驟207，根據(jù)加入候選集的各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分，對(duì)各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行排序。步驟208，根據(jù)步驟203的排序結(jié)果和步驟207的排序結(jié)果進(jìn)行混合排序。其中，步驟203和步驟207可以省略，則步驟208中，根據(jù)步驟202的映射結(jié)果、以及步驟206中確定出的候選集中各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分進(jìn)行混合排序。步驟209，判斷是否有用戶數(shù)據(jù)，如果是，執(zhí)行步驟210，否則，獲取所有用戶的行為日志，執(zhí)行步驟211。步驟210，確定當(dāng)前用戶的相似用戶，獲取相似用戶的行為日志。步驟211，根據(jù)獲取的用戶行為日志，對(duì)混合排序結(jié)果進(jìn)行更新。步驟212，記錄用戶行為日志，返回步驟211。根據(jù)上述方法，本發(fā)明還提供了相應(yīng)的系統(tǒng)，具體請(qǐng)參見圖3。圖3是本發(fā)明提供的一種基于多數(shù)據(jù)源的信息搜索系統(tǒng)組成示意圖。如圖3所示，該系統(tǒng)包括主數(shù)據(jù)源搜索模塊301、次數(shù)據(jù)源搜索模塊302和混合排序模塊303。主數(shù)據(jù)源搜索模塊301，用于根據(jù)查詢?cè)~，從各個(gè)主數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)。次數(shù)據(jù)源搜索模塊302，用于根據(jù)查詢?cè)~，從各個(gè)次數(shù)據(jù)源中查找目標(biāo)數(shù)據(jù)，根據(jù)從每個(gè)次數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)，確定每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口?；旌吓判蚰K303，用于將從各個(gè)主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口進(jìn)行混合排序，根據(jù)混合排序結(jié)果確定搜索結(jié)果。其中的次數(shù)據(jù)源搜索模塊302，用于根據(jù)每個(gè)次數(shù)據(jù)源的數(shù)據(jù)和該個(gè)次數(shù)據(jù)源的用戶行為日志，建立該個(gè)次數(shù)據(jù)源的語言模型，通過每個(gè)次數(shù)據(jù)源的語言模型查找該個(gè)次數(shù)據(jù)源中與查詢?cè)~對(duì)應(yīng)的目標(biāo)數(shù)據(jù)。其中的次數(shù)據(jù)源搜索模塊302，還用于根據(jù)每個(gè)次數(shù)據(jù)源的語言模型，確定從該個(gè)次數(shù)據(jù)源中查找到的各個(gè)目標(biāo)數(shù)據(jù)的相關(guān)性得分，將相關(guān)性得分最高的目標(biāo)數(shù)據(jù)確定為該個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口。其中的混合排序模塊303，用于根據(jù)查詢?cè)~確定從主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)的相關(guān)性得分，將不同主數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的相關(guān)性得分映射到同一區(qū)間，根據(jù)映射結(jié)果確定各個(gè)主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)之間的排序結(jié)果，根據(jù)查詢?cè)~確定每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分，根據(jù)次數(shù)據(jù)源數(shù)據(jù)入口的相關(guān)性得分，以及預(yù)定規(guī)則，將各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口與所述各個(gè)主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)之間的排序結(jié)果，進(jìn)行混合排序?；旌吓判蚰K303，可以用于根據(jù)查詢?cè)~確定從主數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)的相關(guān)性得分以及每個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分，將不同主數(shù)據(jù)源中的目標(biāo)數(shù)據(jù)的相關(guān)性得分、以及不同次數(shù)據(jù)源的數(shù)據(jù)入口的相關(guān)性得分，映射到同一區(qū)間，根據(jù)映射結(jié)果確定各個(gè)主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)、以及各個(gè)次數(shù)據(jù)源的數(shù)據(jù)入口之間的排序結(jié)果。圖3所示信息搜索系統(tǒng)，還可以包括排序結(jié)果調(diào)整模塊。所述排序結(jié)果調(diào)整模塊，可以用于根據(jù)用戶針對(duì)搜索結(jié)果的行為日志，調(diào)整混合排序結(jié)果。所述排序結(jié)果調(diào)整模塊，具體可以用于根據(jù)信息搜索的應(yīng)用場(chǎng)景和/或用戶輸入的查詢?cè)~，將與該用戶有相同信息需求的其他用戶確定為該用戶的相似用戶，根據(jù)該用戶的相似用戶針對(duì)搜索結(jié)果的行為日志，調(diào)整混合排序結(jié)果?？梢?，本發(fā)明提供的方法和系統(tǒng)，主要涉及以下幾個(gè)方面：第一方面，提出了一種結(jié)合了多數(shù)據(jù)源入口與多數(shù)據(jù)源數(shù)據(jù)的混合接入模式，能夠適應(yīng)社區(qū)搜索等信息搜索領(lǐng)域的需求。對(duì)于很多搜索引擎，特別是基于社區(qū)的搜索平臺(tái)，可以將數(shù)據(jù)源分為兩類，第一類是均可以作為主數(shù)據(jù)的主數(shù)據(jù)源，對(duì)于所有這類主數(shù)據(jù)源，將其各自的數(shù)據(jù)看成平等的數(shù)據(jù)進(jìn)行混合并查找目標(biāo)數(shù)據(jù)，將查找到的目標(biāo)數(shù)據(jù)顯示在搜索結(jié)果中；第二類數(shù)據(jù)源即次數(shù)據(jù)源，搜索平臺(tái)僅在搜索到的目標(biāo)數(shù)據(jù)滿足預(yù)定條件時(shí)，在搜索結(jié)果中顯示該次數(shù)據(jù)源的數(shù)據(jù)入口。第二方面，為了提高信息搜索的準(zhǔn)確性，根據(jù)數(shù)據(jù)源的數(shù)據(jù)和用戶行為日志共同建立語言模型。對(duì)于數(shù)據(jù)入口類的次數(shù)據(jù)源，本發(fā)明采用一種根據(jù)數(shù)據(jù)源數(shù)據(jù)與該數(shù)據(jù)源的獨(dú)立用戶行為日志建立語言模型的方法，對(duì)該數(shù)據(jù)源中查找到的目標(biāo)數(shù)據(jù)進(jìn)行排序。由于次數(shù)據(jù)源一般都有自己獨(dú)立的應(yīng)用場(chǎng)景，因此存在自己獨(dú)有的、可查詢的用戶行為日志。在考慮數(shù)據(jù)源自身數(shù)據(jù)的同時(shí)，本發(fā)明同時(shí)使用該數(shù)據(jù)源的用戶行為日志，共同建立語言模型。需要說明的是，共同建立語言模型可以有很多種不同的方式，如將數(shù)據(jù)與用戶行為日志按某種比例混合訓(xùn)練語言模型；或利用數(shù)據(jù)與用戶行為日志分別訓(xùn)練語言模型，再用公式對(duì)其得分進(jìn)行匯總等。最終，該方法對(duì)每個(gè)數(shù)據(jù)源建立一個(gè)語言模型。并針對(duì)不同的數(shù)據(jù)源設(shè)置閾值。當(dāng)用戶輸入一個(gè)查詢?cè)~后，該查詢?cè)~將被輸入至各個(gè)語言模型并計(jì)算相關(guān)性得分。對(duì)于每個(gè)數(shù)據(jù)源，若得分大于其閾值，則展現(xiàn)該數(shù)據(jù)源的入口。所有被展現(xiàn)的數(shù)據(jù)源入口按照其相關(guān)性得分大小排序。第三方面，對(duì)來自不同主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)的相關(guān)性得分映射到同一區(qū)間內(nèi)，即對(duì)來自不同主數(shù)據(jù)源的目標(biāo)數(shù)據(jù)的相關(guān)性得分進(jìn)行規(guī)整，使其具有可比性。對(duì)于可同等看待的主數(shù)據(jù)源，本發(fā)明將采用根據(jù)相關(guān)性得分進(jìn)行規(guī)整的排序方式。對(duì)于不同數(shù)據(jù)源所得相關(guān)性得分進(jìn)行規(guī)整，即映射到同一區(qū)間，使得得分初步可比，從而得到數(shù)據(jù)源混合的初排序。這里的規(guī)整方式可以但不僅限于以下方法：在計(jì)算每個(gè)數(shù)據(jù)源相關(guān)性時(shí)進(jìn)行規(guī)整；或在各個(gè)數(shù)據(jù)源計(jì)算相關(guān)性后，用公式或模型進(jìn)行統(tǒng)一規(guī)整等。第四方面，本發(fā)明還提出利用全局用戶行為日志對(duì)搜索結(jié)果進(jìn)行更新，特別地，為了進(jìn)一步提高混合排序的精度，提出根據(jù)相似用戶的行為日志對(duì)搜索結(jié)果進(jìn)行更新。本發(fā)明可以通過用戶的行為日志動(dòng)態(tài)調(diào)整排序結(jié)果。對(duì)于以入口作為接入方式的次數(shù)據(jù)源，利用其在搜索結(jié)果中的表現(xiàn)動(dòng)態(tài)調(diào)整其相對(duì)位置。需要說明的是，所述表現(xiàn)可以有很多衡量標(biāo)準(zhǔn)，例如，該數(shù)據(jù)源入口的點(diǎn)擊率、點(diǎn)擊數(shù)等。同時(shí)，用戶行為日志也可以用于修正最終的總體排序結(jié)果，利用每一條搜索結(jié)果數(shù)據(jù)的表現(xiàn)，對(duì)其進(jìn)行調(diào)整。這個(gè)更新的過程既可以是實(shí)時(shí)的，也可以定期進(jìn)行。另，本發(fā)明需要強(qiáng)調(diào)的是：當(dāng)搜索引擎可以得到用戶的信息(如用戶的登錄信息、社區(qū)搜索信息等)，可以采用相似用戶的日志對(duì)搜索結(jié)果進(jìn)行修正。由于用戶之間的差異性很大，利用全局的用戶行為日志進(jìn)行修正有著一定的局限性，因此，本發(fā)明提出一種基于相似用戶日志的修正方法。相似的標(biāo)準(zhǔn)及相似用戶的選取根據(jù)搜索引擎的應(yīng)用場(chǎng)景可以有很多種選擇，例如，兩個(gè)用戶的地理距離可以作為基于位置(LBS)搜索引擎中的用戶相似標(biāo)準(zhǔn)，購(gòu)買相同商品的用戶可以作為網(wǎng)上購(gòu)物搜索引擎中的用戶相似標(biāo)準(zhǔn)。因此，在某一用戶輸入某一查詢?cè)~后，搜索引擎將使用該用戶的相似用戶的所有行為日志對(duì)搜索結(jié)果進(jìn)行修正。以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳曉暉;余衍炳;張發(fā)喜;楊志峰
技術(shù)所有人：深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

ios數(shù)據(jù)源方法相關(guān)技術(shù)

多數(shù)據(jù)源精確到方法相關(guān)技術(shù)

64位系統(tǒng)odbc數(shù)據(jù)源相關(guān)技術(shù)

系統(tǒng)數(shù)據(jù)源相關(guān)技術(shù)

數(shù)據(jù)源管理系統(tǒng)相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多數(shù)據(jù)源的信息搜索方法和系統(tǒng)與流程