一種信息處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子技術(shù),尤其涉及一種信息處理方法及裝置。
【背景技術(shù)】
[0002]搜索引擎(Search Engine)是一種基于web平臺的網(wǎng)絡(luò)查找工具。因此,關(guān)于搜索引擎的概念可從不同的角度來理解。從信息組織的角度看,搜索引擎是一種網(wǎng)絡(luò)信息資源的二次組織工具,它是將分布在不同網(wǎng)絡(luò)服務(wù)器上的大量信息重新歸類組織成易于查詢的形式。從信息檢索的角度看,搜索引擎是一種用以查詢互聯(lián)網(wǎng)中各類信息資源的在線檢索平臺,并以web網(wǎng)頁的方式組織和呈現(xiàn)檢索結(jié)果。但是對于開發(fā)者來說,搜索引擎是以Web相關(guān)技術(shù)為基礎(chǔ)進行抓取與采集網(wǎng)頁上的網(wǎng)絡(luò)信息資源,建立索引數(shù)據(jù)庫,然后依據(jù)用戶的查找需求檢索網(wǎng)絡(luò)信息并將結(jié)果顯示給用戶,是為用戶提供在線檢索服務(wù)的web查找系統(tǒng)。
[0003]搜索引擎可以按搜索內(nèi)容、檢索機制等進行劃分,按搜索內(nèi)容劃分實際上就是內(nèi)容歸并法,按搜索內(nèi)容劃分的方法是指基于搜索引擎所搜集信息的內(nèi)容狀況(如覆蓋程度、所屬專業(yè)或?qū)W科等),將現(xiàn)有的搜索引擎劃分為水平搜索引擎和垂直搜索引擎。其中,垂直搜索引擎是針對某一個行業(yè)或領(lǐng)域的專業(yè)搜索引擎,是對網(wǎng)頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數(shù)據(jù)進行處理后再以某種形式返回給用戶。目前通常有兩種搜集信息的策略:
[0004]I)第一種策略,順從一個起始統(tǒng)一資源定位器(URL, Uniform Resource Locator)集合開始,順著這些URL中的鏈接以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式等循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)新的信息。這些起始URL可以是任意的URL,也可以是一些非常流行、包含很多鏈接的站點。
[0005]2)第二種策略,將Web空間按照域名、網(wǎng)際協(xié)議(IP, Internet Protocol)地址或國家域名劃分,每個搜索器負責(zé)一個子空間的窮盡搜索。搜索器搜集的信息類型包括超文本標記語言(HTML, Hyper Text Mark-up Language)、可擴展標記語言(XML, ExtensibleMark-up Language)、文件傳輸協(xié)議(FTP, File Transfer Protocol)文件以及多媒體信息等。搜索器通??刹捎梅植际交虿⑿杏嬎慵夹g(shù),以提高信息發(fā)現(xiàn)和更新的速度。
[0006]搜索引擎作為一個系統(tǒng),一方面,搜索引擎系統(tǒng)可以根據(jù)工作時效性的不同劃分為離線子系統(tǒng)和在線子系統(tǒng)兩部分。另一方面,如圖1-1所示,搜索引擎系統(tǒng)還可以依據(jù)具體功能的差別將搜索引擎分解成四個關(guān)鍵模塊:用戶接口模塊10、信息檢索模塊20、索引處理模塊30和信息采集模塊40。通常情況下索引處理模塊30和信息搜集模塊40屬于離線子系統(tǒng)的范疇,而用戶接口模塊10、信息檢索模塊20則屬于搜索引擎的在線子系統(tǒng)的范疇。從程序角度來看,一個搜索引擎一般包括采集器41、索引器31、檢索器21和用戶接口模塊10四個部分組成:
[0007](I)采集器41,又稱搜索器、蜘蛛(Spider)、機器人(Robot)、爬行者(Crawler)或蠕蟲(Worm)等,搜索器實質(zhì)是一種計算機程序,按照某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)web信息,或者從其他文檔43上搜索和發(fā)現(xiàn)信息資源,進而形成數(shù)據(jù)庫42。搜索器需要盡可能多、盡可能快地搜集各種類型的新信息,同時由于網(wǎng)上的信息更新很快,需要定期更新已經(jīng)搜集過的舊信息,以避免死鏈接和無效鏈接。
[0008](2)索引器31,索引器用于生成從關(guān)鍵詞到統(tǒng)一資源定位器(URL,UniformResource Locator)地址的關(guān)系索引表。索引表一般使用某種形式的倒排表(Invers1nList)或順排表,即由索引項查找相應(yīng)的URL。一個搜索引擎的有效性在很大程序上取決于索引的質(zhì)量。
[0009](3)檢索器21,檢索器的主要功能是根據(jù)用戶輸入的關(guān)鍵詞,在索引器形成的倒排表或順排表中進行查詢,同時完成頁面與查詢之間的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并提供某種用戶相關(guān)性的反饋機制。
[0010](4)用戶接口模塊10,用戶接口模塊的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。
[0011]用戶11或12至IN提交要搜索的關(guān)鍵字(即發(fā)送搜索請求),然后搜索引擎就會經(jīng)過查詢處理與分詞,然后由檢索器21從索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。最后綜合相關(guān)信息和網(wǎng)頁級別形成相關(guān)度數(shù)值,然后進行排序,相關(guān)度越高排名越靠前(即形成檢索結(jié)果集22)。最后由用戶接口模塊10中的頁面生成子模塊將檢索結(jié)果集的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶(返回搜索結(jié)果)。
[0012]在搜索引擎中索引數(shù)據(jù)的生成是提供檢索服務(wù)的關(guān)鍵。索引數(shù)據(jù)生成是由索引處理模塊30來實現(xiàn)的,目前離線索引數(shù)據(jù)生成大都是基于分布式計算的架構(gòu)。對于涉及多個方面的信息服務(wù)提供商來說,例如某信息服務(wù)提供商涉及游戲業(yè)務(wù)、視頻業(yè)務(wù)、音頻業(yè)務(wù)、房產(chǎn)業(yè)務(wù)、即時通訊業(yè)務(wù)等,該信息服務(wù)提供商的各個業(yè)務(wù)部門都需要用到搜索引擎以便為各自的用戶提供搜索服務(wù),對于信息服務(wù)提供商而言,為每一個業(yè)務(wù)部門單獨搭建一套獨立的搜索引擎是不合理的,因為設(shè)備成本、設(shè)備維護費以及人員配比都會導(dǎo)致成本高的問題;因此,對于信息服務(wù)提供商而言,期望搭建一個搜索平臺,該搜索平臺能夠滿足不同的業(yè)務(wù)都使用搜索引擎。
[0013]目前,搜索平臺中通常包括多個索引器,這是因為在搜索平臺的數(shù)據(jù)生成過程中,每一個索引器大都是為某個搜索業(yè)務(wù)定制的,而且由于每一業(yè)務(wù)所涉及的業(yè)務(wù)數(shù)據(jù)規(guī)模、字段都存在很大的差異,因此,搜索平臺為每一項搜索業(yè)務(wù)都搭建一個搜索器。當需要增加一種新的搜索業(yè)務(wù)時,信息服務(wù)提供商還需要為該業(yè)務(wù)搭建一個新的搜索器,可見,現(xiàn)有的搜索平臺對于新的業(yè)務(wù)無法進行快速擴展;因此,對于信息服務(wù)提供商而言,一般各個業(yè)務(wù)部門就有幾個對應(yīng)于該業(yè)務(wù)部分的索引器,可見,現(xiàn)有的搜索平臺雖然將各個業(yè)務(wù)的搜索業(yè)務(wù)放置在一起,但是并沒有做到實際意義上的整合。還有,有些業(yè)務(wù)的用戶量比較小或者用戶的使用時段比較集中,那么相互獨立的索引器或搜索器的使用率比較低,此外,當索引器在處理數(shù)據(jù)過程對用戶(即業(yè)務(wù)部門)來說時不透明的,用戶無法了解數(shù)據(jù)處理各個環(huán)節(jié)的狀態(tài)。
【發(fā)明內(nèi)容】
[0014]有鑒于此,本發(fā)明實施例為解決現(xiàn)有技術(shù)中存在的至少一個問題而提供一種信息處理方法及裝置,能夠增強搜索平臺的可擴展性。
[0015]本發(fā)明實施例的技術(shù)方案是這樣實現(xiàn)的:
[0016]第一方面,本發(fā)明實施例提供一種信息處理方法,所述方法包括:
[0017]獲取多個來自于不同種類業(yè)務(wù)的且具有預(yù)設(shè)的第一數(shù)據(jù)格式的第一業(yè)務(wù)數(shù)據(jù);
[0018]將每一種類的所述業(yè)務(wù)的第一業(yè)務(wù)數(shù)據(jù)生成待執(zhí)行任務(wù),并將所述待執(zhí)行任務(wù)添加到任務(wù)隊列中;
[0019]從所述任務(wù)隊列中獲取所述待執(zhí)行任務(wù)進行處理,得到對應(yīng)的順排數(shù)據(jù)或倒排數(shù)據(jù)。
[0020]在本發(fā)明的一種實施例中,在從所述任務(wù)隊列中獲取所述待執(zhí)行任務(wù)進行處理,得到對應(yīng)的順排數(shù)據(jù)或倒排數(shù)據(jù)之后,所述方法還包括:
[0021]獲取每一種類的所述業(yè)務(wù)的順排數(shù)據(jù)或倒排數(shù)據(jù),根據(jù)每一種類的所述業(yè)務(wù)的順排數(shù)據(jù)或倒排數(shù)據(jù),生成從關(guān)鍵詞到統(tǒng)一資源定位器URL地址的關(guān)系索引表。
[0022]在本發(fā)明的一種實施例中,所述待執(zhí)行任務(wù)的結(jié)構(gòu)信息至少包括業(yè)務(wù)配置信息;
[0023]對應(yīng)地,所述從所述任務(wù)隊列中獲取所述待執(zhí)行任務(wù)進行處理,得到對應(yīng)的順排數(shù)據(jù)或倒排數(shù)據(jù),包括:檢查數(shù)據(jù)的合法性、檢查數(shù)據(jù)值的一致性和生成順排數(shù)據(jù)或倒排數(shù)據(jù),其中:
[0024]所述檢查數(shù)據(jù)的合法性,包括:根據(jù)所述待執(zhí)行任務(wù)獲取第一業(yè)務(wù)數(shù)據(jù),檢查所述第一業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)格式的合法性;
[0025]所述檢查數(shù)據(jù)值的一致性,包括:當所述數(shù)據(jù)格式合法時,檢查所述待執(zhí)行任務(wù)的結(jié)構(gòu)信息中的業(yè)務(wù)配置信息與所述第一業(yè)務(wù)數(shù)據(jù)中數(shù)據(jù)值的一致性;
[0026]所述生成順排數(shù)據(jù)或倒排數(shù)據(jù),包括:當所述業(yè)務(wù)配置信息與所述數(shù)據(jù)值一致時,將所述第一業(yè)務(wù)數(shù)據(jù)進行處理生成對應(yīng)的順排數(shù)據(jù)或倒排數(shù)據(jù)。
[0027]在本發(fā)明的一種實施例中,所述從所述任務(wù)隊列中獲取所述待執(zhí)行任務(wù)進行處理,得到對應(yīng)的順排數(shù)據(jù)或倒排數(shù)據(jù),還包括:
[0028]當所述業(yè)務(wù)配置信息與所述數(shù)據(jù)值一致時,將所述第一業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)格式轉(zhuǎn)換成預(yù)設(shè)的第二數(shù)據(jù)格式,所述第二數(shù)據(jù)格式與所述第一數(shù)據(jù)格式不同。
[0029]在本發(fā)明的一種實施例中,所述待執(zhí)行任務(wù)的結(jié)構(gòu)信息還包括任務(wù)狀態(tài)和任務(wù)執(zhí)行時間信息;
[0030]對應(yīng)地,所述從所述任務(wù)隊列中獲取所述待執(zhí)行任務(wù)進行處理,得到對應(yīng)的順排數(shù)據(jù)或倒排數(shù)據(jù),還包括:
[0031]在執(zhí)行檢查數(shù)據(jù)的合法性、檢查數(shù)據(jù)值的一致性和生成順排數(shù)據(jù)或倒排數(shù)據(jù)中至少任一步驟時,至少更新所述任務(wù)狀態(tài)和所述任務(wù)執(zhí)行時間信息。
[0032]在本發(fā)明的一種實施例中,所述將每一種類的所述業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)生成待執(zhí)行任務(wù),包括:
[0033]根據(jù)每一種類的所述業(yè)務(wù)的第一業(yè)務(wù)數(shù)據(jù)的大小,將每一種類的所述業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)生成一個或多個待執(zhí)行任務(wù)。
[0034]在本發(fā)明的一種實施例中,所述根據(jù)每一種類的所述業(yè)務(wù)的第一業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)量,將每一種類的所述業(yè)務(wù)的業(yè)務(wù)數(shù)據(jù)生成一個或多個待執(zhí)行任務(wù),包括:
[0035]獲取每一種類的所述業(yè)務(wù)的第一業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)量;
[0036]將所述第一業(yè)務(wù)數(shù)據(jù)的數(shù)據(jù)量除以預(yù)設(shè)的第一閾值,得到第一倍數(shù);
[0037]根據(jù)所述第一倍數(shù)將所述第一業(yè)務(wù)數(shù)據(jù)進行分割,得到一個或多個第二業(yè)務(wù)數(shù)據(jù);
[0038]將每一所述第二業(yè)務(wù)數(shù)據(jù)生成一個待執(zhí)行任務(wù)。
[0039]第二方面,本發(fā)明實施例提供一種信息處理裝置,所述裝置包括第一獲取單元、第一生成單元、添加單元和處理單元,其中:
[0040]所述第一獲取單元,用于獲取多個來自于不同種類業(yè)務(wù)的且具有預(yù)設(shè)的第一數(shù)據(jù)格式的第一業(yè)務(wù)數(shù)據(jù);
[0041]所述第一生成單元,用于將每一種類的所述業(yè)務(wù)的第一業(yè)務(wù)數(shù)據(jù)生成待執(zhí)行任務(wù);
[0042]所述添加單元,用于將所述待執(zhí)行任務(wù)添加到任務(wù)隊列中;
[0043]所述處理單元,用于從所述任務(wù)隊列中獲取所述待執(zhí)行任務(wù)進行處理,得到對應(yīng)的順排數(shù)據(jù)或倒排數(shù)據(jù)。
[0044]在本發(fā)明的一種實施例中,所述裝置還包括:第二獲取單元和第二生成單元,其中:
[0045]所述第二獲取單元,用于獲取每一種類的所述業(yè)務(wù)的順排數(shù)據(jù)或倒排數(shù)據(jù);
[0046]所述第二生成單元,用于根據(jù)每一種類的所述業(yè)務(wù)的順排數(shù)據(jù)或倒排數(shù)據(jù),生成從關(guān)鍵詞到統(tǒng)一資源定位器URL地址的關(guān)系索引表。
[0047]在本發(fā)明的一種實施例中,所述待執(zhí)行任務(wù)的結(jié)構(gòu)信息至少包括業(yè)務(wù)配置信息;
[0048]對應(yīng)地,所述處理單元包