專利名稱:一種地圖網(wǎng)站的自動搜索判別方法、系統(tǒng)及其分布式服務(wù)器系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)站搜索技術(shù),更具體地,涉及一種互聯(lián)網(wǎng)地圖網(wǎng)站的自動搜索判別方法及系統(tǒng)。
背景技術(shù):
地圖網(wǎng)站基于互聯(lián)網(wǎng)向用戶提供地理信息,是網(wǎng)上地理信息的主要來源。目前,國內(nèi)外已經(jīng)涌現(xiàn)了一大批以地理目標搜索為核心的應(yīng)用型地圖網(wǎng)站,例如谷歌地球、百度地圖、天地圖、圖吧地圖等網(wǎng)站。這些網(wǎng)站主要提供了地圖交互展示和地理目標搜索功能,可以查詢出主要政府機關(guān)、企事業(yè)單位、醫(yī)院、學(xué)校、商場等地理對象,為公眾提供了便利。但是,由于地圖本身的重要性和保密性,互聯(lián)網(wǎng)監(jiān)管部門也需要對提供互聯(lián)網(wǎng)地圖服務(wù)的網(wǎng)站進行必要的監(jiān)管。然而,如何從浩如煙海的各類網(wǎng)站中搜索和判別地圖網(wǎng)站成為了互聯(lián)網(wǎng)地圖監(jiān)管人員面前的首要問題。目前,監(jiān)管人員采用的方法是在通用搜索引擎(例如谷歌搜索引擎或百度搜索引擎)中輸入“地圖”等關(guān)鍵字進行查詢,再從返回的查詢記錄中依次打開相關(guān) URL鏈接進行人工判別。這種方法存在結(jié)果覆蓋率低、不支持多級行政區(qū)深度搜索,識別速度慢、工作效率低、重復(fù)工作量大等問題。主要原因在于(1)單一搜索引擎(如谷歌搜索引擎或百度搜索引擎)無法覆蓋到全部互聯(lián)網(wǎng)網(wǎng)站;(2)使用少量的搜索關(guān)鍵詞(如“地圖” 等)返回的搜索結(jié)果無法覆蓋全部特征,且無法解決多語言網(wǎng)頁內(nèi)容識別的問題;(3)無法實現(xiàn)對特定行政區(qū)及下屬區(qū)網(wǎng)站的搜索,例如搜索“四川地圖”,大多數(shù)返回的是包含“四川省地圖“的網(wǎng)頁,而無法返回包含”成都市“、”德陽市“等下屬行政區(qū)域地圖的網(wǎng)頁;(4)對搜索引擎返回的每個URL鏈接都需要手動打開網(wǎng)頁進行人工識別,識別速度低,重復(fù)研判量大。近年來,隨著網(wǎng)頁搜索引擎技術(shù)的創(chuàng)新,出現(xiàn)了元搜索技術(shù)。元搜索技術(shù)提供了基于關(guān)鍵字的、跨搜索引擎的信息搜索能力。從原理上看,元搜索引擎采用了一種雙層客戶機 /服務(wù)器架構(gòu);用戶向元搜索引擎發(fā)出檢索請求,元搜索引擎再根據(jù)該請求向多個搜索引擎發(fā)出實際檢索請求,搜索引擎執(zhí)行元搜索引擎檢索請求后將檢索結(jié)果以應(yīng)答形式傳送給元搜索引擎,元搜索引擎將從多個搜索引擎獲得的檢索結(jié)果經(jīng)過整理再以應(yīng)答形式傳送給實際用戶。元搜索可以大大彌補傳統(tǒng)搜索引擎覆蓋面不足的劣勢。但是元搜索引擎技術(shù)在文本分析技術(shù)、查詢分派技術(shù)和結(jié)果綜合技術(shù)等方面依然需要深入研究。而且,在對地圖網(wǎng)站搜索方面,元搜索引擎技術(shù)的研究和應(yīng)用還完全屬于空白。網(wǎng)頁文本分析也是近年來隨著網(wǎng)頁內(nèi)容爆炸性增長而興起的一項新技術(shù),用于從海量的網(wǎng)頁文本內(nèi)容中發(fā)現(xiàn)規(guī)律和知識。然而,基于語義近似度的文本分析技術(shù)在互聯(lián)網(wǎng)地圖網(wǎng)站的內(nèi)容分析方面的研究也屬于空白階段。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中的上述缺陷,本發(fā)明的核心是從海量的互聯(lián)網(wǎng)網(wǎng)站中自動搜索判別互聯(lián)網(wǎng)地圖網(wǎng)站,從而解決了常規(guī)方法導(dǎo)致的結(jié)果覆蓋率低、準確度低、工作效率低的問題。本發(fā)明提供了一種地圖網(wǎng)站的自動搜索判別方法,其特征在于,包括通過元搜索引擎入口服務(wù)器,接收用戶提交的地圖網(wǎng)站查詢請求,啟動并管理元搜索任務(wù);通過請求分發(fā)與響應(yīng)融合服務(wù)器,根據(jù)所述查詢請求構(gòu)造URL請求并將所述URL 請求加入請求隊列池中;將請求隊列池中的URL請求分發(fā)至各代理服務(wù)器;各代理服務(wù)器根據(jù)所述分發(fā)的URL請求,獲取特定搜索引擎返回的響應(yīng)信息并回傳;通過請求分發(fā)與響應(yīng)融合服務(wù)器,管理所述請求隊列池,并且根據(jù)所述響應(yīng)信息建立并管理響應(yīng)隊列池;對特定搜索引擎的響應(yīng)信息進行解析,從而過濾搜索結(jié)果中的非地圖網(wǎng)站。優(yōu)選地,所述地圖網(wǎng)站的自動搜索判別方法進一步包括通過元搜索引擎入口服務(wù)器從所述查詢請求中解析地名關(guān)鍵詞,并在地理對象庫中根據(jù)所述地名關(guān)鍵詞進行匹配搜索獲取查詢條件;并且在所述根據(jù)所述查詢請求構(gòu)造URL請求的步驟中根據(jù)所述查詢條件生成相應(yīng)的URL請求。進一步優(yōu)選地,所述查詢條件包括所述地名關(guān)鍵詞的下屬地名關(guān)鍵詞及多語言全稱和簡稱。優(yōu)選地,所述各代理服務(wù)器根據(jù)所述分發(fā)的URL請求獲取特定搜索引擎返回的響應(yīng)信息的步驟具體包括構(gòu)造特定搜索引擎的查詢URL地址;接收所述URL請求,并根據(jù)所述特定搜索引擎的查詢URL地址向特定搜索引擎發(fā)出實際URL請求,獲取特定搜索引擎返回的指定URL和指定URL的頁面內(nèi)容作為響應(yīng)信息。進一步優(yōu)選地,其中,構(gòu)造特定搜索引擎的查詢URL地址的步驟包括接收對應(yīng)特定搜索引擎的過濾條件、每頁記錄條數(shù)和當前頁碼,并生成對應(yīng)特定搜索引擎的查詢URL 地址。優(yōu)選地,所述對特定搜索引擎的響應(yīng)信息進行解析的步驟具體包括根據(jù)所述響應(yīng)信息的頁面內(nèi)容特征和URL特征計算置信度,根據(jù)置信度過濾非地圖網(wǎng)站。更進一步優(yōu)選地,所述解析步驟進一步包括建立正向特征詞庫和噪聲特征詞庫; 為特定搜索引擎建立頁面解析器,統(tǒng)計特定搜索引擎返回頁面內(nèi)容的正向特征和噪聲特征詞頻用于計算所述置信度。另一方面,本發(fā)明提供了一種地圖網(wǎng)站的自動搜索判別系統(tǒng),其特征在于,包括元搜索引擎模塊,通過元搜索引擎入口服務(wù)器接收用戶提交的地圖網(wǎng)站查詢請求,啟動并管理元搜索任務(wù);查詢?nèi)蝿?wù)管理器,通過請求分發(fā)與響應(yīng)融合服務(wù)器,根據(jù)所述查詢請求構(gòu)造URL 請求并將所述URL請求加入請求隊列池中;URL請求分發(fā)管理器,將請求隊列池中的URL請求分發(fā)至各代理服務(wù)器;
搜索引擎請求代理模塊,使各代理服務(wù)器根據(jù)所述分發(fā)的URL請求,獲取特定搜索引擎返回的響應(yīng)信息并回傳;URL池管理器,通過請求分發(fā)與響應(yīng)融合服務(wù)器,管理所述請求隊列池,并且根據(jù)所述響應(yīng)信息建立并管理響應(yīng)隊列池;搜索引擎頁面解析器,對特定搜索引擎的響應(yīng)信息進行解析,從而過濾搜索結(jié)果中的非地圖網(wǎng)站。優(yōu)選地,所述地圖網(wǎng)站的自動搜索判別系統(tǒng)進一步包括所述元搜索引擎模塊通過元搜索引擎入口服務(wù)器從所述查詢請求中解析地名關(guān)鍵詞,并在地理對象庫中根據(jù)所述地名關(guān)鍵詞進行匹配搜索獲取查詢條件;并且所述查詢?nèi)蝿?wù)管理器根據(jù)所述查詢條件生成相應(yīng)的URL請求。進一步優(yōu)選地,所述查詢條件包括所述地名關(guān)鍵詞的下屬地名關(guān)鍵詞及多語言全稱和簡稱。優(yōu)選地,所述搜索引擎請求代理模塊具體包括搜索引擎URL構(gòu)造器,構(gòu)造特定搜索引擎的查詢URL地址;Web請求代理模塊,接收所述URL請求,并根據(jù)所述特定搜索引擎的查詢URL地址向特定搜索引擎發(fā)出實際URL請求,獲取特定搜索引擎返回的指定URL和指定URL的頁面內(nèi)容作為響應(yīng)信息。進一步優(yōu)選地,其中,所述搜索引擎URL構(gòu)造器接收對應(yīng)特定搜索引擎的過濾條件、每頁記錄條數(shù)和當前頁碼,并生成對應(yīng)特定搜索引擎的查詢URL地址。優(yōu)選地,所述搜索引擎頁面解析器根據(jù)所述響應(yīng)信息的頁面內(nèi)容特征和URL特征計算置信度,根據(jù)置信度過濾非地圖網(wǎng)站。進一步優(yōu)選地,所述搜索引擎頁面解析器進一步包括正向特征詞庫和噪聲特征詞庫;特定搜索引擎頁面解析器,用于統(tǒng)計特定搜索引擎返回頁面內(nèi)容的正向特征和噪聲特征詞頻用于計算所述置信度。另一方面,本發(fā)明提供了一種用于地圖網(wǎng)站自動搜索判別的分布式服務(wù)器系統(tǒng), 其特征在于,包括元搜索引擎入口服務(wù)器,接收用戶提交的地圖網(wǎng)站查詢請求,啟動并管理元搜索任務(wù);請求分發(fā)與響應(yīng)融合服務(wù)器,用于根據(jù)所述查詢請求構(gòu)造URL請求并將所述URL 請求加入請求隊列池中,將請求隊列池中的URL請求分發(fā)至各代理服務(wù)器;管理所述請求隊列池,并且根據(jù)各代理服務(wù)器回傳的響應(yīng)信息建立并管理響應(yīng)隊列池;對所述響應(yīng)信息進行解析,從而過濾搜索結(jié)果中的非地圖網(wǎng)站;代理服務(wù)器,用于根據(jù)所述分發(fā)的URL請求,獲取特定搜索引擎返回的響應(yīng)信息并回傳。優(yōu)選地,其中,所述元搜索引擎入口服務(wù)器從所述查詢請求中解析地名關(guān)鍵詞,并在地理對象庫中根據(jù)所述地名關(guān)鍵詞進行匹配搜索獲取查詢條件;請求分發(fā)與響應(yīng)融合服務(wù)器,根據(jù)所述查詢條件生成相應(yīng)的URL請求。進一步優(yōu)選地,所述查詢條件包括所述地名關(guān)鍵詞的下屬地名關(guān)鍵詞及多語言全稱和簡稱。
優(yōu)選地,其中,所述代理服務(wù)器用于構(gòu)造特定搜索引擎的查詢URL地址,并根據(jù)所述特定搜索引擎的查詢URL地址向特定搜索引擎發(fā)出實際URL請求,獲取特定搜索引擎返回的指定URL和指定URL的頁面內(nèi)容作為響應(yīng)信息。優(yōu)選地,所述代理服務(wù)器構(gòu)造特定搜索引擎的查詢URL地址包括接收對應(yīng)特定搜索引擎的過濾條件、每頁記錄條數(shù)和當前頁碼,并生成對應(yīng)特定搜索引擎的查詢URL地址。優(yōu)選地,所述請求分發(fā)與響應(yīng)融合服務(wù)器為位于不同地理位置的代理服務(wù)器分別建立并維護請求隊列池和響應(yīng)隊列池。優(yōu)選地,其中,所述請求分發(fā)與響應(yīng)融合服務(wù)器根據(jù)所述響應(yīng)信息的頁面內(nèi)容特征和URL特征計算置信度,根據(jù)置信度過濾非地圖網(wǎng)站。更進一步優(yōu)選地,所述請求分發(fā)與響應(yīng)融合服務(wù)器建立正向特征詞庫和噪聲特征詞庫;為特定搜索引擎建立頁面解析器,統(tǒng)計特定搜索引擎返回頁面內(nèi)容的正向特征和噪聲特征詞頻用于計算所述置信度。本發(fā)明采用可動態(tài)擴展的元搜索引擎技術(shù),可以整合多個特定搜索引擎(如谷歌、百度、必應(yīng)、有道)的搜索結(jié)果,有效解決單個搜索引擎覆蓋范圍不全的問題。通過地理對象庫的匹配搜索,實現(xiàn)了對地名關(guān)鍵詞的深度、多語言搜索。采用多代理機制,構(gòu)建支持多節(jié)點協(xié)同工作的元搜索指令動態(tài)構(gòu)建、動態(tài)編組與多節(jié)點分發(fā)機制,實現(xiàn)面向互聯(lián)網(wǎng)的元搜索指令快速分發(fā)與搜索結(jié)果快速合并機制,以大幅提高對指定地區(qū)地圖網(wǎng)站的搜索速度。本發(fā)明根據(jù)元搜索引擎返回的URL對應(yīng)的網(wǎng)頁信息的特征,提取出“非地圖/地理信息網(wǎng)站”的URL(即噪聲URL)的URL特征和HTML內(nèi)容特征,為每類網(wǎng)站構(gòu)建基于關(guān)鍵詞的 “特征詞庫”;在此基礎(chǔ)上,采用關(guān)鍵詞詞頻統(tǒng)計技術(shù)和URL分析技術(shù),對網(wǎng)站進行噪聲類別歸檔與自動過濾,大幅提高地圖網(wǎng)站的識別正確率和識別效率。通過本發(fā)明,可以顯著提高對互聯(lián)網(wǎng)地圖網(wǎng)站的搜索覆蓋率,可以顯著提高發(fā)現(xiàn)地圖網(wǎng)站的速度和效率,可以將傳統(tǒng)的人工搜索地圖網(wǎng)站升級為自動搜索判別地圖網(wǎng)站, 大大降低了人工工作的勞動強度。
圖1是本發(fā)明實施例的地圖網(wǎng)站的自動搜索判別系統(tǒng)結(jié)構(gòu)示意圖;圖2是本發(fā)明實施例的分布式服務(wù)器系統(tǒng)結(jié)構(gòu)示意圖。
具體實施例方式為詳細說明本發(fā)明的技術(shù)內(nèi)容、構(gòu)造特征、所實現(xiàn)目的及效果,以下結(jié)合具體實施方式
并配合附圖詳予說明。圖1是本發(fā)明實施例的地圖網(wǎng)站的自動搜索判別系統(tǒng)結(jié)構(gòu)示意圖。本發(fā)明的系統(tǒng)是一種專門針對地圖網(wǎng)站的搜索和識別而設(shè)計的、支持百度、谷歌、必應(yīng)、有道等主流搜索引擎的元搜索引擎系統(tǒng),并且實行多服務(wù)器分布式部署,實現(xiàn)多節(jié)點協(xié)同工作。本系統(tǒng)另一個重要方面是對主流搜索引擎返回的搜索結(jié)果基于URL分析和網(wǎng)頁內(nèi)容分析而實現(xiàn)噪聲過濾,從而提高了地圖網(wǎng)站的識別正確率。如圖1所示,所述地圖網(wǎng)站的自動搜索判別系統(tǒng)具有
元搜索引擎模塊lOKMetaSearchEngine),位于元搜索引擎系統(tǒng)的最高層,是本發(fā)明元搜索框架的運行入口,其布署在元搜索引擎入口服務(wù)器上。元搜索引擎模塊101負責接收用戶提交的地圖網(wǎng)站查詢請求,啟動并管理搜索任務(wù)。該模塊可以調(diào)用的主要功能函數(shù)包括啟動任務(wù)(StartTask),以從用戶接收到的查詢請求作為參數(shù),開始一個新的元搜索任務(wù)。其它功能函數(shù)還包括結(jié)束任務(wù)(finishTask)、中斷并取消任務(wù)(cancelTask)、獲取活動任務(wù)列表(getActiveTasks)、獲取指定任務(wù)的活動狀態(tài)(getTasl^tatus)、設(shè)置任務(wù)池最大容量(setThreadNumber)等。因而,元搜索引擎模塊101是用戶提出元搜索請求并管理元搜索任務(wù)的接口。另一方面,所述元搜索引擎模塊101還通過元搜索引擎入口服務(wù)器, 采用搜索引擎的分詞技術(shù)從所述查詢請求中解析地名關(guān)鍵詞,并在地理對象庫中根據(jù)所述地名關(guān)鍵詞進行匹配搜索獲取查詢條件;并且查詢?nèi)蝿?wù)管理器102根據(jù)所述查詢條件生成相應(yīng)的URL請求。這里所述查詢條件包括所述地名關(guān)鍵詞的下屬地名關(guān)鍵詞,以及地名關(guān)鍵詞的多語言全稱和簡稱。例如,元搜索引擎模塊101在用戶輸入的查詢請求中解析出一個地名關(guān)鍵詞“四川”,可見該地名關(guān)鍵詞是表示行政區(qū)的名詞,則通過地理對象庫進行匹配搜索,獲得“四川”的下屬地名關(guān)鍵詞,即“四川”的下屬行政區(qū),例如“成都”、“德陽”等; 以及“四川”的多語言全稱和簡稱,例如中文、法文、德文、英文、俄文等語言中“四川,,的全稱和簡稱。所述下屬地名關(guān)鍵詞和全稱、簡稱均作為查詢條件。并且查詢?nèi)蝿?wù)管理器102 根據(jù)所述查詢條件,為每一個查詢條件生成相應(yīng)的URL請求,并且將其加入請求隊列池。關(guān)于此處提到的“地理對象庫”,在下文中將予以詳細說明。查詢?nèi)蝿?wù)管理器102 (RequestTaskManager),其布署在請求分發(fā)與響應(yīng)融合服務(wù)器上,其根據(jù)從元搜索引擎模塊101獲得的所述查詢請求,接收并驗證客戶提交的查詢請求參數(shù),所述參數(shù)包括在地理對象庫中獲得的查詢條件;構(gòu)造URL請求并將所述URL請求加入請求隊列池中。查詢?nèi)蝿?wù)管理器102也是管理一個元搜索任務(wù)的最小單元,其調(diào)用搜索引擎請求代理模塊向指定的搜索引擎發(fā)送請求并對響應(yīng)進行跟蹤;在收到消息響應(yīng)后,調(diào)用搜索引擎頁面解析器106進行頁面內(nèi)容解析,并可以將解析出來的數(shù)據(jù)反饋給元搜索引擎模塊 101 (MetaSearchEngine)。URL請求分發(fā)管理器103 (URLDispatcher),同樣布署在請求分發(fā)與響應(yīng)融合服務(wù)器上,用于將請求隊列池中的URL請求分發(fā)至各代理服務(wù)器。該模塊可以調(diào)用的主要功能函數(shù)包括添加代理(addAgent)和刪除代理(removeAgent),增加或刪除可用于分配URL 請求的代理服務(wù)器主機地址;獲取代理狀態(tài)(getAgentMatus),獲取代理服務(wù)器的狀態(tài)信息;分發(fā)任務(wù)到代理(sentTaskTo),將URL請求分發(fā)到某個代理服務(wù)器;刪除代理任務(wù) (removeTaskFrom),刪除某個代理服務(wù)器的任務(wù)。搜索引擎請求代理模塊,其布署在各個分布式代理服務(wù)器上,使各代理服務(wù)器根據(jù)所述分發(fā)的URL請求接入互聯(lián)網(wǎng)上的若干個特定搜索引擎,這些特定搜索引擎包括互聯(lián)網(wǎng)上提供網(wǎng)頁搜索的主流搜索引擎,包括但不限于百度(Baidu)、谷歌(Google)、必應(yīng) (Bing)、有道(Youdao)等。搜索引擎請求代理模塊獲取特定搜索引擎返回的響應(yīng)信息并回傳給請求分發(fā)與響應(yīng)融合服務(wù)器。如圖1所示,搜索引擎請求代理模塊進一步包括搜索引擎URL構(gòu)造器 1041 (SEURLBuilder)和 Web 請求代理模塊 1042 (WebRequestAgent)。搜索引擎 URL 構(gòu)造器1041 (SEURLBuilder)構(gòu)造所述各個特定搜索引擎的查詢URL地址。該構(gòu)造器作為
9所有針對特定搜索引擎的查詢URL地址構(gòu)造器的基類。通過搜索引擎URL構(gòu)造器1041 可以實現(xiàn)針對特定搜索引擎的URL構(gòu)造器,包括但不限于圖1中所示的谷歌URL構(gòu)造器 1041a (GoogleCNURLBuilder)、必應(yīng) URL 構(gòu)造器 1041b (BingCNURLBuilder)、百度 URL 構(gòu)造器 1041c (BaiduURLBuilder)、有道 URL 構(gòu)造器 104Id (YoudaoURLBuilder)。開發(fā)者還可以根據(jù)自身需要擴展其它搜索引擎所對應(yīng)的URL構(gòu)造器。對于特定搜索引擎(如百度、谷歌等),搜索引擎URL構(gòu)造器1041調(diào)用獲取URL函數(shù)(getURL),該函數(shù)接收三個參數(shù),即對應(yīng)特定搜索引擎的過濾條件、每頁記錄條數(shù)和當前頁碼,并生成對應(yīng)特定搜索引擎的查詢URL 地址,并將查詢URL地址加入由URL池管理器105管理的URL隊列池。Web請求代理模塊1042 (WebRequestAgent)用于接收所述分發(fā)至各代理服務(wù)器的 URL請求,并根據(jù)特定搜索引擎的查詢URL地址,向特定搜索引擎發(fā)出實際URL請求。各搜索引擎根據(jù)實際URL請求進行網(wǎng)頁頁面的搜索,并向Web請求代理模塊1042返回搜索結(jié)果。Web請求代理模塊1042獲取特定搜索引擎返回的指定URL和指定URL的頁面內(nèi)容作為響應(yīng)信息。Web請求代理模塊1042是用于進行網(wǎng)絡(luò)通訊的核心模塊,支持以HTTP方式與指定的互聯(lián)網(wǎng)服務(wù)器進行異步通信,獲取指定URL的頁面內(nèi)容。所述Web請求代理模塊1042 可以管理多個連接以實現(xiàn)多線程通信。URL池管理器105 (URLRequestPoolManager)布署在請求分發(fā)與響應(yīng)融合服務(wù)器上,其主要是用于維護請求隊列和響應(yīng)隊列的URL隊列池。URL池管理器105通過請求分發(fā)與響應(yīng)融合服務(wù)器管理所述請求隊列池,并且根據(jù)來自代理服務(wù)器的所述響應(yīng)信息建立并管理響應(yīng)隊列池。URL池管理器105的主要方法包括添加URL、移除URL、獲取所有URL列表、獲取指定狀態(tài)的URL列表、按運行進度對URL進行排序、獲取和設(shè)置URL最大限制數(shù)據(jù)寸。搜索引擎頁面解析器106 (SEPageParser),對特定搜索引擎的響應(yīng)信息進行解析, 從而過濾搜索結(jié)果中的非地圖網(wǎng)站。具體地,所述搜索引擎頁面解析器106根據(jù)所述響應(yīng)信息的頁面內(nèi)容特征和URL特征計算置信度,根據(jù)置信度過濾非地圖網(wǎng)站。為了分析所述頁面內(nèi)容特征,搜索引擎頁面解析器106進一步包括正向特征詞庫和噪聲特征詞庫?;谒阉饕骓撁娼馕銎?06可以實現(xiàn)針對特定搜索引擎的特定搜索引擎頁面解析器,包括但不限于圖1中所示的谷歌頁面解析器106a(GOOgleCNPageParSer)、 必應(yīng)頁面解析器106b (BingCNPageParser)、百度頁面解析器106c (BaiduPageParser)、有道頁面解析器lOecKYoudaoPageParser)。特定搜索引擎頁面解析器106a-d用于統(tǒng)計特定搜索引擎返回頁面內(nèi)容的正向特征和噪聲特征詞頻用于計算所述置信度。置信度的具體計算方法在下文中將更詳細地加以介紹。圖2是本發(fā)明實施例的分布式服務(wù)器系統(tǒng)結(jié)構(gòu)示意圖。本發(fā)明將圖1所示系統(tǒng)中的多個模塊組件進行多服務(wù)器分布式部署,構(gòu)建支持多節(jié)點協(xié)同工作的元搜索指令動態(tài)構(gòu)建、動態(tài)編組與多節(jié)點分發(fā)機制,實現(xiàn)面向互聯(lián)網(wǎng)的元搜索指令快速分發(fā)與搜索結(jié)果快速合并,從而大幅度提高了對指定地區(qū)地圖網(wǎng)站的搜索速度。如圖2所示,所述分布式服務(wù)器系統(tǒng)包括元搜索引擎入口服務(wù)器201,用于接收用戶提交的地圖網(wǎng)站查詢請求,啟動并管理元搜索任務(wù);該服務(wù)器作為本發(fā)明的用戶入口,其上面布署圖1中的元搜索引擎模塊 101 (MetaSearchEngine),為地圖網(wǎng)站的查詢檢索提供統(tǒng)一入口。并且,所述元搜索引擎入口服務(wù)器201從用戶提交的所述查詢請求中解析地名關(guān)鍵詞,并在地理對象庫中根據(jù)所述地名關(guān)鍵詞進行匹配搜索獲取查詢條件;所述查詢條件包括所述地名關(guān)鍵詞的下屬地名關(guān)鍵詞及多語言簡稱。請求分發(fā)與響應(yīng)融合服務(wù)器202,根據(jù)所述查詢條件生成相應(yīng)的URL請求,并且將其加入請求隊列池。請求分發(fā)與響應(yīng)融合服務(wù)器202,其上布署圖1所示的查詢?nèi)蝿?wù)管理器 102 (RequestTaskManager)、URL 請求分發(fā)管理器 103 (URLDispatcher)、URL 池管理器 105 (URLRequestPoolManager)、搜索引擎頁面解析器106 (SEPageParser)等組件,用于根據(jù)所述查詢請求構(gòu)造URL請求并將所述URL請求加入請求隊列池中,將發(fā)往各搜索引擎的 URL請求按照行政區(qū)進行編組,形成對應(yīng)于各行政區(qū)的“請求隊列池”和“響應(yīng)隊列池”,例如圖2中所示的“北京地區(qū)元搜索請求隊列池和響應(yīng)隊列池20 “、“上海地區(qū)元搜索請求隊列池和響應(yīng)隊列池202b “、“新疆地區(qū)元搜索請求隊列池和響應(yīng)隊列池202c “等;采用多線程機制,將各個“請求隊列池”中的URL請求分發(fā)至各地區(qū)的代理服務(wù)器,并管理所述請求隊列池;并且根據(jù)各代理服務(wù)器回傳的響應(yīng)信息,依次建立起對應(yīng)于各地區(qū)“請求隊列池”的“響應(yīng)隊列池”;對所述響應(yīng)信息調(diào)用搜索引擎頁面解析器106 (SEPageParser)進行即時解析,從而過濾搜索結(jié)果中的非地圖網(wǎng)站;將最終解析結(jié)果返回元搜索引擎入口服務(wù)器 201。代理服務(wù)器203接入互聯(lián)網(wǎng)204,包括北京地區(qū)通訊節(jié)點組203a、上海地區(qū)通訊節(jié)點組20北、新疆地區(qū)通訊節(jié)點組203c以及**地區(qū)通訊節(jié)點組203d等??梢?,代理服務(wù)器203分別部署在各個行政區(qū)域內(nèi),可以根據(jù)需要進行任意數(shù)量的主機增減。每臺代理服務(wù)器203的主機上布署圖1中的搜索引擎請求代理模塊,即搜索引擎URL構(gòu)造器 1041 (SEURLBuilder)和 Web 請求代理模塊 1042 (WebRequestAgent),并且每個 Web 請求代理模塊1042組件均包含行政區(qū)屬性和本地區(qū)唯一編碼的ID,用于根據(jù)所述分發(fā)的URL請求,調(diào)用搜索引擎URL構(gòu)造器1041構(gòu)造實際URL請求并發(fā)往對應(yīng)搜索引擎,獲取特定搜索引擎返回的響應(yīng)信息并回傳給請求分發(fā)與響應(yīng)融合服務(wù)器202。代理服務(wù)器203構(gòu)造特定搜索引擎(例如百度、谷歌等)的查詢URL地址的操作包括接收對應(yīng)特定搜索引擎的過濾條件、每頁記錄條數(shù)和當前頁碼,并生成對應(yīng)特定搜索引擎的查詢URL地址?;谝陨舷到y(tǒng)和服務(wù)器布署,本發(fā)明提供了一種地圖網(wǎng)站的自動搜索判別方法, 包括步驟1 通過元搜索引擎入口服務(wù)器,接收用戶提交的地圖網(wǎng)站查詢請求,啟動并管理元搜索任務(wù); 步驟2 通過請求分發(fā)與響應(yīng)融合服務(wù)器,根據(jù)所述查詢請求構(gòu)造URL請求并將所述URL請求加入請求隊列池中;步驟3 將請求隊列池中的URL請求分發(fā)至各代理服務(wù)器;步驟4 各代理服務(wù)器根據(jù)所述分發(fā)的URL請求,獲取特定搜索引擎返回的響應(yīng)信息并回傳;步驟5 通過請求分發(fā)與響應(yīng)融合服務(wù)器,管理所述請求隊列池,并且根據(jù)所述響應(yīng)信息建立并管理響應(yīng)隊列池;步驟6 對特定搜索引擎的響應(yīng)信息進行解析,從而過濾搜索結(jié)果中的非地圖網(wǎng)站。
其中,所述地圖網(wǎng)站的自動搜索判別方法還進一步包括在步驟1中,通過元搜索引擎入口服務(wù)器從所述查詢請求中解析地名關(guān)鍵詞,并在地理對象庫中根據(jù)所述地名關(guān)鍵詞進行匹配搜索獲取查詢條件;并且在所述步驟2根據(jù)所述查詢請求構(gòu)造URL請求的步驟中根據(jù)所述查詢條件生成相應(yīng)的URL請求。進一步優(yōu)選地,所述查詢條件包括所述地名關(guān)鍵詞的下屬地名關(guān)鍵詞及多語言簡稱。其中,步驟4具體包括以下兩個步驟構(gòu)造特定搜索引擎的查詢URL地址;其中,構(gòu)造特定搜索引擎的查詢URL地址的步驟包括接收對應(yīng)特定搜索引擎的過濾條件、每頁記錄條數(shù)和當前頁碼,并生成對應(yīng)特定搜索引擎的查詢URL地址。接收所述URL請求,并根據(jù)所述特定搜索引擎的查詢URL地址向特定搜索引擎發(fā)出實際URL請求,獲取特定搜索引擎返回的指定URL和指定URL的頁面內(nèi)容作為響應(yīng)信息。其中,所述對特定搜索引擎的響應(yīng)信息進行解析的步驟6具體包括根據(jù)所述響應(yīng)信息的頁面內(nèi)容特征和URL特征計算置信度,根據(jù)置信度過濾非地圖網(wǎng)站。更進一步,所述解析步驟進一步包括建立正向特征詞庫和噪聲特征詞庫;為特定搜索引擎建立頁面解析器,統(tǒng)計特定搜索引擎返回頁面內(nèi)容的正向特征和噪聲特征詞頻用于計算所述置信度。下面介紹上文中所涉及的“地理對象庫”的相關(guān)內(nèi)容。所述地理對象庫主要由作為基礎(chǔ)表的全球行政區(qū)劃對象表(!^Administration表)和作為輔助表的全球動態(tài)地理對象表(T_GeoEntity表)構(gòu)成。
權(quán)利要求
1.一種地圖網(wǎng)站的自動搜索判別方法,其特征在于,包括通過元搜索引擎入口服務(wù)器,接收用戶提交的地圖網(wǎng)站查詢請求,啟動并管理元搜索任務(wù);通過請求分發(fā)與響應(yīng)融合服務(wù)器,根據(jù)所述查詢請求構(gòu)造URL請求并將所述URL請求加入請求隊列池中;將請求隊列池中的URL請求分發(fā)至各代理服務(wù)器;使各代理服務(wù)器根據(jù)所述分發(fā)的URL請求,獲取特定搜索引擎返回的響應(yīng)信息并回傳;通過請求分發(fā)與響應(yīng)融合服務(wù)器,管理所述請求隊列池,并且根據(jù)所述響應(yīng)信息建立并管理響應(yīng)隊列池;對特定搜索引擎的響應(yīng)信息進行解析,從而過濾搜索結(jié)果中的非地圖網(wǎng)站。
2.根據(jù)權(quán)利要求1所述地圖網(wǎng)站的自動搜索判別方法,其特征在于,所述地圖網(wǎng)站的自動搜索判別方法進一步包括通過元搜索引擎入口服務(wù)器從所述查詢請求中解析地名關(guān)鍵詞,并在地理對象庫中根據(jù)所述地名關(guān)鍵詞進行匹配搜索獲取查詢條件;并且在所述根據(jù)所述查詢請求構(gòu)造URL請求的步驟中根據(jù)所述查詢條件生成相應(yīng)的URL請求。
3.根據(jù)權(quán)利要求2所述地圖網(wǎng)站的自動搜索判別方法,其特征在于,所述查詢條件包括所述地名關(guān)鍵詞的下屬地名關(guān)鍵詞及多語言全稱和簡稱。
4.根據(jù)權(quán)利要求1所述地圖網(wǎng)站的自動搜索判別方法,其特征在于,所述各代理服務(wù)器根據(jù)所述分發(fā)的URL請求獲取特定搜索引擎返回的響應(yīng)信息的步驟具體包括構(gòu)造特定搜索引擎的查詢URL地址;接收所述URL請求,并根據(jù)所述特定搜索引擎的查詢URL地址向特定搜索引擎發(fā)出實際URL請求,獲取特定搜索引擎返回的指定URL和指定URL的頁面內(nèi)容作為響應(yīng)信息。
5.根據(jù)權(quán)利要求4所述地圖網(wǎng)站的自動搜索判別方法,其特征在于,構(gòu)造特定搜索引擎的查詢URL地址的步驟包括接收對應(yīng)特定搜索引擎的過濾條件、每頁記錄條數(shù)和當前頁碼,并生成對應(yīng)特定搜索引擎的查詢URL地址。
6.根據(jù)權(quán)利要求1所述地圖網(wǎng)站的自動搜索判別方法,其特征在于,所述對特定搜索引擎的響應(yīng)信息進行解析的步驟具體包括根據(jù)所述響應(yīng)信息的頁面內(nèi)容特征和URL特征計算置信度,根據(jù)置信度過濾非地圖網(wǎng)站。
7.根據(jù)權(quán)利要求6所述地圖網(wǎng)站的自動搜索判別方法,其特征在于,所述解析步驟進一步包括建立正向特征詞庫和噪聲特征詞庫;為特定搜索引擎建立頁面解析器,統(tǒng)計特定搜索引擎返回頁面內(nèi)容的正向特征和噪聲特征詞頻用于計算所述置信度。
8.—種地圖網(wǎng)站的自動搜索判別系統(tǒng),其特征在于,包括元搜索引擎模塊,通過元搜索引擎入口服務(wù)器接收用戶提交的地圖網(wǎng)站查詢請求,啟動并管理元搜索任務(wù);查詢?nèi)蝿?wù)管理器,通過請求分發(fā)與響應(yīng)融合服務(wù)器,根據(jù)所述查詢請求構(gòu)造URL請求并將所述URL請求加入請求隊列池中;URL請求分發(fā)管理器,將請求隊列池中的URL請求分發(fā)至各代理服務(wù)器;搜索引擎請求代理模塊,使各代理服務(wù)器根據(jù)所述分發(fā)的URL請求,獲取特定搜索引擎返回的響應(yīng)信息并回傳;URL池管理器,通過請求分發(fā)與響應(yīng)融合服務(wù)器,管理所述請求隊列池,并且根據(jù)所述響應(yīng)信息建立并管理響應(yīng)隊列池;搜索引擎頁面解析器,對特定搜索引擎的響應(yīng)信息進行解析,從而過濾搜索結(jié)果中的非地圖網(wǎng)站。
9.根據(jù)權(quán)利要求8所述地圖網(wǎng)站的自動搜索判別系統(tǒng),其特征在于,所述元搜索引擎模塊通過元搜索引擎入口服務(wù)器從所述查詢請求中解析地名關(guān)鍵詞,并在地理對象庫中根據(jù)所述地名關(guān)鍵詞進行匹配搜索獲取查詢條件;并且所述查詢?nèi)蝿?wù)管理器根據(jù)所述查詢條件生成相應(yīng)的URL請求。
10.根據(jù)權(quán)利要求9所述地圖網(wǎng)站的自動搜索判別系統(tǒng),其特征在于,所述查詢條件包括所述地名關(guān)鍵詞的下屬地名關(guān)鍵詞及多語言全稱和簡稱。
11.根據(jù)權(quán)利要求8所述地圖網(wǎng)站的自動搜索判別系統(tǒng),其特征在于,所述搜索引擎請求代理模塊具體包括搜索引擎URL構(gòu)造器,構(gòu)造特定搜索引擎的查詢URL地址;Web請求代理模塊,接收所述URL請求,并根據(jù)所述特定搜索引擎的查詢URL地址向特定搜索引擎發(fā)出實際URL請求,獲取特定搜索引擎返回的指定URL和指定URL的頁面內(nèi)容作為響應(yīng)信息。
12.根據(jù)權(quán)利要求11所述地圖網(wǎng)站的自動搜索判別系統(tǒng),其特征在于,所述搜索引擎 URL構(gòu)造器接收對應(yīng)特定搜索引擎的過濾條件、每頁記錄條數(shù)和當前頁碼,并生成對應(yīng)特定搜索引擎的查詢URL地址。
13.根據(jù)權(quán)利要求8所述地圖網(wǎng)站的自動搜索判別系統(tǒng),其特征在于,所述搜索引擎頁面解析器根據(jù)所述響應(yīng)信息的頁面內(nèi)容特征和URL特征計算置信度,根據(jù)置信度過濾非地圖網(wǎng)站。
14.根據(jù)權(quán)利要求13所述地圖網(wǎng)站的自動搜索判別系統(tǒng),其特征在于,所述搜索引擎頁面解析器進一步包括正向特征詞庫和噪聲特征詞庫;以及特定搜索引擎頁面解析器, 用于統(tǒng)計特定搜索引擎返回頁面內(nèi)容的正向特征和噪聲特征詞頻用于計算所述置信度。
15.一種用于地圖網(wǎng)站自動搜索判別的分布式服務(wù)器系統(tǒng),其特征在于,包括元搜索引擎入口服務(wù)器,接收用戶提交的地圖網(wǎng)站查詢請求,啟動并管理元搜索任務(wù);請求分發(fā)與響應(yīng)融合服務(wù)器,用于根據(jù)所述查詢請求構(gòu)造URL請求并將所述URL請求加入請求隊列池中,將請求隊列池中的URL請求分發(fā)至各代理服務(wù)器;管理所述請求隊列池,并且根據(jù)各代理服務(wù)器回傳的響應(yīng)信息建立并管理響應(yīng)隊列池;對所述響應(yīng)信息進行解析,從而過濾搜索結(jié)果中的非地圖網(wǎng)站;代理服務(wù)器,用于根據(jù)所述分發(fā)的URL請求,獲取特定搜索引擎返回的響應(yīng)信息并回傳。
16.根據(jù)權(quán)利要求15所述的分布式服務(wù)器系統(tǒng),其特征在于,所述元搜索引擎入口服務(wù)器從所述查詢請求中解析地名關(guān)鍵詞,并在地理對象庫中根據(jù)所述地名關(guān)鍵詞進行匹配搜索獲取查詢條件;請求分發(fā)與響應(yīng)融合服務(wù)器,根據(jù)所述查詢條件生成相應(yīng)的URL請求。
17.根據(jù)權(quán)利要求16所述的分布式服務(wù)器系統(tǒng),其特征在于,所述查詢條件包括所述地名關(guān)鍵詞的下屬地名關(guān)鍵詞及多語言全稱和簡稱。
18.根據(jù)權(quán)利要求15所述的分布式服務(wù)器系統(tǒng),其特征在于,所述代理服務(wù)器用于構(gòu)造特定搜索引擎的查詢URL地址,并根據(jù)所述特定搜索引擎的查詢URL地址向特定搜索引擎發(fā)出實際URL請求,獲取特定搜索引擎返回的指定URL和指定URL的頁面內(nèi)容作為響應(yīng)fn息ο
19.根據(jù)權(quán)利要求18所述的分布式服務(wù)器系統(tǒng),其特征在于,所述代理服務(wù)器構(gòu)造特定搜索引擎的查詢URL地址包括接收對應(yīng)特定搜索引擎的過濾條件、每頁記錄條數(shù)和當前頁碼,并生成對應(yīng)特定搜索引擎的查詢URL地址。
20.根據(jù)權(quán)利要求15所述的分布式服務(wù)器系統(tǒng),其特征在于,所述請求分發(fā)與響應(yīng)融合服務(wù)器為位于不同地理位置的代理服務(wù)器分別建立并維護請求隊列池和響應(yīng)隊列池。
21.根據(jù)權(quán)利要求15所述的分布式服務(wù)器系統(tǒng),其特征在于,所述請求分發(fā)與響應(yīng)融合服務(wù)器根據(jù)所述響應(yīng)信息的頁面內(nèi)容特征和URL特征計算置信度,根據(jù)置信度過濾非地圖網(wǎng)站。
22.根據(jù)權(quán)利要求21所述的分布式服務(wù)器系統(tǒng),其特征在于,所述請求分發(fā)與響應(yīng)融合服務(wù)器建立正向特征詞庫和噪聲特征詞庫;為特定搜索引擎建立頁面解析器,統(tǒng)計特定搜索引擎返回頁面內(nèi)容的正向特征和噪聲特征詞頻用于計算所述置信度。
全文摘要
本發(fā)明提供了一種地圖網(wǎng)站的自動搜索判別方法、系統(tǒng)及其分布式服務(wù)器系統(tǒng)。所述方法包括通過元搜索引擎入口服務(wù)器,接收用戶提交的地圖網(wǎng)站查詢請求,啟動并管理元搜索任務(wù);通過請求分發(fā)與響應(yīng)融合服務(wù)器,根據(jù)所述查詢請求構(gòu)造URL請求并將所述URL請求加入請求隊列池中;將請求隊列池中的URL請求分發(fā)至各代理服務(wù)器;各代理服務(wù)器根據(jù)所述分發(fā)的URL請求,獲取特定搜索引擎返回的響應(yīng)信息并回傳;通過請求分發(fā)與響應(yīng)融合服務(wù)器,管理所述請求隊列池,并且根據(jù)所述響應(yīng)信息建立并管理響應(yīng)隊列池;對特定搜索引擎的響應(yīng)信息進行解析,從而過濾搜索結(jié)果中的非地圖網(wǎng)站。本發(fā)明自動搜索判別互聯(lián)網(wǎng)地圖網(wǎng)站,解決了常規(guī)方法結(jié)果覆蓋率低、準確度低、工作效率低的問題。
文檔編號G06F17/30GK102156749SQ20111010194
公開日2011年8月17日 申請日期2011年4月22日 優(yōu)先權(quán)日2011年4月22日
發(fā)明者王勇 申請人:中國測繪科學(xué)研究院