欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索的方法和裝置的制作方法

文檔序號:6401371閱讀:228來源:國知局
專利名稱:一種用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索的方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)搜索領(lǐng)域,尤其涉及一種用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索的方法和裝置。
背景技術(shù)
搜索引擎是根據(jù)一定的策略,運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將用戶檢索的相關(guān)信息展示給用戶。在現(xiàn)有技術(shù)中,搜索引擎的工作過程是利用“蜘蛛”系統(tǒng)(或爬蟲技術(shù)),自動訪問互聯(lián)網(wǎng)中的網(wǎng)頁,讀取該網(wǎng)頁中的文字內(nèi)容,并找到該網(wǎng)頁中的包含的其他鏈接地址,并沿著該鏈接地址訪問爬行到其他網(wǎng)頁,“蜘蛛”系統(tǒng)在互聯(lián)網(wǎng)中不斷重復(fù)這種爬行過程,并把所爬行過的所有網(wǎng)頁數(shù)據(jù)收集回來。現(xiàn)有的“蜘蛛”系統(tǒng)首先會從初始網(wǎng)址庫中選取一個網(wǎng)站地址,一般是那些大型門戶網(wǎng)站,從這些初始網(wǎng)址出發(fā),蜘蛛會訪問并下載對應(yīng)的網(wǎng)頁內(nèi)容存儲到數(shù)據(jù)庫中,并將其中的文字提取出來進(jìn)行分詞后存入索引庫中,同時,蜘蛛系統(tǒng)再提取出該網(wǎng)頁內(nèi)容中存在的其他網(wǎng)址鏈接,然后重復(fù)上述過程。由于一個網(wǎng)站中的各個網(wǎng)頁之間存在著上下層級的鏈接關(guān)系,而且也可能存在著其他網(wǎng)站的地址鏈接,因此,利用蜘蛛系統(tǒng),不僅可以很快將一個網(wǎng)站的全部網(wǎng)頁都訪問一遍,而且還可以利用那些其他網(wǎng)站地址鏈接爬行到新的網(wǎng)站,并獲取新網(wǎng)站的網(wǎng)頁內(nèi)容。但是,從上述描述可知,現(xiàn)有的搜索引擎利用的“蜘蛛”系統(tǒng)所收集的網(wǎng)頁數(shù)據(jù)均為公開性的網(wǎng)頁數(shù)據(jù),對于處于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)并不能進(jìn)行收集。例如,對于一些會員制的論壇網(wǎng)站、微博網(wǎng)站、個人網(wǎng)銀系統(tǒng)等半封閉數(shù)據(jù)環(huán)境,特別是需要授權(quán)或驗證機制的數(shù)據(jù)環(huán)境,是無法接受類似于“蜘蛛”系統(tǒng)這樣的外部訪問的,實際上,這些網(wǎng)站的地址鏈接也很少有機會出現(xiàn)在公開性的網(wǎng)頁上,即使有,在被蜘蛛系統(tǒng)獲取并訪問后,由于沒有訪問權(quán)限,其返回的結(jié)果也是無法打開網(wǎng)頁,無法進(jìn)行后續(xù)的爬行來獲取數(shù)據(jù)。然而,在這些半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)并不是完全的隱私數(shù)據(jù),但現(xiàn)有的搜索引擎由于技術(shù)上的原因并不能自動的為普通公眾用戶獲取到這些數(shù)據(jù)。即便是有訪問權(quán)限的用戶,也無法自動的準(zhǔn)確的獲得感興趣的數(shù)據(jù)。實際上,現(xiàn)有的搜索引擎如果要獲取這些半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù),必須通過單獨與這些數(shù)據(jù)環(huán)境建立特定的數(shù)據(jù)開放接口才可以進(jìn)行訪問獲取。這是非常不經(jīng)濟的,而且如果對方不同意建立開放接口,那么現(xiàn)有的搜索引擎就無法有效的獲取到這些數(shù)據(jù)。

發(fā)明內(nèi)容
針對上述問題,本發(fā)明的主要目的在于提供一種用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索的方法和裝置,以解決現(xiàn)有技術(shù)存在的搜索引擎不能搜索半封閉數(shù)據(jù)環(huán)境中的有用數(shù)據(jù)的問題。為了解決上述技術(shù)問題,本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
本發(fā)明提供了一種用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索方法,包括以下步驟:構(gòu)建一個客戶端瀏覽器,通過該瀏覽器,使用預(yù)設(shè)登錄信息登錄訪問所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址;所述客戶端瀏覽器在登錄成功后對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問,并獲取從所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器返回的對應(yīng)網(wǎng)頁的數(shù)據(jù)文件;根據(jù)預(yù)設(shè)的與所述網(wǎng)頁相對應(yīng)的數(shù)據(jù)位置信息,從所述數(shù)據(jù)文件中將相應(yīng)位置的數(shù)據(jù)提取出來。其中,所述根據(jù)預(yù)設(shè)的與所述網(wǎng)頁相對應(yīng)的數(shù)據(jù)位置信息,從所述數(shù)據(jù)文件中將相應(yīng)位置的數(shù)據(jù)提取出來的步驟,包括:對通過所述客戶端瀏覽器訪問獲得的網(wǎng)頁數(shù)據(jù)文件進(jìn)行分析,根據(jù)預(yù)設(shè)的與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息,在所述數(shù)據(jù)文件中定位相匹配的標(biāo)簽的位置;根據(jù)所述標(biāo)簽位置,從所述數(shù)據(jù)文件中將與該標(biāo)簽位置相對應(yīng)的數(shù)據(jù)提取出來。其中,所述將與該標(biāo)簽位置相對應(yīng)的數(shù)據(jù)提取出來的步驟,包括:運行與該標(biāo)簽位置相對應(yīng)的腳本數(shù)據(jù),并將運行結(jié)果數(shù)據(jù)提取出來。其中,本發(fā)明所述方法進(jìn)一步包括:構(gòu)建一數(shù)據(jù)庫,記錄所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址、可登錄該數(shù)據(jù)環(huán)境的預(yù)設(shè)登錄信息、在該數(shù)據(jù)環(huán)境中需要訪問的網(wǎng)頁地址,以及與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息。其中,所述客戶端瀏覽器在登錄成功后,進(jìn)一步包括:獲取由所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器分配的會話令牌,并攜帶該會話令牌對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問。本發(fā)明還提供了一種用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索裝置,包括:登錄模塊,用于構(gòu)建一個客戶端瀏覽器,通過該瀏覽器,使用預(yù)設(shè)登錄信息登錄訪問所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器;訪問模塊,用于所述客戶端瀏覽器在登錄成功后對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問,并獲取從所述服務(wù)器返回的對應(yīng)網(wǎng)頁的數(shù)據(jù)文件;提取模塊,用于根據(jù)預(yù)設(shè)的與所述網(wǎng)頁相對應(yīng)的數(shù)據(jù)位置信息,從所述數(shù)據(jù)文件中將相應(yīng)位置的數(shù)據(jù)提取出來。其中,所述提取模塊包括:定位單元對通過所述客戶端瀏覽器訪問獲得的網(wǎng)頁數(shù)據(jù)文件進(jìn)行分析,根據(jù)預(yù)設(shè)的與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息,在所述數(shù)據(jù)文件中定位相匹配的標(biāo)簽的位置;提取單元根據(jù)所述標(biāo)簽位置,從所述數(shù)據(jù)文件中將與該標(biāo)簽位置相對應(yīng)的數(shù)據(jù)提取出來。其中,所述提取單元,用于運行與該標(biāo)簽位置相對應(yīng)的腳本數(shù)據(jù),并將運行結(jié)果數(shù)據(jù)提取出來。其中,所述裝置進(jìn)一步包括一數(shù)據(jù)庫,用于記錄所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址、可登錄該數(shù)據(jù)環(huán)境的預(yù)設(shè)登錄信息、在該數(shù)據(jù)環(huán)境中需要訪問的網(wǎng)頁地址,以及與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息。其中,所述訪問模塊,用于獲取由所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器分配的會話令牌,并攜帶該會話令牌對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問。應(yīng)用本發(fā)明的實施例,可以無需建立特殊接口即可實現(xiàn)對半封閉數(shù)據(jù)環(huán)境的自動搜索,將其中所需要的數(shù)據(jù)準(zhǔn)確的提取出來,從而提高了數(shù)據(jù)搜索效率、擴大了數(shù)據(jù)搜索范圍,同時也提高了數(shù)據(jù)搜索結(jié)果的準(zhǔn)確性。


此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:圖1是本發(fā)明實施例的用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索方法的流程圖;圖2是本發(fā)明實施例的用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索裝置的模塊圖。
具體實施例方式本發(fā)明的主要思想在于,構(gòu)建一個客戶端瀏覽器,通過該瀏覽器,使用預(yù)設(shè)登錄信息登錄訪問所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址;所述客戶端瀏覽器在登錄成功后對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問,并獲取從所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器返回的對應(yīng)網(wǎng)頁的數(shù)據(jù)文件;根據(jù)預(yù)設(shè)的與所述網(wǎng)頁相對應(yīng)的數(shù)據(jù)位置信息,從所述數(shù)據(jù)文件中將相應(yīng)位置的數(shù)據(jù)提取出來。為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,以下結(jié)合附圖及具體實施例,對本發(fā)明作進(jìn)一步地詳細(xì)說明。根據(jù)本發(fā)明的實施例,提供了一種用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索方法。參考圖1,圖1是本發(fā)明實施例的用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索方法的流程圖。在步驟S102處,構(gòu)建一個客戶端瀏覽器,通過該瀏覽器,使用預(yù)設(shè)登錄信息登錄訪問所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址。本發(fā)明的實施例實現(xiàn)數(shù)據(jù)搜索的方式與現(xiàn)有的爬蟲技術(shù)完全不同?,F(xiàn)有的爬蟲技術(shù)并不采用瀏覽器訪問方式,而是采用命令請求方式與網(wǎng)站服務(wù)器交互,這對于開放數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索是可以的,但對于半封閉式的數(shù)據(jù)環(huán)境,尤其是安全性要求較高的數(shù)據(jù)環(huán)境的訪問,由于有些屬性參數(shù)在命令請求這種訪問方式中是不可見的,因此,如果仍然采用命令請求方式就無法進(jìn)行訪問。本發(fā)明實施例通過構(gòu)建一個客戶端瀏覽器,采用瀏覽器訪問方式,則可以獲取現(xiàn)有爬蟲技術(shù)所無法獲得的屬性參數(shù),例如會話令牌(Session ID)參數(shù)等。用戶可以通過該客戶端瀏覽器對半封閉數(shù)據(jù)環(huán)境進(jìn)行瀏覽,但如果不具有該半封閉數(shù)據(jù)環(huán)境的服務(wù)器的訪問權(quán)限,就會造成無法登錄的情況,因此,可以預(yù)先收集設(shè)定針對該半封閉數(shù)據(jù)環(huán)境的登錄信息,以獲得訪問權(quán)限。例如,針對微博、論壇等半封閉數(shù)據(jù)環(huán)境,可以通過預(yù)先注冊用戶名和密碼的方式預(yù)先獲得登錄信息;針對社交網(wǎng)站等半封閉數(shù)據(jù)環(huán)境,可以通過預(yù)先注冊姓名和密碼的方式獲得登錄信息;針對網(wǎng)銀等半封閉數(shù)據(jù)環(huán)境,可以通過預(yù)先注冊銀行卡號和密碼的方式獲得登錄息。實際上,在預(yù)先獲得登錄信息后,還可以進(jìn)一步對該相應(yīng)的半封閉數(shù)據(jù)環(huán)境進(jìn)行分析,獲知在該數(shù)據(jù)環(huán)境中需要訪問的網(wǎng)頁地址,以及與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽等信息。由此,可以通過構(gòu)建一數(shù)據(jù)庫,來記錄所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址、可登錄該數(shù)據(jù)環(huán)境的預(yù)設(shè)登錄信息、在該數(shù)據(jù)環(huán)境中需要訪問的網(wǎng)頁地址,以及與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息。當(dāng)然,除了預(yù)先分析獲知外,在登錄半封閉數(shù)據(jù)環(huán)境后,通過對其各個頁面進(jìn)行自動訪問和分析也可以獲知相應(yīng)的網(wǎng)頁地址以及文件標(biāo)簽等信息。但從搜索效率和準(zhǔn)確性角度來說,顯然根據(jù)預(yù)設(shè)信息執(zhí)行訪問的效果更好。在步驟S104處,所述客戶端瀏覽器在登錄成功后對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問,并獲取從所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器返回的對應(yīng)網(wǎng)頁的數(shù)據(jù)文件。所述半封閉數(shù)據(jù)環(huán)境存在與其對應(yīng)的網(wǎng)絡(luò)訪問地址,基于該網(wǎng)絡(luò)訪問地址,客戶端瀏覽器利用預(yù)設(shè)的登錄信息登錄半封閉數(shù)據(jù)環(huán)境的服務(wù)器后,就可以對其各個頁面進(jìn)行訪問。為了提高訪問效率和準(zhǔn)確性,本發(fā)明實施例利用預(yù)先設(shè)置的網(wǎng)頁地址來執(zhí)行訪問。例如在登錄某個社交網(wǎng)站后,可以直接控制瀏覽器訪問存在感興趣數(shù)據(jù)的頁面;再例如登錄某個網(wǎng)銀后,可以直接控制瀏覽器訪問存在產(chǎn)品介紹的頁面。具體而言,該預(yù)先設(shè)置的網(wǎng)頁地址可以包括單一的網(wǎng)頁地址和/或網(wǎng)頁地址流。進(jìn)一步地,客戶端瀏覽器對預(yù)設(shè)的單一網(wǎng)頁地址進(jìn)行訪問,即訪問一個預(yù)設(shè)的網(wǎng)頁地址;而客戶端瀏覽器對預(yù)設(shè)的網(wǎng)頁地址流進(jìn)行訪問(所述網(wǎng)頁地址流包含有序的多個網(wǎng)頁地址),即基于該網(wǎng)頁地址流中包含的有序的多個網(wǎng)頁地址的順序,依次執(zhí)行該多個網(wǎng)頁地址中的每一個網(wǎng)頁地址,用以獲取從所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器返回的對應(yīng)網(wǎng)頁的數(shù)據(jù)文件,其中,該數(shù)據(jù)文件與位于所述有序的多個網(wǎng)頁地址中的最后一個網(wǎng)頁地址行相對應(yīng)。對于一些對安全性要求較高的數(shù)據(jù)環(huán)境,往往會要求訪問方攜帶會話令牌才可以執(zhí)行訪問,因此,根據(jù)本發(fā)明的實施例,可以在登錄成功后,進(jìn)一步獲取由所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器分配的會話令牌,并攜帶該會話令牌對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問。在步驟S106處,根據(jù)預(yù)設(shè)的與所述網(wǎng)頁相對應(yīng)的數(shù)據(jù)位置信息,從所述數(shù)據(jù)文件中將相應(yīng)位置的數(shù)據(jù)提取出來。對通過所述客戶端瀏覽器訪問獲得的網(wǎng)頁數(shù)據(jù)文件進(jìn)行分析,根據(jù)預(yù)設(shè)的與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息,在所述數(shù)據(jù)文件中定位相匹配的標(biāo)簽的位置。盡管可以通過對獲得的數(shù)據(jù)文件進(jìn)行自動分析獲取與感興趣的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息,但出于效率和準(zhǔn)確性考慮,根據(jù)本發(fā)明實施例,可以事先在數(shù)據(jù)庫中存儲針對特定網(wǎng)頁地址的特定的文件標(biāo)簽信息,該標(biāo)簽代表了特定的數(shù)據(jù)在網(wǎng)頁數(shù)據(jù)文件中的位置。例如,可以在數(shù)據(jù)庫中存儲:1、要訪問的網(wǎng)絡(luò)訪問地址:www.facebook.com ;2、相應(yīng)的預(yù)設(shè)登錄信息:賬號:mike ;密碼:123 ;3、存在感興趣數(shù)據(jù)的需要訪問的網(wǎng)頁地址:
1.facebook.com ;4、在該網(wǎng)頁的數(shù)據(jù)文件中感興趣的數(shù)據(jù)對應(yīng)的標(biāo)簽信息為第2個<a>標(biāo)簽。當(dāng)本發(fā)明實施例運作時,可以首先從數(shù)據(jù)庫獲取要訪問的網(wǎng)絡(luò)訪問地址,然后根據(jù)相應(yīng)的登錄信息執(zhí)行登錄,登錄成功后可控制瀏覽器直接訪問預(yù)設(shè)的網(wǎng)頁地址,從獲得的網(wǎng)頁數(shù)據(jù)文件中根據(jù)預(yù)設(shè)的文件標(biāo)簽信息定位相匹配的標(biāo)簽位置。
根據(jù)所述標(biāo)簽位置,將與該標(biāo)簽位置相對應(yīng)的數(shù)據(jù)提取出來。所述定位相匹配的標(biāo)簽的位置,目的在于將與該標(biāo)簽位置相對應(yīng)的數(shù)據(jù)提取出來展示給用戶,所以,當(dāng)在所述數(shù)據(jù)文件中定位相匹配的標(biāo)簽的位置后,便可以提取與該標(biāo)簽位置相對應(yīng)的數(shù)據(jù)。在提取數(shù)據(jù)時,數(shù)據(jù)文件中的某些數(shù)據(jù)可以直接提取出來并展示給用戶,例如,文子內(nèi)名但是,在數(shù)據(jù)文件中還可能包括腳本數(shù)據(jù)(如,JS代碼),由于腳本數(shù)據(jù)是可執(zhí)行文件,所以不能直接提取數(shù)據(jù),在這種情況下,可以通過其他方式達(dá)到提取數(shù)據(jù)的目的,例如先運行與該標(biāo)簽位置相對應(yīng)的腳本數(shù)據(jù)以獲得該腳本數(shù)據(jù)的運行結(jié)果,并將運行結(jié)果數(shù)據(jù)提取出來。本發(fā)明還提供了一種用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索裝置,圖2所示為本發(fā)明實施例的用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索裝置的模塊圖。根據(jù)本發(fā)明的裝置,可以包括登錄模塊210、訪問模塊230、提取模塊250。登錄模塊210,用于構(gòu)建一個客戶端瀏覽器,通過該瀏覽器,使用預(yù)設(shè)登錄信息登錄訪問所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址。預(yù)先構(gòu)建一個數(shù)據(jù)庫,用于記錄所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址、可登錄該數(shù)據(jù)環(huán)境的預(yù)設(shè)登錄信息、在該數(shù)據(jù)環(huán)境中需要訪問的網(wǎng)頁地址,以及與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息。利用預(yù)設(shè)的登錄信息,登錄模塊210可以獲得該半封閉數(shù)據(jù)環(huán)境的訪問權(quán)限。訪問模塊230,用于所述客戶端瀏覽器在登錄成功后對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問,并獲取從所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器返回的對應(yīng)網(wǎng)頁的數(shù)據(jù)文件。對于要求訪問方攜帶會話令牌才可以進(jìn)行訪問的半封閉數(shù)據(jù)環(huán)境,當(dāng)?shù)卿浤K210成功登錄該半封閉數(shù)據(jù)環(huán)境的服務(wù)器后,該服務(wù)器會發(fā)放會話令牌,訪問模塊230獲取由所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器分配的會話令牌,并攜帶該會話令牌對該半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問。提取模塊250,用于根據(jù)預(yù)設(shè)的與所述網(wǎng)頁相對應(yīng)的數(shù)據(jù)位置信息,從所述數(shù)據(jù)文件中將相應(yīng)位置的數(shù)據(jù)提取出來。在該提取模塊250中還包括定位單元(未示出)和提取單元(未示出)。其中,定位單元用于對通過所述客戶端瀏覽器訪問獲得的網(wǎng)頁數(shù)據(jù)文件進(jìn)行分析,根據(jù)預(yù)設(shè)的與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息,在所述數(shù)據(jù)文件中定位相匹配的標(biāo)簽的位置。提取單元用于根據(jù)所述標(biāo)簽位置,將與該標(biāo)簽位置相對應(yīng)的數(shù)據(jù)提取出來。若在數(shù)據(jù)文件中包含腳本數(shù)據(jù),則所述提取模塊250中的提取單元運行與該標(biāo)簽位置相對應(yīng)的腳本數(shù)據(jù),并將運行結(jié)果數(shù)據(jù)提取出來。本發(fā)明通過預(yù)設(shè)并記錄半封閉數(shù)據(jù)環(huán)境中的有用數(shù)據(jù)的方式,在半封閉數(shù)據(jù)環(huán)境中,定位并提取數(shù)據(jù),最終將該數(shù)據(jù)展現(xiàn)給用戶,從而提高了數(shù)據(jù)搜索效率、擴大了數(shù)據(jù)搜索范圍,同時也提高了數(shù)據(jù)搜索結(jié)果的準(zhǔn)確性。由于圖2所描述的本發(fā)明的裝置所包括的各個模塊的具體實施方式
與本發(fā)明的方法中的步驟的具體實施方式
是相對應(yīng)的,由于已經(jīng)對圖1進(jìn)行了詳細(xì)的描述,所以為了不模糊本申請,在此不再對各個模塊的具體細(xì)節(jié)進(jìn)行描述。以上所述僅為本發(fā)明的實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。
權(quán)利要求
1.一種用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索方法,其特征在于,包括: 構(gòu)建一個客戶端瀏覽器,通過該瀏覽器,使用預(yù)設(shè)登錄信息登錄訪問所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址; 所述客戶端瀏覽器在登錄成功后對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問,并獲取從所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器返回的對應(yīng)網(wǎng)頁的數(shù)據(jù)文件; 根據(jù)預(yù)設(shè)的與所述網(wǎng)頁相對應(yīng)的數(shù)據(jù)位置信息,從所述數(shù)據(jù)文件中將相應(yīng)位置的數(shù)據(jù)提取出來。
2.如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)的與所述網(wǎng)頁相對應(yīng)的數(shù)據(jù)位置信息,從所述數(shù)據(jù)文件中將相應(yīng)位置的數(shù)據(jù)提取出來的步驟,包括: 對通過所述客戶端瀏覽器訪問獲得的網(wǎng)頁數(shù)據(jù)文件進(jìn)行分析,根據(jù)預(yù)設(shè)的與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息,在所述數(shù)據(jù)文件中定位相匹配的標(biāo)簽的位置; 根據(jù)所述標(biāo)簽位置,將與該標(biāo)簽位置相對應(yīng)的數(shù)據(jù)提取出來。
3.如權(quán)利要求2所述的方法,其特征在于,所述將與該標(biāo)簽位置相對應(yīng)的數(shù)據(jù)提取出來的步驟,包括:運行與該標(biāo)簽位置相對應(yīng)的腳本數(shù)據(jù),并將運行結(jié)果數(shù)據(jù)提取出來。
4.如權(quán)利要求2所述的方法,其特征在于,進(jìn)一步包括:構(gòu)建一數(shù)據(jù)庫,記錄所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址、可登錄該數(shù)據(jù)環(huán)境的預(yù)設(shè)登錄信息、在該數(shù)據(jù)環(huán)境中需要訪問的網(wǎng)頁地址,以及與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息。
5.如權(quán)利要求1所述的方法,其特征在于,所述客戶端瀏覽器在登錄成功后,進(jìn)一步包括:獲取由所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器分配的會話令牌,并攜帶該會話令牌對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問。
6.一種用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索裝置,其特征在于,包括: 登錄模塊,用于構(gòu)建一個客戶端瀏覽器,通過該瀏覽器,使用預(yù)設(shè)登錄信息登錄訪問所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址; 訪問模塊,用于所述客戶端瀏覽器在登錄成功后對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問,并獲取從所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器返回的對應(yīng)網(wǎng)頁的數(shù)據(jù)文件; 提取模塊,用于根據(jù)預(yù)設(shè)的與所述網(wǎng)頁相對應(yīng)的數(shù)據(jù)位置信息,從所述數(shù)據(jù)文件中將相應(yīng)位置的數(shù)據(jù)提取出來。
7.如權(quán)利要求6所述的裝置,其特征在于,所述提取模塊包括: 定位單元,用于對通過所述客戶端瀏覽器訪問獲得的網(wǎng)頁數(shù)據(jù)文件進(jìn)行分析,根據(jù)預(yù)設(shè)的與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息,在所述數(shù)據(jù)文件中定位相匹配的標(biāo)簽的位置; 提取單元,用于根據(jù)所述標(biāo)簽位置,將與該標(biāo)簽位置相對應(yīng)的數(shù)據(jù)提取出來。
8.如權(quán)利要求7所述的裝置,其特征在于,所述提取單元,用于運行與該標(biāo)簽位置相對應(yīng)的腳本數(shù)據(jù),并將運行結(jié)果數(shù)據(jù)提取出來。
9.如權(quán)利要求7所述的裝置,其特征在于,進(jìn)一步包括一數(shù)據(jù)庫,用于記錄所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址、可登錄該數(shù)據(jù)環(huán)境的預(yù)設(shè)登錄信息、在該數(shù)據(jù)環(huán)境中需要訪問的網(wǎng)頁地址,以及與在所述網(wǎng)頁中要獲取的數(shù)據(jù)相對應(yīng)的文件標(biāo)簽信息。
10.如權(quán)利要求6所述的裝置,其特征在于,所述訪問模塊,用于獲取由所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器分配的會話令牌,并攜帶該會話令牌對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn) 行訪問。
全文摘要
本發(fā)明涉及一種用于半封閉數(shù)據(jù)環(huán)境下的數(shù)據(jù)搜索的方法和裝置,包括構(gòu)建一個客戶端瀏覽器,通過該瀏覽器,使用預(yù)設(shè)登錄信息登錄訪問所述半封閉數(shù)據(jù)環(huán)境的網(wǎng)絡(luò)訪問地址;所述客戶端瀏覽器在登錄成功后對所述半封閉數(shù)據(jù)環(huán)境中的預(yù)設(shè)網(wǎng)頁地址進(jìn)行訪問,并獲取從所述半封閉數(shù)據(jù)環(huán)境的服務(wù)器返回的對應(yīng)網(wǎng)頁的數(shù)據(jù)文件;根據(jù)預(yù)設(shè)的與所述網(wǎng)頁相對應(yīng)的數(shù)據(jù)位置信息,從所述數(shù)據(jù)文件中將相應(yīng)位置的數(shù)據(jù)提取出來。本發(fā)明可以無需建立特殊接口即可實現(xiàn)對半封閉數(shù)據(jù)環(huán)境的自動搜索,將其中所需要的數(shù)據(jù)準(zhǔn)確的提取出來,從而提高了數(shù)據(jù)搜索效率、擴大了數(shù)據(jù)搜索范圍,同時也提高了數(shù)據(jù)搜索結(jié)果的準(zhǔn)確性。
文檔編號G06F17/30GK103218422SQ201310111969
公開日2013年7月24日 申請日期2013年4月1日 優(yōu)先權(quán)日2013年4月1日
發(fā)明者張士益 申請人:張士益
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
九江市| 汶川县| 五常市| 淮阳县| 和平区| 临猗县| 庆云县| 马关县| 镇巴县| 巴马| 紫金县| 长子县| 松溪县| 都江堰市| 林芝县| 台州市| 花垣县| 贵南县| 夏津县| 焦作市| 错那县| 阿坝| 洱源县| 同德县| 云浮市| 红原县| 红安县| 南平市| 锡林浩特市| 疏勒县| 武陟县| 深水埗区| 玉门市| 鹤峰县| 理塘县| 罗江县| 永安市| 亳州市| 武义县| 瓦房店市| 宜章县|