專利名稱:一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法
一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法本發(fā)明涉及互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法。 [背景技術(shù)]隨著互聯(lián)網(wǎng)的發(fā)展,各種提高網(wǎng)站訪問(wèn)效率及安全性的技術(shù)層出不窮,從 VBScript到JavaScript,從傳統(tǒng)的C/S架構(gòu)到目前流行的Ajax技術(shù),效率更高、更安全的技術(shù)往往是網(wǎng)站應(yīng)用的趨勢(shì)。為防止網(wǎng)絡(luò)爬蟲的頻繁訪問(wèn),或者黑客的惡意攻擊,而增加網(wǎng)站服務(wù)器的負(fù)擔(dān),越來(lái)越多的網(wǎng)站開發(fā)商都使用客戶端腳本語(yǔ)言(如JS,VBkript)動(dòng)態(tài)生成網(wǎng)頁(yè)顯示信息,從而實(shí)現(xiàn)信息隱藏。但是隨著腳本代碼的使用,也加重了瀏覽器的負(fù)擔(dān)。 瀏覽器在解析網(wǎng)頁(yè)時(shí),必須先解析腳本代碼,獲取相應(yīng)的數(shù)據(jù)信息,而后才可以渲染整個(gè)頁(yè)面。腳本代碼解析速度越快的瀏覽器,打開網(wǎng)頁(yè)的速度就越快,受歡迎度就越高。在目前的互聯(lián)網(wǎng)監(jiān)控領(lǐng)域里,監(jiān)控目的是為了從互聯(lián)網(wǎng)大量繁雜的信息中過(guò)濾廣告、網(wǎng)頁(yè)版面等垃圾信息,從而抽取網(wǎng)頁(yè)中重要的內(nèi)容信息,并且即時(shí)獲取互聯(lián)網(wǎng)上重要的更新信息,因此對(duì)網(wǎng)頁(yè)的解析速度(獲取重要信息的速度)要求比較高。對(duì)于網(wǎng)頁(yè)中的動(dòng)態(tài)信息,目前主流的技術(shù)都是模擬瀏覽器實(shí)現(xiàn)所有腳本代碼的解析,獲取所有信息的網(wǎng)絡(luò) URL,從而獲取存放于服務(wù)器的動(dòng)態(tài)信息,其獲取網(wǎng)頁(yè)動(dòng)態(tài)信息流程圖如
圖1所示。通過(guò)上述方法獲取的信息是未經(jīng)過(guò)任何過(guò)濾的,而且解析垃圾信息所浪費(fèi)的大量時(shí)間也降低了系統(tǒng)解析效率,同時(shí)解析的結(jié)果也比較混亂,對(duì)后續(xù)的提取工作造成了很大不便。目前主流的網(wǎng)頁(yè)動(dòng)態(tài)解析技術(shù)主要是通過(guò)解析網(wǎng)頁(yè)中所有的腳本代碼段,然后獲取網(wǎng)頁(yè)所有的動(dòng)態(tài)信息(包括有用信息和垃圾信息)?,F(xiàn)有技術(shù)在動(dòng)態(tài)信息解析過(guò)程中,首先提取出網(wǎng)頁(yè)源碼中所有的JS腳本代碼段;然后將腳本代碼段輸入所搭建的腳本代碼執(zhí)行環(huán)境,由于腳本代碼段抽取后是比較混亂的,不能正確執(zhí)行,因此在執(zhí)行環(huán)境中第一步需要對(duì)腳本代碼做一定的處理,如調(diào)整代碼執(zhí)行順序,然后調(diào)用開源的解析引擎對(duì)代碼段執(zhí)行解析;最后將解析結(jié)果做一定處理后輸出包含動(dòng)態(tài)信息的文本字符串。現(xiàn)有技術(shù)的不足之處在于1,解析信息沒(méi)有任何過(guò)濾,解析結(jié)果包含大量垃圾信息,解析效率較低;2,重復(fù)解析垃圾信息,每個(gè)網(wǎng)站所有網(wǎng)頁(yè)的垃圾信息都具有相同的解析方法,故而這些信息在成千上萬(wàn)分網(wǎng)頁(yè)中被重復(fù)解析,則更加降低了解析效率。3,解析結(jié)果比較混亂,垃圾信息與有用信息混在一起,不利于后續(xù)垃圾信息的剔除以及有用信息的提取工作4,需要設(shè)計(jì)腳本代碼抽取模塊,并且搭建解析環(huán)境,而解析環(huán)境的搭建是個(gè)非常繁瑣難度也很大的工作,很多中小型企業(yè)并沒(méi)有搭建解析環(huán)境的技術(shù)實(shí)力。本發(fā)明要解決的技術(shù)問(wèn)題是提供一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法,該方法繞過(guò)了腳本代碼的獲取與解析,大大提高了解析效率,提高解析速度,而且可以通過(guò)為每個(gè)網(wǎng)站配置特定的模板來(lái)指定所要獲取的動(dòng)態(tài)信息,并且解析結(jié)果文本的組織也具有特定的格式,利于后續(xù)的抽取工作。為了解決上述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案是,一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法, 包括動(dòng)態(tài)信息配置模板的配置,解析環(huán)境的搭建,動(dòng)態(tài)資源的獲取以及動(dòng)態(tài)信息的組織輸出四個(gè)步驟;其中(1)動(dòng)態(tài)信息配置模板的配置根據(jù)網(wǎng)頁(yè)的頁(yè)面結(jié)構(gòu)以及所要獲取的動(dòng)態(tài)信息配置動(dòng)態(tài)信息配置模板,由于各網(wǎng)站網(wǎng)頁(yè)頁(yè)面結(jié)構(gòu)不同,但每個(gè)網(wǎng)站內(nèi)部的網(wǎng)頁(yè)頁(yè)面結(jié)構(gòu)基本一致,因此一個(gè)網(wǎng)站僅需要一個(gè)動(dòng)態(tài)信息配置模板,該模板記錄著需要獲取的動(dòng)態(tài)信息, 未賦值的變量庫(kù)以及變量庫(kù)的賦值方法;(2)解析環(huán)境的搭建根據(jù)網(wǎng)頁(yè)所屬的網(wǎng)站,讀取對(duì)應(yīng)網(wǎng)站的動(dòng)態(tài)信息配置模板, 并根據(jù)動(dòng)態(tài)信息配置模板中記錄的變量庫(kù)以及變量庫(kù)的賦值方法,結(jié)合網(wǎng)頁(yè)HTML源碼數(shù)據(jù)對(duì)變量庫(kù)進(jìn)行賦值;解析環(huán)境的搭建完全等價(jià)于變量庫(kù)中所有變量的賦值,所有的變量都成功賦值,則表示解析環(huán)境搭建完成;(3)動(dòng)態(tài)資源的獲取根據(jù)動(dòng)態(tài)信息配置模板所記錄的需要獲取的動(dòng)態(tài)信息,調(diào)用在第二步賦值的變量庫(kù)中的數(shù)據(jù),得到動(dòng)態(tài)資源,即需要獲取的動(dòng)態(tài)信息,動(dòng)態(tài)資源既可以是普通的字符串,也可以是網(wǎng)絡(luò)資源的URL地址,動(dòng)態(tài)資源的獲取過(guò)程也就是確定資源值或者URL地址;(4)動(dòng)態(tài)信息的組織輸出該過(guò)程就是將第三步獲取的動(dòng)態(tài)資源按照指定格式組織成格式化字符串,并輸出。在上述方法的步驟O)中,所述的解析環(huán)境針對(duì)變量庫(kù)中不同的變量,賦值順序也不同,具體賦值順序如下(1)引用源的變量賦值動(dòng)態(tài)信息配置模板中REF屬性為“0”的變量,表示可以直接從HTML網(wǎng)頁(yè)源碼中獲取的變量,不依賴其他資源或變量,因此這類變量的值最先賦值, 這些變量一般都是按照J(rèn)AVA正則式的規(guī)則執(zhí)行匹配抽取進(jìn)行賦值的;(2)引用變量的變量賦值動(dòng)態(tài)信息配置模板中REF屬性以“var ”開頭的變量, 這類變量引用了其他變量,因此必須等被引用的變量賦值以后方可賦值,因此這類變量賦值稍遲,而且被引用的變量REF屬性必須為“0” ;(3)模板中REF屬性以“res ,,開頭的變量,這類變量是從資源中賦值,賦值順序排在第三;(4)動(dòng)態(tài)信息配置模板中REF屬性以“var ”開頭的變量,這類變量與上述第二賦值的變量是一致的,只不過(guò)后者引用的變量必須從網(wǎng)頁(yè)源碼字符串中獲取且其REF屬性必須為“0”,而此類變量引用的變量可能是第二或第三順序才被賦值的變量,因此最后賦值。在上述方法的步驟(3)中,所述的動(dòng)態(tài)資源的獲取過(guò)程也就是確定資源值或者 URL地址,其主要步驟如下(1)讀取動(dòng)態(tài)信息配置模板中記錄的需要獲取的動(dòng)態(tài)信息的資源列表;(2)遍歷資源列表,依次從變量庫(kù)獲取資源所需要的數(shù)據(jù),從而確定資源的值或網(wǎng)絡(luò)地址,動(dòng)態(tài)資源獲取過(guò)程完成,并將資源列表傳送到最后的組織輸出過(guò)程。在上述方法的步驟(3)中,所述的動(dòng)態(tài)資源的組織輸出執(zhí)行過(guò)程如下(1)從資源列表中取出一個(gè)資源;
(2)判斷該資源是普通字符串還是網(wǎng)絡(luò)URL地址,若是普通字符串,則直接加入到待輸出的內(nèi)容字符串中,若是網(wǎng)絡(luò)URL地址,則將下載后的資源加到內(nèi)容字符串中。上述方法所述動(dòng)態(tài)信息配置模板的文件格式是本地文件系統(tǒng)任意格式的文件。作為優(yōu)選,上述方法所述動(dòng)態(tài)信息配置模板的文件格式是XML格式的文件。作為優(yōu)選,上述方法所述動(dòng)態(tài)信息配置模板的文件格式是HTML格式的文件。本發(fā)明的上述技術(shù)方案繞過(guò)了網(wǎng)頁(yè)腳本代碼的獲取與解析,大大提高了解析效率,提高解析速度,而且可以通過(guò)為每個(gè)網(wǎng)站配置特定的配置文件來(lái)指定所要獲取的動(dòng)態(tài)信息,針對(duì)性強(qiáng),并且解析結(jié)果文本的組織也具有特定的格式,利于后續(xù)的抽取工作。本發(fā)明技術(shù)方案帶來(lái)的有益效果1,本發(fā)明技術(shù)方案在解析過(guò)程中避免了垃圾信息的解析,只解析有用信息,故而可以大大提高解析效率;2,本發(fā)明技術(shù)方案避免了腳本代碼的解析,從而沒(méi)有必要設(shè)計(jì)腳本代碼的抽取以及其解析環(huán)境,降低了產(chǎn)品開發(fā)的技術(shù)難度與工作量;3,本發(fā)明技術(shù)方案的解析結(jié)果是結(jié)構(gòu)清晰,動(dòng)態(tài)信息組織有序的文本字符串,便于后續(xù)動(dòng)態(tài)信息的處理工作,從而有利于縮短產(chǎn)品開發(fā)周期。下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。圖1是目前主流技術(shù)獲取網(wǎng)頁(yè)動(dòng)態(tài)信息流程圖。圖2是本發(fā)明實(shí)施例獲取網(wǎng)頁(yè)動(dòng)態(tài)信息流程圖。圖3是本發(fā)明實(shí)施例的技術(shù)方案結(jié)構(gòu)簡(jiǎn)圖。圖4是本發(fā)明實(shí)施例動(dòng)態(tài)解析處理過(guò)程流程簡(jiǎn)圖。相對(duì)現(xiàn)在主流技術(shù)而言(圖1),本實(shí)施例只需結(jié)合配置文件從網(wǎng)頁(yè)中獲取少量關(guān)鍵數(shù)據(jù)即可得到指定信息的網(wǎng)路URL(圖2)。如圖3所示,上述技術(shù)方案的核心包括解析引擎和網(wǎng)站的動(dòng)態(tài)信息配置模板(以下簡(jiǎn)稱為模板)兩個(gè)部分。其中解析引擎是本技術(shù)方案的動(dòng)態(tài)執(zhí)行部分,模板是技術(shù)方案的靜態(tài)部分。如圖4所示,整個(gè)動(dòng)態(tài)信息解析過(guò)程主要包括動(dòng)態(tài)信息配置模板的配置、解析環(huán)境的搭建、動(dòng)態(tài)資源的獲取以及動(dòng)態(tài)資源的組織輸出四個(gè)步驟1.動(dòng)態(tài)信息配置模板的配置由人工或者程序根據(jù)網(wǎng)頁(yè)的頁(yè)面結(jié)構(gòu)以及所要獲取的動(dòng)態(tài)信息配置動(dòng)態(tài)信息配置模板,該模板記錄著需要獲取的動(dòng)態(tài)信息,未賦值的變量庫(kù)以及變量庫(kù)的賦值方法。動(dòng)態(tài)信息配置模板可以是存于本地文件系統(tǒng)任意格式的文件,本實(shí)施例的動(dòng)態(tài)信息配置模板文件為XML文件格式。由于各網(wǎng)站網(wǎng)頁(yè)頁(yè)面結(jié)構(gòu)不同,但每個(gè)網(wǎng)站內(nèi)部的網(wǎng)頁(yè)頁(yè)面結(jié)構(gòu)基本一致,因此一個(gè)網(wǎng)站僅需要一個(gè)動(dòng)態(tài)信息配置模板。2.解析環(huán)境的搭建根據(jù)網(wǎng)頁(yè)所屬的網(wǎng)站,讀取對(duì)應(yīng)網(wǎng)站的動(dòng)態(tài)信息配置模板,并根據(jù)動(dòng)態(tài)信息配置模板中記錄的變量庫(kù)以及變量庫(kù)的賦值方法,結(jié)合網(wǎng)頁(yè)HTML源碼數(shù)據(jù)對(duì)變量庫(kù)進(jìn)行賦值。 解析環(huán)境的搭建完全等價(jià)于變量庫(kù)中所有變量的賦值,所有的變量都成功賦值,則表示解析環(huán)境搭建完成;解析環(huán)境的搭建過(guò)程也是整個(gè)解析過(guò)程中最復(fù)雜的一步。針對(duì)不同的變量,解析引擎的賦值順序也不同,具體搭建步驟及賦值順序如下1)引用源的變量賦值模板中REF屬性為“0”的變量,表示可以直接從HTML網(wǎng)頁(yè)源碼中獲取的變量,不依賴其他資源或變量,因此這類變量的值最先賦值,這些變量一般都是按照J(rèn)AVA正則式的規(guī)則執(zhí)行匹配抽取進(jìn)行賦值的。2)引用變量的變量賦值模板中REF屬性以“var ,,開頭的變量,這類變量引用了其他變量,因此必須等被引用的變量賦值以后方可賦值,因此這類變量賦值較晚,而且引用的變量REF屬性必須為 “0”;3)引用資源的變量賦值模板中REF屬性以“res ,,開頭的變量,這類變量是從資源中賦值,賦值順序排在
笛二 .4)引用變量的變量賦值動(dòng)態(tài)信息配置模板中REF屬性以“var ”開頭的變量,這類變量與上述第二賦值的變量是一致的,只不過(guò)后者引用的變量必須從網(wǎng)頁(yè)源碼字符串中獲取且其REF屬性必須為“0”,而此類變量引用的變量可能是第二或第三順序才被賦值的變量,因此最后賦值。3.動(dòng)態(tài)資源的獲取隨著解析環(huán)境的搭建完成,動(dòng)態(tài)資源所需要的數(shù)據(jù)資源也就完備了,因此可以獲取動(dòng)態(tài)資源了,動(dòng)態(tài)資源既可以是普通的字符串,也可以是網(wǎng)絡(luò)資源的URL地址,因此,動(dòng)態(tài)資源的獲取過(guò)程也就是確定資源值或者URL地址,相對(duì)解析環(huán)境搭建過(guò)程,動(dòng)態(tài)信息獲取過(guò)程簡(jiǎn)單的多,主要步驟如下1)讀取動(dòng)態(tài)信息配置模板中記錄的需要獲取的動(dòng)態(tài)信息的資源列表;;2)遍歷資源列表,依次從變量庫(kù)獲取資源所需要的數(shù)據(jù),從而確定資源的值或網(wǎng)絡(luò)地址,動(dòng)態(tài)資源獲取過(guò)程完成,并將資源列表傳送到最后的組織輸出過(guò)程。4.動(dòng)態(tài)資源的組織輸出相對(duì)于前兩個(gè)過(guò)程,動(dòng)態(tài)資源的組織輸出過(guò)程最為簡(jiǎn)單,然而耗時(shí)最長(zhǎng),因?yàn)樵撨^(guò)程就是將資源列表中的資源組織成最終的字符串,然后輸出,但是牽涉到網(wǎng)絡(luò)資源的下載, 因此耗時(shí)最長(zhǎng),而且也不穩(wěn)定,與網(wǎng)絡(luò)環(huán)境有關(guān)。該過(guò)程的執(zhí)行過(guò)程如下1)從第三步獲取的資源列表中取出一個(gè)資源;2)判斷該資源是普通字符串還是網(wǎng)絡(luò)URL地址,若是普通字符串,則直接加入到待輸出的內(nèi)容字符串中,若是網(wǎng)絡(luò)URL地址,則將下載后的資源加到內(nèi)容字符串中。需要說(shuō)明的是,本實(shí)施例所使用模板的文件格式是XML格式,但是本地文件系統(tǒng)任意格式的文件都可以做為模板,但都沒(méi)有改變從網(wǎng)頁(yè)源碼獲取數(shù)據(jù),結(jié)合模板生成動(dòng)態(tài)信息網(wǎng)絡(luò)URL的本質(zhì),因此凡是通過(guò)改變模板文件格式而實(shí)現(xiàn)與本實(shí)施例相同效果的方案都算是本實(shí)施例的替代方案。本實(shí)施例旨于提供一種全新的網(wǎng)頁(yè)動(dòng)態(tài)信息的解析方法,彌補(bǔ)目前主流技術(shù)的不足,避免垃圾信息的解析,提高網(wǎng)頁(yè)動(dòng)態(tài)信息的解析效率;同時(shí)繞過(guò)腳本代碼的解析過(guò)程, 從而避免腳本代碼解析環(huán)境的搭建,降低網(wǎng)頁(yè)動(dòng)態(tài)信息解析的技術(shù)難度,減少其工作量;另外,本實(shí)施例的技術(shù)方案也使得動(dòng)態(tài)信息的解析結(jié)果具有清晰的組織結(jié)構(gòu),便于后續(xù)的動(dòng)態(tài)信息處理工作。
權(quán)利要求
1.一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法,其特征在于,包括如下步驟(1)動(dòng)態(tài)信息配置模板的配置根據(jù)網(wǎng)頁(yè)的頁(yè)面結(jié)構(gòu)以及所要獲取的動(dòng)態(tài)信息配置動(dòng)態(tài)信息配置模板,由于各網(wǎng)站網(wǎng)頁(yè)頁(yè)面結(jié)構(gòu)不同,但每個(gè)網(wǎng)站內(nèi)部的網(wǎng)頁(yè)頁(yè)面結(jié)構(gòu)基本一致,因此一個(gè)網(wǎng)站僅需要一個(gè)動(dòng)態(tài)信息配置模板,該模板記錄著需要獲取的動(dòng)態(tài)信息,未賦值的變量庫(kù)以及變量庫(kù)的賦值方法;(2)解析環(huán)境的搭建根據(jù)網(wǎng)頁(yè)所屬的網(wǎng)站,讀取對(duì)應(yīng)網(wǎng)站的動(dòng)態(tài)信息配置模板,并根據(jù)動(dòng)態(tài)信息配置模板中記錄的變量庫(kù)以及變量庫(kù)的賦值方法,結(jié)合網(wǎng)頁(yè)HTML源碼數(shù)據(jù)對(duì)變量庫(kù)進(jìn)行賦值;解析環(huán)境的搭建完全等價(jià)于變量庫(kù)中所有變量的賦值,所有的變量都成功賦值,則表示解析環(huán)境搭建完成;(3)動(dòng)態(tài)資源的獲取根據(jù)動(dòng)態(tài)信息配置模板所記錄的需要獲取的動(dòng)態(tài)信息,調(diào)用在第二步賦值的變量庫(kù)中的數(shù)據(jù),得到動(dòng)態(tài)資源,即需要獲取的動(dòng)態(tài)信息,動(dòng)態(tài)資源既可以是普通的字符串,也可以是網(wǎng)絡(luò)資源的URL地址,動(dòng)態(tài)資源的獲取過(guò)程也就是確定資源值或者URL地址;(4)動(dòng)態(tài)信息的組織輸出該過(guò)程就是將第三步獲取的動(dòng)態(tài)資源按照指定格式組織成格式化字符串,并輸出。
2.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法,其特征在于,所述的解析環(huán)境搭建過(guò)程中,變量庫(kù)中不同類型的變量,賦值順序不同,具體賦值順序如下(1)引用源的變量賦值動(dòng)態(tài)信息配置模板中REF屬性為“0”的變量,表示可以直接從HTML網(wǎng)頁(yè)源碼中獲取的變量,不依賴其他資源或變量,因此這類變量的值最先賦值,這些變量一般都是按照J(rèn)AVA 正則式的規(guī)則執(zhí)行匹配抽取進(jìn)行賦值的;(2)引用變量的變量賦值動(dòng)態(tài)信息配置模板中REF屬性以“var: ”開頭的變量,這類變量引用了其他變量,因此必須等被引用的變量賦值以后方可賦值,因此這類變量賦值稍遲,而且被引用的變量REF 屬性必須為“0”;(3)引用資源的變量賦值模板中REF屬性以“res ”開頭的變量,這類變量是從資源中賦值,賦值順序排在第---,(4)引用變量的變量賦值動(dòng)態(tài)信息配置模板中REF屬性以“var ”開頭的變量,這類變量與上述第二賦值的變量是一致的,只不過(guò)后者引用的變量必須從網(wǎng)頁(yè)源碼字符串中獲取且其REF屬性必須為“0”, 而此類變量引用的變量可能是第二或第三順序才被賦值的變量,因此最后賦值。
3.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法,其特征在于,所述的動(dòng)態(tài)資源的獲取過(guò)程也就是確定資源值或者URL地址,其步驟如下(1)讀取動(dòng)態(tài)信息配置模板中記錄的需要獲取的動(dòng)態(tài)信息的資源列表;(2)遍歷資源列表,依次從變量庫(kù)獲取資源所需要的數(shù)據(jù),從而確定資源的值或網(wǎng)絡(luò)地址,動(dòng)態(tài)資源獲取過(guò)程完成,并將資源列表傳送到最后的組織輸出過(guò)程。
4.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法,其特征在于,所述的動(dòng)態(tài)資源的組織輸出的執(zhí)行過(guò)程如下(1)從資源列表中取出一個(gè)資源;(2)判斷該資源是普通字符串還是網(wǎng)絡(luò)URL地址,若是普通字符串,則直接加入到待輸出的內(nèi)容字符串中,若是網(wǎng)絡(luò)URL地址,則將下載后的資源加到內(nèi)容字符串中。
5.根據(jù)權(quán)利要求1-4任何一項(xiàng)所述的一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法,其特征在于,所述動(dòng)態(tài)信息配置模板的文件格式是本地文件系統(tǒng)任意格式的文件。
6.根據(jù)權(quán)利要求1-4任何一項(xiàng)所述的一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法,其特征在于,所述動(dòng)態(tài)信息配置模板的文件格式是XML格式。
7.根據(jù)權(quán)利要求1-4任何一項(xiàng)所述的一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法,其特征在于,所述動(dòng)態(tài)信息配置模板的文件格式是HTML格式。
全文摘要
本發(fā)明公開了一種網(wǎng)頁(yè)動(dòng)態(tài)信息獲取方法,包括動(dòng)態(tài)信息配置模板的配置,解析環(huán)境的搭建,動(dòng)態(tài)資源的獲取以及動(dòng)態(tài)信息的組織輸出四個(gè)步驟。其中動(dòng)態(tài)信息配置模板記錄著所要獲取的動(dòng)態(tài)信息以及相關(guān)的變量庫(kù)及其賦值方法;解析環(huán)境的搭建則是根據(jù)網(wǎng)頁(yè)HTML源碼信息為動(dòng)態(tài)信息配置模板中記錄的變量庫(kù)賦值;動(dòng)態(tài)資源的獲取是根據(jù)動(dòng)態(tài)信息配置模板中記錄的相關(guān)信息,調(diào)用已賦值變量庫(kù)中的數(shù)據(jù),得到動(dòng)態(tài)信息的內(nèi)容;動(dòng)態(tài)信息的組織輸出將所獲取的動(dòng)態(tài)資源,組織成格式化的字符串并輸出。本發(fā)明避免了JS腳本信息的解析,僅從網(wǎng)頁(yè)源碼中獲取少量關(guān)鍵數(shù)據(jù),然后通過(guò)動(dòng)態(tài)信息配置模板解析出所需獲取的動(dòng)態(tài)信息,針對(duì)性強(qiáng),速度快,解析效率高。
文檔編號(hào)G06F17/30GK102184184SQ20111008735
公開日2011年9月14日 申請(qǐng)日期2011年4月7日 優(yōu)先權(quán)日2011年4月7日
發(fā)明者周俊, 帥志虎, 鄭中華, 高威 申請(qǐng)人:安徽博約信息科技有限責(zé)任公司