一種獲取結構化數據的方法及裝置的制造方法
【專利摘要】本發(fā)明公開了一種獲取結構化數據的方法及裝置,其中,該方法包括:獲取頁面地址列表,所述頁面地址列表中包含一條或多條目標頁面地址;抓取與所述目標頁面地址相對應的目標頁面中的目標頁面數據;根據預設的信息提取規(guī)則提取所述目標頁面數據中的結構化數據,所述信息提取規(guī)則為一個或多個子提取規(guī)則的集合。該方法簡化了信息提取的過程,同時可以及時、高通量、精準地提取目標頁面數據中的結構化數據。
【專利說明】
一種獲取結構化數據的方法及裝置
技術領域
[0001] 本發(fā)明涉及信息檢索技術領域,特別涉及一種獲取結構化數據的方法及裝置。
【背景技術】
[0002] 目前,搜索引擎已經成為人們獲取信息的首要工具,實現網頁數據抓取是搜索引 擎的基本功能之一。每個獨立的搜索引擎都有自己的網頁抓取程序(spider) jpider順著 網頁中的超鏈接信息,連續(xù)地抓取網頁。被抓取的網頁被稱之為網頁快照。由于互聯(lián)網中超 鏈接信息的應用很普遍,理論上,從一定范圍的網頁出發(fā),就能搜集到絕大多數的網頁。
[0003] -般情況下,利用搜索引擎在網頁中搜集到的數據通常都是半結構化數據。半結 構化數據是指:數據中的部分信息可以按照分類保存到對應的表中,這部分信息與該表中 的字段具有對應關系,但數據中還有非結構化數據,即部分信息無法簡單地用表中的字段 與其對應。例如網頁中的圖片、聲音、視頻等等,這類信息通常無法直接知道內容,數據庫也 只能保存在一個BLOB字段中,對以后檢索非常麻煩。現有對此部分非結構化數據的一般處 理方法是:建立一個包含三個字段的表(編號number、內容描述varchar( 1024)、內容blob), 通過編號進行引用,通過內容描述進行檢索。
[0004] 在實現本發(fā)明過程中,發(fā)明人發(fā)現現有技術中至少存在如下問題:
[0005] 現有技術僅能從網頁中抓取出半結構化的WEB數據,而無法根據實際需求從這些 半結構化的WEB數據中準確提取出想要的結構化的有效信息。因此,如何設計一種在保證及 時抓取半結構化的WEB數據的前提下,能夠準確提取出半結構化的WEB數據中有效信息的方 法是提高搜索引擎質量的關鍵。
[0006] 公開于該【背景技術】部分的信息僅僅旨在增加對本發(fā)明的總體背景的理解,而不應 當被視為承認或以任何形式暗示該信息構成已為本領域一般技術人員所公知的現有技術。
【發(fā)明內容】
[0007] 本發(fā)明的目的在于提供一種獲取結構化數據的方法,從而克服現有方案不能準確 獲取網頁中結構化數據的缺陷。
[0008] 為實現上述目的,本發(fā)明實施例提供了一種獲取結構化數據的方法,包括:
[0009] 獲取頁面地址列表,頁面地址列表中包含一條或多條目標頁面地址;
[0010] 抓取與目標頁面地址相對應的目標頁面中的目標頁面數據;
[0011] 根據預設的信息提取規(guī)則提取目標頁面數據中的結構化數據,信息提取規(guī)則為一 個或多個子提取規(guī)則的集合。
[0012] 在一種可能的實現方式中,信息提取規(guī)則為XML格式和/或JS0N格式的規(guī)則;
[0013] 子提取規(guī)則包括:XPath提取規(guī)則,并還包括正則過濾規(guī)則、正則提取規(guī)則、添加前 綴規(guī)則、添加后綴規(guī)則和目標字符串連接規(guī)則中的零項或多項,目標字符串連接規(guī)則為以 預設字符串連接多個目標字符串。
[0014]在一種可能的實現方式中,抓取與目標頁面地址相對應的目標頁面中的目標頁面 數據,包括:
[0015] 根據目標網站的權重和目標頁面的權重確定目標頁面的優(yōu)先級,目標網站為目標 頁面所在的網站;
[0016] 根據目標頁面的優(yōu)先級依次抓取目標頁面中的目標頁面數據。
[0017] 在一種可能的實現方式中,結構化數據包括子目標頁面的子目標頁面地址,子目 標頁面為目標頁面的下級頁面;方法還包括:
[0018] 抓取子目標頁面中的子目標頁面數據;
[0019] 根據預設的信息提取規(guī)則提取子目標頁面數據中的結構化數據。
[0020] 在一種可能的實現方式中,還包括:
[0021 ]在檢測到報警事件時推送報警消息,報警事件包括信息提取規(guī)則失效和/或CPU過 載。
[0022] 基于同樣的發(fā)明構思,本發(fā)明實施例還提供一種獲取結構化數據的裝置,包括:
[0023] 獲取模塊,用于獲取頁面地址列表,頁面地址列表中包含一條或多條目標頁面地 址;
[0024] 第一抓取模塊,用于抓取與目標頁面地址相對應的目標頁面中的目標頁面數據;
[0025] 第一提取模塊,用于根據預設的信息提取規(guī)則提取目標頁面數據中的結構化數 據,信息提取規(guī)則為一個或多個子提取規(guī)則的集合。
[0026]在一種可能的實現方式中,信息提取規(guī)則為XML格式和/或JS0N格式的規(guī)則;
[0027] 子提取規(guī)則包括:XPath提取規(guī)則,并還包括正則過濾規(guī)則、正則提取規(guī)則、添加前 綴規(guī)則、添加后綴規(guī)則和目標字符串連接規(guī)則中的零項或多項,目標字符串連接規(guī)則為以 預設字符串連接多個目標字符串。
[0028] 在一種可能的實現方式中,第一抓取模塊包括:
[0029] 確定單元,用于根據目標網站的權重和目標頁面的權重確定目標頁面的優(yōu)先級, 目標網站為目標頁面所在的網站;
[0030] 抓取單元,用于根據目標頁面的優(yōu)先級依次抓取目標頁面中的目標頁面數據。
[0031 ]在一種可能的實現方式中,結構化數據包括子目標頁面的子目標頁面地址,子目 標頁面為目標頁面的下級頁面;裝置還包括:
[0032]第二抓取模塊,用于抓取子目標頁面中的子目標頁面數據;
[0033] 第二提取模塊,用于根據預設的信息提取規(guī)則提取子目標頁面數據中的結構化數 據。
[0034] 在一種可能的實現方式中,還包括:報警模塊,用于在檢測到報警事件時推送報警 消息,報警事件包括信息提取規(guī)則失效和/或CPU過載。
[0035] 本發(fā)明實施例提供的一種獲取結構化數據的方法及裝置,在抓取到目標頁面數據 后,利用集合一個或多個子提取規(guī)則的信息提取規(guī)則獲取目標頁面數據中的結構化數據, 將信息提取步驟簡化為子提取規(guī)則,簡化了信息提取的過程,同時可以及時、高通量、精準 地提取目標頁面數據中的結構化數據。該信息提取規(guī)則為可重復調用的規(guī)則,針對多條目 標頁面地址時,可以重復利用該信息提取規(guī)則提取出相應的結構化數據。根據優(yōu)先級調度 原則優(yōu)先抓取優(yōu)先級高的目標頁面,能夠優(yōu)先抓取重要的目標頁面,可以提高重要頁面抓 取的時效性。通過重復確定目標頁面的下級頁面,從而重復調用該信息提取規(guī)則即可以獲 取完整的結構化數據。
[0036] 本發(fā)明的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變 得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明 書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。
[0037] 下面通過附圖和實施例,對本發(fā)明的技術方案做進一步的詳細描述。
【附圖說明】
[0038]附圖用來提供對本發(fā)明的進一步理解,并且構成說明書的一部分,與本發(fā)明的實 施例一起用于解釋本發(fā)明,并不構成對本發(fā)明的限制。在附圖中:
[0039] 圖1是本發(fā)明實施例中獲取結構化數據的方法流程圖;
[0040] 圖2是本發(fā)明實施例中抓取目標頁面數據的方法流程圖;
[0041 ]圖3是實施例一中獲取結構化數據的方法流程圖;
[0042]圖4是本發(fā)明實施例中獲取結構化數據的裝置的第一結構圖;
[0043]圖5是本發(fā)明實施例中第一抓取模塊的結構圖;
[0044]圖6是本發(fā)明實施例中獲取結構化數據的裝置的第二結構圖;
[0045]圖7是本發(fā)明實施例中獲取結構化數據的裝置的第三結構圖;
[0046]圖8是本發(fā)明實施例中網絡設備的結構框圖。
【具體實施方式】
[0047] 為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員 在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。附圖 中相同的附圖標記表示功能相同或相似的元件。盡管在附圖中示出了實施例的各種方面, 但是除非特別指出,不必按比例繪制附圖。
[0048] 在這里專用的詞"示例性"意為"用作例子、實施例或說明性"。這里作為"示例性" 所說明的任何實施例不必解釋為優(yōu)于或好于其它實施例。
[0049] 本發(fā)明實施例提供的一種獲取結構化數據的方法,參見圖1所示,具體包括步驟 101-103:
[0050] 步驟101:獲取頁面地址列表,頁面地址列表中包含一條或多條目標頁面地址; [0051] 本發(fā)明實施例中,該頁面地址列表可以為預設的初始URL(Uniform Resource Locator,統(tǒng)一資源定位器)列表;例如,用戶需要獲取123網站中的電影視頻資源,則可以將 movie. 123.com作為該頁面地址列表中的一條目標頁面地址。或者,根據關鍵詞檢索相應的 頁面地址,并將該頁面地址添加至頁面地址列表中。例如,用戶需要獲取123網站中的電影 視頻資源,則可以通過關鍵詞"123"和"電影"確定頁面地址movie. 123. com,進而將其添加 至頁面地址列表中,該頁面地址movie. 123. com即為一條目標頁面地址。
[0052] 步驟102:抓取與目標頁面地址相對應的目標頁面中的目標頁面數據;
[0053] 具體的,根據頁面地址列表中的目標頁面地址即可以定位相應的目標頁面,該目 標頁面即為需要被抓取數據的網頁,目標頁面數據即為該目標頁面內存有的數據資源。由 于一般網頁中均存在圖片、視頻等資源,故在步驟102中抓取到的目標頁面數據一般為半結 構化數據。
[0054] 同時,為了提高目標頁面數據的獲取效率和信息的提取效率,在本發(fā)明實施例中, 可以采用消息隊列的分布式技術來獲取目標頁面數據和后續(xù)提取出的結構化數據。其中, 分布式技術是一種基于網絡的計算機處理技術,其優(yōu)點是可以快速訪問、多用戶使用,每臺 計算機都能夠存儲和處理數據,所以不要求服務器功能十分強大,這種類型的網絡可以適 應各種需要,同時允許他們共享網絡的數據、資源和服務。在分布式網絡中使用的計算機既 能夠作為獨立的系統(tǒng)使用,也可以把它們連接在一起得到更強的網絡功能。
[0055] 步驟103:根據預設的信息提取規(guī)則提取目標頁面數據中的結構化數據,該信息提 取規(guī)則為一個或多個子提取規(guī)則的集合。
[0056] 本發(fā)明實施例中,該信息提取規(guī)則用于從半結構化數據的目標頁面數據中提取出 結構化數據。具體的,該信息提取規(guī)則為一個或多個子提取規(guī)則的集合,每一個子提取規(guī)則 對應信息提取過程中的一個處理過程(例如正則提取、去掉特殊字符串等),即將信息提取 的處理步驟轉換為子提取規(guī)則。通過將一個或多個子提取規(guī)則集合為一個信息提取規(guī)則, 簡化了信息提取的過程,同時可以高通量精準提取目標頁面數據中的結構化數據。同時,該 信息提取規(guī)則為可重復調用的規(guī)則,即針對多條目標頁面地址時,可以重復利用該信息提 取規(guī)則提取出相應的結構化數據。
[0057] 本發(fā)明實施例提供的一種獲取結構化數據的方法,在抓取到目標頁面數據后,利 用集合一個或多個子提取規(guī)則的信息提取規(guī)則獲取目標頁面數據中的結構化數據,將信息 提取步驟簡化為子提取規(guī)則,簡化了信息提取的過程,同時可以高通量精準提取目標頁面 數據中的結構化數據。且該信息提取規(guī)則為可重復調用的規(guī)則,針對多條目標頁面地址時, 可以重復利用該信息提取規(guī)則提取出相應的結構化數據。
[0058]本發(fā)明實施例提供了又一種獲取結構化數據的方法,包括上述實施例的步驟101-103:
[0059] 步驟101:獲取頁面地址列表,頁面地址列表中包含一條或多條目標頁面地址;
[0060] 步驟102:抓取與目標頁面地址相對應的目標頁面中的目標頁面數據;
[0061] 步驟103:根據預設的信息提取規(guī)則提取目標頁面數據中的結構化數據,該信息提 取規(guī)則為一個或多個子提取規(guī)則的集合。
[0062] 其中,參見圖2所示,步驟102中抓取與目標頁面地址相對應的目標頁面中的目標 頁面數據,具體包括步驟1021-1022:
[0063] 步驟1021:根據目標網站的權重和目標頁面的權重確定目標頁面的優(yōu)先級,該目 標網站為目標頁面所在的網站。
[0064] 步驟1022:根據目標頁面的優(yōu)先級依次抓取目標頁面中的目標頁面數據。
[0065] 本發(fā)明實施例中,目標網站為該目標頁面所在的網站或站點;例如,目標頁面的地 址為movie . 123 . com( 即123網站中的視頻網頁),該目標頁面相對應的目標網站為 www. 123. com( 即123網站)。同時,預先為每一個頁面地址列表對應的目標頁面和目標網站 設置相應的權重,每個目標頁面的權重可以為一固定值,也可以根據該目標頁面與關鍵詞 之間的相關度實時確定權重。
[0066] 具體的,步驟1021根據目標網站的權重和目標頁面的權重確定目標頁面的優(yōu)先 級,可選地,將目標網站的權重與目標頁面的權重的乘機作為目標頁面的優(yōu)先級調度權重, 根據該優(yōu)先級調度權重確定目標頁面的優(yōu)先級。例如,頁面a和頁面b均為頁面地址列表對 應的一個目標頁面;其中,A網站的優(yōu)先級是5,B網站的優(yōu)先級是3,A網站的頁面a的優(yōu)先級 是6,B網站的頁面b的優(yōu)先級是8,那么頁面a的優(yōu)先級調度權重為5x6 = 30,b的優(yōu)先級調度 權重3x8 = 24,因此頁面a的優(yōu)先級高于頁面b的優(yōu)先級,頁面a優(yōu)先被調度,即先從頁面a中 抓取目標頁面數據。本發(fā)明實施例中根據優(yōu)先級調度原則優(yōu)先抓取優(yōu)先級高的目標頁面, 能夠優(yōu)先抓取重要的目標頁面,可以提高重要頁面抓取的時效性。
[0067] 在步驟103中,具體的,該信息提取規(guī)則具體的為XML(Extensible Markup Language,可擴展標記語言)格式和/或JS0N(JavaScript Object Notation,JavaScript對 象表示法,一種輕量級的數據交換格式)格式的規(guī)則。其中,該子提取規(guī)則包括:XPath提取 規(guī)則,利用該XPath提取規(guī)則尋找相應的節(jié)點或鏈接。同時,該子提取規(guī)則還可以包括其他 規(guī)則,具體的,子提取規(guī)則還包括正則過濾規(guī)則、正則提取規(guī)則、添加前綴規(guī)則、添加后綴規(guī) 則和目標字符串連接規(guī)則中的零項或多項。其中,正則過濾規(guī)則用于根據正則表達式對 XPath提取出的節(jié)點或鏈接進行過濾;正則提取規(guī)則用于根據正則表達式對XPath提取出的 節(jié)點或鏈接進行進一步提取;添加前綴規(guī)則用于為特定字符串添加前綴;添加后綴規(guī)則用 于為特定字符串添加后綴;目標字符串連接規(guī)則用于以預設字符串連接多個目標字符串。 例如,一個信息提取規(guī)則如下:
[0070]這條信息提取規(guī)則意思是:利用XPath提取所有連接(//a/Ohref),然后進一步執(zhí) 行其他子提取處理規(guī)則(上例為執(zhí)行正則過濾規(guī)則,過濾掉所有不匹配正則~http(s)?:// movie. 123. com.*的所有連接)。
[0071 ]在一種可能的實現方式中,該結構化數據還包括子目標頁面的子目標頁面地址, 子目標頁面為目標頁面的下級頁面。即,在步驟103中抓取到的結構化數據中還包括下一級 或下幾級頁面的地址。例如,目標頁面movie . 123. com中包括電影A和電影B的相關資源,且 具有電影A和電影B的相關鏈接,分別為movie · 123 · com/f ilmA和movie · 123 · com/f ilmB。貝ij 根據信息提取規(guī)則獲取目標頁面movie. 123. com中的結構化數據時,也可以獲取到兩個子 目標頁面地址:movie · 123 · com/filmA 和 movie · 123 · com/filmB〇
[0072] 在獲取到子目標頁面地址后,方法還包括步驟A1-A2:
[0073] 步驟A1、抓取子目標頁面中的子目標頁面數據。
[0074] 步驟A2、根據預設的信息提取規(guī)則提取子目標頁面數據中的結構化數據。
[0075]本發(fā)明實施例中,該步驟A1-A2與上述的步驟102-103沒有本質區(qū)別,二者均為提 取網頁中的結構化數據;區(qū)別在于:步驟A1-A2為提取子目標頁面數據中的結構化數據,步 驟102-103為提取目標頁面數據中的結構化數據。因此,在獲取到子目標頁面地址后的另一 種方法為:根據子目標頁面地址形成新的網頁地址列表,進而執(zhí)行上述的步驟102-103。通 過重復確定目標頁面的下級頁面,可以獲取目標頁面及其所有下級頁面中所有的結構化數 據,從而重復調用該信息提取規(guī)則即可以獲取完整的結構化數據。
[0076] 在一種可能的實現方式中,該方法還包括:在檢測到報警事件時推送報警消息,報 警事件包括信息提取規(guī)則失效和/或CPU過載。具體的,在獲取結構化數據的過程中會產生 相應的日志記錄,根據該日志記錄中的異常記錄即可以確定是否存在報警事件,如信息提 取規(guī)則失效(信息提取規(guī)則中的預設字段與實際獲取到的目標頁面數據不符)、CPU過載等。
[0077] 現有技術中的報警機制不夠完善,當出現日志解析錯誤時,系統(tǒng)仍會執(zhí)行目標頁 面數據抓取操作,但并不會有預期結果的輸出。本發(fā)明實施例中采用了實時報警,用戶可以 根據實時報警信息隨時知道問題故障,以便決策是否繼續(xù)執(zhí)行該抓取任務。
[0078] 下面通過一個實施例詳細介紹該獲取結構化數據的方法流程。
[0079] 在本發(fā)明實施例中,在目標頁面中存在下級頁面時,獲取到的結構化數據包括子 目標頁面地址。參見圖3所示,該方法具體包括步驟301-306:
[0080] 步驟301:獲取頁面地址列表,頁面地址列表中包含一條或多條目標頁面地址。
[0081] 步驟302:根據目標網站的權重和目標頁面的權重確定目標頁面的優(yōu)先級。
[0082] 其中,該目標網站為目標頁面所在的網站
[0083] 步驟303:根據目標頁面的優(yōu)先級依次抓取目標頁面中的目標頁面數據。
[0084] 步驟304:根據預設的信息提取規(guī)則提取目標頁面數據中的結構化數據。
[0085] 在實施例一中,該信息提取規(guī)則為一個或多個子提取規(guī)則的集合,子提取規(guī)則包 括:XPath提取規(guī)則;且該子提取規(guī)則還包括正則過濾規(guī)則、正則提取規(guī)則、添加前綴規(guī)則、 添加后綴規(guī)則和目標字符串連接規(guī)則中的零項或多項。同時,該結構化數據中可能包含下 級的子目標頁面地址。
[0086] 步驟305:確定子目標頁面地址,并根據子目標頁面地址形成新的網頁地址列表, 并重復執(zhí)行步驟302。此時步驟302中的對目標頁面和對子目標頁面的處理方式完全相同。
[0087] 步驟306:在獲取到所有結構化數據后,存儲該結構化數據。
[0088] 本發(fā)明實施例提供的一種獲取結構化數據的方法,在抓取到目標頁面數據后,利 用集合一個或多個子提取規(guī)則的信息提取規(guī)則獲取目標頁面數據中的結構化數據,將信息 提取步驟簡化為子提取規(guī)則,簡化了信息提取的過程,同時可以及時、高通量、精準地提取 目標頁面數據中的結構化數據。該信息提取規(guī)則為可重復調用的規(guī)則,針對多條目標頁面 地址時,可以重復利用該信息提取規(guī)則提取出相應的結構化數據。根據優(yōu)先級調度原則優(yōu) 先抓取優(yōu)先級高的目標頁面,能夠優(yōu)先抓取重要的目標頁面,可以提高重要頁面抓取的時 效性。通過重復確定目標頁面的下級頁面,從而重復調用該信息提取規(guī)則即可以獲取完整 的結構化數據。
[0089] 以上詳細介紹了該獲取結構化數據的方法流程,該方法也可以通過相應的裝置實 現,下面詳細介紹該裝置的結構和功能。
[0090] 本發(fā)明實施例提供的一種獲取結構化數據的裝置,參見圖4所示,包括:
[0091 ]獲取模塊41,用于獲取頁面地址列表,頁面地址列表中包含一條或多條目標頁面 地址;
[0092] 第一抓取模塊42,用于抓取與目標頁面地址相對應的目標頁面中的目標頁面數 據;
[0093] 第一提取模塊43,用于根據預設的信息提取規(guī)則提取目標頁面數據中的結構化數 據,信息提取規(guī)則為一個或多個子提取規(guī)則的集合。
[0094]在一種可能的實現方式中,信息提取規(guī)則為XML格式和/或JS0N格式的規(guī)則;子提 取規(guī)則包括:XPath提取規(guī)則,并還包括正則過濾規(guī)則、正則提取規(guī)則、添加前綴規(guī)則、添加 后綴規(guī)則和目標字符串連接規(guī)則中的零項或多項,目標字符串連接規(guī)則為以預設字符串連 接多個目標字符串。
[0095]在一種可能的實現方式中,參見圖5所示,第一抓取模塊42包括:
[0096] 確定單元421,用于根據目標網站的權重和目標頁面的權重確定目標頁面的優(yōu)先 級,目標網站為目標頁面所在的網站;
[0097] 抓取單元422,用于根據目標頁面的優(yōu)先級依次抓取目標頁面中的目標頁面數據。
[0098] 在一種可能的實現方式中,結構化數據包括子目標頁面的子目標頁面地址,子目 標頁面為目標頁面的下級頁面;此時參加那圖6所示,該裝置還包括:
[0099] 第二抓取模塊44,用于抓取子目標頁面中的子目標頁面數據;
[0100]第二提取模塊45,用于根據預設的信息提取規(guī)則提取子目標頁面數據中的結構化 數據。
[0101] 在一種可能的實現方式中,參見圖7所示,還包括:報警模塊46,用于在檢測到報警 事件時推送報警消息,報警事件包括信息提取規(guī)則失效和/或CPU過載。
[0102] 本發(fā)明實施例提供的一種獲取結構化數據的方法及裝置,在抓取到目標頁面數據 后,利用集合一個或多個子提取規(guī)則的信息提取規(guī)則獲取目標頁面數據中的結構化數據, 將信息提取步驟簡化為子提取規(guī)則,簡化了信息提取的過程,同時可以及時、高通量、精準 地提取目標頁面數據中的結構化數據。該信息提取規(guī)則為可重復調用的規(guī)則,針對多條目 標頁面地址時,可以重復利用該信息提取規(guī)則提取出相應的結構化數據。根據優(yōu)先級調度 原則優(yōu)先抓取優(yōu)先級高的目標頁面,能夠優(yōu)先抓取重要的目標頁面,可以提高重要頁面抓 取的時效性。通過重復確定目標頁面的下級頁面,從而重復調用該信息提取規(guī)則即可以獲 取完整的結構化數據。
[0103] 圖8示出了本發(fā)明的另一個實施例的一種網絡設備的結構框圖。所述網絡設備 1100可以是具備計算能力的主機服務器、個人計算機PC、或者可攜帶的便攜式計算機或終 端等。本發(fā)明具體實施例并不對計算節(jié)點的具體實現做限定。
[0104] 該網絡設備 1100包括處理器(processor) 1110、通信接口(Communications Interface) 1120、存儲器(memory array)1130和總線1140。其中,處理器1110、通信接口 1120、以及存儲器1130通過總線1140完成相互間的通信。
[0105] 通信接口 1120用于與網元通信,其中網元包括例如虛擬機管理中心、共享存儲等。 [0106] 處理器1110用于執(zhí)行程序。處理器1110可能是一個中央處理器CPU,或者是專用集 成電路ASIC(Application Specific Integrated Circuit),或者是被配置成實施本發(fā)明 實施例的一個或多個集成電路。
[0107] 存儲器1130用于存放文件。存儲器1130可能包含高速RAM存儲器,也可能還包括非 易失性存儲器(non-volatile memory),例如至少一個磁盤存儲器。存儲器1130也可以是存 儲器陣列。存儲器1130還可能被分塊,并且所述塊可按一定的規(guī)則組合成虛擬卷。
[0108] 在一種可能的實施方式中,上述程序可為包括計算機操作指令的程序代碼。該程 序具體可用于:
[0109] 在第一方面,提供一種獲取結構化數據的方法,包括:
[0110] 獲取頁面地址列表,頁面地址列表中包含一條或多條目標頁面地址;
[0111] 抓取與目標頁面地址相對應的目標頁面中的目標頁面數據;
[0112] 根據預設的信息提取規(guī)則提取目標頁面數據中的結構化數據,信息提取規(guī)則為一 個或多個子提取規(guī)則的集合。
[0113]在一種可能的實現方式中,信息提取規(guī)則為XML格式和/或JS0N格式的規(guī)則;
[0114] 子提取規(guī)則包括:XPath提取規(guī)則,并還包括正則過濾規(guī)則、正則提取規(guī)則、添加前 綴規(guī)則、添加后綴規(guī)則和目標字符串連接規(guī)則中的零項或多項,目標字符串連接規(guī)則為以 預設字符串連接多個目標字符串。
[0115] 在一種可能的實現方式中,抓取與目標頁面地址相對應的目標頁面中的目標頁面 數據,包括:
[0116]根據目標網站的權重和目標頁面的權重確定目標頁面的優(yōu)先級,目標網站為目標 頁面所在的網站;
[0117]根據目標頁面的優(yōu)先級依次抓取目標頁面中的目標頁面數據。
[0118] 在一種可能的實現方式中,結構化數據包括子目標頁面的子目標頁面地址,子目 標頁面為目標頁面的下級頁面;方法還包括:
[0119] 抓取子目標頁面中的子目標頁面數據;
[0120] 根據預設的信息提取規(guī)則提取子目標頁面數據中的結構化數據。
[0121] 在一種可能的實現方式中,還包括:
[0122] 在檢測到報警事件時推送報警消息,報警事件包括信息提取規(guī)則失效和/或CPU過 載。
[0123] 本領域內的技術人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序 產品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實 施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機 可用存儲介質(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產品的形 式。
[0124] 本發(fā)明是參照根據本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產品的流程 圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流 程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序 指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產 生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執(zhí)行的指令產生用于實 現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0125] 這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特 定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指 令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或 多個方框中指定的功能。
[0126] 這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計 算機或其他可編程設備上執(zhí)行一系列操作步驟以產生計算機實現的處理,從而在計算機或 其他可編程設備上執(zhí)行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一 個方框或多個方框中指定的功能的步驟。
[0127] 前述對本發(fā)明的具體示例性實施方案的描述是為了說明和例證的目的。這些描述 并非想將本發(fā)明限定為所公開的精確形式,并且很顯然,根據上述教導,可以進行很多改變 和變化。對示例性實施例進行選擇和描述的目的在于解釋本發(fā)明的特定原理及其實際應 用,從而使得本領域的技術人員能夠實現并利用本發(fā)明的各種不同的示例性實施方案以及 各種不同的選擇和改變。本發(fā)明的范圍意在由權利要求書及其等同形式所限定。
[0128] 以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可 以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單 元,即可以位于一個地方,或者也可以分布到多個網絡單元上??梢愿鶕嶋H的需要選擇其 中的部分或者全部模塊來實現本實施例方案的目的。本領域普通技術人員在不付出創(chuàng)造性 的勞動的情況下,即可以理解并實施。
【主權項】
1. 一種獲取結構化數據的方法,其特征在于,包括: 獲取頁面地址列表,所述頁面地址列表中包含一條或多條目標頁面地址; 抓取與所述目標頁面地址相對應的目標頁面中的目標頁面數據; 根據預設的信息提取規(guī)則提取所述目標頁面數據中的結構化數據,所述信息提取規(guī)則 為一個或多個子提取規(guī)則的集合。2. 根據權利要求1所述的方法,其特征在于,所述信息提取規(guī)則為XML格式和/或JSON格 式的規(guī)則; 所述子提取規(guī)則包括:XPath提取規(guī)則,還包括正則過濾規(guī)則、正則提取規(guī)則、添加前綴 規(guī)則、添加后綴規(guī)則和目標字符串連接規(guī)則中的零項或多項,所述目標字符串連接規(guī)則為 以預設字符串連接多個目標字符串。3. 根據權利要求1所述的方法,其特征在于,所述抓取與所述目標頁面地址相對應的目 標頁面中的目標頁面數據,包括: 根據目標網站的權重和所述目標頁面的權重確定所述目標頁面的優(yōu)先級,所述目標網 站為所述目標頁面所在的網站; 根據所述目標頁面的優(yōu)先級依次抓取目標頁面中的目標頁面數據。4. 根據權利要求1所述的方法,其特征在于,所述結構化數據包括子目標頁面的子目標 頁面地址,所述子目標頁面為所述目標頁面的下級頁面;所述方法還包括: 抓取所述子目標頁面中的子目標頁面數據; 根據預設的信息提取規(guī)則提取所述子目標頁面數據中的結構化數據。5. 根據權利要求1-4任一所述的方法,其特征在于,還包括: 在檢測到報警事件時推送報警消息,所述報警事件包括信息提取規(guī)則失效和/或CPU過 載。6. -種獲取結構化數據的裝置,其特征在于,包括: 獲取模塊,用于獲取頁面地址列表,所述頁面地址列表中包含一條或多條目標頁面地 址; 第一抓取模塊,用于抓取與所述目標頁面地址相對應的目標頁面中的目標頁面數據; 第一提取模塊,用于根據預設的信息提取規(guī)則提取所述目標頁面數據中的結構化數 據,所述信息提取規(guī)則為一個或多個子提取規(guī)則的集合。7. 根據權利要求6所述的裝置,其特征在于,所述信息提取規(guī)則為XML格式和/或JSON格 式的規(guī)則; 所述子提取規(guī)則包括:XPath提取規(guī)則,還包括正則過濾規(guī)則、正則提取規(guī)則、添加前綴 規(guī)則、添加后綴規(guī)則和目標字符串連接規(guī)則中的零項或多項,所述目標字符串連接規(guī)則為 以預設字符串連接多個目標字符串。8. 根據權利要求6所述的裝置,其特征在于,所述第一抓取模塊包括: 確定單元,用于根據目標網站的權重和所述目標頁面的權重確定所述目標頁面的優(yōu)先 級,所述目標網站為所述目標頁面所在的網站; 抓取單元,用于根據所述目標頁面的優(yōu)先級依次抓取目標頁面中的目標頁面數據。9. 根據權利要求6所述的裝置,其特征在于,所述結構化數據包括子目標頁面的子目標 頁面地址,所述子目標頁面為所述目標頁面的下級頁面;所述裝置還包括: 第二抓取模塊,用于抓取所述子目標頁面中的子目標頁面數據; 第二提取模塊,用于根據預設的信息提取規(guī)則提取所述子目標頁面數據中的結構化數 據。10.根據權利要求6-9任一所述的裝置,其特征在于,還包括: 報警模塊,用于在檢測到報警事件時推送報警消息,所述報警事件包括信息提取規(guī)則 失效和/或CPU過載。
【文檔編號】G06F17/30GK106095984SQ201610446125
【公開日】2016年11月9日
【申請日】2016年6月20日
【發(fā)明人】方婧
【申請人】樂視控股(北京)有限公司, 樂視網信息技術(北京)股份有限公司