欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)頁內(nèi)容抽取方法、裝置及系統(tǒng)的制作方法

文檔序號(hào):10665802閱讀:334來源:國知局
網(wǎng)頁內(nèi)容抽取方法、裝置及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種網(wǎng)頁內(nèi)容抽取方法、裝置及系統(tǒng),其方法包括:抽取系統(tǒng)接收業(yè)務(wù)層發(fā)送的抽取網(wǎng)頁URL請(qǐng)求,抽取網(wǎng)頁URL請(qǐng)求攜帶有所述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;根據(jù)抽取網(wǎng)頁URL請(qǐng)求,調(diào)用網(wǎng)頁爬蟲系統(tǒng)爬取所述URL指定的頁面原始內(nèi)容;以模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì)頁面原始內(nèi)容進(jìn)行抽取,并將抽取的內(nèi)容返回給業(yè)務(wù)層。本發(fā)明充分利用后臺(tái)爬取網(wǎng)頁的能力,同時(shí)通過解析原始網(wǎng)頁與抽取模板實(shí)現(xiàn)抽取原始網(wǎng)頁指定標(biāo)簽內(nèi)容的能力,該方案適應(yīng)所有Web網(wǎng)頁版式抽取指定網(wǎng)頁標(biāo)簽內(nèi)容,提高了抽取原始網(wǎng)頁的能力以及網(wǎng)頁內(nèi)容抽取的靈活性。
【專利說明】
網(wǎng)頁內(nèi)容抽取方法、裝置及系統(tǒng)
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁內(nèi)容抽取方法、裝置及系統(tǒng)。【背景技術(shù)】
[0002]隨著智能設(shè)備瀏覽器消費(fèi)需求的不斷擴(kuò)大,用戶對(duì)于移動(dòng)端瀏覽器產(chǎn)品的需求也逐漸增多。在提升瀏覽器本身搜索性能以及體驗(yàn)的同時(shí),挖掘與瀏覽器內(nèi)容聚合能力相關(guān)的需求也迫在眉睫。用戶對(duì)瀏覽器內(nèi)內(nèi)容聚合的產(chǎn)品提出了更多的要求,例如小說書架、熱門視頻等產(chǎn)品的內(nèi)容聚合能力就成了決定產(chǎn)品內(nèi)容是否優(yōu)質(zhì)的關(guān)鍵選擇。通常垂直類產(chǎn)品內(nèi)容的聚合是依靠相關(guān)產(chǎn)品的心13網(wǎng)站內(nèi)容爬取與抽取,所以抽取原始網(wǎng)頁的能力是內(nèi)容聚合能力的基本體現(xiàn),而目前對(duì)原始網(wǎng)頁指定網(wǎng)頁標(biāo)簽內(nèi)容的抽取通常依賴抽取網(wǎng)頁對(duì)象版式,從而降低了網(wǎng)頁內(nèi)容抽取的靈活性。
【發(fā)明內(nèi)容】

[0003]本發(fā)明實(shí)施例提供一種網(wǎng)頁內(nèi)容抽取方法、裝置及系統(tǒng),旨在提高抽取原始網(wǎng)頁的能力以及網(wǎng)頁內(nèi)容抽取的靈活性。
[0004]本發(fā)明實(shí)施例提出一種網(wǎng)頁內(nèi)容抽取方法,包括:
[0005]抽取系統(tǒng)接收業(yè)務(wù)層發(fā)送的抽取網(wǎng)頁URL請(qǐng)求,所述抽取網(wǎng)頁URL請(qǐng)求攜帶有所述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;
[0006]根據(jù)所述抽取網(wǎng)頁URL請(qǐng)求,調(diào)用網(wǎng)頁爬蟲系統(tǒng)爬取所述URL指定的頁面原始內(nèi)容;
[0007]以所述模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì)所述頁面原始內(nèi)容進(jìn)行抽取,并將抽取的內(nèi)容返回給所述業(yè)務(wù)層。
[0008]本發(fā)明實(shí)施例還提出一種網(wǎng)頁內(nèi)容抽取裝置,包括:
[0009]接收模塊,用于接收業(yè)務(wù)層發(fā)送的抽取網(wǎng)頁URL請(qǐng)求,所述抽取網(wǎng)頁URL請(qǐng)求攜帶有所述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;
[0010]調(diào)用模塊,用于根據(jù)所述抽取網(wǎng)頁URL請(qǐng)求,調(diào)用網(wǎng)頁爬蟲系統(tǒng)爬取所述URL指定的頁面原始內(nèi)容;
[0011]抽取模塊,用于以所述模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì)所述頁面原始內(nèi)容進(jìn)行抽取, 并將抽取的內(nèi)容返回給所述業(yè)務(wù)層。
[0012]本發(fā)明實(shí)施例還提出一種抽取網(wǎng)頁內(nèi)容的系統(tǒng),包括:業(yè)務(wù)層、爬蟲系統(tǒng)和抽取系統(tǒng);其中:
[0013]所述業(yè)務(wù)層,用于向抽取系統(tǒng)發(fā)送抽取網(wǎng)頁URL請(qǐng)求,所述抽取網(wǎng)頁URL請(qǐng)求攜帶有所述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;
[0014]所述抽取系統(tǒng),包括如上所述的裝置;
[0015]所述爬蟲系統(tǒng),用于根據(jù)所述抽取系統(tǒng)的調(diào)用指令,從第三方網(wǎng)站爬取所述URL 指定的頁面原始內(nèi)容,返回給所述抽取系統(tǒng)。
[0016]本發(fā)明實(shí)施例提出的一種網(wǎng)頁內(nèi)容抽取方法、裝置及系統(tǒng),業(yè)務(wù)層向抽取系統(tǒng)發(fā)送抽取網(wǎng)頁URL請(qǐng)求;抽取系統(tǒng)根據(jù)抽取網(wǎng)頁URL請(qǐng)求,調(diào)用網(wǎng)頁爬蟲系統(tǒng)爬取URL指定的頁面原始內(nèi)容;抽取系統(tǒng)以所述模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì)頁面原始內(nèi)容進(jìn)行抽取,并將抽取的內(nèi)容返回給業(yè)務(wù)層,本發(fā)明充分利用后臺(tái)爬取網(wǎng)頁的能力,同時(shí)通過解析原始網(wǎng)頁與抽取模板實(shí)現(xiàn)抽取原始網(wǎng)頁指定標(biāo)簽內(nèi)容的能力,該方案適應(yīng)所有Web網(wǎng)頁版式抽取指定網(wǎng)頁標(biāo)簽內(nèi)容,提高了抽取原始網(wǎng)頁的能力以及網(wǎng)頁內(nèi)容抽取的靈活性?!靖綀D說明】
[0017]圖1是本發(fā)明實(shí)施例方案涉及的系統(tǒng)架構(gòu)示意圖;
[0018]圖2是本發(fā)明實(shí)施例抽取模板指定字段示意圖;
[0019]圖3是本發(fā)明實(shí)施例方案涉及的移動(dòng)終端的硬件結(jié)構(gòu)示意圖;
[0020]圖4是如圖3所示的移動(dòng)終端的無線通信系統(tǒng)示意圖;
[0021]圖5是本發(fā)明網(wǎng)頁內(nèi)容抽取方法第一實(shí)施例的流程示意圖;
[0022]圖6是本發(fā)明網(wǎng)頁內(nèi)容抽取方法第二實(shí)施例的流程示意圖;
[0023]圖7是本發(fā)明網(wǎng)頁內(nèi)容抽取裝置較佳實(shí)施例的功能模塊示意圖。
[0024]為了使本發(fā)明的技術(shù)方案更加清楚、明了,下面將結(jié)合附圖作進(jìn)一步詳述。【具體實(shí)施方式】
[0025]應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0026]本發(fā)明實(shí)施例方案的核心思想是:業(yè)務(wù)層向抽取系統(tǒng)發(fā)送抽取網(wǎng)頁URL請(qǐng)求述抽取網(wǎng)頁URL請(qǐng)求攜帶有所述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;抽取系統(tǒng)根據(jù)所述抽取網(wǎng)頁URL請(qǐng)求,調(diào)用網(wǎng)頁爬蟲系統(tǒng)爬取所述URL指定的頁面原始內(nèi)容;抽取系統(tǒng)以所述模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì)頁面原始內(nèi)容進(jìn)行抽取,并將抽取的內(nèi)容返回給業(yè)務(wù)層,本發(fā)明充分利用后臺(tái)爬取網(wǎng)頁的能力,同時(shí)通過解析原始網(wǎng)頁與抽取模板實(shí)現(xiàn)抽取原始網(wǎng)頁指定標(biāo)簽內(nèi)容的能力,該方案適應(yīng)所有Web網(wǎng)頁版式抽取指定網(wǎng)頁標(biāo)簽內(nèi)容,提高了抽取原始網(wǎng)頁的能力以及網(wǎng)頁內(nèi)容抽取的靈活性。
[0027]本發(fā)明實(shí)施例考慮到,目前對(duì)原始網(wǎng)頁指定網(wǎng)頁標(biāo)簽內(nèi)容的抽取通常依賴抽取網(wǎng)頁對(duì)象版式,降低了網(wǎng)頁內(nèi)容抽取的靈活性。
[0028]本發(fā)明實(shí)施例方案可以充分利用后臺(tái)爬取網(wǎng)頁的能力,同時(shí)通過解析原始網(wǎng)頁與抽取模板實(shí)現(xiàn)抽取原始網(wǎng)頁指定標(biāo)簽內(nèi)容的能力,該方案適應(yīng)所有Web網(wǎng)頁版式抽取指定網(wǎng)頁標(biāo)簽內(nèi)容,提高了抽取原始網(wǎng)頁的能力以及網(wǎng)頁內(nèi)容抽取的靈活性。
[0029]具體地,如圖1所示,本發(fā)明實(shí)施例方案涉及的系統(tǒng)架構(gòu)可以包括業(yè)務(wù)層、抽取系統(tǒng)、爬蟲系統(tǒng)和第三方網(wǎng)站;其中:
[0030]業(yè)務(wù)層確定用于抽取指定的頁面字段,生成網(wǎng)頁抽取字段的模板協(xié)議文件,并向抽取系統(tǒng)發(fā)送抽取網(wǎng)頁URL請(qǐng)求,所述抽取網(wǎng)頁URL請(qǐng)求攜帶有所述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;
[0031]抽取系統(tǒng)用于根據(jù)所述抽取網(wǎng)頁URL請(qǐng)求,調(diào)用網(wǎng)頁爬蟲系統(tǒng)爬取所述URL指定的頁面原始內(nèi)容;
[0032]所述爬蟲系統(tǒng)用于根據(jù)所述抽取系統(tǒng)的調(diào)用指令,從第三方網(wǎng)站爬取所述URL指定的頁面原始內(nèi)容,返回給所述抽取系統(tǒng);
[0033]所述抽取系統(tǒng)以所述模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì)所述頁面原始內(nèi)容進(jìn)行抽取, 并將抽取的內(nèi)容返回給所述業(yè)務(wù)層。
[0034]由此充分利用后臺(tái)爬取網(wǎng)頁的能力,同時(shí)通過解析原始網(wǎng)頁與抽取模板實(shí)現(xiàn)抽取原始網(wǎng)頁指定標(biāo)簽內(nèi)容的能力,該方案適應(yīng)所有Web網(wǎng)頁版式抽取指定網(wǎng)頁標(biāo)簽內(nèi)容,提高了抽取原始網(wǎng)頁的能力以及網(wǎng)頁內(nèi)容抽取的靈活性。
[0035]具體處理流程如下:
[0036]1.1業(yè)務(wù)側(cè)根據(jù)需求,確定抽取指定的頁面標(biāo)簽字段,生成網(wǎng)頁抽取字段的模板協(xié)議文件,并校驗(yàn)?zāi)0鍏f(xié)議文件的正確性,其中,模板協(xié)議為定義抽取字段標(biāo)識(shí)的文檔協(xié)議; 業(yè)務(wù)側(cè)發(fā)出抽取網(wǎng)頁URL請(qǐng)求,抽取指定內(nèi)容的流程開始。
[0037]1.2抽取系統(tǒng)接收到抽取URL請(qǐng)求參數(shù)后,開始調(diào)用網(wǎng)頁爬蟲系統(tǒng)從第三方網(wǎng)站爬取請(qǐng)求URL的頁面數(shù)據(jù)信息,只有獲取指定URL的頁面數(shù)據(jù)信息,才能開始抽取模板配置字段內(nèi)容。
[0038]1.3爬蟲系統(tǒng)接收到指定爬取的URL參數(shù)后,通過Http協(xié)議從第三方網(wǎng)站爬取頁面數(shù)據(jù)信息;
[0039]1.4爬蟲系統(tǒng)爬取到原始頁面數(shù)據(jù)信息;
[0040]1.5爬蟲系統(tǒng)正常返回頁面數(shù)據(jù)信息至抽取系統(tǒng),抽取系統(tǒng)獲取爬蟲系統(tǒng)返回的原始頁面信息,開始解析原始頁面與定義抽取字段的模板協(xié)議,匹配抽取出指定模板配置字段內(nèi)容。
[0041]參照?qǐng)D2,圖2為本發(fā)明實(shí)施例抽取模板指定字段示意圖,其中,左側(cè)圖代表原始頁面,右側(cè)圖代表抽取模板協(xié)議文件。
[0042]如圖2所示,首先,抽取系統(tǒng)需要將爬取返回的頁面數(shù)據(jù)還原生成標(biāo)準(zhǔn)D0M樹(D0M 樹為文檔對(duì)象模型,本發(fā)明表示的是HTML格式化后的對(duì)象樹,方便計(jì)算機(jī)處理遍歷、存取操作),完成后,將配置的模板協(xié)議文件同樣還原生成標(biāo)準(zhǔn)D0M樹(方便處理與原頁面D0M 樹元素對(duì)比操作)。以上兩個(gè)步驟都順利完成,則開始遞歸遍歷模板協(xié)議配置生成的D0M樹 (其中,一定是以模板配置協(xié)議文件為匹配標(biāo)準(zhǔn),這樣才能具備更多的兼容性),依次比對(duì)原頁面D0M樹,遇到抽取特殊標(biāo)識(shí)(本發(fā)明中用符號(hào)表示),則將原頁面同等級(jí)內(nèi)容保存下來,直到匹配出錯(cuò)或者遍歷完成退出。
[0043]1.6最后抽取系統(tǒng)將抽取完成的標(biāo)識(shí)符與內(nèi)容返回給調(diào)用業(yè)務(wù)層,完成整個(gè)抽取流程。
[0044]由上述流程可知,本實(shí)施例方案基于現(xiàn)有爬蟲系統(tǒng)的爬取網(wǎng)頁能力,同時(shí),在流程上分離了業(yè)務(wù)與開發(fā)模塊,抽取系統(tǒng)完全對(duì)業(yè)務(wù)層透明,業(yè)務(wù)側(cè)只需要關(guān)注必要抽取字段, 通過配置抽取模板協(xié)議文件完成抽取流程任務(wù)搭建,之后業(yè)務(wù)層就能順利取出抽取字段, 極大提升整體效率。
[0045]相比現(xiàn)有技術(shù),本發(fā)明充分利用后臺(tái)爬取網(wǎng)頁的能力,同時(shí)通過解析原始網(wǎng)頁與抽取模板實(shí)現(xiàn)抽取原始網(wǎng)頁指定標(biāo)簽內(nèi)容的能力,該方案適應(yīng)所有Web網(wǎng)頁版式抽取指定網(wǎng)頁標(biāo)簽內(nèi)容,提高了抽取原始網(wǎng)頁的能力以及網(wǎng)頁內(nèi)容抽取的靈活性。本發(fā)明能最快速、 方便的解決業(yè)務(wù)抽取需求,同時(shí)因?yàn)榫邆錁O強(qiáng)的靈活性,使得變更成本非常小,只需變更模板配置協(xié)議文件即可。
[0046]需要說明的是,上述抽取系統(tǒng)的功能可以以客戶端軟件的形式集成在一網(wǎng)頁內(nèi)容抽取裝置中,該網(wǎng)頁內(nèi)容抽取裝置可以承載于PC端,也可以承載于手機(jī)、平板電腦、便攜式手持設(shè)備等各種移動(dòng)終端上,本發(fā)明實(shí)施例以移動(dòng)終端進(jìn)行舉例,移動(dòng)終端通過客戶端軟件向用戶提供應(yīng)用操作界面,并根據(jù)用戶的相應(yīng)操作,進(jìn)行網(wǎng)頁內(nèi)容抽取,實(shí)現(xiàn)抽取原始網(wǎng)頁指定標(biāo)簽內(nèi)容的能力,提尚網(wǎng)頁內(nèi)容抽取的靈活性。
[0047]首先,將參考附圖描述實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的移動(dòng)終端。在后續(xù)的描述中,使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說明,其本身并沒有特定的意義。因此,“模塊”與“部件”可以混合地使用。
[0048]上述移動(dòng)終端可以以各種形式來實(shí)施。例如,本發(fā)明中描述的終端可以包括諸如移動(dòng)電話、智能電話、筆記本電腦、數(shù)字廣播接收器、PDA(個(gè)人數(shù)字助理)、PAD(平板電腦)、 PMP(便攜式多媒體播放器)、導(dǎo)航裝置等等的移動(dòng)終端以及諸如數(shù)字TV、臺(tái)式計(jì)算機(jī)等等的固定終端。
[0049]下面,以終端是移動(dòng)終端進(jìn)行舉例。然而,本領(lǐng)域技術(shù)人員將理解的是,除了特別用于移動(dòng)目的的元件之外,根據(jù)本發(fā)明的實(shí)施方式的構(gòu)造也能夠應(yīng)用于固定類型的終端。
[0050]如圖3所示,圖3為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的移動(dòng)終端的硬件結(jié)構(gòu)示意。
[0051]移動(dòng)終端100可以包括無線通信單元110、A/V (音頻/視頻)輸入單元120、用戶輸入單元130、感測單元140、輸出單元150、存儲(chǔ)器160、接口單元170、控制器180和電源單元190等等。
[0052]圖3示出了具有各種組件的移動(dòng)終端,但是應(yīng)理解的是,并不要求實(shí)施所有示出的組件。可以替代地實(shí)施更多或更少的組件。將在下面詳細(xì)描述移動(dòng)終端的元件。
[0053]無線通信單元110通常包括一個(gè)或多個(gè)組件,其允許移動(dòng)終端100與無線通信系統(tǒng)或網(wǎng)絡(luò)之間的無線電通信。例如,無線通信單元可以包括廣播接收模塊111、移動(dòng)通信模塊112、無線互聯(lián)網(wǎng)模塊113、短程通信模塊114和位置信息模塊115中的至少一個(gè)。
[0054]廣播接收模塊111經(jīng)由廣播信道從外部廣播管理服務(wù)器接收廣播信號(hào)和/或廣播相關(guān)信息。廣播信道可以包括衛(wèi)星信道和/或地面信道。廣播管理服務(wù)器可以是生成并發(fā)送廣播信號(hào)和/或廣播相關(guān)信息的服務(wù)器或者接收之前生成的廣播信號(hào)和/或廣播相關(guān)信息并且將其發(fā)送給終端的服務(wù)器。廣播信號(hào)可以包括TV廣播信號(hào)、無線電廣播信號(hào)、數(shù)據(jù)廣播信號(hào)等等。而且,廣播信號(hào)可以進(jìn)一步包括與TV或無線電廣播信號(hào)組合的廣播信號(hào)。廣播相關(guān)信息也可以經(jīng)由移動(dòng)通信網(wǎng)絡(luò)提供,并且在該情況下,廣播相關(guān)信息可以由移動(dòng)通信模塊112來接收。廣播信號(hào)可以以各種形式存在,例如,其可以以數(shù)字多媒體廣播 (DMB)的電子節(jié)目指南(EPG)、數(shù)字視頻廣播手持(DVB-H)的電子服務(wù)指南(ESG)等等的形式而存在。廣播接收模塊111可以通過使用各種類型的廣播系統(tǒng)接收信號(hào)廣播。特別地, 廣播接收模塊111可以通過使用諸如多媒體廣播-地面(DMB-T)、數(shù)字多媒體廣播-衛(wèi)星 (DMB-S)、數(shù)字視頻廣播-手持(DVB-H),前向鏈路媒體(MediaFL0@)的數(shù)據(jù)廣播系統(tǒng)、地面數(shù)字廣播綜合服務(wù)(ISDB-T)等等的數(shù)字廣播系統(tǒng)接收數(shù)字廣播。廣播接收模塊111可以被構(gòu)造為適合提供廣播信號(hào)的各種廣播系統(tǒng)以及上述數(shù)字廣播系統(tǒng)。經(jīng)由廣播接收模塊111 接收的廣播信號(hào)和/或廣播相關(guān)信息可以存儲(chǔ)在存儲(chǔ)器160 (或者其它類型的存儲(chǔ)介質(zhì)) 中。
[0055]移動(dòng)通信模塊112將無線電信號(hào)發(fā)送到基站(例如,接入點(diǎn)、節(jié)點(diǎn)B等等)、外部終端以及服務(wù)器中的至少一個(gè)和/或從其接收無線電信號(hào)。這樣的無線電信號(hào)可以包括語音通話信號(hào)、視頻通話信號(hào)、或者根據(jù)文本和/或多媒體消息發(fā)送和/或接收的各種類型的數(shù)據(jù)。
[0056]無線互聯(lián)網(wǎng)模塊113支持移動(dòng)終端的無線互聯(lián)網(wǎng)接入。該模塊可以內(nèi)部或外部地耦接到終端。該模塊所涉及的無線互聯(lián)網(wǎng)接入技術(shù)可以包括WLAN(無線LAN) (W1-Fi)、 Wibro (無線寬帶)、Wimax (全球微波互聯(lián)接入)、HSDPA (高速下行鏈路分組接入)等等。
[0057] 短程通信模塊114是用于支持短程通信的模塊。短程通信技術(shù)的一些示例包括藍(lán)牙?、射頻識(shí)別(RFID)、紅外數(shù)據(jù)協(xié)會(huì)(I rDA)、超寬帶(UWB)、紫蜂?等等。
[0058]位置信息模塊115是用于檢查或獲取移動(dòng)終端的位置信息的模塊。位置信息模塊的典型示例是GPS(全球定位系統(tǒng))。根據(jù)當(dāng)前的技術(shù),GPS模塊115計(jì)算來自三個(gè)或更多衛(wèi)星的距離信息和準(zhǔn)確的時(shí)間信息并且對(duì)于計(jì)算的信息應(yīng)用三角測量法,從而根據(jù)經(jīng)度、 煒度和高度準(zhǔn)確地計(jì)算三維當(dāng)前位置信息。當(dāng)前,用于計(jì)算位置和時(shí)間信息的方法使用三顆衛(wèi)星并且通過使用另外的一顆衛(wèi)星校正計(jì)算出的位置和時(shí)間信息的誤差。此外,GPS模塊115能夠通過實(shí)時(shí)地連續(xù)計(jì)算當(dāng)前位置信息來計(jì)算速度信息。
[0059]A/V輸入單元120用于接收音頻或視頻信號(hào)。A/V輸入單元120可以包括相機(jī)121 和麥克風(fēng)1220,相機(jī)121對(duì)在視頻捕獲模式或圖像捕獲模式中由圖像捕獲裝置獲得的靜態(tài)圖片或視頻的圖像數(shù)據(jù)進(jìn)行處理。處理后的圖像幀可以顯示在顯示單元151上。經(jīng)相機(jī) 121處理后的圖像幀可以存儲(chǔ)在存儲(chǔ)器160(或其它存儲(chǔ)介質(zhì))中或者經(jīng)由無線通信單元 110進(jìn)行發(fā)送,可以根據(jù)移動(dòng)終端的構(gòu)造提供兩個(gè)或更多相機(jī)1210。麥克風(fēng)122可以在電話通話模式、記錄模式、語音識(shí)別模式等等運(yùn)行模式中經(jīng)由麥克風(fēng)接收聲音(音頻數(shù)據(jù)), 并且能夠?qū)⑦@樣的聲音處理為音頻數(shù)據(jù)。處理后的音頻(語音)數(shù)據(jù)可以在電話通話模式的情況下轉(zhuǎn)換為可經(jīng)由移動(dòng)通信模塊112發(fā)送到移動(dòng)通信基站的格式輸出。麥克風(fēng)122可以實(shí)施各種類型的噪聲消除(或抑制)算法以消除(或抑制)在接收和發(fā)送音頻信號(hào)的過程中產(chǎn)生的噪聲或者干擾。
[0060] 用戶輸入單元130可以根據(jù)用戶輸入的命令生成鍵輸入數(shù)據(jù)以控制移動(dòng)終端的各種操作。用戶輸入單元130允許用戶輸入各種類型的信息,并且可以包括鍵盤、鍋?zhàn)衅?觸摸板(例如,檢測由于被接觸而導(dǎo)致的電阻、壓力、電容等等的變化的觸敏組件)、滾輪、 搖桿等等。特別地,當(dāng)觸摸板以層的形式疊加在顯示單元151上時(shí),可以形成觸摸屏。
[0061] 感測單元140檢測移動(dòng)終端100的當(dāng)前狀態(tài),(例如,移動(dòng)終端100的打開或關(guān)閉狀態(tài))、移動(dòng)終端100的位置、用戶對(duì)于移動(dòng)終端100的接觸(即,觸摸輸入)的有無、移動(dòng)終端100的取向、移動(dòng)終端100的加速或減速移動(dòng)和方向等等,并且生成用于控制移動(dòng)終端 100的操作的命令或信號(hào)。例如,當(dāng)移動(dòng)終端100實(shí)施為滑動(dòng)型移動(dòng)電話時(shí),感測單元140 可以感測該滑動(dòng)型電話是打開還是關(guān)閉。另外,感測單元140能夠檢測電源單元190是否提供電力或者接口單元170是否與外部裝置耦接。感測單元140可以包括接近傳感器1410 將在下面結(jié)合觸摸屏來對(duì)此進(jìn)行描述。
[0062]接口單元170用作至少一個(gè)外部裝置與移動(dòng)終端100連接可以通過的接口。例如,外部裝置可以包括有線或無線頭戴式耳機(jī)端口、外部電源(或電池充電器)端口、有線或無線數(shù)據(jù)端口、存儲(chǔ)卡端口、用于連接具有識(shí)別模塊的裝置的端口、音頻輸入/輸出(1/ 〇)端口、視頻I/O端口、耳機(jī)端口等等。識(shí)別模塊可以是存儲(chǔ)用于驗(yàn)證用戶使用移動(dòng)終端100的各種信息并且可以包括用戶識(shí)別模塊OHM)、客戶識(shí)別模塊(S頂)、通用客戶識(shí)別模塊(USIM)等等。另外,具有識(shí)別模塊的裝置(下面稱為"識(shí)別裝置")可以采取智能卡的形式,因此,識(shí)別裝置可以經(jīng)由端口或其它連接裝置與移動(dòng)終端100連接。接口單元170可以用于接收來自外部裝置的輸入(例如,數(shù)據(jù)信息、電力等等)并且將接收到的輸入傳輸?shù)揭苿?dòng)終端100內(nèi)的一個(gè)或多個(gè)元件或者可以用于在移動(dòng)終端和外部裝置之間傳輸數(shù)據(jù)。
[0063] 另外,當(dāng)移動(dòng)終端100與外部底座連接時(shí),接口單元170可以用作允許通過其將電力從底座提供到移動(dòng)終端100的路徑或者可以用作允許從底座輸入的各種命令信號(hào)通過其傳輸?shù)揭苿?dòng)終端的路徑。從底座輸入的各種命令信號(hào)或電力可以用作用于識(shí)別移動(dòng)終端是否準(zhǔn)確地安裝在底座上的信號(hào)。輸出單元150被構(gòu)造為以視覺、音頻和/或觸覺方式提供輸出信號(hào)(例如,音頻信號(hào)、視頻信號(hào)、警報(bào)信號(hào)、振動(dòng)信號(hào)等等)。輸出單元150可以包括顯示單元151、音頻輸出模塊152、警報(bào)單元153等等。
[0064]顯示單元151可以顯示在移動(dòng)終端100中處理的信息。例如,當(dāng)移動(dòng)終端100處于電話通話模式時(shí),顯示單元151可以顯示與通話或其它通信(例如,文本消息收發(fā)、多媒體文件下載等等)相關(guān)的用戶界面(UI)或圖形用戶界面(GUI)。當(dāng)移動(dòng)終端100處于視頻通話模式或者圖像捕獲模式時(shí),顯示單元151可以顯示捕獲的圖像和/或接收的圖像、示出視頻或圖像以及相關(guān)功能的UI或GUI等等。
[0065]同時(shí),當(dāng)顯示單元151和觸摸板以層的形式彼此疊加以形成觸摸屏?xí)r,顯示單元 151可以用作輸入裝置和輸出裝置。顯示單元151可以包括液晶顯示器(IXD)、薄膜晶體管 IXD(TFT-1XD)、有機(jī)發(fā)光二極管(0LED)顯示器、柔性顯示器、三維(3D)顯示器等等中的至少一種。這些顯示器中的一些可以被構(gòu)造為透明狀以允許用戶從外部觀看,這可以稱為透明顯示器,典型的透明顯示器可以例如為T0LED(透明有機(jī)發(fā)光二極管)顯示器等等。根據(jù)特定想要的實(shí)施方式,移動(dòng)終端100可以包括兩個(gè)或更多顯示單元(或其它顯示裝置),例如,移動(dòng)終端可以包括外部顯示單元(未示出)和內(nèi)部顯示單元(未示出)。觸摸屏可用于檢測觸摸輸入壓力以及觸摸輸入位置和觸摸輸入面積。
[0066]音頻輸出模塊152可以在移動(dòng)終端處于呼叫信號(hào)接收模式、通話模式、記錄模式、 語音識(shí)別模式、廣播接收模式等等模式下時(shí),將無線通信單元110接收的或者在存儲(chǔ)器160 中存儲(chǔ)的音頻數(shù)據(jù)轉(zhuǎn)換音頻信號(hào)并且輸出為聲音。而且,音頻輸出模塊152可以提供與移動(dòng)終端100執(zhí)行的特定功能相關(guān)的音頻輸出(例如,呼叫信號(hào)接收聲音、消息接收聲音等等)。音頻輸出模塊152可以包括揚(yáng)聲器、蜂鳴器等等。
[0067] 警報(bào)單元153可以提供輸出以將事件的發(fā)生通知給移動(dòng)終端100。典型的事件可以包括呼叫接收、消息接收、鍵信號(hào)輸入、觸摸輸入等等。除了音頻或視頻輸出之外,警報(bào)單元153可以以不同的方式提供輸出以通知事件的發(fā)生。例如,警報(bào)單元153可以以振動(dòng)的形式提供輸出,當(dāng)接收到呼叫、消息或一些其它進(jìn)入通信(incoming communicat1n)時(shí),警報(bào)單元153可以提供觸覺輸出(即,振動(dòng))以將其通知給用戶。通過提供這樣的觸覺輸出, 即使在用戶的移動(dòng)電話處于用戶的口袋中時(shí),用戶也能夠識(shí)別出各種事件的發(fā)生。警報(bào)單元153也可以經(jīng)由顯示單元151或音頻輸出模塊152提供通知事件的發(fā)生的輸出。
[0068]存儲(chǔ)器160可以存儲(chǔ)由控制器180執(zhí)行的處理和控制操作的軟件程序等等,或者可以暫時(shí)地存儲(chǔ)己經(jīng)輸出或?qū)⒁敵龅臄?shù)據(jù)(例如,電話簿、消息、靜態(tài)圖像、視頻等等)。 而且,存儲(chǔ)器160可以存儲(chǔ)關(guān)于當(dāng)觸摸施加到觸摸屏?xí)r輸出的各種方式的振動(dòng)和音頻信號(hào)的數(shù)據(jù)。
[0069]存儲(chǔ)器160可以包括至少一種類型的存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)包括閃存、硬盤、多媒體卡、卡型存儲(chǔ)器(例如,SD或DX存儲(chǔ)器等等)、隨機(jī)訪問存儲(chǔ)器(RAM)、靜態(tài)隨機(jī)訪問存儲(chǔ)器(SRAM)、只讀存儲(chǔ)器(R0M)、電可擦除可編程只讀存儲(chǔ)器(EEPR0M)、可編程只讀存儲(chǔ)器(PR0M)、磁性存儲(chǔ)器、磁盤、光盤等等。而且,移動(dòng)終端100可以與通過網(wǎng)絡(luò)連接執(zhí)行存儲(chǔ)器160的存儲(chǔ)功能的網(wǎng)絡(luò)存儲(chǔ)裝置協(xié)作。
[0070]控制器180通常控制移動(dòng)終端的總體操作。例如,控制器180執(zhí)行與語音通話、數(shù)據(jù)通信、視頻通話等等相關(guān)的控制和處理。另外,控制器180可以包括用于再現(xiàn)(或回放) 多媒體數(shù)據(jù)的多媒體模塊1810,多媒體模塊1810可以構(gòu)造在控制器180內(nèi),或者可以構(gòu)造為與控制器180分離。控制器180可以執(zhí)行模式識(shí)別處理,以將在觸摸屏上執(zhí)行的手寫輸入或者圖片繪制輸入識(shí)別為字符或圖像。
[0071]電源單元190在控制器180的控制下接收外部電力或內(nèi)部電力并且提供操作各元件和組件所需的適當(dāng)?shù)碾娏Α?br>[0072]這里描述的各種實(shí)施方式可以以使用例如計(jì)算機(jī)軟件、硬件或其任何組合的計(jì)算機(jī)可讀介質(zhì)來實(shí)施。對(duì)于硬件實(shí)施,這里描述的實(shí)施方式可以通過使用特定用途集成電路 (ASIC)、數(shù)字信號(hào)處理器(DSP)、數(shù)字信號(hào)處理裝置(DSPD)、可編程邏輯裝置(PLD)、現(xiàn)場可編程門陣列(FPGA)、處理器、控制器、微控制器、微處理器、被設(shè)計(jì)為執(zhí)行這里描述的功能的電子單元中的至少一種來實(shí)施,在一些情況下,這樣的實(shí)施方式可以在控制器180中實(shí)施。 對(duì)于軟件實(shí)施,諸如過程或功能的實(shí)施方式可以與允許執(zhí)行至少一種功能或操作的單獨(dú)的軟件模塊來實(shí)施。軟件代碼可以由以任何適當(dāng)?shù)木幊陶Z言編寫的軟件應(yīng)用程序(或程序) 來實(shí)施,軟件代碼可以存儲(chǔ)在存儲(chǔ)器160中并且由控制器180執(zhí)行。
[0073]至此,己經(jīng)按照其功能描述了移動(dòng)終端。
[0074]下面,為了簡要起見,將描述諸如折疊型、直板型、擺動(dòng)型、滑動(dòng)型移動(dòng)終端等等的各種類型的移動(dòng)終端中的滑動(dòng)型移動(dòng)終端作為示例。因此,本發(fā)明能夠應(yīng)用于任何類型的移動(dòng)終端,并且不限于滑動(dòng)型移動(dòng)終端。
[0075]如圖3中所示的移動(dòng)終端100可以被構(gòu)造為利用經(jīng)由幀或分組發(fā)送數(shù)據(jù)的諸如有線和無線通信系統(tǒng)以及基于衛(wèi)星的通信系統(tǒng)來操作。
[0076]現(xiàn)在將參考圖4描述其中根據(jù)本發(fā)明的移動(dòng)終端能夠操作的通信系統(tǒng)。
[0077]這樣的通信系統(tǒng)可以使用不同的空中接口和/或物理層。例如,由通信系統(tǒng)使用的空中接口包括例如頻分多址(FDMA)、時(shí)分多址(TDMA)、碼分多址(CDMA)和通用移動(dòng)通信系統(tǒng)(UMTS)(特別地,長期演進(jìn)(LTE))、全球移動(dòng)通信系統(tǒng)(GSM)等等。作為非限制性示例,下面的描述涉及CDMA通信系統(tǒng),但是這樣的教導(dǎo)同樣適用于其它類型的系統(tǒng)。
[0078]參考圖4, CDMA無線通信系統(tǒng)可以包括多個(gè)移動(dòng)終端100、多個(gè)基站(BS)270、 基站控制器(BSC) 275和移動(dòng)交換中心(MSC)2800MSC 280被構(gòu)造為與公共電話交換網(wǎng)絡(luò) (PSTN) 290形成接口。MSC 280還被構(gòu)造為與可以經(jīng)由回程線路耦接到基站270的BSC 275 形成接口。回程線路可以根據(jù)若干己知的接口中的任一種來構(gòu)造,所述接口包括例如E 1/ T1、ATM,IP、PPP、幀中繼、HDSUADSL或xDSL。將理解的是,如圖2中所示的系統(tǒng)可以包括多個(gè) BSC2750。
[0079]每個(gè)BS 270可以服務(wù)一個(gè)或多個(gè)分區(qū)(或區(qū)域),由多向天線或指向特定方向的天線覆蓋的每個(gè)分區(qū)放射狀地遠(yuǎn)離BS 270。或者,每個(gè)分區(qū)可以由用于分集接收的兩個(gè)或更多天線覆蓋。每個(gè)BS 270可以被構(gòu)造為支持多個(gè)頻率分配,并且每個(gè)頻率分配具有特定頻譜(例如,1.25MHz,5MHz等等)。
[0080]分區(qū)與頻率分配的交叉可以被稱為CDMA信道。BS 270也可以被稱為基站收發(fā)器子系統(tǒng)(BTS)或者其它等效術(shù)語。在這樣的情況下,術(shù)語〃基站〃可以用于籠統(tǒng)地表示單個(gè)BSC 275和至少一個(gè)BS270?;疽部梢员环Q為〃蜂窩站〃。或者,特定BS270的各分區(qū)可以被稱為多個(gè)蜂窩站。
[0081]如圖4中所示,廣播發(fā)射器(BT) 295將廣播信號(hào)發(fā)送給在系統(tǒng)內(nèi)操作的移動(dòng)終端 100。如圖3中所示的廣播接收模塊111被設(shè)置在移動(dòng)終端100處以接收由BT 295發(fā)送的廣播信號(hào)。在圖4中,示出了幾個(gè)全球定位系統(tǒng)(GPS)衛(wèi)星300。衛(wèi)星300幫助定位多個(gè)移動(dòng)終端100中的至少一個(gè)。
[0082]在圖4中,描繪了多個(gè)衛(wèi)星300,但是理解的是,可以利用任何數(shù)目的衛(wèi)星獲得有用的定位信息。如圖3中所示的GPS模塊115通常被構(gòu)造為與衛(wèi)星300配合以獲得想要的定位信息。替代GPS跟蹤技術(shù)或者在GPS跟蹤技術(shù)之外,可以使用可以跟蹤移動(dòng)終端的位置的其它技術(shù)。另外,至少一個(gè)GPS衛(wèi)星300可以選擇性地或者額外地處理衛(wèi)星DMB傳輸。
[0083]作為無線通信系統(tǒng)的一個(gè)典型操作,BS270接收來自各種移動(dòng)終端100的反向鏈路信號(hào)。移動(dòng)終端100通常參與通話、消息收發(fā)和其它類型的通信。特定基站270接收的每個(gè)反向鏈路信號(hào)被在特定BS 270內(nèi)進(jìn)行處理。獲得的數(shù)據(jù)被轉(zhuǎn)發(fā)給相關(guān)的BSC275。BSC 提供通話資源分配和包括BS 270之間的軟切換過程的協(xié)調(diào)的移動(dòng)管理功能。BSC 275還將接收到的數(shù)據(jù)路由到MSC280,其提供用于與PSTN 290形成接口的額外的路由服務(wù)。類似地,PSTN 290與MSC 280形成接口,MSC與BSC 275形成接口,并且BSC 275相應(yīng)地控制 BS270以將正向鏈路信號(hào)發(fā)送到移動(dòng)終端100。
[0084]基于上述系統(tǒng)架構(gòu)、移動(dòng)終端硬件結(jié)構(gòu)以及通信系統(tǒng),提出本發(fā)明網(wǎng)頁內(nèi)容抽取方法實(shí)施例。
[0085]如圖5所示,本發(fā)明第一實(shí)施例提出一種網(wǎng)頁內(nèi)容抽取方法,包括:
[0086]步驟S101,業(yè)務(wù)層向抽取系統(tǒng)發(fā)送抽取網(wǎng)頁URL請(qǐng)求,所述抽取網(wǎng)頁URL請(qǐng)求攜帶有所述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;
[0087]步驟S102,抽取系統(tǒng)根據(jù)所述抽取網(wǎng)頁URL請(qǐng)求,調(diào)用網(wǎng)頁爬蟲系統(tǒng)爬取所述URL 指定的頁面原始內(nèi)容;
[0088]步驟S103,所述抽取系統(tǒng)以所述模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì)所述頁面原始內(nèi)容進(jìn)行抽取,并將抽取的內(nèi)容返回給所述業(yè)務(wù)層。
[0089]具體地,首先,業(yè)務(wù)側(cè)根據(jù)需求,確定抽取指定的頁面標(biāo)簽字段,生成網(wǎng)頁抽取字段的模板協(xié)議文件,并校驗(yàn)?zāi)0鍏f(xié)議文件的正確性,其中,模板協(xié)議為定義抽取字段標(biāo)識(shí)的文檔協(xié)議;業(yè)務(wù)側(cè)發(fā)出抽取網(wǎng)頁URL請(qǐng)求,抽取指定內(nèi)容的流程開始。
[0090]然后,抽取系統(tǒng)接收到抽取URL請(qǐng)求參數(shù)后,開始調(diào)用網(wǎng)頁爬蟲系統(tǒng)從第三方網(wǎng)站爬取請(qǐng)求URL的頁面數(shù)據(jù)信息,只有獲取指定URL的頁面數(shù)據(jù)信息,才能開始抽取模板配置字段內(nèi)容。
[0091]之后,爬蟲系統(tǒng)接收到指定爬取的URL參數(shù)后,通過Http協(xié)議從第三方網(wǎng)站爬取頁面數(shù)據(jù)信息。
[0092]在爬蟲系統(tǒng)爬取到原始頁面數(shù)據(jù)信息后,爬蟲系統(tǒng)正常返回頁面數(shù)據(jù)信息至抽取系統(tǒng),抽取系統(tǒng)獲取爬蟲系統(tǒng)返回的原始頁面信息,開始解析原始頁面與定義抽取字段的模板協(xié)議,匹配抽取出指定模板配置字段內(nèi)容。
[0093]參照?qǐng)D2,圖2為本發(fā)明實(shí)施例抽取模板指定字段示意圖,其中,左側(cè)圖代表原始頁面,右側(cè)圖代表抽取模板協(xié)議文件。
[0094]如圖2所示,首先,抽取系統(tǒng)需要將爬取返回的頁面數(shù)據(jù)還原生成標(biāo)準(zhǔn)D0M樹(D0M 樹為文檔對(duì)象模型,本發(fā)明表示的是HTML格式化后的對(duì)象樹,方便計(jì)算機(jī)處理遍歷、存取操作),完成后,將配置的模板協(xié)議文件同樣還原生成標(biāo)準(zhǔn)D0M樹(方便處理與原頁面D0M 樹元素對(duì)比操作)。以上兩個(gè)步驟都順利完成,則開始遞歸遍歷模板協(xié)議配置生成的D0M樹 (其中,一定是以模板配置協(xié)議文件為匹配標(biāo)準(zhǔn),這樣才能具備更多的兼容性),依次比對(duì)原頁面D0M樹,遇到抽取特殊標(biāo)識(shí)(本發(fā)明中用符號(hào)表示),則將原頁面同等級(jí)內(nèi)容保存下來,直到匹配出錯(cuò)或者遍歷完成退出。
[0095]最后,抽取系統(tǒng)將抽取完成的標(biāo)識(shí)符與內(nèi)容返回給調(diào)用業(yè)務(wù)層,完成整個(gè)抽取流程。
[0096]由上述流程可知,本實(shí)施例方案基于現(xiàn)有爬蟲系統(tǒng)的爬取網(wǎng)頁能力,同時(shí),在流程上分離了業(yè)務(wù)與開發(fā)模塊,抽取系統(tǒng)完全對(duì)業(yè)務(wù)層透明,業(yè)務(wù)側(cè)只需要關(guān)注必要抽取字段, 通過配置抽取模板協(xié)議文件完成抽取流程任務(wù)搭建,之后業(yè)務(wù)層就能順利取出抽取字段, 極大提升整體效率。
[0097]相比現(xiàn)有技術(shù),本發(fā)明充分利用后臺(tái)爬取網(wǎng)頁的能力,同時(shí)通過解析原始網(wǎng)頁與抽取模板實(shí)現(xiàn)抽取原始網(wǎng)頁指定標(biāo)簽內(nèi)容的能力,該方案適應(yīng)所有Web網(wǎng)頁版式抽取指定網(wǎng)頁標(biāo)簽內(nèi)容,提高了抽取原始網(wǎng)頁的能力以及網(wǎng)頁內(nèi)容抽取的靈活性。本發(fā)明能最快速、 方便的解決業(yè)務(wù)抽取需求,同時(shí)因?yàn)榫邆錁O強(qiáng)的靈活性,使得變更成本非常小,只需變更模板配置協(xié)議文件即可。
[0098]如圖6所示,本發(fā)明第二實(shí)施例提出一種網(wǎng)頁內(nèi)容抽取方法,包括:
[0099]步驟S201,抽取系統(tǒng)接收業(yè)務(wù)層發(fā)送的抽取網(wǎng)頁URL請(qǐng)求,所述抽取網(wǎng)頁URL請(qǐng)求攜帶有所述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;
[0100]步驟S202,根據(jù)所述抽取網(wǎng)頁URL請(qǐng)求,調(diào)用網(wǎng)頁爬蟲系統(tǒng)爬取所述URL指定的頁面原始內(nèi)容;
[0101]步驟S203,以所述模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì)所述頁面原始內(nèi)容進(jìn)行抽取,并將抽取的內(nèi)容返回給所述業(yè)務(wù)層。
[0102]具體地,首先,業(yè)務(wù)側(cè)根據(jù)需求,確定抽取指定的頁面標(biāo)簽字段,生成網(wǎng)頁抽取字段的模板協(xié)議文件,并校驗(yàn)?zāi)0鍏f(xié)議文件的正確性,其中,模板協(xié)議為定義抽取字段標(biāo)識(shí)的文檔協(xié)議;業(yè)務(wù)側(cè)發(fā)出抽取網(wǎng)頁URL請(qǐng)求,抽取指定內(nèi)容的流程開始。
[0103]然后,抽取系統(tǒng)接收到抽取URL請(qǐng)求參數(shù)后,開始調(diào)用網(wǎng)頁爬蟲系統(tǒng)從第三方網(wǎng)站爬取請(qǐng)求URL的頁面數(shù)據(jù)信息,只有獲取指定URL的頁面數(shù)據(jù)信息,才能開始抽取模板配置字段內(nèi)容。
[0104]之后,爬蟲系統(tǒng)接收到指定爬取的URL參數(shù)后,通過Http協(xié)議從第三方網(wǎng)站爬取頁面數(shù)據(jù)信息。
[0105]在爬蟲系統(tǒng)爬取到原始頁面數(shù)據(jù)信息后,爬蟲系統(tǒng)正常返回頁面數(shù)據(jù)信息至抽取系統(tǒng),抽取系統(tǒng)獲取爬蟲系統(tǒng)返回的原始頁面信息,開始解析原始頁面與定義抽取字段的模板協(xié)議,匹配抽取出指定模板配置字段內(nèi)容。
[0106]參照?qǐng)D2,圖2為本發(fā)明實(shí)施例抽取模板指定字段示意圖,其中,左側(cè)圖代表原始頁面,右側(cè)圖代表抽取模板協(xié)議文件。
[0107]如圖2所示,首先,抽取系統(tǒng)需要將爬取返回的頁面數(shù)據(jù)還原生成標(biāo)準(zhǔn)D0M樹(D0M 樹為文檔對(duì)象模型,本發(fā)明表示的是HTML格式化后的對(duì)象樹,方便計(jì)算機(jī)處理遍歷、存取操作),完成后,將配置的模板協(xié)議文件同樣還原生成標(biāo)準(zhǔn)D0M樹(方便處理與原頁面D0M 樹元素對(duì)比操作)。以上兩個(gè)步驟都順利完成,則開始遞歸遍歷模板協(xié)議配置生成的D0M樹 (其中,一定是以模板配置協(xié)議文件為匹配標(biāo)準(zhǔn),這樣才能具備更多的兼容性),依次比對(duì)原頁面D0M樹,遇到抽取特殊標(biāo)識(shí)(本發(fā)明中用符號(hào)表示),則將原頁面同等級(jí)內(nèi)容保存下來,直到匹配出錯(cuò)或者遍歷完成退出。
[0108]最后,抽取系統(tǒng)將抽取完成的標(biāo)識(shí)符與內(nèi)容返回給調(diào)用業(yè)務(wù)層,完成整個(gè)抽取流程。
[0109]由上述流程可知,本實(shí)施例方案基于現(xiàn)有爬蟲系統(tǒng)的爬取網(wǎng)頁能力,同時(shí),在流程上分離了業(yè)務(wù)與開發(fā)模塊,抽取系統(tǒng)完全對(duì)業(yè)務(wù)層透明,業(yè)務(wù)側(cè)只需要關(guān)注必要抽取字段, 通過配置抽取模板協(xié)議文件完成抽取流程任務(wù)搭建,之后業(yè)務(wù)層就能順利取出抽取字段, 極大提升整體效率。
[0110]相比現(xiàn)有技術(shù),本發(fā)明充分利用后臺(tái)爬取網(wǎng)頁的能力,同時(shí)通過解析原始網(wǎng)頁與抽取模板實(shí)現(xiàn)抽取原始網(wǎng)頁指定標(biāo)簽內(nèi)容的能力,該方案適應(yīng)所有Web網(wǎng)頁版式抽取指定網(wǎng)頁標(biāo)簽內(nèi)容,提高了抽取原始網(wǎng)頁的能力以及網(wǎng)頁內(nèi)容抽取的靈活性。本發(fā)明能最快速、 方便的解決業(yè)務(wù)抽取需求,同時(shí)因?yàn)榫邆錁O強(qiáng)的靈活性,使得變更成本非常小,只需變更模板配置協(xié)議文件即可。
[0111]對(duì)應(yīng)地,提出本發(fā)明網(wǎng)頁內(nèi)容抽取裝置實(shí)施例。
[0112]如圖7所示,本發(fā)明較佳實(shí)施例提出一種網(wǎng)頁內(nèi)容抽取裝置,包括:接收模塊301、 調(diào)用模塊302以及抽取模塊303,其中:
[0113]接收模塊301,用于接收業(yè)務(wù)層發(fā)送的抽取網(wǎng)頁URL請(qǐng)求,所述抽取網(wǎng)頁URL請(qǐng)求攜帶有所述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;
[0114]調(diào)用模塊302,用于根據(jù)所述抽取網(wǎng)頁URL請(qǐng)求,調(diào)用網(wǎng)頁爬蟲系統(tǒng)爬取所述URL 指定的頁面原始內(nèi)容;
[0115]抽取模塊303,用于以所述模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì)所述頁面原始內(nèi)容進(jìn)行抽取,并將抽取的內(nèi)容返回給所述業(yè)務(wù)層。
[0116]進(jìn)一步地,所述抽取模塊303,還用于將所述頁面原始內(nèi)容以及模板協(xié)議文件還原成D0M樹格式的文檔,得到頁面原始內(nèi)容的D0M樹以及模板協(xié)議文件的D0M樹;以所述模板協(xié)議文件的D0M樹為匹配標(biāo)準(zhǔn),遍歷所述模板協(xié)議文件的D0M樹,依次比對(duì)所述頁面原始內(nèi)容的D0M樹,抽取指定字段標(biāo)識(shí)符;獲取所述頁面原始內(nèi)容中指定字段標(biāo)識(shí)符對(duì)應(yīng)的內(nèi)容并保存;當(dāng)遍歷完成后,獲取抽取的指定網(wǎng)頁內(nèi)容,并將抽取的內(nèi)容返回給所述業(yè)務(wù)層。
[0117]具體地,首先,業(yè)務(wù)側(cè)根據(jù)需求,確定抽取指定的頁面標(biāo)簽字段,生成網(wǎng)頁抽取字段的模板協(xié)議文件,并校驗(yàn)?zāi)0鍏f(xié)議文件的正確性,其中,模板協(xié)議為定義抽取字段標(biāo)識(shí)的文檔協(xié)議;業(yè)務(wù)側(cè)發(fā)出抽取網(wǎng)頁URL請(qǐng)求,抽取指定內(nèi)容的流程開始。
[0118]然后,抽取系統(tǒng)接收到抽取URL請(qǐng)求參數(shù)后,開始調(diào)用網(wǎng)頁爬蟲系統(tǒng)從第三方網(wǎng)站爬取請(qǐng)求URL的頁面數(shù)據(jù)信息,只有獲取指定URL的頁面數(shù)據(jù)信息,才能開始抽取模板配置字段內(nèi)容。
[0119]之后,爬蟲系統(tǒng)接收到指定爬取的URL參數(shù)后,通過Http協(xié)議從第三方網(wǎng)站爬取頁面數(shù)據(jù)信息。
[0120]在爬蟲系統(tǒng)爬取到原始頁面數(shù)據(jù)信息后,爬蟲系統(tǒng)正常返回頁面數(shù)據(jù)信息至抽取系統(tǒng),抽取系統(tǒng)獲取爬蟲系統(tǒng)返回的原始頁面信息,開始解析原始頁面與定義抽取字段的模板協(xié)議,匹配抽取出指定模板配置字段內(nèi)容。
[0121]參照?qǐng)D2,圖2為本發(fā)明實(shí)施例抽取模板指定字段示意圖,其中,左側(cè)圖代表原始頁面,右側(cè)圖代表抽取模板協(xié)議文件。
[0122]如圖2所示,首先,抽取系統(tǒng)需要將爬取返回的頁面數(shù)據(jù)還原生成標(biāo)準(zhǔn)D0M樹(D0M 樹為文檔對(duì)象模型,本發(fā)明表示的是HTML格式化后的對(duì)象樹,方便計(jì)算機(jī)處理遍歷、存取操作),完成后,將配置的模板協(xié)議文件同樣還原生成標(biāo)準(zhǔn)D0M樹(方便處理與原頁面D0M 樹元素對(duì)比操作)。以上兩個(gè)步驟都順利完成,則開始遞歸遍歷模板協(xié)議配置生成的D0M樹 (其中,一定是以模板配置協(xié)議文件為匹配標(biāo)準(zhǔn),這樣才能具備更多的兼容性),依次比對(duì)原頁面D0M樹,遇到抽取特殊標(biāo)識(shí)(本發(fā)明中用符號(hào)表示),則將原頁面同等級(jí)內(nèi)容保存下來,直到匹配出錯(cuò)或者遍歷完成退出。
[0123]最后,抽取系統(tǒng)將抽取完成的標(biāo)識(shí)符與內(nèi)容返回給調(diào)用業(yè)務(wù)層,完成整個(gè)抽取流程。
[0124]由上述流程可知,本實(shí)施例方案基于現(xiàn)有爬蟲系統(tǒng)的爬取網(wǎng)頁能力,同時(shí),在流程上分離了業(yè)務(wù)與開發(fā)模塊,抽取系統(tǒng)完全對(duì)業(yè)務(wù)層透明,業(yè)務(wù)側(cè)只需要關(guān)注必要抽取字段, 通過配置抽取模板協(xié)議文件完成抽取流程任務(wù)搭建,之后業(yè)務(wù)層就能順利取出抽取字段, 極大提升整體效率。
[0125]相比現(xiàn)有技術(shù),本發(fā)明充分利用后臺(tái)爬取網(wǎng)頁的能力,同時(shí)通過解析原始網(wǎng)頁與抽取模板實(shí)現(xiàn)抽取原始網(wǎng)頁指定標(biāo)簽內(nèi)容的能力,該方案適應(yīng)所有Web網(wǎng)頁版式抽取指定網(wǎng)頁標(biāo)簽內(nèi)容,提高了抽取原始網(wǎng)頁的能力以及網(wǎng)頁內(nèi)容抽取的靈活性。本發(fā)明能最快速、 方便的解決業(yè)務(wù)抽取需求,同時(shí)因?yàn)榫邆錁O強(qiáng)的靈活性,使得變更成本非常小,只需變更模板配置協(xié)議文件即可。
[0126]對(duì)應(yīng)地,提出本發(fā)明抽取網(wǎng)頁內(nèi)容的系統(tǒng)實(shí)施例。
[0127]可參照?qǐng)D1所示,該抽取網(wǎng)頁內(nèi)容的系統(tǒng)可以包括:業(yè)務(wù)層、爬蟲系統(tǒng)和抽取系統(tǒng);其中:
[0128]所述業(yè)務(wù)層,用于向抽取系統(tǒng)發(fā)送抽取網(wǎng)頁URL請(qǐng)求,所述抽取網(wǎng)頁URL請(qǐng)求攜帶有所述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;
[0129]所述抽取系統(tǒng),可以包括上述實(shí)施例所述的裝置;
[0130]所述爬蟲系統(tǒng),用于根據(jù)所述抽取系統(tǒng)的調(diào)用指令,從第三方網(wǎng)站爬取所述URL 指定的頁面原始內(nèi)容,返回給所述抽取系統(tǒng)。
[0131]所述業(yè)務(wù)層,還用于確定抽取指定的頁面字段,生成網(wǎng)頁抽取字段的模板協(xié)議文件;以及校驗(yàn)所述模板協(xié)議文件的正確性。
[0132]本發(fā)明實(shí)施例抽取網(wǎng)頁內(nèi)容的系統(tǒng)實(shí)現(xiàn)網(wǎng)頁內(nèi)容抽取的原理,請(qǐng)參照上述各實(shí)施例,在此不再贅述。
[0133]還需要說明的是,在本文中,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素, 而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。
[0134]上述本發(fā)明實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
[0135]通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實(shí)施例方法可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì) (如R0M/RAM、磁碟、光盤)中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),計(jì)算機(jī), 服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
[0136]以上所述僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或流程變換,或直接或間接運(yùn)用在其它相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種網(wǎng)頁內(nèi)容抽取方法,其特征在于,包括:抽取系統(tǒng)接收業(yè)務(wù)層發(fā)送的抽取網(wǎng)頁URL請(qǐng)求,所述抽取網(wǎng)頁URL請(qǐng)求攜帶有所述業(yè) 務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;根據(jù)所述抽取網(wǎng)頁URL請(qǐng)求,調(diào)用網(wǎng)頁爬蟲系統(tǒng)爬取所述URL指定的頁面原始內(nèi)容; 以所述模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì)所述頁面原始內(nèi)容進(jìn)行抽取,并將抽取的內(nèi)容返 回給所述業(yè)務(wù)層。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述以所述模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì) 所述頁面原始內(nèi)容進(jìn)行抽取,并將抽取的內(nèi)容返回給所述業(yè)務(wù)層的步驟包括:所述抽取系統(tǒng)將所述頁面原始內(nèi)容以及模板協(xié)議文件還原成DOM樹格式的文檔,得到 頁面原始內(nèi)容的DOM樹以及模板協(xié)議文件的DOM樹;以所述模板協(xié)議文件的DOM樹為匹配標(biāo)準(zhǔn),遍歷所述模板協(xié)議文件的DOM樹,依次比對(duì) 所述頁面原始內(nèi)容的DOM樹,抽取指定字段標(biāo)識(shí)符;獲取所述頁面原始內(nèi)容中指定字段標(biāo)識(shí)符對(duì)應(yīng)的內(nèi)容并保存;當(dāng)遍歷完成后,獲取抽取的指定網(wǎng)頁內(nèi)容,并將抽取的內(nèi)容返回給所述業(yè)務(wù)層。3.—種網(wǎng)頁內(nèi)容抽取裝置,其特征在于,包括:接收模塊,用于接收業(yè)務(wù)層發(fā)送的抽取網(wǎng)頁URL請(qǐng)求,所述抽取網(wǎng)頁URL請(qǐng)求攜帶有所 述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;調(diào)用模塊,用于根據(jù)所述抽取網(wǎng)頁URL請(qǐng)求,調(diào)用網(wǎng)頁爬蟲系統(tǒng)爬取所述URL指定的頁 面原始內(nèi)容;抽取模塊,用于以所述模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì)所述頁面原始內(nèi)容進(jìn)行抽取,并將 抽取的內(nèi)容返回給所述業(yè)務(wù)層。4.根據(jù)權(quán)利要求3所述的裝置,其特征在于,所述抽取模塊,還用于將所述頁面原始內(nèi)容以及模板協(xié)議文件還原成DOM樹格式的文 檔,得到頁面原始內(nèi)容的DOM樹以及模板協(xié)議文件的DOM樹;以所述模板協(xié)議文件的DOM樹 為匹配標(biāo)準(zhǔn),遍歷所述模板協(xié)議文件的DOM樹,依次比對(duì)所述頁面原始內(nèi)容的DOM樹,抽取 指定字段標(biāo)識(shí)符;獲取所述頁面原始內(nèi)容中指定字段標(biāo)識(shí)符對(duì)應(yīng)的內(nèi)容并保存;當(dāng)遍歷完 成后,獲取抽取的指定網(wǎng)頁內(nèi)容,并將抽取的內(nèi)容返回給所述業(yè)務(wù)層。5.—種抽取網(wǎng)頁內(nèi)容的系統(tǒng),其特征在于,包括:業(yè)務(wù)層、爬蟲系統(tǒng)和抽取系統(tǒng);其中: 所述業(yè)務(wù)層,用于向抽取系統(tǒng)發(fā)送抽取網(wǎng)頁URL請(qǐng)求,所述抽取網(wǎng)頁URL請(qǐng)求攜帶有所述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;所述抽取系統(tǒng),用于接收業(yè)務(wù)層發(fā)送的抽取網(wǎng)頁URL請(qǐng)求,所述抽取網(wǎng)頁URL請(qǐng)求攜帶 有所述業(yè)務(wù)層配置的網(wǎng)頁抽取字段的模板協(xié)議文件;根據(jù)所述抽取網(wǎng)頁URL請(qǐng)求,調(diào)用網(wǎng) 頁爬蟲系統(tǒng)爬取所述URL指定的頁面原始內(nèi)容;以所述模板協(xié)議文件為匹配標(biāo)準(zhǔn),對(duì)所述 頁面原始內(nèi)容進(jìn)行抽取,并將抽取的內(nèi)容返回給所述業(yè)務(wù)層;所述爬蟲系統(tǒng),用于根據(jù)所述抽取系統(tǒng)的調(diào)用指令,從第三方網(wǎng)站爬取所述URL指定 的頁面原始內(nèi)容,返回給所述抽取系統(tǒng)。6.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述抽取系統(tǒng),還用于將所述頁面原始內(nèi)容以及模板協(xié)議文件還原成DOM樹格式的文 檔,得到頁面原始內(nèi)容的DOM樹以及模板協(xié)議文件的DOM樹;以所述模板協(xié)議文件的DOM樹為匹配標(biāo)準(zhǔn),遍歷所述模板協(xié)議文件的DOM樹,依次比對(duì)所述頁面原始內(nèi)容的DOM樹,抽取 指定字段標(biāo)識(shí)符;獲取所述頁面原始內(nèi)容中指定字段標(biāo)識(shí)符對(duì)應(yīng)的內(nèi)容并保存;當(dāng)遍歷完 成后,獲取抽取的指定網(wǎng)頁內(nèi)容,并將抽取的內(nèi)容返回給所述業(yè)務(wù)層。7.根據(jù)權(quán)利要求5所述的系統(tǒng),其特征在于,所述業(yè)務(wù)層,還用于在向抽取系統(tǒng)發(fā)送抽取網(wǎng)頁URL請(qǐng)求之前,確定抽取指定的頁面 字段,生成網(wǎng)頁抽取字段的模板協(xié)議文件。8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述業(yè)務(wù)層,還用于校驗(yàn)所述模板協(xié)議文件的正確性。
【文檔編號(hào)】G06F17/30GK106033468SQ201510124714
【公開日】2016年10月19日
【申請(qǐng)日】2015年3月20日
【發(fā)明人】羅鑫驥
【申請(qǐng)人】騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
石城县| 吉木乃县| 云龙县| 天水市| 星子县| 青河县| 印江| 正宁县| 温泉县| 新安县| 嵊州市| 北川| 乐都县| 松阳县| 长治县| 朝阳市| 车险| 镇赉县| 正定县| 城步| 四子王旗| 安庆市| 德钦县| 雅安市| 页游| 西和县| 弥勒县| 平潭县| 石首市| 嘉荫县| 同心县| 安图县| 恩施市| 收藏| 塔河县| 论坛| 南安市| 伊吾县| 泰和县| 探索| 白山市|