欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁內容的提取方法、裝置和設備的制作方法

文檔序號:6382572閱讀:339來源:國知局
專利名稱:一種網(wǎng)頁內容的提取方法、裝置和設備的制作方法
技術領域
本發(fā)明實施例涉及網(wǎng)頁技術領域,特別是涉及一種網(wǎng)頁內容的提取方法,一種網(wǎng)頁內容的提取裝置,以及一種設備。
背景技術
網(wǎng)站除了向用戶提供新聞、圖片等網(wǎng)頁內容時,出于盈利、推廣等目的,也經(jīng)常會在網(wǎng)頁上布置一些廣告、推薦信息等與網(wǎng)頁正文內容無關的信息。現(xiàn)今,網(wǎng)頁上層出不窮的廣告給用戶的瀏覽網(wǎng)頁帶來了很大的干擾,尤其是用戶在移動終端上瀏覽網(wǎng)頁時,由于移動終端的屏幕較小,而廣告還需要占用一部分位置。為了避免這種情況,部分瀏覽器會提供給用戶閱讀模式的功能,也即,當用戶瀏覽一個網(wǎng)頁時,選擇閱讀模式后,瀏覽器會自動提取網(wǎng)頁預設內容,例如包括網(wǎng)頁的題目,正文內容等,只將網(wǎng)頁預設內容展示給用戶,而不顯示廣告等內容。目前,在識別網(wǎng)頁預設內容時,通常是采用分析整個網(wǎng)頁文檔(例如HTML文檔)方法來提取。具體而言,首先根據(jù)將網(wǎng)頁文檔劃分為多個文本塊,然后依據(jù)各個文本塊所包含的文字內容判斷是否可以作為網(wǎng)頁預設內容,然后將網(wǎng)頁預設內容提取出來重新排版顯示給用戶。以上背景技術中存在的問題是1、在提取網(wǎng)頁預設內容的過程中,需要遍歷整個網(wǎng)頁文檔的全部內容,針對各個文本塊進行判斷時,需要進行大量的計算,提取效率比較低;2、在移動終端的硬件配置不高的情況下,大量的計算操作會產(chǎn)生對移動終端的性能影響。

發(fā)明內容
本發(fā)明實施例提供了一種網(wǎng)頁內容的提取方法,以提高網(wǎng)頁預設內容的提取效率。本發(fā)明實施例還提供了一種網(wǎng)頁內容的提取裝置,以及,一種設備,用以保證上述方法在實際中的應用及實現(xiàn)。為了解決上述問題,本發(fā)明實施例公開了一種網(wǎng)頁內容的提取方法,包括提取第一網(wǎng)頁的第一預設內容,并記錄所述第一網(wǎng)頁的第一屬性信息和所述第一預設內容對應的第一特征信息;在訪問第二網(wǎng)頁時,確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息一致,按照所述第一特征信息提取所述第二網(wǎng)頁的第二預設內容。較佳的,所述第一屬性信息和第二屬性信息為網(wǎng)頁所對應的全部網(wǎng)頁文檔或預設部分網(wǎng)頁文檔的模板信息。較佳的,所述模板信息包括網(wǎng)頁文檔中所包含的依次排列的各個節(jié)點標識。
較佳的,所述確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息一致的步驟,采用如下方式依次對比所述第二網(wǎng)頁與所述第一網(wǎng)頁的全部或預設部分網(wǎng)頁文檔中的各個節(jié)點標識;確定各個節(jié)點標識的名稱均相同,并且節(jié)點標識的個數(shù)也相同,則所述第二屬性
信息與第一屬性信息一致。較佳的,所述第一特征信息為所述第一預設內容中所對應的依次排列的節(jié)點標識,所述按照第一特征信息提取第二網(wǎng)頁的第二預設內容的步驟,采用如下方式在第二網(wǎng)頁對應的網(wǎng)頁文檔中,查找與所述第一特征信息具備相同節(jié)點標識的節(jié)占.提取所述節(jié)點中的節(jié)點內容作為第二網(wǎng)頁的第二預設內容。較佳的,所述提取第一網(wǎng)頁的第一預設內容的步驟,采用如下方式提取第一網(wǎng)頁的網(wǎng)頁文檔中各個節(jié)點的節(jié)點標識;確定所述節(jié)點標識為預設標識,將所述節(jié)點標識對應的節(jié)點內容提取出來作為第
一預設內容。較佳的,所述預設部分網(wǎng)頁文檔為預設節(jié)點之后的網(wǎng)頁文檔。本發(fā)明實施例還提供了一種網(wǎng)頁內容的提取裝置,包括信息記錄模塊,用于提取第一網(wǎng)頁的第一預設內容,并記錄所述第一網(wǎng)頁的第一屬性信息和所述第一預設內容對應的第一特征信息;確定模塊,用于在訪問第二網(wǎng)頁時,確定所述第二網(wǎng)頁的第二屬性信息與所述第
一屬性信息一致;預設內容提取模塊,用于按照所述第一特征信息提取所述第二網(wǎng)頁的第二預設內容。較佳的,所述第一屬性信息和第二屬性信息為網(wǎng)頁所對應的全部網(wǎng)頁文檔或部分網(wǎng)頁文檔的模板信息。較佳的,所述模板信息包括網(wǎng)頁文檔中所包含的依次排列的各個節(jié)點標識。較佳的,所述確定模塊包括節(jié)點標識對比子模塊,用于依次對比所述第二網(wǎng)頁與所述第一網(wǎng)頁的全部或預設部分網(wǎng)頁文檔中的各個節(jié)點標識;節(jié)點標識確定子模塊,用于確定各個節(jié)點標識的名稱均相同,并且節(jié)點標識的個
數(shù)也相同,則所述第二屬性信息與第一屬性信息一致。較佳的,所述第一特征信息為所述第一預設內容中所對應的依次排列的節(jié)點標識,所述預設內容提取模塊包括節(jié)點查找子模塊,用于在第二網(wǎng)頁對應的網(wǎng)頁文檔中,查找與所述第一特征信息具備相同節(jié)點標識的節(jié)點;第二預設內容提取子模塊,用于提取所述節(jié)點中的節(jié)點內容作為第二網(wǎng)頁的第二預設內容。較佳的,所述信息記錄模塊包括節(jié)點標識提取子模塊,用于提取第一網(wǎng)頁的網(wǎng)頁文檔中各個節(jié)點的節(jié)點標識;
預設標識確定子模塊,用于確定所述節(jié)點標識為預設標識,若是,則將所述節(jié)點標識對應的節(jié)點內容提取出來作為第一預設內容。較佳的,所述預設部分網(wǎng)頁文檔為預設節(jié)點之后的網(wǎng)頁文檔。本發(fā)明實施例還提供了一種設備,所述設備包括一個或多個處理器;存儲器;和一個或多個模塊,所述一個或多個模塊存儲于所述存儲器中并被配置成由所述一個或多個處理器執(zhí)行,其中,所述一個或多個模塊具有如下功能提取第一網(wǎng)頁的第一預設內容,并記錄所述第一網(wǎng)頁的第一屬性信息和所述第一預設內容對應的第一特征信息;在訪問第二網(wǎng)頁時,確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息一致,按照所述第一特征信息提取所述第二網(wǎng)頁的第二預設內容。本發(fā)明實施例具有以下優(yōu)點本發(fā)明實施例在訪問第一網(wǎng)頁時,提取該網(wǎng)頁的特征內容,也即是網(wǎng)頁預設內容進行展示,并記錄第一網(wǎng)頁的模板和預設內容對應的節(jié)點標識,在訪問第二網(wǎng)頁時,確定第二網(wǎng)頁和第一網(wǎng)頁的模板相同后,按照第一網(wǎng)頁的預設內容所對應的位置,提取第二網(wǎng)頁的預設內容。對于第一網(wǎng)頁和第二網(wǎng)頁模板相同的情況,本發(fā)明實施例不需要重新遍歷網(wǎng)頁文檔的全部內容,避免的大量的計算,提高了預設內容的提取效率,同時也避免了大量的計算操作對移動終端性能的影響。此外,本發(fā)明實施例對于第二網(wǎng)頁的文字較少的情況,可以提高預設內容提取的準確率。當然,實施本發(fā)明的任一產(chǎn)品不一定需要同時達到以上所述的所有優(yōu)點。


圖1是本發(fā)明實施例的一種網(wǎng)頁內容的提取方法實施例的流程圖;圖2是本發(fā)明實施例的一種網(wǎng)頁內容的提取裝置實施例的結構框圖;圖3a和圖3b是移動終端展示的兩個網(wǎng)頁示意圖。
具體實施例方式為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實施方式
對本申請作進一步詳細的說明。參考圖1,示出了本發(fā)明實施例的一種網(wǎng)頁內容的提取方法實施例的流程圖,具體可以包括以下步驟步驟101、提取第一網(wǎng)頁的第一預設內容,并記錄所述第一網(wǎng)頁的第一屬性信息和所述第一預設內容對應的第一特征信息。本發(fā)明實施例中,網(wǎng)頁預設內容包括網(wǎng)頁的標題以及正文內容,用戶訪問第一網(wǎng)頁時,可以提取第一網(wǎng)頁對應的第一預設內容進行展示,并記錄該網(wǎng)頁的第一屬性信息和第一預設內容對應的第一特征信息,作為訪問第二網(wǎng)頁時參考的先驗信息。網(wǎng)頁對應的網(wǎng)頁文檔由多個節(jié)點所包含的節(jié)點內容組成,各個節(jié)點以節(jié)點標識為標記。以HTML (Hypertext Markup Language,超文本標記語言)網(wǎng)頁為例,節(jié)點的形式一般
為〈tag〉......〈/tag〉、〈tag......></tag> 或〈tag....../>, tag 為標識該節(jié)點的標識,
〈tag〉和〈/tag〉之間、〈tag與X/tag>之間、或〈tag與/>之間為節(jié)點對應的節(jié)點內容。以HTML 網(wǎng)頁為例,對應的網(wǎng)頁文檔中,head、meta、link、script、style、body 等均為節(jié)點標識。例如,〈meta name = " description" content = " 10月12日,青島隊終于收到了麥蒂的簽字合同,這也意味著麥蒂正式加盟CBA聯(lián)賽,雙方現(xiàn)在正在溝通麥蒂來
華的具體日期。"/>為一個節(jié)點,節(jié)點的形式為〈tag....../>,即〈meta name....../>,
節(jié)點標識為meta name,對應的節(jié)點內容為“ 10月12日,青島隊終于收到了麥蒂的簽字合同,這也意味著麥蒂正式加盟CBA聯(lián)賽,雙方現(xiàn)在正在溝通麥蒂來華的具體日期?!?。網(wǎng)頁對應的網(wǎng)頁文檔中包括多個節(jié)點,按照節(jié)點的先后順序分別對應著網(wǎng)頁由上到下所展示的內容,本發(fā)明實施例中,第一屬性信息可以是網(wǎng)頁文檔的模板信息,模板信息即網(wǎng)頁文檔中所包含的依次排列的各個節(jié)點標識。在具體的實現(xiàn)中,第一屬性信息可以是全部網(wǎng)頁文檔的模板信息,即將網(wǎng)頁HTML文本中的全部節(jié)點的節(jié)點標識作為模板信息,也可以是預設部分網(wǎng)頁文檔的模板信息,預設部分網(wǎng)頁文檔具體可以是預設節(jié)點之后的網(wǎng)頁文檔,將預設節(jié)點之后的所有節(jié)點標識作為模板信息。一般情況下,很多網(wǎng)頁的前部分的節(jié)點標識是相同的。在本實施例中,較佳的,由body節(jié)點開始按順頁序依次記錄節(jié)點標識,作為該網(wǎng)頁的HTML模板。上面的實施例中是以HTML網(wǎng)頁為例進行說明,但是本發(fā)明實施例的網(wǎng)頁不限定于HTML網(wǎng)頁,也可以為SHTML(server-parsed HTML,包含有嵌入式服務器方包含命令的HTML)網(wǎng)頁、XML(Extensible MarkupLanguage,可擴展標記語言)網(wǎng)頁、PHP(Hyper TextPreprocessor,超文本預處理語言)等其他不同類型的網(wǎng)頁。本發(fā)明實施例中,步驟101可以采用如下方式子步驟S11、提取第一網(wǎng)頁的網(wǎng)頁文檔中各個節(jié)點的節(jié)點標識;子步驟S12、確定所述節(jié)點標識為預設標識,若是,則將所述節(jié)點標識對應的節(jié)點內容提取出來作為第一預設內容。本發(fā)明實施例可以依據(jù)各節(jié)點的節(jié)點標識來提取網(wǎng)頁預設內容。具體而言,首先提取出網(wǎng)頁文檔中各個節(jié)點的節(jié)點標識,確定各個節(jié)點標識為預設標識,將該節(jié)點標識對應的節(jié)點內容提取出來作為該網(wǎng)頁對應的預設內容。在具體的實現(xiàn)中,還可以依據(jù)各節(jié)點的節(jié)點內容來提取網(wǎng)頁預設內容。具體而言,首先提取出網(wǎng)頁文檔中各個節(jié)點所對應的節(jié)點內容,針對各個節(jié)點內容,基于廣告、導航和版權典型詞詞典,判斷對應的節(jié)點內容中是否存在一個或多個(可以設定數(shù)量)的廣告、導航或是版權詞匯,如果某個節(jié)點對應的節(jié)點內容中包含預定數(shù)量的廣告、導航或是版權詞匯,則認為該節(jié)點中不包含網(wǎng)頁預設內容,將該節(jié)點內容去除,否則,便提取出來作為網(wǎng)頁預設內容。在具體的實現(xiàn)中,還可以依據(jù)網(wǎng)頁文檔的文本密度來提取網(wǎng)頁預設內容。具體而言,針對整個網(wǎng)頁文檔,確定第i行和第i+1行內容的字符總數(shù)和中文字符數(shù);通過將中文字符數(shù)除以字符總數(shù)作為文本密度,計算第i行和第i+1行內容的文本密度;然后將計算得至IJ的文本密度與預設值進行比較,若比較結果為不小于預設值,則可以將第i行和第i+1行作為網(wǎng)頁預設內容,并按照同樣的方法,對第i+1行至第i+2行進行判斷;若比較結果小于預設值,則對第i+2行和第i+3行進行判斷,直至遍歷該網(wǎng)頁的所有行,得到網(wǎng)頁預設內容。在本發(fā)明實施例中,可以采用現(xiàn)有技術的任何一種方式進行提取網(wǎng)頁預設內容,本發(fā)明實施例對此并不做限定。步驟102、在訪問第二網(wǎng)頁時,確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性
信息一致。本發(fā)明實施例中,與第一屬性信息相對應的,第二屬性信息可以是第二網(wǎng)頁所對應的全部網(wǎng)頁文檔或預設部分網(wǎng)頁文檔的模板信息。在具體的實現(xiàn)中,步驟102可以采用如下方式子步驟S21、依次對比所述第二網(wǎng)頁與所述第一網(wǎng)頁的全部或部分網(wǎng)頁文檔中的各個節(jié)點標識;子步驟S22、確定各個節(jié)點標識的名稱均相同,并且節(jié)點標識的個數(shù)也相同,則所
述第二屬性信息與第一屬性信息一致。網(wǎng)頁的模板信息即全部或部分網(wǎng)頁文檔所對應的有序的節(jié)點標識,本發(fā)明實施例中,第一屬性信息和第二屬性信息一致,不僅要求節(jié)點標識的個數(shù)一致,還要求按照順序,節(jié)點標識的名稱也相同。對比時,可以按照第一屬性信息和第二屬性信息中節(jié)點標識的順序,依次進行對比,若發(fā)現(xiàn)不相同的節(jié)點名稱,則認為第二屬性信息與第一屬性信息不一致;若節(jié)點名稱均一致,但節(jié)點的個數(shù)不相同,則第二屬性信息與第一屬性信息不一致,例如,第二網(wǎng)頁的HTML模板包括49個節(jié)點,第一網(wǎng)頁的HTML模板包括50個節(jié)點,即使前49次節(jié)點標識比對完全無誤,但是由于節(jié)點個數(shù)不同,第二屬性信息與第一屬性信息也是不一致的。步驟103、按照所述第一特征信息提取所述第二網(wǎng)頁的第二預設內容。在具體的實現(xiàn)中,歸屬于同一個網(wǎng)站下相同層級目錄的網(wǎng)頁通常是按照同一個網(wǎng)頁模板生成的,其網(wǎng)頁結構相似或相同;對于一個主題的網(wǎng)頁分為多頁的情況,各個分頁的網(wǎng)頁模板通常也是相同的。即第一網(wǎng)頁和第二網(wǎng)頁是同一網(wǎng)站相同層級目錄的網(wǎng)頁,或,第二網(wǎng)頁和第二網(wǎng)頁同屬于一個網(wǎng)頁主題,或,第二網(wǎng)頁是第一網(wǎng)頁的后續(xù)頁,這些情況下,第一網(wǎng)頁和第二網(wǎng)頁的網(wǎng)頁模板是相同的。針對此類模板信息相同的兩個網(wǎng)頁,本發(fā)明實施例可以按照先訪問的第一網(wǎng)頁的預設內容所對應的位置,也即是預設內容對應的節(jié)點標識,來提取第二網(wǎng)頁的預設內容。一方面,對于第二網(wǎng)頁的文字較少的情況,如圖3a和圖3b是移動終端展示的兩個網(wǎng)頁示意圖,圖3b中網(wǎng)頁是圖3a中網(wǎng)頁的后續(xù)頁,正文部分包含了一張圖片和很少的文字,若按照背景技術的方法,不能將圖片作為預設內容提取出來,依據(jù)本發(fā)明實施例的方法,由于這兩個網(wǎng)頁的模板相同,可以按照圖3a網(wǎng)頁預設內容的位置提取圖3b中的預設內容,因此本發(fā)明實施例可以提高預設內容提取的準確率;另一方面,本發(fā)明實施例的方法可以充分利用第一網(wǎng)頁的信息,同時,由于不需要重新遍歷網(wǎng)頁文檔的全部內容,避免的大量的計算,提高了預設內容的提取效率,也避免了大量的計算操作對移動終端性能的影響。本發(fā)明實施例中,第一特征信息為第一預設內容中所對應的依次排列的節(jié)點標識,所述步驟103可以采用如下方式子步驟S31、在第二網(wǎng)頁對應的網(wǎng)頁文檔中,查找與所述第一特征信息具備相同節(jié)點標識的節(jié)點;
子步驟S32、提取所述節(jié)點中的節(jié)點內容作為第二網(wǎng)頁的第二預設內容。由于第一網(wǎng)頁和第二網(wǎng)頁的網(wǎng)頁模板完全相同,因此,可以認為這兩頁的預設內容存在相同的節(jié)點中,在進行第二網(wǎng)頁的預設內容提取的時候,選擇與第一網(wǎng)頁具有相同節(jié)點標識的節(jié)點,提取該節(jié)點所對應的節(jié)點內容即是第二網(wǎng)頁的預設內容。進一步的,在本發(fā)明實施例中,確定第二網(wǎng)頁和第一網(wǎng)頁的模板信息不同后,可以按照提取第一網(wǎng)頁預設內容的方法提取第二網(wǎng)頁的預設內容,具體方法可參見上述實施例,此處不再贅述。綜上所述,依據(jù)本發(fā)明實施例,在訪問第一網(wǎng)頁時,提取該網(wǎng)頁的特征內容,也即是網(wǎng)頁預設內容進行展示,并記錄第一網(wǎng)頁的模板和預設內容對應的節(jié)點標識,在訪問第二網(wǎng)頁時,確定第二網(wǎng)頁和第一網(wǎng)頁的模板相同,按照第一網(wǎng)頁的預設內容所對應的位置,提取第二網(wǎng)頁的預設內容。對于第一網(wǎng)頁和第二網(wǎng)頁模板相同的情況,本發(fā)明實施例不需要重新遍歷網(wǎng)頁文檔的全部內容,避免的大量的計算,提高了預設內容的提取效率,同時也避免了大量的計算操作對移動終端性能的影響。此外,本發(fā)明實施例對于第二網(wǎng)頁的文字較少的情況,提高了預設內容提取的準確率。對于方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本申請并不受所描述的動作順序的限制,因為依據(jù)本申請,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本申請所必須的。參考圖2,示出了本申請的一種網(wǎng)頁內容的提取裝置實施例的結構框圖,具體可以包括以下模塊信息記錄模塊201,用于提取第一網(wǎng)頁的第一預設內容,并記錄所述第一網(wǎng)頁的第一屬性信息和所述第一預設內容對應的第一特征信息;確定模塊202,用于在訪問第二網(wǎng)頁時,確定所述第二網(wǎng)頁的第二屬性信息與所述
第一屬性信息一致;預設內容提取模塊203,用于按照所述第一特征信息提取第二網(wǎng)頁的第二預設內容。在本發(fā)明實施例中,所述第一屬性信息和第二屬性信息可以為網(wǎng)頁所對應的全部網(wǎng)頁文檔或部分網(wǎng)頁文檔的模板信息。在本發(fā)明實施例中,網(wǎng)頁的網(wǎng)頁文檔可以由多個節(jié)點所包含的節(jié)點內容組成,各個節(jié)點可以以節(jié)點標識為標記,所述模板信息可以包括網(wǎng)頁文檔中所包含的依次排列的各個節(jié)點標識。在本發(fā)明實施例中,所述確定模塊可以包括節(jié)點標識對比子模塊,用于依次對比第二網(wǎng)頁與所述第一網(wǎng)頁的全部或部分網(wǎng)頁文檔中的各個節(jié)點標識;節(jié)點標識確定子模塊,用于確定各個節(jié)點標識的名稱均相同,并且節(jié)點標識的個
數(shù)也相同,則所述第二屬性信息與第一屬性信息一致。在本發(fā)明實施例中,所述第一特征信息可以為所述第一預設內容中所對應的依次排列的節(jié)點標識,所述預設內容提取模塊可以包括
節(jié)點查找子模塊,用于在第二網(wǎng)頁對應的網(wǎng)頁文檔中,查找與所述第一特征信息具備相同節(jié)點標識的節(jié)點;第二特征內容提取子模塊,用于提取所述節(jié)點中的節(jié)點內容作為第二網(wǎng)頁的第二預設內容。在本發(fā)明實施例中,所述信息記錄模塊可以包括節(jié)點標識提取子模塊,用于提取第一網(wǎng)頁的網(wǎng)頁文檔中各個節(jié)點所對應的節(jié)點標識;預設標識確定子模塊,用于確定各個節(jié)點標識為預設標識,將所述節(jié)點標識對應的節(jié)點內容提取出來作為第一預設內容。在本發(fā)明實施例中,所述預設部分網(wǎng)頁文檔可以為預設節(jié)點之后的網(wǎng)頁文檔。在本發(fā)明實施例中,所述裝置還可以進一步包括第二網(wǎng)頁預設內容提取模塊,用于確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息不一致,提取所述第二網(wǎng)頁的第二預設內容。由于所述裝置實施例基本相應于前述圖1所示的方法實施例,故本實施例的描述中未詳盡之處,可以參見前述實施例中的相關說明,在此就不贅述了。本實施例還提供了一種設備,所述設備包括一個或多個處理器;存儲器;和一個或多個模塊(programs),所述一個或多個模塊存儲于所述存儲器中并被配置成由所述一個或多個處理器執(zhí)行,其中,所述一個或多個模塊具有如下功能提取第一網(wǎng)頁的第一預設內容,并記錄所述第一網(wǎng)頁的第一屬性信息和所述第一預設內容對應的第一特征信息;在訪問第二網(wǎng)頁時,確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息一致,按照所述第一特征信息提取所述第二網(wǎng)頁的第二預設內容。較佳的,所述第一屬性信息和第二屬性信息為網(wǎng)頁所對應的全部網(wǎng)頁文檔或預設部分網(wǎng)頁文檔的模板信息。較佳的,所述模板信息包括網(wǎng)頁文檔中所包含的依次排列的各個節(jié)點標識。較佳的,所述確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息一致,采用如下方式依次對比所述第二網(wǎng)頁與所述第一網(wǎng)頁的全部或預設部分網(wǎng)頁文檔中的各個節(jié)點標識;確定各個節(jié)點標識的名稱均相同,并且節(jié)點標識的個數(shù)也相同,則所述第二屬性
信息與第一屬性信息一致。較佳的,所述第一特征信息為所述第一預設內容中所對應的依次排列的節(jié)點標識,所述按照第一特征信息提取第二網(wǎng)頁的第二預設內容,采用如下方式在第二網(wǎng)頁對應的網(wǎng)頁文檔中,查找與所述第一特征信息具備相同節(jié)點標識的節(jié)占.提取所述節(jié)點中的節(jié)點內容作為第二網(wǎng)頁的第二預設內容。較佳的,所述提取第一網(wǎng)頁的第一預設內容,采用如下方式
提取第一網(wǎng)頁的網(wǎng)頁文檔中各個節(jié)點的節(jié)點標識;確定所述節(jié)點標識為預設標識,將所述節(jié)點標識對應的節(jié)點內容提取出來作為第
一預設內容。較佳的,所述預設部分網(wǎng)頁文檔為預設節(jié)點之后的網(wǎng)頁文檔。本實施例還提供了一種非易失性可讀存儲介質,該存儲介質中存儲有一個或多個模塊(programs),該一個或多個模塊被應用在具有觸摸屏幕的設備時,可以使得該設備執(zhí)行如下步驟的指令(instructions)提取第一網(wǎng)頁的第一預設內容,并記錄所述第一網(wǎng)頁的第一屬性信息和所述第一預設內容對應的第一特征信息;在訪問第二網(wǎng)頁時,確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息一致,按照所述第一特征信息提取所述第二網(wǎng)頁的第二預設內容。較佳的,所述第一屬性信息和第二屬性信息為網(wǎng)頁所對應的全部網(wǎng)頁文檔或預設部分網(wǎng)頁文檔的模板信息。較佳的,所述模板信息包括網(wǎng)頁文檔中所包含的依次排列的各個節(jié)點標識。較佳的,所述確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息一致,采用如下方式依次對比所述第二網(wǎng)頁與所述第一網(wǎng)頁的全部或預設部分網(wǎng)頁文檔中的各個節(jié)點標識;確定各個節(jié)點標識的名稱均相同,并且節(jié)點標識的個數(shù)也相同,則所述第二屬性
信息與第一屬性信息一致。較佳的,所述第一特征信息為所述第一預設內容中所對應的依次排列的節(jié)點標識,所述按照第一特征信息提取第二網(wǎng)頁的第二預設內容,采用如下方式在第二網(wǎng)頁對應的網(wǎng)頁文檔中,查找與所述第一特征信息具備相同節(jié)點標識的節(jié)占.提取所述節(jié)點中的節(jié)點內容作為第二網(wǎng)頁的第二預設內容。較佳的,所述提取第一網(wǎng)頁的第一預設內容,采用如下方式提取第一網(wǎng)頁的網(wǎng)頁文檔中各個節(jié)點的節(jié)點標識;確定所述節(jié)點標識為預設標識,將所述節(jié)點標識對應的節(jié)點內容提取出來作為第
一預設內容。較佳的,所述預設部分網(wǎng)頁文檔為預設節(jié)點之后的網(wǎng)頁文檔。本申請可用于眾多通用或專用的計算系統(tǒng)環(huán)境或配置中。例如個人計算機、服務器計算機、手持設備或便攜式設備、平板型設備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程的消費電子設備、網(wǎng)絡PC、小型計算機、大型計算機、包括以上任何系統(tǒng)或設備的分布式計算環(huán)境等等。本申請可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務或實現(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結構等等。也可以在分布式計算環(huán)境中實踐本申請,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡而被連接的遠程處理設備來執(zhí)行任務。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設備在內的本地和遠程計算機存儲介質中。
在本文中,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有
更多限制的情況下,由語句“包括一個......”限定的要素,并不排除在包括所述要素的過
程、方法、物品或者設備中還存在另外的相同要素。以上對本申請所提供的一種網(wǎng)頁內容的提取方法,一種網(wǎng)頁內容的提取裝置,以及,一種設備進行了詳細介紹,本文中應用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本申請的思想,在具體實施方式
及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本申請的限制。
權利要求
1.一種網(wǎng)頁內容的提取方法,其特征在于,包括 提取第一網(wǎng)頁的第一預設內容,并記錄所述第一網(wǎng)頁的第一屬性信息和所述第一預設內容對應的第一特征信息; 在訪問第二網(wǎng)頁時,確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息一致,按照所述第一特征信息提取所述第二網(wǎng)頁的第二預設內容。
2.根據(jù)權利要求1所述的方法,其特征在于,所述第一屬性信息和第二屬性信息為網(wǎng)頁所對應的全部網(wǎng)頁文檔或預設部分網(wǎng)頁文檔的模板信息。
3.根據(jù)權利要求2所述的方法,其特征在于,所述模板信息包括網(wǎng)頁文檔中所包含的依次排列的各個節(jié)點標識。
4.根據(jù)權利要求3所述的方法,其特征在于,所述確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息一致的步驟,采用如下方式 依次對比所述第二網(wǎng)頁與所述第一網(wǎng)頁的全部或預設部分網(wǎng)頁文檔中的各個節(jié)點標識; 確定各個節(jié)點標識的名稱均相同,并且節(jié)點標識的個數(shù)也相同,則所述第二屬性信息與第一屬性信息一致。
5.根據(jù)權利要求3所述的方法,其特征在于,所述第一特征信息為所述第一預設內容中所對應的依次排列的節(jié)點標識,所述按照第一特征信息提取第二網(wǎng)頁的第二預設內容的步驟,采用如下方式 在第二網(wǎng)頁對應的網(wǎng)頁文檔中,查找與所述第一特征信息具備相同節(jié)點標識的節(jié)點; 提取所述節(jié)點中的節(jié)點內容作為第二網(wǎng)頁的第二預設內容。
6.根據(jù)權利要求3所述的方法,其特征在于,所述提取第一網(wǎng)頁的第一預設內容的步驟,采用如下方式 提取第一網(wǎng)頁的網(wǎng)頁文檔中各個節(jié)點的節(jié)點標識; 確定所述節(jié)點標識為預設標識,將所述節(jié)點標識對應的節(jié)點內容提取出來作為第一預設內容。
7.根據(jù)權利要求2所述的方法,其特征在于,所述預設部分網(wǎng)頁文檔為預設節(jié)點之后的網(wǎng)頁文檔。
8.—種網(wǎng)頁內容的提取裝置,其特征在于,包括 信息記錄模塊,用于提取第一網(wǎng)頁的第一預設內容,并記錄所述第一網(wǎng)頁的第一屬性信息和所述第一預設內容對應的第一特征信息; 確定模塊,用于在訪問第二網(wǎng)頁時,確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息一致; 預設內容提取模塊,用于按照所述第一特征信息提取所述第二網(wǎng)頁的第二預設內容。
9.根據(jù)權利要求8所述的裝置,其特征在于,所述第一屬性信息和第二屬性信息為網(wǎng)頁所對應的全部網(wǎng)頁文檔或部分網(wǎng)頁文檔的模板信息。
10.根據(jù)權利要求9所述的裝置,其特征在于,所述模板信息包括網(wǎng)頁文檔中所包含的依次排列的各個節(jié)點標識。
11.根據(jù)權利要求10所述的裝置,其特征在于,所述確定模塊包括 節(jié)點標識對比子模塊,用于依次對比所述第二網(wǎng)頁與所述第一網(wǎng)頁的全部或預設部分網(wǎng)頁文檔中的各個節(jié)點標識; 節(jié)點標識確定子模塊,用于確定各個節(jié)點標識的名稱均相同,并且節(jié)點標識的個數(shù)也相同,則所述第二屬性信息與第一屬性信息一致。
12.根據(jù)權利要求10所述的裝置,其特征在于,所述第一特征信息為所述第一預設內容中所對應的依次排列的節(jié)點標識,所述預設內容提取模塊包括 節(jié)點查找子模塊,用于在第二網(wǎng)頁對應的網(wǎng)頁文檔中,查找與所述第一特征信息具備相同節(jié)點標識的節(jié)點; 第二預設內容提取子模塊,用于提取所述節(jié)點中的節(jié)點內容作為第二網(wǎng)頁的第二預設內容。
13.根據(jù)權利要求10所述的裝置,其特征在于,所述信息記錄模塊包括 節(jié)點標識提取子模塊,用于提取第一網(wǎng)頁的網(wǎng)頁文檔中各個節(jié)點的節(jié)點標識; 預設標識確定子模塊,用于確定所述節(jié)點標識為預設標識,將所述節(jié)點標識對應的節(jié)點內容提取出來作為第一預設內容。
14.根據(jù)權利要求9所述的裝置,其特征在于,所述預設部分網(wǎng)頁文檔為預設節(jié)點之后的網(wǎng)頁文檔。
15.一種設備,其特征在于,所述設備包括 一個或多個處理器; 存儲器;和 一個或多個模塊,所述一個或多個模塊存儲于所述存儲器中并被配置成由所述一個或多個處理器執(zhí)行,其中,所述一個或多個模塊具有如下功能 提取第一網(wǎng)頁的第一預設內容,并記錄所述第一網(wǎng)頁的第一屬性信息和所述第一預設內容對應的第一特征信息; 在訪問第二網(wǎng)頁時,確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息一致,按照所述第一特征信息提取所述第二網(wǎng)頁的第二預設內容。
全文摘要
本發(fā)明實施例提供了一種網(wǎng)頁內容的提取方法、裝置和設備,包括提取第一網(wǎng)頁的第一預設內容,并記錄所述第一網(wǎng)頁的第一屬性信息和所述第一預設內容對應的第一特征信息;在訪問第二網(wǎng)頁時,確定所述第二網(wǎng)頁的第二屬性信息與所述第一屬性信息,按照所述第一特征信息提取所述第二網(wǎng)頁的第二預設內容。本發(fā)明實施例可以提高網(wǎng)頁預設內容的提取效率。
文檔編號G06F17/30GK103020179SQ20121049727
公開日2013年4月3日 申請日期2012年11月28日 優(yōu)先權日2012年11月28日
發(fā)明者左景龍, 徐國市, 張少偉 申請人:北京小米科技有限責任公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
澎湖县| 灵寿县| 静宁县| 唐海县| 宁安市| 日喀则市| 务川| 柘荣县| 广宗县| 开封市| 易门县| 临沂市| 阳高县| 余庆县| 高雄市| 凌云县| 铁岭县| 太白县| 舒城县| 罗甸县| 沁水县| 永寿县| 孝昌县| 德化县| 康平县| 高邑县| 岢岚县| 丰顺县| 土默特左旗| 区。| 石首市| 即墨市| 安新县| 理塘县| 莲花县| 桑植县| 莲花县| 天峻县| 绥化市| 定日县| 留坝县|