專利名稱:對網(wǎng)頁文本內(nèi)容進行提取的方法和裝置的制作方法
技術領域:
本發(fā)明涉及網(wǎng)絡技術領域,特別涉及一種對網(wǎng)頁文本內(nèi)容進行提取的方法和裝置。
背景技術:
隨著互聯(lián)網(wǎng)技術的普及,網(wǎng)絡已經(jīng)成為人們獲取信息的重要途徑之一,網(wǎng)頁中的文本內(nèi)容是信息的主要載體。然而,通常情況下網(wǎng)頁中除了文本內(nèi)容,還包括大量廣告圖片、非文章內(nèi)容等無用信息,嚴重影響了用戶的閱讀體驗?,F(xiàn)有技術提供的提取網(wǎng)頁文本內(nèi)容的方案中,網(wǎng)頁在瀏覽器中加載完畢后,將網(wǎng)頁中的內(nèi)容進行拆分,然后由瀏覽器中的匹配規(guī)則文件對網(wǎng)頁內(nèi)容進行定位,抽取出所需的字段內(nèi)容并顯示出來,從而用戶可以看到文本篩選后的網(wǎng)頁,使用戶能夠方便和專注的閱讀?,F(xiàn)有提取網(wǎng)頁文本內(nèi)容的方案中至少存在如下缺陷現(xiàn)有方案針對某一預定網(wǎng)頁結構設置一匹配規(guī)則文件,該匹配規(guī)則文件僅適用于預定結構下網(wǎng)頁文本內(nèi)容的提取,然而由于網(wǎng)絡資源的更新速度非???,網(wǎng)頁結構會時常變動,則已有的匹配規(guī)則文件將無法對變動后的網(wǎng)頁進行文本提取,而重新生成新的匹配規(guī)則文件,再將新的匹配規(guī)則文件設置在瀏覽器中,又導致實現(xiàn)匹配的操作過于繁瑣,工作量較大、效率低下。
發(fā)明內(nèi)容
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的對網(wǎng)頁文本內(nèi)容進行提取的方法和裝置。依據(jù)本發(fā)明的一個方面,本發(fā)明實施例提供了一種對網(wǎng)頁文本內(nèi)容進行提取的方法,包括在瀏覽器側預設至少一網(wǎng)頁文本內(nèi)容匹配設置;在瀏覽器側進行網(wǎng)頁內(nèi)容下載;將網(wǎng)頁內(nèi)容分別與網(wǎng)頁文本內(nèi)容匹配設置進行匹配,直至網(wǎng)頁內(nèi)容匹配成功;利用與網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設置,提取網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。本發(fā)明另一個實施例還提供了一種對網(wǎng)頁文本內(nèi)容可進行提取的裝置,包括匹配設置配置單元,適于在瀏覽器側預設至少一網(wǎng)頁文本內(nèi)容匹配設置;下載單元,適于在瀏覽器側進行網(wǎng)頁內(nèi)容下載;匹配單元,適于將網(wǎng)頁內(nèi)容分別與網(wǎng)頁文本內(nèi)容匹配設置進行匹配,直至網(wǎng)頁內(nèi)容匹配成功;提取單元,適于利用與網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設置,提取網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。由上所述,本發(fā)明實施例通過在瀏覽器側建立多個網(wǎng)頁文本內(nèi)容匹配設置,并將同一網(wǎng)頁文本內(nèi)容與多個網(wǎng)頁文本內(nèi)容匹配設置進行匹配的技術手段,在網(wǎng)頁內(nèi)容發(fā)生變化時,能夠從多個網(wǎng)頁文本內(nèi)容匹配設置中找到與發(fā)生變化的網(wǎng)頁相匹配的網(wǎng)頁文本內(nèi)容匹配設置,從而能夠利用匹配成功的網(wǎng)頁文本內(nèi)容匹配設置提取出網(wǎng)頁文本內(nèi)容。并且,本方案避免了在網(wǎng)頁內(nèi)容變化時,需要生成新的匹配規(guī)則文件并設置在瀏覽器中的操作,簡化了實現(xiàn)匹配的操作,降低了工作量,提高了效率。上述說明僅是本發(fā)明技術方案的概述,為了能夠更清楚了解本發(fā)明的技術手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式
。
通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中圖1示出了根據(jù)本發(fā)明一個實施例的對網(wǎng)頁文本內(nèi)容可進行提取的裝置結構示意圖;圖2示出了根據(jù)本發(fā)明又一個實施例的對網(wǎng)頁文本內(nèi)容進行提取的方法流程圖。
具體實施例方式下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。本發(fā)明一個實施例提供了一種對網(wǎng)頁文本內(nèi)容可進行提取的裝置,能夠在保證文本提取速度和穩(wěn)定性的前提下,向用戶提供更加方便和專注的閱讀服務。參見圖1,該裝置包括匹配設置配置單元100、下載單元101、匹配單元102、提取單元103、加載控制單元104、過濾單元105、匹配設置更新單元106、多線程控制單元107、輸入單元108和上傳單元109。下面分別對各單元進行說明。匹配設置配置單元100,適于在瀏覽器側預設至少一網(wǎng)頁文本內(nèi)容匹配設置。具體的,匹配設置配置單元100適于建立一匹配設置文件并將至少一網(wǎng)頁文本內(nèi)容匹配設置保存在匹配設置文件中;其中,該匹配設置文件中包括至少一個網(wǎng)站節(jié)點,每個網(wǎng)站節(jié)點中包括至少一種網(wǎng)頁節(jié)點,至少部分網(wǎng)頁節(jié)點中設有兩個以上的匹配設置描述節(jié)點,每個匹配設置描述節(jié)點對應一網(wǎng)頁文本內(nèi)容匹配設置。匹配設置描述節(jié)點中可以包括一個或多個匹配設置項,至少兩個網(wǎng)頁文本內(nèi)容匹配設置中分別包括對相同類型文本內(nèi)容的不同匹配設置項。匹配設置配置單元100為每種類型的網(wǎng)站建立一個網(wǎng)站節(jié)點,即一個網(wǎng)站節(jié)點對應一種類型的網(wǎng)站;在一個網(wǎng)站節(jié)點下,為該網(wǎng)站節(jié)點相應的網(wǎng)站下每種類型的網(wǎng)頁建立一個網(wǎng)頁節(jié)點,即一個網(wǎng)頁節(jié)點對應一種類型的網(wǎng)頁。根據(jù)網(wǎng)頁的內(nèi)容建立每個網(wǎng)頁節(jié)點的匹配設置描述節(jié)點中的匹配設置項。不同的網(wǎng)頁,其中包含的內(nèi)容不同,則相應的匹配設置描述節(jié)點中的匹配設置項也不同。在一個網(wǎng)頁節(jié)點下包括多個匹配設置描述節(jié)點,由于通常網(wǎng)頁中會存在一些不會經(jīng)常變化的固定信息和一些易于發(fā)生變化的可變信息,匹配設置配置單元100在網(wǎng)頁節(jié)點下的匹配設置描述節(jié)點中確定一個匹配設置描述節(jié)點作為第一匹配設置描述節(jié)點,該第一匹配設置描述節(jié)點中包括的匹配設置項最全面,包括了為網(wǎng)頁中每種類型的文本內(nèi)容建立的至少一條匹配設置項。而在除第一匹配設置描述節(jié)點之外的匹配設置描述節(jié)點中,可以僅針對網(wǎng)頁中的可變信息建立匹配設置項,并且在該網(wǎng)頁節(jié)點中除第一匹配設置描述節(jié)點之外的匹配設置描述節(jié)點中建立的匹配設置項各不相同。這種處理方式,一方面簡化了網(wǎng)頁文本內(nèi)容匹配設置的結構,避免不同匹配設置中有重復的部分,減少了所需存儲的匹配設置的數(shù)據(jù)量,從而提高了資源利用率;另一方面也避免了對相同的網(wǎng)頁內(nèi)容進行重復匹配操作,提高了匹配效率。下面結合一段代碼的示例對匹配設置文件進行具體說明。
權利要求
1.一種對網(wǎng)頁文本內(nèi)容進行提取的方法,包括 在瀏覽器側預設至少一網(wǎng)頁文本內(nèi)容匹配設置; 在瀏覽器側進行網(wǎng)頁內(nèi)容下載; 將所述網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設置進行匹配,直至所述網(wǎng)頁內(nèi)容匹配成功; 利用與所述網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設置,提取所述網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。
2.根據(jù)權利要求1所述的方法,其特征在于,所述在瀏覽器側預設至少一網(wǎng)頁文本內(nèi)容匹配設置包括 建立一匹配設置文件并將所述至少一網(wǎng)頁文本內(nèi)容匹配設置保存在所述匹配設置文件中; 其中,所述匹配設置文件中包括至少一個網(wǎng)站節(jié)點,每個網(wǎng)站節(jié)點中包括至少一種網(wǎng)頁節(jié)點,至少部分所述網(wǎng)頁節(jié)點中設有兩個以上的匹配設置描述節(jié)點,每個匹配設置描述節(jié)點對應一網(wǎng)頁文本內(nèi)容匹配設置,至少兩個所述網(wǎng)頁文本內(nèi)容的匹配設置中分別包括對相同類型文本內(nèi)容的不同匹配設置項。
3.根據(jù)權利要求2所述的方法,其特征在于,所述將所述網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設置進行匹配,直至所述網(wǎng)頁內(nèi)容匹配成功包括 在所述匹配設置文件中查找所述網(wǎng)頁內(nèi)容對應的網(wǎng)站節(jié)點及網(wǎng)頁節(jié)點; 在查找到的網(wǎng)頁節(jié)點下,將所述網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點中的第一匹配設置描述節(jié)點中的匹配設置項依次進行匹配; 對匹配成功的匹配設置項,將匹配結果設置為利用該匹配設置項提取出的網(wǎng)頁文本內(nèi)容; 對匹配失敗的匹配設置項,在該網(wǎng)頁節(jié)點中除第一匹配設置描述節(jié)點之外的匹配設置描述節(jié)點中查找與該匹配失敗的匹配設置項相對應的匹配設置項,將查找到的匹配設置項與所述網(wǎng)頁內(nèi)容進行匹配,直至查找到的匹配設置項與所述網(wǎng)頁內(nèi)容匹配成功,并將匹配結果設置為根據(jù)該匹配設置項提取出的網(wǎng)頁文本內(nèi)容。
4.根據(jù)權利要求3所述的方法,其特征在于,所述利用與所述網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設置,提取所述網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容包括 將所有根據(jù)所述匹配成功的匹配設置項提取出的網(wǎng)頁文本內(nèi)容作為識別出的所述網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。
5.根據(jù)權利要求2所述的方法,其特征在于,所述建立一匹配設置文件并將所述至少一網(wǎng)頁文本內(nèi)容匹配設置保存在所述匹配設置文件中包括 為每種類型的網(wǎng)站建立一個網(wǎng)站節(jié)點; 在一個網(wǎng)站節(jié)點下,為該網(wǎng)站節(jié)點相應的網(wǎng)站下每種類型的網(wǎng)頁建立一個網(wǎng)頁節(jié)點; 根據(jù)網(wǎng)頁的內(nèi)容建立每個網(wǎng)頁節(jié)點的匹配設置描述節(jié)點中的匹配設置項,其中在網(wǎng)頁節(jié)點的第一匹配設置描述節(jié)點中,為該網(wǎng)頁節(jié)點相應的網(wǎng)頁中每種類型的文本內(nèi)容建立至少一條匹配設置項;以及 對于網(wǎng)頁中相同類型的文本內(nèi)容,在所述第一匹配設置描述節(jié)點中建立的匹配設置項和在該網(wǎng)頁節(jié)點中除第一匹配設置描述節(jié)點之外的匹配設置描述節(jié)點中建立的匹配設置項各不相同。
6.根據(jù)權利要求3所述的方法,其特征在于,在所述網(wǎng)頁節(jié)點中設置下載模式屬性和元素過濾屬性,所述元素過濾屬性指示的過濾方式包括過濾圖片、過濾級聯(lián)樣式表CSS、過濾Javascript腳本語言、過濾框架、過濾對象和過濾嵌入內(nèi)容中的一種或多種, 在查找到的網(wǎng)頁節(jié)點下,將所述網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點中的第一匹配設置描述節(jié)點中的匹配設置項依次進行匹配的步驟之前,所述方法進一步包括 判斷所述查找到的網(wǎng)頁節(jié)點中的下載模式屬性的屬性值是否為預定值,若是,根據(jù)元素過濾屬性指示的過濾方式對網(wǎng)頁中的內(nèi)容進行過濾,然后在查找到的網(wǎng)頁節(jié)點下,將過濾后的網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點中的第一匹配設置描述節(jié)點中的匹配設置項依次進行匹配;若否,直接將所述網(wǎng)頁內(nèi)容下載在瀏覽器中。
7.根據(jù)權利要求1所述的方法,其特征在于,所述網(wǎng)頁文本內(nèi)容匹配設置包括為網(wǎng)頁內(nèi)容的統(tǒng)一資源定位符URL建立網(wǎng)頁URL匹配設置項, 所述網(wǎng)頁URL匹配設置項中包含匹配屬性設置項,所述匹配屬性設置項包括 網(wǎng)頁URL以預定內(nèi)容作為開頭;和/或, 網(wǎng)頁URL包含預定內(nèi)容,該預定內(nèi)容的預定位置包含任意字符;和/或, 網(wǎng)頁URL不包含預定內(nèi)容,該預定內(nèi)容包含任意字符。
8.根據(jù)權利要求7所述的方法,其特征在于,所述網(wǎng)頁URL匹配設置項還包括網(wǎng)頁標識屬性設置項、網(wǎng)頁標識提取屬性設置項和轉化屬性設置項, 所述網(wǎng)頁標識屬性設置項包括將網(wǎng)頁的URL中預定位置的字符作為該網(wǎng)頁內(nèi)容的網(wǎng)頁標識; 所述網(wǎng)頁標識提取屬性設置項包括在根據(jù)網(wǎng)頁標識屬性設置項匹配得到的網(wǎng)頁標識中選取預定位置的字符作為網(wǎng)頁標識; 所述轉化屬性設置項包括根據(jù)獲知的網(wǎng)頁內(nèi)容的網(wǎng)頁標識和URL的組成格式轉化得到該網(wǎng)頁的URL。
9.根據(jù)權利要求7所述的方法,其特征在于,所述網(wǎng)頁URL匹配設置項還包括網(wǎng)頁標題提取屬性設置項, 所述網(wǎng)頁標題提取屬性設置項包括將網(wǎng)頁內(nèi)容中預定字符之前的內(nèi)容提取為標題。
10.根據(jù)權利要求5所述的方法,其特征在于,所述在網(wǎng)頁節(jié)點的第一匹配設置描述節(jié)點中,為該網(wǎng)頁節(jié)點相應的網(wǎng)頁中每種類型的文本內(nèi)容建立至少一條匹配設置項包括 在第一匹配設置描述節(jié)點中為網(wǎng)頁中每種類型的文本內(nèi)容在網(wǎng)頁內(nèi)容中的超文本標記語言HTML元素建立至少一條匹配設置項; 所述為HTML元素建立的匹配設置項包括一次定位匹配設置項,所述一次定位匹配設置項至少包括 基點查找設置項指示基點查找的方式,所述方式包括查找標識、查找名稱、查找類名、查找內(nèi)容、查找表達式;和/或, 標識定位設置項定位與HTML元素的標識相匹配的元素;和/或, 名稱定位設置項定位與HTML元素的名稱相匹配的元素;和/或, 類名定位設置項定位與HTML元素的類名稱相匹配的元素;和/或, 內(nèi)容定位設置項定位與HTML元素的內(nèi)容相匹配的元素;和/或,表達式定位設置項定位與HTML元素中的表達式相匹配的元素; 和/或, 標簽設置項指示利用所述標識定位設置項、名稱定位設置項、類名定位設置項、內(nèi)容定位設置項或表達式定位設置項對元素定位時,所定位元素的類型和/或屬性。
11.根據(jù)權利要求10所述的方法,其特征在于,所述為HTML元素建立的匹配設置項還包括二次定位匹配設置項,所述二次定位匹配設置項至少包括 父查詢設置項設置根據(jù)一次定位匹配設置項定位到的元素,查找該元素的父元素的方式;或者, 子查詢設置項設置根據(jù)一次定位匹配設置項定位到的元素,查找該元素的子元素的方式;或者, 當父查詢設置項和子查詢設置項置同時存在時,先根據(jù)父查詢設置項查找一次定位匹配設置項定位到的元素的父元素,然后根據(jù)子查詢設置項,從查找到的該父元素起,查找該父元素的子元素。
12.根據(jù)權利要求10所述的方法,其特征在于,所述為HTML元素建立的匹配設置項還包括元素刪除匹配設置項,所述元素刪除匹配設置項至少包括 刪除由一次定位匹配設置項或二次定位匹配設置項定位出的元素中的預定內(nèi)容;和/或 改變由一次定位匹配設置項或二次定位匹配設置項定位出的元素中的預定內(nèi)容。
13.根據(jù)權利要求2所述的方法,其特征在于,在所述建立一匹配設置文件之后,所述方法還包括 根據(jù)接收到的更新指令,對所述匹配設置文件中的網(wǎng)站節(jié)點、網(wǎng)頁節(jié)點、匹配設置描述節(jié)點和/或匹配設置描述節(jié)點中的匹配設置項進行更新。
14.根據(jù)權利要求1所述的方法,其特征在于,所述將所述網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設置進行匹配,直至所述網(wǎng)頁內(nèi)容匹配成功包括 當瀏覽器側存在多個下載到的網(wǎng)頁內(nèi)容時,為每個網(wǎng)頁內(nèi)容分配一個線程,在所分配的線程中將相應網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設置進行匹配,直至所述網(wǎng)頁內(nèi)容匹配成功;和/或 為瀏覽器側的一網(wǎng)頁內(nèi)容分配多個線程,在不同線程中將所述網(wǎng)頁內(nèi)容分別與不同的網(wǎng)頁文本內(nèi)容匹配設置進行匹配,直至所述網(wǎng)頁內(nèi)容匹配成功。
15.根據(jù)權利要求2所述的方法,其特征在于,所述建立一匹配設置文件并將所述至少一網(wǎng)頁文本內(nèi)容匹配設置保存在所述匹配設置文件中包括 接收用戶發(fā)送的選取網(wǎng)頁文本內(nèi)容匹配設置的選取指令; 根據(jù)所述選取指令建立匹配設置文件,并將所述選取指令中的網(wǎng)頁文本內(nèi)容匹配設置保存在所建立的匹配設置文件中; 將所述匹配設置文件上傳至服務器并存儲在服務器側所述用戶的用戶數(shù)據(jù)中。
16.根據(jù)權利要求1所述的方法,其特征在于,在所述將所述網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設置進行匹配之前,所述方法還包括 當監(jiān)測到指示瀏覽器加載完畢的文件完成事件時,啟動所述將所述網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設置進行匹配的操作。
17.根據(jù)權利要求1所述的方法,其特征在于,所述將所述網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設置進行匹配包括 對下載到的網(wǎng)頁內(nèi)容分層解析,得到該網(wǎng)頁內(nèi)容的文檔對象模型DOM結構; 按照所述網(wǎng)頁內(nèi)容的DOM結構,將網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設置進行匹配。
18.一種對網(wǎng)頁文本內(nèi)容可進行提取的裝置,包括 匹配設置配置單元,適于在瀏覽器側預設至少一網(wǎng)頁文本內(nèi)容匹配設置; 下載單元,適于在瀏覽器側進行網(wǎng)頁內(nèi)容下載; 匹配單元,適于將所述網(wǎng)頁內(nèi)容分別與所述網(wǎng)頁文本內(nèi)容匹配設置進行匹配,直至所述網(wǎng)頁內(nèi)容匹配成功; 提取單元,適于利用與所述網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設置,提取所述網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。
19.根據(jù)權利要求18所述的裝置,其特征在于,所述匹配設置配置單元,適于建立一匹配設置文件并將所述至少一網(wǎng)頁文本內(nèi)容匹配設置保存在所述匹配設置文件中;其中,所述匹配設置文件中包括至少一個網(wǎng)站節(jié)點,每個網(wǎng)站節(jié)點中包括至少一種網(wǎng)頁節(jié)點,至少部分所述網(wǎng)頁節(jié)點中設有兩個以上的匹配設置描述節(jié)點,每個匹配設置描述節(jié)點對應一網(wǎng)頁文本內(nèi)容匹配設置,至少兩個所述網(wǎng)頁文本內(nèi)容的匹配設置中分別包括對相同類型文本內(nèi)容的不同匹配設置項。
20.根據(jù)權利要求19所述的裝置,其特征在于, 所述匹配單元,適于在所述匹配設置文件中查找所述網(wǎng)頁內(nèi)容對應的網(wǎng)站節(jié)點及網(wǎng)頁節(jié)點;在查找到的網(wǎng)頁節(jié)點下,將所述網(wǎng)頁內(nèi)容與該網(wǎng)頁節(jié)點中的第一匹配設置描述節(jié)點中的匹配設置項依次進行匹配;對匹配成功的匹配設置項,將匹配結果設置為利用該匹配設置項提取出的網(wǎng)頁文本內(nèi)容;對匹配失敗的匹配設置項,在該網(wǎng)頁節(jié)點中除第一匹配設置描述節(jié)點之外的匹配設置描述節(jié)點中查找與該匹配失敗的匹配設置項相對應的匹配設置項,將查找到的匹配設置項與所述網(wǎng)頁內(nèi)容進行匹配,直至查找到的匹配設置項與所述網(wǎng)頁內(nèi)容匹配成功,并將匹配結果設置為根據(jù)該匹配設置項提取出的網(wǎng)頁文本內(nèi)容。
全文摘要
本發(fā)明公開了一種對網(wǎng)頁文本內(nèi)容進行提取的方法和裝置。本發(fā)明實施例提供的一種對網(wǎng)頁文本內(nèi)容進行提取的方法包括在瀏覽器側預設至少一網(wǎng)頁文本內(nèi)容匹配設置;在瀏覽器側進行網(wǎng)頁內(nèi)容下載;將網(wǎng)頁內(nèi)容分別與網(wǎng)頁文本內(nèi)容匹配設置進行匹配,直至網(wǎng)頁內(nèi)容匹配成功;利用與網(wǎng)頁內(nèi)容匹配成功的網(wǎng)頁文本內(nèi)容匹配設置,提取網(wǎng)頁內(nèi)容中的網(wǎng)頁文本內(nèi)容。
文檔編號G06F17/30GK103020266SQ20121057302
公開日2013年4月3日 申請日期2012年12月25日 優(yōu)先權日2012年12月25日
發(fā)明者謝洲為, 潘洪學, 糜裕峰, 任寰 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司