欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于嵌入式瀏覽器的網(wǎng)頁編碼語言自動識別方法及裝置的制作方法

文檔序號:7660196閱讀:236來源:國知局
專利名稱:用于嵌入式瀏覽器的網(wǎng)頁編碼語言自動識別方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及通訊領(lǐng)域,尤其涉及一種用于嵌入式瀏覽器的網(wǎng)頁
編碼ri吾言自動"i只別方法及裝置。
背景技術(shù)
嵌入式瀏覽器從桌面?zhèn)€人計算機(PC)所用的瀏覽器而來,多 用于機頂盒、信息家電、和移動信息終端等嵌入設(shè)備。
與個人計算機上的瀏覽器不同,嵌入式瀏覽器能夠獲得的資源, 比如顯示面積大小、處理器計算能力、內(nèi)存大小、緩存大小、字庫、 及語言文件都非常有限,而需要處理的內(nèi)容幾乎與個人計算機上相 同,因此在網(wǎng)絡(luò)連接方式、內(nèi)容解析、排面布局上都和個人計算初」 瀏覽器有很大的區(qū)別。尤其是在移動信息終端上,嵌入式瀏覽器除 了支持傳統(tǒng)的互聯(lián)網(wǎng),還必須支持訪問移動互l關(guān)網(wǎng),即工作分配計 劃(WAP)網(wǎng)站。瀏覽器必須既能解析超文本標示語言(HTML)、 文件擴展名(SHTML)、及動態(tài)超文本標示語言(DHTML)等超文 本語言網(wǎng)頁,又能解析無線標示語言(WML)、無線二進制可擴展 標示語言(WBXML)、及壓縮超文本標示語言(CHTML)等工作 分配計劃網(wǎng)頁。而訪問以上諸多格式的網(wǎng)頁,都可能遇到支持多種 i吾言的問題。
超文本傳輸通訊協(xié)議(HTTP)及工作分配計劃兩種互聯(lián)網(wǎng)協(xié) 議,還有超文本標示語言/無線標示語言都對怎樣使用多種語言進行 了規(guī)定。但是實際應(yīng)用中,網(wǎng)頁書寫不規(guī)范,通過網(wǎng)關(guān)訪問出現(xiàn)協(xié) 議頭丟失或者頁面轉(zhuǎn)換導(dǎo)致用于指明頁面編碼的元數(shù)據(jù)錯誤等,都
底使用哪種語言。更有甚者,網(wǎng)頁里4吏用多種編碼,4艮本無法用同 一編碼對全部網(wǎng)頁文本進行解析。
對此類問題, 一般有兩種解決方案手工糾錯或者自動解碼。 前者是由用戶指定一種編碼,瀏覽器按此編碼重新對網(wǎng)頁數(shù)據(jù)進行 解析。這種方法成功概率耳又決于用戶判斷的準確度。^旦是它需要用 戶的參與,不夠便利,此外也需要重新解析網(wǎng)頁,很浪費資源。后 一種方案自動解碼的實現(xiàn)則千差萬別,由于嵌入系統(tǒng)資源系統(tǒng)有限, 最常見的方法是內(nèi)置一種缺省語言, 一旦無法識別,就用該語言去 解碼,這種方法往往造成顯示《L石馬。

發(fā)明內(nèi)容
鑒于以上所述的一個或多個問題,本發(fā)明提出了 一種用于嵌入 式瀏覽器的網(wǎng)頁編碼語言自動識別方法及裝置。#4居本發(fā)明所述的 方法及裝置不需要用戶參與指定編碼,并且可以消除4吏用內(nèi)置缺省 編碼造成的顯示亂碼的可能性,其是對網(wǎng)頁內(nèi)部存在多種編碼的情 況有很好的效果。
根據(jù)本發(fā)明的一種用于嵌入式瀏覽器的網(wǎng)頁編碼語言自動識別 方法包括以下步驟S102,從嵌入式瀏覽器的協(xié)議棧中獲取部分網(wǎng) 頁凄t據(jù)和協(xié)議頭;S104,解析網(wǎng)頁凄史據(jù)和協(xié)議頭,以獲得指明網(wǎng)頁 編碼的元數(shù)據(jù);S106,利用從網(wǎng)頁數(shù)據(jù)中獲取的元數(shù)據(jù)和從協(xié)議頭 中獲取的元數(shù)據(jù),根據(jù)優(yōu)先級判斷第一次文本解析應(yīng)該使用的編碼;
以及S108,才艮據(jù)所采用的編碼解析當(dāng)前凄t據(jù)塊,并統(tǒng)計解析過程中 出現(xiàn)的錯誤,并且在出現(xiàn)錯誤的情況下,再次選擇編碼進行解析。
其中,S106包括S106-2,將從網(wǎng)頁數(shù)據(jù)獲取的元數(shù)據(jù)或協(xié)i義 頭中獲取的元數(shù)據(jù)的優(yōu)先級設(shè)置為最高,在其中至少之一存在的情 況下,采用該種元數(shù)據(jù)指示的編碼進行解析;S106-4,在均不存在 的情況下,采用從同 一網(wǎng)頁的其他數(shù)據(jù)塊的網(wǎng)頁數(shù)據(jù)或協(xié)議頭獲:f又 的元數(shù)據(jù)指示的編碼進行解析;以及S106-6,在不存在同一網(wǎng)頁的 其他凄丈據(jù)塊的網(wǎng)頁數(shù)據(jù)和協(xié)議頭的情況下,采用瀏覽器內(nèi)置的缺省 編碼進4于解析。
在S108中,在解析無4普誤的情況下,將采用的編碼的優(yōu)先級 設(shè)置為最高,在解析出現(xiàn)錯誤的情況下,繼續(xù)選#^編碼進行解析。
才艮據(jù)本發(fā)明的一種用于嵌入式瀏覽器的網(wǎng)頁編碼:〖吾言自動識別 裝置包括數(shù)據(jù)獲取模塊202,用于從嵌入式瀏覽器的協(xié)議棧中獲 取部分網(wǎng)頁數(shù)據(jù)和協(xié)議頭;數(shù)據(jù)解析才莫塊204,用于解析網(wǎng)頁數(shù)據(jù) 和協(xié)i義頭,以獲得指明網(wǎng)頁編碼的元凄t據(jù);編碼確定才莫塊206,用 于利用從網(wǎng)頁數(shù)據(jù)中獲取的元數(shù)據(jù)和從協(xié)議頭中獲取的元數(shù)據(jù),才艮 據(jù)優(yōu)先級判斷第一次文本解析應(yīng)該-使用的編碼;以及解析才莫塊208, 根據(jù)所采用的編碼解析當(dāng)前數(shù)據(jù)塊,并統(tǒng)計解析過程中出現(xiàn)的4普誤, 并且在出現(xiàn)4普誤的情況下,再次選擇編碼進4于解析。
其中,編碼確定模塊206將從網(wǎng)頁數(shù)據(jù)獲取的元數(shù)據(jù)或協(xié)議頭 中獲取的元數(shù)據(jù)的優(yōu)先級設(shè)置為最高,在其中至少之一存在的情況 下,采用該種元數(shù)據(jù)指示的編碼進行解析;在均不存在的情況下, 采用從同 一 網(wǎng)頁的其他數(shù)據(jù)塊的網(wǎng)頁數(shù)據(jù)或協(xié)議頭獲取的元凄i據(jù)指 示的編碼進行解析;以及在不存在同一網(wǎng)頁的其他數(shù)據(jù)塊的網(wǎng)頁數(shù) 據(jù)和協(xié)議頭的情況下,采用瀏覽器內(nèi)置的缺省編碼進行解析。
其中,在解析無4晉誤的情況下,編碼確定才莫塊206將采用的編 碼的優(yōu)先級設(shè)置為最高,在解析出現(xiàn)錯誤的情況下,編碼確定模塊 繼續(xù)選擇編碼以進行解析。
通過本發(fā)明所述的方法及裝置不需要用戶參與指定編碼,消除 了^f吏用內(nèi)置缺省編碼造成的顯示亂碼的可能性,對網(wǎng)頁內(nèi)部存在多 種編碼的情況有4艮好的效果。


此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申 請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并 不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中
圖1A為根據(jù)本發(fā)明的用于嵌入式瀏覽器的網(wǎng)頁編碼語言自動 -i只別方法的流禾呈圖1B為圖1A中的S106的具體4丸4亍步驟的流程圖2為根據(jù)分發(fā)名的用于嵌入式瀏覽器的網(wǎng)頁編碼語言自動識 別裝置的配置的框圖3為根據(jù)本發(fā)明的一個實施例的基于錯誤統(tǒng)計和嘗試法的語 言編石馬自動識別和解沖斤方法的流禾呈圖4為才艮據(jù)本發(fā)明的另一個實施例的瀏覽器初始的優(yōu)先編碼判 斷邏輯圖;以及
圖5為才艮據(jù)本發(fā)明的另一個實施例的解析統(tǒng)計和試4晉的流程圖。
具體實施例方式
下面參考附圖,詳細說明本發(fā)明的具體實施方式
。
本發(fā)明的目的在于提供一種基于錯誤統(tǒng)計和嘗試法的語言編碼 自動識別和解析技術(shù)。 一般的瀏覽器都具備協(xié)議棧、網(wǎng)頁文本解析 器,頁面布局、用戶界面等主要軟件模塊。本技術(shù)的主要功能由網(wǎng) 頁文本解析器完成,需要協(xié)議棧配合。
本發(fā)明所述的技術(shù)包括以下組成部分:
協(xié)議棧用于嵌入式瀏覽器的協(xié)議棧,主要指超文本傳輸通訊 協(xié)i義協(xié)i義及無線超文本傳輸通訊協(xié)i義協(xié)議。
多種語編解碼模塊運營商操作人員的操作窗口,可以利用該 平臺發(fā)起DM的相關(guān)業(yè)務(wù)。
本發(fā)明的沖支術(shù)方案如下:
鑒于超文本傳輸通訊協(xié)i義/無線超文本傳輸通訊協(xié)i義協(xié)議在本 技術(shù)方案中沒有區(qū)別,以下說明僅對超文本傳輸通訊協(xié)議協(xié)議進行,
線超文本傳輸通訊協(xié)議協(xié)議。
圖1A為根據(jù)本發(fā)明的用于嵌入式瀏覽器的網(wǎng)頁編碼語言自動 識別方法的流^E圖。如圖1A所示,該方法包:fe以下步驟
S102 ,從嵌入式瀏覽器的協(xié)議棧中獲取部分網(wǎng)頁數(shù)據(jù)和協(xié)i義
頭,
Sl04,解析網(wǎng)頁凄t據(jù)和協(xié)議頭,以獲得指明網(wǎng)頁編碼的元凄t據(jù).S106 ,利用從網(wǎng)頁數(shù)據(jù)中獲取的元數(shù)據(jù)和從協(xié)議頭中獲取的元 數(shù)據(jù),根據(jù)優(yōu)先級判斷第一次文本解析應(yīng)該使用的編碼。
S108,才艮據(jù)所采用的編碼解4斤當(dāng)前凄丈據(jù)塊,并統(tǒng)計解析過程中 出現(xiàn)的錯誤,并且在出現(xiàn)錯誤的情況下,再次選擇編碼進行解析。
圖1B為圖1A中的S106的具體執(zhí)行步驟的流程圖。如圖1B 所示,S106包4舌
S106-2,將從網(wǎng)頁數(shù)據(jù)獲取的元數(shù)據(jù)或協(xié)議頭中獲取的元數(shù)據(jù) 的優(yōu)先級設(shè)置為最高,在其中至少之一存在的情況下,采用該種元 數(shù)據(jù)指示的編碼進行解析。
S106-4,在均不存在的情況下,采用從同一網(wǎng)頁的其他凄t據(jù)塊 的網(wǎng)頁數(shù)據(jù)或協(xié)議頭獲取的元數(shù)據(jù)指示的編碼進4亍解析。
S106-6,在不存在同一網(wǎng)頁的其他凝:據(jù)塊的網(wǎng)頁數(shù)據(jù)和協(xié)議頭 的情況下,采用瀏覽器內(nèi)置的缺省編碼進行解析。
其中,在S108中,在解析無錯誤的情況下,將采用的編碼的 優(yōu)先級設(shè)置為最高,在解析出現(xiàn)錯誤的情況下,繼續(xù)選擇其他編碼 進行解析。
圖2為才艮據(jù)分發(fā)名的用于嵌入式瀏覽器的網(wǎng)頁編碼語言自動識 別裝置的配置的框圖。如圖2所示該裝置包括數(shù)據(jù)獲取才莫塊202, 用于從嵌入式瀏覽器的協(xié)議棧中獲取部分網(wǎng)頁數(shù)據(jù)和協(xié)議頭;數(shù)據(jù) 解析模塊204,用于解析網(wǎng)頁數(shù)據(jù)和協(xié)議頭,以獲得指明網(wǎng)頁編碼 的元數(shù)據(jù);編碼確定模塊206,用于利用從網(wǎng)頁數(shù)據(jù)中獲取的元數(shù) 據(jù)和從協(xié)議頭中獲取的元數(shù)據(jù),才艮據(jù)優(yōu)先級判斷第一次文本解析應(yīng) 該使用的編碼;以及解析模塊208,根據(jù)所采用的編碼解析當(dāng)前數(shù) 據(jù)塊,并統(tǒng)計解析過程中出現(xiàn)的確普誤,并且在出現(xiàn)錯誤的情況下, 再次選擇編碼進行解析。
其中,編碼確定模塊206將從網(wǎng)頁數(shù)據(jù)獲取的元數(shù)據(jù)或協(xié)議頭 中獲取的元數(shù)據(jù)的優(yōu)先級設(shè)置為最高,在其中至少之一存在的情況 下,采用該種元數(shù)據(jù)指示的編碼進行解析;在均不存在的情況下, 采用從同 一 網(wǎng)頁的其他數(shù)據(jù)塊的網(wǎng)頁數(shù)據(jù)或協(xié)議頭獲取的元數(shù)據(jù)指 示的編碼進4亍解析;以及在不存在同 一 網(wǎng)頁的其他數(shù)據(jù)塊的網(wǎng)頁翁: 據(jù)和協(xié)議頭的情況下,釆用瀏覽器內(nèi)置的缺省編碼進行解析。
其中,在解析無錯誤的情況下,編碼確定模塊206將采用的編 碼的優(yōu)先級設(shè)置為最高,在解析出現(xiàn)錯誤的情況下,編碼確定模塊 206繼續(xù)選4奪編碼以進4于解沖斤
圖3為根據(jù)本發(fā)明的一個實施例的基于錯誤統(tǒng)計和嘗試法的語 言編碼自動識別和解析方法的流程圖。如圖3所示,該方法包括以
下步驟
S302,從協(xié)議棧獲取部分網(wǎng)頁數(shù)據(jù)和協(xié)議頭。
超文本傳輸通訊協(xié)議協(xié)議使用Get命令獲取訪問的網(wǎng)頁,服務(wù) 應(yīng)該在返回響應(yīng)數(shù)據(jù)的時候在協(xié)議頭里攜帶適當(dāng)?shù)膬?nèi)容編碼信息。
超文本傳輸通訊協(xié)議協(xié)議頭中,用如下字段指示傳輸?shù)膬?nèi)容類型以 及內(nèi)容編石馬
"Content-Type: text/html; charset=GB2312"
其中Content-Type: text/html i兌明返回的時超文本才示示i吾言網(wǎng)頁 charset=GB2312 i兌明返回的網(wǎng)頁時中文小字符集編碼。
響應(yīng)返回的內(nèi)容被保存在緩沖區(qū)里等待解析。
S304,解一斤文本里指明網(wǎng)頁編石馬的元凄丈才居。
對于超文本標示語言網(wǎng)頁,一 4殳會在網(wǎng)頁的開始 〈HEADx/HEAD〉標簽之間通過如下的元凄t據(jù)指示網(wǎng)頁內(nèi)容編碼
<meta http-equiv="Content-type" content="text/html;
charset=gb2312">
其中,http-叫uiv-"Content-type"表明該元凄U居相當(dāng)于超文本傳 專命通訊/f辦i義協(xié)i義頭的Content-Type字#殳。
而content="text/html; charset=gb2312的用法與上面的超文本傳 輸通訊協(xié)議協(xié)議頭用法類似。
〉寸于WML網(wǎng)頁,包頭類合乂。
可以看出,正常情況下這個元數(shù)據(jù)與超文本傳輸通訊協(xié)議協(xié)議 頭的相應(yīng)字^:應(yīng)該是一 致的。
但是實際上很多網(wǎng)頁并不攜帶該字段,或者該字段與超文本傳 輸通訊協(xié)議的協(xié)議頭不一致。這就需要我們引入一定的邏輯來判斷 到底該-使用哪種編碼。
S306,判斷進行第一次文本解析應(yīng)該使用的編碼。
假設(shè)我們從協(xié)議頭中得到編碼為A,從網(wǎng)頁中得到的編碼為B。 之前如果有同一網(wǎng)頁別的數(shù)據(jù)塊經(jīng)過步驟S302-S310得到的編碼為 C。瀏覽器內(nèi)置缺省編碼為D。最后得到的編碼為X。
我們可以根據(jù)以下邏輯判斷到底使用哪種編碼if (A == NULL && B == NULL)
if (C == NULL) then X = D else X = C.
else {
if (A == NULL && B != NULL) then X = B else if (A != NULL && B = NULL) then X = A else
{
if(A==B)then X = A.
else if (C != NULL && (A == C || B == C)) then X = C else X = D
從上述算法中可以看出,A, B優(yōu)先權(quán)較高,在有A、 B時候 總是以他們?yōu)閮?yōu)先編碼,當(dāng)A, B不一致時候,上次計算得到的編 碼加入判斷。而當(dāng)三者者P無法解決編石馬問題時4美,最后4吏用在夾省編碼。
S308,解析統(tǒng)計。用該編碼解析當(dāng)前凄t據(jù)塊,并統(tǒng)計解析中的 錯誤。如果無解析錯誤,結(jié)束本輪解析,轉(zhuǎn)將X保存為D,轉(zhuǎn)步驟 1。如果有解析錯誤,轉(zhuǎn)步驟S310。
S310,試錯。按常用語言頻率依次選擇一種編碼作為優(yōu)先編碼。 使用各種語言對數(shù)據(jù)塊抽樣解碼(對于數(shù)據(jù)塊很小的,也可以全部 進行解碼),并統(tǒng)計解析錯誤。如果解析無4普,該編碼保存為優(yōu)先編 碼,進行本輪文本解析,否則選擇下一編碼語言,重復(fù)步驟S310。 如果各種語言都無法得到合適的編碼,則選擇缺省編碼。
圖4為根據(jù)本發(fā)明的另一個實施例的瀏覽器初始的優(yōu)先編碼判 斷邏輯圖。圖5為根據(jù)本發(fā)明的另一個實施例的解析統(tǒng)計和試錯的 流程圖。
才艮據(jù)本發(fā)明所述的方法可以從兩條關(guān)4建途徑進4亍描述如圖4 所示,前期的優(yōu)先編碼選4奪;如圖5所示,解析過程中的錯-i吳統(tǒng)計 和試錯。
步驟1:獲取網(wǎng)頁凄t據(jù)和協(xié)i義頭。
a. 瀏覽器發(fā)送HTTP GET請求。
b. 月良務(wù)器返回HTTP響應(yīng),得到網(wǎng)頁數(shù)據(jù)塊DataBlock和協(xié)議頭。
協(xié)議頭的內(nèi)容編碼字段保存為變量A的值。
步驟2:獲取網(wǎng)頁文本里面表示編碼的元數(shù)據(jù),并保存為變量 B的值。
步驟3:判斷4尤先編碼。
假設(shè)上一輪的參考編碼為C,系統(tǒng)內(nèi)置的缺省編碼為D,使用 A、 B、 C、及D四個值4艮據(jù)圖4的邏輯判斷優(yōu)先編碼,保存為X。
步驟4:解一斤統(tǒng)計。
使用X對DataBlock逐字進行解析,即解析,并對發(fā)生錯誤的 解析字數(shù)進行統(tǒng)計,保存為變量ErrorNumber的值(S502 )。
如果ErrorNumber = 0 ( S504 ),那么X 4呆存為下一4侖的參考編 碼D,流程結(jié)束。否則,假設(shè)系統(tǒng)可以支持的編碼有N種,并依次
按常見度排列為E[l], E[2],…E[n]。令X-E[l] (S506和S508 ),
轉(zhuǎn)入步驟5。
步驟5:試錯。
使用X對DataBlock逐字進行解析(S510),即解析,并對發(fā) 生錯誤的解析字數(shù)進行統(tǒng)計,保存為變量ErrorNumber[n]的值。
如果ErrorNumber[n] = 0 (S512),那么X 4呆存為下一專侖的參考 編碼D (S514-S518),流程結(jié)束。否則,X =下一個待選取的編 碼,重復(fù)步驟5。
如果編碼,試完仍然沒有合適的編石馬,那么4吏用系統(tǒng)缺省編石馬D, 進行文本解析,并將C置空。
本流程結(jié)束。
本發(fā)明方法基于統(tǒng)計和嘗試法,使嵌入式瀏覽器在有限的內(nèi)存 和計算能力范圍內(nèi)提供了 一種效率和成功率較高的網(wǎng)頁自動編碼語 言識別和解4斤方法。
以上所述^又為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明, 對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在 本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等, 均應(yīng)包含在本發(fā)明的^f呆護范圍之內(nèi)。
權(quán)利要求
1.一種用于嵌入式瀏覽器的網(wǎng)頁編碼語言自動識別方法,其特征在于,包括以下步驟S102,從所述嵌入式瀏覽器的協(xié)議棧中獲取網(wǎng)頁數(shù)據(jù)和協(xié)議頭;S104,解析所述網(wǎng)頁數(shù)據(jù)和所述協(xié)議頭,以獲得指明網(wǎng)頁編碼的元數(shù)據(jù);以及S106,利用從所述網(wǎng)頁數(shù)據(jù)中獲取的元數(shù)據(jù)和從所述協(xié)議頭中獲取的元數(shù)據(jù),根據(jù)優(yōu)先級判斷第一次文本解析應(yīng)該使用的編碼;S108,根據(jù)所采用的編碼解析當(dāng)前數(shù)據(jù)塊,并統(tǒng)計解析過程中出現(xiàn)的錯誤,并且在出現(xiàn)錯誤的情況下,再次選擇編碼進行解析。
2. 根據(jù)權(quán)利要求1所述的網(wǎng)頁編碼語言自動識別方法,其特征在 于,所述S106包4舌將從所述網(wǎng)頁數(shù)據(jù)獲取的元ft據(jù)或所述協(xié)議頭中獲取的 元數(shù)據(jù)的優(yōu)先級設(shè)置為最高,在其中至少之一存在的情況下, 采用該種元數(shù)據(jù)指示的編碼進行解析;在均不存在的情況下, 釆用乂人同一網(wǎng)頁的其他凄t據(jù)塊的網(wǎng)頁凄i據(jù)或協(xié)i義頭獲取的元 數(shù)據(jù)指示的編碼進行解析;在不存在所述同一網(wǎng)頁的其他數(shù)據(jù) 塊的網(wǎng)頁數(shù)據(jù)和協(xié)議頭的情況下,采用所述瀏覽器內(nèi)置的缺省 編碼進行解析。
3. 根據(jù)權(quán)利要求2所述的網(wǎng)頁編碼語言自動識別方法,其特征在 于,在所述步驟S108中,在解析無錯誤的情況下,將采用的 編碼的優(yōu)先級設(shè)置為最高,在解析出現(xiàn)錯誤的情況下,繼續(xù)選 ^澤編碼進行解析。
4. 一種用于嵌入式瀏覽器的網(wǎng)頁編碼語言自動識別裝置,其特征 在于,包括數(shù)據(jù)獲取模塊,用于從嵌入式瀏覽器的協(xié)議棧中獲取部分 網(wǎng)頁數(shù)據(jù)和協(xié)議頭;數(shù)據(jù)解析模塊,用于解析所述網(wǎng)頁數(shù)據(jù)和所述協(xié)議頭,以 獲得指明網(wǎng)頁編碼的元數(shù)據(jù);編碼確定模塊,用于利用從所述網(wǎng)頁數(shù)據(jù)中獲取的元數(shù)據(jù) 和從所述協(xié)議頭中獲取的元數(shù)據(jù),4艮據(jù)優(yōu)先級判斷第一次文本 解析應(yīng)該使用的編碼;以及解析模塊,根據(jù)所采用的編碼解析當(dāng)前數(shù)據(jù)塊,并統(tǒng)計解 析過程中出現(xiàn)的錯誤,并且在出現(xiàn)錯誤的情況下,再次選擇編 碼進行解析。
5. 根據(jù)權(quán)利要求4所述的網(wǎng)頁編碼語言自動識別裝置,其特征在 于,所述編碼確定才莫塊將從所述網(wǎng)頁數(shù)據(jù)獲取的元數(shù)據(jù)或所述 協(xié)議頭中獲取的元數(shù)據(jù)的優(yōu)先級設(shè)置為最高,在其中至少之一 存在的情況下,采用該種元數(shù)據(jù)指示的編碼進行解析;在均不 存在的情況下,采用從同一網(wǎng)頁的其他凌t據(jù)塊的網(wǎng)頁凝:據(jù)或協(xié) 議頭獲取的元數(shù)據(jù)指示的編碼進行解析;以及在不存在所述同 一網(wǎng)頁的其他數(shù)據(jù)塊的網(wǎng)頁數(shù)據(jù)和協(xié)議頭的情況下,采用所述 瀏覽器內(nèi)置的缺省編碼進行解析。
6. 根據(jù)權(quán)利要求5所述的網(wǎng)頁編碼語言自動識別裝置,其特征在 于,在解析無錯誤的情況下,所述編碼確定模塊將采用的編碼 的優(yōu)先級設(shè)置為最高,在解析出現(xiàn)4晉誤的情況下,所述編碼確 定模塊繼續(xù)選擇編碼以進行解析。
全文摘要
本發(fā)明提出一種用于嵌入式瀏覽器的網(wǎng)頁編碼語言自動識別方法及裝置,其中,該方法包括以下步驟步驟一,從嵌入式瀏覽器的協(xié)議棧中獲取部分網(wǎng)頁數(shù)據(jù)和協(xié)議頭;步驟二,解析網(wǎng)頁數(shù)據(jù)和協(xié)議頭,以獲得指明網(wǎng)頁編碼的元數(shù)據(jù);步驟三,利用從網(wǎng)頁數(shù)據(jù)中獲取的元數(shù)據(jù)和從協(xié)議頭中獲取的元數(shù)據(jù),根據(jù)優(yōu)先級判斷第一次文本解析應(yīng)該使用的編碼;以及步驟四,根據(jù)所采用的編碼解析當(dāng)前數(shù)據(jù)塊,并統(tǒng)計解析過程中出現(xiàn)的錯誤,并且在出現(xiàn)錯誤的情況下,再次選擇編碼進行解析。通過本發(fā)明的方法及裝置,為嵌入式瀏覽器在有限的內(nèi)存和計算能力范圍內(nèi)提供了一種效率和成功率較高的網(wǎng)頁自動編碼語言識別和解析方法。
文檔編號H04L29/06GK101101606SQ20071014387
公開日2008年1月9日 申請日期2007年8月3日 優(yōu)先權(quán)日2007年8月3日
發(fā)明者曼 謝 申請人:中興通訊股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
浠水县| 四川省| 安龙县| 阳朔县| 含山县| 平邑县| 藁城市| 惠东县| 小金县| 金阳县| 福清市| 富蕴县| 乌审旗| 沁源县| 龙游县| 洛隆县| 漯河市| 社旗县| 四平市| 赫章县| 城步| 金阳县| 南澳县| 宾阳县| 通河县| 株洲县| 建德市| 宁远县| 衡东县| 汽车| 治多县| 远安县| 丰原市| 五莲县| 贵德县| 武川县| 丰台区| 都匀市| 安福县| 新闻| 岑溪市|