欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)傳輸方法、裝置、數(shù)據(jù)處理方法和數(shù)據(jù)傳輸系統(tǒng)的制作方法

文檔序號:7965105閱讀:252來源:國知局
專利名稱:數(shù)據(jù)傳輸方法、裝置、數(shù)據(jù)處理方法和數(shù)據(jù)傳輸系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種數(shù)據(jù)傳輸方法、裝置,以及一種數(shù)據(jù)處理方法和數(shù)據(jù)傳輸系統(tǒng)。
背景技術(shù)
在網(wǎng)絡(luò)數(shù)據(jù)傳輸中,為了提高傳輸效率,通常采用數(shù)據(jù)壓縮、編碼等方法對待傳輸?shù)臄?shù)據(jù)進行壓縮,以減少實際的數(shù)據(jù)傳輸量。這種方法對于應(yīng)用層次的數(shù)據(jù)來說是有效的,例如,一個600K比特大小的文本或圖像數(shù)據(jù),經(jīng)過適當(dāng)?shù)姆椒▔嚎s或編碼,實際傳輸?shù)臄?shù)據(jù)量會大大減少,可能遠遠少于600K比特。顯而易見的是,這種數(shù)據(jù)壓縮、編碼方法并不能解決物理層的問題?;蛘哒f,在應(yīng)用層次上對數(shù)據(jù)的處理,能夠減少實際需要物理層傳輸?shù)臄?shù)據(jù)量,但是對于提交給物理層的數(shù)據(jù)來說,傳輸數(shù)率仍然受物理層傳輸速率的限制。假設(shè),上述600K比特的文件在應(yīng)用層經(jīng)壓縮編碼后為200K比特,如果網(wǎng)絡(luò)物理層的數(shù)據(jù)傳輸速率為1024Kbps,則所述200K比特的數(shù)據(jù),仍然受1024Kbps傳輸速率的限制。
關(guān)于數(shù)據(jù)傳輸效率的一個實際的想法是,能否繼續(xù)減少需要物理層實際傳輸?shù)臄?shù)據(jù)。上述的壓縮和編碼,都可能實現(xiàn)這種目的。對于物理層數(shù)據(jù),減少重復(fù)數(shù)據(jù)的傳輸,也是提高傳輸效率的重要手段。因此,在數(shù)據(jù)傳輸?shù)母鱾€層次采用綜合措施,例如在應(yīng)用層次上(指物理層以外的層次)對數(shù)據(jù)進行壓縮和進行恰當(dāng)?shù)木幋a,以及在物理層次上盡可能減少數(shù)據(jù)的重傳,可能提高數(shù)據(jù)傳輸?shù)男省?br> 對于各個數(shù)據(jù)傳輸層次,減少數(shù)據(jù)的重傳都是有意義的。而減少數(shù)據(jù)重傳的關(guān)鍵,在于如何獲知哪些數(shù)據(jù)是重復(fù)的,以及在數(shù)據(jù)接收端迅速且無瑕疵地的恢復(fù)數(shù)據(jù)發(fā)送端的原始數(shù)據(jù)。對于靜態(tài)數(shù)據(jù),即內(nèi)容確定的數(shù)據(jù)集合,通常容易獲知需要重復(fù)傳輸?shù)臄?shù)據(jù)或數(shù)據(jù)集合,為重復(fù)的數(shù)據(jù)分配一個標簽或標識,就可以用所述標簽替代重復(fù)的數(shù)據(jù)進行傳輸,從而減少數(shù)據(jù)的重傳以及在數(shù)據(jù)接收端恢復(fù)原始數(shù)據(jù)。而且,標簽的長度和重復(fù)數(shù)據(jù)長度的比值越小,數(shù)據(jù)傳輸效率就越高。而對于動態(tài)數(shù)據(jù),即內(nèi)容不確定的數(shù)據(jù)集合,則需要恰當(dāng)?shù)胤指顢?shù)據(jù)以獲得重復(fù)數(shù)據(jù),以及為所述重復(fù)數(shù)據(jù)分配一個標簽。
由于傳輸數(shù)據(jù)的不確定性,一個容易想到的確定重復(fù)數(shù)據(jù)以及為重復(fù)數(shù)據(jù)分配標簽的方法是,確定一個重復(fù)數(shù)據(jù)的定長長度,將定長數(shù)據(jù)的各種排列以及為其分配的標簽存儲為一個數(shù)據(jù)庫,在數(shù)據(jù)傳輸時,按照約定的定長分割數(shù)據(jù),并在數(shù)據(jù)庫中取得該數(shù)據(jù)的標簽,通過標簽的傳輸實現(xiàn)數(shù)據(jù)的傳輸。然而這種方法卻不具有實用性,以比特流數(shù)據(jù)為例,假設(shè)定長長度為3位,3位二進制數(shù)據(jù)的排列可能有8種,而這時標簽的長度也需要3位二進制數(shù)才能夠表示,標簽長度于可能的重復(fù)數(shù)據(jù)的長度比為1,實際根本無法提高數(shù)據(jù)傳輸效率。
發(fā)明方案本發(fā)明要解決的問題在于提供一種能夠提高數(shù)據(jù)傳輸效率的數(shù)據(jù)傳輸方法、數(shù)據(jù)傳輸裝置,以及數(shù)據(jù)傳輸系統(tǒng),該方法、裝置和數(shù)據(jù)傳輸系統(tǒng)能夠有效分割要傳輸?shù)臄?shù)據(jù),獲得要傳輸?shù)臄?shù)據(jù)流中重復(fù)傳輸?shù)臄?shù)據(jù)及其標簽。
本發(fā)明提供的數(shù)據(jù)傳輸方法,包括按照數(shù)據(jù)應(yīng)用領(lǐng)域的第一數(shù)據(jù)特性,設(shè)置包括多個滿足第一數(shù)據(jù)特性要求的數(shù)據(jù)段及標識該數(shù)據(jù)段的引用標簽的第一數(shù)據(jù)庫,所述引用標簽與所述數(shù)據(jù)段綁定;對輸入的數(shù)據(jù)流,從一個方向截取一個或多個數(shù)據(jù)段,所述數(shù)據(jù)段與所述第一數(shù)據(jù)庫中存儲的至少一個數(shù)據(jù)段相同;用引用標簽代替截取的數(shù)據(jù)段與數(shù)據(jù)流中剩余的數(shù)據(jù)組裝為新的數(shù)據(jù)流發(fā)送。
所述方法還包括,對于每一個未出現(xiàn)在所述第一數(shù)據(jù)庫中且滿足第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段設(shè)置引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定后存儲在所述第一數(shù)據(jù)庫。
所述方法還包括,將引用標簽按照第二數(shù)據(jù)特性分為多個標簽組,為所述標簽組設(shè)置組標簽,所述組標簽與所述標簽組綁定后存儲在第二數(shù)據(jù)庫;以及,將滿足第二數(shù)據(jù)特性的標簽組用對應(yīng)的組標簽代替,用于組裝新的數(shù)據(jù)流。
所述方法還包括,對于每一個未出現(xiàn)在所述第二數(shù)據(jù)庫中且滿足第二數(shù)據(jù)特性要求的標簽組,為所述標簽組設(shè)置組標簽,并與所述標簽組綁定后存儲在所述第二數(shù)據(jù)庫。
所述方法還包括,如果所述標簽組滿足第三數(shù)據(jù)特性要求,為其設(shè)置更高級的組標簽,綁定所述組標簽與所述標簽組,綁定后存儲在所述第三數(shù)據(jù)庫;以及,將滿足第三數(shù)據(jù)特性的標簽組用對應(yīng)的更高級的組標簽代替,用于組裝新的數(shù)據(jù)流。
其中,所述第一數(shù)據(jù)特性、第二數(shù)據(jù)特性、第三數(shù)據(jù)特性相同或兩兩相同或不同。
或者,所述第二數(shù)據(jù)庫和所述第三數(shù)據(jù)庫是相同的數(shù)據(jù)庫。
并且,利用一個指紋函數(shù)和一個窗口,在輸入數(shù)據(jù)流上確定一系列的分割點,利用所述分割點分割所述數(shù)據(jù)流。
以及,利用一個指紋函數(shù)和一個窗口,在輸入數(shù)據(jù)流衍生的連續(xù)標簽流上確定一系列的分割點,利用所述分割點標簽組。
通過動態(tài)調(diào)整所述窗口在輸入數(shù)據(jù)流上確定一系列的分割點。
本發(fā)明提供的數(shù)據(jù)傳輸裝置,包括
第一標簽集成單元,用于獲取滿足數(shù)據(jù)應(yīng)用領(lǐng)域的第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段分配標識該數(shù)據(jù)段的引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定后存入第一數(shù)據(jù)庫;數(shù)據(jù)段分割單元,用于對輸入的數(shù)據(jù)流,從一個方向截取一個或多個數(shù)據(jù)段,所述數(shù)據(jù)段與所述第一數(shù)據(jù)庫中存儲的至少一個數(shù)據(jù)段相同;數(shù)據(jù)編碼單元,輸入數(shù)據(jù)段分割單元的數(shù)據(jù)分割結(jié)果,在所述第一數(shù)據(jù)庫中,查找數(shù)據(jù)段分割單元輸出的數(shù)據(jù)段對應(yīng)的引用標簽,用第一數(shù)據(jù)庫中的引用標簽代替數(shù)據(jù)段分割單元截取的數(shù)據(jù)段與數(shù)據(jù)流中剩余的數(shù)據(jù)組裝為新的數(shù)據(jù)流;數(shù)據(jù)發(fā)送單元,發(fā)送所述數(shù)據(jù)編碼單元生成的新的數(shù)據(jù)流。
所述數(shù)據(jù)傳輸裝置還包括,第一判斷單元,判斷數(shù)據(jù)段分割單元分割出的數(shù)據(jù)段是否存儲在所述第一數(shù)據(jù)庫,對于每一個未出現(xiàn)在所述第一數(shù)據(jù)庫中且滿足第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段設(shè)置標識該數(shù)據(jù)段的引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定后存儲在所述第一數(shù)據(jù)庫。
所述數(shù)據(jù)傳輸裝置還包括,第二標簽集成單元,用于獲取滿足數(shù)據(jù)應(yīng)用領(lǐng)域的第二數(shù)據(jù)特性要求的標簽組,為所述標簽組分配對應(yīng)的組標簽,將所述組標簽與所述標簽組綁定后存儲在第二數(shù)據(jù)庫;以及,將滿足第二數(shù)據(jù)特性的標簽組用對應(yīng)的組標簽代替,用于組裝新的數(shù)據(jù)流。
所述數(shù)據(jù)傳輸裝置還包括,第二判斷單元,對于每一個未出現(xiàn)在所述第二數(shù)據(jù)庫中且滿足第二數(shù)據(jù)特性要求的標簽組,為所述標簽組設(shè)置組標簽,并與所述標簽組綁定后存儲在所述第二數(shù)據(jù)庫。
所述數(shù)據(jù)傳輸裝置還包括,第三標簽集成單元,將第二數(shù)據(jù)庫中的標簽組按照第三數(shù)據(jù)特性分為進一步的標簽組,如果所述標簽組滿足第三數(shù)據(jù)特性要求,為其設(shè)置更高級的組標簽,綁定所述組標簽與所述標簽組,綁定后存儲在所述第三數(shù)據(jù)庫;以及,將滿足第三數(shù)據(jù)特性的標簽組用對應(yīng)的更高級的組標簽代替,用于組裝新的數(shù)據(jù)流。
其中,所述第一數(shù)據(jù)特性、第二數(shù)據(jù)特性、第三數(shù)據(jù)特性相同或兩兩相同或不同。
或者,所述第二數(shù)據(jù)庫和所述第三數(shù)據(jù)庫是相同的數(shù)據(jù)庫。
所述數(shù)據(jù)傳輸裝置還包括一個輸入數(shù)據(jù)緩沖單元,所述緩沖單元包括至少一個數(shù)據(jù)緩沖區(qū)。
其中,在所述緩沖區(qū)中數(shù)據(jù)流的長度大于或等于預(yù)設(shè)的閾值或者所述數(shù)據(jù)流的形成時間大于或等于預(yù)設(shè)的閾值時,數(shù)據(jù)段分割單元取出所述緩沖區(qū)中的數(shù)據(jù)流進行數(shù)據(jù)段的分割操作。
本發(fā)明提供的數(shù)據(jù)處理方法,包括分解輸入的數(shù)據(jù)流,識別出數(shù)據(jù)組序列、引用標簽以及組標簽;以逆向且遞歸的方式從數(shù)據(jù)庫中獲得引用標簽、組標簽對應(yīng)的數(shù)據(jù)段,將所述數(shù)據(jù)段與所述數(shù)據(jù)組序列組裝成數(shù)據(jù)流。
本發(fā)明提供的數(shù)據(jù)傳輸系統(tǒng),包括計算機網(wǎng)絡(luò)和通過網(wǎng)絡(luò)互聯(lián)的多個終端,其特征在于還包括設(shè)置在所述計算機網(wǎng)絡(luò)和所述終端之間的數(shù)據(jù)傳輸裝置,所述數(shù)據(jù)傳輸裝置包括第一標簽集成單元,用于獲取滿足數(shù)據(jù)應(yīng)用領(lǐng)域的第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段分配標識該數(shù)據(jù)段的引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定后存入第一數(shù)據(jù)庫;數(shù)據(jù)段分割單元,用于對輸入的數(shù)據(jù)流,從一個方向截取一個或多個數(shù)據(jù)段,所述數(shù)據(jù)段與所述第一數(shù)據(jù)庫中存儲的至少一個數(shù)據(jù)段相同;數(shù)據(jù)編碼單元,輸入數(shù)據(jù)段分割單元的數(shù)據(jù)分割結(jié)果,在所述第一數(shù)據(jù)庫中,查找數(shù)據(jù)段分割單元輸出的數(shù)據(jù)段對應(yīng)的引用標簽,用第一數(shù)據(jù)庫中的引用標簽代替數(shù)據(jù)段分割單元截取的數(shù)據(jù)段與數(shù)據(jù)流中剩余的數(shù)據(jù)組裝為新的數(shù)據(jù)流;數(shù)據(jù)發(fā)送單元,發(fā)送所述數(shù)據(jù)編碼單元生成的新的數(shù)據(jù)流。
所述數(shù)據(jù)傳輸系統(tǒng)還包括,第一判斷單元,判斷數(shù)據(jù)段分割單元分割出的數(shù)據(jù)段是否存儲在所述第一數(shù)據(jù)庫,對于每一個未出現(xiàn)在所述第一數(shù)據(jù)庫中且滿足數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段設(shè)置標識該數(shù)據(jù)段的引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定后存儲在所述第一數(shù)據(jù)庫。
所述的數(shù)據(jù)傳輸系統(tǒng)還包括,第二標簽集成單元,用于獲取滿足數(shù)據(jù)應(yīng)用領(lǐng)域的第二數(shù)據(jù)特性要求的標簽組,為所述標簽組分配對應(yīng)的組標簽,將所述組標簽與所述標簽組綁定后存儲在第二數(shù)據(jù)庫;以及,將滿足第二數(shù)據(jù)特性的標簽組用對應(yīng)的組標簽代替,用于組裝新的數(shù)據(jù)流。
所述數(shù)據(jù)傳輸系統(tǒng)還包括,第二判斷單元,對于每一個未出現(xiàn)在所述第二數(shù)據(jù)庫中且滿足第二數(shù)據(jù)特性要求的標簽組,為所述標簽組設(shè)置組標簽,并與所述標簽組綁定后存儲在所述第二數(shù)據(jù)庫。
所述數(shù)據(jù)傳輸系統(tǒng)還包括,第三標簽集成單元,將第二數(shù)據(jù)庫中的標簽組按照第三數(shù)據(jù)特性分為進一步的標簽組,如果所述標簽組滿足第三數(shù)據(jù)特性要求,為其設(shè)置更高級的組標簽,綁定所述組標簽與所述標簽組,綁定后存儲在所述第三數(shù)據(jù)庫;以及,將滿足第三數(shù)據(jù)特性的標簽組用對應(yīng)的更高級的組標簽代替,用于組裝新的數(shù)據(jù)流。
其中,所述第一數(shù)據(jù)特性、第二數(shù)據(jù)特性、第三數(shù)據(jù)特性相同或兩兩相同或不同。
或者,所述第二數(shù)據(jù)庫和所述第三數(shù)據(jù)庫是相同的數(shù)據(jù)庫。
所述數(shù)據(jù)傳輸系統(tǒng)還包括一個輸入數(shù)據(jù)緩沖單元,所述緩沖單元包括至少一個數(shù)據(jù)緩沖區(qū)。
所述數(shù)據(jù)傳輸系統(tǒng),還包括至少一個服務(wù)器,用于同步所述數(shù)據(jù)傳輸裝置中的數(shù)據(jù)庫的存儲內(nèi)容。
并且,將數(shù)據(jù)庫中超過指定閾值未使用的數(shù)據(jù)段記錄刪除。
本發(fā)明的通過設(shè)置數(shù)據(jù)段及引用標簽的數(shù)據(jù)庫以及將所述引用標簽進一步合并為更高級的組標簽,這樣,對輸入的數(shù)據(jù)流,當(dāng)從數(shù)據(jù)流截取出多個數(shù)據(jù)段后,就可以用占用存儲位數(shù)較少分標簽或組標簽代替占用存儲位數(shù)較長的數(shù)據(jù),從而使用引用標簽代替截取的數(shù)據(jù)段、用高級的組標簽代替低級的組標簽,與數(shù)據(jù)流中剩余的數(shù)據(jù)組裝的新數(shù)據(jù)流的長度大大減小,由于減少了實際傳輸?shù)臄?shù)據(jù)量,能夠提高數(shù)據(jù)傳輸效率。


圖1是本發(fā)明第一個實施例的流程圖;圖2是圖1所示實施例描述的數(shù)據(jù)編碼原理圖;圖3是本發(fā)明第二個實施例的流程圖;圖4是本發(fā)明的一個產(chǎn)生組標簽的實施例流程圖;圖5是本發(fā)明一個實施例的分級標簽劃分示意圖;圖6是本發(fā)明的一個數(shù)據(jù)庫的示例圖;圖7是本發(fā)明數(shù)據(jù)傳輸裝置的第一實施例框圖;圖8是本發(fā)明數(shù)據(jù)傳輸裝置的第二實施例框圖;圖9是本發(fā)明數(shù)據(jù)傳輸裝置的第三實施例框圖;圖10是本發(fā)明數(shù)據(jù)傳輸裝置的第四實施例框圖;圖11是本發(fā)明數(shù)據(jù)處理方法的實施例原理的裝置圖;圖12是本發(fā)明數(shù)據(jù)傳輸系統(tǒng)的第一實施例框圖;圖13是圖12所述系統(tǒng)采用的加速器實施例框圖。
具體實施例方式
依據(jù)本發(fā)明方法的第一個實施例,減少數(shù)據(jù)實際傳輸量的一個手段,是盡可能獲知可能重復(fù)傳輸?shù)膬?nèi)容。對于特定領(lǐng)域,形成的數(shù)據(jù)文件客觀上都存在大量的重復(fù),例如用表格傳輸?shù)膱D表,無論表格內(nèi)的內(nèi)容是什么,表格本身形成的數(shù)據(jù)就是典型的重復(fù)數(shù)據(jù)。事實上,對于通常的特定數(shù)據(jù)系列,例如,廣泛使用的PIF圖片的片段,代表一個經(jīng)常使用的繪圖表的圖形符號數(shù)位的片段,文本文件中重復(fù)性詞組等,可能散見于較大文件中的許多不同之處。這種重復(fù)的數(shù)據(jù)序列會被經(jīng)常發(fā)現(xiàn),因此可以將這些重復(fù)的部分通過對已經(jīng)形成的數(shù)據(jù)進行分析獲得。這些重復(fù)數(shù)據(jù)會有不同的重復(fù)特性,可以預(yù)先通過數(shù)據(jù)的分析獲得這些特性,進一步,可以將所述分析交給計算機去完成。在圖1所示的實施例中,這些工作是通過對大量特定領(lǐng)域的數(shù)據(jù)分析預(yù)先完成的。在該實施例中,將重復(fù)數(shù)據(jù)表示出來的重復(fù)特性稱為第一數(shù)據(jù)特性,例如特定相鄰的字符構(gòu)成的字符串,這樣,就可以在步驟11按照數(shù)據(jù)應(yīng)用領(lǐng)域的第一數(shù)據(jù)特性,盡可能多地確定多個滿足第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為這些數(shù)據(jù)段設(shè)置彼此不重復(fù)的引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定在一起,存儲入第一數(shù)據(jù)庫,即標簽與數(shù)據(jù)段對照關(guān)系數(shù)據(jù)庫。
有了所述第一數(shù)據(jù)庫,在進行數(shù)據(jù)傳輸時,就可以在步驟12將輸入的數(shù)據(jù)流,從數(shù)據(jù)的流入方向或者數(shù)據(jù)流穩(wěn)定輸入后從數(shù)據(jù)流尾部方向截取一個或多個數(shù)據(jù)段,只要截取的所述數(shù)據(jù)段與所述第一數(shù)據(jù)庫中存儲的至少一個數(shù)據(jù)段相同,就可以認為該數(shù)據(jù)段是一個預(yù)先確定的高重復(fù)概率數(shù)據(jù)段,在具體傳輸時在步驟13按照所述第一數(shù)據(jù)庫中引用標簽和所述數(shù)據(jù)段的綁定關(guān)系,用引用標簽代替截取的數(shù)據(jù)段與數(shù)據(jù)流中剩余的數(shù)據(jù)組裝為新的數(shù)據(jù)流發(fā)送。由于數(shù)據(jù)的生成與數(shù)據(jù)段的截取可以采用相關(guān)的算法,因此,易于從一個隨機的數(shù)據(jù)流中找到高重復(fù)概率的數(shù)據(jù)段,從而可以實現(xiàn)用引用標簽代替數(shù)據(jù)段傳輸,減少實際傳輸?shù)臄?shù)據(jù)量。
圖1所示實施例實質(zhì)上描述了一個數(shù)據(jù)編碼發(fā)送的過程,在其中的步驟12中,分割出的數(shù)據(jù)段不用考慮該數(shù)據(jù)段周圍的其它數(shù)據(jù)如何。上述編碼過程的一個方面就是要將輸入數(shù)據(jù)進行分割,在分割過程中識別出“分割點”,如果一個分割方案設(shè)計合理、恰當(dāng),數(shù)據(jù)段的端點對于同樣的數(shù)據(jù)段而言,它應(yīng)具有相同的重復(fù)性,出現(xiàn)在相同的地方,而不用考慮這個數(shù)據(jù)在什么樣的內(nèi)容中出現(xiàn)。因此,對于數(shù)據(jù)中的那些具有共同數(shù)據(jù)特性的重復(fù)性數(shù)據(jù)段,就能用一種同樣的方法分割出來。
具體的數(shù)據(jù)分割方案之一,是使用數(shù)據(jù)本身中的信息去引導(dǎo)該分割過程,而不用那種從外部把數(shù)據(jù)塊尺寸、傳輸界定參數(shù)等強加給分割過程。
當(dāng)輸入數(shù)據(jù)被編碼過程消耗后,輸入數(shù)據(jù)的各種各樣的值和結(jié)構(gòu)就會去引導(dǎo)分割過程,通過這種把輸入內(nèi)容引導(dǎo)分割用于處理輸入數(shù)據(jù)流,就能把時間跨度很大的重復(fù)數(shù)據(jù)尋找出來,而不必將已經(jīng)分析過的數(shù)據(jù)重新分析一遍。只要同類的數(shù)據(jù)被在輸入數(shù)據(jù)的過程中出現(xiàn)過,無論其在何處,同樣的數(shù)據(jù)段就會被發(fā)現(xiàn),從而得到重復(fù)的數(shù)據(jù)段而無需重復(fù)分析數(shù)據(jù)。
然而,盡管輸入的數(shù)據(jù)具有某種數(shù)據(jù)特性,但由于每次需要處理的數(shù)據(jù)具有的隨機性,用輸入數(shù)據(jù)的內(nèi)容引導(dǎo)數(shù)據(jù)的分割,實際上只是在分割得到的數(shù)據(jù)段的尺寸最大,與重復(fù)數(shù)據(jù)段的數(shù)量最多之間的矛盾中找到一個平衡點。
圖2是圖1所示實施例描述的數(shù)據(jù)編碼原理圖。為了方便描述圖1所示實施例,圖2所示原理圖中涉及了下述單元輸入緩存單元21,用于暫存輸入的待編碼數(shù)據(jù)流;數(shù)據(jù)分割單元22,用于采用一種內(nèi)容引導(dǎo)分割的方法分割所述輸入緩存單元21中數(shù)據(jù)流的數(shù)據(jù)分割單元;標記為23的單元為數(shù)據(jù)段存儲單元,用于暫存分割后的數(shù)據(jù)段和剩余數(shù)據(jù)。數(shù)據(jù)段存儲單元23將其中的數(shù)據(jù)段與第一數(shù)據(jù)庫25中的數(shù)據(jù)段匹配后獲得與其綁定的引導(dǎo)標簽,這些引導(dǎo)標簽與數(shù)據(jù)段存儲單元23中剩余的非成段數(shù)據(jù)按順序組裝為編碼后的數(shù)據(jù)存儲在發(fā)送數(shù)據(jù)形成單元24,最后被輸出到輸出緩存單元26發(fā)送到數(shù)據(jù)接收端。
圖2中,當(dāng)輸入緩存單元21中的一個新數(shù)據(jù)段被數(shù)據(jù)分割單元22發(fā)現(xiàn),這個數(shù)據(jù)段就會暫存到數(shù)據(jù)段存儲單元23,并同所有存儲于第一數(shù)據(jù)庫中的現(xiàn)存數(shù)據(jù)段進行對比。這種對比或者說查找過程通過利用保存的數(shù)據(jù)段索引完成。這個索引是把通過利用數(shù)據(jù)段數(shù)據(jù)而計算出來的一個散列函數(shù)值健入而得到的。實際上,為完成這個操作,第一數(shù)據(jù)庫中存儲的數(shù)據(jù)包括所有數(shù)據(jù)段的內(nèi)容、與數(shù)據(jù)段綁定的標簽,還包括所述數(shù)據(jù)段的指紋值,即散列值,以便進行快速的數(shù)據(jù)比對操作。
第一數(shù)據(jù)庫中的每一個散列值,都與該數(shù)據(jù)庫中的一個數(shù)據(jù)段對應(yīng)。因此,要檢測一個分割出的數(shù)據(jù)段是否存在于所述第一數(shù)據(jù)庫,通過計算該數(shù)據(jù)段的散列值,再在第一數(shù)據(jù)庫的數(shù)據(jù)段索引中進行查找即可。
如果查找失敗,該數(shù)據(jù)段就不可能存儲在第一數(shù)據(jù)庫之中。如果查找成功,還需要將通過散列值查找而返回的數(shù)據(jù)段與分割得到的數(shù)據(jù)段加以比較,檢查是否達到精確的匹配。這因為可能會遇到多個數(shù)據(jù)段的散列值相同的情況。
然后,與所述數(shù)據(jù)段綁定的引用標簽就可以用來頂替實際的數(shù)據(jù)段數(shù)據(jù)而被輸出,該輸出可以被暫時輸入到發(fā)送數(shù)據(jù)形成單元24中,這樣,原始的輸入數(shù)據(jù),即準備發(fā)送的數(shù)據(jù)就能夠被表示為限于儲存在第一數(shù)據(jù)庫中的數(shù)據(jù)段對應(yīng)的一系列引用標簽。
數(shù)據(jù)的某些部分,可能用引用標簽代替不了,這樣就形成了剩余的數(shù)據(jù)部分,這些剩余的數(shù)據(jù)需要按照數(shù)據(jù)的順序組裝在一起發(fā)送出去。在某些具體的應(yīng)用中,盡管所有的數(shù)據(jù)段都用引用標簽代替,但是由于剩余數(shù)據(jù)的存在,發(fā)送數(shù)據(jù)形成單元24的比特位數(shù)比理論上需要的比特位數(shù)要多一些。
實際上,發(fā)送數(shù)據(jù)形成單元24還可以繼續(xù)進行壓縮,這一點在其它的實施例中還要繼續(xù)描述。
下面討論數(shù)據(jù)分割單元22。由于數(shù)據(jù)分割單元22采用一種內(nèi)容引導(dǎo)分割的方法分割所述輸入緩存單元21中數(shù)據(jù)流,由于流入輸入緩存單元21中的數(shù)據(jù)可能不勻速,而且分割數(shù)據(jù)段也需要針對一定量的數(shù)據(jù),在對輸入緩存單元21中的數(shù)據(jù)進行處理時,需要受時間(或者輸入的字符數(shù)量)和輸入窗口的限制,即數(shù)據(jù)分割單元22需要按照時間和窗口尺寸的參數(shù)來確定何時開始處理輸入緩存單元21中的數(shù)據(jù),這里的窗口以及計算查找重復(fù)數(shù)據(jù)段的指紋函數(shù)共同使用完成數(shù)據(jù)段的分割。一個確定的指紋函數(shù)可以引發(fā)返回一個邏輯值,標識是否在第一數(shù)據(jù)庫25中找到一個高重復(fù)概率的數(shù)據(jù)段,根據(jù)該值以及窗口在數(shù)據(jù)流中的偏移值可以用來確定一個可以分割的數(shù)據(jù)段的邊界,這個所述的邊界的序列,就是在輸入數(shù)據(jù)流上確定的一系列的分割點,利用所述分割點就可以分割所述數(shù)據(jù)流。例如,如果指紋函數(shù)以及具備一個給定的偏移量的數(shù)據(jù)及窗口以及一個確定的指紋值時,且該指紋函數(shù)的值為1時,就可以確定一個新的數(shù)據(jù)段。
很多時候,窗口的大小即偏移量并不總能處于理想狀態(tài),因此,可能經(jīng)常調(diào)整窗口的偏移量和大小,即動態(tài)確定窗口的位置,這樣也會消耗一些數(shù)據(jù),形成剩余數(shù)據(jù),但是這樣的收益時可能獲得更多或更長的重復(fù)數(shù)據(jù)段。
關(guān)于數(shù)據(jù)分割的一個具體實施例的詳細內(nèi)容在本申請人的同日提交的另外一篇專利“數(shù)據(jù)分割方法”中有詳細的表述,在此不再贅述。
圖3是本發(fā)明第二個實施例的流程圖。該實施例包括了一種第一數(shù)據(jù)庫自學(xué)習(xí)的一種情況。該實施例的步驟31、32與圖1所示的第一實施例的步驟11、12相同,步驟35與圖1所示的第一實施例步驟13相同。該實施例增加了步驟33、34,從實現(xiàn)對于每一個未出現(xiàn)在所述第一數(shù)據(jù)庫中且滿足數(shù)據(jù)特性要求的數(shù)據(jù)段,都可以為其設(shè)置其引用標簽、計算散列值,并與其綁定后存儲在所述第一數(shù)據(jù)庫,從而豐富所述第一數(shù)據(jù)庫的內(nèi)容。這里所述計算散列值所用的函數(shù)就是上述指紋函數(shù)的一個部分。
需要說明,由于有了步驟33、34,這樣實質(zhì)上可以去掉步驟31,只是方法運行初期速度要慢一些,而保留有步驟31,則可以在方法最初應(yīng)用時也能夠提供相當(dāng)?shù)男省?br> 也就是說,在數(shù)據(jù)分割過程中,如果一個得到一個可接受的數(shù)據(jù)段且第一數(shù)據(jù)庫還沒有存儲,就應(yīng)當(dāng)為該數(shù)據(jù)段賦予一個新的引用標簽、散列值,以及綁定關(guān)系,并存儲入所述第一數(shù)據(jù)庫。以后,凡是有與該數(shù)據(jù)段相同的重復(fù)的數(shù)據(jù)段,就可以利用這個綁定壓縮編碼。
由上述分析可知,本發(fā)明的實施例對于高度冗余的數(shù)據(jù)的處理會更有效。
在通常的情況下,往往希望重復(fù)的數(shù)據(jù)段越大越好,如果得到的數(shù)據(jù)段大,在編碼階段有效壓縮比就會非常高。因為擁有固定存儲位數(shù)的引用標簽會代替位數(shù)更多的數(shù)據(jù)段。但是,問題的另一方面,數(shù)據(jù)塊如果比較大,會使重復(fù)性變差,這樣反倒影響數(shù)據(jù)的壓縮率。
同樣,如果選擇的目標數(shù)據(jù)段尺寸太小,壓縮比就會變低,因為擁有固定存儲位數(shù)的引用標簽代替的數(shù)據(jù)段的位數(shù)會比較少,但是這樣會增加數(shù)據(jù)段的重復(fù)性。因此,在很多情況下,需要在數(shù)據(jù)段的長度方面取得一個平衡。
解決這個問題還有一個方法,就是利用數(shù)據(jù)段小而重復(fù)性高的特點,采用多級標簽解決數(shù)據(jù)壓縮率、重復(fù)性以及數(shù)據(jù)段大小之間的矛盾,這樣就能夠?qū)⒋髷?shù)據(jù)段和高重復(fù)性的優(yōu)點結(jié)合起來。本發(fā)明的另一實施例就描述這樣的處理方式。采用內(nèi)容引導(dǎo)分割的方法,將符合引用標簽的可組合特性,即第二數(shù)據(jù)特性的引用標簽用一個更高級的標簽來表示,也就是將引用標簽按照第二數(shù)據(jù)特性分為多個標簽組,為所述標簽組設(shè)置組標簽,然后將所述組標簽與所述標簽組綁定后存儲在另一個數(shù)據(jù)庫中,該數(shù)據(jù)庫假設(shè)為第二數(shù)據(jù)庫。這里所述第一數(shù)據(jù)庫和第二數(shù)據(jù)庫可以相同,也可以不同,本實施例選擇的使用不同的數(shù)據(jù)庫。
圖4是本發(fā)明的一個產(chǎn)生組標簽的實施例流程圖,圖4所示流程可以用來根據(jù)第二數(shù)據(jù)特性預(yù)先設(shè)置第二數(shù)據(jù)庫的內(nèi)容。按照圖4,首先在步驟41,按照一個小尺寸數(shù)據(jù)塊的產(chǎn)生標準對要進行編碼的輸入數(shù)據(jù)進行分割,這里所謂的“小”是一個相對的概念,指滿足預(yù)定壓縮率的最小數(shù)據(jù)塊長度。這樣,就產(chǎn)生了許多引用標簽,然后,在步驟42對這些引用標簽按照第二數(shù)據(jù)特性進行分組,最后在步驟43將分組標簽與標簽組綁定后存儲入第二數(shù)據(jù)庫。當(dāng)然,仍然要在所述第二數(shù)據(jù)庫中設(shè)置一個散列值字段,為每一個標簽組計算出它的散列值,并與所述標簽組綁定后存儲起來,從而方便利用包括散列值計算功能的指紋函數(shù)標識一個從數(shù)據(jù)流中已經(jīng)找到的標簽組是否為高重復(fù)概率的標簽組。
也就是說,可以更進一步,將引用標簽信息借助于一個指紋函數(shù)和一個窗口,來確定標簽組。為了更有效地確定標簽組,可以通過動態(tài)調(diào)整所述窗口的偏移量來輔助確定標簽組。需要指出的是,這個窗口大小的選擇,可能與重復(fù)數(shù)據(jù)段的確定原則對應(yīng)的窗口大小不同,應(yīng)當(dāng)適應(yīng)不同層次標簽組劃分的需要。使用組標簽和標簽組的數(shù)據(jù)傳輸方法實施例的數(shù)據(jù)編碼原理可以參考圖2,只不過要在圖2中增加一個第二數(shù)據(jù)庫而已。
圖5是本發(fā)明一個實施例的分級標簽劃分示意圖。為了說明清楚,圖5涉及了下述輔助說明標簽分級的單元。數(shù)據(jù)輸入緩沖區(qū)51,數(shù)據(jù)段單元52,一級標簽單元53,二級標簽單元54和數(shù)據(jù)輸出緩沖區(qū)55。按照圖5,加載到數(shù)據(jù)輸入緩沖區(qū)51的數(shù)據(jù)被一系列的分割點劃分成存儲在數(shù)據(jù)段單元52的數(shù)據(jù)段SA、SB、DC、SD、SE、SF和SG,在第一數(shù)據(jù)庫中存儲的預(yù)先綁定的一組組的數(shù)據(jù),例如(H11,R11,SA)(H12,R12,SB)(H13,R13,SD)(H110,R14,SE)(H119,R15,SF)(H120,R16,SG)............其中,H11等H序列的標識表示為散列值,每一個括號內(nèi)部的另外的內(nèi)容為一組綁定的標簽和數(shù)據(jù)段。
根據(jù)所述第一數(shù)據(jù)庫中的數(shù)據(jù),能夠確定所述數(shù)據(jù)段SA、SB、SD、SE、SF和SG與下述標簽的對應(yīng)的引用標簽R11、R12、R13、R14、R15、R16,數(shù)據(jù)序列DC沒有找到對應(yīng)的引用標簽而被視為是數(shù)據(jù)流中剩余的數(shù)據(jù)。參考一級標簽單元53,它的內(nèi)容與第一數(shù)據(jù)庫的內(nèi)容對應(yīng)。
需要說明的是,第一數(shù)據(jù)庫中的數(shù)據(jù)記錄的排列并非象上述示例一樣,上述示例只是為了方便說明而舉的例子。
這個例子說明,某些數(shù)據(jù)段(例如,SA、SB)可能在第一數(shù)據(jù)庫中找到對應(yīng)的引用標簽,而有些數(shù)據(jù)段(例如,DC)可能沒有對應(yīng)的引用標簽而被視為剩余的數(shù)據(jù)。當(dāng)然,最理想的情況是,每一個數(shù)據(jù)段都能找到對應(yīng)的引用標簽。
在本實施例中,可以通過所述第二數(shù)據(jù)庫存儲的內(nèi)容,來解決標簽分組的問題。假設(shè)第二數(shù)據(jù)庫存儲有下述內(nèi)容(H21,R21,R11,R12)(H22,R22,R13,R14,R15).........其中,H21等H序列的標識表示為散列值,R21等上標為2的R序列的標識表示二級標簽,每一個括號內(nèi)部的內(nèi)容為一組綁定的組標簽和標簽組。
假設(shè),按照圖4所述實施例可以確定,標簽組R11,R12,和標簽組R13,R14,R15經(jīng)常出現(xiàn),則可以按照第二數(shù)據(jù)庫存儲的內(nèi)容確定上述標簽組對應(yīng)的組標簽R21和R22。參考二級標簽單元54。這樣,在數(shù)據(jù)輸出緩沖區(qū)55中,就會有形成新的數(shù)據(jù)流R21,DC,R22,R16。
上述帶有上下標的數(shù)據(jù),上標表示級數(shù),下標表示序列號。
如果將所述第一數(shù)據(jù)庫中綁定的數(shù)據(jù)看作是第一級綁定,則所述第一數(shù)據(jù)庫中綁定的數(shù)據(jù),即綁定的標簽就看作是第二級綁定。因此,第一數(shù)據(jù)庫和第二數(shù)據(jù)庫可以合并為一個數(shù)據(jù)庫,此時該兩級綁定分別存儲即可。圖6就是一個用一個數(shù)據(jù)庫的例子。圖6中,引用標簽R11與分段數(shù)據(jù)SA相捆綁的,引用標簽R12是與分段數(shù)據(jù)SB相捆綁的,引用標簽R2i是與引用標簽組(R13,R17,R19)相捆綁的,其中綁定在一起的還有對應(yīng)的散列值,等等。
所述數(shù)據(jù)庫即用來編碼,也用于還原數(shù)據(jù)。在還原數(shù)據(jù)時,解碼器要知道遇到的符號是一個用于代替數(shù)據(jù)段的標簽,還是數(shù)據(jù)的一部分。解決這個問題,可以通過將標簽設(shè)置成有特殊標記的形式,也可以將分級信息加入到標簽中,但是,效率更好的一種方式是在數(shù)據(jù)庫中指明一個標簽是否為葉子節(jié)點標簽,來用于數(shù)據(jù)的還原。以圖6所示的采用一個數(shù)據(jù)庫的情況為例,存儲的數(shù)據(jù)中就有一個葉子節(jié)點字段,這里,終結(jié)數(shù)據(jù)段表示最終輸出數(shù)據(jù)的字符串,而非終結(jié)數(shù)據(jù)段是表示標簽的字符串??梢杂靡粋€“葉子節(jié)點”,為每一個綁定作出指示,是否它終結(jié)了分級,并表示了最終輸出的數(shù)據(jù),還是它引用了一個引用其它綁定的標簽系列。
圖6中,一個具體的例子是,一個葉子節(jié)點被標識為“1”,它就指明,這個記錄是表示一個終數(shù)據(jù)段,這個記錄的內(nèi)容是不能任何進一步分割的數(shù)據(jù)段數(shù)據(jù)。而一個標識為“0”的葉子結(jié)點,就指明該記錄的標簽是一個標簽組的序列。
同樣,在具體的編碼過程中,對于每一個未出現(xiàn)在所述第二數(shù)據(jù)庫中且滿足第二數(shù)據(jù)特性要求的標簽組,仍然要為所述標簽組設(shè)置組標簽,并與所述標簽組綁定后存儲在所述第二數(shù)據(jù)庫,從而更豐富所述第二數(shù)據(jù)庫中的內(nèi)容。
事實上,可以采用多級標簽方案,如果有更多的分層級別,則數(shù)據(jù)壓縮效果將會進一步改善。也就是,如果所述標簽組滿足第三數(shù)據(jù)特性要求,要為其設(shè)置更高級的組標簽,綁定所述組標簽與所述標簽組,綁定后存儲在所述第三數(shù)據(jù)庫。對于多級標簽來說,實際的處理方法依次類推。特別是,所述第一數(shù)據(jù)特性、第二數(shù)據(jù)特性、第三數(shù)據(jù)特性彼此間可以相同或不同,所述第一數(shù)據(jù)庫、第二數(shù)據(jù)庫和所述第三數(shù)據(jù)庫可以是相同的數(shù),也可以不同。在一個具體的實施例中,采用兩個數(shù)據(jù)庫,一個第一數(shù)據(jù)庫,一個是第二數(shù)據(jù)庫和所述第三數(shù)據(jù)庫合并后的數(shù)據(jù)庫。在另一個實施例中,采用一個合并后的數(shù)據(jù)庫,例如圖6所示。
采用多級標簽可以增加數(shù)據(jù)壓縮或編碼的效率,如果標簽的級數(shù)太少,一個大尺寸數(shù)據(jù)塊的編碼后仍然有較多的數(shù)據(jù)量,但是,無限的分級反倒會降低數(shù)據(jù)壓縮或編碼的效率,因此,追求一個合理的標簽分級對不同的數(shù)據(jù)傳輸需求來說是恰當(dāng)?shù)摹<俣ň幋a器可以靈活選擇對于一個具體的數(shù)據(jù)流所進行的編碼過程所適用的級別,那么解碼器也應(yīng)該得知在任何給定的時間所需要的分層級別的層次數(shù),從而使高效率的數(shù)據(jù)傳輸成為可能。
為了實現(xiàn)可變級別的分級內(nèi)容引導(dǎo)分割方案,當(dāng)編碼器第一次掃描輸入數(shù)據(jù)流后,它就會產(chǎn)生一級引用標簽及其綁定數(shù)據(jù)段。而其它級別標簽的產(chǎn)生,仍然可以采用指紋函數(shù)的方式獲得。這個過程為以后連續(xù)不斷的各分層級別標簽的產(chǎn)生而不斷地重復(fù),從而產(chǎn)生更高級的標簽及與其綁定的標簽序列。以這種方式,通過編碼器的一個大數(shù)據(jù)塊,會被多次整理而使真正傳輸?shù)臄?shù)據(jù)量變小。
在本實施例中,壓縮與編碼是等價的,解壓縮與解碼也是等價的。在解碼時,就需要將接收到的數(shù)據(jù)流中的數(shù)據(jù)識別出來,將高級標簽以遞歸的方式還原回一級引用標簽,最終還原為發(fā)送端發(fā)送的編碼前原始數(shù)據(jù)。
圖7是本發(fā)明數(shù)據(jù)傳輸裝置的第一實施例框圖。圖7所述裝置包括第一標簽集成單元71、第一數(shù)據(jù)庫72、數(shù)據(jù)段分割單元73、數(shù)據(jù)編碼單元74、數(shù)據(jù)發(fā)送單元75。第一標簽集成單元71,用于獲取滿足數(shù)據(jù)應(yīng)用領(lǐng)域的第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段分配對應(yīng)的引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定后存入第一數(shù)據(jù)庫72。輸入的數(shù)據(jù)流,用數(shù)據(jù)段分割單元73,從數(shù)據(jù)流的一端開始,按照一定的原則,截取出一個或多個數(shù)據(jù)段。例如數(shù)據(jù)流的起始點為A,終止點為B,從A點或B點開始,按照順序和算法規(guī)則,截取出一個或多個數(shù)據(jù)段。這些數(shù)據(jù)段如果與第一數(shù)據(jù)庫72中存儲的數(shù)據(jù)段相同,就可以利用與該數(shù)據(jù)段綁定的標簽完成數(shù)據(jù)的編碼傳輸。于是,使用數(shù)據(jù)編碼單元74,將數(shù)據(jù)段分割單元的數(shù)據(jù)分割結(jié)果輸入給所述數(shù)據(jù)編碼單元74,所述數(shù)據(jù)編碼單元74在所述第一數(shù)據(jù)庫72中,查找數(shù)據(jù)段分割單元輸出的數(shù)據(jù)段對應(yīng)的應(yīng)用標簽,查找結(jié)果被送入數(shù)據(jù)發(fā)送單元75,由其用所述引用標簽代替數(shù)據(jù)段分割單元截取的數(shù)據(jù)段,與數(shù)據(jù)流中剩余的數(shù)據(jù)組裝為新的數(shù)據(jù)流發(fā)送。
為了標簽的查找方便,所述第一數(shù)據(jù)庫72中的記錄中還存儲有對應(yīng)的散列值。關(guān)于數(shù)據(jù)分割單元73如何進行數(shù)據(jù)分割,以及數(shù)據(jù)編碼單元74如何查找分割出的數(shù)據(jù)段對應(yīng)的應(yīng)用標簽此處省略。
如果所述第一數(shù)據(jù)庫中存儲的數(shù)據(jù)段以及綁定的引用標簽數(shù)量過少,編碼完畢的傳輸數(shù)據(jù)的壓縮比仍然不高。為彌補這個不足,需要圖7所示實施例具有學(xué)習(xí)功能。
具有學(xué)習(xí)功能的數(shù)據(jù)傳輸裝置參考圖8所示的第二實施例框圖。與圖7所示的數(shù)據(jù)傳輸裝置不同,圖8所示的數(shù)據(jù)傳輸裝置增加了第一判斷單元76,所述第一判斷單元76用于判斷數(shù)據(jù)段分割單元73分割出的數(shù)據(jù)段是否存儲在所述第一數(shù)據(jù)庫72,對于每一個未出現(xiàn)在所述第一數(shù)據(jù)庫72中且滿足第一數(shù)據(jù)特性要求的數(shù)據(jù)段,都要為所述數(shù)據(jù)段設(shè)置其引用標簽,并與其綁定后存儲在所述第一數(shù)據(jù)庫72,當(dāng)然也要計算出其對應(yīng)的散列值存儲入相應(yīng)的記錄。
圖7、8所示的數(shù)據(jù)傳輸裝置的數(shù)據(jù)分割,可以隨著數(shù)據(jù)流的輸入同時按照內(nèi)容進行數(shù)據(jù)段的分割操作。然而,很多時候,數(shù)據(jù)流并不是勻速流入的,例如,如果沒有繼續(xù)的數(shù)據(jù)流用于編碼,整個裝置就可能處于無休止的等待狀態(tài)??梢岳脭?shù)據(jù)段分割單元73內(nèi)部的緩沖區(qū)解決所述等待問題,但是,當(dāng)需要從數(shù)據(jù)的尾部開始分割數(shù)據(jù),這個緩沖區(qū)就會產(chǎn)生使用上的矛盾。圖9是本發(fā)明數(shù)據(jù)傳輸裝置的第三實施例框圖,與圖8相比,圖9所示的數(shù)據(jù)傳輸裝置還包括一個輸入數(shù)據(jù)緩存單元77,所述緩存單元77包括至少一個數(shù)據(jù)緩沖區(qū),用于緩存輸入分數(shù)據(jù)。這樣就可以不影響數(shù)據(jù)段分割單元73內(nèi)部的緩沖區(qū)的使用。還可以進一步通過緩沖區(qū)的使用解決編碼等待問題,例如,在所述緩沖區(qū)中數(shù)據(jù)流的長度大于或等于預(yù)設(shè)的閾值或者所述數(shù)據(jù)流的形成時間大于或等于預(yù)設(shè)的閾值時,數(shù)據(jù)段分割單元開始進行數(shù)據(jù)段的分割操作。
圖7、8或9所示的數(shù)據(jù)傳輸裝置都可以采用標簽分級的方法提高編碼效率。一個具體的例子是,在圖7、8或9所示的數(shù)據(jù)傳輸裝置中增加第二標簽集成單元81和第二數(shù)據(jù)庫82,參考圖10。所述第二標簽集成單元81,用于獲取滿足數(shù)據(jù)應(yīng)用領(lǐng)域的第二數(shù)據(jù)特性要求的標簽組,為所述標簽組分配對應(yīng)的組標簽,將所述組標簽與所述標簽組綁定后存儲在第二數(shù)據(jù)庫。同理,圖10中還增加的第二判斷單元83,對于每一個未出現(xiàn)在所述第二數(shù)據(jù)庫82中且滿足第二數(shù)據(jù)特性要求的標簽組,為所述標簽組設(shè)置組標簽,并與所述標簽組綁定后存儲在所述第二數(shù)據(jù)庫,此處也需要為所述標簽組和組標簽的綁定記錄設(shè)置相應(yīng)的散列值。需要說明的是,多級標簽的產(chǎn)生可以借助于專用于暫存標簽的緩沖區(qū)。
依此類推,圖10所示的數(shù)據(jù)傳輸裝置還增加了第三標簽集成單元91和第三數(shù)據(jù)92,將第二數(shù)據(jù)庫中的標簽組按照第三數(shù)據(jù)特性分為進一步的標簽組,如果所述標簽組滿足第三數(shù)據(jù)特性要求,為其設(shè)置更高級的組標簽,綁定所述組標簽與所述標簽組以及對應(yīng)的散列值,綁定后存儲在所述第三數(shù)據(jù)庫。
當(dāng)然,也可以在圖10中增加的第三判斷單元(圖10中未繪出),對于每一個未出現(xiàn)在所述第三數(shù)據(jù)庫82中且滿足第三數(shù)據(jù)特性要求的標簽組,為所述標簽組設(shè)置組標簽,并與所述標簽組綁定后存儲在所述第三數(shù)據(jù)庫,此處也需要為所述標簽組和組標簽的綁定記錄設(shè)置相應(yīng)的散列值。
圖10中,所述第一數(shù)據(jù)特性、第二數(shù)據(jù)特性、第三數(shù)據(jù)特性相同或兩兩相同或不同。即,上述三個數(shù)據(jù)庫可以合并為一個數(shù)據(jù)庫,也可以分為兩個數(shù)據(jù)庫,也可以象圖10所示實施例一樣分為三個數(shù)據(jù)庫。當(dāng)分為兩個數(shù)據(jù)庫時,推薦第二、第三數(shù)據(jù)庫合并。
與本發(fā)明數(shù)據(jù)傳輸裝置對應(yīng)的一種數(shù)據(jù)處理方法,可以對編碼的數(shù)據(jù)進行解碼。具體采用這樣的步驟,首先分解輸入的數(shù)據(jù)流,識別出數(shù)據(jù)段序列、引用標簽以及組標簽,然后以逆向且遞歸的方式從數(shù)據(jù)庫中獲得引用標簽、組標簽對應(yīng)的數(shù)據(jù)段,將所述數(shù)據(jù)段與所述數(shù)據(jù)段序列組裝成數(shù)據(jù)流。
圖11是說明所述數(shù)據(jù)處理方法的解碼原理的裝置圖。這個編碼后的數(shù)據(jù)(包括引用標簽、標簽組和普通數(shù)據(jù))被輸入到輸入緩存器110中。
從輸入緩存器的數(shù)據(jù)中,各種引用標簽、組標簽以及更高級的組標簽以及未被任何標簽代表的普通數(shù)據(jù)被提取出來。在數(shù)據(jù)接收端也同樣存在與數(shù)據(jù)發(fā)送端相同的數(shù)據(jù)庫(或數(shù)據(jù)庫組)112。所述引用標簽、組標簽以及更高級的組標簽被替換單元111通過與數(shù)據(jù)庫112的交互被逐步還原為數(shù)據(jù),最后在輸出緩存單元113中被組裝為編碼前的數(shù)據(jù)。
所述數(shù)據(jù)庫112與數(shù)據(jù)發(fā)送端的數(shù)據(jù)庫是同步的,具體的同步原理參考下文。
圖12是本發(fā)明數(shù)據(jù)傳輸系統(tǒng)的第一實施例框圖。圖12中,包括網(wǎng)絡(luò)213和通過網(wǎng)絡(luò)213互聯(lián)的多個終端211,以及還包括設(shè)置在所述計算機網(wǎng)絡(luò)213和所述終端211之間的數(shù)據(jù)傳輸裝置212、214。在這個數(shù)據(jù)傳輸系統(tǒng)中,終端211不再按照傳統(tǒng)的方式通過網(wǎng)絡(luò)213直接互聯(lián),而是在中間增加了數(shù)據(jù)傳輸裝置212、214。事實上,終端211與數(shù)據(jù)傳輸裝置212、214之間也許直接連接,也許通過另外的網(wǎng)絡(luò),例如局域網(wǎng)連接,數(shù)據(jù)傳輸裝置212與網(wǎng)絡(luò)213之間也是如此。圖12中,每一個數(shù)據(jù)傳輸裝置212,都連接著與其邏輯上或物理上相對靠近的終端211,也就是說,終端211通過網(wǎng)絡(luò)213向另一個終端211發(fā)送的數(shù)據(jù)需要經(jīng)過數(shù)據(jù)傳輸裝置212。而數(shù)據(jù)傳輸裝置212的作用在于對數(shù)據(jù)編碼以減少通過網(wǎng)絡(luò)213實際傳輸?shù)臄?shù)據(jù)量,從而達到數(shù)據(jù)傳輸加速的作用。因此,數(shù)據(jù)傳輸裝置212也可以理解為數(shù)據(jù)傳輸?shù)募铀倨?,?jù)此可以為其取一個更形象的名字“蟲洞”。
圖12的系統(tǒng)中,數(shù)據(jù)傳輸裝置212、214可以為圖7、8、9或10(以及圖中未繪出的其它數(shù)據(jù)傳輸裝置)描述的數(shù)據(jù)傳輸裝置中的任意一個。例如,數(shù)據(jù)傳輸裝置212可能包括下述單元第一標簽集成單元,用于獲取滿足數(shù)據(jù)應(yīng)用領(lǐng)域的第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段分配標識該數(shù)據(jù)段的引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定后存入第一數(shù)據(jù)庫;數(shù)據(jù)段分割單元,用于對輸入的數(shù)據(jù)流,從一個方向截取一個或多個數(shù)據(jù)段,所述數(shù)據(jù)段與所述第一數(shù)據(jù)庫中存儲的一個數(shù)據(jù)段相同;數(shù)據(jù)編碼單元,輸入數(shù)據(jù)段分割單元的數(shù)據(jù)分割結(jié)果,在所述第一數(shù)據(jù)庫中,查找數(shù)據(jù)段分割單元輸出的數(shù)據(jù)段對應(yīng)的應(yīng)用標簽,用第一數(shù)據(jù)庫中的引用標簽代替數(shù)據(jù)段分割單元截取的數(shù)據(jù)段與數(shù)據(jù)流中剩余的數(shù)據(jù)組裝為新的數(shù)據(jù)流;數(shù)據(jù)發(fā)送單元,發(fā)送所述數(shù)據(jù)編碼單元生成的新的數(shù)據(jù)流。
更進一步,數(shù)據(jù)傳輸裝置212還可能包括下述單元的全部、部分或之一第一判斷單元,判斷數(shù)據(jù)段分割單元分割出的數(shù)據(jù)段是否存儲在所述一級標簽數(shù)據(jù)庫,對于每一個未出現(xiàn)在所述第一數(shù)據(jù)庫中且滿足第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段設(shè)置其引用標簽,并與其綁定后存儲在所述第一數(shù)據(jù)庫。
第二標簽集成單元,用于獲取滿足數(shù)據(jù)應(yīng)用領(lǐng)域的第二數(shù)據(jù)特性要求的標簽組,為所述標簽組分配對應(yīng)的組標簽,將所述組標簽與所述標簽組綁定后存儲在第二數(shù)據(jù)庫。
第二判斷單元,對于每一個未出現(xiàn)在所述第二數(shù)據(jù)庫中且滿足第二數(shù)據(jù)特性要求的標簽組,為所述標簽組設(shè)置組標簽,并與所述標簽組綁定后存儲在所述第二數(shù)據(jù)庫。
第三標簽集成單元,將第二數(shù)據(jù)庫中的標簽組按照第三數(shù)據(jù)特性分為進一步的標簽組,如果所述標簽組滿足第三數(shù)據(jù)特性要求,為其設(shè)置更高級的組標簽,綁定所述組標簽與所述標簽組,綁定后存儲在所述第三數(shù)據(jù)庫。
同理,所述第一數(shù)據(jù)特性、第二數(shù)據(jù)特性、第三數(shù)據(jù)特性相同或兩兩相同或不同。也可一是,所述第二數(shù)據(jù)庫和所述第三數(shù)據(jù)庫是相同的數(shù)據(jù)庫。
另外,在圖12的數(shù)據(jù)傳輸系統(tǒng)中,數(shù)據(jù)傳輸裝置212還可以包括一個輸入數(shù)據(jù)緩沖單元,所述緩沖單元包括至少一個數(shù)據(jù)緩沖區(qū)。(最好包括多個數(shù)據(jù)緩沖區(qū),例如三個),由于所述反感前文已有說明,此處從略。
在另外的實施例中,數(shù)據(jù)傳輸裝置212可以用另外的加速器或“蟲洞”替換,例如圖13所示的加速器的例子。圖13是圖12所述系統(tǒng)采用的加速器實施例框圖。圖13所示加速器包括下述單元數(shù)據(jù)傳輸裝置311,可以為圖7、8、9或10(以及圖中未繪出的其它數(shù)據(jù)傳輸裝置)描述的數(shù)據(jù)傳輸裝置中的任意一個;數(shù)據(jù)接收裝置312,可以是圖11所示的實施例描述的解碼裝置,也可以是存儲依據(jù)所述數(shù)據(jù)處理方法編制的處理程序的中央處理單元。這樣,每一個系統(tǒng)中的加速器實際上具有編碼發(fā)送數(shù)據(jù)以及解碼接收數(shù)據(jù)的能力。
另外,在圖12所述的系統(tǒng),還可以包括至少一個同步服務(wù)器215,用于同步所述數(shù)據(jù)傳輸裝置212、214中的數(shù)據(jù)庫的存儲內(nèi)容。同步的方法可以有很多,例如,任何一個數(shù)據(jù)傳輸裝置212或214中的數(shù)據(jù)庫的內(nèi)容由于學(xué)習(xí)而發(fā)生變化時,可以將變化的內(nèi)容傳輸至同步服務(wù)器215中,然后在網(wǎng)絡(luò)空閑或利用專用的信道由所述同步服務(wù)器整理完畢同步的內(nèi)容后再向其它的數(shù)據(jù)傳輸裝置發(fā)送變化的數(shù)據(jù)部分和具體的指令,指示相應(yīng)的數(shù)據(jù)傳輸裝置調(diào)整相應(yīng)的數(shù)據(jù)庫的內(nèi)容。還可以,數(shù)據(jù)庫發(fā)生變化的數(shù)據(jù)傳輸裝置向網(wǎng)絡(luò)中的其它數(shù)據(jù)傳輸裝置發(fā)送廣播消息以及變化的數(shù)據(jù)庫部分,提示其它(特指對應(yīng)的接收端的數(shù)據(jù)傳輸裝置)數(shù)據(jù)傳輸裝置的數(shù)據(jù)庫進行相應(yīng)的更新,廣播的內(nèi)容以及安全認證等操作也可以通過同步服務(wù)器215在網(wǎng)絡(luò)空閑時(例如數(shù)據(jù)傳輸裝置不進行數(shù)據(jù)傳輸?shù)臅r間)完成。也可以是,接收端的數(shù)據(jù)傳輸裝置發(fā)現(xiàn)標簽有變化,通過向發(fā)送端的數(shù)據(jù)傳輸裝置發(fā)送請求消息以獲得變化的數(shù)據(jù)庫內(nèi)容等。
值得注意的是,本實施方式公開的數(shù)據(jù)傳輸裝置還可以包括一個數(shù)據(jù)調(diào)整單元,對于超過一定時間,或超過一定數(shù)據(jù)傳輸量而沒有被采用的數(shù)據(jù)段及其綁定刪除,避免數(shù)據(jù)庫中的內(nèi)容學(xué)習(xí)而可能導(dǎo)致的無限制的增加,使其中的內(nèi)容始終保持較高的被使用的效率。所述數(shù)據(jù)調(diào)整單元的運行也可以采用同步服務(wù)器的運行方式,在數(shù)據(jù)傳輸?shù)目臻e完成。
權(quán)利要求
1.一種數(shù)據(jù)傳輸方法,其特征在于包括按照數(shù)據(jù)應(yīng)用領(lǐng)域的第一數(shù)據(jù)特性,設(shè)置包括多個滿足第一數(shù)據(jù)特性要求的數(shù)據(jù)段及標識該數(shù)據(jù)段的引用標簽的第一數(shù)據(jù)庫,所述引用標簽與所述數(shù)據(jù)段綁定;對輸入的數(shù)據(jù)流,從一個方向截取一個或多個數(shù)據(jù)段,所述數(shù)據(jù)段與所述第一數(shù)據(jù)庫中存儲的至少一個數(shù)據(jù)段相同;用引用標簽代替截取的數(shù)據(jù)段與數(shù)據(jù)流中剩余的數(shù)據(jù)組裝為新的數(shù)據(jù)流發(fā)送。
2.如權(quán)利要求1所述的數(shù)據(jù)傳輸方法,其特征在于還包括,對于每一個未出現(xiàn)在所述第一數(shù)據(jù)庫中且滿足第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段設(shè)置引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定后存儲在所述第一數(shù)據(jù)庫。
3.如權(quán)利要求1或2所述的數(shù)據(jù)傳輸方法,其特征在于還包括,將引用標簽按照第二數(shù)據(jù)特性分為多個標簽組,為所述標簽組設(shè)置組標簽,所述組標簽與所述標簽組綁定后存儲在第二數(shù)據(jù)庫;以及,將滿足第二數(shù)據(jù)特性的標簽組用對應(yīng)的組標簽代替,用于組裝新的數(shù)據(jù)流。
4.如權(quán)利要求3所述的數(shù)據(jù)傳輸方法,其特征在于還包括,對于每一個未出現(xiàn)在所述第二數(shù)據(jù)庫中且滿足第二數(shù)據(jù)特性要求的標簽組,為所述標簽組設(shè)置組標簽,并與所述標簽組綁定后存儲在所述第二數(shù)據(jù)庫。
5.如權(quán)利要求4所述的數(shù)據(jù)傳輸方法,其特征在于還包括,如果所述標簽組滿足第三數(shù)據(jù)特性要求,為其設(shè)置更高級的組標簽,綁定所述組標簽與所述標簽組,綁定后存儲在所述第三數(shù)據(jù)庫;以及,將滿足第三數(shù)據(jù)特性的標簽組用對應(yīng)的更高級的組標簽代替,用于組裝新的數(shù)據(jù)流。
6.如權(quán)利要求5所述的數(shù)據(jù)傳輸方法,其特征在于,所述第一數(shù)據(jù)特性、第二數(shù)據(jù)特性、第三數(shù)據(jù)特性相同或兩兩相同或不同。
7.如權(quán)利要求5所述的數(shù)據(jù)傳輸方法,其特征在于,所述第二數(shù)據(jù)庫和所述第三數(shù)據(jù)庫是相同的數(shù)據(jù)庫。
8.如權(quán)利要求1所述的數(shù)據(jù)傳輸方法,其特征在于,利用一個指紋函數(shù)和一個窗口,在輸入數(shù)據(jù)流上確定一系列的分割點,利用所述分割點分割所述數(shù)據(jù)流。
9.如權(quán)利要求5所述的數(shù)據(jù)傳輸方法,其特征在于,利用一個指紋函數(shù)和一個窗口,在輸入數(shù)據(jù)流衍生的連續(xù)標簽流上確定一系列的分割點,利用所述分割點確定標簽組。
10如權(quán)利要求8所述的數(shù)據(jù)傳輸方法,其特征在于,通過動態(tài)調(diào)整所述窗口在輸入數(shù)據(jù)流上確定一系列的分割點。
11.一種數(shù)據(jù)傳輸裝置,其特征在于包括第一標簽集成單元,用于獲取滿足數(shù)據(jù)應(yīng)用領(lǐng)域的第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段分配標識該數(shù)據(jù)段的引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定后存入第一數(shù)據(jù)庫;數(shù)據(jù)段分割單元,用于對輸入的數(shù)據(jù)流,從一個方向截取一個或多個數(shù)據(jù)段,所述數(shù)據(jù)段與所述第一數(shù)據(jù)庫中存儲的至少一個數(shù)據(jù)段相同;數(shù)據(jù)編碼單元,輸入數(shù)據(jù)段分割單元的數(shù)據(jù)分割結(jié)果,在所述第一數(shù)據(jù)庫中,查找數(shù)據(jù)段分割單元輸出的數(shù)據(jù)段對應(yīng)的引用標簽,用第一數(shù)據(jù)庫中的引用標簽代替數(shù)據(jù)段分割單元截取的數(shù)據(jù)段與數(shù)據(jù)流中剩余的數(shù)據(jù)組裝為新的數(shù)據(jù)流;數(shù)據(jù)發(fā)送單元,發(fā)送所述數(shù)據(jù)編碼單元生成的新的數(shù)據(jù)流。
12.如權(quán)利要求11所述的數(shù)據(jù)傳輸裝置,其特征在于還包括,第一判斷單元,判斷數(shù)據(jù)段分割單元分割出的數(shù)據(jù)段是否存儲在所述第一數(shù)據(jù)庫,對于每一個未出現(xiàn)在所述第一數(shù)據(jù)庫中且滿足第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段設(shè)置標識該數(shù)據(jù)段的引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定后存儲在所述第一數(shù)據(jù)庫。
13.如權(quán)利要求11或12所述的數(shù)據(jù)傳輸裝置,其特征在于還包括,第二標簽集成單元,用于獲取滿足數(shù)據(jù)應(yīng)用領(lǐng)域的第二數(shù)據(jù)特性要求的標簽組,為所述標簽組分配對應(yīng)的組標簽,將所述組標簽與所述標簽組綁定后存儲在第二數(shù)據(jù)庫;以及,將滿足第二數(shù)據(jù)特性的標簽組用對應(yīng)的組標簽代替,用于組裝新的數(shù)據(jù)流。
14.如權(quán)利要求13所述的數(shù)據(jù)傳輸裝置,其特征在于還包括,第二判斷單元,對于每一個未出現(xiàn)在所述第二數(shù)據(jù)庫中且滿足第二數(shù)據(jù)特性要求的標簽組,為所述標簽組設(shè)置組標簽,并與所述標簽組綁定后存儲在所述第二數(shù)據(jù)庫。
15.如權(quán)利要求14所述的數(shù)據(jù)傳輸裝置,其特征在于還包括,第三標簽集成單元,將第二數(shù)據(jù)庫中的標簽組按照第三數(shù)據(jù)特性分為進一步的標簽組,如果所述標簽組滿足第三數(shù)據(jù)特性要求,為其設(shè)置更高級的組標簽,綁定所述組標簽與所述標簽組,綁定后存儲在所述第三數(shù)據(jù)庫;以及,將滿足第三數(shù)據(jù)特性的標簽組用對應(yīng)的更高級的組標簽代替,用于組裝新的數(shù)據(jù)流。
16.如權(quán)利要求15所述的數(shù)據(jù)傳輸裝置,其特征在于,所述第一數(shù)據(jù)特性、第二數(shù)據(jù)特性、第三數(shù)據(jù)特性相同或兩兩相同或不同。
17.如權(quán)利要求15所述的數(shù)據(jù)傳輸裝置,其特征在于,所述第二數(shù)據(jù)庫和所述第三數(shù)據(jù)庫是相同的數(shù)據(jù)庫。
18.如權(quán)利要求11所述的數(shù)據(jù)傳輸裝置,其特征在于,還包括一個輸入數(shù)據(jù)緩沖單元,所述緩沖單元包括至少一個數(shù)據(jù)緩沖區(qū)。
19.如權(quán)利要求18所述的數(shù)據(jù)傳輸裝置,其特征在于,在所述緩沖區(qū)中數(shù)據(jù)流的長度大于或等于預(yù)設(shè)的閾值或者所述數(shù)據(jù)流的形成時間大于或等于預(yù)設(shè)的閾值時,數(shù)據(jù)段分割單元取出所述緩沖區(qū)中的數(shù)據(jù)流進行數(shù)據(jù)段的分割操作。
20.一種數(shù)據(jù)處理方法,其特征在于包括分解輸入的數(shù)據(jù)流,識別出數(shù)據(jù)組序列(未組成數(shù)據(jù)段的普通數(shù)據(jù))、引用標簽以及組標簽;以逆向且遞歸的方式從數(shù)據(jù)庫中獲得引用標簽、組標簽對應(yīng)的數(shù)據(jù)段,將所述數(shù)據(jù)段與所述數(shù)據(jù)組序列組裝成數(shù)據(jù)流。
21.一種數(shù)據(jù)傳輸系統(tǒng),包括計算機網(wǎng)絡(luò)和通過網(wǎng)絡(luò)互聯(lián)的多個終端,其特征在于還包括設(shè)置在所述計算機網(wǎng)絡(luò)和所述終端之間的數(shù)據(jù)傳輸裝置,所述數(shù)據(jù)傳輸裝置包括第一標簽集成單元,用于獲取滿足數(shù)據(jù)應(yīng)用領(lǐng)域的第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段分配標識該數(shù)據(jù)段的引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定后存入第一數(shù)據(jù)庫;數(shù)據(jù)段分割單元,用于對輸入的數(shù)據(jù)流,從一個方向截取一個或多個數(shù)據(jù)段,所述數(shù)據(jù)段與所述第一數(shù)據(jù)庫中存儲的至少一個數(shù)據(jù)段相同;數(shù)據(jù)編碼單元,輸入數(shù)據(jù)段分割單元的數(shù)據(jù)分割結(jié)果,在所述第一數(shù)據(jù)庫中,查找數(shù)據(jù)段分割單元輸出的數(shù)據(jù)段對應(yīng)的引用標簽,用第一數(shù)據(jù)庫中的引用標簽代替數(shù)據(jù)段分割單元截取的數(shù)據(jù)段與數(shù)據(jù)流中剩余的數(shù)據(jù)組裝為新的數(shù)據(jù)流;數(shù)據(jù)發(fā)送單元,發(fā)送所述數(shù)據(jù)編碼單元生成的新的數(shù)據(jù)流。
22.如權(quán)利要求21所述的數(shù)據(jù)傳輸系統(tǒng),其特征在于還包括,第一判斷單元,判斷數(shù)據(jù)段分割單元分割出的數(shù)據(jù)段是否存儲在所述第一數(shù)據(jù)庫,對于每一個未出現(xiàn)在所述第一數(shù)據(jù)庫中且滿足第一數(shù)據(jù)特性要求的數(shù)據(jù)段,為所述數(shù)據(jù)段設(shè)置標識該數(shù)據(jù)段的引用標簽,將所述引用標簽與所述數(shù)據(jù)段綁定后存儲在所述第一數(shù)據(jù)庫。
23.如權(quán)利要求21或22所述的數(shù)據(jù)傳輸系統(tǒng),其特征在于還包括,第二標簽集成單元,用于獲取滿足數(shù)據(jù)應(yīng)用領(lǐng)域的第二數(shù)據(jù)特性要求的標簽組,為所述標簽組分配對應(yīng)的組標簽,將所述組標簽與所述標簽組綁定后存儲在第二數(shù)據(jù)庫;以及,將滿足第二數(shù)據(jù)特性的標簽組用對應(yīng)的組標簽代替,用于組裝新的數(shù)據(jù)流。
24.如權(quán)利要求23所述的數(shù)據(jù)傳輸系統(tǒng),其特征在于還包括,第二判斷單元,對于每一個未出現(xiàn)在所述第二數(shù)據(jù)庫中且滿足第二數(shù)據(jù)特性要求的標簽組,為所述標簽組設(shè)置組標簽,并與所述標簽組綁定后存儲在所述第二數(shù)據(jù)庫。
25.如權(quán)利要求24所述的數(shù)據(jù)傳輸系統(tǒng),其特征在于還包括,第三標簽集成單元,將第二數(shù)據(jù)庫中的標簽組按照第三數(shù)據(jù)特性分為進一步的標簽組,如果所述標簽組滿足第三數(shù)據(jù)特性要求,為其設(shè)置更高級的組標簽,綁定所述組標簽與所述標簽組,綁定后存儲在所述第三數(shù)據(jù)庫;以及,將滿足第三數(shù)據(jù)特性的標簽組用對應(yīng)的更高級的組標簽代替,用于組裝新的數(shù)據(jù)流。
26.如權(quán)利要求25所述的數(shù)據(jù)傳輸系統(tǒng),其特征在于,所述第一數(shù)據(jù)特性、第二數(shù)據(jù)特性、第三數(shù)據(jù)特性相同或兩兩相同或不同。
27.如權(quán)利要求25所述的數(shù)據(jù)傳輸系統(tǒng),其特征在于,所述第二數(shù)據(jù)庫和所述第三數(shù)據(jù)庫是相同的數(shù)據(jù)庫。
28.如權(quán)利要求21所述的數(shù)據(jù)傳輸系統(tǒng),其特征在于,還包括一個輸入數(shù)據(jù)緩沖單元,所述緩沖單元包括至少一個數(shù)據(jù)緩沖區(qū)。
29.如權(quán)利要求25所述的數(shù)據(jù)傳輸系統(tǒng),其特征在于,還包括至少一個服務(wù)器,用于同步所述數(shù)據(jù)傳輸裝置中的數(shù)據(jù)庫的存儲內(nèi)容。
30.如權(quán)利要求29所述的數(shù)據(jù)傳輸系統(tǒng),其特征在于,將數(shù)據(jù)庫中超過指定閾值未使用的數(shù)據(jù)段記錄刪除。
全文摘要
本發(fā)明公開了一種數(shù)據(jù)傳輸方法,包括按照數(shù)據(jù)應(yīng)用領(lǐng)域的第一數(shù)據(jù)特性,設(shè)置包括多個滿足第一數(shù)據(jù)特性要求的數(shù)據(jù)段及標識該數(shù)據(jù)段的引用標簽的第一數(shù)據(jù)庫,所述引用標簽與所述數(shù)據(jù)段綁定;對輸入的數(shù)據(jù)流,從一個方向截取一個或多個數(shù)據(jù)段,所述數(shù)據(jù)段與所述第一數(shù)據(jù)庫中存儲的至少一個數(shù)據(jù)段相同;用引用標簽代替截取的數(shù)據(jù)段與數(shù)據(jù)流中剩余的數(shù)據(jù)組裝為新的數(shù)據(jù)流發(fā)送。本方案就可以用占用存儲位數(shù)較少分標簽或組標簽代替占用存儲位數(shù)較長的數(shù)據(jù),從而使用引用標簽代替截取的數(shù)據(jù)段,由于減少了實際傳輸?shù)臄?shù)據(jù)量,能夠提高數(shù)據(jù)傳輸效率。本發(fā)明還公開了一種數(shù)據(jù)傳輸裝置。
文檔編號H04L29/06GK1901549SQ200610103640
公開日2007年1月24日 申請日期2006年7月26日 優(yōu)先權(quán)日2006年7月26日
發(fā)明者白杰, 李薇, 魯征宇 申請人:白杰, 李薇, 魯征宇
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
简阳市| 北辰区| 德阳市| 贺兰县| 噶尔县| 深州市| 阳新县| 威海市| 图片| 元谋县| 汝城县| 紫阳县| 贵港市| 刚察县| 汉沽区| 彰武县| 临高县| 巴彦淖尔市| 驻马店市| 绥阳县| 环江| 共和县| 花莲市| 宜良县| 长治县| 远安县| 襄汾县| 潮州市| 东阿县| 阿图什市| 石景山区| 阜宁县| 西平县| 宜黄县| 忻城县| 江山市| 丰县| 登封市| 永胜县| 无锡市| 如东县|