專利名稱:電子文檔的生成方法和裝置的制作方法
技術領域:
本發(fā)明涉及數(shù)字信息領域,尤其涉及一種電子文檔的生成方法和裝置。
背景技術:
隨著計算機技術和無紙辦公自動化技術的發(fā)展,電子文檔的應用也越來越廣泛,電子文檔給人們的工作帶來了方便。但是,隨著B/S (Browser/Server,瀏覽器/服務器模式)結構的發(fā)展和變化,不同格式的電子文檔在Web系統(tǒng)中的管理存在很大的困難。在現(xiàn)有技術下,JavahelpQava幫助)是利用Java技術開發(fā)的一種跨平臺的Web電子文檔格式。Javahelp 利用 Java 提供的 API (Application Programming Interface,應用程序編程接ロ)將HTML (Hypertext Markup Language,超文本標記語言)源文檔格式制 作成特定的Javahelp電子文檔格式,并可以通過Java提供的API瀏覽和搜索電子文檔的內容?;贘ava技術的Javahelp電子文檔格式所支持的瀏覽和捜索功能較差,而且不支持非HTML源文檔制作成Javahelp電子文檔格式,也不支持在預安裝的Web系統(tǒng)中雙擊直接運行電子文檔。
發(fā)明內容
本發(fā)明實施例提供了一種電子文檔的生成方法和裝置,實現(xiàn)了將不同類型的源文檔生成為基于Web系統(tǒng)的統(tǒng)ー的電子文檔格式,提高了電子文檔中內容的瀏覽和搜索效率。一方面,本發(fā)明實施例提供了一種電子文檔的生成方法,所述方法包括獲取原始文件數(shù)據(jù);按照生成所述電子文檔所需的數(shù)據(jù)內容,對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個所述數(shù)據(jù)內容所需的文檔生成信息;將所述文檔生成信息按照所述電子文檔的生成格式進行處理,生成所述電子文檔;生成的所述電子文檔中的每個所述數(shù)據(jù)內容均由所述文檔生成信息處理得到。另ー方面,本發(fā)明實施例提供了一種電子文檔的生成裝置,所述裝置包括獲取單元,用于獲取原始文件數(shù)據(jù);處理單元,用于根據(jù)生成所述電子文檔所需的數(shù)據(jù)內容,對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個所述數(shù)據(jù)內容所需的文檔生成信息;生成単元,用于將所述文檔生成信息按照所述電子文檔的生成格式進行處理,生成所述電子文檔;生成的所述電子文檔中的每個所述數(shù)據(jù)內容均由所述文檔生成信息處理得到。本發(fā)明實施例中,電子文檔生成工具在獲取原始文件數(shù)據(jù)后;根據(jù)生成電子文檔所需的數(shù)據(jù)內容,對原始文件數(shù)據(jù)進行對應處理,從而生成每個數(shù)據(jù)內容所需的文檔生成信息;將文檔生成信息按照電子文檔的生成格式進行處理,生成電子文檔。本發(fā)明實施例中,電子文檔生成工具可以將各種類型的源文檔生成為ー種統(tǒng)ー電子文檔格式,實現(xiàn)了用戶可以在Web系統(tǒng)中閱讀多種格式的文檔,該電子文檔格式的瀏覽和捜索功能較強,提高了用戶瀏覽和搜索電子文檔內容的便利性。
圖I為本發(fā)明實施例提供的一種電子文檔的生成方法流程圖;圖2為本發(fā)明實施例提供的一種電子文檔的目錄結構示意圖;圖3為本發(fā)明實施例提供的一種電子文檔的生成裝置示意圖。
具體實施例方式下面通過附圖和實施例,對本發(fā)明的技術方案做進ー步的詳細描述。
本發(fā)明實施例針對現(xiàn)有技術下制作電子文檔的缺陷,提供了一種電子文檔的生成方法和裝置,在實際應用時該電子文檔的生成方法可應用于需要管理多種格式的電子文檔的Web系統(tǒng)中。當電子文檔生成工具獲取用于生成電子文檔的原始文件數(shù)據(jù)后;按照生成電子文檔所需的數(shù)據(jù)內容,對原始文件數(shù)據(jù)進行對應處理,從而生成每個數(shù)據(jù)內容所需的文檔生成信息;將文檔生成信息按照電子文檔的生成格式進行處理,生成電子文檔。本實施例提供的電子文檔生成工具可以將各種類型的源文檔生成為ー種統(tǒng)ー電子文檔格式,實現(xiàn)了用戶可以在Web系統(tǒng)中閱讀多種格式的文檔,該電子文檔格式的瀏覽和捜索功能較強,提高了用戶瀏覽和搜索電子文檔內容的便利性。圖I為本發(fā)明實施例提供的一種電子文檔的生成方法流程圖。該實施例主體是電子文檔生成工具,其中詳細描述了電子文檔生成工具將不同類型的原始文件數(shù)據(jù)生成為基于Web的統(tǒng)一格式的電子文檔的方法。如圖I所示,本實施例包括以下步驟步驟101,電子文檔生成工具獲取原始文件數(shù)據(jù)。這里的原始文件數(shù)據(jù)對應的源文檔的類型可以為HTMLHELP文檔、JAVAHELP文檔,還可以為PDF文檔、MS Office文檔、TXT文本文檔、HTML文檔等。電子文檔生成工具可以通過下面的操作步驟將接收到的各種格式的源文檔生成為統(tǒng)ー的電子文檔,實現(xiàn)統(tǒng)ー的瀏覽、搜索。步驟102,電子文檔生成工具根據(jù)生成所述電子文檔所需的數(shù)據(jù)內容,對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個所述數(shù)據(jù)內容所需的文檔生成信息。生成電子文檔所需的數(shù)據(jù)內容可以包括導航文件數(shù)據(jù)、摘要文件數(shù)據(jù)、圖像文件數(shù)據(jù)、屬性文件數(shù)據(jù)、索引文件數(shù)據(jù),電子文檔生成工具在接收到原始文件數(shù)據(jù)時,首先對原始文件數(shù)據(jù)中的某些信息進行處理,生成用來生成每個數(shù)據(jù)內容的生成信息。例如,如果要生成電子文檔中的摘要文件數(shù)據(jù),則首先需要對原始文件進行處理,處理后得到生成摘要文件數(shù)據(jù)所需要的摘要文件生成信息,然后再對這些生成信息按照一定的格式,如壓縮文件的格式進行相應的處理,從而生成電子文檔。下面分別介紹通過對原始文件數(shù)據(jù)進行處理以生成每個數(shù)據(jù)內容所需的文檔生成イM息的方法。電子文檔生成工具獲取原始文件數(shù)據(jù)后,首先創(chuàng)建電子文檔的導航文件信息,電子文檔的導航文件信息用于在用戶瀏覽電子文檔時向用戶展示ー個全局的源文檔節(jié)點樹,便于用戶快速了解該電子文檔,提高用戶瀏覽該電子文檔的效率。源文檔為HTMLHELP文檔或JAVAHELP文檔時,由于這兩種類型的文檔本身就具有導航信息,因此生成導航文件數(shù)據(jù)所需的文檔生成信息的方法具體為提取所述原始文件數(shù)據(jù)中的原始導航信息,將所述原始文件數(shù)據(jù)中的原始導航信息轉換為生成所述導航文件數(shù)據(jù)所需的導航文件數(shù)據(jù)生成信息。除了這兩種類型的源文檔,其他類型的源文檔,如果本身就有導航信息,也可以用這種方法生成導航文件數(shù)據(jù)所需的文檔生成信息。源文檔為PDF文檔、MS Office文檔、TXT文檔或HTML文檔等文檔時,這些文檔本身一般沒有導航信息,生成導航文件數(shù)據(jù)所需的文檔生成信息的方法具體為遍歷所述原始文件數(shù)據(jù)中的原始文件數(shù)據(jù)塊,針對所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊,生成所述電子文檔的每ー個文件數(shù)據(jù)塊的導航文件數(shù)據(jù)所需的導航文件數(shù)據(jù)生成信息;所述導航文件數(shù)據(jù)生成信息包括所述電子文檔的每ー個文件數(shù)據(jù)塊的標識信息、名稱信息、相對路徑信息、電子文檔包標識信息、電子文檔包版本信息。需要說明的是,重新組合導航文件的結構,便可以形成一個全新的電子文檔導航 文件。電子文檔的導航文件是結構化的,典型的電子文檔導航文件結構如下所示く?xml version="I. 0" encoding='1 UTF-8" >
<topics>
くtopic id="it-hedc—concept —60549" Ixt=nHedEx 介紹" ur 1="EDC-Inf o/user—guide/it—hedc—concept —60549. html" ibid=丨丨 1000001 " IibVersion=wOl (2009-10-30)">
くtopic id="rT_HEDEX_concept_60605" txt="功能介紹" url="EDC-Info/user-guide/IT-HEDEX-concept-60605. html11 i ibid="100000 1 IibVersion=nOl (2009-10-30)"/>
くtopic id="IT-HEDEX—ref-60664” txt="運行環(huán)境" url="EDC-Info/user-guide/IT_HEDEX_ref-60664. html" I ibid="1000001" IibVersion=tlOl (2009-10-30) "/>
〈topic id="it-hedc-concept-60515" txt="界面介紹 H url="EDC-Info/user—guide/it—hedc—concept —60515, html"I ibid="1000001 "IIbVersion=llOl (2009-10-30)">
くtopic id="IT—HEDEX—concept—60608 txt="標識區(qū)" Url=llEDC-Inf o/user-guide/IT_HEDEX_concept-60608. html" I ibid=" 100000 I" IibVersion=丨'01 (2009-10-30) />
くtopic Id=nIT-HEDEX-COncept^oeog'1 txt="導航區(qū)" url="EDC-Info/user-guide/IT_HEDEX_concept-60609. html"I ibid=丨'100000 I" IibVersion=nOl (2009-10-30)"/>
くtopic id=HIT—HEDEX—concept—60610" txt="瀏覽區(qū)" url="EDC-Info/user-guide/IT-HEDEX-concept-60610. html"libld="100000 I" IibVersion=nOl (2009-10-30) "/>
</topic〉
く/topi c>
く/topics〉
上面簡單介紹了生成導航文件數(shù)據(jù)所需的文檔生成信息的方法,下面介紹生成摘 要文件數(shù)據(jù)所需的文檔生成信息的方法。
電子文檔摘要文件是用來唯一標識電子文檔是否發(fā)生變化的文件,用戶可以通過電子文檔的摘要文件數(shù)據(jù)判斷該電子文檔是否完整和真實。當電子文檔產生補丁版本吋,可以用電子文檔的文件數(shù)據(jù)塊的摘要信息判斷電子文檔中的對應的文件數(shù)據(jù)塊是否發(fā)生了變化。生成摘要文件數(shù)據(jù)所需的文檔生成信息的方法為對所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊進行處理,生成所述電子文檔的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的第一摘要文件數(shù)據(jù)生成信息;所述第一摘要文件數(shù)據(jù)生成信息包括所述電子文檔的每一個文件數(shù)據(jù)塊的摘要信息、數(shù)據(jù)塊標識信息、數(shù)據(jù)塊相對路徑信息、電子文檔包標識信息、電子文檔包版本信息。生成電子文檔補丁版本的摘要文件信息的方法具體為生成第二摘要文件數(shù)據(jù)生成信息,所述第二摘要文件數(shù)據(jù)生成信息為生成所述電子文檔補丁版本的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的信息;所述第一摘要文件數(shù)據(jù)生成信息包括所述電子文檔補丁的每ー個文件數(shù)據(jù)塊的摘要信息、數(shù)據(jù)塊標識信息、數(shù)據(jù)塊相對路徑信息、電子文檔補丁包標識信息、電子文檔補丁包版本信息;根據(jù)所述電子文檔的每ー個文件數(shù)據(jù)塊的數(shù)據(jù)塊標識 信息,比較所述第一摘要文件數(shù)據(jù)生成信息中的摘要信息與所述第二摘要文件數(shù)據(jù)生成信息中的摘要信息是否一致,如果一致,則將所述第一摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補丁版本的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息;否貝U,將所述第二摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補丁版本的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息。電子文檔的摘要信息主要是通過對電子文檔的對應的文件數(shù)據(jù)塊中的文本內容進行散列獲得的。這里的ー個文件數(shù)據(jù)塊可以為ー個頁面文件,文件數(shù)據(jù)塊也可以有其他的形式,這里為了描述方便,以頁面文件進行描述。需要說明的是,電子文檔的摘要文件數(shù)據(jù)不僅包括電子文檔的每ー個文件數(shù)據(jù)塊的摘要信息,還包括文件數(shù)據(jù)塊的數(shù)據(jù)塊標識信息、數(shù)據(jù)塊相對路徑信息、電子文檔包標識信息、電子文檔包版本信息等。生成電子文檔補丁版本的摘要文件數(shù)據(jù)所需的文檔生成信息時,如果電子文檔補丁版本中的某些文件數(shù)據(jù)塊與電子文檔的對應的文件數(shù)據(jù)塊相比沒有發(fā)生變化,則繼續(xù)保存電子文檔的對應的文件數(shù)據(jù)塊的的摘要信息、數(shù)據(jù)塊標識信息、數(shù)據(jù)塊相對路徑信息、電子文檔包標識信息、電子文檔包版本信息作為生成摘要文件數(shù)據(jù)所需的文檔生成信息;如果電子文檔補丁版本中的某些文件數(shù)據(jù)塊與電子文檔的對應的文件數(shù)據(jù)塊相比發(fā)生了變化,即文件數(shù)據(jù)塊的摘要信息發(fā)生了變化,則將變化后的摘要信息、數(shù)據(jù)塊標識信息、數(shù)據(jù)塊相對路徑信息、電子文檔補丁包標識信息、電子文檔補丁包版本信息作為生成電子文檔補丁版本的頁面摘要文件數(shù)據(jù)的文檔生成信息。電子文檔的摘要文件數(shù)據(jù)是結構化的,典型的電子文檔的摘要文件數(shù)據(jù)結構如下所示く?xml version="!. 0" encoding="UTF-8" >
<i tems>
くitemid=”it-hedc_task—60506n
Url=llEDC-Info/setup/it_hedc_task-60506. html"rasg="5f 13e825c22b36dl06e36c32acla32da" Iibld=nIOOOOOl" IibVersion=llOl (2009-10-30) "/>
<itemid="cn hlr-ref-60582"
url=nEDC-Info/setup/cn_hlr-ref-60582. html"msg=n315eld6006091499bfd3880e9b4021b7n libld="1000001" IIbVersIon=llOl (2009-10-30) "/> く itemid="cn-hlr_task-60573"
url="EDC-Info/user-guide/cn_hlr_task_60573. html"msg="5dc5af7c30cfd810c55cdllfb0bc2709" I ibid="1000001" IibVersion=丨 1OI (2009-10-30)"/><i teinid=" it-hedc-concept-60505"
url="EDC-Info/setup/it-hedc-concept-60505. html I,msg="83b68dff06b394336ac7af0cf78f5013" libld=n1000001" IibVersion=llOl (2009—10-30) "/>
く itemid="IT_HEDEX-task_60617"
url="EDC-Info/user— guide/IT-HEDEX-task—60617. html"msg="cb30a04fc874a952641fl75b8f2a9el5''IibId=丨'1000001 丨丨IibVersIon= 01
(2009-10-30) "/>
く itemid="EDC_Info_030000"
urI="EDC-Info/user_guide/EDC-InfO-030000. html"msg=n21add054b3f2a04b0cl6c2e5d013b28a" Iibld=nIOOOOOl" IibVersIon=nOl (2009-10-30)"/>
くite+mid=" it-hedc—task 一 60514 丨丨
url="EDC-Info/setup/it-hedc-task-60514. html"msg="e34e6698cle229856Ia988ae8671ef6f" IIbld="1000001" IibVersIon=llOl (2009-10-30) "/>
く/items〉需要說明的是,生成電子文檔的摘要文件數(shù)據(jù)后,可將電子文檔的摘要文件數(shù)據(jù)以文本文件形式保存在磁盤上。上面簡單介紹了生成摘要文件數(shù)據(jù)所需的文檔生成信息的方法,下面介紹生成圖像文件數(shù)據(jù)所需的文檔生成信息的方法。電子文檔的圖像文件數(shù)據(jù)包括所述圖像的圖像摘要信息、所述圖像所屬文件數(shù)據(jù)塊的數(shù)據(jù)塊標識信息、所述圖像所屬電子文檔包的電子文檔包標識信息、所述圖像所屬電子文檔包的電子文檔包版本信息。生成電子文檔的圖像文件數(shù)據(jù)所需的文檔生成信息的方法具體為循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊,將所述每ー個原始文件數(shù)據(jù)塊轉換為所述電子文檔的每ー個文件數(shù)據(jù)塊;提取所述電子文檔的每ー個文件數(shù)據(jù)塊中的圖像信息;對所述圖像信息進行處理,生成所述圖像文件數(shù)據(jù)所需的圖像文件數(shù)據(jù)生成信息;所述圖像文件數(shù)據(jù)生成信息包括所述圖像的圖像摘要信息、所述圖像所屬文件數(shù)據(jù)塊的數(shù)據(jù)塊標識信息、所述圖像所屬電子文檔包的電子文檔包標識信息、所述圖像所屬電子文檔包的電子文檔包版本信息。 在生成電子文檔的圖像文件信息的過程中,電子文檔生成工具將遍歷由源文檔中的每ー個原始文件數(shù)據(jù)塊生成的所述電子文檔的每ー個文件數(shù)據(jù)塊,將其中包含的圖像信息提取出來,對圖像信息進行散列計算,生成可以識別圖像真實性和完整性的圖像摘要信息,以及圖像的關聯(lián)信息,如圖像源自于的頁面文件的頁面標識信息、圖像所在的電子文檔包的標識信息和版本信息等。電子文檔的圖像文件是結構化的,典型的電子文檔的圖像文件結構如下所示6 L
Uioooooill=Piqnn^P^UZLm9££(\^ZZlZZLmO%ii=^
ji§ 'UOi^nBO-UOOT/soojnosgj-sAs-oiIqnd11= [an9§buit>
</u (0S-0I-600E) T0 =uoisj9AqnuI00000l.,=Piqn叩 OggMPWMU 叩 PqKTM 町 SMJll=Ssra
JiS "Iimoijb-Uoot/ssoinossj-sAs-Dijqnd =1 inSg同〉
</.. (0£-0I-6003) IO11=UOTSJOAqnUioooooill=Piqnul6£^09998JPq6Pq9^8e9/,nB59£98PJ =Ssui ,,jig -Upaojjb-Uoot/ssoinosgj-sAs-oi|qndu=pn9§buit>
</n (0e-(H-600乙)I0,,=uoisJ9Aqn
Tooooou=Piqn
,,JlS 'pU9B; 13p/S90JtlOSQJ-SAs-OI IQndll = I Jtl9§BIUI>
</., (0£-0I-600Z) IO11=UOTSiaAqnaI00000Iu=Piqnlijop^H3q9J99^9^800I096P£e0PJ3P9ll=Ssui
jt§ -B;}9p/s30jnos9J-sis-OT iqndu=}in9§buii>
<S9§mui>IiMersion=丨丨Ol (2009-10-30) ”/>
< imageurl=llpublic-sys—resources/ icon—danger, gif"
msg="TTaebelbbfBlbbdgisooeefBllaTasssnllbld="1000001"
IibVersion=llOl (2009-10-30) "/>
<imageurl="public-sys-resources/icon-huawei. gif"
msg="74cl8bef7569216304f0fl95efad5540"Iibld=nIOOOOOl"
IibVersion=I 丨 01 (2009-10-30)"/>
<imageurl=npublic-sys-resources/icon-note. gif"
msg=|ia76dal8a5483aa3ed2bef24el441dd38nI ibid=" 1000001"
IIbVersion=llOl (2009-10-30) "/>
</images〉需要說明的是,電子文檔生成工具生成電子文檔的圖像文件數(shù)據(jù)后,可將電子文檔的圖像文件信息以文本文件形式保存在磁盤上。上面描述了電子文檔的圖像文件數(shù)據(jù)所需的文檔生成信息的生成方法,下面介紹電子文檔的索引文件數(shù)據(jù)所需的文檔生成信息的生成方法。電子文檔的索引文件信息主要用于提供對電子文檔內容的捜索功能的支持。生成電子文檔的索引文件數(shù)據(jù)所需的文檔生成信息的方法具體為循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊,將所述每ー個原始文件數(shù)據(jù)塊轉換為所述電子文檔的每ー個文件數(shù)據(jù)塊;提取所述電子文檔的每ー個文件數(shù)據(jù)塊中的文本信息;對所述電子文檔的每ー個文件數(shù)據(jù)塊中的文本信息根據(jù)詞條數(shù)據(jù)庫中的信息進行分詞處理,生成所述電子文檔的索引文件數(shù)據(jù)所需的索引文件數(shù)據(jù)生成信息。在生成電子文檔的索引文件數(shù)據(jù)的過程中,電子文檔生成工具將遍歷由源文檔中的每個原始文件數(shù)據(jù)塊生成的文件數(shù)據(jù)塊,根據(jù)擴展名的不同,使用不同的爬蟲程序提取出文件數(shù)據(jù)塊的文本內容,對文本內容信息按照詞庫中的詞條信息進行分詞并索引到電子文檔的索引文件中。由此,便可以使用該電子文檔的索引文件數(shù)據(jù)為用戶搜索提供支持。需要說明的是,電子文檔的索引文件是非結構化的文件,可以為ニ進制文件。下面講述生成所述屬性文件數(shù)據(jù)所需的文檔生成信息的方法。電子文檔的屬性文件主要用于標識該電子文檔,用于在用戶終端上通過界面形式顯示給用戶,向用戶展示該電子文檔的相關信息。電子文檔的屬性文件信息包括電子文檔的文檔包名稱、電子文檔的名稱和版本等信息。生成所述屬性文件數(shù)據(jù)所需的文檔生成信息的方法具體為提取所述原始文件數(shù)據(jù)中的屬性信息,根據(jù)所述原始文件數(shù)據(jù)中的屬性信息,生成所述屬性文件數(shù)據(jù)所需的屬性文件數(shù)據(jù)生成信息;所述屬性文件數(shù)據(jù)生成信息包括所述電子文檔的版本信息、所述電子文檔的電子文檔包名稱信息。
電子文檔的屬性文件數(shù)據(jù)是結構化的,典型的電子文檔的屬性文件數(shù)據(jù)結構如下
所示
<profile>
<buiIdVers ion>Vl00R002C00B315</buiIdVers ion>
<upgradeVersion>3</upgradeVersion>
<libld>311759254</libld>
<libVersion>01 (2009-09-25)</1ibVersion><IibName>UMG8900 產品文檔</1ibName> <productType>UMG8900</productType> <productVersion>Y200R007</productVersion> <issueDate>2009-09-25</issueDate>
<language>zh</language〉
<srcType>l</srcType>
<1ibType>0</IibType〉<provider/>
<navi>resources/navi. xml</navi>
<desc/>
<baseLibVersion/>
<homePage>resources/hedex-homepage. html</honiePage> <hedexVersion>V100R002C00</hedexVersion>
<1ibLicense>0く/IibLicense>
<search>
〈label name=noperateType11/>
〈label name="InfoType"/>
</search〉
CoperateType field=丨〖operate" name=H運維流程">
くtype narae="Operation" zh=”操作"/>
</operateType>
<infoType fIeld="infotype" name=11 文檔類型”〉
くtype name=" Instruct ion" zh=丨丨指導丨丨/>
く type name=" Al arm11 zh="告警"/>
くtype iiame="Reference" zh="參考"/>
くtype name="Description" zh=1 丨描述"/>
</infoType>
<index>
<pa th name="resources/index/segment s. gen"/>
くpath name="resources/lndex/segments-9"/>
くpath name="resources/index/-3. cfs丨丨/>
</index>
く/profile>需要說明的是,電子文檔生成工具生成電子文檔的屬性文件數(shù)據(jù)所需的文檔生成信息后,可將該文檔生成信息以文本文件形式保存在磁盤上。
步驟103,生成文檔生成工具將所述文檔生成信息按照所述電子文檔的生成格式進行處理,生成所述電子文檔;生成的所述電子文檔中的每個所述數(shù)據(jù)內容均由所述文檔生成信息處理得到。將所述文檔生成信息按照所述電子文檔的生成格式進行處理,生成所述電子文檔的具體方法為將所述文檔生成信息按照Zip壓縮格式壓縮為Zip壓縮格式的文件數(shù)據(jù);然后將所述Zip壓縮格式的文件數(shù)據(jù)進行處理,生成所述電子文檔。將電子文檔的導航文件數(shù)據(jù)、摘要文件數(shù)據(jù)、圖像文件數(shù)據(jù)、索引文件數(shù)據(jù)和屬性文件數(shù)據(jù)等文件數(shù)據(jù)的生成信息使用Zip標準壓縮格式壓縮成Zip壓縮文件之后,再將壓縮后的Zip壓縮格式的文件數(shù)據(jù)進行處理,也即是,將壓縮后的Zip壓縮格式的文件數(shù)據(jù)的后綴,如.zip修改為Web系統(tǒng)可以識別的,如后綴為.hdx的文件數(shù)據(jù)類型,即基于Web的統(tǒng)ー的電子文檔格式,有利于在網絡中傳輸該電子文檔。本發(fā)明實施例中,生成的電子文檔格式是ー個類Zip的壓縮格式,其基本的文件結構可以參考圖2。圖2為本發(fā)明實施例提供的一種電子文檔的目錄結構示意圖。如圖2 所示,該電子文檔目錄結構包括以下信息電子文檔根目錄所指示的位置包括resources文件夾以及屬性文件profile, xml文件。profile文件則用于描述電子文檔的基礎屬性文件,而resources文件夾中包括本發(fā)明實施例生成的電子文檔源文件、電子文檔索引文件、圖像文件、摘要文件、導航文件等則是與電子文檔內容相關的文件。如圖2所示的電子文檔目錄結構只是ー種本發(fā)明的具體實施方式
,并不用于限定本發(fā)明的保護范圍。將電子文檔的各種文件自由組合,可生成該電子文檔的一種新的目錄結構。本發(fā)明實施例中,電子文檔生成工具在獲取用于生成電子文檔的原始文件數(shù)據(jù)后;按照生成電子文檔所需的數(shù)據(jù)內容,對原始文件數(shù)據(jù)進行對應處理,從而生成每個數(shù)據(jù)內容所需的文檔生成信息;將文檔生成信息按照電子文檔的生成格式進行處理,生成電子文檔。由于電子文檔生成工具可以將各種類型的源文檔生成為ー種統(tǒng)ー電子文檔格式,因此實現(xiàn)了用戶可以在Web系統(tǒng)中閱讀多種格式的文檔,并且由于該電子文檔格式的瀏覽和捜索功能較強,所以提高了用戶瀏覽和搜索電子文檔內容的便利性。相應地,本發(fā)明實施例還提供了一種電子文檔的生成裝置。圖3為本發(fā)明實施例提供的一種電子文檔的生成裝置示意圖。如圖3所示,本實施例包括以下単元獲取單元301,用于獲取原始文件數(shù)據(jù)。這里的原始文件數(shù)據(jù)對應的源文檔的類型可以為HTMLHELP文檔、JAVAHELP文檔,還可以為PDF文檔、MS Office文檔、TXT文本文檔、HTML文檔等。電子文檔生成工具可以通過下面的操作步驟將接收到各種格式的源文檔生成為統(tǒng)ー的電子文檔,實現(xiàn)統(tǒng)ー的瀏覽、搜索。處理單元302,用于根據(jù)生成所述電子文檔所需的數(shù)據(jù)內容,對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個所述數(shù)據(jù)內容所需的文檔生成信息。處理單元302包括第一處理子単元304,第一處理子単元304用于生成所述電子文檔的導航文件數(shù)據(jù)所需的文檔生成信息,原始文件數(shù)據(jù)對應的源文檔的類型為HTMLHELP文檔、JAVAHELP文檔時,第一處理子単元304具體用于提取所述原始文件數(shù)據(jù)中的原始導航信息,將所述原始文件數(shù)據(jù)中的原始導航信息轉換為生成所述導航文件數(shù)據(jù)所需的導航文件數(shù)據(jù)生成信息。原始文件數(shù)據(jù)對應的源文檔的類型為PDF文檔、MS Office文檔、TXT文本文檔、HTML文檔時,第一處理子単元304具體用于遍歷所述原始文件數(shù)據(jù)中的原始文件數(shù)據(jù)塊,針對所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊,生成所述電子文檔的每ー個文件數(shù)據(jù)塊的導航文件數(shù)據(jù)所需的導航文件數(shù)據(jù)生成信息;所述導航文件數(shù)據(jù)生成信息包括所述電子文檔的每ー個文件數(shù)據(jù)塊的標識信息、名稱信息、相對路徑信息、電子文檔包標識信息、電子文檔包版本信息。導航文件用于在用戶瀏覽電子文檔時向用戶展示ー個全局的源文檔節(jié)點樹,便于用戶快速了解該電子文檔,提高用戶瀏覽該電子文檔的效率。處理單元302包括第二處理子単元305,第二處理子単元305用于生成摘要文件數(shù)據(jù)所需的文檔生成信息,生成電子文檔的摘要文件數(shù)據(jù)所需的文檔生成信息時,第二處理子単元305具體用于對所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊進行處理,生成所 述電子文檔的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的第一摘要文件數(shù)據(jù)生成信息。所述第一摘要文件數(shù)據(jù)生成信息包括所述電子文檔的每ー個文件數(shù)據(jù)塊的摘要信息、數(shù)據(jù)塊標識信息、數(shù)據(jù)塊相對路徑信息、電子文檔包標識信息、電子文檔包版本信息。生成電子文檔補丁版本的摘要文件數(shù)據(jù)所需的文檔生成信息時,第二處理子単元305具體用于生成第二摘要文件數(shù)據(jù)生成信息,所述第二摘要文件數(shù)據(jù)生成信息為生成所述電子文檔補丁版本的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的信息;根據(jù)所述電子文檔的每ー個文件數(shù)據(jù)塊的數(shù)據(jù)塊標識信息,比較所述第一摘要文件數(shù)據(jù)生成信息中的摘要信息與所述第二摘要文件數(shù)據(jù)生成信息中的摘要信息是否一致,如果一致,則將所述第一摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補丁版本的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息;否則,將所述第二摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補丁版本的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息。其中,第二摘要文件數(shù)據(jù)生成信息包括所述電子文檔補丁的每ー個文件數(shù)據(jù)塊的摘要信息、數(shù)據(jù)塊標識信息、數(shù)據(jù)塊相對路徑信息、電子文檔補丁包標識信息、電子文檔補丁包版本信息。電子文檔的摘要文件是用來唯一標識電子文檔是否發(fā)生變化的文件,用戶可以通過電子文檔的摘要文件判斷該電子文檔是否完整和真實。處理單元302包括第三處理子単元306,第三處理子単元306用于生成圖像文件數(shù)據(jù)所需的文檔生成信息。第三處理子単元306具體用于循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊,將所述每ー個原始文件數(shù)據(jù)塊轉換為所述電子文檔的每ー個文件數(shù)據(jù)塊;提取所述電子文檔的每ー個文件數(shù)據(jù)塊中的圖像信息;對所述圖像信息進行處理,生成所述圖像文件數(shù)據(jù)所需的圖像文件數(shù)據(jù)生成信息;所述圖像文件數(shù)據(jù)生成信息包括所述圖像的圖像摘要信息、所述圖像所屬文件數(shù)據(jù)塊的數(shù)據(jù)塊標識信息、所述圖像所屬電子文檔包的電子文檔包標識信息、所述圖像所屬電子文檔包的電子文檔包版本信息。處理單元302包括第四處理子単元307,第四處理子単元307用于生成屬性文件數(shù)據(jù)所需的文檔生成信息。第四處理子単元307具體用于提取所述原始文件數(shù)據(jù)中的屬性信息,根據(jù)所述原始文件數(shù)據(jù)中的屬性信息,生成所述屬性文件數(shù)據(jù)所需的屬性文件數(shù)據(jù)生成信息;所述屬性文件數(shù)據(jù)生成信息包括所述電子文檔的版本信息、所述電子文檔的電子文檔包名稱信息。電子文檔的屬性文件數(shù)據(jù)主要用于標識該電子文檔,用于在用戶終端上通過界面形式顯示給用戶,向用戶展示該電子文檔的相關信息。電子文檔的屬性文件數(shù)據(jù)包括電子文檔的文檔包名稱、電子文檔的名稱和版本等信息。處理單元302包括第五處理子単元308,第五處理子単元308用于生成電子文檔的索引文件數(shù)據(jù)所需的文檔生成信息。第五處理子単元308具體用于循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊,將所述每ー個原始文件數(shù)據(jù)塊轉換為所述電子文檔的每ー個文件數(shù)據(jù)塊;提取所述電子文檔的每ー個文件數(shù)據(jù)塊中的文本信息;對所述電子文檔的每ー個文件數(shù)據(jù)塊中的文本信息根據(jù)詞條數(shù)據(jù)庫中的信息進行分詞處理,生成所述電子文檔的索引文件數(shù)據(jù)所需的索引文件數(shù)據(jù)生成信息。電子文檔的索引文件數(shù)據(jù)主要用于提供對電子文檔內容的搜索功能的支持。在生 成電子文檔的索引文件數(shù)據(jù)的過程中,電子文檔生成工具將遍歷由源文檔中的每個原始文 件數(shù)據(jù)塊生成的文件數(shù)據(jù)塊,根據(jù)擴展名的不同,使用不同的爬蟲程序提取出文件數(shù)據(jù)塊的文本內容,對文本內容信息按照詞庫中的詞條信息進行分詞并索引到電子文檔的索引文件中。由此,便可以使用該電子文檔的索引文件數(shù)據(jù)為用戶搜索提供支持。生成単元303,用于將所述文檔生成信息按照所述電子文檔的生成格式進行處理,生成所述電子文檔;生成的所述電子文檔中的每個所述數(shù)據(jù)內容均由所述文檔生成信息處理得到。生成単元303具體用于將所述文檔生成信息按照Zip壓縮格式壓縮為Zip壓縮格式的文件數(shù)據(jù);修改壓縮后的所述Zip壓縮格式的文件數(shù)據(jù)的格式,生成所述電子文檔。將電子文檔的導航文件數(shù)據(jù)、摘要文件數(shù)據(jù)、圖像文件數(shù)據(jù)、索引文件數(shù)據(jù)和屬性文件數(shù)據(jù)等文件數(shù)據(jù)的生成信息使用Zip標準壓縮格式壓縮成Zip壓縮文件之后,再將壓縮后的Zip壓縮格式的文件數(shù)據(jù)進行處理,生成基于Web的統(tǒng)ー的電子文檔格式,有利于在網絡中傳輸該電子文檔。本發(fā)明實施例中,電子文檔生成工具在獲取用于生成電子文檔的原始文件數(shù)據(jù)后;按照生成電子文檔所需的數(shù)據(jù)內容,對原始文件數(shù)據(jù)進行對應處理,從而生成每個數(shù)據(jù)內容所需的文檔生成信息;將文檔生成信息按照電子文檔的生成格式進行處理,生成電子文檔。由于電子文檔生成工具可以將各種類型的源文檔生成為ー種統(tǒng)ー電子文檔格式,因此實現(xiàn)了用戶可以在Web系統(tǒng)中閱讀多種格式的文檔,并且由于該電子文檔格式的瀏覽和捜索功能較強,所以提高了用戶瀏覽和搜索電子文檔內容的便利性。專業(yè)人員應該還可以進ー步意識到,結合本文中所公開的實施例描述的各示例的単元及算法步驟,能夠以電子硬件、計算機軟件或者二者的結合來實現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術方案的特定應用和設計約束條件。專業(yè)技術人員可以對每個特定的應用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應認為超出本發(fā)明的范圍。結合本文中所公開的實施例描述的方法或算法的步驟可以用硬件、處理器執(zhí)行的軟件模塊,或者二者的結合來實施。軟件模塊可以置于隨機存儲器(RAM)、內存、只讀存儲器(ROM)、電可編程ROM、電可擦除可編程ROM、寄存器、硬盤、可移動磁盤、CD-ROM、或技術領域內所公知的任意其它形式的存儲介質中。以上所述的具體實施方式
,對本發(fā)明的目的、技術方案和有益效果進行了進ー步詳細說明,所應理解的是,以上所述僅為本發(fā)明的具體實施方式
而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內,所做的任何修改、等同替換、改進等,均應包 含在本發(fā)明的保護范圍之內。
權利要求
1.一種電子文檔的生成方法,其特征在于,所述方法包括 獲取原始文件數(shù)據(jù); 根據(jù)生成所述電子文檔所需的數(shù)據(jù)內容,對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個所述數(shù)據(jù)內容所需的文檔生成信息; 將所述文檔生成信息按照所述電子文檔的生成格式進行處理,生成所述電子文檔;生成的所述電子文檔中的每個所述數(shù)據(jù)內容均由所述文檔生成信息處理得到。
2.如權利要求I所示的電子文檔的生成方法,其特征在于,所述數(shù)據(jù)內容為導航文件數(shù)據(jù)時,所述對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個數(shù)據(jù)內容所需的文檔生成信息,具體為 提取所述原始文件數(shù)據(jù)中的原始導航信息,將所述原始文件數(shù)據(jù)中的原始導航信息轉換為生成所述導航文件數(shù)據(jù)所需的導航文件數(shù)據(jù)生成信息;或 遍歷所述原始文件數(shù)據(jù)中的原始文件數(shù)據(jù)塊,針對所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊,生成所述電子文檔的每ー個文件數(shù)據(jù)塊的導航文件數(shù)據(jù)所需的導航文件數(shù)據(jù)生成信息。
3.如權利要求I所示的電子文檔的生成方法,其特征在于,所述數(shù)據(jù)內容為摘要文件數(shù)據(jù)時,所述對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個數(shù)據(jù)內容所需的文檔生成信息,具體為 對所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊進行處理,生成所述電子文檔的每一個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的第一摘要文件數(shù)據(jù)生成信息。
4.如權利要求3所示的電子文檔的生成方法,其特征在于,所述數(shù)據(jù)內容為摘要文件數(shù)據(jù)時,所述對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個數(shù)據(jù)內容所需的文檔生成信息,具體為 生成第二摘要文件數(shù)據(jù)生成信息,所述第二摘要文件數(shù)據(jù)生成信息為生成所述電子文檔補丁版本的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的信息; 根據(jù)所述電子文檔的每ー個文件數(shù)據(jù)塊的數(shù)據(jù)塊標識信息,比較所述第一摘要文件數(shù)據(jù)生成信息中的摘要信息與所述第二摘要文件數(shù)據(jù)生成信息中的摘要信息是否一致,如果一致,則將所述第一摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補丁版本的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息;否則,將所述第二摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補丁版本的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息。
5.如權利要求I所示的電子文檔的生成方法,其特征在于,所述數(shù)據(jù)內容為圖像文件數(shù)據(jù)時,所述對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個數(shù)據(jù)內容所需的文檔生成信息,具體為 循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊,將所述每ー個原始文件數(shù)據(jù)塊轉換為所述電子文檔的每ー個文件數(shù)據(jù)塊; 提取所述電子文檔的每ー個文件數(shù)據(jù)塊中的圖像信息; 對所述圖像信息進行處理,生成所述圖像文件數(shù)據(jù)所需的圖像文件數(shù)據(jù)生成信息。
6.如權利要求I所示的電子文檔的生成方法,其特征在于,所述數(shù)據(jù)內容為屬性文件數(shù)據(jù)時,所述對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個數(shù)據(jù)內容所需的文檔生成信息,具體為 提取所述原始文件數(shù)據(jù)中的屬性信息; 根據(jù)所述原始文件數(shù)據(jù)中的屬性信息,生成所述屬性文件數(shù)據(jù)所需的屬性文件數(shù)據(jù)生成信息。
7.如權利要求I所示的電子文檔的生成方法,其特征在于,所述數(shù)據(jù)內容為索引文件數(shù)據(jù)時,所述對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個數(shù)據(jù)內容所需的文檔生成信息,具體為 循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊,將所述每ー個原始文件數(shù)據(jù)塊轉換為所述電子文檔的每ー個文件數(shù)據(jù)塊; 提取所述電子文檔的每ー個文件數(shù)據(jù)塊中的文本信息; 對所述電子文檔的每ー個文件數(shù)據(jù)塊中的文本信息根據(jù)詞條數(shù)據(jù)庫中的信息進行分詞處理,生成所述電子文檔的索引文件數(shù)據(jù)所需的索引文件數(shù)據(jù)生成信息。
8.如權利要求I所示的電子文檔的生成方法,其特征在于,所述將所述文檔生成信息按照所述電子文檔的生成格式進行處理,生成所述電子文檔,具體為 將所述文檔生成信息按照Zip壓縮格式壓縮為Zip壓縮格式的文件數(shù)據(jù); 修改壓縮后的所述Zip壓縮格式的文件數(shù)據(jù)的格式,生成所述電子文檔。
9.一種電子文檔的生成裝置,其特征在于,所述裝置包括 獲取單元,用于獲取原始文件數(shù)據(jù); 處理單元,用于根據(jù)生成所述電子文檔所需的數(shù)據(jù)內容,對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個所述數(shù)據(jù)內容所需的文檔生成信息; 生成単元,用于將所述文檔生成信息按照所述電子文檔的生成格式進行處理,生成所述電子文檔;生成的所述電子文檔中的每個所述數(shù)據(jù)內容均由所述文檔生成信息處理得至IJ。
10.如權利要求9所示的電子文檔的生成裝置,其特征在于,所述處理単元包括第一處理子單元,所述第一處理子単元具體用于提取所述原始文件數(shù)據(jù)中的原始導航信息,將所述原始文件數(shù)據(jù)中的原始導航信息轉換為生成所述導航文件數(shù)據(jù)所需的導航文件數(shù)據(jù)生成信息;或 遍歷所述原始文件數(shù)據(jù)中的原始文件數(shù)據(jù)塊,針對所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊,生成所述電子文檔的每ー個文件數(shù)據(jù)塊的導航文件數(shù)據(jù)所需的導航文件數(shù)據(jù)生成信息。
11.如權利要求9所示的電子文檔的生成裝置,其特征在于,所述處理単元包括第二處理子單元,所述第二處理子単元具體用于 對所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊進行處理,生成所述電子文檔的每一個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的第一摘要文件數(shù)據(jù)生成信息。
12.如權利要求11所示的電子文檔的生成裝置,其特征在于,所述第二處理子單元還用干 生成第二摘要文件數(shù)據(jù)生成信息,所述第二摘要文件數(shù)據(jù)生成信息為生成所述電子文檔補丁版本的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的信息; 根據(jù)所述電子文檔的每ー個文件數(shù)據(jù)塊的數(shù)據(jù)塊標識信息,比較所述第一摘要文件數(shù)據(jù)生成信息中的摘要信息與所述第二摘要文件數(shù)據(jù)生成信息中的摘要信息是否一致,如果一致,則將所述第一摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補丁版本的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息;否則,將所述第二摘要文件數(shù)據(jù)生成信息作為生成所述電子文檔補丁版本的每ー個文件數(shù)據(jù)塊的摘要文件數(shù)據(jù)所需的摘要文件數(shù)據(jù)生成信息。
13.如權利要求9所示的電子文檔的生成裝置,其特征在于,所述處理単元包括第三處理子單元,所述第三處理子単元具體用于 循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊,將所述每ー個原始文件數(shù)據(jù)塊轉換為所述電子文檔的每ー個文件數(shù)據(jù)塊; 提取所述電子文檔的每ー個文件數(shù)據(jù)塊中的圖像信息; 對所述圖像信息進行處理,生成所述圖像文件數(shù)據(jù)所需的圖像文件數(shù)據(jù)生成信息。
14.如權利要求9所示的電子文檔的生成裝置,其特征在于,所述處理単元包括第四處理子單元,所述第四處理子単元具體用于 提取所述原始文件數(shù)據(jù)中的屬性信息; 根據(jù)所述原始文件數(shù)據(jù)中的屬性信息,生成所述屬性文件數(shù)據(jù)所需的屬性文件數(shù)據(jù)生成信息。
15.如權利要求9所示的電子文檔的生成裝置,其特征在于,所述處理単元包括第五處理單元,所述第五處理單元具體用于 循環(huán)遍歷所述原始文件數(shù)據(jù)中的每ー個原始文件數(shù)據(jù)塊,將所述每ー個原始文件數(shù)據(jù)塊轉換為所述電子文檔的每ー個文件數(shù)據(jù)塊; 提取所述電子文檔的每ー個文件數(shù)據(jù)塊中的文本信息; 對所述電子文檔的每ー個文件數(shù)據(jù)塊中的文本信息根據(jù)詞條數(shù)據(jù)庫中的信息進行分詞處理,生成所述電子文檔的索引文件數(shù)據(jù)所需的索引文件數(shù)據(jù)生成信息。
16.如權利要求9所示的電子文檔的生成裝置,其特征在于,所述生成単元具體用于 將所述文檔生成信息按照Zip壓縮格式壓縮為Zip壓縮格式的文件數(shù)據(jù); 修改壓縮后的所述Zip壓縮格式的文件數(shù)據(jù)的格式,生成所述電子文檔。
全文摘要
本發(fā)明涉及一種電子文檔的生成方法和裝置。該方法包括獲取原始文件數(shù)據(jù);根據(jù)生成所述電子文檔所需的數(shù)據(jù)內容,對所述原始文件數(shù)據(jù)進行對應處理,從而生成每個所述數(shù)據(jù)內容所需的文檔生成信息;將所述文檔生成信息按照所述電子文檔的生成格式進行處理,生成所述電子文檔;生成的所述電子文檔中的每個所述數(shù)據(jù)內容均由所述文檔生成信息處理得到。本發(fā)明實現(xiàn)了將不同類型的源文檔生成為基于Web的統(tǒng)一的電子文檔格式,提高了電子文檔中內容的瀏覽和搜索效率。
文檔編號G06F17/30GK102831151SQ20121021835
公開日2012年12月19日 申請日期2012年6月28日 優(yōu)先權日2012年6月28日
發(fā)明者樊彪, 王凱 申請人:華為技術有限公司