欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法及系統(tǒng)的制作方法

文檔序號:6471560閱讀:188來源:國知局

專利名稱::一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
:本發(fā)明屬于信息內(nèi)容加工
技術(shù)領(lǐng)域
,具體涉及一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法及系統(tǒng)。
背景技術(shù)
:隨著IT應(yīng)用的深入普及,各行各業(yè)都積累了大量的信息資源??茖W(xué)管理和合理開發(fā)這些內(nèi)部和外部信息資源已經(jīng)成為企業(yè)正確決策、增強(qiáng)竟?fàn)幜Φ年P(guān)鍵,在對這些重要信息利用之前,通常需要對這些信息的數(shù)據(jù)內(nèi)容進(jìn)行結(jié)構(gòu)化的加工,以適應(yīng)不同用戶的不同需要。當(dāng)前內(nèi)容結(jié)構(gòu)化的方法主要以儲存、流程、元數(shù)據(jù)(Metadata)為要件來制作系統(tǒng),其中,儲存多以關(guān)聯(lián)式數(shù)據(jù)庫的方式,也有的以一般數(shù)據(jù)文件方式儲存,或者是根據(jù)需要兩種并存。目前,內(nèi)容結(jié)構(gòu)化的方法主要有兩種一種是使用專門軟件對特定數(shù)據(jù)字段進(jìn)行錄入的方式,這種方式的缺點是進(jìn)行錄入的數(shù)據(jù)字段受軟件限制,而且需要手工錄入,不容易實現(xiàn)自動化加工;另一種是使用類似XML編輯器的軟件的方式,這種方式缺點是只能對純內(nèi)容的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,無法帶入原文檔內(nèi)容的版式和樣式等信息,而在印前排版領(lǐng)域或者希望帶有內(nèi)容樣式的用戶來說,現(xiàn)有的內(nèi)容結(jié)構(gòu)化方法因不能使結(jié)構(gòu)化的內(nèi)容同時帶有內(nèi)容的樣式信息或版式信息而不能滿足需要,因此,如何使結(jié)構(gòu)化的內(nèi)容既保留原內(nèi)容又帶有原內(nèi)容的樣式或版式信息,成為越來越多的用戶所關(guān)注的問題。
發(fā)明內(nèi)容針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的是提供一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法及系統(tǒng),通過該方法及系統(tǒng)不僅能夠完成內(nèi)容結(jié)構(gòu)化的自動化加工,并且使加工后的結(jié)構(gòu)化內(nèi)容保留原有的樣式、版式等信息。為達(dá)到以上目的,本發(fā)明釆用的技術(shù)方案是一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,包括以下步驟(1)建立內(nèi)容結(jié)構(gòu)化體系,根據(jù)需要設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;(2)建立樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系;(3)解析需要結(jié)構(gòu)化的文檔,提取內(nèi)容形成結(jié)構(gòu)化內(nèi)容;進(jìn)一步,步驟(l)中,設(shè)置結(jié)構(gòu)化關(guān)鍵字時,根據(jù)需要結(jié)構(gòu)化的文檔內(nèi)容結(jié)構(gòu)來設(shè)置;進(jìn)一步,步驟(l)中,設(shè)置結(jié)構(gòu)化關(guān)鍵字時,根據(jù)文檔內(nèi)容的樣式來設(shè)置。進(jìn)一步,步驟(l)中,確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系時,根據(jù)文檔內(nèi)容的樣式來確定;所述的結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系是指關(guān)鍵字之間的位置、排列、層次、結(jié)構(gòu)、包含等關(guān)系,實際也就是結(jié)構(gòu)化關(guān)鍵字所代表的內(nèi)容在文檔中的相應(yīng)關(guān)系。進(jìn)一步,步驟(2)中,建立樣式與結(jié)構(gòu)化關(guān)鍵字的對應(yīng)關(guān)系時,一個結(jié)構(gòu)化關(guān)鍵字對應(yīng)一種或者多種樣式,但是一種樣式只能對應(yīng)一個結(jié)構(gòu)化關(guān)鍵字。進(jìn)一步,步驟(3)中,文檔完成結(jié)構(gòu)化后,形成了兩個文件樣式映射文件和結(jié)構(gòu)內(nèi)容文件,所述樣式映射文件記錄了樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系;所述結(jié)構(gòu)內(nèi)容文件記錄了結(jié)構(gòu)化關(guān)鍵字與文檔內(nèi)容的對應(yīng)關(guān)系。一種基于樣式的內(nèi)容結(jié)構(gòu)化加工系統(tǒng),該系統(tǒng)包括結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊、樣式與關(guān)鍵字對應(yīng)模塊、解析提取模塊;所述的結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊用于設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;所述的樣式與關(guān)鍵字對應(yīng)模塊用于建立樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系;所述的解析提取模塊用于解析需要結(jié)構(gòu)化的文檔,并提取文檔內(nèi)容形成結(jié)構(gòu)化內(nèi)容;當(dāng)上述系統(tǒng)工作時,首先由結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;然后由樣式與關(guān)鍵字對應(yīng)模塊建立起樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系,然后解析提取模塊讀取并解析需要結(jié)構(gòu)化的文檔,根據(jù)樣式與關(guān)鍵字對應(yīng)模塊建立的樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系,提取相應(yīng)的文檔內(nèi)容到結(jié)構(gòu)化關(guān)鍵字中,從而形成結(jié)構(gòu)化內(nèi)容,處理結(jié)束。本發(fā)明的效果在于采用本發(fā)明所述的方法和系統(tǒng),對于帶于樣式、版式等信息的內(nèi)容,在進(jìn)行內(nèi)容結(jié)構(gòu)化加工時,不僅能夠完成內(nèi)容結(jié)構(gòu)化的自動加工,同時使加工后的結(jié)構(gòu)化內(nèi)容能夠保留原有的樣式、版式等信息,大大方便了不同用戶的需要。圖l是本發(fā)明所述方法的流程圖;圖2是本發(fā)明所述系統(tǒng)的結(jié)構(gòu)圖。具體實施例方式下面結(jié)合實施例和附圖,對本發(fā)明作進(jìn)一步的闡述如圖2所示,一種基于樣式的內(nèi)容結(jié)構(gòu)化加工系統(tǒng),該系統(tǒng)包括結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊、樣式與關(guān)鍵字對應(yīng)模塊、解析提^^莫塊;所述的結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊用于設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)4走字之間的關(guān)系;所述的樣式與關(guān)鍵字對應(yīng)模塊用于建立樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系;所述的解析提取模塊用于解析需要結(jié)構(gòu)化的文檔,并提取文檔內(nèi)容形成結(jié)構(gòu)化內(nèi)容;當(dāng)上述系統(tǒng)工作時,首先由結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;然后由樣式與關(guān)鍵字對應(yīng)模塊建立起樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系,然后解析提取模塊讀取并解析需要結(jié)構(gòu)化的文檔,根據(jù)樣式與關(guān)鍵字對應(yīng)模塊建立的樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系,提取相應(yīng)的文檔內(nèi)容到結(jié)構(gòu)化關(guān)鍵字中,從而形成結(jié)構(gòu)化內(nèi)容,處理結(jié)束。為適應(yīng)上述系統(tǒng),本發(fā)明采用了一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,如圖1所示,具體包括以下步驟(1)建立內(nèi)容結(jié)構(gòu)化體系,根據(jù)需要設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;結(jié)構(gòu)化關(guān)鍵字的設(shè)置比較靈活,可以根據(jù)需要或用戶的習(xí)慣按照文檔的內(nèi)容結(jié)構(gòu)來設(shè)置,也可以按照文檔內(nèi)容的樣式名稱來設(shè)置;同時根據(jù)文檔內(nèi)容的樣式來確定結(jié)構(gòu)化關(guān)^:字之間的關(guān)系;所述的結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系是指結(jié)構(gòu)化關(guān)鍵字之間的位置、排列、層次、結(jié)構(gòu)、包含等關(guān)系,實際也就是結(jié)構(gòu)化關(guān)4定字所代表的內(nèi)容在文檔中的相應(yīng)關(guān)系;本實施例中,以需要對下述的印前排版文件進(jìn)行內(nèi)容結(jié)構(gòu)化加工為例具體說明本步驟的實施過程兼容性1、支持WORD、EXCEL、TIF和PDF等常用格式。飛騰創(chuàng)藝5.0支持排入多種格式的文件,包括*乂'辟7xr、朋、,A"浙議c仏激像jf/f^E7V、P57X77K石緣、yPG浙G7F。2、支持輸出為PDF和PS等格式的文件飛騰創(chuàng)藝5.0可將版面輸出為多種格式的文件,包括PS、PDF、JPG、EPS、TXT和CSV的文件。輸出的PDF文件可以用于各種途徑,包括屏幕閱讀、印刷和電子書等。圖表13、兼容飛騰文件飛騰創(chuàng)藝5.0兼容飛騰3.X和飛騰4.X系列的文件,支持打開和編輯飛騰文件,準(zhǔn)確率達(dá)95%以上,并且為未來飛騰創(chuàng)藝升級版本的高低相互兼容做了處理。1月2月3月203040152025根據(jù)上述文檔內(nèi)容中的樣式,標(biāo)注其具體樣式及其屬性如下所示:<image>imageseeoriginaldocumentpage9</image>表格fontsize-"3.70"italic=',false"bold="false"fontname="宋體"margin="0.2"在對上述帶有樣式的文件內(nèi)容進(jìn)行結(jié)構(gòu)化加工之前,先構(gòu)建內(nèi)容結(jié)構(gòu)化體系,設(shè)置結(jié)構(gòu)化關(guān)鍵字,由于本文檔的內(nèi)容帶有比較多的樣式,因此本實施例中設(shè)置結(jié)構(gòu)化關(guān)鍵字時根據(jù)文檔內(nèi)容中的各個樣式來設(shè)置,具體分析如下上述文件中包含一個大標(biāo)題、3個小標(biāo)題一個項目編號、一個圖說、一個表格以及一些正文,各種內(nèi)容都使用了不同的樣式,可以分為兩類一類是文字才羊式如標(biāo)題對應(yīng)的才羊式、小標(biāo)題對應(yīng)的才羊式、項目編號對應(yīng)的才羊式、正文對應(yīng)的樣式;另一類是對象樣式如圖說對應(yīng)的樣式,表格對應(yīng)的樣式。根據(jù)樣式設(shè)置好了結(jié)構(gòu)化關(guān)鍵字,結(jié)果如下表所示:大標(biāo)題小標(biāo)題正文列表項圖說表格設(shè)置結(jié)構(gòu)化關(guān)鍵字時,同時需要根據(jù)文檔內(nèi)容的樣式來確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;所述的結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系是指結(jié)構(gòu)化關(guān)鍵字之間的位置、排列、層次、結(jié)構(gòu)、包含等關(guān)系,實際也就是結(jié)構(gòu)化關(guān)鍵字所代表的內(nèi)容在文檔中的相應(yīng)關(guān)系;本實施例中,經(jīng)分析可知,l)整個文檔是根元素;2)大標(biāo)題、小標(biāo)題是根元素的子元素;3)正文是根元素的子元素;4)項目編號、圖片、表格是和正文同一級別的元素;5)列表項是項目編號的子元素,基本該分析,依據(jù)該文檔內(nèi)容的樣式確定好了結(jié)構(gòu)化關(guān)4建字之間的關(guān)系。(2)建立樣式與結(jié)構(gòu)化關(guān)鍵字的對應(yīng)關(guān)系;建立樣式與結(jié)構(gòu)化關(guān)鍵字的對應(yīng)關(guān)系時,一個結(jié)構(gòu)化關(guān)鍵字對應(yīng)一種或者多種(兩種或兩種以上)樣式,但是一種樣式只能對應(yīng)一個結(jié)構(gòu)化關(guān)鍵字,具體在本實施例中,每一種樣式都有唯一的結(jié)構(gòu)化關(guān)鍵字與之對應(yīng),并記錄所對應(yīng)樣式的屬性,具體對應(yīng)關(guān)系如下表所示<table>tableseeoriginaldocumentpage10</column></row><table><table>tableseeoriginaldocumentpage11</column></row><table>結(jié)構(gòu)內(nèi)容文件如下所示:<文檔><大標(biāo)題>兼容性</大標(biāo)題><小標(biāo)題>1、支持WORD、EXCEL、TIF和PDF等常用格式々小標(biāo)題〉<正文>飛騰創(chuàng)藝5.0支持排入多種格式的文件,包括</正文><列表>〈列表項〉文檔TXT、BD、WORD和EXCEL。</列表項>〈列表項〉圖像文件EPS、PSD、TIF、BMP、JPG和GIF。</列表項></列表><小標(biāo)題>2、支持輸出為PDF和PS等格式的文件々小標(biāo)題〉<圖說><圖片〉http::〃www.sample.website.com.cn/picture/winter.jpg〈/圖片><圖片說明>圖表1</圖片說明></圖說><正文>飛騰創(chuàng)藝5.0可將版面輸出為多種格式的文件,包括PS、PDF、JPG、EPS、TXT和CSV的文件。輸出的PDF文件可以用于各種途徑,包括屏幕閱讀、印刷和電子書等。</正文><小標(biāo)題>3、兼容飛騰文件</小標(biāo)題><正文>飛騰創(chuàng)藝5.0兼容飛騰3〗和飛騰4〗系列的文件,支持打開和編輯飛騰文件,準(zhǔn)確率達(dá)95%以上,并且為未來飛騰創(chuàng)藝升級版本的高低相互兼容做了處理。</正文><表格><table><trheight="0.9cm">〈td〉l月〈/td〉〈td〉2月</td>〈td〉3月〈脅</tr><trheight="0.9cm"><td>20</td><td>30</td><td>40</td></tr><trheight="0.9cm"><td>15</td><td>20</td><td>25</td></tr><colwidth="2.5cm"/><colwidth="2.75cm"/><colwidth="2.25cm'V></column></row><table></表格></文檔>經(jīng)過上述處理,對本實施例中的文檔內(nèi)容進(jìn)行了結(jié)構(gòu)化加工,內(nèi)容結(jié)構(gòu)化的結(jié)果完全符合步驟(1)中確定的結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系,并且該結(jié)構(gòu)化的內(nèi)容可以帶有原有的樣式信息,具體應(yīng)用時,如果客戶不需帶有樣式的結(jié)構(gòu)化內(nèi)容,此時可以只選擇結(jié)構(gòu)內(nèi)容文件;如果客戶需要帶有樣式的結(jié)構(gòu)化內(nèi)容,則同時選擇樣式映射文件和結(jié)構(gòu)內(nèi)容文件即可。上述內(nèi)容結(jié)構(gòu)化加工的結(jié)果,其表現(xiàn)形式可以根據(jù)用戶的需要自由表達(dá),可以是符合XML標(biāo)準(zhǔn)規(guī)范的文件,也可以是自己定義的文件。本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。權(quán)利要求1、一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,包括以下步驟(1)建立內(nèi)容結(jié)構(gòu)化體系,根據(jù)需要設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;(2)建立樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系;(3)解析需要結(jié)構(gòu)化的文檔,提取內(nèi)容形成結(jié)構(gòu)化內(nèi)容。2、如權(quán)利要求1所述的一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,其特征在于步驟(l)中,設(shè)置結(jié)構(gòu)化關(guān)鍵字時,根據(jù)需要結(jié)構(gòu)化的文檔內(nèi)容結(jié)構(gòu)來設(shè)置。3、如權(quán)利要求1所述的一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,其特征在于步驟(1)中,設(shè)置結(jié)構(gòu)化關(guān)鍵字時,根據(jù)文檔內(nèi)容的樣式來設(shè)置。4、如權(quán)利要求1至3之一所述的一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,其特征在于步驟(l)中,確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系時,根據(jù)文檔內(nèi)容的樣式來確定。5、如權(quán)利要求4所述的一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,其特征在于步驟(2)中,建立樣式與結(jié)構(gòu)化關(guān)鍵字的對應(yīng)關(guān)系時,一個結(jié)構(gòu)化關(guān)鍵字對應(yīng)一種或者多種樣式,但是一種樣式只能對應(yīng)一個結(jié)構(gòu)化關(guān)^t字。6、如權(quán)利要求5所述的一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法,其特征在于步驟(3)中,文檔完成結(jié)構(gòu)化后,形成了兩個文件樣式映射文件和結(jié)構(gòu)內(nèi)容文件,所述樣式映射文件記錄了樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系,所述結(jié)構(gòu)內(nèi)容文件記錄了結(jié)構(gòu)化關(guān)鍵字與文檔內(nèi)容的對應(yīng)關(guān)系。7、一種基于樣式的內(nèi)容結(jié)構(gòu)化加工系統(tǒng),該系統(tǒng)包括結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊、樣式與關(guān)鍵字對應(yīng)模塊、解析提取模塊;所述的結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊用于設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;所述的樣式與關(guān)鍵字對應(yīng)模塊用于建立樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系;所述的解析提取模塊用于解析需要結(jié)構(gòu)化的文檔,并提取文檔內(nèi)容形成結(jié)構(gòu)化內(nèi)容;當(dāng)上述系統(tǒng)工作時,首先由結(jié)構(gòu)化關(guān)鍵字構(gòu)建模塊設(shè)置結(jié)構(gòu)化關(guān)鍵字,并確定結(jié)構(gòu)化關(guān)鍵字之間的關(guān)系;然后由樣式與關(guān)^T建字對應(yīng);^莫塊建立起樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系,然后解析提取模塊讀取并解析需要結(jié)構(gòu)化的文檔,根據(jù)樣式與關(guān)鍵字對應(yīng)模塊建立的樣式與結(jié)構(gòu)化關(guān)鍵字之間的對應(yīng)關(guān)系,提取相應(yīng)的文檔內(nèi)容到結(jié)構(gòu)化關(guān)鍵字中,從而形成結(jié)構(gòu)化內(nèi)容,處理結(jié)束。全文摘要本發(fā)明涉及一種基于樣式的內(nèi)容結(jié)構(gòu)化加工方法和系統(tǒng),屬于信息內(nèi)容加工
技術(shù)領(lǐng)域
?,F(xiàn)有技術(shù)中,內(nèi)容結(jié)構(gòu)化的方法要么需要手工錄入,要么只能對純內(nèi)容的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化,無法帶入內(nèi)容的版式信息和樣式信息。本發(fā)明所述的方法和系統(tǒng),根據(jù)需要結(jié)構(gòu)化的文件建立內(nèi)容結(jié)構(gòu)化體系,然后建立樣式與結(jié)構(gòu)化關(guān)鍵字的對應(yīng)關(guān)系,最后解析文檔提取內(nèi)容形成結(jié)構(gòu)化內(nèi)容,從而完成內(nèi)容結(jié)構(gòu)化的加工。采用本發(fā)明所述的方法和系統(tǒng),內(nèi)容結(jié)構(gòu)化的加工過程中既不會受數(shù)據(jù)字段的約束,還可以同時保留原文檔內(nèi)容的樣式屬性,一方面利用了已有的文檔信息,版式特征,另一方面是實現(xiàn)了內(nèi)容結(jié)構(gòu)化的自動加工。文檔編號G06F17/30GK101430714SQ20081023899公開日2009年5月13日申請日期2008年12月8日優(yōu)先權(quán)日2008年12月8日發(fā)明者余忠華,勇蘇,趙朝陽,閆國龍,魏超鵬申請人:北大方正集團(tuán)有限公司;北京北大方正電子有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
香格里拉县| 化隆| 荣成市| 敦煌市| 新竹县| 榆中县| 巩留县| 黄大仙区| 宁乡县| 调兵山市| 夏邑县| 天水市| 和静县| 罗定市| 巫溪县| 桐乡市| 凤台县| 台南县| 友谊县| 横山县| 白山市| 白沙| 元朗区| 北安市| 桦川县| 黑龙江省| 宿松县| 龙海市| 连江县| 十堰市| 越西县| 宜川县| 蒙山县| 图片| 罗江县| 东丰县| 彭阳县| 鄢陵县| 宁波市| 阿拉善盟| 民乐县|