欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種流式文檔的處理方法及裝置制造方法

文檔序號(hào):6501846閱讀:134來(lái)源:國(guó)知局
一種流式文檔的處理方法及裝置制造方法
【專利摘要】本發(fā)明實(shí)施例提供了一種流式文檔的處理方法及裝置,用于將流式文檔轉(zhuǎn)化為版式文檔,并正確呈現(xiàn)由文本和圖形圖像組成的組合圖形圖像。該方法包括:從流式文檔中獲取由圖形圖像與文本組成的組合圖形圖像的信息;其中包括圖形圖像的錨點(diǎn)信息和文本的屬性信息;根據(jù)所述文本的屬性信息和所述圖形圖像的錨點(diǎn)信息,確定各文本句的坐標(biāo);根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖形圖像映射至版式文檔。
【專利說(shuō)明】一種流式文檔的處理方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文檔轉(zhuǎn)換領(lǐng)域,尤其涉及一種流式文檔的處理方法及裝置。

【背景技術(shù)】
[0002] 首先對(duì)本發(fā)明涉及的術(shù)語(yǔ)名詞進(jìn)行介紹:
[0003] 版式文檔:是一種獨(dú)立于軟件、硬件、操作系統(tǒng)、呈現(xiàn)/打印設(shè)備的文檔,例如 pdf,cebx等格式的版式文檔。一個(gè)版式文檔可以包含多個(gè)頁(yè)面,每個(gè)頁(yè)面由與設(shè)備和分辨 率無(wú)關(guān)的若干的圖元(即版面對(duì)象,頁(yè)面上呈現(xiàn)內(nèi)容的最基本單元,如文本、圖形、圖像、表 格、多媒體等類型圖元,也包括基于這些基本圖元組合而成的復(fù)合圖元)組成。
[0004] 版式文檔的常見(jiàn)基本特性:原版原式呈現(xiàn)(文本圖像等內(nèi)容及其位置大小、色彩 等版式信息在不同平臺(tái)軟硬件上呈現(xiàn)/打印顯示效果一致);文檔內(nèi)容等數(shù)據(jù)的結(jié)構(gòu)化描 述(無(wú)論采用XML還是二進(jìn)制描述方式,其文檔格式都具有結(jié)構(gòu)化特征);交互性(動(dòng)畫, 多媒體,執(zhí)行動(dòng)作動(dòng)等);安全性(數(shù)字簽名等)等。近年來(lái)也增添了許多新特性:多樣化 互聯(lián)網(wǎng)應(yīng)用(線性化邊下載邊閱讀、"一次出版,多平臺(tái)應(yīng)用,多途徑傳播"等);移動(dòng)閱讀燈 設(shè)備自適應(yīng)性(要求原版原式的版式文檔能在手機(jī)等各種大小不一的設(shè)備中自動(dòng)調(diào)整文 檔內(nèi)容的呈現(xiàn),如同辦公軟件等流式文檔天然具備自適應(yīng)特點(diǎn))等。
[0005] 流式文檔:如Office文檔,它描述的不是排版后生成的具有版面呈現(xiàn)所需要的所 有數(shù)據(jù)的文檔(即版式文檔),其相關(guān)(流式)數(shù)據(jù)通常不具有固定位置大小等版面信息, 每次加載文檔時(shí)需要類似流水線式的對(duì)這些數(shù)據(jù)從頭到尾進(jìn)行重新排版計(jì)算得到相關(guān)位 置信息,然后才能呈現(xiàn)出來(lái)。
[0006] 結(jié)構(gòu)化信息:關(guān)于文檔(流式、版式等類型)的邏輯結(jié)構(gòu)的信息,包括文章、節(jié)、段 落等邏輯結(jié)構(gòu),以及顯示樣式信息。結(jié)構(gòu)化信息可用于實(shí)現(xiàn)版面內(nèi)容的重排(Reflow),以適 應(yīng)不同屏幕尺寸的設(shè)備特別是移動(dòng)設(shè)備的需求。常見(jiàn)粗粒度的邏輯結(jié)構(gòu)單元有:區(qū)域、排版 框、段落、表格等。細(xì)粒度的基本邏輯結(jié)構(gòu)單元有:文本句、圖形、圖像、公式、圖表、多媒體對(duì) 象、復(fù)合對(duì)象等。這些富有語(yǔ)義的邏輯數(shù)字內(nèi)容對(duì)象在流式文檔、版式文檔等中的數(shù)據(jù)邏輯 結(jié)構(gòu)描述通常都是有差異的。
[0007] 文本句:Run or Span,段落內(nèi)最小的邏輯文字單元,連續(xù)的文本以是否具有相同 文字屬性為依據(jù)來(lái)劃分為若干個(gè)句。段落內(nèi)被其它單元對(duì)象如圖形圖像等錨點(diǎn)對(duì)象分割開(kāi) 始的即便有相同文字屬性也會(huì)劃分有不同的句。
[0008] 復(fù)合圖元:多個(gè)基本圖元組合后形成的一個(gè)圖元,類似辦公文檔中多個(gè)基本圖形 等對(duì)象組合Group后形成的一個(gè)整體性對(duì)象,該對(duì)象還可進(jìn)一步復(fù)原(拆分)為組合前的 對(duì)象。
[0009] 圖形圖像:簡(jiǎn)單地講圖形用于表達(dá)各種形狀shape,例如矩形,直線,曲線等,通 常采用矢量化方式來(lái)描述它們(內(nèi)部都可以轉(zhuǎn)換到自由路徑path方式來(lái)統(tǒng)一表達(dá));圖像 (Image)即常見(jiàn)的圖片,當(dāng)然圖形也可以用圖像來(lái)表示,但大小相對(duì)矢量化描述的圖形會(huì)大 不少。
[0010] 錨點(diǎn)anchor :通常流式文檔的邏輯結(jié)構(gòu)中除了文字段落對(duì)象之外的對(duì)象如圖形、 圖像、圖表、表格、公式、多媒體等對(duì)象都是要掛載(或錨)在某個(gè)其他節(jié)點(diǎn)對(duì)象(如段落對(duì) 象、文檔頁(yè)面對(duì)象[如演示文稿的母版或幻燈片頁(yè)面]等)之上的,在結(jié)構(gòu)上它們是無(wú)法獨(dú) 立存在的,必須依附中其他對(duì)象上,我們統(tǒng)一稱這些錨在別的對(duì)象上的對(duì)象為錨點(diǎn)對(duì)象。此 外若錨點(diǎn)對(duì)象錨到段落或頁(yè)面則此時(shí)錨點(diǎn)對(duì)象會(huì)記錄其(x,y)的相對(duì)位置坐標(biāo),可統(tǒng)一換 算到頁(yè)面坐標(biāo)。但若該錨點(diǎn)對(duì)象作為字符(As Char)錨到段落文本中的某個(gè)字符上,則其 流式格式信息中只記錄其相對(duì)文本行基線(Baseline)的垂直位置信息。錨點(diǎn)對(duì)象內(nèi)的段 落文本或組合對(duì)象的位置通常是相對(duì)該錨點(diǎn)對(duì)象進(jìn)行記錄的,其中的段落文本通常還有相 對(duì)于該錨點(diǎn)對(duì)象的水平和垂直對(duì)齊描述信息,還有通用的段落文本屬性組信息。
[0011] 在文檔轉(zhuǎn)換領(lǐng)域,通常利用虛擬打印技術(shù)將流式文檔(例如辦公軟件Microsoft Off ice文檔)轉(zhuǎn)換為版式文檔(例如Apabi CEBX文檔[(此格式可包含流式信息和版式 信息]),但該技術(shù)只能得到純版式信息。而其中的流式信息(如文檔中的圖形圖像)利用 Microsoft Word等應(yīng)用程序提供的二次開(kāi)發(fā)應(yīng)用接口就可以獲取。最后若要得到一份在移 動(dòng)設(shè)備上可閱讀的兼版流式信息一體的版式文檔,則需要將上述二者相關(guān)的純版式信息和 待提取的流式信息結(jié)合起來(lái)以生成最終的版式文檔。
[0012] 制作帶流式圖形圖像結(jié)構(gòu)化信息的版式文檔,現(xiàn)有公開(kāi)的技術(shù)為采用虛擬打印技 術(shù)將流式圖形圖像結(jié)構(gòu)化信息(包含其中的文字信息)簡(jiǎn)單地生成對(duì)應(yīng)的版式文檔圖形、圖 像、文本圖元,并以頁(yè)面圖元塊方式關(guān)聯(lián)到其對(duì)應(yīng)的流式結(jié)構(gòu)化信息中。其缺陷是:在各種 移動(dòng)設(shè)備閱讀器中重排呈現(xiàn)圖形圖像信息時(shí),要么圖形圖像信息丟失,要么只能呈現(xiàn)圖形 圖像中的文本信息,要么以多段落分別呈現(xiàn)圖形圖像和其中的文本信息。參見(jiàn)圖1,為圖形 閱讀效果正確和錯(cuò)誤比對(duì)示意圖。
[0013] 造成此缺陷的根本原因在于:一、版式文檔中除了復(fù)合圖元,其結(jié)構(gòu)化信息中目前 尚無(wú)同時(shí)呈現(xiàn)帶文本信息的圖形圖像,因此要么取舍其一(圖1錯(cuò)誤效果2和3)、要么二者 兼得,但以分離的模式提供(圖1錯(cuò)誤效果1)。二、采用類似虛擬打印技術(shù)智能識(shí)別帶文本 信息的圖形圖像為復(fù)合圖元是很困難的這往往是由于相互矛盾導(dǎo)致的:即這種情況被識(shí)別 為復(fù)合圖元,但浮動(dòng)于文本上的圖形圖像則顯然會(huì)被識(shí)別錯(cuò)誤。
[0014] 因此,現(xiàn)有技術(shù)將流式文檔轉(zhuǎn)化為版式文檔時(shí),不能正確處理由文本和圖形圖像 組成的組合圖形圖像。


【發(fā)明內(nèi)容】

[0015] 本發(fā)明實(shí)施例提供了一種流式文檔的處理方法及裝置,用于將流式文檔轉(zhuǎn)化為版 式文檔,并正確呈現(xiàn)由文本和圖形圖像組成的組合圖形圖像;增強(qiáng)文檔在不同設(shè)備上顯示 時(shí)的自適應(yīng)性,提高用戶體驗(yàn)。
[0016] 本發(fā)明實(shí)施例提供的一種流式文檔的處理方法包括:
[0017] 從流式文檔中獲取由圖形圖像與文本組成的組合圖形圖像的信息;其中包括圖形 圖像的錨點(diǎn)信息和文本的屬性信息;
[0018] 根據(jù)所述文本的屬性信息和所述圖形圖像的錨點(diǎn)信息,確定各文本句的坐標(biāo);
[0019] 根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖形圖像映射至版 式文檔。
[0020] 本發(fā)明實(shí)施例提供的一種流式文檔的處理裝置包括:
[0021] 識(shí)別模塊,用于從流式文檔中獲取由圖形圖像與文本組成的組合圖形圖像的信 息;其中包括圖形圖像的錨點(diǎn)信息和文本的屬性信息;
[0022] 坐標(biāo)確定模塊,用于根據(jù)所述文本的屬性信息和所述圖形圖像的錨點(diǎn)信息,確定 各文本句的坐標(biāo);
[0023] 映射模塊,用于根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖 形圖像映射至版式文檔。
[0024] 通過(guò)以上技術(shù)方案可知,本發(fā)明中從流式文檔中獲取由圖形圖像與文本組成的組 合圖形圖像的信息;其中包括圖形圖像的錨點(diǎn)信息和文本的屬性信息;根據(jù)所述文本的屬 性信息和所述圖形圖像的錨點(diǎn)信息,確定各文本句的坐標(biāo);根據(jù)所述組合圖形圖像的信息 和所述各文本句的坐標(biāo),將組合圖形圖像映射至版式文檔。本發(fā)明通過(guò)對(duì)流式文檔中的流 式語(yǔ)義信息進(jìn)行分析,整體性識(shí)別組合圖形圖像的結(jié)構(gòu)化信息并映射至版式文檔,避免了 組合圖形圖像在版式文檔中的錯(cuò)誤顯示,提高了用戶體驗(yàn)。

【專利附圖】

【附圖說(shuō)明】
[0025] 圖1為現(xiàn)有技術(shù)中流式文檔轉(zhuǎn)化為版式文檔后的顯示效果示意圖;
[0026] 圖2為本發(fā)明實(shí)施例提供的一種流式文檔的處理方法的流程示意圖;
[0027] 圖3為本發(fā)明具體實(shí)施例提供的一種流式文檔的處理方法的流程示意圖;
[0028] 圖4為本發(fā)明具體實(shí)施例提供的識(shí)別流式等原始文檔中的圖形圖像信息的流程 示意圖;
[0029] 圖5為本發(fā)明具體實(shí)施例提供的圖形圖像及其段落文本位置計(jì)算的流程示意圖;
[0030] 圖6為本發(fā)明具體實(shí)施例提供的將圖形圖像信息映射為版流對(duì)等結(jié)構(gòu)的流程示 意圖;
[0031] 圖7為本發(fā)明實(shí)施例提供的一種流式文檔的處理裝置的結(jié)構(gòu)示意圖;
[0032] 圖8為本發(fā)明實(shí)施例提供的一種流式文檔的處理裝置的另一結(jié)構(gòu)示意圖;
[0033] 圖9為本發(fā)明實(shí)施例提供的一種流式文檔的處理裝置的另一結(jié)構(gòu)示意圖。

【具體實(shí)施方式】
[0034] 本發(fā)明實(shí)施例提供了一種流式文檔的處理方法及裝置,用于將流式文檔轉(zhuǎn)化為版 式文檔,并正確呈現(xiàn)由文本和圖形圖像組成的組合圖形圖像;增強(qiáng)文檔在不同設(shè)備上顯示 時(shí)的自適應(yīng)性,提高用戶體驗(yàn)。
[0035] 參見(jiàn)圖2,本發(fā)明實(shí)施例提供的一種流式文檔的處理方法包括:
[0036] S201、從流式文檔中獲取由圖形圖像與文本組成的組合圖形圖像的信息;其中包 括圖形圖像的錨點(diǎn)信息和文本的屬性信息;
[0037] S202、根據(jù)所述文本的屬性信息和所述圖形圖像的錨點(diǎn)信息,確定各文本句的坐 標(biāo);
[0038] S203、根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖形圖像映 射至版式文檔。
[0039] 較佳的,所述從流式文檔中獲取由圖形圖像與文本組成的組合圖形圖像的信息, 包括:獲取流式文檔中全部圖形圖像的屬性信息;根據(jù)所述全部圖形圖像的屬性信息,確 定并保存頁(yè)面預(yù)設(shè)區(qū)域內(nèi)的組合圖形圖像的信息。所述預(yù)設(shè)區(qū)域內(nèi)的組合圖形圖像,為文 檔版芯段落或頁(yè)面上類型為圖形圖像的錨點(diǎn)對(duì)象。
[0040] 較佳的,所述圖形圖像的錨點(diǎn)信息包括圖形圖像的錨點(diǎn)類型。
[0041] 較佳的,當(dāng)所述圖形圖像的錨點(diǎn)類型為非作為字符As char時(shí),從流式文檔中獲取 的圖形圖像的錨點(diǎn)信息還包括錨點(diǎn)坐標(biāo);根據(jù)所述文本的屬性信息和所述圖形圖像的錨點(diǎn) 信息,確定各文本句的坐標(biāo),包括:根據(jù)所述文本的屬性信息和圖形圖像的錨點(diǎn)坐標(biāo),確定 各文本句的坐標(biāo)。
[0042] 較佳的,當(dāng)所述圖形圖像的錨點(diǎn)類型為作為字符As char時(shí),根據(jù)所述文本的屬性 信息和所述圖形圖像的錨點(diǎn)信息,確定各文本句的坐標(biāo),包括:通過(guò)排版獲取圖形圖像的錨 點(diǎn)坐標(biāo);根據(jù)所述文本的屬性信息和圖形圖像的錨點(diǎn)坐標(biāo),確定各文本句的坐標(biāo)。即根據(jù)錨 點(diǎn)類型為As char或非As char,進(jìn)行不同的處理。本發(fā)明提到的排版可以由多種工具實(shí) 現(xiàn),包括排版引擎,流式文檔軟件的指定API等,用于確定錨點(diǎn)在排版后的坐標(biāo)。而在確定 錨點(diǎn)的坐標(biāo)之后,文本句的坐標(biāo)根據(jù)文本句及其段落文本句屬性組即可得出。
[0043] 較佳的,所述文本的屬性信息,包括:文本句及其段落的屬性信息。
[0044] 本發(fā)明提供的生成版式文檔的方法包括兩個(gè)步驟:1、將流式文檔的內(nèi)容映射為頁(yè) 面塊對(duì)象PageBlock的圖元;2、將PageBlock的圖元映射至邏輯結(jié)構(gòu)信息的塊piece。也 就是說(shuō),為了使得生成的版式文檔對(duì)不同設(shè)備屏幕具有更好的適應(yīng)性,需要采取類似于流 式文檔的描述方式對(duì)圖元進(jìn)行結(jié)構(gòu)化描述,這種版式文檔中的流式信息,通過(guò)段落片段的 塊piece來(lái)表達(dá),不同的圖元類型對(duì)應(yīng)于不同的piece。
[0045] 較佳的,根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖形圖像 映射至版式文檔,包括:根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖形 圖像映射為版式文檔的頁(yè)面塊對(duì)象PageBlock中的圖元;將所述PageBlock中的圖元映射 至該版式文檔的邏輯結(jié)構(gòu)信息的段落片段的塊piece。
[0046] 較佳的,當(dāng)所述組合圖形圖像的錨點(diǎn)的掛接對(duì)象不是頁(yè)面時(shí),該方法還包括:將所 述錨點(diǎn)的掛接對(duì)象映射至版式文檔的頁(yè)面塊對(duì)象PageBlock ;根據(jù)所述組合圖形圖像的信 息和所述各文本句的坐標(biāo),將組合圖形圖像映射為版式文檔的頁(yè)面塊對(duì)象PageBlock中的 圖元,包括:根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖形圖像映射為 所述錨點(diǎn)的掛接對(duì)象所映射至的PageBlock中的圖元。
[0047] 較佳的,所述根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖形 圖像映射為版式文檔的頁(yè)面塊對(duì)象PageBlock中的圖元,包括:根據(jù)所述圖形圖像的錨點(diǎn) 信息,將圖形圖像映射為版式文檔的PageBlock中的復(fù)合圖元、路徑圖元或圖像圖元;以 及,根據(jù)所述各文本句的坐標(biāo),將各文本句映射為版式文檔的PageBlock中的文本圖元。 [0048] 較佳的,當(dāng)圖形圖像的填充屬性值為漸變或底紋填充時(shí),將圖形圖像映射為版式 文檔的PageBlock中的復(fù)合圖元。
[0049] 較佳的,不同類型的PageBlock的圖元映射至不同類型的piece ;其中,路徑圖元 映射至類型為Graph的塊,圖像圖元映射至類型為Img的塊,文本圖元映射至類型為Text 的塊。復(fù)合圖元無(wú)需標(biāo)注塊的類型。
[0050] 下面給出本發(fā)明的具體實(shí)施例:
[0051] 實(shí)施例1 :版流式邏輯結(jié)構(gòu)化處理流程。
[0052] 參見(jiàn)圖3,本實(shí)施例包括以下步驟:
[0053] A10、識(shí)別流式等原始文檔中的圖形圖像信息;
[0054] A20、圖形圖像及其段落文本位置計(jì)算;
[0055] A30、將圖形圖像信息映射為版流對(duì)等結(jié)構(gòu)。
[0056] 下面針對(duì)實(shí)施例1中的各個(gè)步驟,分別給出具體實(shí)施例。
[0057] 實(shí)施例2 :識(shí)別流式等原始文檔中的圖形圖像信息。
[0058] 如圖4所示,包括以下步驟:
[0059] B10、初始化識(shí)別環(huán)境;
[0060] 依據(jù)原始文檔類型(例如docx文檔,或書版軟件的xml (Extensible Markup Language,可擴(kuò)展標(biāo)記語(yǔ)言)流式文檔等)初始化對(duì)應(yīng)的應(yīng)用程序二次開(kāi)發(fā)接口環(huán)境或自 開(kāi)發(fā)的分析工具環(huán)境或相關(guān)的內(nèi)核引擎,并加載該文檔。通過(guò)現(xiàn)有開(kāi)發(fā)環(huán)境或技術(shù)可以正 確獲取原始文檔的全局性默認(rèn)圖形圖像的屬性組(或式樣)信息defaultShapeStyleMap, 米用標(biāo) 準(zhǔn) C++std::map<strAttributeName, strAttributeValue>, defaultShapeSt yleMap,即可承載這些信息,其中strAttributeName表示圖形圖像的各屬性名稱, strAttributeValue表示圖形圖像的各屬性名稱對(duì)應(yīng)的值,如(fontSize, 10.5)表示字體 大小為10. 5, (alignment, left)表示左對(duì)齊等。
[0061] B20、圖形圖像的純流式分析;
[0062] 流式文檔中的圖形圖像對(duì)象通常錨在段落(包括文字表單元格中的段落)、或整 個(gè)文檔頁(yè)面(也包含類似演示文稿的母版或幻燈片頁(yè)面)。在上述B10提供的環(huán)境下,可正 確識(shí)別(例如純分析該原始文檔格式)并依次獲取文檔版芯段落或頁(yè)面上類型為圖形圖像 的錨點(diǎn)對(duì)象,而類似頁(yè)眉頁(yè)腳或文檔背景等中的圖形圖像不在此列。
[0063] 此外,通過(guò)純分析該圖形圖像信息,可以獲取除了作為字符As char錨在段落文本 上的相對(duì)于該頁(yè)面的錨點(diǎn)坐標(biāo)(x,y)位置信息,該(x,y)位置信息也作為圖形圖像的兩個(gè) 基本屬性記錄下來(lái)。
[0064] B30、保存圖形圖像識(shí)別結(jié)果。
[0065] 本發(fā)明構(gòu)造了如下幾個(gè)數(shù)據(jù)結(jié)構(gòu)來(lái)表達(dá)組合圖形圖像信息:
[0066] 1、組合圖形圖像信息結(jié)構(gòu),記為shapeGroup :采用一個(gè)遞歸的簡(jiǎn)單結(jié)構(gòu)表達(dá),Str uct{bGroup;std::Vector<struct{shapeStyleMap;shapeContentVector}>shapes;embedG roupPointer;};其中bGroup表示該圖形圖像是否為組合圖形;shapeStyleMap表示圖形 圖像的屬性組信息結(jié)構(gòu)(參見(jiàn)下2) ; shapeContentVector表示圖形圖像內(nèi)文本段信息結(jié)構(gòu) (參見(jiàn)下3),shapes表達(dá)若干個(gè)組合的圖形圖像;embedGroupPointer表示嵌套的組合圖形 圖像指針,指向該結(jié)構(gòu)即shapeGroup。
[0067] 2、單一圖形圖像的屬性組信息結(jié)構(gòu),記為shapeStyleMap :采用標(biāo)準(zhǔn)C++std: :map 〈strAttributeName, strAttributeValue>shapeStyleMap;即可承載這些信息(包括圖形的 類別,如矩形等)。
[0068] 3、單一圖形圖像內(nèi)文本段信息結(jié)構(gòu),記為shapeContentVector :采用標(biāo)準(zhǔn)C++std ::Vector<struct{std::map<strAttributeName, strAttributeValue>paraStyleMap;std: :Vector<struct{string run; std::map〈strAttributeName, strAttributeValue>runStyl eMap} >runVector;} >shapeContentVector;用于記錄并保存圖形圖像中的若干段落信息, 其中paraStyleMap用于描述該段落的屬性組,runVector用于描述文本段落的基本組成單 元,即句,它又由句文本(即其中的string run)和句屬性(即其中的runStyleMap)組構(gòu) 成。
[0069] 通過(guò)以上步驟,即可完整獲取并保存原始文檔中的圖形圖像信息。
[0070] 實(shí)施例3 :圖形圖像及其段落文本位置計(jì)算。
[0071] 參見(jiàn)圖5,具體包括以下內(nèi)容:
[0072] C10、錨點(diǎn)類型分析;
[0073] 從上述shapeGroup結(jié)構(gòu)中唯一的shapeStyleMap入口中查找該錨點(diǎn)對(duì)象的錨點(diǎn) 類型屬性值,若不為As char類型則不進(jìn)行C20的錨點(diǎn)對(duì)象位置計(jì)算,即實(shí)施例2步驟B20 中已經(jīng)獲取;但仍需計(jì)算段落文本位置。若為As Char類型,則需要進(jìn)行C20的錨點(diǎn)對(duì)象及 其段落文本位置計(jì)算。
[0074] C20、錨點(diǎn)對(duì)象及其段落文本位置計(jì)算;
[0075] 錨點(diǎn)對(duì)象及其段落文本的位置計(jì)算兩方面內(nèi)容:通過(guò)現(xiàn)有Office APIs (Application Programming Interface,應(yīng)用程序編程接口)中選擇 Selection 和 區(qū)域Range對(duì)象或者通過(guò)內(nèi)核排版引擎或者通過(guò)自定義排版引擎,計(jì)算得到該錨點(diǎn)對(duì) 象排版后(x,y)位置坐標(biāo)值。而通過(guò)其中各文本句及其段落文本句屬性組以及默認(rèn)的 defaultShapeStyleMap即可計(jì)算出各文本句的(x,y)位置值。
[0076] C30、保存排版計(jì)算結(jié)果。
[0077] 分別將上述C20中獲取的錨點(diǎn)對(duì)象和段落文本位置的(x,y)坐標(biāo)值賦值給 shapeStyleMap 中的 X,y 屬性和 runStyleMap 中的 X,y 屬性。
[0078] 實(shí)施例4 :將圖形圖像信息映射為版流對(duì)等結(jié)構(gòu)。
[0079] 參見(jiàn)圖6,具體包括以下內(nèi)容:
[0080] D10、錨點(diǎn)對(duì)象到版式文檔映射;
[0081] 先從shapeGroup結(jié)構(gòu)中查詢錨點(diǎn)對(duì)象類型。若是頁(yè)面錨點(diǎn)對(duì)象則直接將該錨點(diǎn) 對(duì)象整體性映射到版式文檔對(duì)應(yīng)頁(yè)面的頁(yè)面塊對(duì)象(PageBlock);否則首先將該錨點(diǎn)對(duì)象 的掛接對(duì)象(如段落)映射到版式文檔對(duì)應(yīng)頁(yè)面的頁(yè)面塊對(duì)象(PageBlock),然后將錨點(diǎn)對(duì) 象整體性映射到該pageBlock上。
[0082] 具體來(lái)講,將錨點(diǎn)對(duì)象整體性映射到pageBlock上的方法是,依次處理上述 shapeGroup中錨點(diǎn)對(duì)象及其可能的組合對(duì)象,若圖形屬性組中填充屬性(Fill)值為漸變 或底紋填充,則將錨點(diǎn)對(duì)象和漸變或底紋分別映射為對(duì)應(yīng)的版式路徑或圖像圖元和漸變或 底紋圖元,然后將它們兩個(gè)組合成一個(gè)復(fù)合圖元整體關(guān)聯(lián)到該pageBlock上;否則僅將錨 點(diǎn)對(duì)象映射為對(duì)應(yīng)的版式路徑或圖像圖元關(guān)聯(lián)到該pageBlock上。又若錨點(diǎn)對(duì)象有段落文 本,則將其中各文本句依次映射為該pageBlock上的文本圖元。
[0083] D20、錨點(diǎn)對(duì)象的版式邏輯結(jié)構(gòu)信息映射。
[0084] 將上述pageBlock中的各類型圖元pageObject映射到一個(gè)版式邏輯結(jié)構(gòu)信息的 某個(gè)段落片段的若干塊Piece上,其中塊依據(jù)pageBlock中連續(xù)的圖元類型來(lái)劃分,路徑圖 元?jiǎng)t映射到類型為Graph的塊,圖像圖元?jiǎng)t映射到類型為Img的塊,文本圖元?jiǎng)t映射到類型 為Text的塊,而復(fù)合圖元無(wú)需標(biāo)注塊的類型。
[0085] 上述圖形圖像的版流式邏輯結(jié)構(gòu)化處理方法,由于其采用了整體性識(shí)別流式圖形 圖像結(jié)構(gòu)化信息,這樣就可以在移動(dòng)設(shè)備上具有很好的自適應(yīng)性,即用戶的閱讀體驗(yàn)非常 好。
[0086] 參見(jiàn)圖7,本發(fā)明實(shí)施例提供的一種流式文檔的處理裝置包括:
[0087] 識(shí)別模塊71,用于從流式文檔中獲取由圖形圖像與文本組成的組合圖形圖像的信 息;其中包括圖形圖像的錨點(diǎn)信息和文本的屬性信息;
[0088] 坐標(biāo)確定模塊72,用于根據(jù)所述文本的屬性信息和所述圖形圖像的錨點(diǎn)信息,確 定各文本句的坐標(biāo);
[0089] 映射模塊73,用于根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合 圖形圖像映射至版式文檔。
[0090] 較佳的,所述識(shí)別模塊具體用于:獲取流式文檔中全部圖形圖像的屬性信息;根 據(jù)所述全部圖形圖像的屬性信息,確定并保存頁(yè)面預(yù)設(shè)區(qū)域內(nèi)的組合圖形圖像的信息。
[0091] 較佳的,所述圖形圖像的錨點(diǎn)信息包括圖形圖像的錨點(diǎn)類型。
[0092] 較佳的,當(dāng)所述圖形圖像的錨點(diǎn)類型為非作為字符As char時(shí),識(shí)別模塊從流式文 檔中獲取的圖形圖像的錨點(diǎn)信息還包括錨點(diǎn)坐標(biāo);坐標(biāo)確定模塊具體用于:根據(jù)所述文本 的屬性信息和圖形圖像的錨點(diǎn)坐標(biāo),確定各文本句的坐標(biāo)。
[0093] 較佳的,當(dāng)所述圖形圖像的錨點(diǎn)類型為作為字符As char時(shí),坐標(biāo)確定模塊具體 用于:通過(guò)排版獲取圖形圖像的錨點(diǎn)坐標(biāo);根據(jù)所述文本的屬性信息和圖形圖像的錨點(diǎn)坐 標(biāo),確定各文本句的坐標(biāo)。
[0094] 較佳的,所述文本的屬性信息,包括:文本句及其段落的屬性信息。
[0095] 較佳的,參見(jiàn)圖8,所述映射模塊73,包括:
[0096] 圖元映射模塊81,用于根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將 組合圖形圖像映射為版式文檔的頁(yè)面塊對(duì)象PageBlock中的圖元;
[0097] 塊映射模塊82,用于將所述PageBlock中的圖元映射至該版式文檔的邏輯結(jié)構(gòu)信 息的段落片段的塊piece。
[0098] 參見(jiàn)圖9,較佳的,所述映射模塊73還包括:
[0099] 掛接對(duì)象映射模塊83,用于當(dāng)所述組合圖形圖像的錨點(diǎn)的掛接對(duì)象不是頁(yè)面時(shí), 將所述錨點(diǎn)的掛接對(duì)象映射至版式文檔的頁(yè)面塊對(duì)象PageBlock。
[0100] 較佳的,所述圖元映射模塊81,具體用于:根據(jù)所述圖形圖像的錨點(diǎn)信息,將圖形 圖像映射為版式文檔的PageBlock中的復(fù)合圖元、路徑圖元或圖像圖元;以及,根據(jù)所述各 文本句的坐標(biāo),將各文本句映射為版式文檔的PageBlock中的文本圖元。
[0101] 較佳的,當(dāng)確定圖形圖像的填充屬性值為漸變或底紋填充時(shí),圖元映射模塊將圖 形圖像映射為版式文檔的PageBlock中的復(fù)合圖元。
[0102] 綜上所述,本發(fā)明實(shí)施例提供了一種流式文檔的處理方法及裝置,用于將流式文 檔轉(zhuǎn)化為版式文檔,并正確呈現(xiàn)由文本和圖形圖像組成的組合圖形圖像;增強(qiáng)了文檔在不 同設(shè)備上顯示時(shí)的自適應(yīng)性,提高了用戶體驗(yàn)。
[0103] 本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序 產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí) 施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī) 可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器和光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形 式。
[0104] 本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程 圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一 流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算 機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理 器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生 用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能 的裝置。
[0105] 這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特 定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指 令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或 多個(gè)方框中指定的功能。
[0106] 這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì) 算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或 其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖 一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0107] 顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍 之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
【權(quán)利要求】
1. 一種流式文檔的處理方法,其特征在于,該方法包括: 從流式文檔中獲取由圖形圖像與文本組成的組合圖形圖像的信息;其中包括圖形圖像 的錨點(diǎn)信息和文本的屬性信息; 根據(jù)所述文本的屬性信息和所述圖形圖像的錨點(diǎn)信息,確定各文本句的坐標(biāo); 根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖形圖像映射至版式文 檔。
2. 如權(quán)利要求1所述的方法,其特征在于,從流式文檔中獲取由圖形圖像與文本組成 的組合圖形圖像的信息,包括: 獲取流式文檔中全部圖形圖像的屬性信息; 根據(jù)所述全部圖形圖像的屬性信息,確定并保存頁(yè)面預(yù)設(shè)區(qū)域內(nèi)的組合圖形圖像的信 息。
3. 如權(quán)利要求1或2所述的方法,其特征在于,所述圖形圖像的錨點(diǎn)信息包括圖形圖像 的錨點(diǎn)類型。
4. 如權(quán)利要求3所述的方法,其特征在于,當(dāng)所述圖形圖像的錨點(diǎn)類型為非作為字符 As char時(shí),從流式文檔中獲取的圖形圖像的錨點(diǎn)信息還包括錨點(diǎn)坐標(biāo); 根據(jù)所述文本的屬性信息和所述圖形圖像的錨點(diǎn)信息,確定各文本句的坐標(biāo),包括: 根據(jù)所述文本的屬性信息和圖形圖像的錨點(diǎn)坐標(biāo),確定各文本句的坐標(biāo)。
5. 如權(quán)利要求3所述的方法,其特征在于,當(dāng)所述圖形圖像的錨點(diǎn)類型為作為字符As char時(shí),根據(jù)所述文本的屬性信息和所述圖形圖像的錨點(diǎn)信息,確定各文本句的坐標(biāo),包 括: 通過(guò)排版獲取圖形圖像的錨點(diǎn)坐標(biāo); 根據(jù)所述文本的屬性信息和圖形圖像的錨點(diǎn)坐標(biāo),確定各文本句的坐標(biāo)。
6. 如權(quán)利要求1所述的方法,其特征在于,所述文本的屬性信息,包括:文本句及其段 落的屬性信息。
7. 如權(quán)利要求1所述的方法,其特征在于,根據(jù)所述組合圖形圖像的信息和所述各文 本句的坐標(biāo),將組合圖形圖像映射至版式文檔,包括: 根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖形圖像映射為版式文 檔的頁(yè)面塊對(duì)象PageBlock中的圖元; 將所述PageBlock中的圖元映射至該版式文檔的邏輯結(jié)構(gòu)信息的段落片段的塊 piece。
8. 如權(quán)利要求7所述的方法,其特征在于,當(dāng)所述組合圖形圖像的錨點(diǎn)的掛接對(duì)象不 是頁(yè)面時(shí),該方法還包括: 將所述錨點(diǎn)的掛接對(duì)象映射至版式文檔的頁(yè)面塊對(duì)象PageBlock ; 根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖形圖像映射為版式文 檔的頁(yè)面塊對(duì)象PageBlock中的圖元,包括:根據(jù)所述組合圖形圖像的信息和所述各文本 句的坐標(biāo),將組合圖形圖像映射為所述錨點(diǎn)的掛接對(duì)象所映射至的PageBlock中的圖元。
9. 如權(quán)利要求7所述的方法,其特征在于,根據(jù)所述組合圖形圖像的信息和所述各文 本句的坐標(biāo),將組合圖形圖像映射為版式文檔的頁(yè)面塊對(duì)象PageBlock中的圖元,包括: 根據(jù)所述圖形圖像的錨點(diǎn)信息,將圖形圖像映射為版式文檔的PageBlock中的復(fù)合圖 元、路徑圖元或圖像圖元;以及, 根據(jù)所述各文本句的坐標(biāo),將各文本句映射為版式文檔的PageBlock中的文本圖元。
10. 如權(quán)利要求9所述的方法,其特征在于,當(dāng)圖形圖像的填充屬性值為漸變或底紋填 充時(shí),將圖形圖像映射為版式文檔的PageB 1 ock中的復(fù)合圖元。
11. 一種流式文檔的處理裝置,其特征在于,該裝置包括: 識(shí)別模塊,用于從流式文檔中獲取由圖形圖像與文本組成的組合圖形圖像的信息;其 中包括圖形圖像的錨點(diǎn)信息和文本的屬性信息; 坐標(biāo)確定模塊,用于根據(jù)所述文本的屬性信息和所述圖形圖像的錨點(diǎn)信息,確定各文 本句的坐標(biāo); 映射模塊,用于根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖形圖 像映射至版式文檔。
12. 如權(quán)利要求11所述的裝置,其特征在于,所述識(shí)別模塊具體用于: 獲取流式文檔中全部圖形圖像的屬性信息; 根據(jù)所述全部圖形圖像的屬性信息,確定并保存頁(yè)面預(yù)設(shè)區(qū)域內(nèi)的組合圖形圖像的信 息。
13. 如權(quán)利要求11或12所述的裝置,其特征在于,所述圖形圖像的錨點(diǎn)信息包括圖形 圖像的錨點(diǎn)類型。
14. 如權(quán)利要求13所述的裝置,其特征在于,當(dāng)所述圖形圖像的錨點(diǎn)類型為非作為字 符As char時(shí),識(shí)別模塊從流式文檔中獲取的圖形圖像的錨點(diǎn)信息還包括錨點(diǎn)坐標(biāo); 坐標(biāo)確定模塊具體用于: 根據(jù)所述文本的屬性信息和圖形圖像的錨點(diǎn)坐標(biāo),確定各文本句的坐標(biāo)。
15. 如權(quán)利要求13所述的裝置,其特征在于,當(dāng)所述圖形圖像的錨點(diǎn)類型為作為字符 As char時(shí),坐標(biāo)確定模塊具體用于: 通過(guò)排版獲取圖形圖像的錨點(diǎn)坐標(biāo); 根據(jù)所述文本的屬性信息和圖形圖像的錨點(diǎn)坐標(biāo),確定各文本句的坐標(biāo)。
16. 如權(quán)利要求11所述的裝置,其特征在于,所述文本的屬性信息,包括:文本句及其 段落的屬性信息。
17. 如權(quán)利要求11所述的裝置,其特征在于,所述映射模塊,包括: 圖元映射模塊,用于根據(jù)所述組合圖形圖像的信息和所述各文本句的坐標(biāo),將組合圖 形圖像映射為版式文檔的頁(yè)面塊對(duì)象PageBlock中的圖元; 塊映射模塊,用于將所述PageBlock中的圖元映射至該版式文檔的邏輯結(jié)構(gòu)信息的段 落片段的塊piece。
18. 如權(quán)利要求17所述的裝置,其特征在于,所述映射模塊還包括: 掛接對(duì)象映射模塊,用于當(dāng)所述組合圖形圖像的錨點(diǎn)的掛接對(duì)象不是頁(yè)面時(shí),將所述 錨點(diǎn)的掛接對(duì)象映射至版式文檔的頁(yè)面塊對(duì)象PageBlock。
19. 如權(quán)利要求17所述的裝置,其特征在于,所述圖元映射模塊,具體用于: 根據(jù)所述圖形圖像的錨點(diǎn)信息,將圖形圖像映射為版式文檔的PageBlock中的復(fù)合圖 元、路徑圖元或圖像圖元;以及, 根據(jù)所述各文本句的坐標(biāo),將各文本句映射為版式文檔的PageBlock中的文本圖元。
20.如權(quán)利要求19所述的裝置,其特征在于,當(dāng)確定圖形圖像的填充屬性值為漸變或 底紋填充時(shí),圖元映射模塊將圖形圖像映射為版式文檔的PageBlock中的復(fù)合圖元。
【文檔編號(hào)】G06F17/21GK104111913SQ201310131006
【公開(kāi)日】2014年10月22日 申請(qǐng)日期:2013年4月16日 優(yōu)先權(quán)日:2013年4月16日
【發(fā)明者】王長(zhǎng)勝, 邢國(guó)峰 申請(qǐng)人:北大方正集團(tuán)有限公司, 北京方正阿帕比技術(shù)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
伽师县| 桦甸市| 简阳市| 历史| 洛南县| 长沙县| 肥城市| 乌拉特后旗| 玉溪市| 常州市| 英德市| 定结县| 永昌县| 镇平县| 巴彦淖尔市| 涿鹿县| 乐东| 瓮安县| 象山县| 玉山县| 凤山市| 崇左市| 鞍山市| 冀州市| 顺平县| 东阳市| 承德市| 广平县| 灯塔市| 霍邱县| 沭阳县| 泰宁县| 乡宁县| 金沙县| 炎陵县| 文山县| 威宁| 唐海县| 昌邑市| 韶山市| 栖霞市|