對流格式文檔中的布局結(jié)構(gòu)元素進(jìn)行色彩編碼的制作方法
【專利摘要】提供了色彩編碼引擎和比較引擎。色彩編碼引擎可被利用來檢測流格式文檔中的邏輯布局對象屬性,并將唯一性的色彩應(yīng)用于與每一邏輯布局對象屬性相關(guān)聯(lián)的文本元素。得到的經(jīng)色彩編碼的文檔可被保存為目標(biāo)流格式文檔。目標(biāo)流格式文檔可被轉(zhuǎn)換成固定格式文檔,并隨后被轉(zhuǎn)換引擎轉(zhuǎn)換成流格式文檔。得到的經(jīng)轉(zhuǎn)換流格式文檔可被保存為輸出流格式文檔。比較引擎可被利用來將輸出流格式文檔和目標(biāo)流格式文檔進(jìn)行比較以確定布局信息是否已在文檔轉(zhuǎn)換過程中被正確地保留。
【專利說明】對流格式文檔中的布局結(jié)構(gòu)元素進(jìn)行色彩編碼
[0001] 置量
[0002] 流格式文檔和固定格式文檔被廣泛使用且具有不同的目的。流格式文檔使用諸如 章節(jié)、段落、列和表之類的復(fù)雜邏輯格式化對象來組織文檔。結(jié)果,流格式文檔提供了靈活 性且容易修改,使得它們適用于涉及被頻繁更新或受到相當(dāng)多編輯的文檔的任務(wù)。相反,固 定格式文檔使用諸如文本串、路徑和圖像之類的基本物理布局元素來組織文檔以保留原始 外觀。固定格式文檔提供了一致且精確的格式布局,使得它們適用于涉及不被頻繁或大量 改變的或其中需要統(tǒng)一性的文檔的任務(wù)。這樣的任務(wù)的示例包括文檔歸檔、高質(zhì)量再現(xiàn)、以 及用于商業(yè)發(fā)布和印刷的源文件。固定格式文檔通常從流格式源文檔中創(chuàng)建。固定格式文 檔還包括物理(即,紙質(zhì))文檔的數(shù)字化再現(xiàn)(例如,掃描和照片)。
[0003] 在其中需要編輯固定格式文檔但流格式源文檔不可用的情況下,固定格式文檔必 須被轉(zhuǎn)換成流格式文檔。轉(zhuǎn)換涉及解析該固定格式文檔并將來自固定格式文檔的基本物理 布局元素變換成在流格式文檔中使用的更復(fù)雜的邏輯元素。
[0004] 在針對準(zhǔn)確性對轉(zhuǎn)換過程進(jìn)行測試時(shí),在進(jìn)行了到流格式文檔的固定格式文檔轉(zhuǎn) 換之后的輸出可被測試以確定布局信息是否從固定格式文檔中被正確地提取。固定格式文 檔具有有限的工具用于保留文檔布局信息。目前,對一些布局特征的測試可能需要對這些 布局特征進(jìn)行人工視覺檢查。例如,測試者可觀看轉(zhuǎn)換成流格式文檔之前的文檔和轉(zhuǎn)換之 后的文檔以查看特征(諸如,段落)是否是相同的并因此被正確地轉(zhuǎn)換。如可領(lǐng)會(huì)的,人工 視覺檢查可能是低效的并易引起人為錯(cuò)誤。例如,測試者可能觀看經(jīng)轉(zhuǎn)換文檔中的標(biāo)題,并 可確定它看上去好像它在頁面頂部的正確位置中;然而該標(biāo)題可能不在該文檔的標(biāo)題區(qū)域 中。
[0005] 本發(fā)明正是對于這些和其他考慮事項(xiàng)而做出的。
[0006] 攝述
[0007] 本發(fā)明的各實(shí)施例通過利用色彩將與文檔的布局結(jié)構(gòu)特征和屬性有關(guān)的信息嵌 入到該文檔的內(nèi)容中來解決以上和其他問題。
[0008] 色彩編碼可被利用來在文檔中的不同布局結(jié)構(gòu)元素之間進(jìn)行區(qū)分。色彩編碼引擎 可被利用來檢測流格式文檔中的邏輯布局對象屬性,并將唯一的色彩應(yīng)用于與每一邏輯布 局對象屬性相關(guān)聯(lián)的文本元素。得到的經(jīng)色彩編碼的文檔可被保存為目標(biāo)流格式文檔并被 轉(zhuǎn)換成固定格式文檔。固定格式文檔可被轉(zhuǎn)換引擎轉(zhuǎn)換成流格式文檔并被保存為輸出流格 式文檔。比較引擎可被利用來將輸出流格式文檔和目標(biāo)流格式文檔進(jìn)行比較以確定布局信 息是否已在文檔轉(zhuǎn)換過程中被正確地保留。
[0009] 一個(gè)或多個(gè)實(shí)施例的詳情在附圖及以下描述中闡述。通過閱讀以下詳細(xì)描述并查 閱相關(guān)聯(lián)的附圖,其它特征和優(yōu)點(diǎn)將是顯而易見的。應(yīng)該理解,下述詳細(xì)的描述僅是說明性 的,而不是對所要求保護(hù)的發(fā)明的限制。
[0010] 提供本
【發(fā)明內(nèi)容】
以便以簡化的形式介紹將在以下【具體實(shí)施方式】中進(jìn)一步描述的 一些概念。本
【發(fā)明內(nèi)容】
并不旨在標(biāo)識所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨在 用于幫助確定所要求保護(hù)的主題的范圍。
[0011] 附圖簡沐
[0012] 合并在本發(fā)明中并構(gòu)成其一部分的附圖示出本發(fā)明的各種實(shí)施方式。在附圖中:
[0013] 圖1是包括文檔轉(zhuǎn)換器的系統(tǒng)的一個(gè)實(shí)施例的框圖;
[0014] 圖2是示出文檔處理器的一個(gè)實(shí)施例的操作流程的框圖;
[0015] 圖3是包括色彩編碼引擎和比較引擎的往返方法的一個(gè)實(shí)施例的框圖;
[0016] 圖4是對示例目標(biāo)文檔及輸出文檔中的經(jīng)色彩編碼的邏輯布局對象進(jìn)行比較的 圖示;
[0017] 圖5是對示例目標(biāo)文檔及輸出文檔中的經(jīng)色彩編碼的邏輯布局對象屬性進(jìn)行比 較的圖示;
[0018] 圖6是示例報(bào)告的圖示;
[0019] 圖7是用于利用色彩編碼來檢測在從固定格式文檔轉(zhuǎn)換成的流格式文檔中的布 局信息的方法的流程圖;
[0020] 圖8是示出可用來實(shí)施本發(fā)明的各實(shí)施例的計(jì)算設(shè)備的示例物理組件的框圖;
[0021] 圖9A和9B是可用來實(shí)施本發(fā)明的各實(shí)施例的移動(dòng)計(jì)算設(shè)備的簡化框圖;以及
[0022] 圖10是可用來實(shí)施本發(fā)明的各實(shí)施例的分布式計(jì)算系統(tǒng)的簡化框圖。
[0023] 詳細(xì)描沐
[0024] 如上簡要所述,本發(fā)明的實(shí)施例涉及提供對流格式文檔中的布局結(jié)構(gòu)元素的色彩 編碼。流格式文檔可被轉(zhuǎn)換成固定格式文檔,并隨后被轉(zhuǎn)換回流格式文檔。根據(jù)各實(shí)施例, 色彩編碼可被利用來在可在比較測試中進(jìn)行比較的各布局結(jié)構(gòu)元素之間進(jìn)行區(qū)分。
[0025] 下面的詳細(xì)描述參考各個(gè)附圖。只要可能,就在附圖和以下描述中使用相同的附 圖標(biāo)記來指示相同或相似的元件。盡管可能描述了本發(fā)明的各實(shí)施方式,但修改、改編和其 他實(shí)現(xiàn)也是可能的。例如,可以對附圖中所示出的要素進(jìn)行置換、添加、或修改,且可以通過 對所公開的方法置換、重新排序、或添加階段來修改此處所描述的方法。因此,下文的詳細(xì) 描述不限制本發(fā)明,相反,本發(fā)明的合適范圍由所附權(quán)利要求來限定。
[0026] 現(xiàn)在參考其中相同的標(biāo)號代表相同的元素的附圖,描述各實(shí)施例。圖1示出了包 含在計(jì)算設(shè)備104上執(zhí)行的文檔轉(zhuǎn)換器102的系統(tǒng)的一個(gè)實(shí)施例。文檔轉(zhuǎn)換器102使用解 析器110、文檔處理器112以及串行化器114將固定格式文檔106轉(zhuǎn)換成流格式文檔108。 解析器110從固定格式文檔106中讀取和提取數(shù)據(jù)。從固定格式文檔中提取的數(shù)據(jù)被寫入 可由文檔處理器112和串行化器114訪問的數(shù)據(jù)存儲116。文檔處理器112使用一個(gè)或多 個(gè)檢測和/或重構(gòu)引擎來分析該數(shù)據(jù)并將該數(shù)據(jù)變換成可流動(dòng)元素。最后,串行化器114 將可流動(dòng)元素寫成可流動(dòng)文檔格式(例如,文字處理格式)。
[0027] 圖2更加詳細(xì)地示出文檔處理器112的操作流程的一個(gè)實(shí)施例。文檔處理器112 包括可任選的光學(xué)字符識別(OCR)引擎202、布局分析引擎204以及語義分析引擎206。數(shù) 據(jù)存儲116中包含的數(shù)據(jù)包括物理布局對象208和邏輯布局對象210。在一些實(shí)施例中, 物理布局對象208和邏輯布局對象210被分層安排在編組(S卩,數(shù)據(jù)對象)的樹類陣列中。 在各實(shí)施例中,頁面是物理布局對象208的頂層編組,而章節(jié)是邏輯布局對象210的頂層編 組。從固定格式文檔106中提取的數(shù)據(jù)一般被存儲為由固定格式文檔106中的包含頁面來 組織的物理布局對象208。基本物理布局對象208包括文本串、圖像和路徑。文本串是在 頁面內(nèi)容流中指定當(dāng)顯示固定格式文檔時(shí)字符的繪制位置的文本元素。圖像是儲存在固定 格式文檔106中的光柵圖像(S卩,圖片)。路徑描述了諸如用于構(gòu)建矢量圖的線、曲線(例 如,三次貝塞爾曲線)和文本輪廓等元素。邏輯布局對象210包括諸如章節(jié)、段落、列、表和 列表等可流動(dòng)元素。
[0028] 處理開始的位置取決于被解析的固定格式文檔106的類型。從流格式源文檔直接 創(chuàng)建的本機(jī)固定格式文檔106A包含基本物理布局元素中的一些或全部。嵌入式數(shù)據(jù)對象 由解析器提取并且可供文檔轉(zhuǎn)換器立即使用;但在某些情況下,微小的重新格式化或其它 微小處理被應(yīng)用來組織或標(biāo)準(zhǔn)化數(shù)據(jù)。相反,通過對物理文檔進(jìn)行數(shù)字圖像化(例如,掃描 或拍照)而創(chuàng)建的基于圖像的固定格式文檔106B中的所有信息被存儲作為不帶有附加數(shù) 據(jù)(即,沒有文本串或路徑)的一系列頁面圖像。在這種情況下,可任選的光學(xué)字符識別引 擎202分析每一頁面圖像并創(chuàng)建對應(yīng)的物理布局對象。一旦物理布局對象208可用,布局 分析引擎204就分析固定格式文檔的布局。在布局分析完成之后,語義分析引擎206用從 對物理布局對象和/或邏輯布局對象的分析中獲得的語義信息來豐富邏輯布局對象。
[0029] 可針對準(zhǔn)確性來測試固定格式文檔106到流格式文檔108C的轉(zhuǎn)換。根據(jù)各實(shí)施 例,一個(gè)測試方法可包括往返方法?,F(xiàn)參考圖3,示出了用于確定是否已從固定格式文檔 106正確地提取了邏輯布局對象210的往返方法300。如圖所示,流格式文檔108A(例如, 文字處理文檔)可被轉(zhuǎn)換304成固定格式文檔106 (例如,PDF文檔)。固定格式文檔106 可以是經(jīng)標(biāo)記的或未經(jīng)標(biāo)記的固定格式文檔。固定格式文檔106可隨后被轉(zhuǎn)換306回流格 式文檔108C。從固定格式文檔106到流格式文檔108C的轉(zhuǎn)換306可由轉(zhuǎn)換器102來執(zhí)行, 如以上參考圖1所描述的。
[0030] 根據(jù)各實(shí)施例,在將流格式文檔108A轉(zhuǎn)換304成固定格式文檔106時(shí),可以用色 彩對一種或多種類型的邏輯布局對象210進(jìn)行編碼。根據(jù)一個(gè)實(shí)施例,對邏輯布局對象210 進(jìn)行編碼可由色彩編碼引擎302來執(zhí)行。通過用色彩對邏輯布局對象210進(jìn)行編碼,描述 各種文檔屬性的許多絕對數(shù)可被保留,因?yàn)樯士蓮牟煌袷睫D(zhuǎn)換而來,而幾乎沒有降級。 可被進(jìn)行色彩編碼的邏輯布局對象210可包括但不限于段落、章節(jié)、表、列表和字體屬性。 術(shù)語"目標(biāo)文檔"1〇8Β在本文中可用于描述在流格式文檔108B被轉(zhuǎn)換304成固定格式文檔 106之前的該流格式文檔108B,且術(shù)語"輸出文檔"108C在本文中可用于描述在流格式文檔 108C被從固定格式文檔106轉(zhuǎn)換306出后的該流格式文檔108C。
[0031] 根據(jù)各實(shí)施例,色彩編碼可被利用來在可在比較測試中進(jìn)行比較的不同邏輯布局 對象210之間進(jìn)行區(qū)分。所選類型的邏輯布局對象中的每一邏輯布局對象210 (例如,列表 中的每一個(gè)列表項(xiàng)、文檔中的每一段落,等等)均可以用唯一性的色彩來著色。例如并如圖 4所示,色彩編碼可被利用來存儲有關(guān)段落的信息。如圖4所示,流格式文檔108A中的每 一段落402、404、406、408都可以用不同的色彩來著色。例如,第一段落402可被著紅色,第 二段落404可被著藍(lán)色,第三段落406可被著綠色,且第四段落408可被著紫色。在該示例 中,色彩編碼可被利用來提供可容易標(biāo)識的比較特征來對目標(biāo)文檔108B和輸出文檔108C 中的各段落402、404、406、408進(jìn)行比較。
[0032] 此外,色彩編碼可被利用來表示與邏輯布局對象210的屬性310有關(guān)的信息。例 如并如圖5所示,色彩編碼可被利用來在各段落對齊(屬性310)之間進(jìn)行區(qū)分。每一段落 對齊類型(例如,左對齊、居中對齊、右對齊和兩端對齊)可以用不同的色彩來編碼。例如, 第一段落502中的文本可被左對齊并被色彩編碼成綠色,第二段落504中的文本可被居中 對齊并被色彩編碼成棕色,第三段落506中的文本可被右對齊并被色彩編碼成桔色,且第 四段落508中的文本可被兩端對齊并被色彩編碼成灰色。在該示例中,色彩編碼可被利用 來提供可容易標(biāo)識的比較特征來對目標(biāo)文檔108B和輸出文檔108C中的段落502、504、506、 508的對齊進(jìn)行比較。
[0033] 回頭參考圖2,根據(jù)各實(shí)施例,一個(gè)或多個(gè)特征308可被選擇以在比較測試中進(jìn)行 比較。比較測試可包括測試文檔108B、108C的子集。比較測試可由比較引擎312來執(zhí)行。 比較引擎312在將輸出文檔108C與目標(biāo)文檔108B進(jìn)行比較時(shí)可聚焦于所選的特征308。 可被比較的特征308可包括邏輯布局對象210 (以上參考圖4描述)并可包括邏輯布局對 象210的屬性310 (如以上參考圖5所描述的)。可被進(jìn)行色彩編碼和比較的邏輯布局對 象210可包括但不限于章節(jié)、段落、列表、表和單詞。下表示出了根據(jù)各實(shí)施例的可被進(jìn)行 色彩編碼和比較的一些邏輯布局對象210和相關(guān)聯(lián)的屬性310。如應(yīng)領(lǐng)會(huì)的,該表不是邏輯 布局對象210和屬性310的窮盡列表,并且各實(shí)施例不應(yīng)受限于該表中包括的對象和屬性。
[0034]
【權(quán)利要求】
1. 一種用于對流格式文檔中的布局結(jié)構(gòu)元素進(jìn)行色彩編碼的方法,所述方法包括: 接收流格式文檔; 檢測一個(gè)或多個(gè)邏輯布局對象和所述一個(gè)或多個(gè)邏輯布局對象的屬性;W及 將唯一性的色彩應(yīng)用于與所述一個(gè)或多個(gè)邏輯布局對象屬性中的每一個(gè)相關(guān)聯(lián)的文 本兀素。
2. 如權(quán)利要求1所述的方法,其特征在于,檢測一個(gè)或多個(gè)邏輯布局對象和所述一個(gè) 或多個(gè)邏輯布局對象的屬性包括: 接收要在比較測試中進(jìn)行測試的一個(gè)或多個(gè)特征的指示;W及 檢測與要測試的所述一個(gè)或多個(gè)特征相關(guān)聯(lián)的一個(gè)或多個(gè)邏輯布局對象W及所述一 個(gè)或多個(gè)邏輯布局對象的屬性。
3. 如權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括在將唯一性的色彩應(yīng)用于與所 述一個(gè)或多個(gè)邏輯布局對象屬性中的每一個(gè)相關(guān)聯(lián)的文本元素后,將所述流格式文檔存儲 為目標(biāo)流格式文檔。
4. 一種用于檢測在從固定格式文檔轉(zhuǎn)換成的流格式文檔中的布局結(jié)構(gòu)元素的方法,所 述方法包括: 接收包括一個(gè)或多個(gè)經(jīng)色彩編碼的特征的目標(biāo)流格式文檔; 接收包括一個(gè)或多個(gè)經(jīng)色彩編碼的特征的輸出流格式文檔; 將所述目標(biāo)流格式文檔中的經(jīng)色彩編碼的特征與所述輸出流格式文檔中的經(jīng)色彩編 碼的特征進(jìn)行比較;W及 確定在所述輸出流格式文檔中是否檢測到所述目標(biāo)流格式文檔中的所述一個(gè)或多個(gè) 特征。
5. 如權(quán)利要求4所述的方法,其特征在于,接收輸出流格式文檔包括接收已被從所述 目標(biāo)流格式文檔轉(zhuǎn)換成固定格式文檔并且隨后被轉(zhuǎn)換成所述輸出流格式文檔的輸出流格 式文檔。
6. 如權(quán)利要求4所述的方法,其特征在于,將所述目標(biāo)流格式文檔中的經(jīng)色彩編碼的 特征與所述輸出流格式文檔中的經(jīng)色彩編碼的特征進(jìn)行比較包括將所述目標(biāo)流格式文檔 中的一個(gè)或多個(gè)邏輯布局對象的一個(gè)或多個(gè)屬性與所述輸出流格式文檔中的一個(gè)或多個(gè) 邏輯布局對象的相應(yīng)屬性進(jìn)行比較。
7. 如權(quán)利要求4所述的方法,其特征在于,接收包括一個(gè)或多個(gè)經(jīng)色彩編碼的特征的 目標(biāo)流格式文檔包括接收其中唯一性的色彩被應(yīng)用于與一個(gè)或多個(gè)屬性中的每一個(gè)屬性 相關(guān)聯(lián)的文本元素的目標(biāo)流格式文檔,所述色彩表示所述屬性的標(biāo)識。
8. 如權(quán)利要求4所述的方法,其特征在于,確定在所述輸出流格式文檔中是否檢測到 所述目標(biāo)流格式文檔中的所述一個(gè)或多個(gè)特征提供對所述目標(biāo)流格式文檔中的經(jīng)色彩編 碼的特征在從所述固定格式文檔到所述輸出流格式文檔的轉(zhuǎn)換期間是否已被保留的確定。
9. 如權(quán)利要求4所述的方法,其特征在于,進(jìn)一步包括基于對在所述輸出流格式文檔 中是否檢測到所述目標(biāo)流格式文檔中的所述一個(gè)或多個(gè)特征的確定來計(jì)算度量并生成報(bào) 告。
10. 如權(quán)利要求9所述的方法,其特征在于,計(jì)算度量包括計(jì)算精度度量。
11. 如權(quán)利要求9所述的方法,其特征在于,計(jì)算度量包括計(jì)算召回度量。
12. 如權(quán)利要求4所述的方法,其特征在于,進(jìn)一步包括生成用于轉(zhuǎn)換引擎的訓(xùn)練數(shù) 據(jù)。
13. -種用于檢測在從固定格式文檔轉(zhuǎn)換成的流格式文檔中的布局結(jié)構(gòu)元素的系統(tǒng), 所述系統(tǒng)包括: 一個(gè)或多個(gè)處理器;W及 禪合到所述一個(gè)或多個(gè)處理器的存儲器,所述一個(gè)或多個(gè)處理器能用于: 接收包括一個(gè)或多個(gè)經(jīng)色彩編碼的特征的目標(biāo)流格式文檔; 接收包括一個(gè)或多個(gè)經(jīng)色彩編碼的特征的輸出流格式文檔; 將所述目標(biāo)流格式文檔中的經(jīng)色彩編碼的特征與所述輸出流格式文檔中的經(jīng)色彩編 碼的特征進(jìn)行比較;W及 確定在所述輸出流格式文檔中是否檢測到所述目標(biāo)流格式文檔中的所述一個(gè)或多個(gè) 特征。
14. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述輸出流格式文檔包括已被從所述目 標(biāo)流格式文檔轉(zhuǎn)換成固定格式文檔并且隨后被轉(zhuǎn)換成所述輸出流格式文檔的輸出流格式 文檔。
15. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述特征包括一個(gè)或多個(gè)邏輯布局對象 的一個(gè)或多個(gè)屬性。
16. 如權(quán)利要求15所述的系統(tǒng),其特征在于,所述目標(biāo)流格式文檔包括被應(yīng)用于與所 述一個(gè)或多個(gè)屬性中的每一個(gè)屬性相關(guān)聯(lián)的文本元素的唯一性的色彩,所述色彩表示所述 屬性的標(biāo)識。
17. 如權(quán)利要求13所述的系統(tǒng),其特征在于,所述處理器進(jìn)一步能用于基于對在所述 輸出流格式文檔中是否檢測到所述目標(biāo)流格式文檔中的所述一個(gè)或多個(gè)特征的確定來計(jì) 算度量,所述度量提供對轉(zhuǎn)換準(zhǔn)確性的測量。
18. 如權(quán)利要求17所述的系統(tǒng),其特征在于,所述度量包括精度度量。
19. 如權(quán)利要求17所述的系統(tǒng),其特征在于,所述度量包括召回度量。
20. 如權(quán)利要求17所述的系統(tǒng),其特征在于,所述處理器進(jìn)一步能用于生成用于轉(zhuǎn)換 引擎的訓(xùn)練數(shù)據(jù)。
【文檔編號】G06K9/00GK104471588SQ201280074809
【公開日】2015年3月25日 申請日期:2012年7月20日 優(yōu)先權(quán)日:2012年7月20日
【發(fā)明者】E·J·謝爾登, M·拉扎日維克, D·斯拉維斯基, M·安提克, A·托米克 申請人:微軟公司