欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

從可移植電子文檔中提取字符外接矩形的設(shè)備和方法

文檔序號:6585767閱讀:158來源:國知局

專利名稱::從可移植電子文檔中提取字符外接矩形的設(shè)備和方法
技術(shù)領(lǐng)域
:本發(fā)明提供一種從可移植電子文檔中提取字符外接矩形的設(shè)備和方法,更具體地說,本發(fā)明涉及一種在字體需要替換的情況下從可移植電子文檔中提取字符外接矩形的設(shè)備和方法。
背景技術(shù)
:可移植的電子文檔,如PDF(PortableDocumenti^ormat,便攜式文檔格式)、PS(PostScript),在日常辦公室工作中被廣泛應(yīng)用。但是從可移植電子文檔中提取特定信息還是困難的工作,比如,AdobeAcrobat能從PDF文檔中提取字符外接矩形,但提取結(jié)果有時并不能令人滿意,其原因在于,如果PDF中的某種字體不可用即缺乏字形度量信息,則無法提取該字體的字符的外接矩形。已經(jīng)存在的字體替換算法主要關(guān)注于字符的柵格化,尋找視覺上相似的字體。但是這些算法并不適用于字符外接矩形的提取。字符外接矩形提取需要尋找在字形度量上相似的字體,而不是視覺上相似。美國專利6801673B2提供用來提取PDF文檔中的詞的方法。該專利通過查找文本段中的詞分隔字符(空格)來提取詞,或者通過判斷相鄰文本段之間的距離,如果該距離大于某門限值,則相鄰的文本段被分為兩個詞。該專利的輸入是PDF文檔,輸出是該文檔所包含的詞的集合。美國專利5859648提供了一種用于計算機的字體替換方法。該方法主要尋找與被替換字體視覺外形上相似的字體,目的是為了字符的柵格化。該專利首先在字體列表中查找選擇一個相似的字體,然后調(diào)整整體字體寬度以避免字符在視覺外觀上的改變;其中,相似字體的選擇是根據(jù)字體視覺外觀的相似性進行評分,沒有考慮字形度量上的相似性。對于字符外接矩形的提取,需要尋找在字形度量上相似的字體,而不是視覺上相似的字體,因此該專利的字體替換算法對于字符外接矩形提取沒有效果。
發(fā)明內(nèi)容鑒于現(xiàn)有技術(shù)中存在的上述問題而作出本發(fā)明,本發(fā)明針對可移植電子文檔中存在某些字體缺乏字形度量信息的情況,提出了一種通過字體替換來從可移植電子文檔中提取字符外接矩形的設(shè)備和方法。字符的外接矩形也可以稱為字符的最小外接矩形。本發(fā)明屬于文檔處理領(lǐng)域,可應(yīng)用于文檔內(nèi)容提取、文檔重用以及文檔檢索。根據(jù)本發(fā)明的一個方面,提供一種從可移植電子文檔中提取字符外接矩形的設(shè)備,包括命令及資源提取裝置,針對可移植電子文檔的頁,提取與頁中的文本段相應(yīng)的文本段相關(guān)命令和字體資源;劃分裝置,將字體資源劃分為無需替換的字體和需要替換的字體,所述需要替換的字體作為待替換字體;字體替換裝置,在外部替換字體列表中尋找與待替換字體在字形度量上最相似的字體作為替補字體,以替換待替換字體,所述替補字體和所述無需替換的字體組成替換后字體的字體資源;度量信息提取裝置,根據(jù)替換后字體的字體資源來提取文本段的字符的字形度量信息;計算裝置,根據(jù)文本段相關(guān)命令和字符的字形度量信息,來計算字符的外接矩形。根據(jù)本發(fā)明的另一個方面,提供一種從可移植電子文檔中提取字符外接矩形的方法,包括命令及資源提取步驟,針對可移植電子文檔的頁,提取與頁中的文本段相應(yīng)的文本段相關(guān)命令和字體資源;劃分步驟,將字體資源劃分為無需替換的字體和需要替換的字體,所述需要替換的字體作為待替換字體;字體替換步驟,在外部替換字體列表中尋找與待替換字體在字形度量上最相似的字體作為替補字體,以替換待替換字體,所述替補字體和所述無需替換的字體組成替換后字體的字體資源;度量信息提取步驟,根據(jù)替換后字體的字體資源來提取文本段的字符的字形度量信息;計算步驟,根據(jù)文本段相關(guān)命令和字符的字形度量信息,來計算字符的外接矩形。本發(fā)明能夠用于從諸如PDF、PS的可移植電子文檔中提取字符的最小外接矩形,所提取的字符外接矩形可以用于文檔重用或者文檔檢索等。例如,通過比較字符外接矩形的幾何分布關(guān)系,可以實現(xiàn)電子文檔和文檔圖像之間的匹配,從而實現(xiàn)文檔檢索。通過閱讀結(jié)合附圖考慮的以下本發(fā)明的優(yōu)選實施例的詳細描述,將更好地理解本發(fā)明的以上和其他目標、特征、優(yōu)點和技術(shù)及工業(yè)重要性。圖1示出根據(jù)本發(fā)明實施例的實現(xiàn)從可移植電子文檔中提取字符外接矩形的計算機系統(tǒng)。圖2示出根據(jù)本發(fā)明實施例的從可移植電子文檔中提取字符外接矩形的設(shè)備的總體框圖。圖3示例性地示出字符“g”的字形度量信息。圖4示例性地示出字符外接矩形提取的效果對比,左側(cè)為采用開源軟件sumatrapdf的字體替換方法來提取字符外接矩形的效果,右側(cè)為應(yīng)用本發(fā)明實施例來提取字符外接矩形的效果。具體實施例方式如圖1所示,一種根據(jù)本發(fā)明實施例的實現(xiàn)從可移植電子文檔中提取字符外接矩形的計算機系統(tǒng)10包括計算機11、鍵盤16、顯示器17、打印機18、軟盤驅(qū)動器19、網(wǎng)絡(luò)接入器20、及硬盤驅(qū)動器21。計算機11包括數(shù)據(jù)總線12、隨機存儲器(RAM)13、只讀存儲器(ROM)14、中央處理器15、及外設(shè)總線22。根據(jù)從隨機存儲器13中接到的指令,中央處理器15控制所輸入數(shù)據(jù)的接收和處理、以及向顯示器17或者其他外設(shè)的輸出。在本實施例中,中央處理器15的一個功能是處理輸入的PDF文檔,提取文檔中包含的字符的外接矩形。提取的字符外接矩形可以供中央處理器15中的其他應(yīng)用程序使用。中央處理器15通過數(shù)據(jù)總線12來訪問隨機存儲器13和只讀存儲器14。隨機存儲器13被中央處理器15用作可讀寫的內(nèi)存,用作各個進程的工作區(qū)及可變數(shù)據(jù)存儲區(qū)。只讀存儲器14存儲諸如PDF的可移植電子文檔、字符外接矩形提取程序、以及其他的應(yīng)用所提取的字符外接矩形的程序。外設(shè)總線22用于訪問與計算機11相連的輸入、輸出以及存儲等外圍設(shè)備。在本實施例中,所述外圍設(shè)備包括顯示器17、打印機18、軟盤驅(qū)動器19、網(wǎng)絡(luò)接入器20、及硬盤驅(qū)動器21。顯示器17通過外設(shè)總線22來顯示中央處理器15輸出的數(shù)據(jù)和圖像。顯示器17可以是柵格式顯示設(shè)備,諸如CRT或IXD顯示器。打印機18把中央處理器15輸入的數(shù)據(jù)和圖像打印到紙張或者是和紙張相似的媒介。為了在如顯示器17或打印機18等輸出設(shè)備上顯示PDF文檔,計算機系統(tǒng)10需要實現(xiàn)文檔柵格化過程來進行從PDF文檔到其對應(yīng)圖像表示的轉(zhuǎn)換。在其他的實施例中,如打印機18等輸出設(shè)備上也可以包括中央處理器或相似的處理器以實現(xiàn)類似的PDF文檔到圖像的轉(zhuǎn)換。軟盤驅(qū)動器19及硬盤驅(qū)動器21用來存儲PDF文檔。通過軟盤驅(qū)動器19,PDF文檔可以在不同計算機系統(tǒng)之間傳遞。硬盤驅(qū)動器21存儲空間更大,而且訪問速度更快。其他的存儲設(shè)備,比如閃存,也可以用來存儲PDF文件供計算機系統(tǒng)10訪問。計算機系統(tǒng)10通過網(wǎng)絡(luò)接入器20在網(wǎng)絡(luò)上發(fā)送數(shù)據(jù)和接收來自其他計算機系統(tǒng)的數(shù)據(jù)。用戶可以通過鍵盤16輸入指令給計算機系統(tǒng)10。圖2示出根據(jù)本發(fā)明實施例的從可移植電子文檔中提取字符外接矩形的設(shè)備的總體框圖。該從可移植電子文檔中提取字符外接矩形的設(shè)備包括命令及資源提取裝置100,針對可移植電子文檔的頁,提取與頁中的文本段相應(yīng)的文本段相關(guān)命令和字體資源;劃分裝置200,將字體資源劃分為無需替換的字體和需要替換的字體,所述需要替換的字體作為待替換字體;字體替換裝置300,在外部替換字體列表中尋找與待替換字體在字形度量上最相似的字體作為替補字體,以替換待替換字體,所述替補字體和所述無需替換的字體組成替換后字體的字體資源;度量信息提取裝置400,根據(jù)替換后字體的字體資源來提取文本段的字符的字形度量信息;計算裝置500,根據(jù)文本段相關(guān)命令和字符的字形度量信息,來計算字符的外接矩形??梢浦搽娮游臋n可以是PDF格式文檔,也可以是諸如PS的其它格式的可移植電子文檔。字符外接矩形的提取需要兩種類型的字體信息——字符編碼表和字形度量表。其中,字符編碼表反映字符代碼和字符名稱的對應(yīng)關(guān)系,例如,對于字符代碼65,相對應(yīng)的字符名稱可以是“A”。PDF使用不同類型的字體編碼方法,需要判斷每種字體所對應(yīng)的編碼方式。字形度量表反映字符名稱和字形度量信息的對應(yīng)關(guān)系。圖3示例性地示出字符“g”的字形度量信息。如圖3所示,字形度量信息包括字形的寬度、高度、X方向最大值和最小值、y方向最大值和最小值、原點(起始位置)等信息。劃分裝置200、字體替換裝置300、度量信息提取裝置400解析字體資源并提取上述兩種類型的字體信息——字符編碼表和字形度量表。大部分字體包含上述兩類信息,但是有一些字體僅包含部分字體屬性,諸如字體名字(如楷體、宋體、TimesNewRoman等)、字體風(fēng)格(如斜體、加粗等)等,缺乏提取字符外接矩形所需要的數(shù)據(jù),如字形度量信息等。因此,需要進行字體替換以替代這些字體,并保證替換前后的兩種字體在字形幾何度量上的相似性。計算裝置500根據(jù)字形度量和文本段度量信息計算字符的外接矩形。命令及資源提取裝置100包括內(nèi)容流提取裝置110,從可移植電子文檔中提取內(nèi)容流并解碼;命令提取裝置120,從解碼的內(nèi)容流中提取文本段相關(guān)命令;字體資源提取裝置130,從可移植電子文檔中頁的資源中提取與文本段相關(guān)命令相對應(yīng)的字體資源。內(nèi)容流提取裝置110解析PDF文檔結(jié)構(gòu),獲得文檔的樹狀結(jié)構(gòu),該樹狀結(jié)構(gòu)便于對6每頁文檔的內(nèi)容流以及資源進行訪問,從中可以獲得內(nèi)容流的編碼方式。然后,內(nèi)容流提取裝置110根據(jù)內(nèi)容流的編碼方式對內(nèi)容流解碼。根據(jù)PDF文檔說明書,PDF文檔支持多種內(nèi)容流編碼方式,比如FlateDecode和LZWDecode等。PDF內(nèi)容流由PDF命令和與PDF命令對應(yīng)的參數(shù)構(gòu)成,每個命令和其對應(yīng)的參數(shù)都控制一個頁面繪制操作。命令提取裝置120解析解碼后的PDF內(nèi)容流中的命令,提取與文本段相關(guān)的文本段相關(guān)命令,可以把所提取的命令存入文本段相關(guān)命令列表中。從文本段相關(guān)命令中可以獲得相應(yīng)的文本段所采用的字體資源,字體資源提取裝置130根據(jù)文本段相關(guān)命令來提取與相應(yīng)文本段采用的字體資源,可以把提取的當前頁的字體資源存入字體資源列表。劃分裝置200將字體資源中缺乏字形度量信息的字體作為待替換字體。字體替換裝置300在外部替換字體列表中尋找與待替換字體在字形度量上最相似的字體作為替補字體,以替換待替換字體,所述替補字體和所述無需替換的字體組成替換后字體的字體資源。度量信息提取裝置400包括字符編碼表提取裝置410,從替換后字體的字體資源中提取字體的字符編碼表;字形度量表提取裝置420,從替換后字體的字體文件中提取字體的字形度量表;字符名稱獲取裝置430,根據(jù)字符代碼,從字符編碼表中,獲取與字符代碼相應(yīng)的字符名稱;字形度量信息獲取裝置440,根據(jù)所獲取的字符名稱,從字形度量表中獲取與字符名稱相應(yīng)的字形度量信息。劃分裝置200、字體替換裝置300、度量信息提取裝置400用來提取字體資源的字符編碼表和字形度量表。劃分裝置200檢查字體資源是否可用,為沒有包含足夠字體數(shù)據(jù)信息的字體尋找相似的替換字體,如果字體資源沒有包含足夠的信息,例如缺乏字形度量信息,則需要字體替換裝置300調(diào)用字體替換算法尋找相似的字體。字體替換裝置300調(diào)取外部的可用替換字體列表,該替換字體列表中的字體從外部載入,如載入操作系統(tǒng)自帶的字體。并且,字體替換裝置300利用PDF字體資源必有的一些屬性來用于計算兩種字體之間的相似性,以進行字體替換。由于本發(fā)明實施例中的字體替換用于提取字符外接矩形,可以利用如下的字體屬性來進行相似度的計算StemV、StemH,Leading、XHeight、CapHeight、Ascend和Descend,相似度的計算利用匹配算法。公布的PDF說明書對各個字體屬性的意義給出了解釋,PDF1.7說明書規(guī)定了字體屬性的含義如下XHeight(X字高)指字體中所有字符的最大基本高度,即所有字符的基線和主線之間的距離的最大值;Ascend(升部)指字體的所有字符中,向上超過主線筆畫的部分的最大值,即比X字高更高的部分的距離的最大值;Descend(降部)指字體的所有字符中,向下延伸超過基線的筆畫部分的距離的最大值;CapHeight(大寫字高)指字體的所有大寫字符中,超過基線部分的高度的最大值;Leading(行距)指連續(xù)的文本行基線之間的間距;StemV(垂直莖)指字體字形主要垂直莖的寬度;StemH(水平莖)指字體字形主要水平莖的寬度。上述這些字體屬性能夠代表字符的幾何信息,可以用來體現(xiàn)字形度量,字體替換裝置300利用公式(1)計算備選字體和待替換字體間的距離dis,距離越小相似度越高ηdisQX,F)二ΣW,IX,—y,|其中,X=(X1,X2,…,xn)是待替換字體的屬性向量,Xi表示第i個字體屬性值,Y=(y1y2,…,yn)是備選字體的屬性向量,表示第i個字體屬性值,Wi是第i個字體屬性的權(quán)重因子,代表該字體屬性的重要性,η為所采用的字體屬性數(shù)目,在此情況下η可以為7,顯然也可以選用一部分字體屬性,即η也可以是小于7的正整數(shù),字體屬性值可以從PDF字體資源提取,值的含義定義在公布的PDF說明書中。然后,字體替換裝置300選取與待替換字體相似度最高的字體(也即距離dis最小的字體)作為替補字體。圖4示例性地示出字符外接矩形提取的效果對比,該圖顯示了使用不同的字體替換方法替換TimesNewRoman字體得到的字符外接矩形提取的效果,左側(cè)為采用開源軟件sumatrapdf的字體替換方法來提取字符外接矩形的效果,右側(cè)為應(yīng)用本發(fā)明實施例來提取字符外接矩形的效果??梢钥闯觯瑧?yīng)用本發(fā)明得到更精確的字符外接矩形提取結(jié)果。在PDF說明書里,每種字體都有一個內(nèi)建的編碼方式即字符編碼表,字體的內(nèi)建編碼方式可以由PDF字體資源中的“Encoding(編碼)”項設(shè)置。Encoding項的值可以是編石馬方式名禾爾,諸如Mac-RomanEncoding、MacExpertEncoding、StandardEncoding、或WinAnsiEncoding,也可以是字典項。在Encoding項的值是字典項的情況下,該Encoding項里的“/Differences”子項包含了字符代碼與字符名稱的對應(yīng)關(guān)系,由此類對應(yīng)關(guān)系組建字符編碼表。字符編碼表提取裝置410解析字體的字體資源,然后,判斷該字體資源的Encoding項是否存在,如果不存在,則提取MandardEncoding這一編碼方式名稱對應(yīng)的字符編碼表。如果Encoding項存在,則檢查該Encoding項,如果該Encoding項的值是編碼方式名稱,則字符編碼表提取裝置410提取與該名稱相對應(yīng)的字符編碼表,如果該Encoding項是一個字典項,則字符編碼表提取裝置410解析該字典項的內(nèi)容,由字符名稱與相應(yīng)的字符代碼組建字符編碼表并提取該字符編碼表。字形度量表提取裝置420提取字體的字形度量表,該字形度量表的項是鍵-值對,鍵是字符名稱,值是與字符名稱相應(yīng)的字形度量信息。字體替換以后,替換后字體(替補字體和無需替換的字體)包含用于字符的柵格化的字體文件,或者包含AdobeFontMetrics(AFM)字體文件,該AFM字體文件包含字體的字形度量信息。如果該字體含有AFM文件,則字形度量表提取裝置420利用已有的AFM文件解析器來解析得到該字體的字形度量信息;否則,即該字體不含有AFM文件,則字形度量表提取裝置420利用已有的字符柵格化引擎來對字符柵格化,把字符的矢量圖轉(zhuǎn)為柵格圖像,字形度量表提取裝置420可以容易地從柵格圖像中提取字形度量信息。關(guān)于字符的柵格化,可以采用開源的字體柵格化引擎,例如FreeType2字體弓丨擎,網(wǎng)址http//www.freetype.org八然后,字符名稱獲取裝置430根據(jù)字符代碼,從字符編碼表中,獲取與字符代碼相應(yīng)的字符名稱。字形度量信息獲取裝置440根據(jù)所獲取的字符名稱,從字形度量表中獲取與字符名稱相應(yīng)的字形度量信息。計算裝置500包括文本段度量信息提取裝置510,從可移植電子文檔的文本段相關(guān)命令中提取文本段度量信息;外接矩形計算裝置520,根據(jù)文本段度量信息和字符的字形度量信息,計算字符的外接矩形。PDF說明書中包含幾種不同類型的文本段相關(guān)命令,文本段度量信息提取裝置510從中提取文本段度量信息,如文本段的位置、水平縮放系數(shù)、垂直縮放系數(shù)、旋轉(zhuǎn)角度和字體大小。文本段包括字符,該字符既可以是諸如漢語的文字字符,也可以是諸如英語的字母字符,文本段不必然等同于詞,也不必然等同于自然段。參照PDF1.7說明書,文本段度量信息可以從文本段相關(guān)命令中提取。例如,從文本段起始位置命令200300Td,提取文本段的起始位置為(200,300);通過對文本段矩陣進行分解可以得到水平縮放系數(shù)、垂直縮放系數(shù)、旋轉(zhuǎn)角度三個參數(shù),例如根據(jù)lOOOOlOOOOTm命令,(100,0,0,100,0,0)是文本段矩陣,從該矩陣中,可以得出水平縮放系數(shù)是100,垂直縮放系數(shù)是100,旋轉(zhuǎn)角度是0;例如,可以從/TT112Tf命令提取字體大小,在此字體大小為12。外接矩形計算裝置520使用文本段度量信息和字形度量信息,計算字符的外接矩形。向量(X,1,W,h,θ)用于描述字符的外接矩形,X表示字符的左上角水平坐標,y表示字符的左上角垂直坐標,w表示字符寬度,h表示字符高度,θ表示字符旋轉(zhuǎn)角度。文本段度量信息提取裝置510可以從文本段相關(guān)命令中提取字符的起始位置(在此為左上角)坐標和旋轉(zhuǎn)角度,例如,從命令“200300Td”獲得文本段的字符的起始位置為000,300),根據(jù)公式(計算字符的寬度和高度w=gw*hscale*fsh=gh*vscale*fs(2)其中,gw是字符的字形寬度,gh是字符的字形高度,hscale是水平縮放系數(shù),vscale是垂直縮放系數(shù),fs是字體的大小,均由文本段度量信息提取裝置510從文本段相關(guān)命令中提取。文本段中每個字符的起始位置也可以根據(jù)文本段的起始位置經(jīng)過迭代遞推計算出來,其中同一文本段中字符的垂直坐標不變。假定(X',y')是已知的前一字符的起始位置坐標,(χ,y)是當前字符的起始位置坐標,W是當前文本字符的延伸寬度,它不同于字符的外接矩形的寬度,比字符的外接矩形的寬度稍寬;W'和字符的字形推進寬度advance(在圖3中標記為“推進”)是對應(yīng)的,advance屬于字形度量信息,可以由字形度量信息獲取裝置440獲取,advance從字形度量空間變換到文本度量空間以后就是W'。公式(3)為相應(yīng)的坐標遞推公式x=x'+W'y=y'(3)w'=advance氺hscale氺fs通過上述計算,可以獲得文本段中所有字符的外接矩形。本發(fā)明還可以實施為一種從可移植電子文檔中提取字符外接矩形的方法,包括命令及資源提取步驟,可以由前述命令及資源提取裝置100執(zhí)行,針對可移植電子文檔的頁,提取與頁中的文本段相應(yīng)的文本段相關(guān)命令和字體資源;劃分步驟,可以由前述劃分裝置200執(zhí)行,將字體資源劃分為無需替換的字體和需要替換的字體,所述需要替換的字體作為待替換字體;字體替換步驟,可以由前述字體替換裝置300執(zhí)行,在外部替換字體列表中尋找與待替換字體在字形度量上最相似的字體作為替補字體,以替換待替換字體,所述替補字體和所述無需替換的字體組成替換后字體的字體資源;度量信息提取步驟400,可以由前述度量信息提取裝置執(zhí)行,根據(jù)替換后字體的字體資源來提取文本段的字符的字形度量信息;計算步驟,可以由前述計算裝置500執(zhí)行,根據(jù)文本段相關(guān)命令和字符的字形度量信息,來計算字符的外接矩形。命令及資源提取步驟包括內(nèi)容流提取步驟,可以由前述內(nèi)容流提取裝置110執(zhí)行,從可移植電子文檔中提取內(nèi)容流并解碼;命令提取步驟,可以由前述命令提取裝置120執(zhí)行,從解碼的內(nèi)容流中提取文本段相關(guān)命令;字體資源提取步驟,可以由前述字體資源提取裝置130執(zhí)行,從可移植電子文檔中頁的資源中提取與文本段相關(guān)命令相對應(yīng)的字體資源。在劃分步驟中,將字體資源中缺乏字形度量信息的字體作為待替換字體。在字體替換步驟中,利用匹配算法計算外部替換字體列表中備選字體與待替換字體在字形度量上的相似度,把相似度最高的備選字體作為替補字體。度量信息提取步驟包括字符編碼表提取步驟,可以由前述字符編碼表提取裝置410執(zhí)行,從替換后字體的字體資源中提取字體的字符編碼表;字形度量表提取步驟,可以由前述字形度量表提取裝置420執(zhí)行,從替換后字體的字體文件中提取字體的字形度量表;字符名稱獲取步驟,可以由前述字符名稱獲取裝置430執(zhí)行,根據(jù)字符代碼,從字符編碼表中,獲取與字符代碼相應(yīng)的字符名稱;字形度量信息獲取步驟,可以由前述字形度量信息獲取裝置440執(zhí)行,根據(jù)所獲取的字符名稱,從字形度量表中獲取與字符名稱相應(yīng)的字形度量信息。計算步驟包括文本段度量信息提取步驟,可以由前述文本段度量信息提取裝置510執(zhí)行,從可移植電子文檔的文本段相關(guān)命令中提取文本段度量信息;外接矩形計算步驟,可以由前述外接矩形計算裝置520執(zhí)行,根據(jù)文本段度量信息和字符的字形度量信息,計算字符的外接矩形。盡管在本申請說明書中以PDF文檔為例進行了說明,然而本領(lǐng)域技術(shù)人員可以理解,本發(fā)明實施例也可以應(yīng)用于諸如ps格式的可移植電子文檔。在說明書中說明的一系列操作能夠通過硬件、軟件、或者硬件與軟件的組合來執(zhí)行。當由軟件執(zhí)行該一系列操作時,可以把其中的計算機程序安裝到內(nèi)置于專用硬件的計算機中的存儲器中,使得計算機執(zhí)行該計算機程序?;蛘撸梢园延嬎銠C程序安裝到能夠執(zhí)行各種類型的處理的通用計算機中,使得計算機執(zhí)行該計算機程序。例如,可以把計算機程序預(yù)先存儲到作為記錄介質(zhì)的硬盤或者R0M(只讀存儲器)中。或者,可以臨時或者永久地存儲(記錄)計算機程序到可移動記錄介質(zhì)中,諸如軟盤、⑶-ROM(光盤只讀存儲器)、M0(磁光)盤、DVD(數(shù)字多功能盤)、磁盤、或半導(dǎo)體存儲器??梢园堰@樣的可移動記錄介質(zhì)作為封裝軟件提供。本發(fā)明已經(jīng)參考具體實施例進行了詳細說明。然而,很明顯,在不背離本發(fā)明的精神的情況下,本領(lǐng)域技術(shù)人員能夠?qū)嵤├龍?zhí)行更改和替換。換句話說,本發(fā)明用說明的形式公開,而不是被限制地解釋。要判斷本發(fā)明的要旨,應(yīng)該考慮所附的權(quán)利要求。權(quán)利要求1.一種從可移植電子文檔中提取字符外接矩形的設(shè)備,包括命令及資源提取裝置,針對可移植電子文檔的頁,提取與頁中的文本段相應(yīng)的文本段相關(guān)命令和字體資源;劃分裝置,將字體資源劃分為無需替換的字體和需要替換的字體,所述需要替換的字體作為待替換字體;字體替換裝置,在外部替換字體列表中尋找與待替換字體在字形度量上最相似的字體作為替補字體,以替換待替換字體,所述替補字體和所述無需替換的字體組成替換后字體的字體資源;度量信息提取裝置,根據(jù)替換后字體的字體資源來提取文本段的字符的字形度量信息;計算裝置,根據(jù)文本段相關(guān)命令和字符的字形度量信息,來計算字符的外接矩形。2.按照權(quán)利要求1所述的提取字符外接矩形的設(shè)備,其中,所述命令及資源提取裝置包括內(nèi)容流提取裝置,從可移植電子文檔中提取內(nèi)容流并解碼;命令提取裝置,從解碼的內(nèi)容流中提取文本段相關(guān)命令;字體資源提取裝置,從可移植電子文檔中頁的資源中提取與文本段相關(guān)命令相對應(yīng)的字體資源。3.按照權(quán)利要求1所述的提取字符外接矩形的設(shè)備,其中,所述劃分裝置將字體資源中缺乏字形度量信息的字體作為待替換字體。4.按照權(quán)利要求1所述的提取字符外接矩形的設(shè)備,其中,所述字體替換裝置利用匹配算法計算外部替換字體列表中備選字體與待替換字體在字形度量上的相似度,把相似度最高的備選字體作為替補字體。5.按照權(quán)利要求1所述的提取字符外接矩形的設(shè)備,其中,所述度量信息提取裝置,包括字符編碼表提取裝置,從替換后字體的字體資源中提取字體的字符編碼表;字形度量表提取裝置,從替換后字體的字體文件中提取字體的字形度量表;字符名稱獲取裝置,根據(jù)字符代碼,從字符編碼表中,獲取與字符代碼相應(yīng)的字符名稱;字形度量信息獲取裝置,根據(jù)所獲取的字符名稱,從字形度量表中獲取與字符名稱相應(yīng)的字形度量信息。6.按照權(quán)利要求1所述的提取字符外接矩形的設(shè)備,其中,所述計算裝置包括文本段度量信息提取裝置,從可移植電子文檔的文本段相關(guān)命令中提取文本段度量信息;外接矩形計算裝置,根據(jù)文本段度量信息和字符的字形度量信息,計算字符的外接矩形。7.按照權(quán)利要求1所述的提取字符外接矩形的設(shè)備,其中,所述可移植電子文檔是PDF格式文檔。8.—種從可移植電子文檔中提取字符外接矩形的方法,包括命令及資源提取步驟,針對可移植電子文檔的頁,提取與頁中的文本段相應(yīng)的文本段相關(guān)命令和字體資源;劃分步驟,將字體資源劃分為無需替換的字體和需要替換的字體,所述需要替換的字體作為待替換字體;字體替換步驟,在外部替換字體列表中尋找與待替換字體在字形度量上最相似的字體作為替補字體,以替換待替換字體,所述替補字體和所述無需替換的字體組成替換后字體的字體資源;度量信息提取步驟,根據(jù)替換后字體的字體資源來提取文本段的字符的字形度量信息;計算步驟,根據(jù)文本段相關(guān)命令和字符的字形度量信息,來計算字符的外接矩形。全文摘要本發(fā)明提供一種從可移植電子文檔中提取字符外接矩形的設(shè)備和方法。該設(shè)備包括命令及資源提取裝置,針對可移植電子文檔的頁,提取與頁中的文本段相應(yīng)的文本段相關(guān)命令和字體資源;劃分裝置,將字體資源劃分為無需替換的字體和需要替換的字體,需要替換的字體作為待替換字體;字體替換裝置,在外部替換字體列表中尋找與待替換字體在字形度量上最相似的字體作為替補字體,以替換待替換字體,替補字體和無需替換的字體組成替換后字體的字體資源;度量信息提取裝置,根據(jù)替換后字體的字體資源來提取文本段的字符的字形度量信息;計算裝置,根據(jù)文本段相關(guān)命令和字符的字形度量信息,來計算字符的外接矩形。文檔編號G06F17/21GK102081594SQ200910249849公開日2011年6月1日申請日期2009年11月27日優(yōu)先權(quán)日2009年11月27日發(fā)明者井上浩一,徐文暉,杜成,長谷川史裕申請人:株式會社理光
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
贵溪市| 高州市| 土默特左旗| 英吉沙县| 浦城县| 丁青县| 凉城县| 土默特右旗| 和林格尔县| 巴彦淖尔市| 修武县| 泰宁县| 乐至县| 皋兰县| 余姚市| 叶城县| 济宁市| 泾源县| 泽州县| 南汇区| 上饶市| 开阳县| 肇东市| 大厂| 拉萨市| 澄城县| 临武县| 安化县| 泸溪县| 政和县| 漠河县| 腾冲县| 兴宁市| 长宁县| 左权县| 克拉玛依市| 张掖市| 元氏县| 三江| 上饶县| 靖边县|