專利名稱:校正掃描書籍中的頁(yè)面卷曲的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及書籍?dāng)?shù)字化。更具體地說(shuō),本發(fā)明涉及校正卷曲頁(yè)面(諸如,在書脊附近)的數(shù)字掃描數(shù)據(jù)或該頁(yè)面的其他失真。
背景技術(shù):
印刷材料中包含大量信息。印刷材料可包括書籍以及報(bào)紙、期刊、雜志、小冊(cè)子及其他期刊文獻(xiàn)。然而,對(duì)此類材料的取用以及用于此類材料的存儲(chǔ)空間經(jīng)常受到限制。例如,歸因于某一材料(諸如,一些較舊書籍及出版物)的稀有性以及(經(jīng)常)易損性,保存所述材料的機(jī)構(gòu)(諸如,圖書館、博物館或私人擁有者)可能不愿意將書籍借給個(gè)人或其他機(jī)構(gòu)。因此,希望取用此類材料的研究員或其他感興趣的個(gè)人可能必須行進(jìn)至所述材料的位置。即使如此,取用仍可能限于有限的時(shí)間段,或限于在特殊條件下查看。此外,一些出 版物(諸如,報(bào)紙或通俗雜志)可能快速地?fù)p壞。此外,機(jī)構(gòu)處的存儲(chǔ)空間可能受到限制。因此,已有更多的興趣數(shù)字化稀有書籍以及其他印刷材料的內(nèi)容。然后可將材料的數(shù)字化版本提供給比取用原始書籍的人多得多的人。此外,對(duì)以數(shù)字形式使絕版的多種書籍及出版物可為公眾取得非常感興趣。(下文中,待數(shù)字化的印刷材料將被稱作“書籍”,而不管其實(shí)際形式。)在數(shù)字化中,掃描書籍的每個(gè)頁(yè)面或每對(duì)頁(yè)面以獲取所述頁(yè)面的一系列數(shù)字化后的圖像??山又詳?shù)字格式保存數(shù)字化后的圖像。可使書籍的數(shù)字化后的圖像以數(shù)字文件的形式或如以書籍的傳真版的形式重印而可為公眾取得。所獲取的數(shù)字化后的圖像可經(jīng)進(jìn)一步處理以提取書籍的文本內(nèi)容。例如,可將光學(xué)字符識(shí)別(OCR)技術(shù)應(yīng)用于掃描的頁(yè)面以便建立書籍的文字內(nèi)容的文本文件。因此可以以文本文件的形式使書籍的內(nèi)容可為公眾取得。對(duì)舊書籍的節(jié)省成本的數(shù)字化的常見障礙是頁(yè)面圖像歸因于頁(yè)面彎曲或卷曲(bending or curling)而造成的失真。取決于裝訂(bound)書籍的方式,書籍可能未平放地(flat)翻開。在此情況下,在裝訂件附近的頁(yè)面的末端可能卷曲或彎曲。當(dāng)使用旨在主要用于掃描平放對(duì)象的掃描儀來(lái)掃描時(shí),頁(yè)面的卷曲末端的數(shù)字化后的圖像可能呈現(xiàn)失真。頁(yè)面的卷曲部分上的文字可能相對(duì)于掃描儀的視線而傾斜。文字的符號(hào)或字母可能失真,使得其可能難以閱讀。此外,字母的失真可致使標(biāo)準(zhǔn)OCR技術(shù)不可識(shí)別所述字母。經(jīng)常地,各種考慮事項(xiàng)排除拆卸書籍的裝訂或?qū)┘訅毫σ员闶鬼?yè)面平放。使用特殊相機(jī)或掃描技術(shù)以便圍繞頁(yè)面的曲率掃描可顯著增加數(shù)字化書籍所需的時(shí)間及花費(fèi)。此時(shí)間及花費(fèi)的增加可嚴(yán)重地阻礙在數(shù)字化整個(gè)圖書館及稀有書籍的集合中的進(jìn)展。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的各實(shí)施例,提供一種用于校正具有內(nèi)容的頁(yè)面的圖像中的失真的計(jì)算機(jī)實(shí)現(xiàn)的方法。所述方法包括標(biāo)識(shí)包括在具有與該頁(yè)面的該內(nèi)容相關(guān)的內(nèi)容的一個(gè)或多個(gè)頁(yè)面的一個(gè)或多個(gè)圖像的未失真區(qū)域中的至少一個(gè)高質(zhì)量字的一組高質(zhì)量字;標(biāo)識(shí)該頁(yè)面的該圖像中的至少一個(gè)失真字,所述至少一個(gè)失真字中的每個(gè)失真字對(duì)應(yīng)于來(lái)自所述一組高質(zhì)量字的一個(gè)高質(zhì)量字;生成用于應(yīng)用于該頁(yè)面的該圖像的全局變換函數(shù),以便基本上將所述至少一個(gè)失真字中的失真字變換成其對(duì)應(yīng)高質(zhì)量字;以及將所述全局變換函數(shù)應(yīng)用于該頁(yè)面的該圖像的各像素。根據(jù)本發(fā)明的各實(shí)施例,還提供一種存儲(chǔ)在非暫時(shí)性有形計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序產(chǎn)品,其用于校正具有內(nèi)容的頁(yè)面的圖像中的失真。所述計(jì)算機(jī)程序產(chǎn)品包括用于進(jìn)行以下操作的代碼標(biāo)識(shí)包括在具有與該頁(yè)面的該內(nèi)容相關(guān)的內(nèi)容的一個(gè)或多個(gè)頁(yè)面的一個(gè)或多個(gè)圖像的未失真區(qū)域中的至少一個(gè)高質(zhì)量字的一組高質(zhì)量字;標(biāo)識(shí)該頁(yè)面的該圖像中的至少一個(gè)失真字,所述至少一個(gè)失真字中的每個(gè)失真字對(duì)應(yīng)于來(lái)自所述一組高質(zhì)量字的一個(gè)高質(zhì)量字;生成用于應(yīng)用于該頁(yè)面的該圖像的全局變換函數(shù),以便基本上將所述至少一個(gè)失真字中的失真字變換成其對(duì)應(yīng)高質(zhì)量字;以及將所述全局變換函數(shù)應(yīng)用于該頁(yè)面的該圖像的各像素。
根據(jù)本發(fā)明的各實(shí)施例,還提供一種數(shù)據(jù)處理系統(tǒng),其包括處理器;計(jì)算機(jī)可用介質(zhì),其連接至處理器,其中所述計(jì)算機(jī)可用介質(zhì)含有用于校正具有內(nèi)容的頁(yè)面的圖像中的失真的一組指令。所述處理器被設(shè)計(jì)為執(zhí)行一組指令以執(zhí)行以下操作標(biāo)識(shí)包括在具有與該頁(yè)面的該內(nèi)容相關(guān)的內(nèi)容的一個(gè)或多個(gè)頁(yè)面的一個(gè)或多個(gè)圖像的未失真區(qū)域中的至少一個(gè)高質(zhì)量字的一組高質(zhì)量字;標(biāo)識(shí)該頁(yè)面的該圖像中的至少一個(gè)失真字,所述至少一個(gè)失真字中的每個(gè)失真字對(duì)應(yīng)于來(lái)自所述一組高質(zhì)量字的一個(gè)高質(zhì)量字;生成用于應(yīng)用于該頁(yè)面的該圖像的全局變換函數(shù),以便基本上將所述至少一個(gè)失真字中的失真字變換成其對(duì)應(yīng)高質(zhì)量字;以及將所述全局變換函數(shù)應(yīng)用于該頁(yè)面的該圖像的各像素。在第一方面,本發(fā)明提供了一種用于校正頁(yè)面的圖像中的失真的方法,所述方法包括標(biāo)識(shí)包括在具有與該頁(yè)面的內(nèi)容相關(guān)的內(nèi)容的一個(gè)或多個(gè)頁(yè)面的一個(gè)或多個(gè)圖像的未失真區(qū)域中的至少一個(gè)未失真字的一組未失真字;標(biāo)識(shí)該頁(yè)面的該圖像中的至少一個(gè)失真字,所述至少一個(gè)失真字中的每個(gè)失真字對(duì)應(yīng)于來(lái)自所述一組未失真字的一個(gè)未失真字;生成用于應(yīng)用于該頁(yè)面的該圖像的全局變換函數(shù),以便基本上將所述至少一個(gè)失真字中的失真字變換成其對(duì)應(yīng)未失真字;及將所述全局變換函數(shù)應(yīng)用于該頁(yè)面的該圖像的各像素。優(yōu)選地,本發(fā)明提供了一種方法,其中所述至少一個(gè)失真字包括至少兩個(gè)失真字,并且其中生成用于應(yīng)用于該頁(yè)面的該圖像的全局變換函數(shù)包括生成至少兩個(gè)局部變換函數(shù),所述至少兩個(gè)局部變換函數(shù)中的每個(gè)局部變換函數(shù)可應(yīng)用于所述至少兩個(gè)失真字中的對(duì)應(yīng)失真字,以便基本上將所述對(duì)應(yīng)失真字變換成其對(duì)應(yīng)未失真字;以及使全局函數(shù)擬合于所述至少兩個(gè)局部變換函數(shù)。優(yōu)選地,本發(fā)明提供了一種方法,其中所述至少兩個(gè)局部變換函數(shù)包括多項(xiàng)式函數(shù)。優(yōu)選地,本發(fā)明提供了一種方法,其中所述全局變換函數(shù)包括多項(xiàng)式函數(shù)。優(yōu)選地,本發(fā)明提供了一種方法,其中生成所述全局變換函數(shù)包括應(yīng)用光流技術(shù)。優(yōu)選地,本發(fā)明提供了一種方法,包括將該頁(yè)面的該圖像或一個(gè)或多個(gè)頁(yè)面的所述一個(gè)或多個(gè)圖像分段成字。優(yōu)選地,本發(fā)明提供了一種方法,包括將二進(jìn)制化技術(shù)應(yīng)用于該頁(yè)面的該圖像或應(yīng)用于一個(gè)或多個(gè)頁(yè)面的所述一個(gè)或多個(gè)圖像。在另一方面,本發(fā)明提供了一種用于校正頁(yè)面的圖像中的失真的數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包括用于標(biāo)識(shí)包括在具有與該頁(yè)面的內(nèi)容相關(guān)的內(nèi)容的一個(gè)或多個(gè)頁(yè)面的一個(gè)或多個(gè)圖像的未失真區(qū)域中的至少一個(gè)未失真字的一組未失真字的部件;用于標(biāo)識(shí)該頁(yè)面的該圖像中的至少一個(gè)失真字的部件,所述至少一個(gè)失真字中的每個(gè)失真字對(duì)應(yīng)于來(lái)自所述一組未失真字的一個(gè)未失真字;用于生成用于應(yīng)用于該頁(yè)面的該圖像的全局變換函數(shù)的部件,以便基本上將所述至少一個(gè)失真字中的失真字變換成其對(duì)應(yīng)未失真字;以及用于將所述全局變換函數(shù)應(yīng)用于該頁(yè)面的該圖像的各像素的部件。優(yōu)選地,本發(fā)明提供了一種數(shù)據(jù)處理系統(tǒng),其中所述至少一個(gè)失真字包括至少兩個(gè)失真字,并且其中用于生成用于應(yīng)用于該頁(yè)面的該圖像的全局變換函數(shù)的指令包括用于生成至少兩個(gè)局部變換函數(shù)的部件,所述至少兩個(gè)局部變換函數(shù)中的每個(gè)局部變換函數(shù) 可應(yīng)用于所述至少兩個(gè)失真字中的對(duì)應(yīng)失真字,以便基本上將所述對(duì)應(yīng)失真字變換成其對(duì)應(yīng)未失真字;以及用于使全局函數(shù)擬合于所述至少兩個(gè)局部變換函數(shù)的部件。優(yōu)選地,本發(fā)明提供了一種數(shù)據(jù)處理系統(tǒng),其中所述至少兩個(gè)局部變換函數(shù)包括多項(xiàng)式函數(shù)。優(yōu)選地,本發(fā)明提供了一種數(shù)據(jù)處理系統(tǒng),其中所述全局變換函數(shù)包括多項(xiàng)式函數(shù)。優(yōu)選地,本發(fā)明提供了一種數(shù)據(jù)處理系統(tǒng),其中用于生成所述全局變換函數(shù)的指令包括用于應(yīng)用光流技術(shù)的指令。優(yōu)選地,本發(fā)明提供了一種數(shù)據(jù)處理系統(tǒng),包括用于將該頁(yè)面的該圖像或一個(gè)或多個(gè)頁(yè)面的所述一個(gè)或多個(gè)圖像分段成字的指令。優(yōu)選地,本發(fā)明提供了一種數(shù)據(jù)處理系統(tǒng),包括用于將二進(jìn)制化技術(shù)應(yīng)用于該頁(yè)面的該圖像或應(yīng)用于一個(gè)或多個(gè)頁(yè)面的所述一個(gè)或多個(gè)圖像的指令。在另一方面,本發(fā)明提供了一種包括計(jì)算機(jī)程序代碼的計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被載入計(jì)算機(jī)系統(tǒng)并執(zhí)行時(shí),所述計(jì)算機(jī)程序代碼執(zhí)行上述的方法的所有步驟。
現(xiàn)在將僅通過(guò)實(shí)例的方式參考附圖描述本發(fā)明的一個(gè)優(yōu)選實(shí)施例,這些附圖是圖I示出根據(jù)本發(fā)明的各優(yōu)選實(shí)施例的用于校正書籍的頁(yè)面的失真圖像的系統(tǒng)的示意性橫截面圖像;圖2示出使用圖I中示出的系統(tǒng)掃描的頁(yè)面的圖像的一個(gè)實(shí)例;圖3是根據(jù)本發(fā)明的各優(yōu)選實(shí)施例的校正失真頁(yè)面圖像的方法的流程圖;以及圖4是失真矩陣的示意圖。
具體實(shí)施例方式所屬技術(shù)領(lǐng)域的技術(shù)人員知道,本發(fā)明的各方面可以體現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明的各方面可以具體實(shí)現(xiàn)為以下形式,即,可以是完全的硬件、完全的軟件(包括固件、駐留軟件、微代碼等)、或者本文一般稱為“電路”、“模塊”或“系統(tǒng)”的軟件部分與硬件部分的組合。此外,本發(fā)明的各方面還可以采取體現(xiàn)在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該介質(zhì)中包含計(jì)算機(jī)可用的程序碼??梢允褂靡粋€(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)的任何組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是-但不限于-電的、磁的、光的、電磁的、紅外線的、或半導(dǎo)體的系統(tǒng)、裝置、器件或傳播介質(zhì)、或前述各項(xiàng)的任何適當(dāng)?shù)慕M合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括以下有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或前述各項(xiàng)的任何適當(dāng)?shù)慕M合。在本文語(yǔ)境中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何含有或存儲(chǔ)供指令執(zhí)行系統(tǒng)、裝置或器件使用的或與指令執(zhí)行系統(tǒng)、裝置或器件相聯(lián)系的程序的有形介質(zhì)。計(jì)算機(jī)可讀信號(hào)介質(zhì)可以包括例如在基帶中或作為載波的一部分傳播的帶有計(jì)算機(jī)可讀程序代碼的數(shù)據(jù)信號(hào)。這樣一種傳播信號(hào)可以采取任何適當(dāng)?shù)男问?,包?但不 限于-電磁的、光的或其任何適當(dāng)?shù)慕M合。計(jì)算機(jī)可讀信號(hào)介質(zhì)可以是不同于計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的、可以傳達(dá)、傳播或傳輸供指令執(zhí)行系統(tǒng)、裝置或器件使用的或與指令執(zhí)行系統(tǒng)、裝置或器件相聯(lián)系的程序的任何一種計(jì)算機(jī)可讀介質(zhì)。包含在計(jì)算機(jī)可讀介質(zhì)中的程序代碼可以采用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括-但不限于-無(wú)線、有線、光纜、射頻等、或上述各項(xiàng)的任何適當(dāng)組合。用于執(zhí)行本發(fā)明的操作的計(jì)算機(jī)程序碼,可以以一種或多種程序設(shè)計(jì)語(yǔ)言的任何組合來(lái)編寫,所述程序設(shè)計(jì)語(yǔ)言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言-諸如Java、Smalltalk、C++之類,還包括常規(guī)的過(guò)程式程序設(shè)計(jì)語(yǔ)言-諸如“C”程序設(shè)計(jì)語(yǔ)言或類似的程序設(shè)計(jì)語(yǔ)言。程序碼可以完全地在用戶的計(jì)算上執(zhí)行、部分地在用戶的計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶的計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在后一種情形中,遠(yuǎn)程計(jì)算機(jī)可以通過(guò)任何種類的網(wǎng)絡(luò)-包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)-連接到用戶的計(jì)算機(jī),或者,可以(例如利用因特網(wǎng)服務(wù)提供商來(lái)通過(guò)因特網(wǎng))連接到外部計(jì)算機(jī)。以下參照按照本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明的各方面。要明白的是,流程圖和/或框圖的每個(gè)方框以及流程圖和/或框圖中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,使得通過(guò)計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置執(zhí)行的這些指令,產(chǎn)生實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的裝置。也可以將這些計(jì)算機(jī)程序指令存儲(chǔ)在能指令計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計(jì)算機(jī)可讀介質(zhì)中,這樣,存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令產(chǎn)生一個(gè)包括實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置的制品。也可以將計(jì)算機(jī)程序指令加載到計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置或其他設(shè)備上,使得在計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置或其他設(shè)備上執(zhí)行一系列操作步驟,以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的過(guò)程,從而在計(jì)算機(jī)或其它可編程裝置上執(zhí)行的指令就提供實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的過(guò)程。附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來(lái)實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。根據(jù)本發(fā)明的各實(shí)施例,提議基于書籍的其他部分的未失真圖像校正同一書籍的頁(yè)面的圖像的失真。通常,頁(yè)面的失真可由平臺(tái)掃描儀或類似平面掃描儀掃描該頁(yè)面的卷曲部分引起。根據(jù)本發(fā)明的各實(shí)施例的校正應(yīng)用可使得能夠使用標(biāo)準(zhǔn)的現(xiàn)成掃描設(shè)備獲得 彎曲頁(yè)面的校正后的、整平后的圖像。校正應(yīng)用包括利用書籍的剩余部分中的所有或部分的未失真的掃描圖像確定失真圖像的至少一部分的可能內(nèi)容。例如,校正應(yīng)用可搜尋書籍的已掃描的頁(yè)面,以尋找代表正掃描的書籍的內(nèi)容的典型內(nèi)容。例如,典型內(nèi)容可包括在本文中的各點(diǎn)處重復(fù)出現(xiàn)的字、字的序列、字的群集或符號(hào)。校正應(yīng)用可接著標(biāo)識(shí)圖像內(nèi)容的呈現(xiàn)為典型內(nèi)容的一個(gè)或多個(gè)項(xiàng)目的失真的項(xiàng)目。例如,校正應(yīng)用可將文字區(qū)段標(biāo)識(shí)為典型內(nèi)容的字的失真版本。校正應(yīng)用可基于圖像內(nèi)容的標(biāo)識(shí)后的項(xiàng)目是典型內(nèi)容的項(xiàng)目的失真版本的假定來(lái)建構(gòu)局部變換。局部變換可描述典型內(nèi)容的項(xiàng)目的失真以形成圖像內(nèi)容的標(biāo)識(shí)后的項(xiàng)目。在確定了頁(yè)面上的一個(gè)或多個(gè)局部變換后,校正應(yīng)用可接著建構(gòu)描述整個(gè)頁(yè)面的變換的全局變換函數(shù)。例如,全局變換函數(shù)可描述彎曲頁(yè)面的圖像至具有等效內(nèi)容的平放頁(yè)面的圖像的變換。因此,全局變換函數(shù)可將圖像的失真內(nèi)容轉(zhuǎn)換成頁(yè)面的假定真實(shí)內(nèi)容。例如,校正應(yīng)用可計(jì)算失真頁(yè)面的圖像與特定數(shù)學(xué)模型的最佳擬合。例如,校正應(yīng)用可應(yīng)用最小平方擬合算法以使失真內(nèi)容擬合于多項(xiàng)式函數(shù)。備選地,校正應(yīng)用可使失真內(nèi)容擬合于基于翻開書籍的物理模型的模型。在確定了變換函數(shù)后,校正應(yīng)用可將變換函數(shù)應(yīng)用于頁(yè)面的圖像。將變換函數(shù)應(yīng)用于頁(yè)面的圖像可生成頁(yè)面的未失真圖像。圖I示出了根據(jù)本發(fā)明的各實(shí)施例的用于校正書籍的頁(yè)面的失真圖像的系統(tǒng)的示意性橫截面圖像。系統(tǒng)10包括掃描儀16及處理器20。掃描儀16可包括壓板22。例如,可翻開書籍12以便與壓板22相抵而按壓曝露的頁(yè)面14。書籍12包括用于將書籍12的頁(yè)面裝訂在一起的裝訂件24。裝訂件24可約束當(dāng)書籍12翻開時(shí)書籍12的頁(yè)面的形狀。例如,裝訂件24可以以使得當(dāng)翻開書籍12時(shí)頁(yè)面14的最接近裝訂件24的近端區(qū)段14b彎曲的方式固持書籍12中的曝露的頁(yè)面14。因此,近端區(qū)段14b的至少一部分可與壓板22隔開一距離,且與壓板22成一傾斜角。通常,頁(yè)面14的遠(yuǎn)離裝訂件24的另一遠(yuǎn)程區(qū)段14a可與壓板22相抵而基本上平放。在掃描期間,掃描儀16通常沿著壓板22移動(dòng)掃描儀頭18,以便掃描曝露的頁(yè)面14的各部分。通常,掃描儀頭18在垂直于其運(yùn)動(dòng)方向(由圖I中的箭頭表示)且垂直于所述圖的平面的方向上伸長(zhǎng)。例如,當(dāng)在掃描儀頭位置18a處時(shí),掃描儀頭18可使曝露的頁(yè)面14的基本上平放的遠(yuǎn)程區(qū)段14a成像。類似地,當(dāng)在掃描儀頭位置18b處時(shí),掃描儀頭18可使曝露的頁(yè)面14的失真近端區(qū)段14b成像。處理器20可包括用于控制掃描儀16的操作的編程。例如,處理器20可控制掃描儀頭18的移動(dòng)以及掃描儀頭18對(duì)掃描數(shù)據(jù)的獲取。處理器20可包括用于自掃描儀16接收掃描數(shù)據(jù)以及用于分析、處理及輸出掃描結(jié)果的編程。例如,處理器20可表示掃描儀16中內(nèi)置的處理器、與掃描儀16通信的計(jì)算機(jī)或彼此且與掃描儀16通信的各種處理器的組
八
口 ο圖2示出使用圖I中示出的系統(tǒng)掃描的頁(yè)面的圖像的一個(gè)實(shí)例。頁(yè)面圖像26包括與曝露的頁(yè)面14的遠(yuǎn)程區(qū)段14a(圖I)的圖像對(duì)應(yīng)的未失真圖像區(qū)域26a。類似地,頁(yè)·面圖像26包括與曝露的頁(yè)面14的近端區(qū)段14b (圖I)的圖像對(duì)應(yīng)的失真圖像區(qū)域26b。在處理器20(圖I)上運(yùn)行的校正應(yīng)用可應(yīng)用本領(lǐng)域中公知的技術(shù)來(lái)標(biāo)識(shí)圖像內(nèi)的個(gè)別圖像內(nèi)容組件,諸如,個(gè)別字、符號(hào)或符號(hào)的群集。在下文中,個(gè)別圖像內(nèi)容組件將被稱作字,而不管組件的內(nèi)容。此類技術(shù)在(例如)OCR技術(shù)中是公知的且被應(yīng)用。例如,一種技術(shù)可通過(guò)標(biāo)識(shí)將字彼此分開的空間來(lái)標(biāo)識(shí)個(gè)別字。例如,校正應(yīng)用可標(biāo)識(shí)未失真圖像區(qū)域26a中的未失真字28a及29a。類似地,校正應(yīng)用可標(biāo)識(shí)失真圖像區(qū)域26b中的失真字28b 及 29b ο圖3是根據(jù)本發(fā)明的各實(shí)施例的校正失真頁(yè)面圖像的方法的流程圖。根據(jù)本發(fā)明的各實(shí)施例的校正應(yīng)用使用一組適當(dāng)?shù)捻?yè)面掃描圖像作為輸入(步驟30)。所輸入的一組頁(yè)面掃描圖像通常包括具有相關(guān)或大致均勻內(nèi)容的一組已掃描頁(yè)面的圖像。例如,一組輸入可包括書籍的所有頁(yè)面。在其他情況下,一組輸入可包括書籍的頁(yè)面圖像的子集。例如,已掃描的書籍的不同區(qū)段可能以不同語(yǔ)言書寫,可能以不同字體印刷,或可能具有非常不同的樣式(例如,大部分由方程式組成的數(shù)學(xué)區(qū)段及主要包括旁白的另一區(qū)段)。在此情況下,校正應(yīng)用輸入可限于具有大致均勻內(nèi)容的一個(gè)或多個(gè)區(qū)段。例如,所述應(yīng)用的使用者可指示將所述圖像用作輸入。備選地,校正應(yīng)用可包括用于標(biāo)識(shí)含有大致均勻內(nèi)容的此類區(qū)段的準(zhǔn)則。所述校正應(yīng)用可接著生成一組輸入中所存在的字的列表(步驟32)。例如,校正可包括應(yīng)用OCR的已知字分段技術(shù)以將每個(gè)圖像分段成單獨(dú)字(例如,通過(guò)標(biāo)識(shí)將字彼此分開的空間)。例如,對(duì)頁(yè)面圖像26 (圖2)操作的校正應(yīng)用可標(biāo)識(shí)字28a、28b、29a及29b (連同其他字)。校正應(yīng)用可分析所生成的字列表以便校正頁(yè)面失真。通常,校正應(yīng)用可假定字為雙調(diào)(例如,在亮背景上的均勻暗文字)。印刷的褪色或變色、頁(yè)面的變暗或變色或其他效應(yīng)可妨礙界定字的邊緣。為了消除已掃描的圖像中的任何灰度或其他著色,校正算法可對(duì)所述字應(yīng)用標(biāo)準(zhǔn)二進(jìn)制化技術(shù)。典型的二進(jìn)制化技術(shù)可對(duì)圖像應(yīng)用一個(gè)或多個(gè)固定或可適配閾值以便將兩個(gè)值中的一個(gè)(例如,指示黑的值或指示白的值)分派給圖像的每個(gè)像素。此外,校正應(yīng)用可應(yīng)用低通空間濾波器(例如,高斯3X3濾波器)以消除高空間頻率分量,從而進(jìn)一步界定字或字符的邊緣。分析可包括標(biāo)識(shí)所述字列表內(nèi)的一組高質(zhì)量(HQ)字(步驟34)。HQ字是可標(biāo)識(shí)為基本上未失真的字。例如,將標(biāo)準(zhǔn)OCR技術(shù)應(yīng)用于字可生成具有高置信度的字的OCR解譯。校正應(yīng)用可接著確定所解譯的字是HQ字。此類技術(shù)可限于已知語(yǔ)言或以已知字體印刷的字。備選地,校正應(yīng)用可對(duì)字應(yīng)用標(biāo)準(zhǔn)基線確定技術(shù)以便確定字的總體形狀。校正應(yīng)用可確定具有基本上直的基線的字為HQ字。例如,對(duì)頁(yè)面圖像26 (圖2)操作的校正應(yīng)用可標(biāo)識(shí)HQ字28a及29a (連同其他HQ字)。另一方面,所述校正應(yīng)用可將字28b及29b標(biāo)識(shí)為非HQ字。分析還可包括創(chuàng)建合成字(步驟36)。例如,組成字的字母的語(yǔ)言或字體可為已知的,或可從所述字列表提取。校正應(yīng)用可接著使用所述字體的字母創(chuàng)建字。例如,校正應(yīng)用可將合成字用于稍后與失真字的比較(在以下描述)。校正應(yīng)用可接著匹配類似字,并將它們排列成多組等效字(步驟38)。例如,校正應(yīng)用可以直接方式將已知形狀分析或OCR技術(shù)應(yīng)用于HQ字,以便標(biāo)識(shí)類似字。對(duì)于由于字的整體平移或旋轉(zhuǎn)而稍微未對(duì)準(zhǔn)的字,校正應(yīng)用可首先應(yīng)用一個(gè)或多個(gè)已知對(duì)位技術(shù)。此類技術(shù)可包括(例如)使一個(gè)或多個(gè)距離測(cè)量最小化或使字之間的相關(guān)性最大化。
校正應(yīng)用可應(yīng)用用于將失真或其他非HQ字與HQ或合成字相匹配的額外分析。例如,校正應(yīng)用可試圖將失真字與HQ字相比較。例如,校正應(yīng)用可將失真字的總尺寸或其他大體特征與字列表中的HQ字的總尺寸或其他大體特征相比較。作為比較的結(jié)果,校正應(yīng)用可標(biāo)識(shí)失真字可為失真版本的候選字。在標(biāo)識(shí)了候選字的列表后,校正應(yīng)用可應(yīng)用各種技術(shù)以試圖將失真字與候選字中的一個(gè)或多個(gè)相匹配。例如,校正應(yīng)用可應(yīng)用如上所述的已知對(duì)位技術(shù)以便使失真字與候選HQ字的對(duì)準(zhǔn)最大化。此外,校正應(yīng)用可應(yīng)用如本領(lǐng)域中公知的一個(gè)或多個(gè)(非剛性)彈性對(duì)位技術(shù)。彈性對(duì)位技術(shù)可試圖修改失真字的形狀以便匹配候選HQ字的形狀。例如,校正應(yīng)用可應(yīng)用諸如運(yùn)動(dòng)估計(jì)技術(shù)之類的光流(optical flow)技術(shù)。在應(yīng)用運(yùn)動(dòng)估計(jì)技術(shù)中,校正應(yīng)用生成失真矩陣。失真矩陣描述當(dāng)應(yīng)用于HQ字時(shí)使圖像扭曲以便獲得失真字(或反之亦然)的變形。失真矩陣包括分配給HQ字的每個(gè)像素的位移向量。每個(gè)位移向量描述待應(yīng)用于HQ字的每個(gè)像素以便使圖像扭曲以便形成失真字的運(yùn)動(dòng)(距離及方向)。通常,校正應(yīng)用通過(guò)應(yīng)用變分(variation)技術(shù)來(lái)生成失真矩陣,使得所生成的失真矩陣描述最佳對(duì)應(yīng)性。通常,校正應(yīng)用選擇失真矩陣,使得描述HQ字的各像素與失真字之間的對(duì)應(yīng)度的準(zhǔn)則量被最大化或最小化。無(wú)法獲得在預(yù)定義值范圍內(nèi)的準(zhǔn)則量的值可指示HQ字與失真字之間缺乏對(duì)應(yīng)性。圖4是失真矩陣的示意圖。失真矩陣50的每個(gè)箭頭52表示分配給像素的位移向量。備選地,校正應(yīng)用可通過(guò)失真函數(shù)近似得出失真矩陣。例如,校正應(yīng)用可使多項(xiàng)式或其他合適的變換函數(shù)擬合于HQ字,以便使HQ字失真為類似于失真字的圖像。通常,擬合可包括兩個(gè)多項(xiàng)式函數(shù),每個(gè)多項(xiàng)式函數(shù)描述兩個(gè)正交方向(例如,X及y方向)中的一個(gè)方向上的失真。例如,校正應(yīng)用可使多項(xiàng)式函數(shù)擬合于失真矩陣。校正應(yīng)用可基于失真矩陣或失真函數(shù)將校正(諸如,失真矩陣或失真函數(shù)的逆矩陣或反函數(shù))應(yīng)用于失真字以便獲得校正后的圖像。因此,校正應(yīng)用可計(jì)算用于將失真字變換成未失真字的基于字的校正變換(步驟40)。因此,校正應(yīng)用可針對(duì)所掃描書籍的每個(gè)頁(yè)面生成對(duì)應(yīng)于字列表中的已知字的一組失真字。每個(gè)失真字可具有相關(guān)聯(lián)的失真矩陣或失真函數(shù)。例如,對(duì)頁(yè)面圖像26(圖2)操作的校正應(yīng)用可將失真字28b標(biāo)識(shí)為未失真字28a的失真,及將失真字29b標(biāo)識(shí)為未失真字29a的失真?;谛U儞Q,校正應(yīng)用可計(jì)算發(fā)現(xiàn)失真字的頁(yè)面的區(qū)段的局部變換(步驟42)。例如,校正可生成描述在失真字處的局部失真的局部多項(xiàng)式函數(shù)。通常,所述函數(shù)可包括兩個(gè)多項(xiàng)式函數(shù),每個(gè)多項(xiàng)式函數(shù)描述兩個(gè)正交方向(例如,X及y方向)中的一個(gè)方向上的失真。校正應(yīng)用可使用與單個(gè)頁(yè)面關(guān)聯(lián)的一組局部變換函數(shù)來(lái)生成描述該頁(yè)面的全局失真的函數(shù)(步驟44)。例如,校正應(yīng)用可生成描述整個(gè)頁(yè)面或該頁(yè)面的含有失真的區(qū)段的全局失真的多項(xiàng)式函數(shù)。校正應(yīng)用可使單個(gè)多項(xiàng)式函數(shù)(在兩個(gè)正交方向中的每個(gè)方向上)擬合于一組局部多項(xiàng)式函數(shù)。例如,校正應(yīng)用可應(yīng)用最小平方技術(shù)以生成最佳擬合。 備選地,根據(jù)本發(fā)明的各實(shí)施例的校正應(yīng)用可使用替代技術(shù)以便生成全局失真函數(shù)以描述頁(yè)面的全局失真。例如,針對(duì)已翻開書籍的頁(yè)面的表面形狀,可存在物理模型。例如,可存在用于具有參數(shù)(具有在預(yù)定范圍內(nèi)的值)的書籍的通用模型。此類參數(shù)可包括(例如)書籍的總尺寸、頁(yè)數(shù)、書籍翻開至的頁(yè)面、裝訂的類型、紙張厚度及書籍的年代。通用模型可包括一個(gè)或多個(gè)參數(shù),可通過(guò)使頁(yè)面上的失真字的變換函數(shù)擬合于未失真字而確定所述一個(gè)或多個(gè)參數(shù)的值。校正應(yīng)用可接著自頁(yè)面的關(guān)聯(lián)全局失真函數(shù)得出用于頁(yè)面的全局校正函數(shù),并將全局校正函數(shù)應(yīng)用于該頁(yè)面(步驟46)。例如,全局校正函數(shù)可為全局失真函數(shù)的反函數(shù)。全局校正函數(shù)的應(yīng)用可產(chǎn)生校正后的頁(yè)面圖像。全局校正函數(shù)可減少或消除頁(yè)面上的所有失真字的失真而不管是否與局部失真函數(shù)相關(guān)聯(lián)。校正后的頁(yè)面圖像的進(jìn)一步處理可包括(例如)保存校正后的頁(yè)面的圖像或?qū)CR應(yīng)用于該頁(yè)面的內(nèi)容。重復(fù)應(yīng)用此過(guò)程可增加準(zhǔn)確性。例如,在應(yīng)用全局失真校正后,將OCR應(yīng)用于校正后的頁(yè)面可幫助標(biāo)識(shí)先前遺漏的額外字。將額外標(biāo)識(shí)的字添加至字列表并使用擴(kuò)展的字列表重復(fù)此過(guò)程可導(dǎo)致更準(zhǔn)確的失真校正。
權(quán)利要求
1.一種用于校正頁(yè)面的圖像中的失真的方法,所述方法包括 標(biāo)識(shí)包括在具有與該頁(yè)面的內(nèi)容相關(guān)的內(nèi)容的一個(gè)或多個(gè)頁(yè)面的一個(gè)或多個(gè)圖像的未失真區(qū)域中的至少一個(gè)未失真字的一組未失真字; 標(biāo)識(shí)該頁(yè)面的該圖像中的至少一個(gè)失真字,所述至少一個(gè)失真字中的每個(gè)失真字對(duì)應(yīng)于來(lái)自所述一組未失真字的一個(gè)未失真字; 生成用于應(yīng)用于該頁(yè)面的該圖像的全局變換函數(shù),以便基本上將所述至少一個(gè)失真字中的失真字變換成其對(duì)應(yīng)未失真字;及 將所述全局變換函數(shù)應(yīng)用于該頁(yè)面的該圖像的各像素。
2.如權(quán)利要求I的方法,其中所述至少一個(gè)失真字包括至少兩個(gè)失真字,并且其中生成用于應(yīng)用于該頁(yè)面的該圖像的全局變換函數(shù)包括 生成至少兩個(gè)局部變換函數(shù),所述至少兩個(gè)局部變換函數(shù)中的每個(gè)局部變換函數(shù)可應(yīng)用于所述至少兩個(gè)失真字中的對(duì)應(yīng)失真字,以便基本上將所述對(duì)應(yīng)失真字變換成其對(duì)應(yīng)未失真字;及 使全局函數(shù)擬合于所述至少兩個(gè)局部變換函數(shù)。
3.如權(quán)利要求2的方法,其中所述至少兩個(gè)局部變換函數(shù)包括多項(xiàng)式函數(shù)。
4.如權(quán)利要求I的方法,其中所述全局變換函數(shù)包括多項(xiàng)式函數(shù)。
5.如權(quán)利要求I的方法,其中生成所述全局變換函數(shù)包括應(yīng)用光流技術(shù)。
6.如權(quán)利要求I的方法,包括將該頁(yè)面的該圖像或一個(gè)或多個(gè)頁(yè)面的所述一個(gè)或多個(gè)圖像分段成字。
7.如權(quán)利要求I的方法,包括將二進(jìn)制化技術(shù)應(yīng)用于該頁(yè)面的該圖像或應(yīng)用于一個(gè)或多個(gè)頁(yè)面的所述一個(gè)或多個(gè)圖像。
8.一種用于校正頁(yè)面的圖像中的失真的數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包括 用于標(biāo)識(shí)包括在具有與該頁(yè)面的內(nèi)容相關(guān)的內(nèi)容的一個(gè)或多個(gè)頁(yè)面的一個(gè)或多個(gè)圖像的未失真區(qū)域中的至少一個(gè)未失真字的一組未失真字的部件; 用于標(biāo)識(shí)該頁(yè)面的該圖像中的至少一個(gè)失真字的部件,所述至少一個(gè)失真字中的每個(gè)失真字對(duì)應(yīng)于來(lái)自所述一組未失真字的一個(gè)未失真字; 用于生成用于應(yīng)用于該頁(yè)面的該圖像的全局變換函數(shù)的部件,以便基本上將所述至少一個(gè)失真字中的失真字變換成其對(duì)應(yīng)未失真字;及 用于將所述全局變換函數(shù)應(yīng)用于該頁(yè)面的該圖像的各像素的部件。
9.如權(quán)利要求8的數(shù)據(jù)處理系統(tǒng),其中所述至少一個(gè)失真字包括至少兩個(gè)失真字,并且其中用于生成用于應(yīng)用于該頁(yè)面的該圖像的全局變換函數(shù)的指令包括 用于生成至少兩個(gè)局部變換函數(shù)的部件,所述至少兩個(gè)局部變換函數(shù)中的每個(gè)局部變換函數(shù)可應(yīng)用于所述至少兩個(gè)失真字中的對(duì)應(yīng)失真字,以便基本上將所述對(duì)應(yīng)失真字變換成其對(duì)應(yīng)未失真字 '及 用于使全局函數(shù)擬合于所述至少兩個(gè)局部變換函數(shù)的部件。
10.如權(quán)利要求9的數(shù)據(jù)處理系統(tǒng),其中所述至少兩個(gè)局部變換函數(shù)包括多項(xiàng)式函數(shù)。
11.如權(quán)利要求8的數(shù)據(jù)處理系統(tǒng),其中所述全局變換函數(shù)包括多項(xiàng)式函數(shù)。
12.如權(quán)利要求8的數(shù)據(jù)處理系統(tǒng),其中用于生成所述全局變換函數(shù)的指令包括用于應(yīng)用光流技術(shù)的指令。
13.如權(quán)利要求8的數(shù)據(jù)處理系統(tǒng),包括用于將該頁(yè)面的該圖像或一個(gè)或多個(gè)頁(yè)面的所述一個(gè)或多個(gè)圖像分段成字的指令。
14.如權(quán)利要求8的數(shù)據(jù)處理系統(tǒng),包括用于將二進(jìn)制化技術(shù)應(yīng)用于該頁(yè)面的該圖像或應(yīng)用于一個(gè)或多個(gè)頁(yè)面的所述一個(gè)或多個(gè)圖像的指令。
15.一種包括計(jì)算機(jī)程序代碼的計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序被載入計(jì)算機(jī)系統(tǒng)并執(zhí)行時(shí),所述計(jì)算機(jī)程序代碼執(zhí)行根據(jù)權(quán)利要求I至7中的任一權(quán)利要求的方法的所有步驟。
全文摘要
本發(fā)明涉及校正掃描書籍中的頁(yè)面卷曲。提供了一種用于校正頁(yè)面的圖像中的失真的計(jì)算機(jī)實(shí)現(xiàn)的方法,包括標(biāo)識(shí)在具有與該頁(yè)面的內(nèi)容相關(guān)的內(nèi)容的多個(gè)頁(yè)面的一個(gè)或多個(gè)圖像的未失真區(qū)域中的一組高質(zhì)量(HQ)字。標(biāo)識(shí)該頁(yè)面的該圖像中的至少一個(gè)失真字,使得每個(gè)失真字對(duì)應(yīng)于所述一組高質(zhì)量字中的一個(gè)高質(zhì)量字。生成用于應(yīng)用于該頁(yè)面的該圖像的全局變換函數(shù),以便將所述失真字變換為其對(duì)應(yīng)高質(zhì)量字。將所述全局變換函數(shù)應(yīng)用于該頁(yè)面的該圖像的各像素。
文檔編號(hào)H04N1/387GK102918548SQ201180025555
公開日2013年2月6日 申請(qǐng)日期2011年6月3日 優(yōu)先權(quán)日2010年6月8日
發(fā)明者A·查多克, V·克盧茲納, E·瓦拉赫 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司