經(jīng)掃描的硬拷貝媒體的分類的制作方法
【專利說明】
[0001] 相關(guān)申請案的奪叉參考
[0002] 本申請案主張2013年6月3日申請的標題為"經(jīng)掃描的硬拷貝媒體的分類 (CLASSIFICATION OF SCANNED HARDCOPY MEDIA)"的第 13/908, 034 號美國專利申請案的優(yōu) 先權(quán),該美國專利申請案的全文特此以引用的方式并入本文中。
技術(shù)領(lǐng)域
[0003] 本發(fā)明涉及數(shù)字成像領(lǐng)域,且更特定來說,涉及基于物理尺寸及內(nèi)容分類經(jīng)掃描 的圖像。
【背景技術(shù)】
[0004] 在智能文檔理解領(lǐng)域中,基礎(chǔ)第一步驟中的一者是識別已掃描的對象的類別。在 高電平下,可將大多數(shù)對象分類為照片或文檔。只要在頁上的其它某處存在文本,含有照片 的文檔通常就也可被分類為文檔。將有利的是,將文檔從照片分離作為第一步驟。如此,可 運用被調(diào)諧到圖像類型的圖像處理方法及算法來最大化圖像質(zhì)量。將照片與文檔分離的另 一原因是,使得能夠使用不同的壓縮方案優(yōu)化存儲及傳輸時間。針對其中可通常容許有損 壓縮的照片,壓縮方案差別很大。通常使用無損方法壓縮文檔來保存圖像及文本清晰度以 進一步在光學字符辨識(OCR)中使用。
[0005] 文檔識別的方法通常依賴于文檔的詞匯特征。在標題為"統(tǒng)計自然語言處理的基 石出(Foundations of statistical natural language processing)',的書的章節(jié) 16 中,作 者曼寧(Maning)及舒爾策(Schutze)提供對文本文檔的分類程序的全面審查。包含決策 樹、最大熵模型、感知器以及k-近鄰分類的所描述的方法依賴對文檔內(nèi)的上下文特征的分 析。此類分析可能會耗費時間且并不適于分析不含文本的文檔。
[0006] 貝亞托(Beato)等人的標題為"自動確定經(jīng)掃描的硬拷貝媒體的圖像側(cè)及非圖像 側(cè)(Automatic determining image and non-image sides of scanned hardcopy media) ', 的美國專利案7, 920, 296描述一種用于基于空間頻率特性將攝影圖像從其非圖像側(cè)分離 的方法。表征空間頻率特性的一種方法是通過計算經(jīng)掃描的數(shù)字圖像的壓縮系數(shù)。眾所周 知,經(jīng)掃描的具有高頻率內(nèi)容(例如照片)的數(shù)字圖像將不會如經(jīng)掃描的具有大面積低頻 率內(nèi)容(例如許多文檔)的數(shù)字圖像壓縮得一樣好。雖然此方法可用于簡單的照片與文檔 分類器中,但其將不會產(chǎn)生穩(wěn)健的結(jié)果。舉例來說,具有高密度文本或嵌入的圖像的文檔將 錯誤地被分類為照片。
[0007] 圖克爾遜(Turkelson)等人的標題為"使用詞匯及物理特征的自動文檔分類 (Automatic document classification using lexical and physical features) ',的美 國專利申請公開案2009/0067729描述一種使用物理特性及詞匯信息以將文檔分類(舉例 來說,分類為收據(jù)或商業(yè)名片)的系統(tǒng)??捎糜谖臋n分類的物理特征的實例包含:顏色、定 向、尺寸、邊距寬度及水平與垂直投影。通過執(zhí)行光學字符辨識及執(zhí)行文本分析以確定一組 詞匯特征來確定詞匯特性。一種機器學習系統(tǒng)經(jīng)訓練以基于物理及詞匯特征在已知類型的 文檔之間依序進行鑒別。
[0008] 金森(Kanamori)等人的標題為"圖像形成設(shè)備根據(jù)手稿的類型校正圖像信息 的密度(Image forming apparatus correcting the density of image information according to the type of manuscript) "的美國專利5, 953, 450描述一種使用密度直方 圖設(shè)定白點及黑點以用于再現(xiàn)的系統(tǒng)。還可使用密度直方圖來區(qū)別照片與文本文檔。
[0009] 皮爾森(Peairs)等人的標題為"使用文本及圖像的自動文檔分類(Automatic document classification using text and images) " 的美國專利 7, 039, 856 描述一種基 于文本內(nèi)容以及視覺外觀的自動文檔分類的系統(tǒng)。基于比較新文檔的特性與先前已存儲于 目錄中的文檔的特性,新文檔被自動存儲于一或多個目錄中。通常此方法將為緩慢的,因為 必須使用可能耗時的文本分析來檢查每一未知文檔。
[0010] 仍需要一種用以自動區(qū)別照片與文檔的穩(wěn)健且有效的方法。
【發(fā)明內(nèi)容】
[0011] 本發(fā)明代表一種用于自動將經(jīng)掃描的硬拷貝媒體分類的方法,其包括:
[0012] 使用數(shù)字圖像捕獲裝置掃描一件硬拷貝媒體以提供具有多個圖像像素的經(jīng)掃描 的數(shù)字圖像,所述多個圖像像素具有像素值;
[0013] 確定所述件硬拷貝媒體的物理尺寸;
[0014] 接收指定照片的常見物理尺寸的常見的照片尺寸數(shù)據(jù)庫;
[0015] 接收指定文檔的常見物理尺寸的常見的文檔尺寸數(shù)據(jù)庫;
[0016] 如果所確定的物理尺寸在預先確定的容差內(nèi)匹配照片的常見的物理尺寸中的一 者,就將所述件經(jīng)掃描的硬拷貝媒體分類為照片;
[0017] 如果所確定的物理尺寸在預先確定的容差內(nèi)匹配文檔的常見的物理尺寸中的一 者,就將所述件經(jīng)掃描的硬拷貝媒體分類為文檔;以及
[0018] 將所確定的分類的指示存儲到處理器可存取存儲器中。
[0019] 本發(fā)明具有以下優(yōu)點:使用文檔的物理尺寸來提供關(guān)于適當?shù)奈臋n分類的重要線 索,借此提供具有改進的計算效率及精確度的文檔分類方法。
[0020] 其具有以下額外優(yōu)點:可使用簡單的表查找操作將大多數(shù)文檔分類,相對于依賴 于文本分析及機器學習過程的現(xiàn)有技術(shù),所述表查找操作速度非??臁?br>【附圖說明】
[0021] 圖1為展示根據(jù)本發(fā)明的實施例的用于將經(jīng)掃描的硬拷貝媒體分類的系統(tǒng)的組 件的尚級圖;
[0022] 圖2為展示根據(jù)示范性實施例的將經(jīng)掃描的攝影印刷品與文檔分類的方法的流 程圖;
[0023] 圖3展示常見的照片尺寸數(shù)據(jù)庫;
[0024] 圖4A展示常見的ISO文檔尺寸數(shù)據(jù)庫;
[0025] 圖4B展示常見的日本文檔尺寸數(shù)據(jù)庫;
[0026] 圖4C展示常見的北美及ANSI文檔尺寸數(shù)據(jù)庫;
[0027] 圖5為展示根據(jù)示范性實施例的圖2的上下文處理步驟的額外細節(jié)的流程圖;以 及
[0028] 圖6展示從一組經(jīng)掃描的發(fā)票憑證獲得的常見的詞干數(shù)據(jù)庫的一部分。
【具體實施方式】
[0029] 在以下描述中,將以通常將被實施為軟件程序的術(shù)語描述本發(fā)明的一些實施例。 所屬領(lǐng)域的技術(shù)人員將容易地認識到,此類軟件的等效物也可被構(gòu)建于硬件中。因為圖像 操縱算法及系統(tǒng)為眾所周知的,所以本描述將(尤其)針對形成根據(jù)本發(fā)明的方法的部分 或更直接與其協(xié)作的算法及系統(tǒng)??蓮拇隧椉夹g(shù)中已知的此類系統(tǒng)、算法、組件及元件選擇 此類算法及系統(tǒng)的其它方面以及用于產(chǎn)生與其相關(guān)的圖像信號且(另外)處理與其相關(guān)的 圖像信號的硬件及軟件(本文中未特定展示或描述)。考慮到在下文中如根據(jù)本發(fā)明描述 的系統(tǒng),對于實施本發(fā)明有用的本文中未特定展示、論述或描述的軟件為常規(guī)的且在此類 領(lǐng)域中的普通技術(shù)內(nèi)。
[0030] 本發(fā)明包含本文中描述的實施例的組合。對"特定實施例"及類似物的引用指代 在本發(fā)明的至少一個實施例中存在的特征。對"實施例"或"特定實施例"或類似物的單獨 引用并不一定指代相同實施例;然而,此類實施例并非互相排斥的,除非如此指示或如所屬 領(lǐng)域中的技術(shù)人員容易地顯而易見。在指代"方法"及類似物方面,單數(shù)或復數(shù)的使用并非 為限制的。應注意到的是,除非另外明確聲明或由上下文要求,否則在本發(fā)明中以非排它意 義上使用詞"或"。
[0031] 如本文中使用的短語"照片"指代任何經(jīng)掃描的攝影硬拷貝數(shù)字圖像。
[0032] 圖1為展示根據(jù)本發(fā)明的實施例的用于將經(jīng)掃描的硬拷貝媒體分類的系統(tǒng)的組 件的高級圖。所述系統(tǒng)包含:數(shù)據(jù)處理系統(tǒng)110、外圍系統(tǒng)120、用戶接口系統(tǒng)130及數(shù)據(jù)存 儲系統(tǒng)140。外圍系統(tǒng)120、用戶接口系統(tǒng)130及數(shù)據(jù)存儲系統(tǒng)140被通信地連接到數(shù)據(jù)處 理系統(tǒng)110。
[0033] 數(shù)據(jù)處理系統(tǒng)110包含實施本發(fā)明的各種實施例的過程(包含本文中描述的實例 過程)的一或多個數(shù)據(jù)處理裝置。短語"數(shù)據(jù)處理裝置"或"數(shù)據(jù)處理器"希望包含任何數(shù) 據(jù)處理裝置,例如中央處理單元("CPU")、臺式計算機、膝上型計算機、大型計算機、個人數(shù) 字助理、Blackberry?、數(shù)碼相機、蜂窩電話或用于處理數(shù)據(jù)、管理數(shù)據(jù)或操作數(shù)據(jù)的任何其 它裝置(不論使用電氣組件、磁性組件、光學組件、生物組件還是其它方式實施)。
[0034] 數(shù)據(jù)存儲系統(tǒng)140包含經(jīng)配置以存儲信息的一或多個處理器可存取存儲器,所述 信息包含執(zhí)行本發(fā)明的各種實施例的過程所需的信息,所述過程包含本文中描述的實例過 程。數(shù)據(jù)存儲系統(tǒng)140可為分布式處理器可存取存儲器系統(tǒng),所述分布式處理器可存取存 儲器系統(tǒng)包含經(jīng)由多個計算機或裝置通信地連接到數(shù)據(jù)處理系統(tǒng)110的多個處理器可存 取存儲器。另一方面,數(shù)據(jù)存儲系統(tǒng)140無須為分布式處理器可存取存儲器系統(tǒng),且因此可 包含位于單一數(shù)據(jù)處理器或裝置內(nèi)的一或多個處理器可存取存儲器。
[0035] 短語"處理器可存取存儲器"希望包含任何處理器可存取數(shù)據(jù)存儲裝置,不論易失 性或非易失性、電子、磁性、光學或其它,包含(但不限于)寄存器、軟盤、硬盤、光盤、DVD、快 閃存儲器、ROM及RAM。
[0036] 短語"通信地連接"希望包含裝置、數(shù)據(jù)處理器或在其中可傳達數(shù)據(jù)的程序之間的 任何類型的連接,不論有線或無線。短語"通信地連接"希望包含在單一數(shù)據(jù)處理器內(nèi)的裝 置或程序之間的連接、位于不同數(shù)據(jù)處理器中的裝置或程序之間的連接,以及根本不位于 數(shù)據(jù)處理器中的裝置之間的連接。就此點而言,盡管與數(shù)據(jù)處理系統(tǒng)11