經(jīng)掃描的硬拷貝媒體的分類的制作方法

文檔序號：9621388閱讀：596來源：國知局

經(jīng)掃描的硬拷貝媒體的分類的制作方法
【專利說明】
[0001] 相關(guān)申請案的奪叉參考
[0002] 本申請案主張2013年6月3日申請的標題為"經(jīng)掃描的硬拷貝媒體的分類 (CLASSIFICATION OF SCANNED HARDCOPY MEDIA)"的第 13/908, 034 號美國專利申請案的優(yōu) 先權(quán)，該美國專利申請案的全文特此以引用的方式并入本文中。
技術(shù)領(lǐng)域
[0003] 本發(fā)明涉及數(shù)字成像領(lǐng)域，且更特定來說，涉及基于物理尺寸及內(nèi)容分類經(jīng)掃描的圖像。
【背景技術(shù)】
[0004] 在智能文檔理解領(lǐng)域中，基礎(chǔ)第一步驟中的一者是識別已掃描的對象的類別。在高電平下，可將大多數(shù)對象分類為照片或文檔。只要在頁上的其它某處存在文本，含有照片的文檔通常就也可被分類為文檔。將有利的是，將文檔從照片分離作為第一步驟。如此，可運用被調(diào)諧到圖像類型的圖像處理方法及算法來最大化圖像質(zhì)量。將照片與文檔分離的另一原因是，使得能夠使用不同的壓縮方案優(yōu)化存儲及傳輸時間。針對其中可通常容許有損壓縮的照片，壓縮方案差別很大。通常使用無損方法壓縮文檔來保存圖像及文本清晰度以進一步在光學字符辨識（OCR)中使用。
[0005] 文檔識別的方法通常依賴于文檔的詞匯特征。在標題為"統(tǒng)計自然語言處理的基石出（Foundations of statistical natural language processing)'，的書的章節(jié) 16 中，作者曼寧（Maning)及舒爾策（Schutze)提供對文本文檔的分類程序的全面審查。包含決策樹、最大熵模型、感知器以及k-近鄰分類的所描述的方法依賴對文檔內(nèi)的上下文特征的分析。此類分析可能會耗費時間且并不適于分析不含文本的文檔。
[0006] 貝亞托（Beato)等人的標題為"自動確定經(jīng)掃描的硬拷貝媒體的圖像側(cè)及非圖像側(cè)（Automatic determining image and non-image sides of scanned hardcopy media) '，的美國專利案7, 920, 296描述一種用于基于空間頻率特性將攝影圖像從其非圖像側(cè)分離的方法。表征空間頻率特性的一種方法是通過計算經(jīng)掃描的數(shù)字圖像的壓縮系數(shù)。眾所周知，經(jīng)掃描的具有高頻率內(nèi)容（例如照片）的數(shù)字圖像將不會如經(jīng)掃描的具有大面積低頻率內(nèi)容（例如許多文檔）的數(shù)字圖像壓縮得一樣好。雖然此方法可用于簡單的照片與文檔分類器中，但其將不會產(chǎn)生穩(wěn)健的結(jié)果。舉例來說，具有高密度文本或嵌入的圖像的文檔將錯誤地被分類為照片。
[0007] 圖克爾遜（Turkelson)等人的標題為"使用詞匯及物理特征的自動文檔分類 (Automatic document classification using lexical and physical features) '，的美國專利申請公開案2009/0067729描述一種使用物理特性及詞匯信息以將文檔分類（舉例來說，分類為收據(jù)或商業(yè)名片）的系統(tǒng)?？捎糜谖臋n分類的物理特征的實例包含：顏色、定向、尺寸、邊距寬度及水平與垂直投影。通過執(zhí)行光學字符辨識及執(zhí)行文本分析以確定一組詞匯特征來確定詞匯特性。一種機器學習系統(tǒng)經(jīng)訓練以基于物理及詞匯特征在已知類型的文檔之間依序進行鑒別。
[0008] 金森（Kanamori)等人的標題為"圖像形成設(shè)備根據(jù)手稿的類型校正圖像信息的密度（Image forming apparatus correcting the density of image information according to the type of manuscript) "的美國專利5, 953, 450描述一種使用密度直方圖設(shè)定白點及黑點以用于再現(xiàn)的系統(tǒng)。還可使用密度直方圖來區(qū)別照片與文本文檔。
[0009] 皮爾森（Peairs)等人的標題為"使用文本及圖像的自動文檔分類（Automatic document classification using text and images) " 的美國專利 7, 039, 856 描述一種基于文本內(nèi)容以及視覺外觀的自動文檔分類的系統(tǒng)。基于比較新文檔的特性與先前已存儲于目錄中的文檔的特性，新文檔被自動存儲于一或多個目錄中。通常此方法將為緩慢的，因為必須使用可能耗時的文本分析來檢查每一未知文檔。
[0010] 仍需要一種用以自動區(qū)別照片與文檔的穩(wěn)健且有效的方法。

【發(fā)明內(nèi)容】

[0011] 本發(fā)明代表一種用于自動將經(jīng)掃描的硬拷貝媒體分類的方法，其包括：
[0012] 使用數(shù)字圖像捕獲裝置掃描一件硬拷貝媒體以提供具有多個圖像像素的經(jīng)掃描的數(shù)字圖像，所述多個圖像像素具有像素值；
[0013] 確定所述件硬拷貝媒體的物理尺寸；
[0014] 接收指定照片的常見物理尺寸的常見的照片尺寸數(shù)據(jù)庫；
[0015] 接收指定文檔的常見物理尺寸的常見的文檔尺寸數(shù)據(jù)庫；
[0016] 如果所確定的物理尺寸在預先確定的容差內(nèi)匹配照片的常見的物理尺寸中的一者，就將所述件經(jīng)掃描的硬拷貝媒體分類為照片；
[0017] 如果所確定的物理尺寸在預先確定的容差內(nèi)匹配文檔的常見的物理尺寸中的一者，就將所述件經(jīng)掃描的硬拷貝媒體分類為文檔；以及
[0018] 將所確定的分類的指示存儲到處理器可存取存儲器中。
[0019] 本發(fā)明具有以下優(yōu)點：使用文檔的物理尺寸來提供關(guān)于適當?shù)奈臋n分類的重要線索，借此提供具有改進的計算效率及精確度的文檔分類方法。
[0020] 其具有以下額外優(yōu)點：可使用簡單的表查找操作將大多數(shù)文檔分類，相對于依賴于文本分析及機器學習過程的現(xiàn)有技術(shù)，所述表查找操作速度非?？臁?br>【附圖說明】
[0021] 圖1為展示根據(jù)本發(fā)明的實施例的用于將經(jīng)掃描的硬拷貝媒體分類的系統(tǒng)的組件的尚級圖；
[0022] 圖2為展示根據(jù)示范性實施例的將經(jīng)掃描的攝影印刷品與文檔分類的方法的流程圖；
[0023] 圖3展示常見的照片尺寸數(shù)據(jù)庫；
[0024] 圖4A展示常見的ISO文檔尺寸數(shù)據(jù)庫；
[0025] 圖4B展示常見的日本文檔尺寸數(shù)據(jù)庫；
[0026] 圖4C展示常見的北美及ANSI文檔尺寸數(shù)據(jù)庫；
[0027] 圖5為展示根據(jù)示范性實施例的圖2的上下文處理步驟的額外細節(jié)的流程圖；以及
[0028] 圖6展示從一組經(jīng)掃描的發(fā)票憑證獲得的常見的詞干數(shù)據(jù)庫的一部分。
【具體實施方式】
[0029] 在以下描述中，將以通常將被實施為軟件程序的術(shù)語描述本發(fā)明的一些實施例。所屬領(lǐng)域的技術(shù)人員將容易地認識到，此類軟件的等效物也可被構(gòu)建于硬件中。因為圖像操縱算法及系統(tǒng)為眾所周知的，所以本描述將（尤其）針對形成根據(jù)本發(fā)明的方法的部分或更直接與其協(xié)作的算法及系統(tǒng)?？蓮拇隧椉夹g(shù)中已知的此類系統(tǒng)、算法、組件及元件選擇此類算法及系統(tǒng)的其它方面以及用于產(chǎn)生與其相關(guān)的圖像信號且（另外）處理與其相關(guān)的圖像信號的硬件及軟件（本文中未特定展示或描述）。考慮到在下文中如根據(jù)本發(fā)明描述的系統(tǒng)，對于實施本發(fā)明有用的本文中未特定展示、論述或描述的軟件為常規(guī)的且在此類領(lǐng)域中的普通技術(shù)內(nèi)。
[0030] 本發(fā)明包含本文中描述的實施例的組合。對"特定實施例"及類似物的引用指代在本發(fā)明的至少一個實施例中存在的特征。對"實施例"或"特定實施例"或類似物的單獨引用并不一定指代相同實施例；然而，此類實施例并非互相排斥的，除非如此指示或如所屬領(lǐng)域中的技術(shù)人員容易地顯而易見。在指代"方法"及類似物方面，單數(shù)或復數(shù)的使用并非為限制的。應注意到的是，除非另外明確聲明或由上下文要求，否則在本發(fā)明中以非排它意義上使用詞"或"。
[0031] 如本文中使用的短語"照片"指代任何經(jīng)掃描的攝影硬拷貝數(shù)字圖像。
[0032] 圖1為展示根據(jù)本發(fā)明的實施例的用于將經(jīng)掃描的硬拷貝媒體分類的系統(tǒng)的組件的高級圖。所述系統(tǒng)包含：數(shù)據(jù)處理系統(tǒng)110、外圍系統(tǒng)120、用戶接口系統(tǒng)130及數(shù)據(jù)存儲系統(tǒng)140。外圍系統(tǒng)120、用戶接口系統(tǒng)130及數(shù)據(jù)存儲系統(tǒng)140被通信地連接到數(shù)據(jù)處理系統(tǒng)110。
[0033] 數(shù)據(jù)處理系統(tǒng)110包含實施本發(fā)明的各種實施例的過程（包含本文中描述的實例過程）的一或多個數(shù)據(jù)處理裝置。短語"數(shù)據(jù)處理裝置"或"數(shù)據(jù)處理器"希望包含任何數(shù) 據(jù)處理裝置，例如中央處理單元（"CPU")、臺式計算機、膝上型計算機、大型計算機、個人數(shù) 字助理、Blackberry?、數(shù)碼相機、蜂窩電話或用于處理數(shù)據(jù)、管理數(shù)據(jù)或操作數(shù)據(jù)的任何其它裝置（不論使用電氣組件、磁性組件、光學組件、生物組件還是其它方式實施）。
[0034] 數(shù)據(jù)存儲系統(tǒng)140包含經(jīng)配置以存儲信息的一或多個處理器可存取存儲器，所述信息包含執(zhí)行本發(fā)明的各種實施例的過程所需的信息，所述過程包含本文中描述的實例過程。數(shù)據(jù)存儲系統(tǒng)140可為分布式處理器可存取存儲器系統(tǒng)，所述分布式處理器可存取存儲器系統(tǒng)包含經(jīng)由多個計算機或裝置通信地連接到數(shù)據(jù)處理系統(tǒng)110的多個處理器可存取存儲器。另一方面，數(shù)據(jù)存儲系統(tǒng)140無須為分布式處理器可存取存儲器系統(tǒng)，且因此可包含位于單一數(shù)據(jù)處理器或裝置內(nèi)的一或多個處理器可存取存儲器。
[0035] 短語"處理器可存取存儲器"希望包含任何處理器可存取數(shù)據(jù)存儲裝置，不論易失性或非易失性、電子、磁性、光學或其它，包含（但不限于）寄存器、軟盤、硬盤、光盤、DVD、快閃存儲器、ROM及RAM。
[0036] 短語"通信地連接"希望包含裝置、數(shù)據(jù)處理器或在其中可傳達數(shù)據(jù)的程序之間的任何類型的連接，不論有線或無線。短語"通信地連接"希望包含在單一數(shù)據(jù)處理器內(nèi)的裝置或程序之間的連接、位于不同數(shù)據(jù)處理器中的裝置或程序之間的連接，以及根本不位于數(shù)據(jù)處理器中的裝置之間的連接。就此點而言，盡管與數(shù)據(jù)處理系統(tǒng)11

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：路易斯·詹姆斯·貝亞托;
技術(shù)所有人：柯達阿拉里斯股份有限公司;
我是此專利的發(fā)明人

上一篇：便攜式相機擴展塢的制作方法
上一篇：能源管理系統(tǒng)、控制器、遠程控制方法以及程序的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應用 3.機電一體化產(chǎn)品開發(fā) 4.機械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計 2.汽車檢測系統(tǒng)設(shè)計 3.汽車電子控制系統(tǒng)設(shè)計
4、畢老師：機構(gòu)動力學與控制
5、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

硬盤壞道數(shù)據(jù)拷貝工具相關(guān)技術(shù)

硬拷貝相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

經(jīng)掃描的硬拷貝媒體的分類的制作方法