電子文檔生成系統(tǒng)以及電子文檔生成裝置的制造方法_5

文檔序號：9564855閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>電子文檔生成系統(tǒng)以及電子文檔生成裝置的制造方法

域單位提取出多個部分區(qū)域230并發(fā)送。即，也可以以字符區(qū)域210中的多行的字符串的區(qū)域為單位提取出多個部分區(qū)域230并發(fā)送。更詳細而言，也可以(以段落單位)提取出按照每個字符區(qū)域的段落劃分出的多個部分區(qū)域并發(fā)送。由此，與第一實施方式相比，處理對象區(qū)域變大，從掃描圖像提取出的處理對象區(qū)域的數(shù)量減少。因此，由于每一個OCR處理委托的圖像數(shù)據(jù)量(數(shù)據(jù)轉(zhuǎn)送量)增大，并且OCR處理的委托次數(shù)減少，通信的開銷減少等，能夠進行高效的通信。S卩，能夠?qū)崿F(xiàn)處理的效率化。
[0196]在該第四實施方式中，對對于第二實施方式進行這樣的改變的方式進行說明。以下，以與第二實施方式的不同點為中心進行說明。
[0197]具體而言，在步驟S11之后的步驟S12(參照圖5)中，以段落單位從掃描圖像200的字符區(qū)域210提取出處理對象區(qū)域(部分區(qū)域230)。S卩，包括1行或者多行的字符串的區(qū)域(換言之，包括1個或者多個行區(qū)域的區(qū)域)被作為部分區(qū)域230提取。
[0198]更詳細而言，與第一實施方式相同地，提取出作為1行字符串的區(qū)域的行區(qū)域之后計算行間間隔y。根據(jù)某行與下一行的行間間隔1是否比規(guī)定的閾值TH2小，來判斷該某行與該下一行是否屬于相同的段落。這里，閾值TH2是比上述的閾值TH1大的值(TH2 >TH1)，例如是數(shù)毫米?十數(shù)毫米。
[0199]在上述的各實施方式中，從圖6的掃描圖像提取出圖7那樣的3個部分區(qū)域230(231、232、233)分別作為處理對象區(qū)域(處理單位區(qū)域)。
[0200]另一方面，在該第四實施方式中，從圖6的掃描圖像提取出圖13那樣的2個部分區(qū)域230(236、237)分別作為處理對象區(qū)域(處理單位區(qū)域)。判定為圖7中的2個行區(qū)域231、232的相互間的行間間隔y比上述的閾值TH2小，判定出行區(qū)域231、232屬于相同的段落的主旨。另一方面，判定為行區(qū)域232與該行區(qū)域232的下一行區(qū)域233的行間間隔y (H21)比上述的閾值TH2大(H21 > TH2)，判定出行區(qū)域233屬于與行區(qū)域232不同的段落的主旨。
[0201]其結(jié)果，如圖13所示，集中2個行區(qū)域231、232的部分區(qū)域236被作為一個處理對象區(qū)域提取。另外，被判定為其它段落的部分區(qū)域237與部分區(qū)域236分離，被作為其它的處理對象區(qū)域提取。
[0202]另外，在該第四實施方式中，在步驟S12中，也分別提取出在各部分區(qū)域230內(nèi)存在的1個或者多個“行區(qū)域(1行字符串的區(qū)域)”。具體而言，如上述那樣，進行了基于閾值TH1的行區(qū)域的識別處理。由此，例如，部分區(qū)域236所包含的2個行區(qū)域231、232也被提取。
[0203]在步驟S13以后，對于各部分區(qū)域(包括1個或者多個行區(qū)域的區(qū)域)執(zhí)行了與第二實施方式相同的處理。
[0204]例如，在步驟S13中，檢測了部分區(qū)域230(236、237)的位置以及大小。
[0205]另外，在部分區(qū)域包括多行字符串的情況下，也檢測出關(guān)于該多行的各個的行區(qū)域(字符串區(qū)域)的位置以及大小。例如，也檢測出多行的部分區(qū)域236所包含的各行區(qū)域231、232的位置以及大小(參照圖14)。
[0206]并且，在步驟S13中，也檢測出各部分區(qū)域230內(nèi)的行區(qū)域的個數(shù)(換言之，各處理對象區(qū)域230所包含的字符串的行數(shù))。例如，部分區(qū)域236的行區(qū)域的個數(shù)是“2”，部分區(qū)域237的行區(qū)域的個數(shù)是“1”。
[0207]之后，執(zhí)行了步驟S14?S15的各處理，在其接下來的步驟S16中，決定了排列方向字符尺寸。
[0208]具體而言，基于處理對象區(qū)域(例如，部分區(qū)域236)的Y方向(上下方向)上的長度(高度)和該處理對象區(qū)域所包含的字符串的行數(shù)，檢測出該處理對象區(qū)域所包含的“行區(qū)域”的正交方向(Y方向)上的長度(高度)。例如，部分區(qū)域236的Y方向上的長度(高度)H10(參照圖14)除以該部分區(qū)域236所包含的字符串的行數(shù)M( “2”)得到的值(=H10/M)被作為行區(qū)域的Y方向長度(正交方向上的長度)而計算出。在該實施方式中，關(guān)于部分區(qū)域236內(nèi)的多個行區(qū)域的“字符高度”的平均值作為“行區(qū)域”的正交方向(Y方向)上的長度(高度)被檢測出，并且，作為該部分區(qū)域236 (處理對象區(qū)域)的字符的字符高度被決定。
[0209]然后，基于行區(qū)域的正交方向上的該長度，決定了關(guān)于包括該行區(qū)域的部分區(qū)域236(處理對象區(qū)域)的正交方向字符尺寸(字符高度)。例如，行區(qū)域的正交方向上的該長度照原樣被作為關(guān)于部分區(qū)域236(處理對象區(qū)域)的正交方向字符尺寸(字符高度)而決定。
[0210]接著，求出與該“字符高度”(H10/M)對應(yīng)的字體點尺寸(例如26點)。然后，推斷決定為部分區(qū)域230內(nèi)的字符的“字符寬度”是相當于該字體點尺寸的大小?？梢哉f，與“字符高度”對應(yīng)的標準的“字符寬度”被推斷決定。
[0211]以后，與第二實施方式相同地，基于關(guān)于處理對象區(qū)域的正交方向字符尺寸(字符高度)決定關(guān)于該處理對象區(qū)域內(nèi)的排列方向字符尺寸(字符寬度)即可。
[0212]另外，步驟S17以后的處理也被相同地進行。
[0213]例如，在步驟S17中，OCR處理結(jié)果涉及的字符串(文本信息)基于在步驟S16中決定的排列方向字符尺寸被嵌入。具體而言，構(gòu)成處理對象區(qū)域內(nèi)的字符串的各字符以在其排列方向上具有作為上述的排列方向字符尺寸(字符寬度)被決定的大小的狀態(tài)配置。此外，在部分區(qū)域包含有多行字符串的情況下，例如，該部分區(qū)域內(nèi)的全部的行的字符串的各字符被視為具有相互相同的大小的字符來配置即可。
[0214]如上所述，OCR處理結(jié)果的字符串基于排列方向字符尺寸配置于電子文檔500內(nèi)，生成了該電子文檔500。
[0215]此外，在上述第四實施方式中，對對于第二實施方式進行如上述那樣的改變的方式進行了說明。然而，本發(fā)明并不局限于此。例如，也可以對于第一實施方式進行相同的改變?；蛘撸部梢詫τ诘谌龑嵤┓绞竭M行相同的改變。
[0216]在這些情況下，在部分區(qū)域230內(nèi)包含有多個行區(qū)域時，在決定“排列方向字符尺寸”時，也不一定需要對于多個行區(qū)域的全部(全部的行的字符串)計算字符數(shù)，也可以對于該多個行區(qū)域中的任意1行的行區(qū)域計算字符數(shù)。
[0217]例如，計算出關(guān)于多行中的最初的1行的行區(qū)域的“字符數(shù)”，基于該行區(qū)域的寬度除以該行區(qū)域的字符數(shù)得到的值決定“排列方向字符尺寸”即可。
[0218]而且，該排列方向字符尺寸被視為關(guān)于(不僅該行區(qū)域)包括該行區(qū)域的部分區(qū)域230內(nèi)的全部的字符的“排列方向字符尺寸”，部分區(qū)域230內(nèi)的字符串配置于電子文檔500內(nèi)即可。由此，字符數(shù)的計算動作僅對于多個行的字符串中的一部分的行的字符串進行即可，所以能夠?qū)崿F(xiàn)處理的高速化。相同段落所包含的多行的字符串的各字符的大小分別相互相同的情況較多，所以能夠?qū)CR處理結(jié)果涉及的多行的字符串的各個配置在排列方向上比較正確的位置。
[0219]另外，在上述第四實施方式中，例示了基于處理對象區(qū)域(例如部分區(qū)域236)的高度和該處理對象區(qū)域所包含的字符串的行數(shù)，檢測出該處理對象區(qū)域所包含的“行區(qū)域”的高度，基于該行區(qū)域的“高度”決定了“排列方向字符尺寸”的方式，但并不局限于此。
[0220]例如，關(guān)于多個行中的最初的1行的行區(qū)域的“高度”通過圖像處理檢測，基于該行區(qū)域的“高度”決定“排列方向字符尺寸”即可。
[0221]<5.第五實施方式>
[0222]另外，在上述第一實施方式?上述第三實施方式中，包括單一行的字符串(詳細而言，單一行的字符串的全范圍)的區(qū)域被作為處理對象區(qū)域(部分區(qū)域)提取并發(fā)送，但并不局限于此。例如，也可以考慮在單一行的字符串內(nèi)存在比較大的空隙的情況等，利用該空隙劃分該單一行的字符串而得到的小區(qū)域分別被作為處理對象區(qū)域(部分區(qū)域)提取并發(fā)送。換言之，也可以1行的字符串的一部分的范圍的區(qū)域亦即行區(qū)域(1行內(nèi)的小區(qū)域)被作為處理對象區(qū)域(部分區(qū)域)提取并發(fā)送。
[0223]在該第五實施方式中，對對于第一實施方式進行這樣的改變的方式進行說明。以下，以與第一實施方式的不同點為中心進行說明。
[0224]這里，在步驟S12(圖5)中，對于圖15的字符區(qū)域210 (212)中的最下行的字符串，字符串“14X 17inch”的區(qū)域234和字符串“17X 17inch”的區(qū)域235被分別作為相互不同的部分區(qū)域230提取(也參照圖16)。
[0225]更詳細而言，提取部65對于目標行計算目標行內(nèi)的目標字符與該目標字符之前的字符的間隔亦即前間隔P和該目標字符與該目標字符之后的字符的間隔亦即后間隔q。此外，相鄰字符間間隔P、q與上述的字間間隔(相鄰字符間間隔)x相同地計算即可。
[0226]在判定為后間隔q比前間隔p大超過規(guī)定程度的情況下，提取部65判定為在該目標字符與該目標字符之后的字符之間有顯著的空白區(qū)域，提取該空白區(qū)域的兩側(cè)的2個小區(qū)域作為相互不同的部分區(qū)域。換言之，判定為該目標字符和該目標字符之后的字符屬于相互不同的部分區(qū)域。由此，包括目標字符和該目標字符之前的字符的小區(qū)域和包括該目標字符之后的字符的小區(qū)域被作為相互不同的部分區(qū)域提取。
[0227]更具體而言，在值q相對于值p的比值(q/p)比規(guī)定的閾值TH2 (例如500% )大的情況下，判定為在目標字符與該目標字符之后的字符之間有顯著的空白區(qū)域。相反，在該比值(q/p)比規(guī)定的閾值TH2小的情況下，判定為在目標字符與該目標字符之后的字符之間不存在顯著的空白區(qū)域，該目標字符與該目標字符之后的字符的兩字符屬于相同的部分區(qū)域。這樣的處理對于第一行內(nèi)的多個字符，按照從一方側(cè)(例如左側(cè))向另一方側(cè)(例如右側(cè))的順序依次執(zhí)行。其結(jié)果，在存在顯著的空白區(qū)域的情況下，提取出被該空白區(qū)域劃分的兩側(cè)的小區(qū)域。
[0228]由此，例如，如圖16所示，字符串“14X 17inch”的區(qū)域234和字符串“17X 17inch”的區(qū)域235被分別作為相互不同的部分區(qū)域提取。
[0229]如上所述，1行內(nèi)的各小區(qū)域也可以被顯著的空白部分相互分離，作為部分區(qū)域230提取。換言之，也可以1行字符串的排列方向上的全范圍中的一部分的范圍的區(qū)域(小區(qū)域)被作為處理對象區(qū)域提取。
[0230]在步驟S13以后，對于各部分區(qū)域(小區(qū)域)執(zhí)行與第一實施方式相同的處理。例如，在步驟S13中，進行了各部分區(qū)域(小區(qū)域)的位置以及大小的檢測處理等，在步驟S14、S15中，OCR處理等按照每個該各部分區(qū)域(小區(qū)域)執(zhí)行。另外，在步驟S16中，基于上述各小區(qū)域(1行字符串的排列方向上的全范圍中的一部分的范圍的區(qū)域)的正交方向上的長度計算出正交方向字符尺寸，基于該正交方向字符尺寸決定關(guān)于處理對象區(qū)域內(nèi)的字符的排列方向字符尺寸。在步驟S17中，各小區(qū)域內(nèi)的字符串基于按照每個部分區(qū)域(小區(qū)域)決定的該排列方向字符尺寸配置于電子文檔500內(nèi)。
[0231]也可以利用以上的方式生成電子文檔500。
[0232]圖17是表示第五實施方式的字符配置結(jié)果的圖。在圖17中，也與圖11等相同地，重疊顯示有兩種類的字符串(OCR處理前后的字符串)。
[0233]根據(jù)該第五實施方式，如圖17所示，OCR處理結(jié)果涉及的各字符相對于作為圖像顯示于掃描圖像200內(nèi)的各字符的位置，配置在左右方向上比較近的位置。例如，與表示上述的比較例的字符配置結(jié)果的圖12比較可知，各部分區(qū)域231、232、234(圖16)的OCR處理結(jié)果的字符串分別配置在其排列方向上比較正確的位置。
[0234]此外，圖18是表示其它的比較例的字符配置結(jié)果的圖。在圖18中，也與圖17相同地，重疊顯示有兩種類的字符串(OCR處理前后的字符串)。在圖18中，假定了包括域234和區(qū)域235的雙方的區(qū)域被決定為一個處理對象區(qū)域(部分區(qū)域)，進行了與第一實施方式相同的處理的狀況。在圖18中，由于行內(nèi)存在的比較大的寬度的空白區(qū)域的影響，多個部分區(qū)域中區(qū)域235的字符從本來的位置偏移較大地配置。
[0235]與此相對，在圖17中，(不僅部分區(qū)域231、232、234)部分區(qū)域235涉及的OCR處理結(jié)果的字符串也在其排列方向上配置在更正確的位置。這樣，根據(jù)以1行字符串的區(qū)域亦即行區(qū)域(但是，這里是作為1行字符串的“一部分的范圍的區(qū)域”的行區(qū)域)為單位提取處理對象區(qū)域，能夠抑制或者減少在1行字符串內(nèi)存在的比較大的空白區(qū)域的影響。
[0236]此外，在該第五實施方式中，對對于第一實施方式進行上述的改變的方式進行了說明。然而，本發(fā)明并不局限于此，也可以對于第二實施方式以及第三實施方式進行相同的改變。例如，也可以提取1行字符串的排列方向上的全范圍中的一部分的范圍的區(qū)域作為處理對象區(qū)域，基于該一部分的范圍的區(qū)域的正交方向上的長度計算出正交方向字符尺寸。然后，進行基于該正交方向字符尺寸決定關(guān)于處理對象區(qū)域內(nèi)的字符的排列方向字符尺寸等的處理即可。
[0237]< 6.變形例等〉
[0238]以上，對該發(fā)明的實施方式進行了說明，但該發(fā)明并不局限于上述說明的內(nèi)容。
[0239]例如，在上述各實施方式中，“字符寬度”的決定處理(步驟S16)在步驟S15之后執(zhí)行，但并不局限于此。該決定處理也可以在步驟S14之前(具體而言，步驟S13中)執(zhí)行?；蛘?，該決定處理也可以在步驟S14的處理開始之后(或者開始之前)開始其執(zhí)行，與云服務(wù)器90的OCR處理并行執(zhí)行。
[0240]在上述各實施方式中，例示了從掃描圖像200的字符區(qū)域210提取出多個部分區(qū)域230，以各部分區(qū)域230作為單位實施了 OCR處理的方式，但并不局限于此。例如，也可以掃描圖像200的字符區(qū)域210的整體被決定為一個處理對象區(qū)域，將該字符區(qū)域210的整體作為一個單位實施OCR處理。而且，也可以針對字符區(qū)域210整體的OCR處理的處理結(jié)果從云服務(wù)器90被外部終端50接收，基于該處理結(jié)果生成電子文檔。
[0241]另外，在上述各實施方式中，主要對橫寫的字符串進行了說明，但并不局限于此，也能夠?qū)⑸鲜龅乃枷霊?yīng)用于縱寫的字符串。此外，如上所述，在縱寫的字符串的情況下，字符串的排列方向是上下方向(字符的高度方向)，“字符高度”相當于排列方向字符尺寸(字符的排列方向尺寸)，“字符寬度”相當于正交方向字符尺寸。
[0242]另外，在上述各實施方式中，例示了掃描圖像的部分區(qū)域被作為OCR處理的處理對象區(qū)域提取的方式，但本發(fā)明并不局限于此。例如，也可以不是掃描圖像的部分區(qū)域，而是掃描圖像的整體區(qū)域作為OCR處理的處理對象區(qū)域被提取(設(shè)定)。
[0243]另外，在上述各實施方式中，例示了由MFP10生成的掃描圖像被發(fā)送至外部終端50，該外部終端50作為根據(jù)該掃描圖像生成電子文檔的電子文檔生成裝置發(fā)揮作用，并且，云服務(wù)器90作為執(zhí)行OCR處理的OCR處理裝置發(fā)揮作用的方式，但并不局限于此。
[0244]例如，在圖19所示的系統(tǒng)構(gòu)成等中，也可以使生成了掃描圖像的MFP10自身作為執(zhí)行與上述的外部終端50 (電子文檔生成應(yīng)用程序110)相同的動作的電子文檔生成裝置發(fā)揮作用，并且，云服務(wù)器90作為執(zhí)行OCR處理(通用OCR應(yīng)用程序120)的OCR處理裝置發(fā)揮作

完整全部詳細技術(shù)資料下載

當前第5頁1 2 3 4 5 6

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

電子文檔安全管理系統(tǒng)相關(guān)技術(shù)

鐵卷電子文檔安全系統(tǒng)相關(guān)技術(shù)

電子文檔管理系統(tǒng)相關(guān)技術(shù)

電子文檔安全系統(tǒng)相關(guān)技術(shù)

天榕電子文檔安全系統(tǒng)相關(guān)技術(shù)

生體魔力生成裝置相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

電子文檔生成系統(tǒng)以及電子文檔生成裝置的制造方法_5