專利名稱:用于文檔圖像的行分割方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于文檔圖像的行分割方法及行分割系統(tǒng),并且尤其涉及用于具有復(fù)雜布局的文檔圖像或者其中存在噪聲的文檔圖像的行分割方法以及行分割系統(tǒng)。
背景技術(shù):
在光學(xué)字符識(shí)別(OCR)領(lǐng)域,存在多種用于識(shí)別從原稿文檔獲得的文檔圖像以獲得文檔圖像中包含的文本內(nèi)容的技術(shù)。該多種技術(shù)中的一種技術(shù)是將文檔圖像中的文本塊分割成文本行,此技術(shù)在下文被稱為行分割方法。一種用于文檔圖像的行分割的技術(shù)是基于圖像的技術(shù),尤其是基于像素投影的技術(shù),并且這種技術(shù)的一種常用方法是僅依據(jù)各像素行的黑像素投影來執(zhí)行行分割的方法。更具體來說,如圖1所示,該方法主要包含計(jì)算文檔圖像的一個(gè)文本塊中所包含的各像素行的黑像素投影值,根據(jù)黑像素投影值來檢測(cè)所有的空格像素行,并且沿空格像素行劃分該文本塊以得到行分割結(jié)果。一個(gè)像素行的黑像素投影值可為多種形式,其中的一種常用形式是一個(gè)像素行中的黑像素計(jì)數(shù)與該像素行的面積的比率,其中該面積可通過像素行的寬度乘以像素行的高度來計(jì)算。更具體來說,一個(gè)像素行的黑像素投影值為該像素行中的黑像素計(jì)數(shù)與該像素行的寬度的比率,這是因?yàn)橐粋€(gè)像素行的高度通常為I。在此技術(shù)中,當(dāng)一個(gè)像素行中的黑像素計(jì)數(shù)與該像素行的面積的比率小于通常為O或接近O的閾值時(shí),該像素行將被認(rèn)為是空格像素行,空格像素行通常被認(rèn)為是不包含字符相關(guān)內(nèi)容的像素行,并且將被用于文本塊的行分割。但是,此方法通常不能獲得良好的行分割結(jié)果,在文檔圖像中存在噪聲或者在文檔圖像具有復(fù)雜布局時(shí)尤其如此。已經(jīng)提出一些方法來應(yīng)對(duì)這樣的行分割問題,但是這些方法趨向于僅僅應(yīng)對(duì)噪聲文檔圖像或者僅僅應(yīng)對(duì)復(fù)雜布局圖像。—種方法是在進(jìn)行行分割之前刪除噪聲。該方法針對(duì)噪聲文檔圖像,但是該方法費(fèi)時(shí),而且僅僅能應(yīng)對(duì)“點(diǎn)噪聲”等,該方法尤其不能解決復(fù)雜布局文檔圖像的行分割問題。另一種方法是基于白像素行程長(zhǎng)度(run-length),該白像素行程長(zhǎng)度是像素行中的連續(xù)白像素序列的長(zhǎng)度。在該方法中,各像素行的白像素行程長(zhǎng)度被計(jì)算,并且具有長(zhǎng)的白像素行程長(zhǎng)度的像素行被視為可能的行分割位置、即空格像素行。該方法對(duì)于某些布局較不復(fù)雜的文檔圖像稍微有用,并且有時(shí)對(duì)于某些特定噪聲文檔圖像也有用,其中兩個(gè)文本行之間的某些噪聲像素行可通過該方法被檢測(cè)到。但是,該方法也具有如下的三個(gè)缺點(diǎn)。首先,當(dāng)文本行短時(shí)、尤其是當(dāng)在相鄰字符之間存在大的空格(space)(諸如標(biāo)題行)時(shí),由于這樣的文本行中的像素行可能具有長(zhǎng)的白像素行程長(zhǎng)度,因此該文本行可能被錯(cuò)誤地分割成若干文本行,如圖2A所示。其次,當(dāng)該方法被應(yīng)用于分割不能通過基于投影的方法被分開的兩個(gè)文本行時(shí),如果這兩個(gè)文本行中的一個(gè)短而另一個(gè)長(zhǎng),則對(duì)于短的文本行中的像素行,空白區(qū)域?qū)⒈灰暈橄袼匦械陌紫袼匦谐涕L(zhǎng)度的一部分,并且一些字符像素行將被錯(cuò)誤地視為是空格像素行。因此,當(dāng)沿最可能的噪聲像素行劃分文本行區(qū)域時(shí),短的文本行可能被錯(cuò)誤地分割成若干文本行,如圖2B所示??商鎿Q地,當(dāng)通過直接刪除所有噪聲像素行來劃分文本行時(shí),短的文本行可能被視為文本行之間的空格區(qū)域的一部分,如圖2C所示。第三,對(duì)于噪聲文檔圖像,只有在像素行中的噪聲不分散的情況下,才能通過該方法找到噪聲像素行。當(dāng)在文檔圖像中噪聲分散時(shí),通過該方法并不能找到噪聲像素行,并且不能將文本行分開,如圖2D所示。此外,具有復(fù)雜布局的其中噪聲存在并且分散的文檔圖像也不能根據(jù)現(xiàn)有技術(shù)被準(zhǔn)確地分割,如圖2E所示。從上述內(nèi)容清楚地看到,目前不存在一種方法能夠有效且準(zhǔn)確地處理具有復(fù)雜布局的文檔圖像或者噪聲存在并且分散的文檔圖像。而且,不存在一種方法能夠有效且準(zhǔn)確地處理具有復(fù)雜布局并且其中噪聲存在且分散的文檔圖像。因此,考慮到前述現(xiàn)有技術(shù)中存在的技術(shù)問題,需要一種用于克服由現(xiàn)有技術(shù)導(dǎo)致的缺陷并且通過行分割從文檔圖像準(zhǔn)確地獲得文本行的技術(shù)。
發(fā)明內(nèi)容
本發(fā)明的一個(gè)目的是準(zhǔn)確地實(shí)現(xiàn)復(fù)雜布局文檔圖像的行分割。本發(fā)明的另一個(gè)目的是準(zhǔn)確地實(shí)現(xiàn)噪聲文檔圖像的行分割,尤其是噪聲分散的噪聲文檔圖像的行分割。本發(fā)明的還另一個(gè)目的是準(zhǔn)確地實(shí)現(xiàn)具有復(fù)雜布局并且其中噪聲存在且分散的文檔圖像的行分割。在本發(fā)明的一個(gè)方面,提供了 一種用于文檔圖像中的文本塊的行分割的方法,所述方法包括第一分割步驟,用于對(duì)文本塊進(jìn)行分割,以得到包含至少一個(gè)像素區(qū)域的第一像素區(qū)域;空白區(qū)域去除步驟,用于檢測(cè)所述第一像素區(qū)域中的每一像素區(qū)域中的各個(gè)像素行中的連續(xù)白像素序列的公共重疊部作為空白區(qū)域,以及將該空白區(qū)域從所述第一像素區(qū)域中的所述像素區(qū)域中去除,以得到第二像素區(qū)域;以及文本行分割步驟,用于利用第二像素區(qū)域來進(jìn)行文本行分割。在本發(fā)明的另一方面,提供了一種用于文檔圖像中的文本塊的行分割的系統(tǒng),所述系統(tǒng)包括第一分割單元,被配置用于對(duì)文本塊進(jìn)行分割,以得到包含至少一個(gè)像素區(qū)域的第一像素區(qū)域;空白區(qū)域去除單元,被配置用于檢測(cè)所述第一像素區(qū)域中的每一像素區(qū)域中的各個(gè)像素行中的連續(xù)白像素序列的公共重疊部作為空白區(qū)域,以及將該空白區(qū)域從所述第一像素區(qū)域中的所述像素區(qū)域中去除,以得到第二像素區(qū)域;以及文本行分割單元,被配置用于利用第二像素區(qū)域來進(jìn)行文本行分割。從下文參考附圖對(duì)示例性實(shí)施例的描述,本發(fā)明的其它特性特征和優(yōu)點(diǎn)將變得清晰。
并入說明書并且構(gòu)成說明書的一部分的附圖示出了本發(fā)明的實(shí)施例,并且與描述一起用于解釋本發(fā)明的原理。圖1是示意性示出現(xiàn)有技術(shù)中的基于黑像素投影的行分割的方法。圖2A至2E示意性地示出不能由現(xiàn)有技術(shù)方法準(zhǔn)確分割的多種文檔圖像,其中圖2A至2C示意性地示出被錯(cuò)誤分割的具有復(fù)雜布局的文檔圖像,圖2D示意性地示出不能被分割的其中分散有噪聲的文檔圖像,并且圖2E示意性示出不能被準(zhǔn)確分割的具有復(fù)雜布局并且其中分散有噪聲的文檔圖像。圖3示意性地解釋了像素行的寬度和高度的含義。圖4是示出用于實(shí)施根據(jù)本發(fā)明的行分割系統(tǒng)的計(jì)算設(shè)備的布置的框圖。圖5是根據(jù)本發(fā)明的行分割方法的第一實(shí)施例的流程圖。圖6示意性地示出通過圖5中的方法實(shí)現(xiàn)的像素區(qū)域的行分割結(jié)果的示例。圖7示意性地示出其中包含空白區(qū)域的像素區(qū)域。圖8是確定像素區(qū)域中的空白區(qū)域并且從該像素區(qū)域獲得第二像素區(qū)域的流程圖。圖9示意性地示出像素區(qū)域中的各像素行中的連續(xù)白像素序列的公共重疊部的示例。圖1OA和IOB示意性地示出像素區(qū)域中的空白區(qū)域檢測(cè)的另一示例。圖11示意性地示出在空白區(qū)域已被檢測(cè)到并去除的情況下像素區(qū)域中的像素行的參數(shù)。圖12A至12C是在行分割方法的第一實(shí)施例中的步驟S300中執(zhí)行的示例性步驟的流程圖。圖13A和13B分別示意性地示出通過現(xiàn)有技術(shù)實(shí)現(xiàn)的以及通過本發(fā)明的第一實(shí)施例實(shí)現(xiàn)的具有復(fù)雜布局的文檔圖像的行分割結(jié)果的比較。圖14是根據(jù)本發(fā)明的行分割方法的第二實(shí)施例中的步驟S300中的處理的流程圖。圖15A至15C分別示意性地示出通過現(xiàn)有技術(shù)實(shí)現(xiàn)的以及通過本發(fā)明的第二實(shí)施例實(shí)現(xiàn)的其中噪聲存在并且分散的文檔圖像的行分割結(jié)果的比較。圖16A和16B示意性地示出其中兩個(gè)相鄰文本行具有明顯不同的長(zhǎng)度的兩種情況。圖17是根據(jù)本發(fā)明的行分割方法的第三實(shí)施例中的文本行分割步驟中的處理的流程圖。圖18是第三實(shí)施例中的文本行分割步驟中的第一確定步驟中的處理的流程圖。圖19示意性地示出第三字符行區(qū)域和確定的空格像素行之間的對(duì)應(yīng)關(guān)系。圖20是第三實(shí)施例中的行分割方法的第二確定步驟中的處理的流程圖。圖21A至21C示意性地示出對(duì)于其中文本塊中的兩個(gè)相鄰文本行具有明顯不同的長(zhǎng)度的文檔圖像通過現(xiàn)有技術(shù)中的方法實(shí)現(xiàn)的以及通過第三實(shí)施例中的方法實(shí)現(xiàn)的行分割結(jié)果之間的比較。圖22A至22E示意性地示出具有復(fù)雜布局并且其中噪聲存在且分散的文檔圖像的行分割的示例。
圖23是示出行分割系統(tǒng)的總體配置的框圖。
具體實(shí)施例方式下文將參照附圖詳細(xì)描述本發(fā)明的實(shí)施例。為了有助于本發(fā)明的透徹且適當(dāng)?shù)睦斫猓瑢⑹紫冉忉尡旧暾?qǐng)的說明書和權(quán)利要求中所使用的術(shù)語。在本申請(qǐng)的說明書和權(quán)利要求中,尤其當(dāng)用于文檔圖像時(shí),術(shù)語“文本塊”指的是包含文檔圖像中的一行或多行中的一個(gè)或多個(gè)詞語并且可被分割成一個(gè)或多個(gè)像素區(qū)域的塊。像素區(qū)域可由一個(gè)或多個(gè)文本行構(gòu)成,并且可被分割以便獲得各個(gè)文本行。文本行對(duì)應(yīng)于一行文本,并且更具體地,對(duì)應(yīng)于一行詞語,并且可包括一個(gè)或多個(gè)像素行。像素行可以是包含與像素區(qū)域中的詞語有關(guān)的信息的字符像素行,或者是基本不包含與詞語有關(guān)的信息并且可被視為用于像素區(qū)域的行分割的分割位置的空格像素行。一個(gè)或多個(gè)字符像素行可被合并為一個(gè)字符行區(qū)域。對(duì)于像素行或者文本行的方向,術(shù)語“水平”指的是基本水平,并且術(shù)語“垂直”指的是基本垂直。特別地,文檔圖像中使用的術(shù)語“水平”指的是基本與文檔圖像或者原稿圖像中的文本行平行的方向。類似地,文檔圖像中的術(shù)語“垂直”指的是基本與文檔圖像或者原稿圖像中的文本行垂直的方向。 在本申請(qǐng)的說明書和權(quán)利要求中,關(guān)于通常為沿水平方向的一個(gè)行的文檔圖像中的文本行,術(shù)語“高度”(由H指示)以及“寬度”(由W指示)分別指的是該文本行在垂直方向上的長(zhǎng)度以及該文本行在水平方向上的長(zhǎng)度。當(dāng)然,文本行并不局限于水平方向的行,并且其可以是垂直方向的行(也被稱為文本列)。在此情況下,術(shù)語“水平”可指的是基本與文檔圖像或者原稿圖像中的文本列垂直的方向,術(shù)語“垂直”可指的是基本與文檔圖像或者原稿圖像中的文本列平行的方向,并且術(shù)語“高度”(由H指示)以及“寬度”(由W指示)分別指的是該文本列在水平方向上的長(zhǎng)度以及該文本列在垂直方向上的長(zhǎng)度。圖3示意性地示出上述兩種情況。由于一個(gè)文本塊和一個(gè)像素區(qū)域包括一個(gè)或多個(gè)文本行,并且一個(gè)文本行由一個(gè)或多個(gè)像素行構(gòu)成,因此該“高度”和“寬度”的含義還等同地適用于文本塊、像素區(qū)域及其子區(qū)域、像素行及其子區(qū)段中的任一個(gè)。鑒于此,文本塊或像素區(qū)域的分割(即,行分割)將在其高度方向上進(jìn)行。在下文中,為了簡(jiǎn)化描述,除非另外說明,否則“高度”和“寬度”分別指的是沿垂直方向的長(zhǎng)度和沿水平方向的長(zhǎng)度,并且分割指的是在垂直方向上的分割。在本發(fā)明的描述中,除非另外說明,否則所有尺寸(諸如長(zhǎng)度或?qū)挾?以“像素”為單位。圖4是示出用于實(shí)施根據(jù)本發(fā)明的行分割系統(tǒng)的計(jì)算設(shè)備的布置的框圖。為了簡(jiǎn)化起見,該系統(tǒng)被示出為置于單個(gè)計(jì)算設(shè)備中。但是,不管該系統(tǒng)被置于單個(gè)計(jì)算設(shè)備中還是被置于作為網(wǎng)絡(luò)系統(tǒng)的多個(gè)計(jì)算設(shè)備中,該系統(tǒng)都是有效的。如圖4所示,計(jì)算設(shè)備100用于實(shí)施行分割的處理。計(jì)算設(shè)備100可包括CPU 101、芯片組102、RAM 103、存儲(chǔ)控制器104、顯示控制器105、硬盤驅(qū)動(dòng)器106、⑶-ROM驅(qū)動(dòng)器107、以及顯示器108。計(jì)算設(shè)備100還可包括連接于CPU 101和芯片組102之間的信號(hào)線111、連接于芯片組102和RAM 103之間的信號(hào)線112、連接于芯片組102和各種外圍設(shè)備之間的外圍設(shè)備總線113、連接于存儲(chǔ)控制器104和硬盤驅(qū)動(dòng)器106之間的信號(hào)線114、連接于存儲(chǔ)控制器104和⑶-ROM驅(qū)動(dòng)器107之間的信號(hào)線115、以及連接于顯示控制器105和顯示器108之間的信號(hào)線116??蛻粼O(shè)備120可直接或經(jīng)由網(wǎng)絡(luò)130連接到計(jì)算設(shè)備100??蛻粼O(shè)備120可例如向計(jì)算設(shè)備100發(fā)送行分割的處理所需要的指令和/或參數(shù),并且計(jì)算設(shè)備100可將信息返回給客戶設(shè)備120或者在顯示器108上顯示信息。[第一實(shí)施例]下文,將參照?qǐng)D5描述根據(jù)本發(fā)明的行分割方法的第一實(shí)施例,并且圖5是行分割方法的第一實(shí)施例的流程圖。在行分割方法的步驟SlOO (下文被稱為第一分割步驟)中,對(duì)文檔圖像的文本塊進(jìn)行分割以獲得粗略像素區(qū)域(下文被稱為第一像素區(qū)域),其包含至少一個(gè)像素區(qū)域。在步驟SlOO的處理中,可采用現(xiàn)有技術(shù)的任何行分割方法(諸如上文所述的基于投影的方法),并且這里將省略其描述。在步驟S200(下文被稱為空白區(qū)域去除步驟)中,將第一像素區(qū)域的各像素區(qū)域中的各個(gè)像素行中的連續(xù)白像素序列的公共重疊部檢測(cè)為第一像素區(qū)域的相應(yīng)像素區(qū)域中的空白區(qū)域,并且從該第一像素區(qū)域的相應(yīng)像素區(qū)域中去除該空白區(qū)域以獲得在其中已去除了空白區(qū)域的像素區(qū)域(下文被稱為第二像素區(qū)域)。通常,第一像素區(qū)域的各像素區(qū)域?qū)?yīng)于一個(gè)第二像素區(qū)域。下文將詳細(xì)描述步驟S200的處理。在步驟S300 (下文被稱為文本行分割步驟)中,將第二像素區(qū)域用于文本行分割。例如,對(duì)于第一像素區(qū)域中的各像素區(qū)域,該像素區(qū)域中的行分割位置將通過利用其相應(yīng)的第二像素區(qū)域被確定,并且然后將根據(jù)該行分割位置來分割該像素區(qū)域以得到行分割結(jié)果。如現(xiàn)有技術(shù)中已知的,行分割位置通常對(duì)應(yīng)于一個(gè)或多個(gè)空格像素行。圖6示意性地示出通過圖5中所示的方法實(shí)現(xiàn)的文本塊中的一個(gè)像素區(qū)域的行分割結(jié)果的示例。如圖所示,第一像素區(qū)域中包含的各像素區(qū)域可根據(jù)一個(gè)或多個(gè)空格像素行至少被分割成兩部分。特別地,例如,如果像素區(qū)域中存在一個(gè)以上的連續(xù)且相鄰的空格像素行,則這些空格像素行將被合并為空格像素行區(qū)域,并且被用于通過刪除該空格像素行區(qū)域?qū)⒃撓袼貐^(qū)域分割成至少兩個(gè)更小的像素區(qū)域(也可被稱為文本行區(qū)域)。在一些情況下,行分割結(jié)果是可能需要被進(jìn)一步分割的像素區(qū)域(即,文本行區(qū)域)。例如,如果文本行區(qū)域的高度大于可由操作員根據(jù)文本圖像條件以及個(gè)人經(jīng)驗(yàn)設(shè)定的一個(gè)閾值THl (例如對(duì)于300dpi的圖像為34),該文本行區(qū)域需要被進(jìn)一步分割。在該行分割方法中,需要考慮并且準(zhǔn)確地獲得多種參數(shù),例如要被行分割的像素區(qū)域的寬度。特別地,如果如圖7所示,像素區(qū)域包含一些空白區(qū)域,則必須檢測(cè)到并且扣除像素區(qū)域中的空白區(qū)域,否則可能導(dǎo)致行分割錯(cuò)誤,在文本行短時(shí)尤其如此。下文將參照?qǐng)D8和9詳細(xì)描述步驟S200中的處理。圖8是確定像素區(qū)域中的空白區(qū)域并且從該像素區(qū)域獲得第二像素區(qū)域的流程圖。圖9示意性地示出像素區(qū)域中的像素行的公共重疊部的示例。在圖8中的步驟S201中,像素區(qū)域中的各像素行中的所有連續(xù)白像素序列根據(jù)它們的長(zhǎng)度被排序。
在步驟S202中,從最長(zhǎng)的連續(xù)白像素序列開始,將接下來的各連續(xù)白像素序列依次重疊以生成像素區(qū)域中的各個(gè)像素行中的連續(xù)白像素序列的公共重疊部(對(duì)應(yīng)于空白區(qū)域)。下文將詳細(xì)描述步驟S202中的處理。在步驟S203中,從像素區(qū)域去除空白區(qū)域,并且將剩余的字符區(qū)域分組成第二像素區(qū)域。 對(duì)于步驟S202中的處理,從第一連續(xù)白像素序列、即一個(gè)像素行中的最長(zhǎng)連續(xù)白像素序列開始,將其余像素行中的接下來的各連續(xù)白像素序列依次與先前的一個(gè)或多個(gè)連續(xù)白像素序列進(jìn)行重疊以生成一個(gè)公共空白部,直至被公共重疊的序列的數(shù)量、即重疊的像素行的數(shù)量達(dá)到預(yù)定數(shù)量。該預(yù)定數(shù)量可由操作員根據(jù)多種條件(諸如預(yù)期的準(zhǔn)確度、圖像的分辨率等)設(shè)定。該預(yù)定數(shù)量的常用設(shè)定是該預(yù)定數(shù)量為像素區(qū)域中的像素行的數(shù)量的至少70%。在重疊處理中,如果正在重疊的連續(xù)白像素序列沒有與通過組合先前的連續(xù)白像素序列而生成的空白區(qū)域重疊,則該正在重疊的連續(xù)白像素序列將被放棄,并且將嘗試將下一連續(xù)白像素序列進(jìn)行重疊。最后,像素區(qū)域的與所獲得的公共空白部的范圍對(duì)應(yīng)的部分被視為像素區(qū)域的公共重疊部、即像素區(qū)域的空白區(qū)域。該空白區(qū)域?qū)⒈蝗コ?,并且在隨后的行分割期間將利用該像素區(qū)域中的剩余字符區(qū)域(可被分組成第二像素區(qū)域)。可替換地,上述用于檢測(cè)公共重疊部的方法還可與用于利用黑像素計(jì)數(shù)來檢測(cè)空白區(qū)域的另一方法相組合以檢測(cè)空白區(qū)域。更具體而言,如圖1OA所示,可首先將像素區(qū)域劃分成若干子區(qū)域,并且計(jì)算各子區(qū)域的黑像素計(jì)數(shù)與其面積的比率以檢測(cè)大的空白區(qū)域。如果該比率小于一個(gè)閾值TH4(例如,0.01),則該子區(qū)域?qū)⒈灰暈榭瞻鬃訁^(qū)域。如果該比率大于該閾值TH4(例如,0.01),則該子區(qū)域可能是字符子區(qū)域。下文,為了簡(jiǎn)化描述,除非另外說明,否則劃分指的是在寬度方向上的劃分。然后,如圖1OB所示,對(duì)于字符子區(qū)域,可使用上述的用于檢測(cè)公共重疊部的方法來檢測(cè)字符子區(qū)域中的可能的小的空白子區(qū)域。下文,將參照?qǐng)D11和圖12A至12C來詳細(xì)描述步驟S300中的處理。圖11示意性地示出在空白區(qū)域已被檢測(cè)到并去除的情況下的像素區(qū)域中的像素行的參數(shù),諸如黑像素計(jì)數(shù)和連續(xù)白像素序列的長(zhǎng)度。圖12A至12C是行分割方法的第一實(shí)施例中的步驟S300中執(zhí)行的示例性步驟的流程圖。在步驟S300中,如上所述,第二像素區(qū)域?qū)⒈挥糜谛蟹指?。更具體而言,第二像素區(qū)域的參數(shù)以及正被檢測(cè)的像素行的對(duì)應(yīng)參數(shù)可被用于檢測(cè)該像素行是字符像素行還是空格像素行。第二像素區(qū)域的參數(shù)可包括例如第二像素區(qū)域的寬度,其可通過計(jì)算其中的字符區(qū)域的寬度的總和來得到。像素行的對(duì)應(yīng)參數(shù)可包括例如像素行的在第二像素區(qū)域中的黑像素計(jì)數(shù)、該像素行的連續(xù)白像素序列長(zhǎng)度統(tǒng)計(jì)值,該統(tǒng)計(jì)值是該像素行的在第二像素區(qū)域中的最長(zhǎng)連續(xù)白像素序列的長(zhǎng)度、或者是該像素行的在第二像素區(qū)域中的最長(zhǎng)連續(xù)白像素序列的長(zhǎng)度與次最長(zhǎng)連續(xù)白像素序列的長(zhǎng)度之和,如圖11所示。
利用第二像素區(qū)域以及正被檢測(cè)的像素行的參數(shù),步驟S300中的處理可被以不同方式執(zhí)行以檢測(cè)空格像素行。圖12A示出步驟S300中的處理,其中通過利用像素行的在第二像素區(qū)域中的黑像素計(jì)數(shù)與該第二像素區(qū)域的寬度的比率來檢測(cè)空格像素行。此處理的一種通常方式是將該比率與閾值進(jìn)行比較以便檢測(cè)該像素行是否為空格像素行。如果該比率小于閾值TH2(例如,0.01),則該像素行將被視為一個(gè)空格像素行。否則,該像素行將被視為一個(gè)字符像素行。圖12B示出步驟S300中的處理,其中通過利用像素行的連續(xù)白像素序列長(zhǎng)度統(tǒng)計(jì)值與第二像素區(qū)域的寬度的比率來檢測(cè)空格像素行,該比率即為該像素行的在第二像素區(qū)域中的最長(zhǎng)連續(xù)白像素序列的長(zhǎng)度與第二像素區(qū)域的寬度的比率、或者該像素行的在第二像素區(qū)域中的最長(zhǎng)連續(xù)白像素序列的長(zhǎng)度與次最長(zhǎng)連續(xù)白像素序列的長(zhǎng)度的總和與第二像素區(qū)域的寬度的比率。此處理的一種通常方式是將這兩個(gè)比率與閾值進(jìn)行比較以便檢測(cè)像素行是否為空格像素行。如果這兩個(gè)比率中的任一個(gè)大于閾值TH3(例如,0.7),則該像素行將被視為一個(gè)空格像素行。否則,該像素行將被視為一個(gè)字符像素行。圖12C示出步驟S300中的處理,其中可組合分別在圖12A和12B中所示的方法。例如,圖12A和12B中分別示出的方法可被依次執(zhí)行。應(yīng)注意,圖12C中的處理的順序僅僅是一個(gè)示例,并且可利用其它的順序。例如,圖12B和12A中分別示出的方法可被依次執(zhí)行。上述處理的方式是用于通過利用第二像素區(qū)域?qū)嵤┛崭裣袼匦械臋z測(cè)的示例性的優(yōu)選操作方式,并且還可使用其他方式。空格像素行的檢測(cè)可相對(duì)于第一像素區(qū)域中包含的像素區(qū)域中的所有像素行在水平布局中自上而下地執(zhí)行,但是并不局限于此。例如,為了在幾乎不降低檢測(cè)準(zhǔn)確度的情況下提高計(jì)算速度,空格像素行的檢測(cè)可相對(duì)于在一個(gè)像素區(qū)域的中部的像素行執(zhí)行,并且該中部的范圍可由操作員任意確定。一種常用的選擇是假定像素區(qū)域具有頂部邊界“region_top” 和底部邊界 “region_bottom”,并且中部即為在 “region_top” +0.2 X std_line_height 與“region_bottom,,_0.2 X std_line_height 之間的區(qū)域。std_line_height是依據(jù)文檔圖像的分辨率估計(jì)的。在一個(gè)像素區(qū)域中,所有空格像素行可被一次性地檢測(cè),但是本發(fā)明并不局限于此。例如,可在水平布局中自上至下地掃描并檢測(cè)各像素行。在找到一個(gè)空格像素行之后,一旦在其后的另一個(gè)像素行被判斷為字符像素行,則該處理將結(jié)束。[有利效果]第一實(shí)施例的方法至少可有效并且準(zhǔn)確地應(yīng)用于具有復(fù)雜布局的文檔圖像,尤其可應(yīng)用于包含標(biāo)題行的文檔圖像,從而可提高用于這樣的文檔圖像的行分割的性能。圖13A和13B示意性地示出分別通過現(xiàn)有技術(shù)以及本發(fā)明的第一實(shí)施例實(shí)現(xiàn)的具有復(fù)雜布局的文檔圖像的行分割結(jié)果的比較。該文檔圖像例如是文檔中的標(biāo)題行。如圖13A所示,可見該標(biāo)題行被現(xiàn)有技術(shù)的方法錯(cuò)誤地分割。相反,利用根據(jù)本發(fā)明的第一實(shí)施例的解決方案,如圖13B所示,在該標(biāo)題行中將不會(huì)檢測(cè)到空格像素行,從而該標(biāo)題行不會(huì)被錯(cuò)誤地分割。[第二實(shí)施例]
下文將參照?qǐng)D14至15C詳細(xì)描述本發(fā)明的第二實(shí)施例。除了文本行分割步驟之夕卜,第二實(shí)施例基本與第一實(shí)施例相同,該文本行分割步驟進(jìn)一步通過利用像素區(qū)域中的正在被檢測(cè)的像素行之前的字符像素行、尤其利用從正在被檢測(cè)的像素行之前的字符像素行導(dǎo)出的字符筆劃寬度(stroke width)來檢測(cè)該像素行是否是空格像素行。因此,第二實(shí)施例的與第一實(shí)施例中的那些步驟相似的步驟將被省略并且不被詳細(xì)描述。此空格像素行檢測(cè)處理基于一個(gè)合理的推論,即當(dāng)一個(gè)文本行包含兩個(gè)以上的字符時(shí),對(duì)于文本行區(qū)域中的各像素行,字符的至少一個(gè)字符筆劃通過該像素行。字符筆劃寬度指的是包含多個(gè)字符像素行的區(qū)域中的詞語的至少一個(gè)字符筆劃的平均寬度。上述推論和定義可適用于像素行以及像素區(qū)域處于水平方向的情況以及它們處于垂直方向的情況兩者。在前一情況下,字符筆劃將是垂直字符筆劃,并且字符筆劃寬度對(duì)應(yīng)于垂直字符筆劃的字符筆劃寬度,而在后一情況下,字符筆劃將是水平字符筆劃并且字符筆劃寬度對(duì)應(yīng)于水平字符筆劃的筆劃寬度。第二實(shí)施例中的空格像素行檢測(cè)處理可與第一實(shí)施例中的那些處理以各種方式進(jìn)行組合。在一個(gè)示例中,第二實(shí)施例中的文本行分割步驟中的上述處理可在第一實(shí)施例中的圖12A至12C中任一個(gè)所示的處理之后并與其組合。圖14是根據(jù)本發(fā)明的行分割方法的第二實(shí)施例中的空格像素行檢測(cè)處理的流程圖。在步驟S401中,檢查第二像素區(qū)域是否包含至少兩個(gè)字符。一種常用的檢查方法是計(jì)算第二像素區(qū)域的寬度與其高度的比率。如果該比率大于2,則然后將第二像素區(qū)域視為包含至少兩個(gè)字符,并且處理前進(jìn)至步驟S402??商鎿Q地,處理將結(jié)束并且等待下一個(gè)第二像素區(qū)域。在步驟S402中,與正在被檢測(cè)的像素行相鄰且在其之前的所有檢測(cè)到的字符像素行被合并為一個(gè)字符行區(qū)域。在步驟S403中,估計(jì)字符行區(qū)域中的字符筆劃寬度。下文將詳細(xì)描述步驟S403的處理。在步驟S404中,將正在被檢測(cè)的像素行劃分成若干子區(qū)段,并且搜索該若干子區(qū)段中的具有最大黑像素計(jì)數(shù)的子區(qū)段。在步驟S405中,通過比較該最大黑像素計(jì)數(shù)與字符筆劃寬度來檢測(cè)正在被檢測(cè)的像素行是否是空格像素行。例如,檢查該最大黑像素計(jì)數(shù)是否小于字符筆劃寬度,如果是,則正在被檢測(cè)的像素行是一個(gè)空格像素行。否則,由于至少一個(gè)字符筆劃可能通過該像素行,因此該像素行可能是一個(gè)字符像素行。由此,空格像素行可利用第二實(shí)施例中的空格像素行檢測(cè)方法被檢測(cè),并且然后被用于像素區(qū)域的行分割。接下來,將詳細(xì)描述字符筆劃寬度的估計(jì)。這里,可利用兩種方法來估計(jì)字符筆劃寬度,第一種方法基于合并后的字符行區(qū)域的高度和字符筆劃寬度之間的關(guān)系,并且可獲得字符筆劃寬度的第一估計(jì)值,并且第二種方法是通過分析相鄰的合并后的字符行區(qū)域上的黑像素分布來動(dòng)態(tài)獲取字符筆劃寬度,并且可獲得字符筆劃寬度的第二估計(jì)值。在此基礎(chǔ)上,可將第一和第二估計(jì)值中的較小值視為字符筆劃寬度。
在第一估計(jì)方法中,合并后的字符行區(qū)域中的字符的字符筆劃寬度的第一估計(jì)值僅根據(jù)合并后的字符行區(qū)域的高度被估計(jì)。第一估計(jì)方法是基于以下假設(shè):字符筆劃寬度超過字符高度的十分之一,并且字符高度和字符行區(qū)域的高度之間的差小。第一估計(jì)值是通過下面的公式(I)得到的,
權(quán)利要求
1.一種用于文檔圖像中的文本塊的行分割的方法,所述方法包括以下步驟: 第一分割步驟,用于對(duì)文本塊進(jìn)行分割,以得到包含至少一個(gè)像素區(qū)域的第一像素區(qū)域; 空白區(qū)域去除步驟,用于檢測(cè)所述第一像素區(qū)域中的每一像素區(qū)域中的各個(gè)像素行中的連續(xù)白像素序列的公共重疊部作為空白區(qū)域,以及將該空白區(qū)域從所述第一像素區(qū)域中的所述像素區(qū)域中去除,以得到第二像素區(qū)域;以及 文本行分割步驟,用于利用第二像素區(qū)域來進(jìn)行文本行分割。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述公共重疊部是通過如下操作檢測(cè)的: 將所有連續(xù)白像素序列依長(zhǎng)度排序;以及 從最長(zhǎng)的連續(xù)白像素序列開始,依次重疊各接下來的連續(xù)白像素序列,以生成由預(yù)定數(shù)量的連續(xù)白像素序列所共同覆蓋的空白部確定的所述公共重疊部。
3.根據(jù)權(quán)利要求2所述的方法,其中,所述文本行分割步驟進(jìn)一步包括: 對(duì)于所述第一像素區(qū)域中的每一像素區(qū)域中的各像素行,通過利用所述像素行在第二像素區(qū)域中的黑像素計(jì)數(shù)與所述第二像素區(qū)域的寬度的比率,以檢測(cè)所述像素行是字符像素行還是空格像素行。
4.根據(jù)權(quán)利要求2-3中任一項(xiàng)所述的方法,其中,所述文本行分割步驟進(jìn)一步包括: 對(duì)于所述第一像素區(qū)域中的每一像素區(qū)域中的各像素行,通過利用所述像素行的連續(xù)白像素序列長(zhǎng)度統(tǒng)計(jì)值與所述第二像素區(qū)域的寬度的比率,檢測(cè)所述像素行是字符像素行還是空格像素行, 其中,所述連續(xù)白像素序列長(zhǎng)度統(tǒng)計(jì)值為所述像素行在第二像素區(qū)域中的最長(zhǎng)連續(xù)白像素序列長(zhǎng)度、或所述像素行在第二像素區(qū)域中的最長(zhǎng)連續(xù)白像素序列長(zhǎng)度與次最長(zhǎng)連續(xù)白像素序列長(zhǎng)度之和。
5.根據(jù)權(quán)利要求3-4中任一項(xiàng)所述的方法,其中,所述文本行分割步驟進(jìn)一步包括: 將在正被檢測(cè)的像素行之前且相鄰的所有檢測(cè)到的字符像素行合并為字符行區(qū)域; 估計(jì)所述字符行區(qū)域中的字符筆劃寬度; 將正被檢測(cè)的像素行劃分成若干子區(qū)段,并且從若干子區(qū)段中搜索具有最大黑像素計(jì)數(shù)的子區(qū)段;以及 通過比較所述最大黑像素計(jì)數(shù)與字符筆劃寬度來檢測(cè)正被檢測(cè)的像素行是否是空格像素行。
6.根據(jù)權(quán)利要求5所述的方法,其中,字符筆劃寬度估計(jì)步驟進(jìn)一步包括: 得到所述字符行區(qū)域的高度的十分之一作為字符筆劃寬度的第一估計(jì)值; 通過使用如下表達(dá)式得到字符筆劃寬度的第二估計(jì)值: 第二估計(jì)值=字符行區(qū)域中的黑像素計(jì)數(shù)/(字符行區(qū)域的寬度X平均筆劃量);以及 使用第一估計(jì)值和第二估計(jì)值中的較小值作為字符筆劃寬度, 其中,所述平均筆劃量是依賴于文檔中使用的語言的值。
7.根據(jù)權(quán)利要求3-6中任一項(xiàng)所述的方法,其中所述文本行分割步驟進(jìn)一步包括:確定步驟,用于通過利用第二像素區(qū)域中的在一個(gè)或多個(gè)檢測(cè)到的空格像素行之前且相鄰的一個(gè)或多個(gè)相鄰字符像素行,從一個(gè)或多個(gè)檢測(cè)到的空格像素行確定一個(gè)或多個(gè)最終空格像素行, 其中,基于所確定的一個(gè)或多個(gè)最終空格像素行進(jìn)行文本行分割。
8.根據(jù)權(quán)利要求7所述的方法,其中,所述確定步驟包括: 合并步驟,用于將所述一個(gè)或多個(gè)相鄰字符像素行合并為第二字符行區(qū)域; 第一確定步驟,用于從所述第二字符行區(qū)域獲得第三字符行區(qū)域,并且通過利用所述第三字符行區(qū)域來確定所述一個(gè)或多個(gè)檢測(cè)到的空格像素行的各空格像素行是否是第二空格像素行;以及 第二確定步驟,用于確定所述第一確定步驟中所確定的第二空格像素行是否是最終空格像素行。
9.根據(jù)權(quán)利要求8所述的方法,其中從所述第二字符行區(qū)域獲得第三字符行區(qū)域包括: 檢測(cè)所述第二字符行區(qū)域中的空白區(qū)域,并且從所述第二字符行區(qū)域去除所述空白區(qū)域以獲得所述第三字符行區(qū)域。
10.根據(jù)權(quán)利要求9所述的方法,其中,所述第一確定步驟進(jìn)一步包括: 通過利用所述空格像素行中的在與所述第三字符行區(qū)域?qū)?yīng)的部分中的黑像素計(jì)數(shù)與所述第三字符行區(qū)域的寬度的比率,確定所述空格像素行是否是所述第二空格像素行。
11.根據(jù)權(quán) 利要求9-10中任一項(xiàng)所述的方法,其中,所述第一確定步驟進(jìn)一步包括: 通過利用空格像素行中的連續(xù)白像素序列長(zhǎng)度統(tǒng)計(jì)值與所述第三字符行區(qū)域的寬度的比率,確定所述空格像素行是否是所述第二空格像素行, 其中,所述連續(xù)白像素序列長(zhǎng)度統(tǒng)計(jì)值為所述空格像素行的在與所述第三字符行區(qū)域?qū)?yīng)的部分中的最長(zhǎng)連續(xù)白像素序列長(zhǎng)度或所述空格像素行的在與所述第三字符行區(qū)域?qū)?yīng)的部分中的最長(zhǎng)連續(xù)白像素序列長(zhǎng)度與次最長(zhǎng)連續(xù)白像素序列長(zhǎng)度之和。
12.根據(jù)權(quán)利要求8所述的方法,其中,所述第二確定步驟包括: 將所述第三字符行區(qū)域劃分成若干子區(qū)域,并且相應(yīng)地將所述第二空格像素行劃分為若干子區(qū)段; 從所述第二空格像素行中的所述若干子區(qū)段中選擇具有最大黑像素計(jì)數(shù)的子區(qū)段;以及 通過比較所述最大黑像素計(jì)數(shù)與來自所述第三字符行區(qū)域中的與所述子區(qū)段相應(yīng)的子區(qū)域的上限值,來確定所述第二空格像素行是否是最終空格像素行; 其中,當(dāng)所述最大黑像素計(jì)數(shù)小于所述上限值時(shí),確定所述第二空格像素行是最終空格像素行。
13.根據(jù)權(quán)利要求12所述的方法,其中, 所述上限值是依據(jù)如下表達(dá)式計(jì)算的: 上限值=子區(qū)域中的字符量X平均筆劃量X字符筆劃寬度 其中,子區(qū)域中的字符量指的是所述子區(qū)域的寬度與所述子區(qū)域的高度的比率; 所述平均筆劃量是基于文檔中使用的語言的預(yù)定值;以及 所述字符筆劃寬度為所述第三字符行區(qū)域的寬度的十分之一。
14.根據(jù)權(quán)利要求2所述的方法,其中,所述預(yù)定數(shù)量為像素區(qū)域中的像素行的數(shù)量的至少70%。
15.根據(jù)權(quán)利要求1所述的方法,其中,所述第一分割步驟是利用基于圖像的分割方法執(zhí)行的。
16.一種用于文檔圖像中的文本塊的行分割的系統(tǒng),所述系統(tǒng)包括以下單元: 第一分割單元,被配置用于對(duì)文本塊進(jìn)行分割,以得到包含至少一個(gè)像素區(qū)域的第一像素區(qū)域; 空白區(qū)域去除單元,被配置用于檢測(cè)所述第一像素區(qū)域中的每一像素區(qū)域中的各個(gè)像素行中的連續(xù)白像素序列的公共重疊部作為空白區(qū)域,以及將該空白區(qū)域從所述第一像素區(qū)域中的所述像素區(qū)域中去除以得到第二像素區(qū)域;以及 文本行分割單元,被配置用于利用第二像素區(qū)域來進(jìn)行文本行分割。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其中,所述空白區(qū)域去除單元通過如下操作檢測(cè)公共重疊部: 將所有連續(xù)白像素序列依長(zhǎng)度排序;以及 從最長(zhǎng)的連續(xù)白像素序列開始,依次重疊各接下來的連續(xù)白像素序列,以生成由預(yù)定數(shù)量的連續(xù)白像素序列所共同覆蓋的空白部確定的所述公共重疊部。
18.根據(jù)權(quán)利要求17所述的系統(tǒng),其中,所述文本行分割單元進(jìn)一步包括: 黑像素計(jì)數(shù)檢測(cè)單元,被配置用于對(duì)于所述第一像素區(qū)域中的每一像素區(qū)域中的各像素行,通過利用所述像素行在第二像素區(qū)域中的黑像素計(jì)數(shù)與所述第二像素區(qū)域的寬度的比率,以檢測(cè)所述像素行是字符像素行還是空格像素行。
19.根據(jù)權(quán)利要求17-18`中任一項(xiàng)所述的系統(tǒng),其中,所述文本行分割單元進(jìn)一步包括: 白像素序列檢測(cè)單元,被配置用于對(duì)于所述第一像素區(qū)域中的每一像素區(qū)域中的各像素行,通過利用所述像素行的連續(xù)白像素序列長(zhǎng)度統(tǒng)計(jì)值與所述第二像素區(qū)域的寬度的比率,檢測(cè)所述像素行是字符像素行還是空格像素行, 其中,所述連續(xù)白像素序列長(zhǎng)度統(tǒng)計(jì)值為所述像素行在第二像素區(qū)域中的最長(zhǎng)連續(xù)白像素序列長(zhǎng)度、或所述像素行在第二像素區(qū)域中的最長(zhǎng)連續(xù)白像素序列長(zhǎng)度與次最長(zhǎng)連續(xù)白像素序列長(zhǎng)度之和。
20.根據(jù)權(quán)利要求18-19中任一項(xiàng)所述的系統(tǒng),其中,所述文本行分割單元進(jìn)一步包括字符筆劃寬度檢測(cè)單元,被配置用于利用與先前檢測(cè)到的字符像素行有關(guān)的字符筆劃寬度來檢測(cè)像素行是否是空格像素行,所述字符筆劃寬度檢測(cè)單元包括: 合并單元,被配置用于將在正被檢測(cè)的像素行之前且相鄰的所有檢測(cè)到的字符像素行合并為字符行區(qū)域; 估計(jì)單元,被配置用于估計(jì)所述字符行區(qū)域中的字符筆劃寬度; 搜索單元,被配置用于將正被檢測(cè)的像素行劃分成若干子區(qū)段,并且從若干子區(qū)段中搜索具有最大黑像素計(jì)數(shù)的子區(qū)段;以及 比較單元,被配置用于通過比較所述最大黑像素計(jì)數(shù)與字符筆劃寬度來檢測(cè)正被檢測(cè)的像素行是否是空格像素行。
21.根據(jù)權(quán)利要求20所述的系統(tǒng),其中,所述估計(jì)單元通過以下操作估計(jì)字符筆劃寬度: 得到所述字符行區(qū)域的高度的十分之一作為字符筆劃寬度的第一估計(jì)值;通過使用如下表達(dá)式得到字符筆劃寬度的第二估計(jì)值: 第二估計(jì)值=字符行區(qū)域中的黑像素計(jì)數(shù)/(字符行區(qū)域的寬度X平均筆劃量);以及 使用第一估計(jì)值和第二估計(jì)值中的較小值作為字符筆劃寬度, 其中,所述平均筆劃量是依賴于文檔中使用的語言的值。
22.根據(jù)權(quán)利要求18-21中任一項(xiàng)所述的系統(tǒng),其中所述文本行分割單元進(jìn)一步包括: 確定單元,被配置用于通過利用第二像素區(qū)域中的在一個(gè)或多個(gè)檢測(cè)到的空格像素行之前且相鄰的一個(gè)或多個(gè)相鄰字符像素行,從一個(gè)或多個(gè)檢測(cè)到的空格像素行確定一個(gè)或多個(gè)最終空格像素行, 其中,基于所確定的一個(gè)或多個(gè)最終空格像素行進(jìn)行文本行分割。
23.根據(jù)權(quán)利要求22所述的系統(tǒng),其中,所述確定單元包括: 合并單元,被配置用于將所述一個(gè)或多個(gè)相鄰字符像素行合并為第二字符行區(qū)域;第一確定單元,被配置用于從所述第二字符行區(qū)域獲得第三字符行區(qū)域,并且通過利用所述第三字符行區(qū)域來確定所述一個(gè)或多個(gè)檢測(cè)到的空格像素行的各空格像素行是否是第二空格像素行;以及 第二確定單元,被配置用于確定所述第一確定單元所確定的第二空格像素行是否是最終空格像素行。
24.根據(jù)權(quán)利要求23所述的系統(tǒng),其中所述第一確定單元包括字符行區(qū)域獲得單元,所述字符行區(qū)域獲得單元被配置用于檢測(cè)所述第二字符行區(qū)域中的空白區(qū)域并且從所述第二字符行區(qū)域去除所述空白區(qū)域以獲得所述第三字符行區(qū)域。
25.根據(jù)權(quán)利要求24所述的系統(tǒng),其中,所述第一確定單元進(jìn)一步包括: 黑像素計(jì)數(shù)確定單元,被配置用于通過利用所述空格像素行中的在與所述第三字符行區(qū)域?qū)?yīng)的部分中的黑像素計(jì)數(shù)與所述第三字符行區(qū)域的寬度的比率,確定所述空格像素行是否是所述第二空格像素行。
26.根據(jù)權(quán)利要求24-25中任一項(xiàng)所述的系統(tǒng),其中,所述第一確定單元進(jìn)一步包括: 白像素序列確定單元,被配置用于通過利用空格像素行中的連續(xù)白像素序列長(zhǎng)度統(tǒng)計(jì)值與所述第三字符行區(qū)域的寬度的比率,確定所述空格像素行是否是所述第二空格像素行, 其中,所述連續(xù)白像素序列長(zhǎng)度統(tǒng)計(jì)值為所述空格像素行的在與所述第三字符行區(qū)域?qū)?yīng)的部分中的最長(zhǎng)連續(xù)白像素序列長(zhǎng)度、或所述空格像素行的在與所述第三字符行區(qū)域?qū)?yīng)的部分中的最長(zhǎng)連續(xù)白像素序列長(zhǎng)度與次最長(zhǎng)連續(xù)白像素序列長(zhǎng)度之和。
27.根據(jù)權(quán)利要求23所述的系統(tǒng),其中,所述第二確定單元包括: 劃分單元,被配置用于將所述第三字符行區(qū)域劃分成若干子區(qū)域,并且相應(yīng)地將所述第二空格像素行劃分為若干子區(qū)段; 選擇單元,被配置用于從所述第二空格像素行中的所述若干子區(qū)段中選擇具有最大黑像素計(jì)數(shù)的子區(qū)段; 上限值計(jì)算單元,被配置用于計(jì)算來自所述第三字符行區(qū)域中的與所述子區(qū)段相應(yīng)的子區(qū)域的上限值;以及 比較單元, 被配置用于通過比較所述最大黑像素計(jì)數(shù)與所述上限值,來確定所述第二空格像素行是否是最終空格像素行; 其中,當(dāng)所述最大黑像素計(jì)數(shù)小于所述上限值時(shí),確定所述第二空格像素行是最終空格像素行。
28.根據(jù)權(quán)利要求27所述的系統(tǒng),其中, 所述上限值計(jì)算單元依據(jù)如下表達(dá)式計(jì)算所述上限值: 上限值=子區(qū)域中的字符量X平均筆劃量X字符筆劃寬度 其中,子區(qū)域中的字符量指的是所述子區(qū)域的寬度與所述子區(qū)域的高度的比率; 所述平均筆劃量是基于文檔中使用的語言的預(yù)定值;以及 所述字符筆劃寬度為所述第三字符行區(qū)域的寬度的十分之一。
29.根據(jù)權(quán)利要求17所述的系統(tǒng),其中,所述預(yù)定數(shù)量為像素區(qū)域中的像素行的數(shù)量的至少70%。
30.根據(jù)權(quán)利要求16所述的系統(tǒng),其中,所述第一分割單元利用基于圖像的分割方法執(zhí)行分割。
全文摘要
本發(fā)明公開了用于文檔圖像的行分割方法和系統(tǒng)。該方法包括第一分割步驟,用于對(duì)文本塊進(jìn)行分割,以得到包含至少一個(gè)像素區(qū)域的第一像素區(qū)域;空白區(qū)域去除步驟,用于檢測(cè)所述第一像素區(qū)域中的每一像素區(qū)域中的各個(gè)像素行中的連續(xù)白像素序列的公共重疊部作為空白區(qū)域,以及將該空白區(qū)域從所述第一像素區(qū)域中的所述像素區(qū)域中去除,以得到第二像素區(qū)域;以及文本行分割步驟,用于利用第二像素區(qū)域來進(jìn)行文本行分割。
文檔編號(hào)G06K9/34GK103106405SQ20111035190
公開日2013年5月15日 申請(qǐng)日期2011年11月9日 優(yōu)先權(quán)日2011年11月9日
發(fā)明者許梅芳, 前川浩司 申請(qǐng)人:佳能株式會(huì)社