欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

分析表格圖像的布局的方法和設(shè)備與流程

文檔序號(hào):11831481閱讀:260來(lái)源:國(guó)知局
分析表格圖像的布局的方法和設(shè)備與流程

本發(fā)明一般地涉及圖像處理領(lǐng)域。具體而言,本發(fā)明涉及一種能夠準(zhǔn)確地確定表格圖像的表頭、表尾、正文等的位置,便于后續(xù)對(duì)表格的內(nèi)容進(jìn)行提取和分析的方法和設(shè)備。



背景技術(shù):

近年來(lái),隨著信息的數(shù)字化程度不斷提高,以表格文檔圖像形式存在的數(shù)據(jù)量呈現(xiàn)海量化的趨勢(shì)。表格文檔圖像的龐大的數(shù)據(jù)量顯然不適合以人工方式進(jìn)行處理分析,期望能夠自動(dòng)地、準(zhǔn)確地分析表格圖像的布局,從而提取出有意義的表格正文,進(jìn)而對(duì)每個(gè)表單項(xiàng)切分和識(shí)別。

然而,表格文檔的形式多樣,其中摻雜有很多線條、文字等,所以表格圖像的版面分析(分析表格圖像的布局)頗為困難。分析表格圖像的布局的重點(diǎn)在于確定表格圖像的正文部分,通過(guò)分行和分列,基本確定正文部分的每個(gè)表單項(xiàng)的區(qū)域。另外,分析表格圖像的布局也可包括確定表格圖像的表頭(如有)、表尾(如有)的位置。

傳統(tǒng)的方式是表格圖像中的前景(黑色像素)向水平方向上和向豎直方向上投影,根據(jù)投影的結(jié)果,基于文本行之間存在較大空白的假設(shè),確定表格圖像的布局。一方面這種方法的精度較低,另一方面當(dāng)表格圖像存在較為復(fù)雜的版面布局或者表格圖像中存在較多噪聲時(shí),難以正確地確定表格圖像的布局。

因此,期望一種分析表格圖像的布局的方法和設(shè)備,其能夠準(zhǔn)確地確定表格圖像的表頭、表尾、正文等的位置,便于后續(xù)對(duì)表格的內(nèi)容進(jìn)行提取和分析。



技術(shù)實(shí)現(xiàn)要素:

在下文中給出了關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。

本發(fā)明的目的是針對(duì)現(xiàn)有技術(shù)的上述問(wèn)題,提出了一種能夠分析表格圖像的布局的方法和設(shè)備。

為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種分析表格圖像的布局的方法,該方法包括:提取候選前景行;提取空白列;以及基于空白列,從候選前景行中,選擇前景行;其中,所述空白列和所述前景行表明了表格圖像的布局。

根據(jù)本發(fā)明的另一個(gè)方面,提供了一種分析表格圖像的布局的設(shè)備,該設(shè)備包括:行候選提取裝置,被配置為:提取候選前景行;空白列提取裝置,被配置為:提取空白列;以及前景行選擇裝置,被配置為:基于空白列,從候選前景行中,選擇前景行;其中,所述空白列和所述前景行表明了表格圖像的布局。

另外,根據(jù)本發(fā)明的另一方面,還提供了一種存儲(chǔ)介質(zhì)。所述存儲(chǔ)介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行所述程序代碼時(shí),所述程序代碼使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。

此外,根據(jù)本發(fā)明的再一方面,還提供了一種程序產(chǎn)品。所述程序產(chǎn)品包括機(jī)器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行所述指令時(shí),所述指令使得所述信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的上述方法。

附圖說(shuō)明

參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說(shuō)明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來(lái)表示。附圖中:

圖1示出了根據(jù)本發(fā)明的實(shí)施例的分析表格圖像的布局的方法的流程圖;

圖2示出了根據(jù)本發(fā)明的實(shí)施例的提取空白列的方法的流程圖;

圖3示出了搜索表格圖像中的空白矩形區(qū)域的迭代示意;

圖4示出了根據(jù)本發(fā)明的實(shí)施例的提取候選前景行的方法的流程圖;

圖5示出了根據(jù)本發(fā)明實(shí)施例的分析表格圖像的布局的設(shè)備的結(jié)構(gòu)方框圖;

圖6示出了表格圖像的示例;以及

圖7示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和設(shè)備的計(jì)算機(jī)的示意性框圖。

具體實(shí)施方式

在下文中將結(jié)合附圖對(duì)本發(fā)明的示范性實(shí)施例進(jìn)行詳細(xì)描述。為了清楚和簡(jiǎn)明起見(jiàn),在說(shuō)明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開(kāi)發(fā)任何這種實(shí)際實(shí)施方式的過(guò)程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開(kāi)發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會(huì)隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開(kāi)發(fā)工作有可能是非常復(fù)雜和費(fèi)時(shí)的,但對(duì)得益于本公開(kāi)內(nèi)容的本領(lǐng)域技術(shù)人員來(lái)說(shuō),這種開(kāi)發(fā)工作僅僅是例行的任務(wù)。

在此,還需要說(shuō)明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的裝置結(jié)構(gòu)和/ 或處理步驟,而省略了與本發(fā)明關(guān)系不大的其他細(xì)節(jié)。另外,還需要指出的是,在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。

下面將參照?qǐng)D1描述根據(jù)本發(fā)明的實(shí)施例的分析表格圖像的布局的方法的流程。

圖1示出了根據(jù)本發(fā)明的實(shí)施例的分析表格圖像的布局的方法的流程圖。如圖1所示,根據(jù)本發(fā)明的實(shí)施例的分析表格圖像的布局的方法包括如下步驟:提取候選前景行(步驟S1);提取空白列(步驟S2);以及基于空白列,從候選前景行中,選擇前景行(步驟S3),其中,所述空白列和所述前景行表明了表格圖像的布局。

應(yīng)注意,本發(fā)明的說(shuō)明以發(fā)明的要點(diǎn)、關(guān)鍵性步驟、優(yōu)選的方式為主,并不限于此。例如,在執(zhí)行本發(fā)明的步驟S1之前,應(yīng)針對(duì)輸入的表格圖像執(zhí)行預(yù)處理,包括但不限于,去除表格圖像中的彩色圖章、去除表格圖像中的噪點(diǎn)、對(duì)表格圖像執(zhí)行二值化、將表格圖像正向放置(傾斜校正)、去掉表格圖像中的所有線條(表格線)、提取表格圖像中的連通域(前景文字)。

經(jīng)過(guò)上述預(yù)處理,去除了不相干的干擾因素,如彩色圖章、噪點(diǎn)、表格線等,保證了表格圖像的正向放置以在下述步驟中針對(duì)此布置以水平方向和豎直方向進(jìn)行各種處理,已知了前景像素和背景像素(二值化)及其分布情況(連通域)。

在步驟S1中,提取候選前景行。

此步驟的目的是初步確定作為候選的前景行的位置,進(jìn)而在后續(xù)步驟中加以篩選,以獲得真正的前景行。因此,只要是能夠提取前景行的方法均可用于實(shí)現(xiàn)本步驟。

舉例來(lái)說(shuō),可以采用投影方法,如將表格圖像中的前景像素沿著水平方向向豎直軸投影,并統(tǒng)計(jì)與每一行像素對(duì)應(yīng)的豎直軸上的點(diǎn)被投影了多少個(gè)前景像素,也即統(tǒng)計(jì)表格圖像中的每一行像素中有多少個(gè)是前 景像素,從而獲得豎直方向上的前景像素投影直方圖。根據(jù)該直方圖的特征,也即前景像素在豎直方向上的分布情況,可以較為粗略地獲得候選前景行。例如,直方圖中,搜索滿足下列條件的連續(xù)多個(gè)區(qū)段(bin,對(duì)應(yīng)于一行像素):其中每個(gè)區(qū)段中的前景像素點(diǎn)的個(gè)數(shù)超過(guò)某一閾值,連續(xù)多個(gè)區(qū)段兩端外側(cè)緊鄰的區(qū)段中的前景像素點(diǎn)的個(gè)數(shù)低于另一閾值,將搜索到的多個(gè)連續(xù)區(qū)段對(duì)應(yīng)的行確定為候選前景行。

再比如,步驟S2中提取空白列的方法,經(jīng)調(diào)整后可以變?yōu)樘崛】瞻仔械姆椒?,空白行之間的行可被確定為候選前景行。具體細(xì)節(jié)將在下文中詳述。

作為示例,也可以在已獲得的連通域基礎(chǔ)上,組合滿足預(yù)定條件的連通域,以獲得候選前景行。

在步驟S2中,提取空白列。

提取空白列的一個(gè)目的是在下面說(shuō)明的步驟S3中篩選候選前景行,以獲得真正的前景行,另一個(gè)目的是利用空白列,對(duì)前景行進(jìn)行切割,以得到表單項(xiàng)的具體位置。

提取空白列的方法同樣可以有多種,只要能相對(duì)準(zhǔn)確地定位空白列的位置就可用于本發(fā)明。下面介紹一種優(yōu)選的實(shí)現(xiàn)方式。

圖2示出了根據(jù)本發(fā)明的實(shí)施例的提取空白列的方法的流程圖。如圖2所示,根據(jù)本發(fā)明的實(shí)施例的提取空白列的方法包括如下步驟:去除表格圖像底部的空白區(qū)域(步驟S21);基于空白矩形區(qū)域面積和高度最大化的準(zhǔn)則,搜索表格圖像剩余部分中的空白矩形區(qū)域(步驟S22);去除不符合與寬高比、矩形寬度相關(guān)的條件的空白矩形區(qū)域(步驟S23);提取剩余的空白矩形區(qū)域作為空白列(步驟S24)。

提取空白列的基本思想是獲取表格圖像中的空白矩形區(qū)域塊,然后通過(guò)適當(dāng)?shù)倪^(guò)濾和合并,獲得便于確認(rèn)和切割前景行的較為精確的空白列。

首先,在步驟S21中,去除表格圖像底部的空白區(qū)域。這是因?yàn)楸? 格圖像往往在底部具有大片空白區(qū)域,該區(qū)域?qū)τ谙旅娴母黜?xiàng)處理具有干擾作用,因此,需要去除該區(qū)域。表格圖像的底部可以根據(jù)表格圖像的整體尺寸進(jìn)行確定。

然后,在步驟S22中,基于空白矩形區(qū)域面積和高度最大化的準(zhǔn)則,搜索表格圖像剩余部分中的空白矩形區(qū)域。

步驟S22的具體子步驟如下。

首先,如圖3所示,尋找當(dāng)前區(qū)域(即表格圖像)中的連通域中處于最中心位置的連通域。假設(shè)找到圖3中正中的文本框。

然后,利用包含該連通域的水平條帶,將當(dāng)前區(qū)域分為上、下兩部分,如圖3左側(cè)所示。而且,利用包含該連通域的豎直條帶,將當(dāng)前區(qū)域分為左、右兩部分,如圖3右側(cè)所示。應(yīng)注意,分為上、下兩個(gè)部分和分為左、右兩個(gè)部分的操作都是針對(duì)當(dāng)前區(qū)域進(jìn)行的,劃分得到的區(qū)域可以存在重合。如上部分和左部分有重合,上部分和右部分有重合,下部分和左部分有重合,下部分和右部分有重合。

接著,在所獲得的上、下、左、右四個(gè)部分中的每一個(gè)部分中,再次重復(fù)上述步驟。即將所獲得的上、下、左、右四個(gè)部分中的每一個(gè)部分作為當(dāng)前區(qū)域,再次尋找其中的連通域中處于最中心位置的連通域。然后,利用包含這個(gè)連通域的水平條帶和豎直條帶分別將當(dāng)前區(qū)域劃分為上、下、左、右四個(gè)子部分。

接著,再針對(duì)十六個(gè)子部分中的每一個(gè)(當(dāng)前區(qū)域)重復(fù)上述尋找、劃分步驟,直至當(dāng)前區(qū)域中沒(méi)有連通域。

通過(guò)上述迭代,能夠窮舉性地找出按照上述規(guī)則劃分出的全部空白矩形區(qū)域。這些空白矩形區(qū)域之間可能存在有重疊。

最后,基于空白矩形區(qū)域面積和高度最大化的準(zhǔn)則,從上述空白矩形區(qū)域中,選擇最滿足準(zhǔn)則的前N個(gè)空白矩形區(qū)域,N為自然數(shù),由本領(lǐng)域技術(shù)人員確定。

由于希望找到的是空白列,所以空白矩形區(qū)域的面積應(yīng)該盡可能大, 空白矩形區(qū)域的高度應(yīng)該盡可能高,這樣的空白矩形區(qū)域才有可能是空白列或者空白列的一部分。

例如,準(zhǔn)則可以表示為max(g(x)=h*w*h*h)。

其中,h表示空白矩形區(qū)域的高度,w表示空白矩形區(qū)域的寬度,h*w表示空白矩形區(qū)域的面積,h*h從空白矩形區(qū)域的高度角度提供因子,g(x)為考慮兩因素計(jì)算的參考值,準(zhǔn)則希望參考值g(x)盡量大。這樣,既考慮空白矩形區(qū)域的面積,又考慮空白矩形區(qū)域的高度。上述公式僅為示例。

在步驟S23中,去除不符合與寬高比、矩形寬度相關(guān)的條件的空白矩形區(qū)域。

由于希望找到的是空白列,所以希望找到瘦高型,而非矮扁型空白矩形區(qū)域。另外,空白列的寬度應(yīng)大于文字間的空隙。所以可以設(shè)置適當(dāng)?shù)臈l件來(lái)篩選空白矩形區(qū)域,條件可與寬高比、矩形寬度相關(guān)。

例如,寬高比條件可以是h/w>A,其中,h表示空白矩形區(qū)域的高度,w表示空白矩形區(qū)域的寬度,h/w表示空白矩形區(qū)域的高度與寬度之比,A為預(yù)定閾值,即寬高比條件為空白矩形區(qū)域的寬高比大于預(yù)定閾值。

例如,矩形寬度條件可以為w>Ws,其中,w表示空白矩形區(qū)域的寬度,Ws表示表明文字間的空隙的預(yù)定閾值,其取值例如是表格圖像中的連通域的平均寬度乘以調(diào)整系數(shù)后的值,調(diào)整系數(shù)大于0且小于1,優(yōu)選取1/2。

經(jīng)過(guò)上述搜索和篩選之后,剩余的空白矩形區(qū)域就是滿足條件的空白矩形區(qū)域。因此,在步驟S24中,提取剩余的空白矩形區(qū)域作為空白列。

至此,經(jīng)過(guò)步驟S21-S24,完成了對(duì)空白列的提取。

根據(jù)本發(fā)明的優(yōu)選實(shí)施例,還可以進(jìn)一步組合和篩選目前保留的空白矩形區(qū)域,從而獲得空白列的更精確提取結(jié)果。

在一個(gè)優(yōu)選實(shí)施例中,組合在水平方向上存在重疊的空白矩形區(qū)域。 這是因?yàn)榭瞻琢性谒椒较蛏嫌兄丿B,說(shuō)明其對(duì)表格圖像中的前景行的分割作用是一致的。組合的方法例如是對(duì)于兩個(gè)水平方向上存在重疊的初始空白矩形區(qū)域,組合后的新空白矩形區(qū)域的寬邊是兩個(gè)初始空白矩形區(qū)域的水平重合部分,組合后的新空白矩形區(qū)域的長(zhǎng)邊是兩個(gè)初始空白矩形區(qū)域中較高的那個(gè)初始空白矩形區(qū)域的長(zhǎng)邊(高度),也即組合后的新空白矩形區(qū)域是兩個(gè)初始空白矩形區(qū)域的重合部分在豎直方向上延長(zhǎng)到具有兩個(gè)初始空白矩形區(qū)域中較高的那個(gè)初始空白矩形區(qū)域的高度的結(jié)果。

在一個(gè)優(yōu)選實(shí)施例中,如果兩個(gè)水平方向上相鄰空白矩形區(qū)域之間存在大量空白,則去除這兩個(gè)空白矩形區(qū)域中豎直方向上較短的一個(gè)。

這是因?yàn)檫@樣的兩個(gè)相鄰空白矩形區(qū)域之間沒(méi)有多少需要被空白列分割開(kāi)來(lái)的前景,這樣的大量空白兩邊不全是空白列,只需保留一側(cè)的空白列,而豎直方向上較長(zhǎng)的空白矩形區(qū)域比豎直方向上較短的空白矩形區(qū)域更有可能是真正的空白列。判定兩個(gè)水平方向上相鄰空白矩形區(qū)域之間是否存在大量空白的方法可以是將兩個(gè)水平方向上相鄰空白矩形區(qū)域之間的前景向豎直軸投影,投影得到的前景像素的個(gè)數(shù)越多或占兩者重合高度的比例越大,說(shuō)明兩個(gè)水平方向上相鄰空白矩形區(qū)域之間存在的空白越少,反之,空白越多。

在一個(gè)優(yōu)選的實(shí)施例中,如果一個(gè)空白矩形區(qū)域的高度與最高的空白矩形區(qū)域的高度之比小于特定閾值,則去除該空白矩形區(qū)域。

這是因?yàn)閺谋砀駡D像整體來(lái)看,空白列的高度應(yīng)該普遍較高,明顯矮于其它空白列的空白矩形區(qū)域不是真正的空白列。特定閾值優(yōu)選取1/3。

因此,計(jì)算每個(gè)空白矩形區(qū)域的高度與空白矩形區(qū)域中最高的空白矩形區(qū)域的高度之比,如果高度之比小于特定閾值,則該空白矩形區(qū)域不是真正的空白列,需要去除。

公式表示為h<β*max(h),其中,h表示空白矩形區(qū)域的高度,max(h)表示最高的空白矩形區(qū)域的高度,β表示特定閾值。

以上說(shuō)明了如何提取空白列。

可以理解,上述提取空白列的方法經(jīng)過(guò)適當(dāng)調(diào)整后,同樣可以用來(lái)實(shí)現(xiàn)提取空白行,而空白行之間的行就是候選前景行。適當(dāng)調(diào)整包括但不限于寬度改為高度,高度改為寬度,水平改為豎直,豎直改為水平,寬高比定義從高度除以寬度,改為寬度除以高度等。

例如,可以通過(guò)圖4所示的方法提取候選前景行。如圖4所示,首先,基于空白矩形區(qū)域面積和寬度最大化的準(zhǔn)則,搜索表格圖像中的空白矩形區(qū)域(步驟S41);然后,去除不符合與寬高比、矩形高度相關(guān)的條件的空白矩形區(qū)域(步驟S42);最后,提取剩余的空白矩形區(qū)域之間的行作為候選前景行(步驟S43)。

在一個(gè)優(yōu)選實(shí)施例中,組合在豎直方向上存在重疊的空白矩形區(qū)域。

在一個(gè)優(yōu)選實(shí)施例中,如果兩個(gè)豎直方向上相鄰空白矩形區(qū)域之間存在大量空白,則去除這兩個(gè)空白矩形區(qū)域中水平方向上較短的一個(gè)。

在一個(gè)優(yōu)選實(shí)施例中,如果一個(gè)空白矩形區(qū)域的寬度與最寬的空白矩形區(qū)域的寬度之比小于特定閾值,則去除該空白矩形區(qū)域。

在步驟S3中,基于空白列,從候選前景行中,選擇前景行。

作為一種優(yōu)選實(shí)施方式,首先,在豎直方向上延長(zhǎng)空白列,然后,根據(jù)延長(zhǎng)的空白列與候選前景行的交集中包含的前景文字的多少和/或延長(zhǎng)的空白列之間的區(qū)域與候選前景行的交集中包含的前景文字的多少,從候選前景行中選擇前景行。

延長(zhǎng)的空白列與候選前景行的交集中包含的前景文字越多,表明該候選前景行越可能不是表格正文,而是表頭、表尾,如圖6中的表頭“吉林大學(xué)白求恩第一醫(yī)院(總院)住院病人藥品匯總清單”這一行是候選前景行,但不是想提取的表格正文的前景行。因此,規(guī)則A可以設(shè)計(jì)為延長(zhǎng)的空白列與候選前景行的交集中包含的前景文字少于預(yù)定閾值。前景文字的多少可以通過(guò)前景像素?cái)?shù)或連通域數(shù)/面積表征。

延長(zhǎng)的空白列之間的區(qū)域與候選前景行的交集中包含的前景文字越 少,表明該候選前景行越可能不是表格正文,而是表頭、表尾,如圖6中的表頭“吉林大學(xué)白求恩第一醫(yī)院(總院)住院病人藥品匯總清單”這一行是候選前景行,但不是想提取的表格正文的前景行。因此,規(guī)則B可以設(shè)計(jì)為延長(zhǎng)的空白列之間的區(qū)域與候選前景行的交集中包含的前景文字多于預(yù)定閾值。前景文字的多少可以通過(guò)前景像素?cái)?shù)或連通域數(shù)/面積表征。

經(jīng)過(guò)步驟S2提取的空白列和經(jīng)過(guò)步驟S3提取的前景行表明了表格圖像的布局:前景行為表格的正文部分,空白列將前景行劃分為若干表格項(xiàng),即空白列之間的豎直區(qū)域與前景行的交集構(gòu)成表格圖像中的表格塊,除了前景行之外的候選前景行是表格的表頭、表尾等非正文部分。

下面,將參照?qǐng)D5描述根據(jù)本發(fā)明實(shí)施例的分析表格圖像的布局的設(shè)備。

圖5示出了根據(jù)本發(fā)明實(shí)施例的分析表格圖像的布局的設(shè)備的結(jié)構(gòu)方框圖。如圖5所示,根據(jù)本發(fā)明的布局分析設(shè)備500包括:行候選提取裝置51,被配置為:提取候選前景行;空白列提取裝置52,被配置為:提取空白列;以及前景行選擇裝置53,被配置為:基于空白列,從候選前景行中,選擇前景行;其中,所述空白列和所述前景行表明了表格圖像的布局。

在一個(gè)實(shí)施例中,行候選提取裝置51包括:第一搜索單元,被配置為:基于空白矩形區(qū)域面積和寬度最大化的準(zhǔn)則,搜索表格圖像中的空白矩形區(qū)域;第一去除單元,被配置為:去除不符合與寬高比、矩形高度相關(guān)的條件的空白矩形區(qū)域;第一提取單元,被配置為:提取剩余的空白矩形區(qū)域之間的行作為候選前景行。

在一個(gè)實(shí)施例中,空白列提取裝置52包括:底去除單元,被配置為:去除表格圖像底部的空白區(qū)域;第二搜索單元,被配置為:基于空白矩形區(qū)域面積和高度最大化的準(zhǔn)則,搜索表格圖像剩余部分中的空白矩形區(qū)域;第二去除單元,被配置為:去除不符合與寬高比、矩形寬度相關(guān)的條件的空白矩形區(qū)域;第二提取單元,被配置為:提取剩余的空白矩 形區(qū)域作為空白列。

在一個(gè)實(shí)施例中,空白列提取裝置52還包括:組合單元,被配置為:組合在水平方向上存在重疊的空白矩形區(qū)域。

在一個(gè)實(shí)施例中,第二去除單元被進(jìn)一步配置為:如果兩個(gè)水平方向上相鄰空白矩形區(qū)域之間存在大量空白,則去除這兩個(gè)空白矩形區(qū)域中豎直方向上較短的一個(gè)。

在一個(gè)實(shí)施例中,第二去除單元被進(jìn)一步配置為:如果一個(gè)空白矩形區(qū)域的高度與最高的空白矩形區(qū)域的高度之比小于特定閾值,則去除該空白矩形區(qū)域。

在一個(gè)實(shí)施例中,前景行選擇裝置53包括:延長(zhǎng)單元,被配置為:在豎直方向上延長(zhǎng)空白列;選擇單元,被配置為:根據(jù)延長(zhǎng)的空白列與候選前景行的交集中包含的前景文字的多少和/或延長(zhǎng)的空白列之間的區(qū)域與候選前景行的交集中包含的前景文字的多少,從候選前景行中選擇前景行。

在一個(gè)實(shí)施例中,空白列之間的豎直區(qū)域與所述前景行的交集構(gòu)成表格圖像中的表格塊。

在一個(gè)實(shí)施例中,布局分析設(shè)備500還包括:線條去除裝置,被配置為:去掉表格圖像中的所有線條。

在一個(gè)實(shí)施例中,布局分析設(shè)備500還包括:放置裝置,被配置為:在提取表格圖像中的連通域之前,將表格圖像正向放置。

由于在根據(jù)本發(fā)明的布局分析設(shè)備500中所包括的各個(gè)裝置和單元中的處理分別與上面描述的分析表格圖像的布局的方法中所包括的各個(gè)步驟中的處理類似,因此為了簡(jiǎn)潔起見(jiàn),在此省略這些裝置和單元的詳細(xì)描述。

此外,這里尚需指出的是,上述設(shè)備中各個(gè)組成裝置、單元可以通過(guò)軟件、固件、硬件或其組合的方式進(jìn)行配置。配置可使用的具體手段或方式為本領(lǐng)域技術(shù)人員所熟知,在此不再贅述。在通過(guò)軟件或固件實(shí) 現(xiàn)的情況下,從存儲(chǔ)介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī)(例如圖7所示的通用計(jì)算機(jī)700)安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時(shí),能夠執(zhí)行各種功能等。

圖7示出了可用于實(shí)施根據(jù)本發(fā)明實(shí)施例的方法和設(shè)備的計(jì)算機(jī)的示意性框圖。

在圖7中,中央處理單元(CPU)701根據(jù)只讀存儲(chǔ)器(ROM)702中存儲(chǔ)的程序或從存儲(chǔ)部分708加載到隨機(jī)存取存儲(chǔ)器(RAM)703的程序執(zhí)行各種處理。在RAM 703中,還根據(jù)需要存儲(chǔ)當(dāng)CPU 701執(zhí)行各種處理等等時(shí)所需的數(shù)據(jù)。CPU 701、ROM 702和RAM 703經(jīng)由總線704彼此連接。輸入/輸出接口705也連接到總線704。

下述部件連接到輸入/輸出接口705:輸入部分706(包括鍵盤、鼠標(biāo)等等)、輸出部分707(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚(yáng)聲器等)、存儲(chǔ)部分708(包括硬盤等)、通信部分709(包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信部分709經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動(dòng)器710也可連接到輸入/輸出接口705??刹鹦督橘|(zhì)711比如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等可以根據(jù)需要被安裝在驅(qū)動(dòng)器710上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲(chǔ)部分708中。

在通過(guò)軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲(chǔ)介質(zhì)比如可拆卸介質(zhì)711安裝構(gòu)成軟件的程序。

本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲(chǔ)介質(zhì)不局限于圖7所示的其中存儲(chǔ)有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)711??刹鹦督橘|(zhì)711的例子包含磁盤(包含軟盤(注冊(cè)商標(biāo)))、光盤(包含光盤只讀存儲(chǔ)器(CD-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊(cè)商標(biāo)))和半導(dǎo)體存儲(chǔ)器?;蛘?,存儲(chǔ)介質(zhì)可以是ROM 702、存儲(chǔ)部分708中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。

本發(fā)明還提出一種存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品。所述 指令代碼由機(jī)器讀取并執(zhí)行時(shí),可執(zhí)行上述根據(jù)本發(fā)明實(shí)施例的方法。

相應(yīng)地,用于承載上述存儲(chǔ)有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲(chǔ)介質(zhì)也包括在本發(fā)明的公開(kāi)中。所述存儲(chǔ)介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲(chǔ)卡、存儲(chǔ)棒等等。

在上面對(duì)本發(fā)明具體實(shí)施例的描述中,針對(duì)一種實(shí)施方式描述和/或示出的特征可以以相同或類似的方式在一個(gè)或更多個(gè)其它實(shí)施方式中使用,與其它實(shí)施方式中的特征相組合,或替代其它實(shí)施方式中的特征。

應(yīng)該強(qiáng)調(diào),術(shù)語(yǔ)“包括/包含”在本文使用時(shí)指特征、要素、步驟或組件的存在,但并不排除一個(gè)或更多個(gè)其它特征、要素、步驟或組件的存在或附加。

此外,本發(fā)明的方法不限于按照說(shuō)明書中描述的時(shí)間順序來(lái)執(zhí)行,也可以按照其他的時(shí)間順序地、并行地或獨(dú)立地執(zhí)行。因此,本說(shuō)明書中描述的方法的執(zhí)行順序不對(duì)本發(fā)明的技術(shù)范圍構(gòu)成限制。

盡管上面已經(jīng)通過(guò)對(duì)本發(fā)明的具體實(shí)施例的描述對(duì)本發(fā)明進(jìn)行了披露,但是,應(yīng)該理解,上述的所有實(shí)施例和示例均是示例性的,而非限制性的。本領(lǐng)域的技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設(shè)計(jì)對(duì)本發(fā)明的各種修改、改進(jìn)或者等同物。這些修改、改進(jìn)或者等同物也應(yīng)當(dāng)被認(rèn)為包括在本發(fā)明的保護(hù)范圍內(nèi)。

附記

1.一種分析表格圖像的布局的方法,包括:

提取候選前景行;

提取空白列;以及

基于空白列,從候選前景行中,選擇前景行;

其中,所述空白列和所述前景行表明了表格圖像的布局。

2.如附記1所述的方法,其中提取候選前景行包括:

基于空白矩形區(qū)域面積和寬度最大化的準(zhǔn)則,搜索表格圖像中的空白矩形區(qū)域;

去除不符合與寬高比、矩形高度相關(guān)的條件的空白矩形區(qū)域;

提取剩余的空白矩形區(qū)域之間的行作為候選前景行。

3.如附記1所述的方法,其中提取空白列包括:

去除表格圖像底部的空白區(qū)域;

基于空白矩形區(qū)域面積和高度最大化的準(zhǔn)則,搜索表格圖像剩余部分中的空白矩形區(qū)域;

去除不符合與寬高比、矩形寬度相關(guān)的條件的空白矩形區(qū)域;

提取剩余的空白矩形區(qū)域作為空白列。

4.如附記3所述的方法,其中提取空白列還包括:

組合在水平方向上存在重疊的空白矩形區(qū)域。

5.如附記4所述的方法,其中提取空白列還包括:

如果兩個(gè)水平方向上相鄰空白矩形區(qū)域之間存在大量空白,則去除這兩個(gè)空白矩形區(qū)域中豎直方向上較短的一個(gè)。

6.如附記4或5所述的方法,其中提取空白列還包括:

如果一個(gè)空白矩形區(qū)域的高度與最高的空白矩形區(qū)域的高度之比小于特定閾值,則去除該空白矩形區(qū)域。

7.如附記1所述的方法,其中基于空白列,從候選前景行中,選擇前景行包括:

在豎直方向上延長(zhǎng)空白列;

根據(jù)延長(zhǎng)的空白列與候選前景行的交集中包含的前景文字的多少和/或延長(zhǎng)的空白列之間的區(qū)域與候選前景行的交集中包含的前景文字的多少,從候選前景行中選擇前景行。

8.如附記1所述的方法,其中所述空白列之間的豎直區(qū)域與所述前景行的交集構(gòu)成表格圖像中的表格塊。

9.如附記1所述的方法,還包括:在提取候選前景行之前,將表格圖像正向放置。

10.如附記1所述的方法,還包括:在提取候選前景行之前,去掉表 格圖像中的所有線條。

11.一種分析表格圖像的布局的設(shè)備,包括:

行候選提取裝置,被配置為:提取候選前景行;

空白列提取裝置,被配置為:提取空白列;以及

前景行選擇裝置,被配置為:基于空白列,從候選前景行中,選擇前景行;

其中,所述空白列和所述前景行表明了表格圖像的布局。

12.如附記11所述的設(shè)備,其中所述行候選提取裝置包括:

第一搜索單元,被配置為:基于空白矩形區(qū)域面積和寬度最大化的準(zhǔn)則,搜索表格圖像中的空白矩形區(qū)域;

第一去除單元,被配置為:去除不符合與寬高比、矩形高度相關(guān)的條件的空白矩形區(qū)域;

第一提取單元,被配置為:提取剩余的空白矩形區(qū)域之間的行作為候選前景行。

13.如附記11所述的設(shè)備,其中所述空白列提取裝置包括:

底去除單元,被配置為:去除表格圖像底部的空白區(qū)域;

第二搜索單元,被配置為:基于空白矩形區(qū)域面積和高度最大化的準(zhǔn)則,搜索表格圖像剩余部分中的空白矩形區(qū)域;

第二去除單元,被配置為:去除不符合與寬高比、矩形寬度相關(guān)的條件的空白矩形區(qū)域;

第二提取單元,被配置為:提取剩余的空白矩形區(qū)域作為空白列。

14.如附記13所述的設(shè)備,其中所述空白列提取裝置還包括:

組合單元,被配置為:組合在水平方向上存在重疊的空白矩形區(qū)域。

15.如附記14所述的設(shè)備,其中所述第二去除單元被進(jìn)一步配置為:

如果兩個(gè)水平方向上相鄰空白矩形區(qū)域之間存在大量空白,則去除這兩個(gè)空白矩形區(qū)域中豎直方向上較短的一個(gè)。

16.如附記14或15所述的設(shè)備,其中所述第二去除單元被進(jìn)一步配置為:

如果一個(gè)空白矩形區(qū)域的高度與最高的空白矩形區(qū)域的高度之比小于特定閾值,則去除該空白矩形區(qū)域。

17.如附記11所述的設(shè)備,其中所述前景行選擇裝置包括:

延長(zhǎng)單元,被配置為:在豎直方向上延長(zhǎng)空白列;

選擇單元,被配置為:根據(jù)延長(zhǎng)的空白列與候選前景行的交集中包含的前景文字的多少和/或延長(zhǎng)的空白列之間的區(qū)域與候選前景行的交集中包含的前景文字的多少,從候選前景行中選擇前景行。

18.如附記11所述的設(shè)備,其中所述空白列之間的豎直區(qū)域與所述前景行的交集構(gòu)成表格圖像中的表格塊。

19.如附記11所述的設(shè)備,還包括:線條去除裝置,被配置為:去掉表格圖像中的所有線條。

20.如附記11所述的設(shè)備,還包括:放置裝置,被配置為:在提取表格圖像中的連通域之前,將表格圖像正向放置。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
长泰县| 石景山区| 安远县| 柳河县| 吉木乃县| 霍城县| 社旗县| 桦川县| 陈巴尔虎旗| 包头市| 武汉市| 曲阳县| 武平县| 徐水县| 保亭| 广水市| 太仓市| 改则县| 镇安县| 容城县| 新巴尔虎左旗| 望城县| 志丹县| 曲麻莱县| 台东县| 黄山市| 金塔县| 永安市| 江阴市| 烟台市| 大埔区| 肥西县| 长乐市| 太保市| 禹城市| 合山市| 平乡县| 左云县| 龙门县| 中卫市| 家居|