本技術(shù)涉及圖像數(shù)據(jù)處理,具體而言,涉及一種表格信息的確定方法、裝置、存儲介質(zhì)及電子裝置。
背景技術(shù):
1、目前,在對工程圖紙圖像中的表格進行提取時,通常需要在對圖像進行文字內(nèi)容進行識別后,然后通過人工排除非表格部分的識別內(nèi)容在將表格部分的信息進行比對和錄入,這一過程需要耗費大量人力,且由于圖像識別過程中還需要對表格之外的干擾項進行識別,占用了額外的計算資源導致識別速度變慢,如干擾項過多會嚴重影響識別表格信息的效率。
2、因此,相關(guān)技術(shù)中,在識別圖像中的表格時,存在如何提高表格信息的識別效率的技術(shù)問題。
3、針對相關(guān)技術(shù)中,如何提高表格信息的識別效率的問題,尚未提出有效的解決方案。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例提供了一種表格信息的確定方法、裝置、存儲介質(zhì)及電子裝置,以至少解決相關(guān)技術(shù)中,如何提高表格信息的識別效率的問題。
2、根據(jù)本技術(shù)實施例的一個實施例,提供了一種表格信息的確定方法,包括:對獲取到的工程圖紙圖像進行預處理,得到所述工程圖紙圖像對應的二值化圖像,其中,所述二值化圖像經(jīng)形態(tài)學處理后具有第一水平線掩膜和第一垂直線掩膜;基于所述第一水平線掩膜和所述第一垂直線掩膜生成輪廓圖像,獲取所述輪廓圖像中所有第一矩形框?qū)牡谝蛔鴺思?,其中,所述第一坐標集合至少包括所述所有第一矩形框的頂點坐標;基于所述第一坐標集合確定出所述二值化圖像中的第一表格范圍,其中,在所述第一表格范圍內(nèi)包含目標表格;對所述目標表格進行文本識別,得到所述目標表格中的表格信息。
3、在一個示例性實施例中,基于所述第一水平線掩膜和所述第一垂直線掩膜生成的輪廓圖像獲取所述工程圖像中所有第一矩形框?qū)牡谝蛔鴺思?,包括:獲取所述第一水平線掩膜對應的像素點的第一像素位置和所述第一垂直線掩膜對應的像素點的第二像素位置;對各個第一像素位置和各個第二像素位置取或值,得到所述輪廓圖像;通過對所述輪廓圖像進行矩形擬合,得到第一矩形框,其中,所述第一矩形框的頂點坐標位于所述二值化圖像的默認原點所在的坐標軸上;根據(jù)所述所有第一矩形框?qū)捻旤c坐標生成所述第一坐標集合。
4、在一個示例性實施例中,基于所述第一坐標集合確定出所述二值化圖像中的第一表格范圍,包括:從所述第一坐標集合中確定出具有橫坐標最大值和縱坐標最大值的第一坐標點;根據(jù)所述第一坐標集合確定出第一橫坐標集合和第一縱坐標集合;在確定所述第一橫坐標集合和所述第一縱坐標集合滿足第一預設條件的情況下,基于所述第一橫坐標集合和所述第一縱坐標集合確定出第二坐標點;根據(jù)所述第二坐標點和所述第一坐標點確定所述第一表格范圍。
5、在一個示例性實施例中,根據(jù)所述第一坐標集合確定出第一橫坐標集合和第一縱坐標集合,包括:以所述第一坐標點為起點按照從大到小的順序?qū)λ龅谝蛔鴺思现械乃袡M坐標進行排序,得到第一橫坐標集合,其中,所述第一橫坐標集合中至少包括第二坐標集合,所述第二坐標集合中的坐標點的縱坐標值與所述縱坐標最大值之間的差值小于第一預設閾值;以及以所述第一坐標點為起點,按照從大到小的順序?qū)λ龅谝蛔鴺思现械乃锌v坐標進行排序,得到第一縱坐標集合,其中,所述第一縱坐標集合中至少包括第三坐標集合,所述第三坐標集合中的坐標點的橫坐標值與所述橫坐標最大值之間的差值小于第二預設閾值。
6、在一個示例性實施例中,在確定所述第一橫坐標集合和所述第一縱坐標集合滿足第一預設條件的情況下,基于所述第一橫坐標集合和所述第一縱坐標集合確定出所述第二坐標點,包括:所述第一預設條件為所述第二坐標集合中的坐標點的個數(shù)和所述第三坐標集合中的坐標點的個數(shù)均大于第一預設值;在確定滿足所述第一預設條件的情況下,以所述第一坐標點為起點按照從大到小的順序?qū)λ龅诙鴺思现械乃袡M坐標進行排序,得到第二橫坐標集合,其中,所述第二橫坐標集合中至少包括第四坐標集合,所述第四坐標集合中的相鄰坐標點的縱坐標值之間的差值小于第一預設閾值;以及,以所述第一坐標點為起點按照從大到小的順序?qū)λ龅谌鴺思现械乃锌v坐標進行排序,得到第二縱坐標集合,所述第二縱坐標集合中至少包括第五坐標集合,所述第五坐標集合中的相鄰坐標點的橫坐標值之間的差值小于第二預設閾值;在確定所述第四坐標集合中的坐標點的個數(shù)和所述第五坐標集合中的坐標點的個數(shù)均大于第二預設值的情況下,確定出以所述第四坐標集合的第一橫坐標最小值為橫坐標,以所述第五坐標集合的第一縱坐標最小值為縱坐標的第二坐標點。
7、在一個示例性實施例中,所述方法還包括:所述第一預設條件為所述第二坐標集合中的坐標點的個數(shù)和所述第三坐標集合中的坐標點的個數(shù)均大于第一預設值;在確定所述第一橫坐標集合和所述第一縱坐標集合不滿足第一預設條件的情況下,從所述第一坐標集合中刪除所述第一坐標點,得到第六坐標集合;基于所述第六坐標集合確定出第三橫坐標集合和第三縱坐標集合;在確定所述第三橫坐標集合和所述第三縱坐標集合滿足第二預設條件的情況下,基于所述第三橫坐標集合和所述第三縱坐標集合確定出所述第二坐標點。
8、在一個示例性實施例中,根據(jù)所述第二坐標點和所述第一坐標點確定所述第一表格范圍,包括:確定出所述第一坐標點的橫坐標對應的第二水平線掩膜和所述第一坐標點的縱坐標對應的第二垂直線掩膜,以及確定出所述第二坐標點的橫坐標對應的第三水平線掩膜和所述第二坐標點的縱坐標對應的第三垂直線掩膜;從所述輪廓圖像中確定出與掩膜范圍一致的目標輪廓圖像,其中,所述掩膜范圍表示所述第二水平線掩膜,第二垂直線掩膜,第三水平線掩膜和所述第三垂直線掩膜所形成的范圍;對所述目標輪廓圖像對應的輪廓對象進行圖像擬合,得到擬合后的第二矩形框;將所述二值化圖像中與所有第二矩形框?qū)膱D像范圍確定為所述第一表格范圍,其中,所述所有第二矩形框的頂點坐標對應生成有第七坐標集合。
9、在一個示例性實施例中,通過以下方式確定出所述第一表格范圍內(nèi)包含的目標表格:針對任一個第二矩形框進行文本識別,得到第一文本信息;在確定所述第一文本信息與主表信息的相似度大于第三預設閾值的情況下,根據(jù)所述第七坐標集合中的頂點坐標和所述第一文本信息生成目標表格;在確定所述第一文本信息與主表信息的相似度小于或等于第三預設閾值的情況下,如果確定所述第一文本信息與附表信息的相似度大于第四預設閾值,則確定所述第一文本信息與附表信息的相似度大于第四預設閾值的多個第三矩形框;從多個第三矩形框的頂點坐標中確定出具有第二橫坐標最小值的第三坐標點和具有第三橫坐標最大值的第四坐標點;根據(jù)所述第三坐標點和所述第四坐標點在所述第一表格范圍內(nèi)確定出第二表格范圍,并確定出所述第二表格范圍內(nèi)包含的目標表格。
10、在一個示例性實施例中,根據(jù)所述第七坐標集合中的頂點坐標和所述第一文本信息生成目標表格,包括:對所述第一表格范圍內(nèi)的橫向連通區(qū)域進行遍歷,得到橫向線段,并基于所有橫向線段生成第一線段集合,其中,所述橫向連通區(qū)域是基于所述第二水平線掩膜和第三水平線掩膜確定的;針對所述第七坐標集合包含的每一個頂點坐標,獲取所述每一個頂點坐標與所述第一線段集合中的橫向線段之間的垂直距離;根據(jù)所述垂直距離的大小確定出任一個第二矩形框在垂直方向上對應的第一序號,其中,所述垂直距離越小,所述第一序號越??;針對所述任一個第二矩形框包含的多個單元格,確定出每一個單元格在水平方向上對應的第二序號,其中,所述第二序號是按照每一個單元格的頂點坐標的橫坐標的大小對所述多個單元格進行排序得到的,所述每一個單元格的第二序號與所述第一序號存在對應關(guān)系;基于所述第一序號和所述第二序號的對應關(guān)系生成所述任一個第二矩形框?qū)牡谝粏卧窦?,所述第一單元格集合中至少包含所述任一個第二矩形框的第一序號,以及所述每一個單元格的第二序號;將多個第一單元格集合按照第一序號的大小進行排序,并合并排序后的多個第一單元格集合得到第二單元格集合;對所述第二單元格集合所對應的所有單元格進行文本識別,得到每一個單元格的第二文本信息;在確定所述第二文本信息與主表信息的相似度大于第三預設閾值的情況下,根據(jù)所述每一個單元格所對應的頂點坐標和所述每一個單元格的第二文本信息生成目標表格。
11、在一個示例性實施例中,確定出所述第二表格范圍內(nèi)包含的目標表格,包括:從所述第二單元格集合中獲取橫坐標值大于所述第二橫坐標最小值,且橫坐標值小于所述第三橫坐標最大值的第一單元格,并根據(jù)多個第一單元格生成第三單元格集合;對所述第二表格范圍內(nèi)的橫向連通區(qū)域進行遍歷,得到橫向線段,并基于所有橫向線段生成第二線段集合,其中,所述橫向連通區(qū)域是基于所述第二水平線掩膜和第三水平線掩膜確定的;針對所述第三單元格集合包含的第二單元格的第一頂點坐標,獲取所述第一頂點坐標與所述第二線段集合中的橫向線段之間的垂直距離;根據(jù)所述垂直距離的大小確定出第二單元格在垂直方向上對應的第三序號,其中,所述垂直距離越小,所述第三序號越?。会槍Χ鄠€第二單元格包含的多個子格,確定出每一個子格在水平方向上對應的第四序號,其中,所述第四序號是按照所述第二單元格的頂點坐標的橫坐標的大小對所述多個子格進行排序得到的,每一個子格的第四序號與所述第三序號存在對應關(guān)系;基于所述第三序號和所述第四序號的對應關(guān)系生成所述第二單元格對應的第四單元格集合,所述第四單元格集合中至少包含所述第二單元格的第三序號,以及所述每一個子格的第四序號;將多個第四單元格集合按照第三序號的大小進行排序,并合并排序后的多個第四單元格集合得到第五單元格集合;對所述第五單元格集合所對應的所有子格進行文本識別,得到每一個子格的第三文本信息,并根據(jù)所述每一個子格所對應的頂點坐標和所述每一個子格的第三文本信息生成目標表格。
12、根據(jù)本技術(shù)實施例的另一方面,還提供了一種表格信息的確定裝置,包括:處理模塊,用于對獲取到的工程圖紙圖像進行預處理,得到所述工程圖紙圖像對應的二值化圖像,其中,所述二值化圖像經(jīng)形態(tài)學處理后具有第一水平線掩膜和第一垂直線掩膜;獲取模塊,用于基于所述第一水平線掩膜和所述第一垂直線掩膜生成輪廓圖像,獲取所述輪廓圖像中所有第一矩形框?qū)牡谝蛔鴺思?,其中,所述第一坐標集合至少包括所述所有第一矩形框的頂點坐標;確定模塊,用于基于所述第一坐標集合確定出所述二值化圖像中的第一表格范圍,其中,在所述第一表格范圍內(nèi)包含目標表格;識別模塊,用于對所述目標表格進行文本識別,得到所述目標表格中的表格信息。
13、根據(jù)本技術(shù)實施例的又一方面,還提供了一種計算機可讀的存儲介質(zhì),該計算機可讀的存儲介質(zhì)中存儲有計算機程序,其中,該計算機程序被設置為運行時執(zhí)行上述表格信息的確定方法。
14、根據(jù)本技術(shù)實施例的又一方面,還提供了一種電子裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,上述處理器通過計算機程序執(zhí)行上述的表格信息的確定方法。
15、在本技術(shù)實施例中,將工程圖紙圖像處理成二值化圖像后基于二值化圖像的第一水平線掩膜和所述第一垂直線掩膜生成輪廓圖像,進而獲取輪廓圖像中全部矩形框?qū)牡谝蛔鴺思?,根?jù)第一坐標集合確定出包含目標表格第一表格范圍,對目標表格進行文本識別得到目標表格中的表格信息。采用上述技術(shù)方案,解決了如何提高表格信息的識別效率的問題,進而實現(xiàn)提高表格信息的識別效率的效果。