信息處理裝置、信息處理系統(tǒng)以及信息處理方法
【專利說明】
[0001] 本申請以日本專利申請2014-171848(申請日:2014年8月26日)為基礎,根據(jù) 該申請享受優(yōu)先的權(quán)益。本申請通過參照該申請,包含該申請的全部內(nèi)容。
技術領域
[0002] 本發(fā)明的實施形態(tài)涉及信息處理裝置、信息處理系統(tǒng)以及信息處理方法。
【背景技術】
[0003] -般地,在從用照相機拍攝的圖像中檢測出招牌或標識、紙面等上記載的文字的 情況下,根據(jù)記載有文字的文字表面和照相機的視點位置的不同,圖像內(nèi)的文字的表觀形 狀會多種多樣地變形(例如,由于受到投影變形),因此存在難以從圖像中穩(wěn)定并且穩(wěn)健地 檢測出文字這樣的不良情況。
[0004] 因此,為了穩(wěn)定并且穩(wěn)健地從圖像內(nèi)檢測出文字,存在這樣的文字檢測方法:檢測 記載有文字的框,并生成將檢測到的框的形狀修正成了沒有變形的狀態(tài)的圖像,從生成的 修正后的圖像中檢測出沒有變形的狀態(tài)的文字。
[0005] 然而,采用上述的文字檢測方法的話,存在以下這樣的不良情況:需要文字被記載 在已知的框內(nèi),在文字被記載在未知的形狀的框內(nèi)的情況下,就無法從圖像中穩(wěn)定并且穩(wěn) 健地檢測出文字。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的一個形態(tài)的目的在于,提供一種能夠從圖像中穩(wěn)定并且穩(wěn)健地檢測文字 的信息處理裝置、信息處理系統(tǒng)以及信息處理方法。
[0007] 根據(jù)實施形態(tài),信息處理裝置具有:圖像輸入單元、仰角取得單元、文字變形確定 單元、文字檢測辭典存儲單元、文字檢測辭典選擇單元以及文字檢測單元。圖像輸入單元接 收通過拍攝記載有文字的文字表面而得到的圖像的輸入。仰角取得單元對于拍攝所述被輸 入的圖像的拍攝裝置,取得拍攝該圖像時的該拍攝裝置的仰角值。文字變形確定單元基于 所述取得的仰角值,確定所述被輸入的圖像內(nèi)的文字的表觀形狀如何變形。文字檢測辭典 存儲單元存儲與多種多樣地變形的文字的表觀形狀相對應的多個文字檢測辭典。文字檢測 辭典選擇單元在通過所述文字變形確定單元確定了所述被輸入的圖像內(nèi)的文字的表觀形 狀如何變形后,從所述文字檢測辭典存儲單元中選擇與該確定的文字的表觀形狀相對應的 文字檢測辭典。文字檢測單元使用所述選擇的文字檢測辭典對所述被輸入的圖像執(zhí)行文字 檢測處理,檢測出該圖像中文字存在的區(qū)域。
[0008] 根據(jù)上述結(jié)構(gòu)的信息處理裝置,能夠從圖像中穩(wěn)定并且穩(wěn)健地檢測出文字。
【附圖說明】
[0009] 圖1是用于對根據(jù)看的角度的不同而變形的文字的表觀形狀的多樣性進行說明 的圖。
[0010] 圖2是示意性地示出照相機的三維旋轉(zhuǎn)的圖。
[0011] 圖3是示出一個實施形態(tài)所涉及的信息處理裝置的構(gòu)成例的圖。
[0012] 圖4是用于對計算仰角值的方法進行說明的圖。
[0013] 圖5是用于對計算仰角值的方法進行說明的另一個圖。
[0014] 圖6是示出同一實施形態(tài)所涉及的仰角區(qū)域與文字變形假設的關系的圖。
[0015] 圖7是用于對同一實施形態(tài)所涉及的文字檢測辭典存儲部進行說明的圖。
[0016] 圖8是用于對同一實施形態(tài)所涉及的通過文字檢測部執(zhí)行的縮小處理進行說明 的圖。
[0017] 圖9是用于對同一實施形態(tài)所涉及的檢測結(jié)果信息進行說明的圖。
[0018] 圖10是示出同一實施形態(tài)所涉及的信息處理裝置的動作的一例的流程圖。
[0019] 圖11是示出同一實施形態(tài)所涉及的信息處理系統(tǒng)的構(gòu)成例的圖。
[0020] 圖12是示出同一實施形態(tài)所涉及的信息處理裝置的硬件結(jié)構(gòu)的圖。
[0021] 圖13是用于對計算搖擺旋轉(zhuǎn)角度的值的方法進行說明的圖。
[0022] 圖14是用于對同一實施形態(tài)所涉及的信息處理裝置的變形例進行說明的圖。
[0023] 圖15是用于對同一實施形態(tài)所涉及的信息處理裝置的變形例進行說明的另一個 圖。
[0024] 圖16是用于對同一實施形態(tài)所涉及的信息處理裝置的變形例進行說明的又一個 圖。
[0025] (符號說明)
[0026] 10 :信息處理裝置,11 :圖像輸入部,12 :仰角取得部,13 :文字變形假設確定部, 14 :文字檢測辭典存儲部,15 :文字檢測辭典選擇部,16 :文字檢測部,17 :應用部,18 :輸出 部。
【具體實施方式】
[0027] 以下,參照附圖對實施形態(tài)進行說明。
[0028] 首先,對從拍攝招牌或標識、紙面(例如,西餐館的菜單等)而得到的圖像(情景 圖像)中檢測招牌或標識、紙面等上記載的文字的情況下產(chǎn)生的問題點進行說明。作為從 用照相機拍攝的圖像中檢測招牌或標識、紙面等上記載的文字的情況下的問題點,根據(jù)記 載有文字的文字表面和拍攝該文字表面的照相機的視點的位置關系的不同,該文字的表觀 形狀會多種多樣地變形,因此存在無法從圖像中穩(wěn)定并且穩(wěn)健地檢測出文字這樣的問題 點。文字的表觀形狀例如如圖1所示那樣多種多樣地變形。
[0029] 圖1是用于對根據(jù)看的角度而變形的文字的表觀形狀的多樣性進行說明的圖。表 觀形狀A1示出從右斜下方拍攝記載有文字"TEXT"的文字表面的情況下的文字的表觀形 狀。又,表觀形狀A5示出從正前方拍攝記載有文字"TEXT"的文字表面的情況下的文字的 表觀形狀。進一步地,表觀形狀A9示出從左斜上方拍攝記載有文字"TEXT"的文字表面的 情況下的文字的表觀形狀。在此,取表觀形狀Al,A5、A9為例進行了說明,但其他的表觀形 狀A2~A4、A6~A8也示出了從各種方向拍攝記載有文字"TEXT"的文字表面的情況下的 表觀形狀。
[0030] 如圖1所示,即使是相同的文字"TEXT",根據(jù)記載有該文字的文字表面和拍攝該 文字表面的照相機的視點的位置關系的不同,文字的表觀形狀也會多種多樣地變形。因此, 如上所述那樣,會產(chǎn)生無法從圖像中穩(wěn)定并且穩(wěn)健地檢測文字這樣的問題。
[0031] 于是,為了從圖像中穩(wěn)定并且穩(wěn)健地檢測文字,提出了各種各樣的文字檢測方法。
[0032] 例如,存在以下這樣的文字檢測方法:從圖像中檢測記載有文字的文字表面的框, 生成將該框的形狀修正成了沒有變形的狀態(tài)的圖像,從修正后的圖像中檢測出沒有變形的 文字。具體來說,提出了 :在從圖像中檢測記載在長方形的板上的文字的情況下,將由水平 邊緣和垂直邊緣以2組平行線包圍的四邊形作為上述板的框檢測出,生成根據(jù)該四邊形的 4頂點的坐標值對該框的變形進行了修正的圖像,從修正后的圖像中檢測出沒有變形的文 字的文字檢測方法。
[0033] 又,作為其他的文字檢測方法,提出有以下這樣的文字檢測方法:通過基于顏色的 區(qū)域分割和合并,從圖像中提取記載有文字的規(guī)定的區(qū)域作為框,生成基于該規(guī)定的區(qū)域 的輪廓直線修正了該框的變形的圖像,從修正后的圖像中檢測出沒有變形的文字。
[0034] 然而,采用上述的文字檢測方法的話,存在以下這樣的不妥:前提是文字被記載在 已知形狀的框內(nèi),無法從圖像中穩(wěn)定并且穩(wěn)健地檢測出被記載在未知的形狀的框內(nèi)的文字 或被記載在不具有框的文字表面上的文字。
[0035] 因此,存在以下這樣的文字檢測方法:使用能夠指導具有各種各樣的背景、各種各 樣地變形了的文字的萬能辭典,從沒有修正的圖像中不檢測框地檢測出文字。
[0036] 然而,該文字檢測方法存在以下不妥之處:由于使用能夠指導具有各種各樣的背 景、各種各樣地變形了的文字的萬能辭典,因此能夠指導的文字的數(shù)量多,對照精度反而下 降,容易產(chǎn)生錯誤檢測。
[0037] 因此,存在不準備萬能辭典,而是對文字的表觀形狀的每種變形的類型準備詞典, 對于輸入圖像與全部的辭典進行對照,由此檢測出文字的檢測方法。然而,由于與全部的辭 典進行對照,因此存在直到文字檢測處理結(jié)束為止所經(jīng)過的時間會超時這樣的不妥。
[0038] 如以上所說明的那樣,在從圖像中檢測文字的一般的文字檢測方法中,無法全部 解決框的限制、辭典的對照精度的下降、對照時間的超時之類的問題。因此,在本實施形態(tài) 中,提出一種信息處理裝置,能夠解決上述的各問題,執(zhí)行能夠從圖像中穩(wěn)定并且穩(wěn)健地檢 測出文字的文字檢測處理。
[0039] 下面,對一種實施方式所涉及的信息處理裝置10的結(jié)構(gòu)進行說明,但在這之前, 對信息處理裝置10執(zhí)行檢測圖像內(nèi)的文字的文字檢測處理時考慮的、與照相機姿勢有關 的前提條件進行說明。
[0040] 具有照相機功能的終端裝置(以下僅記為"照相機")一般能夠由使用者(拍攝 者、用戶)使其三維旋轉(zhuǎn)。總之,使用者既可以在三維空間中將照相機朝向上下左右方向, 也可以向斜向方向傾斜。圖2是示意性地示出上述的照相機的三維旋轉(zhuǎn)的圖。圖2的101 表示照相機的視點位置。圖2的102表示照相機的拍攝面。拍攝面102的中心是圖像中心 103。通過照相機的視點位置101、相對于地面在水平方向上延伸的坐標軸為X軸104。又, 通過照相機的視點位置101、相對于地面在垂直方向上延伸的坐標軸為Y軸105。進一步地, 設置與X軸104和Y軸105正交的Z軸107的話,則Z軸107也是相對于地面在水平方向 上延伸的坐標軸。即,通過X軸104和Z軸107擴展開的X-Z平面相對于地面為水平,通過 Y軸105和Z軸107擴展開的Y-Z平面相對于地面為垂直。
[0041] 在此,從照相機的視點位置101延