專利名稱:折疊式電子設備的制作方法
技術領域:
本發(fā)明有關一種以影像文件拍攝一文件并提供給光學文字辨識軟件(Optical Character Recognition,OCR)來辨識字體,以產(chǎn)生文字文件輸出的方法,更明確地說,是有 關一種利用攝影機來拍攝該文件,并將攝影機所拍攝的動態(tài)影像進行整合,再將整合后的 影像提供給光學文字辨識軟件辨識字體,以產(chǎn)生文字文件輸出的方法。
背景技術:
OCR相關的產(chǎn)品原本多是掃描儀的附屬功能之一。使用者需將文件置于掃描機臺 上,一頁一頁的通過掃描機變成圖文件輸入電腦后,采后制的方式將一頁一頁的圖文件送 到OCR軟件做進一步的分析達成圖文分離后再加以組合還原成電腦圖文文件。在手持裝置逐漸普及的同時,也有業(yè)者開始試著把OCR技術帶入手持裝置里面, 這個過程中我們注意到兩件事,使用者大多只想要被掃瞄物件上的文字,(可能還希望進 一步的把文字翻譯出來),再來就是因為文字的特性,文字通常逐行編列且是連續(xù)的。人們 也都是逐行的閱讀文章。在這個情形下,有業(yè)者開發(fā)出市面上所謂的掃描筆,但是為了這 個逐行且連續(xù)輸入的特性,掃描筆使用的輸入界面(攝影鏡頭)是采用線性攝影機(line camera),它將二維的文字當成一連串的線段的組合,線性攝影機將線段依序讀入系統(tǒng)后再 加以組合還原成二維的圖文件,再供OCR軟件處理。但綜觀現(xiàn)今最普遍的手持裝置,手機上所搭載的卻是二維的攝影機模塊。它輸入 到系統(tǒng)的是一連續(xù)的二維圖像,也就是說,它的輸入會比較像桌上型的掃描機。因此使用模 式上也是一張照片一張照片的分開處理,與人們逐行處理文字的習慣并不相同。所以目前 較普遍的OCR應用,仍多局限于單張名片的處理(BCR,Business Card Recognization)。若 想達成連續(xù)的逐行輸入,都需要額外的硬件輔助。(例如專利CN2745288Y)。此發(fā)明的目的就是希望利用目前手持裝置上普遍搭載的二維影像輸入裝置(攝 影機),且在不增加額外的硬件輔助裝置的情形下,來達成逐行且連續(xù)輸入文字的目的。
發(fā)明內(nèi)容
本發(fā)明提供一種以錄像方式輸出連續(xù)文字的方法。該方法包含從該物體取得一第 一影像以及一第二影像、比對該第一影像與該第二影像以取得該第一影像與該第二影像重 疊的一第三影像、將該第三影像從該第二影像中移除以產(chǎn)生一第四影像、將該第四影像與 該第一影像連結(jié)以產(chǎn)生一第五影像,以及對該第五影像進行光學文字辨識以輸出該第五影 像中的文字。
圖1為說明本發(fā)明將一攝影機以一方向移動時進行拍攝的示意圖。圖2為說明本發(fā)明將影像進行重點裁切的示意圖。圖3為說明本發(fā)明將裁切后影像進行邊緣化處理的示意圖。
圖4為說明本發(fā)明的邊緣化處理的示意圖。圖5為說明本發(fā)明將邊緣化影像合并的示意圖。圖6為說明本發(fā)明將連結(jié)影像與下一邊緣影像合并的示意圖。圖7為說明在經(jīng)過本發(fā)明處理影像重疊與連結(jié)后的影像的示意圖。圖8為說明本發(fā)明在進行邊緣化影像匹配比對時先以外觀匹配比對的示意圖。圖9為說明本發(fā)明對于字體進行特征匹配比對的示意圖。圖10為本發(fā)明將連續(xù)影像轉(zhuǎn)換成連續(xù)文字輸出的方法的流程圖。
具體實施例方式因此,本發(fā)明提供一種利用攝影機(例如一般手機或是數(shù)字相機等)拍攝一文件, 在移動攝影機的同時,將一文件上的文字拍攝下來,之后,再將所拍攝的影像進行影像整 合,以將整合后的影像提供給光學文字辨識軟件進行文字辨識。如此一來,利用本發(fā)明所提 供的方式,便能夠?qū)⒁贿B續(xù)的影像文件轉(zhuǎn)換成一整合影像文件,同時基于此整合影像,將其 依字符切割,(避免不完整的字形),再提供給光學文字辨識軟件進行文字辨識,而能夠達 成邊錄像邊輸出文字的功效。請參考圖1。圖1為說明本發(fā)明將一攝影機以一方向移動時進行拍攝的示意圖。 首先,攝影機進入錄像模式中,在錄像模式下對一文件進行拍攝,且該文件上印制有“在通 話中按下”的中文字體。在攝影機的錄像模式中,攝影機會以固定的取樣頻率進行拍攝,其 可依據(jù)需求設定攝影機每秒鐘所能拍攝的影像張數(shù)(frame/per sec)。例如若錄像時間 為1秒,則進入錄像模式的攝影機便會取得5張影像。于圖1中,當攝影機以Dl的方向(由左而右)移動對文件進行錄像,攝影機可紀 錄文件上的文字“在通話中按下”的文字。而根據(jù)攝影機移動的速度與攝影機于錄像模式 下的取樣頻率,攝影機會依序拍攝到影像P.P. PtB以及PM,意即攝影機在以Dl的方向進 行錄像時,會依序拍攝到影像P.P.Pcb以及PM。影像Pra Pm完整包含了待辨識的字體 “在通話中按下”,而由于攝影機移動的速度與攝影機于錄像模式下的取樣頻率不一定匹配 的情況,影像Pra Pm彼此之間會有影像重疊的情況。由攝影機移動的方向Dl可知,影像 P01的右側(cè)部分影像應會與影像p。2的左側(cè)部分影像重疊;影像p。2的右側(cè)部分影像應會與影 像P。3的左側(cè)部分影像重疊;影像P。3的右側(cè)部分影像應會與影像P。4的左側(cè)部分影像重疊。 而本發(fā)明即為將影像Pra Pm中彼此互相重疊的部分移除,并將移除重疊部分后的影像進 行連接,以得出最后正確的影像,來提供給光學文字辨識軟件進行文字辨識以產(chǎn)生正確的 文字輸出。請參考圖2。圖2為說明本發(fā)明將影像進行重點裁切的示意圖。由于當攝影機拍 攝文件時可能會拍攝多余不必要的部分,因此為了后續(xù)比對流程的簡化,本發(fā)明會將拍攝 到的影像進行重點裁切。如圖2所示,原始拍攝到的影像為Pra,而經(jīng)過本發(fā)明的重點裁切 之后,便成為裁切后影像Ρα。于圖2中,本發(fā)明會偵測原始影像Pra中不必要的部分(如原始影像Pra中的空白 區(qū)域),而定義出所裁切的邊界E1與E2,然后將原始影像Pra根據(jù)邊界E1與E2進行裁切,而 得到裁切后影像Pa。而影像Pra Pm在進行后續(xù)處理之前,皆會被裁切以形成裁切后影像
請參考圖3。圖3為說明本發(fā)明將裁切后影像進行邊緣化處理的示意圖。為了進行 字體的比對,本發(fā)明會將裁切后影像進行邊緣化處理以得出裁切后影像中字體的邊緣(外 框)。如圖3所示,原本裁切后的影像為Pa,而經(jīng)過本發(fā)明的邊緣化處理后,便成為邊緣化 影像PE1。而影像Pa Pc4在進行后續(xù)處理前,皆會被邊緣化以形成邊緣化影像Pei PE4。請參考圖4。圖4為說明本發(fā)明的邊緣化處理的示意圖。圖4為舉像素P11為例 以進行邊緣化處理。像素PQQ、P01 > P02> Ριο> Pu、P12、P20> P2I> P22,其對應的坐標分別為(i-1, j-1)、(i-1, j)、(i-1, j+1)、(i,j-1)、(i,j)、(i,j+1)、(i+1, j-1)、(i+1, j)、(i+1, j+1)。 由此可知在對于像素P11進行邊緣化處理時,會參考其周圍的像素。本發(fā)明的邊緣化處理如 下式Edge (P11) = Diff (P10, P12) +Diff (P20, P02) +Diff (P21, P01) +Diff (P22, P00);其中Diff(Px,Py)為兩點的差異值,此差異值可依據(jù)所偏好的色調(diào)或特性做調(diào)整。 例如 Diff (Px,PY) = abs[ (Px(G)-Py(R)) X (PY(G)-Px(B) X (Px(B)-Py(R))];其中abs[Z]表示Z的絕對值、Px(G)表示像素X的綠色灰階值、Py(R)表示像素Y 的紅色灰階值、Py(G)表示像素Y的綠色灰階值、Px(B)表示像素X的藍色灰階值、Py(R)表 示像素Y的紅色灰階值,且i、i、X、Y皆代表正整數(shù)。如此像素P11在進行邊緣化處理后便 可得出邊緣化像素Edge (P11),意即像素P11原本的灰階數(shù)據(jù)經(jīng)過邊緣化處理之后,會成為灰 階數(shù)據(jù)Edge(P11)。且當P11為彎曲,轉(zhuǎn)折點或顏色有較大變化時會有較大的灰階值。請參考圖5。圖5為說明本發(fā)明將邊緣化影像合并的示意圖。圖5中舉邊緣化影 像Pei與Pe2為例以方便說明。如圖5所示,首先,邊緣化影像Pei與Pe2進行比對,以判斷彼 此互相重疊的區(qū)域。由于從前述中可得知邊緣化影像Pei的右側(cè)部分影像應會與邊緣化影 像Pe2的左側(cè)部分影像重疊,因此,于第圖5中便需比對邊緣化影像Pei與Pe2以正確得出二 者重疊的部分,然后將重疊部分影像從拍攝順序較后的影像中移除。從圖5中可看出,在經(jīng) 過比對之后,邊緣化影像Pei與Pe2所重疊的區(qū)域被判斷為影像Pw。然后本發(fā)明會將邊緣影 像Pe2中與邊緣化影像Pei重疊的影像Pw移除,再將移除重疊影像Pw后的邊緣化影像Pe2與 邊緣化影像Pei進行連結(jié),而得出連結(jié)影像PE(1+2)。請參考圖6。圖6為說明本發(fā)明將連結(jié)影像與下一邊緣影像合并的示意圖。圖6 中舉連結(jié)影像PE(1+2)與Pe3為例以方便說明。如圖6所示,首先,連結(jié)影像 1+2)與Pe3進行 比對,以判斷彼此互相重疊的區(qū)域。由于從前述中可得知連結(jié)影像&(1+2)的右側(cè)部分影像應 會與邊緣化影像Pe3的左側(cè)部分影像重疊,因此于圖6中便需比對連結(jié)影像PE(1+2)與Pe3以 正確得出二者重疊的部分,然后將重疊部分影像從拍攝順序較前的影像(PE(1+2))中移除。從 圖6中可看出,在經(jīng)過比對之后,連結(jié)影像PE(1+2)與Pe3所重疊的區(qū)域被判斷為影像PQV。然 后本發(fā)明會將連結(jié)影像PE(1+2)中與邊緣化影像Pe3重疊的影像Pw,再將移除重疊影像Pw后 的連結(jié)影像Pe3與邊緣化影像PE(1+2)進行連結(jié),而得出連結(jié)影像PE(1+2+3)。在實際操作上,因 為攝影機是沿某一固定方向移動,故Pe2與Pe3最大的重疊區(qū)域不會超出Pe2,所以在做PE(1+2) 與Pe3的比對時,并不需要比對全部的PE(1+2),只要比對完Pe2的范圍即可。請參考圖7。圖7為說明在經(jīng)過本發(fā)明處理影像重疊與連結(jié)后的影像的示意圖。 如圖7所示,經(jīng)過前述重點裁切、邊緣化、比對與連結(jié)的處理后,便可將邊緣化影像PE1、PE2、
PE3、 E4 連結(jié)成"■連結(jié)H象 PE(1+2+3+4)。連結(jié)象(1+2+3+4) 已將邊緣化影像PE1、PE2 > PE3、Pe4中
彼此互相重疊的部分移除然后連結(jié)成一單一影像。如此經(jīng)過本發(fā)明處理后的連結(jié)影像便可
6提供給光學文字辨識軟件來進行字體的辨識,以產(chǎn)生正確的文字輸出,而不會有因影像重 疊造成辨識錯誤的情況產(chǎn)生。且影像的連結(jié)與輸出部分的連結(jié)后的影像給OCR處理是可以 同時進行的,例如,在連結(jié)Pe4的同時,我們可以從Pe(1+2+3)移走“在通”的影像片段給OCR處 理,實際上Pe4是與剩下的“話中按”影像連結(jié)。在選擇移除范圍時,僅需注意不可切割到最 后一張已整合完成圖像的部分,例如在前述的例子中,從PE(1+2+3)移除時,至少要留下Pe3的 部分,即“話中按”的影像。請參考圖8。圖8為說明本發(fā)明在進行邊緣化影像匹配比對時先以外觀(shape) 匹配比對的示意圖。圖8中舉邊緣化影像Pei與Pe2為例以方便說明。于圖8中,邊緣化影 像Pei包含三個字體“在”、“通”以及“話”的左半部,其對應的外觀分別為S” S2與S3 ;邊 緣化影像Pe2包含三個字體“通”的右半部、“話”以及“中”的左半部,其對應的外觀分別為 S4、S5與S60而本發(fā)明便可先根據(jù)外觀S” S2, S3> S4, S5, S6先粗略判斷出外觀S4與外觀S2 匹配、外觀S5與外觀S3匹配,而可粗略估計出邊緣化影像Pei與Pe2重疊的程度邊緣化影 像Pe2中的外觀S4到外觀S5的部分應與邊緣化影像Pei重疊。如此便可先得出一粗略重疊 范圍,以進行后續(xù)精確的比對。請參考圖9。圖9為說明本發(fā)明對于字體進行特征(characteristics)匹配比對 的示意圖。如同之前邊緣化處理中所述,我們可以利用調(diào)整差異值的公式來將文字中的特 征點強調(diào)出來,意即給予較高或不一樣的灰階值,這些特征點可能是轉(zhuǎn)折點,端點。將數(shù)個 特征點組合起來,變成特征樣式(Character pattern),便可將筆劃間相對關系的特征值也 包含進來。于圖9中舉字體“話”的右半部“舌”為例,黑點部分表示“舌”的特征點。這些特 征點的集合,包含其間相對的關系,變形成一個特征樣式。若字體A所設置的特征樣式在字 體B上也可以找到,則可判斷體A與B為相同的字體。在經(jīng)過圖8的外觀匹配比對之后,所 得出的粗略重疊范圍,本發(fā)明將會再進一步進行更精確的特征匹配比對以確定二相鄰邊緣 化影像重疊的部分。利用特征樣式的比對,可以精確地判斷出字體重疊的部分,以準確地擷 取出相鄰邊緣化影像的重疊影像Pw,然后便可將重疊影像Pw移除以連結(jié)下一邊緣化影像, 而得出一連結(jié)影像。在實作上,若要讓此裝置有與掃描筆有類似的使用模式,我們會讓攝影 機再貼近物件表面運作即近拍模式,攝影機在近拍的情形下,周邊的影像容易有輕微的扭 曲現(xiàn)象,加上側(cè)面光線與物件表面的交互作用,這會造成相鄰的兩張影像雖然是從同一個 實際的物件上而來,理論上應該相同,但實際上會有些許的差異,因此兩張影像上的同一個 字體是不會百分之百的相同!且過多的特征點的計算與比對會影響整個系統(tǒng)的效能,因此 實際上我們是取合理數(shù)量的特征點形成的特征樣式做比對,然后取最小差異的位置來當作 吻合位置。因此外觀匹配的動作在此時不但有加速的功能,更能增加整體連接的精確度。請參考圖10。圖10為本發(fā)明將連續(xù)影像轉(zhuǎn)換成連續(xù)文字輸出的方法的流程圖。 步驟說明如下步驟1001 連續(xù)接收影像;步驟1002 將所接收的影像進行重點裁切;步驟1003 將經(jīng)過重點裁切后的影像進行邊緣化處理;步驟1004 將裁切后的一第一影像與一第二影像進行比對以移除該第一影像中
與該第二影像所重疊的影像,以產(chǎn)生一第三影像;
步驟1005 將第三影像與第二影像連結(jié),以輸出至光學文字辨識軟件來進行文字 辨識;步驟1006 輸出經(jīng)過光學文字辨識軟件辨識后的文字。于步驟1004中,第二影像為第一影像的下一影像。因此第二影像與第一影像必定 有重疊的部分。換句話說,本發(fā)明的假設為建立在兩連續(xù)影像有重疊的部分,以此方式才能 正確地進行后續(xù)連結(jié)與文字辨識的流程。于步驟1004中,影像比對經(jīng)由前述外觀比對與特征比對。然而外觀比對的步驟并 非為必須,其僅為加速后續(xù)特征比對的速度。也就是說,于步驟1004中,可僅執(zhí)行特征比 對,仍可得出精確的重疊影像,以于該第一影像中移除。此外,于本發(fā)明中所提及的攝影機,其可設置于可攜式電子裝置(如手機、筆記本 電腦等),如此可方便使用者利用本發(fā)明來進行對物體的掃描。綜上所述,利用本發(fā)明所提供的方法,使用者可單純利用攝影機進行錄像,經(jīng)過本 發(fā)明的處理后,便可輸出連續(xù)文字,以達成邊錄像邊輸出文字的功效,提供更大的便利性。以上所述僅為本發(fā)明的較佳實施例,凡依本發(fā)明權利要求書所做的均等變化與修 飾,皆應屬本發(fā)明的涵蓋范圍。
權利要求
一種以錄像方式輸出連續(xù)文字的方法,其特征在于包含從物體取得第一影像以及第二影像;比對上述第一影像與上述第二影像以取得上述第一影像與上述第二影像重疊的第三影像;將上述第三影像從上述第二影像中移除以產(chǎn)生第四影像;將上述第四影像與上述第一影像連結(jié)以產(chǎn)生第五影像;以及對上述第五影像進行光學文字辨識以輸出上述第五影像中的文字。
2.根據(jù)權利要求1所述的方法,其特征在于其中從上述物體取得上述第一影像以及上 述第二影像包含以攝影機,沿一方向,對上述物體進行錄像,以取得上述第一影像以及上述第二影像;其中上述第二影像為上述第一影像的下一影像。
3.根據(jù)權利要求2所述的方法,其特征在于其中比對上述第一影像與上述第二影像以 取得上述第一影像與上述第二影像重疊的上述第三影像包含從上述第一影像位于上述方向的部分與上述第二影像位于上述方向的反方向的部分 開始進行比對,直到找出上述第一影像與上述第二影像重疊的上述第三影像。
4.根據(jù)權利要求2所述的方法,其特征在于其中將上述第四影像與上述第一影像連結(jié) 以產(chǎn)生上述第五影像包含將上述第四影像位于上述方向的反方向的部分連結(jié)至上述第一影像位于上述方向的 部分。
5.根據(jù)權利要求3所述的方法,其特征在于其中比對上述第一影像與上述第二影像以 取得上述第一影像與上述第二影像重疊的上述第三影像另包含偵測上述第一影像與上述二影像中文字的特征以取得上述第一影像與上述第二影像 重疊的上述第三影像。
6.根據(jù)權利要求5所述的方法,其特征在于其中偵測上述第一影像與上述二影像中文 字的特征以取得上述第一影像與上述第二影像重疊的上述第三影像包含對上述第二影像中的文字尋找其特征樣式以在上述第一影像進行比對搜尋,以取得上 述第一影像與上述第二影像重疊的上述第三影像。
7.根據(jù)權利要求5所述的方法,其特征在于另包含偵測上述第一影像與上述二影像中文字的外觀以取得上述第一影像與上述第二影像 重疊的上述第三影像。
8.根據(jù)權利要求1所述的方法,其特征在于另包含將上述第一影像與上述第二影像進行重點裁切以降低上述第一影像與上述第二影像 的大小。
9.根據(jù)權利要求8所述的方法,其特征在于其中將上述第一影像與上述第二影像進行 重點裁切包含偵測上述第一影像與上述第二影像屬于非文字的部分;以及將上述第一影像與上述第二影像所偵測屬于非文字的部分裁切。
10.根據(jù)權利要求1所述的方法,其特征在于另包含將上述第一影像與上述第二影像進行邊緣化處理。
11.根據(jù)權利要求10所述的方法,其特征在于其中將上述第一影像與上述第二影像進 行邊緣化處理包含將上述第一影像與上述第二影像的像素的灰階數(shù)據(jù)進行如下式的轉(zhuǎn)換 Edge(P(i, j)) = Diff (P(i, j-1),P(i,j + l))+Diff (P(i + 1, j-1),P(i-1, j+l))+Diff(P(i+l, j),P(i,j-l))+Diff(P(i+l, j+l)),P(i-l,j-1));其中i、j、X、Y表示正整數(shù),Edge (P(i,j))表示像素P(i,j)經(jīng)過邊緣化處理后的灰階 數(shù)據(jù);其中 Diff (Px,PY) = abs [ (Px (G) -PY (R)) X (PY(G) -Px (B) X (Px (B) -PY(R))],且 abs 系為 絕對值函數(shù)、PX(G)表示像素X的綠色灰階值、Py(R)表示像素Y的紅色灰階值、Py(G)表示 像素Y的綠色灰階值、PX(B)表示像素X的藍色灰階值、Py(R)表示像素Y的紅色灰階值。
全文摘要
以錄像方式輸出連續(xù)文字的方法包含從該物體取得一第一影像以及一第二影像、比對該第一影像與該第二影像以取得該第一影像與該第二影像重疊的一第三影像、將該第三影像從該第一影像中移除以產(chǎn)生一第四影像、將該第四影像與該第二影像連結(jié)以產(chǎn)生一第五影像,以及對該第五影像進行光學文字辨識以輸出該第五影像中的文字。
文檔編號G06K9/20GK101873364SQ200910137719
公開日2010年10月27日 申請日期2009年4月27日 優(yōu)先權日2009年4月27日
發(fā)明者黃裕翔 申請人:華碩電腦股份有限公司