本發(fā)明涉及圖像數(shù)字化領(lǐng)域,特別是一種古籍文字?jǐn)?shù)字化錄入方法。
背景技術(shù):
傳統(tǒng)的文字圖像數(shù)字化,以古籍為例,先將古籍掃描成電子圖像,然后由錄入人員依照電子圖像內(nèi)容進(jìn)行文字錄入,最后對(duì)照原圖進(jìn)行排版,整理生成數(shù)字化文獻(xiàn),比如PDF文件,XML文件等。傳統(tǒng)的圖像數(shù)字化,存在一些弊端,錄入人員可以看到整張古籍圖像,信息安全度不高。駐廠人員進(jìn)行文字錄入,成本過高。對(duì)照原圖手工排版,效率低下。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供了一種可以提高圖像數(shù)字化信息安全度和效率的古籍文字?jǐn)?shù)字化錄入方法,本發(fā)明結(jié)合互聯(lián)網(wǎng)技術(shù)解決傳統(tǒng)數(shù)字化面臨的難題。
本發(fā)明的目的通過以下技術(shù)方案實(shí)現(xiàn)。
一種古籍文字?jǐn)?shù)字化錄入方法,步驟包括:
步驟1、對(duì)古籍進(jìn)行全文掃描,將掃描圖像碎片化,先用OCR定位文字區(qū)域,再識(shí)別出文字區(qū)域的行數(shù)和列數(shù),根據(jù)文字區(qū)域和行列數(shù),確定每個(gè)文字的單元格;利用OCR對(duì)圖像進(jìn)行切割,根據(jù)灰度值閾值,依次判定文字單元格內(nèi)像素點(diǎn)是否為有效像素點(diǎn),并統(tǒng)計(jì)文字單元格內(nèi)有效像素點(diǎn)數(shù)量,再根據(jù)文字像素點(diǎn)閾值,判定文字單元格內(nèi)是否為文字;所述文字單元格指文字所在的矩形塊;
步驟2、利用古籍字體數(shù)據(jù)庫對(duì)所述文字單元格進(jìn)行自動(dòng)識(shí)別,當(dāng)識(shí)別成功時(shí)則執(zhí)行步驟5,否則執(zhí)行步驟3;
步驟3、采用眾包模式針對(duì)未自動(dòng)識(shí)別成功的文字單元格在錄入平臺(tái)進(jìn)行錄入,并對(duì)錄入結(jié)果進(jìn)行比較,校檢:由兩名作業(yè)人員對(duì)同一文字單元格進(jìn)行錄入,比較兩名作業(yè)人員的錄入結(jié)果,當(dāng)錄入結(jié)果一致時(shí)執(zhí)行步驟4,否則由第三名作業(yè)人員進(jìn)行校驗(yàn)再執(zhí)行步驟4;
步驟4、完善古籍字體數(shù)據(jù)庫:根據(jù)古籍字體進(jìn)行分類,將所述文字單元格及其對(duì)應(yīng)的錄入結(jié)果存入古籍?dāng)?shù)據(jù)庫中,執(zhí)行步驟5;
步驟5、根據(jù)錄入結(jié)果和坐標(biāo),還原位置,生成PDF文件:
根據(jù)坐標(biāo),確定PDF上的單個(gè)文字矩形區(qū)域,將網(wǎng)上作業(yè)人員錄入的文字存入PDF相應(yīng)的位置;根據(jù)網(wǎng)上作業(yè)人員錄入的文字?jǐn)?shù)量,將圖像坐標(biāo)對(duì)應(yīng)的矩形區(qū)域,切割成同等數(shù)量的區(qū)域,并將文字放入對(duì)應(yīng)的位置。
進(jìn)一步的,所述的步驟1還包括以下內(nèi)容:
步驟1-1、根據(jù)文獻(xiàn)對(duì)比度,設(shè)定灰度值閾值,正文灰度值均值在0-150的文獻(xiàn),灰度值閾值設(shè)定在100-150,正文灰度值均值在150-255的文獻(xiàn),灰度值閾值設(shè)定在150-200;當(dāng)文獻(xiàn)的灰度值小于灰度值閾值時(shí),判定為有效像素點(diǎn);
步驟1-2、根據(jù)文字單元格大小,設(shè)定文字像素點(diǎn)閾值,設(shè)定公式為(w*h)/4*n2,四舍五入取整,其中w為文字單元格寬度,h為文字單元格高度,n為筆畫粗度均值;
步驟1-3、統(tǒng)計(jì)文字單元格內(nèi)有效像素點(diǎn)數(shù)量,當(dāng)數(shù)量大于文字像素點(diǎn)閾值時(shí),判定為有效文字;
步驟1-4、對(duì)于判定為有效文字的矩形塊進(jìn)行切割,并記錄文字坐標(biāo);使用了圖片裁剪工具類imgscalr,調(diào)用imgscalr提供的crop方法,根據(jù)坐標(biāo)裁剪矩形塊;
步驟1-5、完成全文圖像的碎片化。
進(jìn)一步的,所述的步驟3還包括以下內(nèi)容:
步驟3-1、作業(yè)人員的選擇:發(fā)布測(cè)試稿件,測(cè)試合格人員方可進(jìn)行作業(yè);
步驟3-2、作業(yè)人員作業(yè)質(zhì)量的控制:作業(yè)過程中會(huì)隨機(jī)抽檢作業(yè)人員的作業(yè)稿件,當(dāng)抽檢樣正確率低于95%時(shí),取消作業(yè)人員作業(yè)資格;作業(yè)完成后,系統(tǒng)會(huì)分析作業(yè)人員的正確率,低于95%時(shí),取消作業(yè)人員作業(yè)資格。
相比于現(xiàn)有技術(shù),本發(fā)明的優(yōu)點(diǎn)在于:本發(fā)明提高了圖像數(shù)字化信息安全度和效率,結(jié)合互聯(lián)網(wǎng)技術(shù)解決傳統(tǒng)數(shù)字化面臨的難題。將整張文獻(xiàn)圖片切割成一個(gè)個(gè)碎片, 因?yàn)槊總€(gè)作業(yè)人員只能看到圖像中的一個(gè)碎片塊,對(duì)于提高信息安全度重要性不言而喻,尤其是一些重要資料的錄入,如名片,銀行票據(jù)等,對(duì)信息安全度要求較高。根據(jù)古籍字體數(shù)據(jù)庫進(jìn)行自動(dòng)識(shí)別,避免了重復(fù)勞動(dòng),使得錄入過程更加智能化,根據(jù)坐標(biāo)自動(dòng)還原位置,生成PDF,效率較高,位置也比較精確,解決了手工排版效率低下的難題。切割成單字后,大大降低了作業(yè)人員的技能要求,又采用眾包模式,利用廣大網(wǎng)民在互聯(lián)網(wǎng)上進(jìn)行生產(chǎn)作業(yè),大大節(jié)省了生產(chǎn)成本的開支(人員、房租、交通,招聘、培訓(xùn),解聘等)。采用眾包模式,數(shù)以萬計(jì)的網(wǎng)民同時(shí)在線作業(yè),可以實(shí)現(xiàn)大規(guī)模的數(shù)字化生產(chǎn)。
附圖說明
圖1為本發(fā)明的古籍文字碎片化示意圖。
具體實(shí)施方式
下面結(jié)合說明書附圖和具體的實(shí)施例,對(duì)本發(fā)明作詳細(xì)描述。
一種古籍文字?jǐn)?shù)字化錄入方法,包括以下內(nèi)容,
步驟1、將圖像碎片化,利用OCR對(duì)圖像進(jìn)行切割,并記錄碎片坐標(biāo):
古籍字符間距較窄,文字內(nèi)容生僻,市面上流行的OCR軟件對(duì)古籍的識(shí)別度普遍較低。本發(fā)明采用的OCR算法,是在傳統(tǒng)OCR的基礎(chǔ)上結(jié)合空間閾值算法,只進(jìn)行切割,不進(jìn)行識(shí)別;先用OCR定位文字區(qū)域,再識(shí)別出文字區(qū)域的行數(shù)和列數(shù),根據(jù)文字區(qū)域和行列數(shù),確定每個(gè)文字的單元格;根據(jù)灰度值閾值,依次判定文字單元格內(nèi)像素點(diǎn)是否為有效像素點(diǎn),并統(tǒng)計(jì)文字單元格內(nèi)有效像素點(diǎn)數(shù)量,再根據(jù)文字像素點(diǎn)閾值,判定文字單元格內(nèi)是否為文字;文字單元格指文字所在的矩形塊。
步驟1-1、根據(jù)文獻(xiàn)對(duì)比度,設(shè)定灰度值閾值,有些文獻(xiàn)在掃描時(shí),存在反面文字透過來的情形,設(shè)定灰度閾值,就要是在保存正文的同時(shí),盡可能的過濾掉這些躁點(diǎn)。一般正文顏色較深的文獻(xiàn)(灰度值均值在0-150),灰度值閾值設(shè)定比較低,設(shè)定在100-150,正文顏色較淺的文獻(xiàn)(灰度值均值在150-255),設(shè)定在150-200;如圖1所示,像素點(diǎn)的灰度值閾值設(shè)置為150,當(dāng)文獻(xiàn)的灰度值小于灰度值閾值時(shí),判定為有效像素點(diǎn)。
步驟1-2、根據(jù)文字單元格大小,設(shè)定文字像素點(diǎn)閾值,設(shè)定公式為(w*h)/4*n2,四舍五入取整,其中w為文字單元格寬度,h為文字單元格高度,n為筆畫粗度均值。例如文字單元格寬度為80px,高度為60px,筆畫粗度均值為2px,則根據(jù)公式計(jì)算,設(shè)定文字像素點(diǎn)閾值為70。圖1所示,文字像素點(diǎn)閾值設(shè)定為50。
步驟1-3、統(tǒng)計(jì)文字單元格內(nèi)有效像素點(diǎn)數(shù)量,當(dāng)數(shù)量大于文字像素點(diǎn)閾值時(shí),判定為有效文字。
步驟1-4、對(duì)于判定為有效文字的矩形塊進(jìn)行切割,并記錄文字坐標(biāo)(文字所在矩形塊左上角橫坐標(biāo)、縱坐標(biāo),矩形框高度,寬度);這里使用了第三方圖片裁剪工具類imgscalr,調(diào)用imgscalr提供的crop方法,根據(jù)坐標(biāo)裁剪矩形塊。
步驟1-5、如圖1所示,這樣文字圖像被切割成一張張文字圖像碎片。
步驟2、利用古籍字體數(shù)據(jù)庫對(duì)所述文字單元格進(jìn)行自動(dòng)識(shí)別,當(dāng)識(shí)別成功時(shí)則執(zhí)行步驟5,否則執(zhí)行步驟3;
步驟3、采用眾包模式針對(duì)未自動(dòng)識(shí)別成功的文字單元格在錄入平臺(tái)進(jìn)行錄入,并對(duì)錄入結(jié)果進(jìn)行比較,校檢:由兩名作業(yè)人員對(duì)同一文字單元格進(jìn)行錄入,比較兩名作業(yè)人員的錄入結(jié)果,當(dāng)錄入結(jié)果一致時(shí)執(zhí)行步驟4,否則由第三名作業(yè)人員進(jìn)行校驗(yàn)再執(zhí)行步驟4;
步驟3-1、作業(yè)人員的選擇,發(fā)布測(cè)試稿件,測(cè)試合格人員方可進(jìn)行作業(yè)。
步驟3-2、作業(yè)人員作業(yè)質(zhì)量的控制,作業(yè)過程中會(huì)隨機(jī)抽檢作業(yè)人員的作業(yè)稿件,當(dāng)抽檢樣正確率低于95%時(shí),取消作業(yè)人員作業(yè)資格。作業(yè)完成后,系統(tǒng)會(huì)分析作業(yè)人員的正確率,低于95%時(shí),取消作業(yè)人員作業(yè)資格。
步驟4、完善古籍字體數(shù)據(jù)庫:根據(jù)古籍字體進(jìn)行分類,將所述文字單元格及其對(duì)應(yīng)的錄入結(jié)果存入古籍?dāng)?shù)據(jù)庫中,執(zhí)行步驟5;
步驟5、根據(jù)錄入結(jié)果和坐標(biāo),還原位置,生成PDF文件:根據(jù)坐標(biāo),確定PDF上的單個(gè)文字矩形區(qū)域,將網(wǎng)上作業(yè)人員錄入的文字存入PDF相應(yīng)的位置;根據(jù)網(wǎng)上作業(yè)人員錄入的文字?jǐn)?shù)量,將圖像坐標(biāo)對(duì)應(yīng)的矩形區(qū)域,切割成同等數(shù)量的區(qū)域,并將文字放入對(duì)應(yīng)的位置。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不限制于本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。