欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種版式文件中識別科學(xué)公式的方法

文檔序號:8431177閱讀:445來源:國知局
一種版式文件中識別科學(xué)公式的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文件處理技術(shù)領(lǐng)域,尤其涉及一種基于組合特征動態(tài)加權(quán)的版式文件 中識別科學(xué)公式的方法。
【背景技術(shù)】
[0002] 伴隨著科學(xué)技術(shù)的飛速發(fā)展,版式文件在各個學(xué)科及各種生活、生產(chǎn)領(lǐng)域總均有 廣泛應(yīng)用,且數(shù)量巨大??茖W(xué)公式作為一種特殊的信息載體,亦廣泛存在于版式文件中。
[0003] 在電子版式文件中,公式的存儲格式主要分為文字型公式、圖片型公式和文字圖 片混合型公式三類。其中,文字型公式是指以字符格式存儲和顯示的公式;圖片型公式是 指以圖像格式存儲和顯示的公式;文字圖片混合型公式是指公式的一部分以圖像格式存 儲,另一部分以字符格式存儲的公式。在本次統(tǒng)計分析選取的679種電子版自然科學(xué)期刊 中,每種期刊選取一本樣張進(jìn)行統(tǒng)計分析的情況下,按期刊所含公式情況進(jìn)行統(tǒng)計,其中 含有文字型公式的期刊所占比例為60. 8%,僅含有圖片型公式的期刊所占比例為1%,僅 含有文字圖片混合型公式的期刊所占比例為〇. 1%,既有文字型公式又有圖片型公式的期 刊所占比例為11%,三類公式都有的期刊所占比例為0. 4%,而不含有公式的期刊比例為 26. 5%。因此,本領(lǐng)域的技術(shù)人員需要發(fā)展一種對版式文件中的科學(xué)公式進(jìn)行識別的方法。
[0004] 對所選取的樣本進(jìn)行統(tǒng)計,同樣可以發(fā)現(xiàn),期刊中文字型的公式最少由一個到最 多含有1467個,平均每本所選期刊樣本中含有的文字型公式的數(shù)量為128個。而含有圖片 型公式的期刊中,公式含有數(shù)目為1到247個,平均每本所選期刊樣本中含有的文字型公式 的數(shù)量為46個;混合型公式,在平均每本所選期刊樣本中平均含量僅為1個。可見,文字型 公式相對于其他兩種形式的公式,在版式文件中的含有量比例最高,分布最多。因此,對版 式文件中的文字型公式的研宄的重要性可見一斑。
[0005] 目前針對公式識別,主要集中在印刷體數(shù)學(xué)公式識別及手寫數(shù)學(xué)公式識別。針對 版式文件的研宄,主要集中在版式文件中表格識別以及空格識別的方法,并沒有版式文件 中公式識別的相關(guān)方法。

【發(fā)明內(nèi)容】

[0006] 為解決上述技術(shù)問題,本發(fā)明的目的是提供一種版式文件中識別科學(xué)公式的方 法。
[0007] 本發(fā)明的目的通過以下的技術(shù)方案來實現(xiàn):
[0008] -種版式文件中識別科學(xué)公式的方法,包括:
[0009] 遍歷版式文件提取的字符流信息,對提取的字符流信息進(jìn)行預(yù)處理;
[0010] 對預(yù)處理后的字符流通過版面分析算法生成文件版面;
[0011] 提取版面空間布局特征及內(nèi)容特征作為組合特征;
[0012] 根據(jù)空間布局特征及內(nèi)容特征,使用基于組合特征動態(tài)加權(quán)的分類算法進(jìn)行科學(xué) 公式定位和提??;
[0013] 對多行公式進(jìn)行合并后處理。
[0014] 與現(xiàn)有技術(shù)相比,本發(fā)明的一個或多個實施例可以具有如下優(yōu)點:
[0015] 能夠從多種版面的版式文件中提取并識別科學(xué)公式,為版面文件中科學(xué)公式的提 取與識別奠定了基礎(chǔ)。
【附圖說明】
[0016] 圖1是版式文件中識別科學(xué)公式的方法流程圖;
[0017] 圖2是按期刊中含有科學(xué)公式情況進(jìn)行統(tǒng)計的比例餅圖。
【具體實施方式】
[0018] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合實施例及附圖對本發(fā) 明作進(jìn)一步詳細(xì)的描述。
[0019] 如圖1所示,是版式文件中識別科學(xué)公式的方法流程,包括:
[0020] 步驟101遍歷版式文件提取的字符流信息,對字符流進(jìn)行基于內(nèi)容的預(yù)處理。
[0021] 對提取的字符流信息進(jìn)行預(yù)處理,包括冗余的空格及對分欄等版面分析合并造成 影響的多余字符。在這里,使用基于內(nèi)容的方法,去除冗余字符;并設(shè)計結(jié)構(gòu)樹,用來存儲每 個字符的編碼信息,坐標(biāo)信息,以及字號信息。
[0022] 步驟102對處理后的字符流通過版面分析算法生成文件版面。
[0023] 版面分析算法使用了兩次垂直投影算法,以進(jìn)行簡單分欄及復(fù)雜版面分欄;然后 對當(dāng)前版面中字符進(jìn)行行合并;最后使用過分行合并的行分割算法,進(jìn)行行調(diào)整。
[0024] 具體的,合并算法如下:
[0025] 采用基于字符位置信息的方法,遍歷頁面中所有字符,對滿足條件的兩個字符進(jìn) 行合并。
[0026] 具體的,過分行合并的行分割算法:
[0027] 設(shè)LS為該頁面的左起始位置,Is代表當(dāng)前行的起始位置,H代表該頁面平均行高, h代表當(dāng)前行的高度,F(xiàn)ontEv代表當(dāng)前頁面的標(biāo)準(zhǔn)字號,T代表當(dāng)前行的最小縱坐標(biāo),B代 表當(dāng)前行的最大縱坐標(biāo):
[0028] 第一步,若h>?H,ls> =LS,ls〈 =LS+0FontEv,其中《,0代表閾值,則進(jìn)入第 二步,否則取下一行;
[0029] 第二步,設(shè)置標(biāo)志數(shù)組flage,大小為B-T+1,采用水平方向字投影算法,若存在 對flage存在:
[0030]
【主權(quán)項】
1. 一種版式文件中識別科學(xué)公式的方法,其特征在于,所述方法包括: 遍歷版式文件提取的字符流信息,對提取的字符流信息進(jìn)行預(yù)處理; 對預(yù)處理后的字符流通過版面分析算法生成文件版面; 提取版面空間布局特征及內(nèi)容特征作為組合特征; 根據(jù)空間布局特征及內(nèi)容特征,使用基于組合特征動態(tài)加權(quán)的分類算法進(jìn)行科學(xué)公式 定位和提取; 對多行公式進(jìn)行合并后處理。
2. 如權(quán)利要求1所述的版式文件中識別科學(xué)公式的方法,其特征在于,所述對提取的 字符流信息進(jìn)行預(yù)處理是采用基于內(nèi)容的方法濾除對分欄及版面分析合并造成影響的多 余字符。
3. 如權(quán)利要求1所述的版式文件中識別科學(xué)公式的方法,其特征在于,所述版面分析 算法使用兩次垂直投影算法,以進(jìn)行簡單分欄及復(fù)雜版面分欄。
4. 如權(quán)利要求1所述的版式文件中識別科學(xué)公式的方法,其特征在于,所述多行公式 采用基于字符位置信息的方法進(jìn)行合并,然后通過使用分行合并的行分割算法,進(jìn)行調(diào)整。
5. 如權(quán)利要求1所述的版式文件中識別科學(xué)公式的方法,其特征在于,所述生成文件 版面的內(nèi)容特征之前,還包括:查找統(tǒng)計科學(xué)公式中關(guān)系操作符合運算操作符種類和個數(shù), 建立操作符匹配表。
6. 如權(quán)利要求1所述的版式文件中識別科學(xué)公式的方法,其特征在于, 所述版面空間布局特征為:字符密度、字號方差、行基準(zhǔn)線方差、當(dāng)前行與平均行高的 比例、當(dāng)前行中心、當(dāng)前行與頁面左空白、當(dāng)前行與頁面右空白、頁面中心及當(dāng)前行所占頁 面中行位置; 所述內(nèi)容特征為:含有二目操作符合關(guān)系操作符的比例、中文字符比例和英文字符比 例。
【專利摘要】本發(fā)明公開了一種版式文件中識別科學(xué)公式的方法,所述方法包括:遍歷版式文件提取的字符流信息,對提取的字符流信息進(jìn)行預(yù)處理;對預(yù)處理后的字符流通過版面分析算法生成文件版面;提取版面空間布局特征及內(nèi)容特征作為組合特征;根據(jù)空間布局特征及內(nèi)容特征,使用基于組合特征動態(tài)加權(quán)的分類算法進(jìn)行科學(xué)公式定位和提??;對多行公式進(jìn)行合并后處理。本發(fā)明能夠快速精確的識別版式文件中的科學(xué)公式。
【IPC分類】G06K9-00, G06K9-20
【公開號】CN104751148
【申請?zhí)枴緾N201510181354
【發(fā)明人】薛蓓, 鄒季英, 袁仁慧
【申請人】同方知網(wǎng)數(shù)字出版技術(shù)股份有限公司, 同方知網(wǎng)(北京)技術(shù)有限公司
【公開日】2015年7月1日
【申請日】2015年4月16日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
资源县| 来宾市| 德江县| 华亭县| 平江县| 遂宁市| 靖远县| 都昌县| 汤阴县| 廊坊市| 蛟河市| 郧西县| 汕尾市| 贵南县| 兰坪| 七台河市| 泸溪县| 于都县| 广宁县| 山阴县| 泗阳县| 太白县| 自贡市| 兴城市| 兴安县| 尚义县| 新野县| 托克托县| 荆门市| 盘锦市| 丹阳市| 江川县| 蓬安县| 泽州县| 龙山县| 涟水县| 太白县| 拉萨市| 中西区| 大方县| 苏尼特右旗|