欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于跳轉(zhuǎn)處理及雙重校驗(yàn)的多篇電子文檔分篇算法的制作方法

文檔序號:12034571閱讀:147來源:國知局
一種基于跳轉(zhuǎn)處理及雙重校驗(yàn)的多篇電子文檔分篇算法的制作方法與工藝

本發(fā)明新型涉及基于跳轉(zhuǎn)處理及篇名雙重校驗(yàn)的多篇電子文檔分篇方法技術(shù)領(lǐng)域,具體為一種基于跳轉(zhuǎn)處理及篇名雙重校驗(yàn)的多篇電子文檔分篇方法。



背景技術(shù):

伴隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的發(fā)展,如何根據(jù)用戶多元的需求制作出多元化的數(shù)字產(chǎn)品已經(jīng)是當(dāng)前行業(yè)面臨的主要問題,實(shí)現(xiàn)產(chǎn)品的多元化加工,必然要求前期的數(shù)據(jù)加工的規(guī)范化,碎片化,多篇文章的電子文檔是數(shù)字出版行業(yè)需要處理一大類數(shù)據(jù),實(shí)現(xiàn)此種電子文檔的分篇是實(shí)現(xiàn)這種數(shù)據(jù)碎片化的基礎(chǔ),因此,對于此類文章的準(zhǔn)確分篇有著十分重要的意義,現(xiàn)有技術(shù)中,專利cn101673256a公布的“一種基于文字流的文章元數(shù)據(jù)自動抽取方法及系統(tǒng)”提出利用規(guī)則模板提取文章元數(shù)據(jù)方法,處理文章內(nèi)部元數(shù)據(jù),不能處理處理多篇文章電子文檔,專利cn102375808a公布“一種文檔篇名提取方法和裝置”利用預(yù)先設(shè)置的關(guān)鍵詞及長度限制提取文檔篇名,不能實(shí)現(xiàn)自動提取文章篇名并且對于沒有明顯關(guān)鍵詞的篇名不具有適用性,專利cn101206639a公布“一種基于pdf的復(fù)雜版面的標(biāo)引方法”提出針對報(bào)刊的文字塊的生成和合并規(guī)則和整個提取內(nèi)容和位置等信息的流程,簡單根據(jù)文字塊的屬性判定文章,側(cè)重電子文檔的基礎(chǔ)信息提取,并沒有對分篇提出完整有效方案,專利cn200410091432.4公布的“一種對報(bào)紙版面進(jìn)行篇名與正文邏輯關(guān)聯(lián)的方法”利用語義的關(guān)聯(lián)處理報(bào)刊的篇名與正文的匹配,屬于語義識別范圍,需要詞庫的支持,實(shí)現(xiàn)比較復(fù)雜。

發(fā)明新型內(nèi)容

本發(fā)明新型的目的在于提供一種基于跳轉(zhuǎn)處理及篇名雙重校驗(yàn)的多篇電子文檔分篇方法,以解決上述背景技術(shù)中提出的問題。

為實(shí)現(xiàn)上述目的,本發(fā)明新型提供如下技術(shù)方案:一種基于跳轉(zhuǎn)處理及篇名雙重校驗(yàn)的多篇電子文檔分篇方法,包括以下步驟:

步驟一:篇名標(biāo)引特征提取及特征組合,根據(jù)多篇電子文檔的文章字體字號、空間位置、語種屬性等,提取篇名特征,并將這些特征不同權(quán)重組合,形成篇名判定函數(shù)、判定函數(shù)中,判定函數(shù)的表示如下,(text.english=0)&&(height>=(textheight*1.5))&&(text.length>th1)&&((x2-x1)>th2)&&(((leftspace>th3)+(rightspace>th3)+(topspace>(textrowspace*1.5))+(bottomspace>(textrowspace*1.5))+(align&1)+(height>=(textheight*1.8))+(y1<(pageheight/3))+(font=maxfontofpage))>=th4),判定函數(shù)中,使用了語種,字體高度,字符長度,文本寬度,行左間距,行右間距,上下行距,居中居左居右屬性,文本位置屬性等九種特征組合,上述偽代碼中,text表示輸入行字符串內(nèi)容,english表示文本的英文屬性,height表示文本行的高度,textheight為統(tǒng)計(jì)文檔獲得的文檔的平均行高,x1,x2,y1,y2分別表示文本行塊的左右上下位置坐標(biāo),leftspace,rightspace,topspace,bottomspace分別表示文本行的左右上下間距,textrowspace表示文檔的平均行間距,align表示文本行的居中居左或居右屬性,font表示文本行字體高度,maxfontofpage表示統(tǒng)計(jì)獲得的文檔最大字體高度,上述表達(dá)式中+表示屬性的疊加,表示文本行滿足上述表達(dá)式中th4個即可判讀為篇名,該種判別函數(shù)融合多種篇名特征,具有較大的適應(yīng)性。

步驟二:根據(jù)特征組合提取文檔的文章篇名(即文章的起始位置),對輸入的電子文檔的含字體信息位置信息的字符流進(jìn)行合并行預(yù)處理,獲得以行為單位的文字塊,并統(tǒng)計(jì)單位塊的行特征(行高,行字體,語種屬性等),根據(jù)特征組合形成的篇名判定函數(shù)搜索判定函數(shù)值為真的文本行串,提取文檔的文章篇名(即文章的起始位置),對于輸入的字符流進(jìn)行行合并,根據(jù)字符流 順序,判斷水平方向位置交叉且字體高度相差小于閾值的字符合并為一行,即(min(bt1,bt2)-max(tp1,tp2))>th1&&(lf1-lf2)<th2&&(font1-font2<th3,其中bt、bt2、tp1、tp2、lf1、lf2、font1和font2分別為輸入兩個字符的下,上,左位置及字體高度,th1、th2和th3分別為兩個字水平交叉閾值,左右距離閾值,字體高度差距閾值,閾值根據(jù)統(tǒng)計(jì)獲得文檔平均行高,字體高度給出,獲得合并行后,統(tǒng)計(jì)并記錄行的高度、字體、語種和位置等特征,根據(jù)電子文檔頁眉頁腳在多頁上具有相似性的特征,在文檔多個頁面的頁眉頁腳候選區(qū)域搜索相似內(nèi)容,確定頁眉頁腳與正文的分割位置,頁眉(頁腳)搜索方法的具體實(shí)現(xiàn)步驟為,step1.搜索間隔步長t1=1,搜索起始頁p為頁碼范圍內(nèi)某常數(shù),step2.設(shè)起始頁增值i=0,step3.后續(xù)搜索頁間隔數(shù)n=1,step4.設(shè)起始頁pi=p+i,i=0、3、6......24,當(dāng)前搜索頁p2為p2=p1+n*t1,step5在頁p1,p2的頁眉(頁腳)候選區(qū),搜索位置與內(nèi)容相似的文本塊,若未找到,則i=i+1,跳轉(zhuǎn)至step6,若找到,則令n=n+1,跳轉(zhuǎn)至step4,step6.如果n<3,返回step4繼續(xù)執(zhí)行,否則跳轉(zhuǎn)至step9,step7.如果i<10,令i=i+1返回step3,否則跳轉(zhuǎn)至step8,step8.如果t1<4,令t1=t1+1,返回step2,否則跳轉(zhuǎn)至step10,step9.找到頁眉(頁腳)內(nèi)容,將存儲的文本塊合并獲得頁眉底部位置(頁腳頂部位置)為頁眉(頁腳)與正文的分割位置,設(shè)置有效的頁眉(頁腳)位置,step10.未找到頁眉(頁腳)區(qū),將頁眉(頁腳)位置設(shè)為無效值,此頁眉頁腳搜索方法通過變步長多頁搜索,能兼容奇偶頁頁眉頁腳排版不同,文章首頁頁眉頁腳排版不同的情況,具有較大的穩(wěn)定性及適應(yīng)性,在獲得文檔行及行屬性后,依據(jù)步驟一中給出判定函數(shù),搜索符合判定函數(shù)的正文行(頁眉頁腳行除外),判定為文章的篇名。

步驟三:基于印刷頁碼提示和基于分割線提示的跳轉(zhuǎn)內(nèi)容檢索及處理,跳轉(zhuǎn)是指為了排版的美觀及版面的合理利用,將部分文章的尾部內(nèi)容排版在其 他文章后面,本發(fā)明中將有跳轉(zhuǎn)內(nèi)容文章的連續(xù)排版的末尾處稱為跳轉(zhuǎn)位置,將跳轉(zhuǎn)內(nèi)容起始處稱為接續(xù)位置,根據(jù)文檔跳轉(zhuǎn)一般分為印刷頁碼提示跳轉(zhuǎn)和基于分割線提示的跳轉(zhuǎn)兩種情況處理。

步驟四:文章終止位置的確定,獲得文章篇名和處理完跳轉(zhuǎn)內(nèi)容后,判定文章終止位置及文章頁碼范圍,文章終止位置依據(jù)文章內(nèi)容完結(jié)處有較大空白行或者空頁或者跳轉(zhuǎn)內(nèi)容結(jié)束位置確定,本方法統(tǒng)計(jì)標(biāo)引出篇名的居頂屬性,對于文章居頂?shù)奈臋n,當(dāng)前文章結(jié)束位置為下一文章篇名的前一頁,非居頂文章則根據(jù)下一篇文章篇名及其前的空白位置確定。

步驟五:文章要素項(xiàng)數(shù)據(jù)提取,根據(jù)文章元素內(nèi)容驗(yàn)證文章有效性及再標(biāo)引,確定文章起止范圍后,在文章內(nèi)部提取文章要素項(xiàng)數(shù)據(jù),文章要素項(xiàng)包括作者和機(jī)構(gòu)、摘要、關(guān)鍵詞和參考文獻(xiàn)等,根據(jù)視覺特征和內(nèi)容關(guān)鍵詞特征相結(jié)合的原則,提取每篇文章的要素項(xiàng),獲得文章要素項(xiàng)后,根據(jù)以下規(guī)則判定當(dāng)前文章的有效性,((abstract+keyword+clcnum+doccode+fund+authorinfo)>=th1)||((title.height>textheight*1.75)&&((title.leftspace>th2)&&(title.rightspace>th3)&&title.topspace>(textrowspace*1.5))&&(title.bottomspace>(textrowspace*1.5))&&(title.align&1),上述特征組合的字符含義同步驟一中,表達(dá)式文章有效性判斷規(guī)則為,有效文章需滿足超過閾值個要素項(xiàng)或者滿足典型篇名的視覺特征(行高,居中,左右上下行間距特征等),若判為無效文章則刪除此文章,并返回步驟三重新處理其前篇文章;

步驟六:文章目錄鏈接及基于目錄鏈接置文章置信度,文章目錄鏈接及基于目錄的有效性驗(yàn)證及再標(biāo)引,目錄是文章的提綱,含有文章的篇名及頁碼范圍信息,本發(fā)明將文檔前后的非文章頁碼區(qū)域設(shè)置為頁碼候選區(qū),根據(jù)已經(jīng)獲得文章篇名,依次在每個目錄區(qū)候選頁上匹配文章篇名,并統(tǒng)計(jì)匹配上的篇名個數(shù),如果超過個數(shù)閾值,則將此頁加入到目錄區(qū),依次搜索獲得 所有目錄頁,獲得所有目錄頁后,首先分析目錄頁目錄條目排版版式,通過統(tǒng)計(jì)目錄條目標(biāo)識符及數(shù)字排版特征,并處理目錄折行情況,確定目錄版式,根據(jù)版式解析目錄條目,以文章篇名順序,依次以相似度遞減方式匹配目錄條目,獲得相似度最高的目錄條目作為文章篇名的鏈接,如果相似度低于閾值,則當(dāng)前文章未找到目錄鏈接,統(tǒng)計(jì)整體目錄鏈接正確率,如果正確率高于一定閾值,則此目錄鏈接可作為判定分篇置信度的依據(jù),利用目錄條目頁碼檢查分篇情況,并設(shè)置對應(yīng)文章的置信度,獲得文章篇名的目錄鏈接后,統(tǒng)計(jì)整體鏈接正確率,如果鏈接正確率超過一定閾值,鏈接可信度較高,根據(jù)鏈接目錄條目對應(yīng)的提示頁碼檢查文章頁碼范圍,并給文章設(shè)置相應(yīng)置信度,本算法中暫將置信度分為三個等級,第一級,文章目錄鏈接沒有鏈上,此級為可信度較低文章,需要重點(diǎn)檢查文章分篇及頁碼情況,第二級,文章目錄鏈接鏈上,但是目錄頁碼與分篇獲得頁碼不一致,此級為中間置信度,需要檢查頁碼情況,第三級,文章目錄鏈接鏈上,并且目錄頁碼與分篇獲得頁碼一致,此級置信度可以確定此文章分篇正確。

優(yōu)選的,在步驟二中,對于輸入的字符流進(jìn)行行合并,根據(jù)字符流順序,判斷水平方向位置交叉且字體高度相差小于閾值的字符合并為一行,獲得合并行后,統(tǒng)計(jì)并記錄行的高度,字體,語種,位置等特征,然后,根據(jù)電子文檔頁眉頁腳在多頁上具有相似性的特征,在文檔多個頁面的頁眉頁腳候選區(qū)域搜索相似內(nèi)容,確定頁眉頁腳與正文的分割位置,在獲得文檔行及行屬性后,依據(jù)步驟一中給出判定函數(shù),搜索符合判定函數(shù)的正文行(頁眉頁腳行除外),判定為文章的篇名。

優(yōu)選的,在步驟三中,印刷頁碼提示即,文章跳轉(zhuǎn)位置和接續(xù)位置均有印刷頁碼提示,處理此種情況的跳轉(zhuǎn)首先需要獲得文檔的印刷頁碼,本發(fā)明根據(jù)印刷頁碼在多頁間的連續(xù)遞增性及位置的相似性,在文本行中,首先在多個頁面獲得數(shù)字行,然后通過匹配數(shù)字行數(shù)字的連續(xù)性及位置的相似性, 搜索獲得文章的印刷頁碼,獲得印刷頁碼后搜索跳轉(zhuǎn)提示,文檔的跳轉(zhuǎn)提示一般形式比較固定,通過正則表達(dá)式匹配,找到跳轉(zhuǎn)提示行,獲得提示印刷頁碼,跳轉(zhuǎn)到所指示的印刷頁碼,同樣搜索接續(xù)提示,搜索獲得接續(xù)提示后,處理跳轉(zhuǎn),處理跳轉(zhuǎn)實(shí)現(xiàn)跳轉(zhuǎn)內(nèi)容的“邏輯搬移”,將接續(xù)內(nèi)容所屬的頁面調(diào)整到提示跳轉(zhuǎn)的位置。

優(yōu)選的,在步驟三中,基于分割線的跳轉(zhuǎn)即,當(dāng)前文章的內(nèi)容73排版在下一篇文章首頁的下部,并用分割線提示,分割線一般分為兩種,直線和花紋線,根據(jù)pdf取詞特點(diǎn),直線一般按直線圖形元素取出,花紋線按文字元素取出,被解析為一行相同的字符,對應(yīng)分割線的提取,根據(jù)分割線一般在下篇文章首頁的規(guī)則,獲得文章篇名后,通過在文章篇名頁搜索直線獲得分割線,直線分割線通過讀取pdf直線元素讀取,花紋線則通過搜索同行相同字符及位置確定,確定分割線后將分割線下內(nèi)容“邏輯搬移”至跳轉(zhuǎn)處,完成跳轉(zhuǎn)處理。

優(yōu)選的,在步驟三中,邏輯搬移是指將接續(xù)內(nèi)容所在行的物理頁碼標(biāo)為跳轉(zhuǎn)位置所在頁頁碼,接續(xù)內(nèi)容的跳轉(zhuǎn)頁屬性設(shè)置為接續(xù)位置所在頁頁碼(其所在的物理頁碼),并調(diào)整接續(xù)內(nèi)容行在行鏈表中的位置,接續(xù)到跳轉(zhuǎn)位置,跳轉(zhuǎn)內(nèi)容還有不跨頁規(guī)則,即跳轉(zhuǎn)內(nèi)容從接續(xù)位置開始到接續(xù)位置所在頁結(jié)束為止,此規(guī)則用于確定跳轉(zhuǎn)內(nèi)容的終止及文章終止位置。

與現(xiàn)有技術(shù)相比,本發(fā)明新型的有益效果是:該發(fā)明篇名搜索步驟采用基于特征的組合,該判斷函數(shù)融合篇名多元特征,具有較為廣泛的適應(yīng)性,文章跳轉(zhuǎn)內(nèi)容的處理使得文章分篇克服跳轉(zhuǎn)這種特殊排版,獲得準(zhǔn)確的分篇效果,該方法中采用文章有效要素項(xiàng)數(shù)據(jù)校驗(yàn)及目錄鏈接校驗(yàn),有效降低文章篇名錯識率,從而提升了分篇準(zhǔn)確率,并且通過置信度評判分篇的準(zhǔn)確性,便于后續(xù)檢查,該方法通過頁眉頁腳搜索方法,有效定位頁眉頁腳位置,使得分篇不受頁眉頁腳內(nèi)容干擾,較大提升了分篇準(zhǔn)確率。

附圖說明

圖1為本發(fā)明的分篇方法流程圖;

圖2為本發(fā)明的跳轉(zhuǎn)內(nèi)容分類處理流程圖;

圖3為本發(fā)明的目錄鏈接實(shí)現(xiàn)流程圖;

圖4為本發(fā)明的分篇文章及文章頁碼范圍圖;

圖5為本發(fā)明的跳轉(zhuǎn)提示與接續(xù)提示位置示例圖;

圖6為本發(fā)明的文章列表與對應(yīng)目錄鏈接圖;

圖7為本發(fā)明的分割線提示跳轉(zhuǎn)示例圖。

圖中:s11標(biāo)題特征組合函數(shù)提取、s12搜索標(biāo)題、s13跳轉(zhuǎn)內(nèi)容處、s14文章終止內(nèi)容獲得、s15是否有效文章、s16目錄鏈接及文章置信度設(shè)置、s21印刷頁頁碼提示跳轉(zhuǎn)提示搜索、s22分割線識別和濾除干擾線、s23跳轉(zhuǎn)內(nèi)容搬移處理、s31獲得所以目錄頁范圍、s32分析目錄頁目錄排版樣式解析目錄條目并對標(biāo)題進(jìn)行鏈接、s33根據(jù)鏈接情況設(shè)置每篇文章的置信度、s41文章的物理頁碼范圍、s42文章的印刷頁碼范圍、s43文章篇名列、s51跳轉(zhuǎn)位置提示、s52跳轉(zhuǎn)接續(xù)位置提示、s61文章目錄鏈接上、s62文章目錄鏈接不上、71分割線提示跳轉(zhuǎn)、s72下一篇文章首頁內(nèi)容、s73當(dāng)前文章的內(nèi)容。

具體實(shí)施方式

下面將結(jié)合本發(fā)明新型實(shí)施例中的附圖,對本發(fā)明新型實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明新型一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明新型中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明新型保護(hù)的范圍。

請參閱圖1-7,實(shí)施例

一種基于跳轉(zhuǎn)處理及篇名雙重校驗(yàn)的多篇電子文檔分篇方法,包括以下步驟:

步驟一:篇名標(biāo)引特征提取及特征組合,根據(jù)多篇電子文檔的文章字體字號、空間位置、語種屬性等,提取篇名特征,并將這些特征不同權(quán)重組合,形成篇名判定函數(shù)、判定函數(shù)中,判定函數(shù)的表示如下,(text.english=0)&&(height>=(textheight*1.5))&&(text.length>th1)&&((x2-x1)>th2)&&(((leftspace>th3)+(rightspace>th3)+(topspace>(textrowspace*1.5))+(bottomspace>(textrowspace*1.5))+(align&1)+(height>=(textheight*1.8))+(y1<(pageheight/3))+(font=maxfontofpage))>=th4),判定函數(shù)中,使用了語種,字體高度,字符長度,文本寬度,行左間距,行右間距,上下行距,居中居左居右屬性,文本位置屬性等九種特征組合,上述偽代碼中,text表示輸入行字符串內(nèi)容,english表示文本的英文屬性,height表示文本行的高度,textheight為統(tǒng)計(jì)文檔獲得的文檔的平均行高,x1,x2,y1,y2分別表示文本行塊的左右上下位置坐標(biāo),leftspace,rightspace,topspace,bottomspace分別表示文本行的左右上下間距,textrowspace表示文檔的平均行間距,align表示文本行的居中居左或居右屬性,font表示文本行字體高度,maxfontofpage表示統(tǒng)計(jì)獲得的文檔最大字體高度,上述表達(dá)式中+表示屬性的疊加,表示文本行滿足上述表達(dá)式中th4個即可判讀為篇名,該種判別函數(shù)融合多種篇名特征,具有較大的適應(yīng)性。

步驟二:根據(jù)特征組合提取文檔的文章篇名(即文章的起始位置),對輸入的電子文檔的含字體信息位置信息的字符流進(jìn)行合并行預(yù)處理,獲得以行為單位的文字塊,并統(tǒng)計(jì)單位塊的行特征(行高,行字體,語種屬性等),根據(jù)特征組合形成的篇名判定函數(shù)搜索判定函數(shù)值為真的文本行串,提取文檔的文章篇名(即文章的起始位置),對于輸入的字符流進(jìn)行行合并,根據(jù)字符流順序,判斷水平方向位置交叉且字體高度相差小于閾值的字符合并為一行,即(min(bt1,bt2)-max(tp1,tp2))>th1&&(lf1-lf2)<th2&&(font1-font2<th3, 其中bt、bt2、tp1、tp2、lf1、lf2、font1和font2分別為輸入兩個字符的下,上,左位置及字體高度,th1、th2和th3分別為兩個字水平交叉閾值,左右距離閾值,字體高度差距閾值,閾值根據(jù)統(tǒng)計(jì)獲得文檔平均行高,字體高度給出,獲得合并行后,統(tǒng)計(jì)并記錄行的高度、字體、語種和位置等特征,根據(jù)電子文檔頁眉頁腳在多頁上具有相似性的特征,在文檔多個頁面的頁眉頁腳候選區(qū)域搜索相似內(nèi)容,確定頁眉頁腳與正文的分割位置,頁眉(頁腳)搜索方法的具體實(shí)現(xiàn)步驟為,step1.搜索間隔步長t1=1,搜索起始頁p為頁碼范圍內(nèi)某常數(shù),step2.設(shè)起始頁增值i=0,step3.后續(xù)搜索頁間隔數(shù)n=1,step4.設(shè)起始頁pi=p+i,i=0、3、6......24,當(dāng)前搜索頁p2為p2=p1+n*t1,step5在頁p1,p2的頁眉(頁腳)候選區(qū),搜索位置與內(nèi)容相似的文本塊,若未找到,則i=i+1,跳轉(zhuǎn)至step6,若找到,則令n=n+1,跳轉(zhuǎn)至step4,step6.如果n<3,返回step4繼續(xù)執(zhí)行,否則跳轉(zhuǎn)至step9,step7.如果i<10,令i=i+1返回step3,否則跳轉(zhuǎn)至step8,step8.如果t1<4,令t1=t1+1,返回step2,否則跳轉(zhuǎn)至step10,step9.找到頁眉(頁腳)內(nèi)容,將存儲的文本塊合并獲得頁眉底部位置(頁腳頂部位置)為頁眉(頁腳)與正文的分割位置,設(shè)置有效的頁眉(頁腳)位置,step10.未找到頁眉(頁腳)區(qū),將頁眉(頁腳)位置設(shè)為無效值,此頁眉頁腳搜索方法通過變步長多頁搜索,能兼容奇偶頁頁眉頁腳排版不同,文章首頁頁眉頁腳排版不同的情況,具有較大的穩(wěn)定性及適應(yīng)性,在獲得文檔行及行屬性后,依據(jù)步驟一中給出判定函數(shù),搜索符合判定函數(shù)的正文行(頁眉頁腳行除外),判定為文章的篇名,在步驟二中,對于輸入的字符流進(jìn)行行合并,根據(jù)字符流順序,判斷水平方向位置交叉且字體高度相差小于閾值的字符合并為一行,獲得合并行后,統(tǒng)計(jì)并記錄行的高度,字體,語種,位置等特征,然后,根據(jù)電子文檔頁眉頁腳在多頁上具有相似性的特征,在文檔多個頁面的頁眉頁腳候選區(qū)域搜索相似內(nèi)容, 確定頁眉頁腳與正文的分割位置,在獲得文檔行及行屬性后,依據(jù)步驟一中給出判定函數(shù),搜索符合判定函數(shù)的正文行(頁眉頁腳行除外),判定為文章的篇名。

步驟三:基于印刷頁碼提示和基于分割線提示的跳轉(zhuǎn)內(nèi)容檢索及處理,跳轉(zhuǎn)是指為了排版的美觀及版面的合理利用,將部分文章的尾部內(nèi)容排版在其他文章后面,本發(fā)明中將有跳轉(zhuǎn)內(nèi)容文章的連續(xù)排版的末尾處稱為跳轉(zhuǎn)位置,將跳轉(zhuǎn)內(nèi)容起始處稱為接續(xù)位置,根據(jù)文檔跳轉(zhuǎn)一般分為印刷頁碼提示跳轉(zhuǎn)和基于分割線提示的跳轉(zhuǎn)兩種情況處理,印刷頁碼提示即,文章跳轉(zhuǎn)位置和接續(xù)位置均有印刷頁碼提示,處理此種情況的跳轉(zhuǎn)首先需要獲得文檔的印刷頁碼,本發(fā)明根據(jù)印刷頁碼在多頁間的連續(xù)遞增性及位置的相似性,在文本行中,首先在多個頁面獲得數(shù)字行,然后通過匹配數(shù)字行數(shù)字的連續(xù)性及位置的相似性,搜索獲得文章的印刷頁碼,獲得印刷頁碼后搜索跳轉(zhuǎn)提示,文檔的跳轉(zhuǎn)提示一般形式比較固定,通過正則表達(dá)式匹配,找到跳轉(zhuǎn)提示行,獲得提示印刷頁碼,跳轉(zhuǎn)到所指示的印刷頁碼,同樣搜索接續(xù)提示,搜索獲得接續(xù)提示后,處理跳轉(zhuǎn),處理跳轉(zhuǎn)實(shí)現(xiàn)跳轉(zhuǎn)內(nèi)容的“邏輯搬移”,將接續(xù)內(nèi)容所屬的頁面調(diào)整到提示跳轉(zhuǎn)的位置,基于分割線的跳轉(zhuǎn)即,當(dāng)前文章的內(nèi)容排版在下一篇文章首頁的下部,并用分割線提示,分割線一般分為兩種,直線和花紋線,根據(jù)pdf取詞特點(diǎn),直線一般按直線圖形元素取出,花紋線按文字元素取出,被解析為一行相同的字符,對應(yīng)分割線的提取,根據(jù)分割線一般在下篇文章首頁的規(guī)則,獲得文章篇名后,通過在文章篇名頁搜索直線獲得分割線,直線分割線通過讀取pdf直線元素讀取,花紋線則通過搜索同行相同字符及位置確定,確定分割線后將分割線下內(nèi)容“邏輯搬移”至跳轉(zhuǎn)處,完成跳轉(zhuǎn)處理,邏輯搬移是指將接續(xù)內(nèi)容所在行的物理頁碼標(biāo)為跳轉(zhuǎn)位置所在頁頁碼,接續(xù)內(nèi)容的跳轉(zhuǎn)頁屬性設(shè)置為接續(xù)位置所在頁頁碼(其所在的物理頁碼),并調(diào)整接續(xù)內(nèi)容行在行鏈表中的位置,接續(xù)到跳轉(zhuǎn)位置,跳轉(zhuǎn) 內(nèi)容還有不跨頁規(guī)則,即跳轉(zhuǎn)內(nèi)容從接續(xù)位置開始到接續(xù)位置所在頁結(jié)束為止,此規(guī)則用于確定跳轉(zhuǎn)內(nèi)容的終止及文章終止位置。

步驟四:文章終止位置的確定,獲得文章篇名和處理完跳轉(zhuǎn)內(nèi)容后,判定文章終止位置及文章頁碼范圍,文章終止位置依據(jù)文章內(nèi)容完結(jié)處有較大空白行或者空頁或者跳轉(zhuǎn)內(nèi)容結(jié)束位置確定,本方法統(tǒng)計(jì)標(biāo)引出篇名的居頂屬性,對于文章居頂?shù)奈臋n,當(dāng)前文章結(jié)束位置為下一文章篇名的前一頁,非居頂文章則根據(jù)下一篇文章篇名及其前的空白位置確定。

步驟五:文章要素項(xiàng)數(shù)據(jù)提取,根據(jù)文章元素內(nèi)容驗(yàn)證文章有效性及再標(biāo)引,確定文章起止范圍后,在文章內(nèi)部提取文章要素項(xiàng)數(shù)據(jù),文章要素項(xiàng)包括作者和機(jī)構(gòu)、摘要、關(guān)鍵詞和參考文獻(xiàn)等,根據(jù)視覺特征和內(nèi)容關(guān)鍵詞特征相結(jié)合的原則,提取每篇文章的要素項(xiàng),獲得文章要素項(xiàng)后,根據(jù)以下規(guī)則判定當(dāng)前文章的有效性,((abstract+keyword+clcnum+doccode+fund+authorinfo)>=th1)||((title.height>textheight*1.75)&&((title.leftspace>th2)&&(title.rightspace>th3)&&title.topspace>(textrowspace*1.5))&&(title.bottomspace>(textrowspace*1.5))&&(title.align&1),上述特征組合的字符含義同步驟一中,表達(dá)式文章有效性判斷規(guī)則為,有效文章需滿足超過閾值個要素項(xiàng)或者滿足典型篇名的視覺特征(行高,居中,左右上下行間距特征等),若判為無效文章則刪除此文章,并返回步驟三重新處理其前篇文章;

步驟六:文章目錄鏈接及基于目錄鏈接置文章置信度,文章目錄鏈接及基于目錄的有效性驗(yàn)證及再標(biāo)引,目錄是文章的提綱,含有文章的篇名及頁碼范圍信息,本發(fā)明將文檔前后的非文章頁碼區(qū)域設(shè)置為頁碼候選區(qū),根據(jù)已經(jīng)獲得文章篇名,依次在每個目錄區(qū)候選頁上匹配文章篇名,并統(tǒng)計(jì)匹配上的篇名個數(shù),如果超過個數(shù)閾值,則將此頁加入到目錄區(qū),依次搜索獲得所有目錄頁,獲得所有目錄頁后,首先分析目錄頁目錄條目排版版式,通過 統(tǒng)計(jì)目錄條目標(biāo)識符及數(shù)字排版特征,并處理目錄折行情況,確定目錄版式,根據(jù)版式解析目錄條目,以文章篇名順序,依次以相似度遞減方式匹配目錄條目,獲得相似度最高的目錄條目作為文章篇名的鏈接,如果相似度低于閾值,則當(dāng)前文章未找到目錄鏈接,統(tǒng)計(jì)整體目錄鏈接正確率,如果正確率高于一定閾值,則此目錄鏈接可作為判定分篇置信度的依據(jù),利用目錄條目頁碼檢查分篇情況,并設(shè)置對應(yīng)文章的置信度,獲得文章篇名的目錄鏈接后,統(tǒng)計(jì)整體鏈接正確率,如果鏈接正確率超過一定閾值,鏈接可信度較高,根據(jù)鏈接目錄條目對應(yīng)的提示頁碼檢查文章頁碼范圍,并給文章設(shè)置相應(yīng)置信度,本算法中暫將置信度分為三個等級,第一級,文章目錄鏈接沒有鏈上,此級為可信度較低文章,需要重點(diǎn)檢查文章分篇及頁碼情況,第二級,文章目錄鏈接鏈上,但是目錄頁碼與分篇獲得頁碼不一致,此級為中間置信度,需要檢查頁碼情況,第三級,文章目錄鏈接鏈上,并且目錄頁碼與分篇獲得頁碼一致,此級置信度可以確定此文章分篇正確。

盡管已經(jīng)示出和描述了本發(fā)明新型的實(shí)施例,對于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本發(fā)明新型的原理和精神的情況下可以對這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明新型的范圍由所附權(quán)利要求及其等同物限定。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
阿拉善盟| 福州市| 阿瓦提县| 伊宁市| 平定县| 衢州市| 卢湾区| 临猗县| 留坝县| 漳州市| 勐海县| 开原市| 桃江县| 中宁县| 前郭尔| 泗阳县| 民和| 潮安县| 临江市| 乡宁县| 阿坝| 怀远县| 邢台市| 宣威市| 安吉县| 临桂县| 永年县| 宜州市| 会东县| 阿克苏市| 吉安市| 景宁| 米林县| 陇川县| 准格尔旗| 牡丹江市| 阿图什市| 颍上县| 昌黎县| 石狮市| 白沙|