一種基于跳轉(zhuǎn)處理及雙重校驗(yàn)的多篇電子文檔分篇算法的制作方法

文檔序號：12034571閱讀：147來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于跳轉(zhuǎn)處理及雙重校驗(yàn)的多篇電子文檔分篇算法的制作方法與工藝

本發(fā)明新型涉及基于跳轉(zhuǎn)處理及篇名雙重校驗(yàn)的多篇電子文檔分篇方法技術(shù)領(lǐng)域，具體為一種基于跳轉(zhuǎn)處理及篇名雙重校驗(yàn)的多篇電子文檔分篇方法。

背景技術(shù)：

伴隨著計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)的發(fā)展，如何根據(jù)用戶多元的需求制作出多元化的數(shù)字產(chǎn)品已經(jīng)是當(dāng)前行業(yè)面臨的主要問題，實(shí)現(xiàn)產(chǎn)品的多元化加工，必然要求前期的數(shù)據(jù)加工的規(guī)范化，碎片化，多篇文章的電子文檔是數(shù)字出版行業(yè)需要處理一大類數(shù)據(jù)，實(shí)現(xiàn)此種電子文檔的分篇是實(shí)現(xiàn)這種數(shù)據(jù)碎片化的基礎(chǔ)，因此，對于此類文章的準(zhǔn)確分篇有著十分重要的意義，現(xiàn)有技術(shù)中，專利cn101673256a公布的“一種基于文字流的文章元數(shù)據(jù)自動抽取方法及系統(tǒng)”提出利用規(guī)則模板提取文章元數(shù)據(jù)方法，處理文章內(nèi)部元數(shù)據(jù)，不能處理處理多篇文章電子文檔，專利cn102375808a公布“一種文檔篇名提取方法和裝置”利用預(yù)先設(shè)置的關(guān)鍵詞及長度限制提取文檔篇名，不能實(shí)現(xiàn)自動提取文章篇名并且對于沒有明顯關(guān)鍵詞的篇名不具有適用性，專利cn101206639a公布“一種基于pdf的復(fù)雜版面的標(biāo)引方法”提出針對報(bào)刊的文字塊的生成和合并規(guī)則和整個提取內(nèi)容和位置等信息的流程，簡單根據(jù)文字塊的屬性判定文章，側(cè)重電子文檔的基礎(chǔ)信息提取，并沒有對分篇提出完整有效方案，專利cn200410091432.4公布的“一種對報(bào)紙版面進(jìn)行篇名與正文邏輯關(guān)聯(lián)的方法”利用語義的關(guān)聯(lián)處理報(bào)刊的篇名與正文的匹配，屬于語義識別范圍，需要詞庫的支持，實(shí)現(xiàn)比較復(fù)雜。

發(fā)明新型內(nèi)容

本發(fā)明新型的目的在于提供一種基于跳轉(zhuǎn)處理及篇名雙重校驗(yàn)的多篇電子文檔分篇方法，以解決上述背景技術(shù)中提出的問題。

為實(shí)現(xiàn)上述目的，本發(fā)明新型提供如下技術(shù)方案：一種基于跳轉(zhuǎn)處理及篇名雙重校驗(yàn)的多篇電子文檔分篇方法，包括以下步驟：

步驟一：篇名標(biāo)引特征提取及特征組合，根據(jù)多篇電子文檔的文章字體字號、空間位置、語種屬性等，提取篇名特征，并將這些特征不同權(quán)重組合，形成篇名判定函數(shù)、判定函數(shù)中，判定函數(shù)的表示如下，(text.english＝0)&&(height>＝(textheight*1.5))&&(text.length>th1)&&((x2-x1)>th2)&&(((leftspace>th3)+(rightspace>th3)+(topspace>(textrowspace*1.5))+(bottomspace>(textrowspace*1.5))+(align&1)+(height>＝(textheight*1.8))+(y1<(pageheight/3))+(font＝maxfontofpage))>＝th4)，判定函數(shù)中，使用了語種，字體高度，字符長度，文本寬度，行左間距，行右間距，上下行距，居中居左居右屬性，文本位置屬性等九種特征組合，上述偽代碼中，text表示輸入行字符串內(nèi)容，english表示文本的英文屬性，height表示文本行的高度，textheight為統(tǒng)計(jì)文檔獲得的文檔的平均行高，x1,x2,y1,y2分別表示文本行塊的左右上下位置坐標(biāo)，leftspace,rightspace,topspace,bottomspace分別表示文本行的左右上下間距，textrowspace表示文檔的平均行間距，align表示文本行的居中居左或居右屬性，font表示文本行字體高度，maxfontofpage表示統(tǒng)計(jì)獲得的文檔最大字體高度，上述表達(dá)式中+表示屬性的疊加，表示文本行滿足上述表達(dá)式中th4個即可判讀為篇名，該種判別函數(shù)融合多種篇名特征，具有較大的適應(yīng)性。

步驟二：根據(jù)特征組合提取文檔的文章篇名(即文章的起始位置)，對輸入的電子文檔的含字體信息位置信息的字符流進(jìn)行合并行預(yù)處理，獲得以行為單位的文字塊，并統(tǒng)計(jì)單位塊的行特征(行高，行字體，語種屬性等)，根據(jù)特征組合形成的篇名判定函數(shù)搜索判定函數(shù)值為真的文本行串，提取文檔的文章篇名(即文章的起始位置)，對于輸入的字符流進(jìn)行行合并，根據(jù)字符流順序，判斷水平方向位置交叉且字體高度相差小于閾值的字符合并為一行，即(min(bt1，bt2)-max(tp1，tp2))>th1&&(lf1-lf2)<th2&&(font1-font2<th3,其中bt、bt2、tp1、tp2、lf1、lf2、font1和font2分別為輸入兩個字符的下，上，左位置及字體高度，th1、th2和th3分別為兩個字水平交叉閾值，左右距離閾值，字體高度差距閾值，閾值根據(jù)統(tǒng)計(jì)獲得文檔平均行高，字體高度給出，獲得合并行后，統(tǒng)計(jì)并記錄行的高度、字體、語種和位置等特征，根據(jù)電子文檔頁眉頁腳在多頁上具有相似性的特征，在文檔多個頁面的頁眉頁腳候選區(qū)域搜索相似內(nèi)容，確定頁眉頁腳與正文的分割位置，頁眉(頁腳)搜索方法的具體實(shí)現(xiàn)步驟為，step1.搜索間隔步長t1＝1，搜索起始頁p為頁碼范圍內(nèi)某常數(shù)，step2.設(shè)起始頁增值i＝0，step3.后續(xù)搜索頁間隔數(shù)n＝1，step4.設(shè)起始頁pi＝p+i,i＝0、3、6......24，當(dāng)前搜索頁p2為p2＝p1+n*t1，step5在頁p1,p2的頁眉(頁腳)候選區(qū)，搜索位置與內(nèi)容相似的文本塊，若未找到，則i＝i+1，跳轉(zhuǎn)至step6，若找到，則令n＝n+1，跳轉(zhuǎn)至step4，step6.如果n<3，返回step4繼續(xù)執(zhí)行，否則跳轉(zhuǎn)至step9，step7.如果i<10，令i＝i+1返回step3，否則跳轉(zhuǎn)至step8，step8.如果t1<4，令t1＝t1+1，返回step2，否則跳轉(zhuǎn)至step10，step9.找到頁眉(頁腳)內(nèi)容，將存儲的文本塊合并獲得頁眉底部位置(頁腳頂部位置)為頁眉(頁腳)與正文的分割位置，設(shè)置有效的頁眉(頁腳)位置，step10.未找到頁眉(頁腳)區(qū)，將頁眉(頁腳)位置設(shè)為無效值，此頁眉頁腳搜索方法通過變步長多頁搜索，能兼容奇偶頁頁眉頁腳排版不同，文章首頁頁眉頁腳排版不同的情況，具有較大的穩(wěn)定性及適應(yīng)性，在獲得文檔行及行屬性后，依據(jù)步驟一中給出判定函數(shù)，搜索符合判定函數(shù)的正文行(頁眉頁腳行除外)，判定為文章的篇名。

步驟四：文章終止位置的確定，獲得文章篇名和處理完跳轉(zhuǎn)內(nèi)容后，判定文章終止位置及文章頁碼范圍，文章終止位置依據(jù)文章內(nèi)容完結(jié)處有較大空白行或者空頁或者跳轉(zhuǎn)內(nèi)容結(jié)束位置確定，本方法統(tǒng)計(jì)標(biāo)引出篇名的居頂屬性，對于文章居頂?shù)奈臋n，當(dāng)前文章結(jié)束位置為下一文章篇名的前一頁，非居頂文章則根據(jù)下一篇文章篇名及其前的空白位置確定。

步驟五：文章要素項(xiàng)數(shù)據(jù)提取，根據(jù)文章元素內(nèi)容驗(yàn)證文章有效性及再標(biāo)引，確定文章起止范圍后，在文章內(nèi)部提取文章要素項(xiàng)數(shù)據(jù)，文章要素項(xiàng)包括作者和機(jī)構(gòu)、摘要、關(guān)鍵詞和參考文獻(xiàn)等，根據(jù)視覺特征和內(nèi)容關(guān)鍵詞特征相結(jié)合的原則，提取每篇文章的要素項(xiàng)，獲得文章要素項(xiàng)后，根據(jù)以下規(guī)則判定當(dāng)前文章的有效性，((abstract+keyword+clcnum+doccode+fund+authorinfo)>＝th1)||((title.height>textheight*1.75)&&((title.leftspace>th2)&&(title.rightspace>th3)&&title.topspace>(textrowspace*1.5))&&(title.bottomspace>(textrowspace*1.5))&&(title.align&1)，上述特征組合的字符含義同步驟一中，表達(dá)式文章有效性判斷規(guī)則為，有效文章需滿足超過閾值個要素項(xiàng)或者滿足典型篇名的視覺特征(行高，居中，左右上下行間距特征等)，若判為無效文章則刪除此文章，并返回步驟三重新處理其前篇文章；

步驟六：文章目錄鏈接及基于目錄鏈接置文章置信度，文章目錄鏈接及基于目錄的有效性驗(yàn)證及再標(biāo)引，目錄是文章的提綱，含有文章的篇名及頁碼范圍信息，本發(fā)明將文檔前后的非文章頁碼區(qū)域設(shè)置為頁碼候選區(qū)，根據(jù)已經(jīng)獲得文章篇名，依次在每個目錄區(qū)候選頁上匹配文章篇名，并統(tǒng)計(jì)匹配上的篇名個數(shù)，如果超過個數(shù)閾值，則將此頁加入到目錄區(qū)，依次搜索獲得所有目錄頁，獲得所有目錄頁后，首先分析目錄頁目錄條目排版版式，通過統(tǒng)計(jì)目錄條目標(biāo)識符及數(shù)字排版特征，并處理目錄折行情況，確定目錄版式，根據(jù)版式解析目錄條目，以文章篇名順序，依次以相似度遞減方式匹配目錄條目，獲得相似度最高的目錄條目作為文章篇名的鏈接，如果相似度低于閾值，則當(dāng)前文章未找到目錄鏈接，統(tǒng)計(jì)整體目錄鏈接正確率，如果正確率高于一定閾值，則此目錄鏈接可作為判定分篇置信度的依據(jù)，利用目錄條目頁碼檢查分篇情況，并設(shè)置對應(yīng)文章的置信度，獲得文章篇名的目錄鏈接后，統(tǒng)計(jì)整體鏈接正確率，如果鏈接正確率超過一定閾值，鏈接可信度較高，根據(jù)鏈接目錄條目對應(yīng)的提示頁碼檢查文章頁碼范圍，并給文章設(shè)置相應(yīng)置信度，本算法中暫將置信度分為三個等級，第一級，文章目錄鏈接沒有鏈上，此級為可信度較低文章，需要重點(diǎn)檢查文章分篇及頁碼情況，第二級，文章目錄鏈接鏈上，但是目錄頁碼與分篇獲得頁碼不一致，此級為中間置信度，需要檢查頁碼情況，第三級，文章目錄鏈接鏈上，并且目錄頁碼與分篇獲得頁碼一致，此級置信度可以確定此文章分篇正確。

優(yōu)選的，在步驟二中，對于輸入的字符流進(jìn)行行合并，根據(jù)字符流順序，判斷水平方向位置交叉且字體高度相差小于閾值的字符合并為一行，獲得合并行后，統(tǒng)計(jì)并記錄行的高度，字體，語種，位置等特征，然后，根據(jù)電子文檔頁眉頁腳在多頁上具有相似性的特征，在文檔多個頁面的頁眉頁腳候選區(qū)域搜索相似內(nèi)容，確定頁眉頁腳與正文的分割位置，在獲得文檔行及行屬性后，依據(jù)步驟一中給出判定函數(shù)，搜索符合判定函數(shù)的正文行(頁眉頁腳行除外)，判定為文章的篇名。

優(yōu)選的，在步驟三中，印刷頁碼提示即，文章跳轉(zhuǎn)位置和接續(xù)位置均有印刷頁碼提示，處理此種情況的跳轉(zhuǎn)首先需要獲得文檔的印刷頁碼，本發(fā)明根據(jù)印刷頁碼在多頁間的連續(xù)遞增性及位置的相似性，在文本行中，首先在多個頁面獲得數(shù)字行，然后通過匹配數(shù)字行數(shù)字的連續(xù)性及位置的相似性，搜索獲得文章的印刷頁碼，獲得印刷頁碼后搜索跳轉(zhuǎn)提示，文檔的跳轉(zhuǎn)提示一般形式比較固定，通過正則表達(dá)式匹配，找到跳轉(zhuǎn)提示行，獲得提示印刷頁碼，跳轉(zhuǎn)到所指示的印刷頁碼，同樣搜索接續(xù)提示，搜索獲得接續(xù)提示后，處理跳轉(zhuǎn)，處理跳轉(zhuǎn)實(shí)現(xiàn)跳轉(zhuǎn)內(nèi)容的“邏輯搬移”，將接續(xù)內(nèi)容所屬的頁面調(diào)整到提示跳轉(zhuǎn)的位置。

優(yōu)選的，在步驟三中，基于分割線的跳轉(zhuǎn)即，當(dāng)前文章的內(nèi)容73排版在下一篇文章首頁的下部，并用分割線提示，分割線一般分為兩種，直線和花紋線，根據(jù)pdf取詞特點(diǎn)，直線一般按直線圖形元素取出，花紋線按文字元素取出，被解析為一行相同的字符，對應(yīng)分割線的提取，根據(jù)分割線一般在下篇文章首頁的規(guī)則，獲得文章篇名后，通過在文章篇名頁搜索直線獲得分割線，直線分割線通過讀取pdf直線元素讀取，花紋線則通過搜索同行相同字符及位置確定，確定分割線后將分割線下內(nèi)容“邏輯搬移”至跳轉(zhuǎn)處，完成跳轉(zhuǎn)處理。

優(yōu)選的，在步驟三中，邏輯搬移是指將接續(xù)內(nèi)容所在行的物理頁碼標(biāo)為跳轉(zhuǎn)位置所在頁頁碼，接續(xù)內(nèi)容的跳轉(zhuǎn)頁屬性設(shè)置為接續(xù)位置所在頁頁碼(其所在的物理頁碼)，并調(diào)整接續(xù)內(nèi)容行在行鏈表中的位置，接續(xù)到跳轉(zhuǎn)位置，跳轉(zhuǎn)內(nèi)容還有不跨頁規(guī)則，即跳轉(zhuǎn)內(nèi)容從接續(xù)位置開始到接續(xù)位置所在頁結(jié)束為止，此規(guī)則用于確定跳轉(zhuǎn)內(nèi)容的終止及文章終止位置。

與現(xiàn)有技術(shù)相比，本發(fā)明新型的有益效果是：該發(fā)明篇名搜索步驟采用基于特征的組合，該判斷函數(shù)融合篇名多元特征，具有較為廣泛的適應(yīng)性，文章跳轉(zhuǎn)內(nèi)容的處理使得文章分篇克服跳轉(zhuǎn)這種特殊排版，獲得準(zhǔn)確的分篇效果，該方法中采用文章有效要素項(xiàng)數(shù)據(jù)校驗(yàn)及目錄鏈接校驗(yàn)，有效降低文章篇名錯識率，從而提升了分篇準(zhǔn)確率，并且通過置信度評判分篇的準(zhǔn)確性，便于后續(xù)檢查，該方法通過頁眉頁腳搜索方法，有效定位頁眉頁腳位置，使得分篇不受頁眉頁腳內(nèi)容干擾，較大提升了分篇準(zhǔn)確率。

附圖說明

圖1為本發(fā)明的分篇方法流程圖；

圖2為本發(fā)明的跳轉(zhuǎn)內(nèi)容分類處理流程圖；

圖3為本發(fā)明的目錄鏈接實(shí)現(xiàn)流程圖；

圖4為本發(fā)明的分篇文章及文章頁碼范圍圖；

圖5為本發(fā)明的跳轉(zhuǎn)提示與接續(xù)提示位置示例圖；

圖6為本發(fā)明的文章列表與對應(yīng)目錄鏈接圖；

圖7為本發(fā)明的分割線提示跳轉(zhuǎn)示例圖。

圖中：s11標(biāo)題特征組合函數(shù)提取、s12搜索標(biāo)題、s13跳轉(zhuǎn)內(nèi)容處、s14文章終止內(nèi)容獲得、s15是否有效文章、s16目錄鏈接及文章置信度設(shè)置、s21印刷頁頁碼提示跳轉(zhuǎn)提示搜索、s22分割線識別和濾除干擾線、s23跳轉(zhuǎn)內(nèi)容搬移處理、s31獲得所以目錄頁范圍、s32分析目錄頁目錄排版樣式解析目錄條目并對標(biāo)題進(jìn)行鏈接、s33根據(jù)鏈接情況設(shè)置每篇文章的置信度、s41文章的物理頁碼范圍、s42文章的印刷頁碼范圍、s43文章篇名列、s51跳轉(zhuǎn)位置提示、s52跳轉(zhuǎn)接續(xù)位置提示、s61文章目錄鏈接上、s62文章目錄鏈接不上、71分割線提示跳轉(zhuǎn)、s72下一篇文章首頁內(nèi)容、s73當(dāng)前文章的內(nèi)容。

具體實(shí)施方式

下面將結(jié)合本發(fā)明新型實(shí)施例中的附圖，對本發(fā)明新型實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明新型一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明新型中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明新型保護(hù)的范圍。

請參閱圖1-7，實(shí)施例

一種基于跳轉(zhuǎn)處理及篇名雙重校驗(yàn)的多篇電子文檔分篇方法，包括以下步驟：

步驟二：根據(jù)特征組合提取文檔的文章篇名(即文章的起始位置)，對輸入的電子文檔的含字體信息位置信息的字符流進(jìn)行合并行預(yù)處理，獲得以行為單位的文字塊，并統(tǒng)計(jì)單位塊的行特征(行高，行字體，語種屬性等)，根據(jù)特征組合形成的篇名判定函數(shù)搜索判定函數(shù)值為真的文本行串，提取文檔的文章篇名(即文章的起始位置)，對于輸入的字符流進(jìn)行行合并，根據(jù)字符流順序，判斷水平方向位置交叉且字體高度相差小于閾值的字符合并為一行，即(min(bt1，bt2)-max(tp1，tp2))>th1&&(lf1-lf2)<th2&&(font1-font2<th3, 其中bt、bt2、tp1、tp2、lf1、lf2、font1和font2分別為輸入兩個字符的下，上，左位置及字體高度，th1、th2和th3分別為兩個字水平交叉閾值，左右距離閾值，字體高度差距閾值，閾值根據(jù)統(tǒng)計(jì)獲得文檔平均行高，字體高度給出，獲得合并行后，統(tǒng)計(jì)并記錄行的高度、字體、語種和位置等特征，根據(jù)電子文檔頁眉頁腳在多頁上具有相似性的特征，在文檔多個頁面的頁眉頁腳候選區(qū)域搜索相似內(nèi)容，確定頁眉頁腳與正文的分割位置，頁眉(頁腳)搜索方法的具體實(shí)現(xiàn)步驟為，step1.搜索間隔步長t1＝1，搜索起始頁p為頁碼范圍內(nèi)某常數(shù)，step2.設(shè)起始頁增值i＝0，step3.后續(xù)搜索頁間隔數(shù)n＝1，step4.設(shè)起始頁pi＝p+i,i＝0、3、6......24，當(dāng)前搜索頁p2為p2＝p1+n*t1，step5在頁p1,p2的頁眉(頁腳)候選區(qū)，搜索位置與內(nèi)容相似的文本塊，若未找到，則i＝i+1，跳轉(zhuǎn)至step6，若找到，則令n＝n+1，跳轉(zhuǎn)至step4，step6.如果n<3，返回step4繼續(xù)執(zhí)行，否則跳轉(zhuǎn)至step9，step7.如果i<10，令i＝i+1返回step3，否則跳轉(zhuǎn)至step8，step8.如果t1<4，令t1＝t1+1，返回step2，否則跳轉(zhuǎn)至step10，step9.找到頁眉(頁腳)內(nèi)容，將存儲的文本塊合并獲得頁眉底部位置(頁腳頂部位置)為頁眉(頁腳)與正文的分割位置，設(shè)置有效的頁眉(頁腳)位置，step10.未找到頁眉(頁腳)區(qū)，將頁眉(頁腳)位置設(shè)為無效值，此頁眉頁腳搜索方法通過變步長多頁搜索，能兼容奇偶頁頁眉頁腳排版不同，文章首頁頁眉頁腳排版不同的情況，具有較大的穩(wěn)定性及適應(yīng)性，在獲得文檔行及行屬性后，依據(jù)步驟一中給出判定函數(shù)，搜索符合判定函數(shù)的正文行(頁眉頁腳行除外)，判定為文章的篇名，在步驟二中，對于輸入的字符流進(jìn)行行合并，根據(jù)字符流順序，判斷水平方向位置交叉且字體高度相差小于閾值的字符合并為一行，獲得合并行后，統(tǒng)計(jì)并記錄行的高度，字體，語種，位置等特征，然后，根據(jù)電子文檔頁眉頁腳在多頁上具有相似性的特征，在文檔多個頁面的頁眉頁腳候選區(qū)域搜索相似內(nèi)容，確定頁眉頁腳與正文的分割位置，在獲得文檔行及行屬性后，依據(jù)步驟一中給出判定函數(shù)，搜索符合判定函數(shù)的正文行(頁眉頁腳行除外)，判定為文章的篇名。

步驟三：基于印刷頁碼提示和基于分割線提示的跳轉(zhuǎn)內(nèi)容檢索及處理，跳轉(zhuǎn)是指為了排版的美觀及版面的合理利用，將部分文章的尾部內(nèi)容排版在其他文章后面，本發(fā)明中將有跳轉(zhuǎn)內(nèi)容文章的連續(xù)排版的末尾處稱為跳轉(zhuǎn)位置，將跳轉(zhuǎn)內(nèi)容起始處稱為接續(xù)位置，根據(jù)文檔跳轉(zhuǎn)一般分為印刷頁碼提示跳轉(zhuǎn)和基于分割線提示的跳轉(zhuǎn)兩種情況處理，印刷頁碼提示即，文章跳轉(zhuǎn)位置和接續(xù)位置均有印刷頁碼提示，處理此種情況的跳轉(zhuǎn)首先需要獲得文檔的印刷頁碼，本發(fā)明根據(jù)印刷頁碼在多頁間的連續(xù)遞增性及位置的相似性，在文本行中，首先在多個頁面獲得數(shù)字行，然后通過匹配數(shù)字行數(shù)字的連續(xù)性及位置的相似性，搜索獲得文章的印刷頁碼，獲得印刷頁碼后搜索跳轉(zhuǎn)提示，文檔的跳轉(zhuǎn)提示一般形式比較固定，通過正則表達(dá)式匹配，找到跳轉(zhuǎn)提示行，獲得提示印刷頁碼，跳轉(zhuǎn)到所指示的印刷頁碼，同樣搜索接續(xù)提示，搜索獲得接續(xù)提示后，處理跳轉(zhuǎn)，處理跳轉(zhuǎn)實(shí)現(xiàn)跳轉(zhuǎn)內(nèi)容的“邏輯搬移”，將接續(xù)內(nèi)容所屬的頁面調(diào)整到提示跳轉(zhuǎn)的位置，基于分割線的跳轉(zhuǎn)即，當(dāng)前文章的內(nèi)容排版在下一篇文章首頁的下部，并用分割線提示，分割線一般分為兩種，直線和花紋線，根據(jù)pdf取詞特點(diǎn)，直線一般按直線圖形元素取出，花紋線按文字元素取出，被解析為一行相同的字符，對應(yīng)分割線的提取，根據(jù)分割線一般在下篇文章首頁的規(guī)則，獲得文章篇名后，通過在文章篇名頁搜索直線獲得分割線，直線分割線通過讀取pdf直線元素讀取，花紋線則通過搜索同行相同字符及位置確定，確定分割線后將分割線下內(nèi)容“邏輯搬移”至跳轉(zhuǎn)處，完成跳轉(zhuǎn)處理，邏輯搬移是指將接續(xù)內(nèi)容所在行的物理頁碼標(biāo)為跳轉(zhuǎn)位置所在頁頁碼，接續(xù)內(nèi)容的跳轉(zhuǎn)頁屬性設(shè)置為接續(xù)位置所在頁頁碼(其所在的物理頁碼)，并調(diào)整接續(xù)內(nèi)容行在行鏈表中的位置，接續(xù)到跳轉(zhuǎn)位置，跳轉(zhuǎn) 內(nèi)容還有不跨頁規(guī)則，即跳轉(zhuǎn)內(nèi)容從接續(xù)位置開始到接續(xù)位置所在頁結(jié)束為止，此規(guī)則用于確定跳轉(zhuǎn)內(nèi)容的終止及文章終止位置。

盡管已經(jīng)示出和描述了本發(fā)明新型的實(shí)施例，對于本領(lǐng)域的普通技術(shù)人員而言，可以理解在不脫離本發(fā)明新型的原理和精神的情況下可以對這些實(shí)施例進(jìn)行多種變化、修改、替換和變型，本發(fā)明新型的范圍由所附權(quán)利要求及其等同物限定。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王艷;袁仁慧;梁洵
技術(shù)所有人：同方知網(wǎng)（北京）技術(shù)有限公司
我是此專利的發(fā)明人

上一篇：一種拼寫檢查方法及裝置與流程
上一篇：一種紙質(zhì)與電子數(shù)據(jù)同步采集的方法及系統(tǒng)與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于跳轉(zhuǎn)處理及雙重校驗(yàn)的多篇電子文檔分篇算法的制作方法