欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種PDF文檔標題識別方法與流程

文檔序號:40559668發(fā)布日期:2025-01-03 11:19閱讀:9來源:國知局
一種PDF文檔標題識別方法與流程

本發(fā)明屬于計算機,尤其涉及一種pdf文檔標題識別方法。


背景技術(shù):

1、pdf是一種常見的電子文檔格式,具有跨平臺性、可靠性、可編輯性和安全性等特點。它在文檔交換、文件存檔、電子書籍、表單和報告以及打印和出版等領(lǐng)域都有廣泛的應用。學習和工作中,我們經(jīng)常需要提取pdf文檔中的各級標題。標題可以用于生成目錄、制作書簽、生成思維導圖、構(gòu)建ai學習樣本等。雖然人類在閱讀中能夠輕松區(qū)分段落與標題進而讀懂語義,但是對于計算機程序來說卻難以理解這種文檔的結(jié)構(gòu)特征,從而更加難以識別其中的標題?,F(xiàn)有的標題識別技術(shù)往往是根據(jù)預先設置的標題模板做匹配。這種方法的識別準確率都很低;具體包括以下情況:(1)將不是標題的文本錯誤地識別為標題,例如數(shù)字開頭的文本就容易被錯誤識別為標題;(2)部分標題識別不出來,模板庫不夠全面就覆蓋不到所有可能出現(xiàn)的標題,實際上模板庫也沒辦法做到全面。


技術(shù)實現(xiàn)思路

1、為解決上述技術(shù)問題,本發(fā)明提出了一種pdf文檔標題識別方法,提高了pdf文檔標題識別的效率和準確率,同時提高了用戶對標題識別的滿意度。

2、為實現(xiàn)上述目的,本發(fā)明提供了一種pdf文檔標題識別方法,包括:

3、獲取pdf文檔的文字列表,識別所述文字列表中的頁眉頁腳、側(cè)邊欄文字和水印文字;

4、將所述pdf文檔中文字劃分為文字段落,獲得文字段落列表;

5、將所述文字段落劃分為若干特征相同的文字段落組,根據(jù)所述文字段落組篩選出候選標題組;

6、基于所述候選標題組,確定候選標題組的標題等級。

7、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,識別所述文字列表中的頁眉頁腳包括:

8、將連續(xù)頁面出現(xiàn)或間隔頁面出現(xiàn),且位于頁面頂部和底部的相同或相似的文字識別為頁眉頁腳。

9、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,識別所述文字列表中的側(cè)邊欄文字包括:

10、將位于頁面左右兩側(cè)的旋轉(zhuǎn)90度的文字識別為側(cè)邊欄文字。

11、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,識別所述文字列表中的水印文字包括:

12、將連續(xù)頁面出現(xiàn)且位于相同位置的半透明文字識別為水印文字。

13、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,獲得文字段落列表包括:

14、對于同一頁的文字,水平方向相鄰的文字劃分為文字行,位置接近的并且主體特征相同的文字行劃分為文字段落,其中主體特征包括字體和字號。

15、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,將所述文字段落劃分為若干特征相同的文字段落組包括:

16、將所述文字段落按照所述主體特征相同的劃分到同一文字段落組,獲得若干特征相同的文字段落組。

17、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,所述候選標題組不包括兩種情況:

18、第一種情況為:文字最多的段落組是普通正文;

19、第二種情況為:比普通正文字號更小的段落組都是注解、引用類的文字。

20、根據(jù)本發(fā)明提供的pdf文檔標題識別方法,基于所述候選標題組,確定候選標題組的標題等級包括:

21、將所述候選標題組中字號最大的且只有一個段落的組是主標題,如果沒有滿足要求的標題組,所述pdf文檔不包含主標題;其余所述候選標題組,按字號從大到小依次排列不同等級標題。

22、本發(fā)明技術(shù)效果:

23、(1)本發(fā)明可以提高標題識別的性能和效率。傳統(tǒng)的模板匹配方法,由于模板庫巨大,一一對比需要消耗大量時間。而本發(fā)明無需模板匹配,提取特征即可快速分類識別。在真正的識別標題之前,先排除頁眉頁腳、側(cè)邊欄、水印中的文字,更是大大減少了標題識別的計算量和運行時間。

24、(2)本發(fā)明可以提高標題識別的正確率。對頁眉頁腳、側(cè)邊欄、水印的排除有效降低了錯誤識別率,而基于特征和關(guān)聯(lián)性的分辨標題更進一步提高了正確率。

25、綜上所述,本發(fā)明提高了用戶的使用體驗和滿意度,本發(fā)明還節(jié)約了開發(fā)維護成本。現(xiàn)有方案的模板庫需要不斷地擴充和維護,而本發(fā)明無需大量時間配置模板庫,也無需后續(xù)維護。



技術(shù)特征:

1.一種pdf文檔標題識別方法,其特征在于,包括:

2.如權(quán)利要求1所述的pdf文檔標題識別方法,其特征在于,

3.如權(quán)利要求1所述的pdf文檔標題識別方法,其特征在于,

4.如權(quán)利要求1所述的pdf文檔標題識別方法,其特征在于,

5.如權(quán)利要求1所述的pdf文檔標題識別方法,其特征在于,

6.如權(quán)利要求5所述的pdf文檔標題識別方法,其特征在于,

7.如權(quán)利要求1所述的pdf文檔標題識別方法,其特征在于,

8.如權(quán)利要求1所述的pdf文檔標題識別方法,其特征在于,


技術(shù)總結(jié)
本發(fā)明公開了一種PDF文檔標題識別方法,包括:獲取PDF文檔的文字列表,識別所述文字列表中的頁眉頁腳、側(cè)邊欄文字和水印文字;將所述PDF文檔中文字劃分為文字段落,獲得文字段落列表;將所述文字段落劃分為若干特征相同的文字段落組,根據(jù)所述文字段落組篩選出候選標題組;基于所述候選標題組,確定候選標題組的標題等級。本發(fā)明提高了PDF文檔標題識別的效率和準確率,同時提高了用戶對標題識別的滿意度。

技術(shù)研發(fā)人員:吳強
受保護的技術(shù)使用者:賽博愛思(上海)軟件科技有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/2
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
滦南县| 仁化县| 德保县| 丰镇市| 弥勒县| 通城县| 时尚| 巨野县| 河西区| 阳东县| 秀山| 南昌县| 铜鼓县| 辽源市| 特克斯县| 探索| 宜黄县| 屯昌县| 西平县| 四平市| 定南县| 扶余县| 茌平县| 江安县| 清水河县| 元江| 彭泽县| 常州市| 准格尔旗| 济阳县| 海城市| 万载县| 平乡县| 新平| 高雄县| 兰考县| 高唐县| 江都市| 永康市| 上思县| 嵊泗县|