本公開涉及自然語(yǔ)言處理,尤其涉及一種文本查重并突出顯示的方法、裝置、存儲(chǔ)介質(zhì)、程序產(chǎn)品。
背景技術(shù):
1、隨著數(shù)字化文檔的廣泛應(yīng)用,文本查重在學(xué)術(shù)研究、內(nèi)容創(chuàng)作、法律文件審查等領(lǐng)域的重要性日益凸顯。傳統(tǒng)查重工具能夠?qū)ξ谋具M(jìn)行快速查重并在檢測(cè)到重復(fù)內(nèi)容后進(jìn)行突出顯示,以便用戶快速定位和處理,但這種突出顯示往往與文本的原始格式相沖突。然而,這種突出顯示功能在實(shí)際應(yīng)用中卻存在顯著的局限性,由于傳統(tǒng)查重工具的設(shè)計(jì)側(cè)重于快速查重和高亮顯示,往往忽略了文本的原始格式保留問題,導(dǎo)致突出顯示部分與文本的原始格式產(chǎn)生沖突,這種沖突可能表現(xiàn)為突出顯示部分覆蓋或影響文本原有的編輯格式,如字體、樣式、布局等,進(jìn)而干擾用戶的文檔編輯習(xí)慣。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本公開實(shí)施例提供了一種文本查重并突出顯示的方法、裝置、存儲(chǔ)介質(zhì)、程序產(chǎn)品,能夠在提高查重精度的同時(shí),確保目標(biāo)文本的原始格式不被破壞,提高用戶使用體驗(yàn)。
2、第一方面,本公開實(shí)施例提供了一種文本查重并突出顯示的方法,采用如下技術(shù)方案:
3、接收目標(biāo)文本,對(duì)所述目標(biāo)文本進(jìn)行結(jié)構(gòu)化解析,分離出原始格式和第一純文本;
4、基于第一長(zhǎng)度閾值和第二長(zhǎng)度閾值,獲取所述第一純文本與預(yù)設(shè)文本之間的重復(fù)片段;
5、定位所述重復(fù)片段在所述第一純文本中的起止位置;
6、根據(jù)所述起止位置在所述第一純文本中添加突出顯示標(biāo)記,形成帶有突出顯示標(biāo)記的文本結(jié)構(gòu);
7、將所述文本結(jié)構(gòu)與所述原始格式整合,生成格式化文本;
8、對(duì)所述格式文本進(jìn)行展示。
9、可選地,所述接收目標(biāo)文本,對(duì)所述目標(biāo)文本進(jìn)行結(jié)構(gòu)化解析,分離出原始格式和第一純文本,包括:
10、通過接口服務(wù)接收所述目標(biāo)文本,對(duì)所述目標(biāo)文本進(jìn)行安全檢測(cè);
11、若安全檢測(cè)通過,則采用預(yù)設(shè)的分離工具將所述目標(biāo)文本中的文本內(nèi)容轉(zhuǎn)化為所述第一純文本,并從所述目標(biāo)文本中提取出所述原始格式并存儲(chǔ)到數(shù)據(jù)庫(kù)中;
12、若安全檢測(cè)未通過,則向用戶終端設(shè)備傳輸文本優(yōu)化提示。
13、可選地,所述基于第一長(zhǎng)度閾值和第二長(zhǎng)度閾值,獲取所述第一純文本與預(yù)設(shè)文本之間的重復(fù)片段,包括:
14、對(duì)所述第一純文本進(jìn)行粗粒度語(yǔ)義劃分,獲得多個(gè)語(yǔ)義片段;
15、對(duì)所述多個(gè)語(yǔ)義片段進(jìn)行細(xì)粒度語(yǔ)義劃分,獲得多個(gè)句子;
16、基于第一長(zhǎng)度閾值和第二長(zhǎng)度閾值,對(duì)所述多個(gè)句子進(jìn)行長(zhǎng)度標(biāo)準(zhǔn)化,得到多個(gè)標(biāo)準(zhǔn)短句;
17、對(duì)所述預(yù)設(shè)文本進(jìn)行內(nèi)容提取,獲得第二純文本;
18、將所述第二純文本劃分為多個(gè)語(yǔ)段;
19、獲取所述標(biāo)準(zhǔn)短句與每個(gè)語(yǔ)段之間的相似度;
20、當(dāng)最大相似度不小于預(yù)設(shè)相似度閾值時(shí),獲取所述標(biāo)準(zhǔn)短句的連續(xù)重復(fù)字?jǐn)?shù);
21、當(dāng)所述連續(xù)重復(fù)字?jǐn)?shù)不小于預(yù)設(shè)字?jǐn)?shù)閾值時(shí),將所述標(biāo)準(zhǔn)短句判定為所述重復(fù)片段。
22、可選地,所述基于第一長(zhǎng)度閾值和第二長(zhǎng)度閾值,對(duì)所述多個(gè)句子進(jìn)行長(zhǎng)度標(biāo)準(zhǔn)化,得到多個(gè)標(biāo)準(zhǔn)短句,包括:
23、按照所述多個(gè)句子在所述第一純文本中的先后位置,對(duì)所述多個(gè)句子進(jìn)行排序,獲取句子總數(shù);
24、判斷第i個(gè)句子是否小于所述第二長(zhǎng)度閾值,i初始為1;
25、若小于所述第二長(zhǎng)度閾值,則將第i個(gè)句子與第i+1個(gè)句子合并,形成新的句子,i=i+2;
26、若不小于所述第二長(zhǎng)度閾值,則i=i+1;
27、當(dāng)i等于句子總數(shù)時(shí),判斷所述句子是否大于所述第一長(zhǎng)度閾值;
28、若不大于所述第一長(zhǎng)度閾值,則將所述句子判定為標(biāo)準(zhǔn)短句;
29、若大于所述第一長(zhǎng)度閾值,則檢測(cè)所述句子中是否包含結(jié)束標(biāo)志關(guān)鍵詞;
30、若不包含所述結(jié)束標(biāo)志關(guān)鍵詞,則基于標(biāo)點(diǎn)符號(hào)將所述句子劃分為標(biāo)準(zhǔn)短句;
31、若包含所述結(jié)束標(biāo)志關(guān)鍵詞,則判斷所述結(jié)束標(biāo)志關(guān)鍵詞的數(shù)量是否大于1;
32、若不大于1,則基于所述結(jié)束標(biāo)志關(guān)鍵詞和標(biāo)點(diǎn)符號(hào)將所述句子劃分為標(biāo)準(zhǔn)短句;
33、若大于1,則分別以每個(gè)結(jié)束標(biāo)志關(guān)鍵詞為節(jié)點(diǎn),將所述句子劃分為多對(duì)短句;
34、獲取每對(duì)短句之間的長(zhǎng)度差值,選擇長(zhǎng)度差值最小的一對(duì)短句為標(biāo)準(zhǔn)短句。
35、可選地,在所述基于第一長(zhǎng)度閾值和第二長(zhǎng)度閾值,對(duì)所述多個(gè)句子進(jìn)行長(zhǎng)度標(biāo)準(zhǔn)化,得到多個(gè)標(biāo)準(zhǔn)短句之前,還包括:
36、基于所述多個(gè)句子構(gòu)建句子長(zhǎng)度分布圖;
37、獲取所述句子長(zhǎng)度分布圖中的最大值和最小值;
38、基于所述最大值和所述最小值獲取中位數(shù);
39、基于所述中位數(shù)在所述句子長(zhǎng)度分布圖中繪制中位線,將所述句子長(zhǎng)度分布圖劃分為上區(qū)域和下區(qū)域;
40、獲取所述上區(qū)域的第一面積和所述下區(qū)域的第二面積;
41、若所述第一面積等于所述第二面積,則將預(yù)設(shè)第一閾值判定為所述第一長(zhǎng)度閾值,將預(yù)設(shè)第二閾值判定為所述第二長(zhǎng)度閾值;
42、若所述第一面積不等于所述第二面積,則基于所述中位數(shù)、所述第一面積、所述第二面積,獲取調(diào)整倍數(shù);
43、基于所述預(yù)設(shè)第一閾值、所述預(yù)設(shè)第二閾值和所述調(diào)整倍數(shù),獲取所述第一長(zhǎng)度閾值和所述第二長(zhǎng)度閾值。
44、可選地,所述調(diào)整倍數(shù)的計(jì)算公式如下:
45、
46、其中,f為調(diào)整倍數(shù);a為第一面積;b為第二面積;t1為預(yù)設(shè)第一閾值;t2為預(yù)設(shè)第二閾值;m為中位數(shù);為預(yù)設(shè)的正數(shù)。
47、可選地,所述根據(jù)所述起止位置在所述第一純文本中添加突出顯示標(biāo)記,形成帶有突出顯示標(biāo)記的文本結(jié)構(gòu),包括:
48、根據(jù)獲取的每個(gè)起止位置,分別在所述第一純文本中添加一對(duì)內(nèi)聯(lián)樣式標(biāo)簽;
49、在每對(duì)內(nèi)聯(lián)樣式標(biāo)簽中嵌入預(yù)設(shè)的高亮顏色代碼,形成帶有突出顯示標(biāo)記的文本結(jié)構(gòu)。
50、第二方面,本公開實(shí)施例還提供了一種文本查重并突出顯示的系統(tǒng),采用如下技術(shù)方案:
51、分離模塊,用于接收目標(biāo)文本,對(duì)所述目標(biāo)文本進(jìn)行結(jié)構(gòu)化解析,分離出原始格式和第一純文本;
52、獲取模塊,用于基于第一長(zhǎng)度閾值和第二長(zhǎng)度閾值,獲取所述第一純文本與預(yù)設(shè)文本之間的重復(fù)片段;
53、定位模塊,用于定位所述重復(fù)片段在所述第一純文本中的起止位置;
54、添加模塊,用于根據(jù)所述起止位置在所述第一純文本中添加突出顯示標(biāo)記,形成帶有突出顯示標(biāo)記的文本結(jié)構(gòu);
55、整合模塊,用于將所述文本結(jié)構(gòu)與所述原始格式整合,生成格式化文本;
56、展示模塊,用于對(duì)所述格式文本進(jìn)行展示。
57、第三方面,本公開實(shí)施例還提供了一種計(jì)算機(jī)裝置,采用如下技術(shù)方案:
58、所述計(jì)算機(jī)裝置包括:
59、至少一個(gè)處理器;以及,
60、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
61、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行以上任一所述的文本查重并突出顯示的方法。
62、第四方面,本公開實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),該計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)計(jì)算機(jī)指令,該計(jì)算機(jī)指令用于使計(jì)算機(jī)執(zhí)行以上任一所述的文本查重并突出顯示的方法?。
63、第五方面,本公開實(shí)施例還提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)以上任一項(xiàng)所述方法的步驟。
64、本公開實(shí)施例提供的文本查重并突出顯示的方法,通過結(jié)構(gòu)化解析和對(duì)純文本的處理,能夠快速識(shí)別出目標(biāo)文本與預(yù)設(shè)文本之間的重復(fù)片段,在此過程中,通過第一長(zhǎng)度閾值和第二長(zhǎng)度閾值,有效減少傳統(tǒng)查重方法中可能存在的誤差或遺漏,提高了查重的準(zhǔn)確性。通過精確地定位重復(fù)片段在第一純文本中的起止位置,并在這些位置上添加突出顯示標(biāo)記,確保了高亮顯示的精確性,用戶可以直觀地看到哪些部分是重復(fù)的,這種視覺上的強(qiáng)調(diào)使得查重結(jié)果更加明顯,便于用戶快速識(shí)別重復(fù)內(nèi)容。通過在查重過程中分離出原始格式,并在最終生成格式化文本時(shí)進(jìn)行整合,確保查重結(jié)果在顯示時(shí)保持原始文本的格式(如段落、字體、字號(hào)、對(duì)齊方式等),這樣既保證了查重結(jié)果的準(zhǔn)確性,也提升了用戶體驗(yàn)。從接收目標(biāo)文本、解析、分離、定位重復(fù)片段、添加標(biāo)記到最終生成格式化文本,整個(gè)過程都是自動(dòng)化的,這不僅提高了查重的效率,也減少了人工干預(yù)的需要。
65、上述說明僅是本公開技術(shù)方案的概述,為了能更清楚了解本公開的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為讓本公開的上述和其他目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉較佳實(shí)施例,并配合附圖,詳細(xì)說明如下。