本技術(shù)涉及文檔的審查,具體而言,涉及一種文檔的審查方法、裝置、計算機可讀存儲介質(zhì)與電子設(shè)備。
背景技術(shù):
1、通常來說,法律審查是指對合同、案件信息等重要要素進行合規(guī)風(fēng)險審查的活動。法律審查一般需要專業(yè)的法務(wù)人員參與,是一個費時費力的過程。法務(wù)人員對合同等文檔進行法律審查過程中,一般會出具審查后的法律審查意見。但該審查意見通常是總結(jié)性的語句,并不會針對文檔中的某一句或段落進行相應(yīng)標注,因此往往會得到大量文檔與審查意見的對應(yīng)關(guān)系,卻很難得到文檔中的某一句與審查意見的對應(yīng)關(guān)系。
2、現(xiàn)有技術(shù)關(guān)于對文檔進行審查的方法是對文檔進行拆句后進行二次標注,但這將耗費大量的人力物力成本。
技術(shù)實現(xiàn)思路
1、本技術(shù)的主要目的在于提供一種文檔的審查方法、裝置、計算機可讀存儲介質(zhì)與電子設(shè)備,以至少解決現(xiàn)有技術(shù)對文檔進行審查的方法是對文檔進行拆句后進行二次標注,導(dǎo)致需要人力物力成本較高的問題。
2、為了實現(xiàn)上述目的,根據(jù)本技術(shù)的一個方面,提供了一種文檔的審查方法,包括:獲取帶有審查意見的訓(xùn)練文檔,采用longformer預(yù)訓(xùn)練模型對所述訓(xùn)練文檔的所述審查意見進行語義信息提取,得到各所述審查意見對應(yīng)的語義特征,根據(jù)所述語義特征對所述審查意見進行歸類,確定各個所述審查意見對應(yīng)的偽標簽,根據(jù)所述偽標簽的類別對所述訓(xùn)練文檔進行拆分處理,得到多個目標訓(xùn)練文檔,其中,所述目標訓(xùn)練文檔與一種所述偽標簽對應(yīng);將所述訓(xùn)練文檔拆分為分句,采用所述longformer預(yù)訓(xùn)練模型對所述訓(xùn)練文檔的各個所述分句進行語義特征提取,得到訓(xùn)練文檔特征集,其中,所述訓(xùn)練文檔特征集包括多個分句、以及與所述分句對應(yīng)的語義特征;構(gòu)建初始弱監(jiān)督網(wǎng)絡(luò)模型,采用所述訓(xùn)練文檔特征集與所述目標訓(xùn)練文檔對所述初始弱監(jiān)督網(wǎng)絡(luò)模型進行訓(xùn)練,得到訓(xùn)練后的弱監(jiān)督網(wǎng)絡(luò)模型;獲取待審查文檔,將所述待審查文檔拆分為分句,對所述待審查文檔的各個所述分句進行語義特征提取,得到待審查文檔特征集,采用所述訓(xùn)練后的弱監(jiān)督網(wǎng)絡(luò)模型對所述待審查文檔特征集的各個所述分句進行審查處理,生成審查文檔,其中,所述審查文檔中的各個所述分句分別具有對應(yīng)的所述審查意見。
3、可選地,將所述訓(xùn)練文檔拆分為分句,采用所述longformer預(yù)訓(xùn)練模型對所述訓(xùn)練文檔的各個所述分句進行語義特征提取,包括:采用所述訓(xùn)練文檔的分隔符將所述訓(xùn)練文檔拆分為所述分句,其中,所述分隔符包括分段符、換行符、句號、感嘆號中的至少之一;確定所述分句的數(shù)量是否小于等于預(yù)設(shè)數(shù)量閾值;在確定所述分句的數(shù)量小于等于所述預(yù)設(shè)數(shù)量閾值的情況下,采用所述longformer預(yù)訓(xùn)練模型對所述訓(xùn)練文檔的各個所述分句進行語義特征提取。
4、可選地,獲取待審查文檔,將所述待審查文檔拆分為分句,對所述待審查文檔的各個所述分句進行語義特征提取,得到待審查文檔特征集,采用所述訓(xùn)練后的弱監(jiān)督網(wǎng)絡(luò)模型所述弱監(jiān)督網(wǎng)絡(luò)模型對所述待審查文檔特征集的各個所述分句進行審查處理,生成審查文檔,其中,所述審查文檔中的各個所述分句分別具有對應(yīng)的所述審查意見,包括:獲取所述待審查文檔,采用所述待審查文檔的分隔符對所述待審查文檔進行分句處理,確定所述待審查文檔的所述分句數(shù)量是否大于預(yù)設(shè)數(shù)量閾值;在確定所述待審查文檔的所述分句的數(shù)量大于所述預(yù)設(shè)數(shù)量閾值的情況下,采用滑動窗口方法將所述待審查文檔輸入所述弱監(jiān)督網(wǎng)絡(luò)模型中,以對所述待審查文檔的各個所述分句進行審查處理,得到各所述分句對應(yīng)的所述偽標簽以及所述偽標簽的預(yù)測值,其中,所述滑動窗口方法的滑動窗口等于所述預(yù)設(shè)數(shù)量閾值,滑動步長小于所述預(yù)設(shè)數(shù)量閾值;選取各個所述分句對應(yīng)的所述偽標簽的所述預(yù)測值大于預(yù)設(shè)閾值的所述分句,得到多個目標分句,根據(jù)所述多個目標分句對應(yīng)的所述偽標簽,確定各所述目標分句的審查意見以生成所述審查文檔。
5、可選地,在確定所述待審查文檔的所述分句數(shù)量是否大于預(yù)設(shè)數(shù)量閾值之后,所述方法還包括:在確定所述待審查文檔的所述分句的數(shù)量小于所述預(yù)設(shè)數(shù)量閾值的情況下,采用預(yù)設(shè)分句對所述待審查文檔進行填充處理,以使得填充處理后的所述待審查文檔的所述分句數(shù)量等于所述預(yù)設(shè)數(shù)量閾值,其中,所述預(yù)設(shè)分句為無語義特征的分句;采用所述弱監(jiān)督網(wǎng)絡(luò)模型對填充處理后的所述待審查文檔的各個分句進行審查處理,得到各所述分句對應(yīng)的所述偽標簽以及所述偽標簽的預(yù)測值;選取各個所述分句對應(yīng)的所述偽標簽的所述預(yù)測值大于所述預(yù)設(shè)閾值的所述分句,得到多個所述目標分句,根據(jù)所述多個目標分句對應(yīng)的所述偽標簽,確定各所述目標分句的審查意見以生成所述審查文檔。
6、可選地,在確定所述待審查文檔的所述分句數(shù)量是否大于預(yù)設(shè)數(shù)量閾值之后,所述方法還包括:在確定所述待審查文檔的所述分句數(shù)量等于所述預(yù)設(shè)數(shù)量閾值的情況下,采用所述弱監(jiān)督網(wǎng)絡(luò)模型對所述待審查文檔的各個分句進行審查處理,得到各所述分句對應(yīng)的所述偽標簽以及所述偽標簽的預(yù)測值;選取各個所述分句對應(yīng)的所述偽標簽的所述預(yù)測值大于所述預(yù)設(shè)閾值的所述分句,得到多個所述目標分句,根據(jù)所述多個目標分句對應(yīng)的所述偽標簽,確定各所述目標分句的審查意見以生成所述審查文檔。
7、可選地,根據(jù)所述語義特征對所述審查意見進行歸類,包括:采用dbscan算法根據(jù)所述語義特征對所述審查意見進行歸類。
8、可選地,采用所述訓(xùn)練文檔特征集與所述目標訓(xùn)練文檔對所述初始弱監(jiān)督網(wǎng)絡(luò)模型進行訓(xùn)練,得到訓(xùn)練后的弱監(jiān)督網(wǎng)絡(luò)模型,包括:將所述訓(xùn)練文檔特征集作為所述初始弱監(jiān)督網(wǎng)絡(luò)模型的輸入,對所述訓(xùn)練文檔特征集進行特征轉(zhuǎn)換得到文檔特征矩陣,然后將所述文檔特征矩陣分別輸入至語句支路模塊和類別支路模塊,所述語句支路模塊輸出第一偽標簽矩陣,所述類別支路模塊輸出第二偽標簽矩陣,所述第一偽標簽矩陣和所述第二偽標簽矩陣均為多個帶有偽標簽的分句形成的矩陣,對所述第一偽標簽矩陣和所述第二偽標簽矩陣進行融合處理得到融合矩陣,采用與所述目標訓(xùn)練文檔對應(yīng)的所述偽標簽和所述融合矩陣進行分類損失處理,以優(yōu)化所述初始弱監(jiān)督網(wǎng)絡(luò)模型,得到所述訓(xùn)練后的弱監(jiān)督網(wǎng)絡(luò)模型,其中,所述訓(xùn)練后的所述弱監(jiān)督網(wǎng)絡(luò)模型包括特征轉(zhuǎn)換模塊和類別支路模塊,所述特征轉(zhuǎn)換模塊用于對輸入的所述待審查文檔特征集進行特征轉(zhuǎn)換得到所述文檔特征矩陣,所述文檔特征矩陣包括多個所述分句以及與所述分句對應(yīng)的語義特征,所述類別支路模塊用于根據(jù)所述文檔特征矩陣中的各個所述分句的所述語義特征匹配與各所述分句最相關(guān)的所述偽標簽,輸出所述第二偽標簽矩陣作為所述訓(xùn)練后的所述弱監(jiān)督網(wǎng)絡(luò)模型的輸出。
9、根據(jù)本技術(shù)的另一方面,提供了一種文檔的審查裝置,包括:獲取單元,應(yīng)于獲取帶有審查意見的訓(xùn)練文檔,采用longformer預(yù)訓(xùn)練模型對所述訓(xùn)練文檔的所述審查意見進行語義信息提取,得到各所述審查意見對應(yīng)的語義特征,根據(jù)所述語義特征對所述審查意見進行歸類,確定各個所述審查意見對應(yīng)的偽標簽,根據(jù)所述偽標簽的類別對所述訓(xùn)練文檔進行拆分處理,得到多個目標訓(xùn)練文檔,其中,所述目標訓(xùn)練文檔與一種所述偽標簽對應(yīng);拆分單元,用于將所述訓(xùn)練文檔拆分為分句,采用所述longformer預(yù)訓(xùn)練模型對所述訓(xùn)練文檔的各個所述分句進行語義特征提取,得到訓(xùn)練文檔特征集,其中,所述訓(xùn)練文檔特征集包括多個分句、以及與所述分句對應(yīng)的語義特征;訓(xùn)練單元,用于構(gòu)建初始弱監(jiān)督網(wǎng)絡(luò)模型,采用所述訓(xùn)練文檔特征集與所述目標訓(xùn)練文檔對所述初始弱監(jiān)督網(wǎng)絡(luò)模型進行訓(xùn)練,得到訓(xùn)練后的弱監(jiān)督網(wǎng)絡(luò)模型;處理單元,用于獲取待審查文檔,將所述待審查文檔拆分為分句,對所述待審查文檔的各個所述分句進行語義特征提取,得到待審查文檔特征集,采用所述訓(xùn)練后的弱監(jiān)督網(wǎng)絡(luò)模型對所述待審查文檔特征集的各個所述分句進行審查處理,生成審查文檔,其中,所述審查文檔中的各個所述分句分別具有對應(yīng)的所述審查意見。
10、根據(jù)本技術(shù)的再一方面,提供了一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)包括存儲的程序,其中,在所述程序運行時控制所述計算機可讀存儲介質(zhì)所在設(shè)備執(zhí)行任意一種所述的文檔的審查方法。
11、根據(jù)本技術(shù)的又一方面,提供了一種電子設(shè)備,包括:一個或多個處理器,存儲器,以及一個或多個程序,其中,所述一個或多個程序被存儲在所述存儲器中,并且被配置為由所述一個或多個處理器執(zhí)行,所述一個或多個程序包括用于執(zhí)行任意一種所述的文檔的審查方法。
12、應(yīng)用本技術(shù)的技術(shù)方案,獲取帶有審查意見的訓(xùn)練文檔,采用longformer預(yù)訓(xùn)練模型對訓(xùn)練文檔的審查意見進行語義信息提取,得到各審查意見對應(yīng)的語義特征,根據(jù)語義特征對審查意見進行歸類,確定各個審查意見對應(yīng)的偽標簽,根據(jù)偽標簽的類別對訓(xùn)練文檔進行拆分處理,得到多個目標訓(xùn)練文檔,其中,目標訓(xùn)練文檔與一種偽標簽對應(yīng);將訓(xùn)練文檔拆分為分句,采用longformer預(yù)訓(xùn)練模型對訓(xùn)練文檔的各個分句進行語義特征提取,得到訓(xùn)練文檔特征集,其中,訓(xùn)練文檔特征集包括多個分句、以及與分句對應(yīng)的語義特征;構(gòu)建初始弱監(jiān)督網(wǎng)絡(luò)模型,以及對初始弱監(jiān)督網(wǎng)絡(luò)模型進行訓(xùn)練得到訓(xùn)練后的弱監(jiān)督網(wǎng)絡(luò)模型,其中,對初始弱監(jiān)督網(wǎng)絡(luò)模型訓(xùn)練的過程包括:將訓(xùn)練文檔特征集作為初始弱監(jiān)督網(wǎng)絡(luò)模型的輸入,對訓(xùn)練文檔特征集進行特征轉(zhuǎn)換得到文檔特征矩陣,然后將文檔特征矩陣分別輸入至語句支路模塊和類別支路模塊,語句支路模塊輸出第一偽標簽矩陣,類別支路模塊輸出第二偽標簽矩陣,第一偽標簽矩陣和第二偽標簽矩陣均為多個帶有偽標簽的分句形成的矩陣,對第一偽標簽矩陣和第二偽標簽矩陣進行融合處理得到融合矩陣,采用與目標訓(xùn)練文檔對應(yīng)的偽標簽和融合矩陣進行分類損失處理;獲取待審查文檔,將待審查文檔拆分為分句,對待審查文檔的各個分句進行語義特征提取,得到待審查文檔特征集,采用訓(xùn)練后的弱監(jiān)督網(wǎng)絡(luò)模型對待審查文檔特征集的各個分句進行審查處理,生成審查文檔,其中,審查文檔中的各個分句分別具有對應(yīng)的審查意見。通過對已有數(shù)據(jù)的審查意見使用聚類手段獲取偽標簽,免去了對審查意見人工標注的過程,采用適用于文本弱監(jiān)督訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu),使得文檔中每個句子都能夠預(yù)測得到其審查意見標簽,解決了現(xiàn)有技術(shù)對文檔進行拆句后進行二次標注,導(dǎo)致需要人力物力成本較高的問題。