本發(fā)明涉及文字識(shí)別,尤其涉及一種數(shù)字化智能識(shí)別合同的系統(tǒng)及方法。
背景技術(shù):
1、目前,隨著圖像識(shí)別文字的技術(shù)發(fā)展,合同是企業(yè)重要的交易文件,但是對(duì)于合同圖像的識(shí)別和關(guān)鍵要素的提取通常需要耗費(fèi)大量的人力進(jìn)行提取和鑒別,而且人力成本也較高,所以導(dǎo)致處理合同時(shí),識(shí)別效率過低。
2、因此,本發(fā)明提出了一種數(shù)字化智能識(shí)別合同的系統(tǒng)及方法。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種數(shù)字化智能識(shí)別合同的系統(tǒng)及方法,用以通過利用圖像掃描技術(shù)將實(shí)體合同轉(zhuǎn)化為電子格式,之后根據(jù)ocr工具識(shí)別圖像中的文本,后分析預(yù)處理后的文本,提取合同條款并整合成結(jié)構(gòu)化數(shù)據(jù),提高合同識(shí)別效率、準(zhǔn)確性,優(yōu)化了系統(tǒng)識(shí)別流程。
2、一方面,本發(fā)明提供一種數(shù)字化智能識(shí)別合同的系統(tǒng),包括:
3、數(shù)據(jù)獲取模塊:利用圖像獲取設(shè)備獲取目標(biāo)合同的的初始圖像,并將初始圖像預(yù)處理后得到電子副本格式的標(biāo)準(zhǔn)圖像;
4、智能識(shí)別模塊:使用ocr工具識(shí)別標(biāo)準(zhǔn)圖像的圖像文本內(nèi)容,將圖像文本內(nèi)容轉(zhuǎn)化為原始文本數(shù)據(jù);
5、文本處理模塊:對(duì)原始文本數(shù)據(jù)進(jìn)行文字處理,得到目標(biāo)合同的標(biāo)準(zhǔn)文本數(shù)據(jù);
6、文本分析模塊:利用自然語言識(shí)別技術(shù)分析標(biāo)準(zhǔn)文本數(shù)據(jù),提取關(guān)鍵合同數(shù)據(jù),并且將關(guān)鍵合同數(shù)據(jù)整合為標(biāo)準(zhǔn)結(jié)構(gòu)的格式化合同數(shù)據(jù)。
7、另一方面,所述數(shù)據(jù)獲取模塊,包括:
8、設(shè)備配置單元:基于識(shí)別合同的標(biāo)準(zhǔn)圖像要求,確定圖像獲取設(shè)備的種類,且根據(jù)傳感器獲取周邊環(huán)境參數(shù)選擇標(biāo)準(zhǔn)拍攝環(huán)境,基于圖像獲取設(shè)備的安裝手冊(cè)進(jìn)行安裝配置;
9、圖像獲取單元:用于利用安裝好的圖像獲取設(shè)備獲取目標(biāo)合同的初始圖像。
10、另一方面,所述數(shù)據(jù)獲取模塊,包括:
11、預(yù)處理單元:對(duì)所述初始圖像進(jìn)行圖像增強(qiáng)后得到電子副本格式清晰圖像,將清晰圖像按照預(yù)設(shè)標(biāo)準(zhǔn)比例調(diào)整后獲取到第一圖像;
12、校正單元:將第一圖像的文本部分進(jìn)行水平修正處理,并調(diào)用空白區(qū)域識(shí)別算法對(duì)待裁剪區(qū)進(jìn)行裁剪,獲取到第二圖像;
13、壓縮單元:對(duì)第二圖像利用壓縮工具壓縮到標(biāo)準(zhǔn)圖像大小,獲取到所述目標(biāo)合同的標(biāo)準(zhǔn)圖像。
14、另一方面,所述智能識(shí)別模塊,包括:
15、第一處理單元:利用ocr工具將標(biāo)準(zhǔn)圖像加載完成后,通過識(shí)別算法來提取所述標(biāo)準(zhǔn)圖像的特征以生成第一特征圖像;
16、第二處理單元:將所述第一特征圖像進(jìn)行8個(gè)角度的旋轉(zhuǎn),獲取到8個(gè)角度的方向特征圖像,對(duì)8個(gè)方向特征圖像進(jìn)行特征提取得到8個(gè)方向特征值;
17、向量獲取單元:將每個(gè)方向特征值按照向量轉(zhuǎn)換標(biāo)準(zhǔn)轉(zhuǎn)化為相應(yīng)的方向向量,同時(shí),將第一特征圖像的特征向量作為中心向量;
18、矩陣構(gòu)建單元:基于所有方向向量以及中心向量構(gòu)成協(xié)方差矩陣;
19、投影單元:根據(jù)協(xié)方差矩陣獲取到混合特征向量,將所述混合特征向量投影到每個(gè)方向向量上得到投影系數(shù),并將對(duì)應(yīng)的投影系數(shù)作為相應(yīng)方向特征圖像的權(quán)重系數(shù)。
20、另一方面,所述智能識(shí)別模塊,還包括:
21、融合單元:基于方向特征圖像的權(quán)重系數(shù)對(duì)8個(gè)方向向量進(jìn)行特征融合,得到融合特征向量,其中,所述融合特征向量包含若干元素特征,且每個(gè)元素特征包含橫向子特征以及縱向子特征;
22、匹配單元:基于特征-文本庫與融合特征向量進(jìn)行匹配,獲取所述融合特征向量中每個(gè)元素特征對(duì)應(yīng)的文本特征;
23、分別計(jì)算每個(gè)元素特征與對(duì)應(yīng)匹配的文本特征的初始相似度;
24、;
25、其中,表示所述融合特征向量中第i個(gè)元素特征與對(duì)應(yīng)匹配的文本特征的初始相似度;表示融合特征向量中第i個(gè)元素特征和對(duì)應(yīng)的文本特征的橫向梯度差值,表示融合特征向量中第i個(gè)元素特征和對(duì)應(yīng)的文本特征的縱向梯度差值,)表示正切函數(shù),和分別表示融合特征向量中第i個(gè)元素特征和對(duì)應(yīng)的文本特征,表示基于的點(diǎn)積函數(shù),表示范數(shù)比值;
26、對(duì)所述初始相似度進(jìn)行修正,獲取得到對(duì)應(yīng)元素特征的最終相似度;
27、;
28、其中,表示融合特征向量中第i個(gè)元素特征的最終相似度,)表示指數(shù)函數(shù),表示融合特征向量中所有元素特征下的最大匹配相似度,表示融合特征向量中所有元素特征下的最小匹配相似度,表示融合特征向量中所有元素特征的均值相似度;表示基于所有的方差以及所有的方差的平均值;
29、基于所述融合特征向量中每個(gè)元素特征的最終相似度,從相似度-文字轉(zhuǎn)化映射表中匹配對(duì)應(yīng)的文字轉(zhuǎn)化方案,來將相應(yīng)圖像文本內(nèi)容轉(zhuǎn)化為原始文本數(shù)據(jù)。
30、另一方面,所述文本處理模塊,包括:
31、清理單元:遍歷原始文本數(shù)據(jù),將原始文本數(shù)據(jù)中未識(shí)別詞匯標(biāo)記為目標(biāo)詞匯,并將所述目標(biāo)詞匯和標(biāo)準(zhǔn)詞典進(jìn)行詞匯比較;
32、若所述目標(biāo)詞匯中存在標(biāo)準(zhǔn)相似詞匯,則將目標(biāo)詞匯轉(zhuǎn)化為相似度最高的標(biāo)準(zhǔn)相似詞匯;反之,判定所述目標(biāo)詞匯為未知詞匯,進(jìn)行刪除操作,遍歷完后輸出第一合同數(shù)據(jù);
33、其他格式單元:針對(duì)原始文本數(shù)據(jù)中非結(jié)構(gòu)化數(shù)據(jù)且結(jié)合預(yù)設(shè)目標(biāo)文本格式進(jìn)行濾除和轉(zhuǎn)化操作,輸出第二合同數(shù)據(jù);
34、文本校對(duì)單元:基于校對(duì)器將第一合同數(shù)據(jù)和第二合同數(shù)據(jù)中的拼寫錯(cuò)誤詞匯進(jìn)行修正,得到標(biāo)準(zhǔn)文本數(shù)據(jù)。
35、另一方面,所述文本分析模塊,包括:
36、分詞單元:用于將標(biāo)準(zhǔn)文本數(shù)據(jù)分割成單詞序列,且基于通用詞詞典過濾掉無用停用詞,得到標(biāo)準(zhǔn)單詞序列;
37、實(shí)體識(shí)別單元:基于合同實(shí)體庫,利用命名實(shí)體識(shí)別系統(tǒng)來識(shí)別標(biāo)準(zhǔn)單詞序列的實(shí)體,得到實(shí)體序列;
38、關(guān)鍵詞提取單元:基于合同關(guān)鍵詞識(shí)別庫,對(duì)標(biāo)準(zhǔn)單詞序列進(jìn)行關(guān)鍵詞提取,得到關(guān)鍵詞序列;
39、判斷單元:取實(shí)體序列和關(guān)鍵詞序列的并集,將并集部分無用詞匯過濾處理后,得到關(guān)鍵合同數(shù)據(jù)。
40、另一方面,所述文本分析模塊,包括:
41、語法提取單元:對(duì)關(guān)鍵合同數(shù)據(jù)進(jìn)行語法分析,確定詞匯之間的關(guān)系和層次結(jié)構(gòu),并且按照語法邏輯順序添加語法詞匯生成合同條款;
42、結(jié)構(gòu)化數(shù)據(jù)單元:將合同條款根據(jù)標(biāo)準(zhǔn)預(yù)設(shè)合同標(biāo)準(zhǔn)結(jié)構(gòu)的格式修正標(biāo)準(zhǔn)化處理,得到目標(biāo)合同的格式化合同數(shù)據(jù)。
43、另一方面,一種數(shù)字化智能識(shí)別合同的方法,包括:
44、步驟1:利用圖像獲取設(shè)備獲取目標(biāo)合同的的初始圖像,并將初始圖像預(yù)處理后得到電子副本格式的標(biāo)準(zhǔn)圖像;
45、步驟2:使用ocr工具識(shí)別標(biāo)準(zhǔn)圖像的圖像文本內(nèi)容,將圖像文本內(nèi)容轉(zhuǎn)化為原始文本數(shù)據(jù);
46、步驟3:對(duì)原始文本數(shù)據(jù)進(jìn)行文字處理,得到目標(biāo)合同的標(biāo)準(zhǔn)文本數(shù)據(jù);
47、步驟4:利用自然語言識(shí)別技術(shù)分析標(biāo)準(zhǔn)文本數(shù)據(jù),提取關(guān)鍵合同數(shù)據(jù),并且將關(guān)鍵合同數(shù)據(jù)整合為標(biāo)準(zhǔn)結(jié)構(gòu)的格式化合同數(shù)據(jù)。
48、本發(fā)明提供一種數(shù)字化智能識(shí)別合同的系統(tǒng)及方法,用以通過利用圖像掃描技術(shù)將實(shí)體合同轉(zhuǎn)化為電子格式,之后根據(jù)ocr工具識(shí)別圖像中的文本,后使用?nlp?技術(shù)分析預(yù)處理后的文本,提取合同條款并整合成結(jié)構(gòu)化數(shù)據(jù),提高合同識(shí)別效率、準(zhǔn)確性,優(yōu)化了系統(tǒng)識(shí)別流程。