本發(fā)明屬于計算機應(yīng)用的,具體涉及一種互聯(lián)網(wǎng)證據(jù)自動采集方法及系統(tǒng)。。
背景技術(shù):
1、隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,電子證據(jù)在司法程序中的重要性日益凸顯。盡管當前存在多種電子取證平臺,但這些平臺主要是為用戶提供固定證據(jù)的輔助工具,取證過程本質(zhì)上仍以人工操作為主導(dǎo),相關(guān)平臺僅起到證據(jù)固定的作用,即確保上傳平臺的證據(jù)與最終下載的證據(jù)是一致的,不存在修改的可能,但用戶使用該類平臺即使證實了其上傳平臺的證據(jù)本身是真實的,也難以確定所采集的證據(jù)完整性,難以保證形成了完整的證據(jù)鏈,同時,也較難證明證據(jù)獲取的整個流程的合法性,以及證據(jù)內(nèi)容的準確性、相關(guān)性等關(guān)鍵要求。
技術(shù)實現(xiàn)思路
1、本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)的缺點與不足,提供一種互聯(lián)網(wǎng)證據(jù)自動采集方法及系統(tǒng),通過結(jié)合ocr技術(shù)和知識圖譜對網(wǎng)絡(luò)頁面內(nèi)容進行智能侵權(quán)分析,自動提取關(guān)鍵信息,將關(guān)鍵信息與法律知識庫關(guān)聯(lián)生成證據(jù)固定策略,提高了互聯(lián)網(wǎng)證據(jù)采集的質(zhì)量和效率。
2、為了達到上述目的,本發(fā)明采用以下技術(shù)方案:
3、第一方面,本發(fā)明提供了一種互聯(lián)網(wǎng)證據(jù)自動采集方法,包括下述步驟:
4、采集案件相關(guān)數(shù)據(jù),獲取多維的案件基礎(chǔ)信息;
5、深度整合案件基礎(chǔ)信息,識別關(guān)鍵信息點及其證據(jù)價值,根據(jù)設(shè)定評估標準生成涉案原始信息采集策略;
6、執(zhí)行涉案原始信息采集策略,對涉案網(wǎng)絡(luò)頁面內(nèi)容進行采集,獲取涉案信息;
7、對涉案信息中關(guān)鍵信息進行提取,利用知識圖譜將關(guān)鍵信息和法律知識庫進行關(guān)聯(lián),基于規(guī)則引擎和機器學(xué)習(xí)對關(guān)聯(lián)結(jié)果進行處理,生成最優(yōu)的證據(jù)固定策略;所述關(guān)鍵信息包括文本信息和多媒體信息;
8、執(zhí)行證據(jù)固定策略,將涉案證據(jù)固定,生成證據(jù)采集報告,并通過人機交互界面顯示。
9、作為優(yōu)選的技術(shù)方案,所述深度整合案件基礎(chǔ)信息,包括:將采集到的案件基礎(chǔ)信息進行分類,將分類后的信息與預(yù)設(shè)的信息維度進行比對;所述信息維度包括信息種類和信息所處的平臺。
10、作為優(yōu)選的技術(shù)方案,構(gòu)建歷史案例庫,包括各種類型的案件和對應(yīng)的歷史采集策略;
11、將案件基礎(chǔ)信息輸入,利用歷史采集策略根據(jù)案件類型識別關(guān)鍵信息點,利用決策樹對關(guān)鍵信息點進行分類,獲取具有證據(jù)價值的關(guān)鍵信息點;所述關(guān)鍵信息點包括侵權(quán)行為、網(wǎng)絡(luò)頁面定位信息和電子媒介特征;
12、根據(jù)設(shè)定評估標準對具有證據(jù)價值的關(guān)鍵信息點進行評分,將評分結(jié)果反饋模型,若能夠有效地采集關(guān)鍵信息點時,則將該歷史采集策略權(quán)重提高,否則將該歷史采集策略權(quán)重降低;不斷優(yōu)化采集策略,獲取涉案原始信息采集策略。
13、作為優(yōu)選的技術(shù)方案,在執(zhí)行涉案原始信息采集策略時,如果侵權(quán)行為增加,定期采用增量式方法對涉案網(wǎng)絡(luò)頁面內(nèi)容進行采集。
14、作為優(yōu)選的技術(shù)方案,所述涉案原始信息采集策略包括采集對象、采集范圍、采集步驟、采集工具和采集頻率。
15、作為優(yōu)選的技術(shù)方案,所述對涉案信息中關(guān)鍵信息進行提取,包括:
16、利用光學(xué)字符識別將涉案信息的文字區(qū)域切割,根據(jù)字符特性識別并提取文本信息,校正文本信息;
17、對涉案物體或者標識進行識別,獲取多媒體信息。
18、作為優(yōu)選的技術(shù)方案,所述利用知識圖譜將關(guān)鍵信息和法律知識庫進行關(guān)聯(lián),包括:
19、將文本信息和多媒體信息編碼成向量表示,獲取關(guān)鍵信息向量;
20、構(gòu)建知識圖譜,其結(jié)構(gòu)包括法律概念、法律條款和關(guān)系;
21、計算關(guān)鍵信息向量與知識圖譜之間的相似度,根據(jù)設(shè)定的閾值將關(guān)鍵信息和法律條款進行關(guān)聯(lián)。
22、作為優(yōu)選的技術(shù)方案,所述生成最優(yōu)的證據(jù)固定策略,包括以下步驟:
23、規(guī)則引擎處理:定義專家知識的if-then規(guī)則,當關(guān)鍵信息與法律知識庫不匹配,則認定為“潛在侵權(quán)”,并將相應(yīng)的關(guān)鍵信息進行標記;
24、機器學(xué)習(xí)模型分類:預(yù)訓(xùn)練機器學(xué)習(xí)模型,將關(guān)鍵信息和關(guān)聯(lián)結(jié)果進行分類,獲取有效證據(jù)及其重要程度;
25、混合決策:將規(guī)則引擎處理和機器學(xué)習(xí)模型分類的輸出進行加權(quán)投票,根據(jù)投票結(jié)果確定證據(jù)的采集優(yōu)先級、采集步驟、保存格式和關(guān)聯(lián)說明,獲取涉案原始信息采集策略。
26、作為優(yōu)選的技術(shù)方案,所述將涉案證據(jù)固定,包括:
27、對涉案網(wǎng)絡(luò)頁面進行截圖、拍照、打印、視頻錄制或者公證;
28、將涉案證據(jù)上傳至區(qū)塊鏈;
29、對涉案證據(jù)進行加密儲存和訪問控制。
30、第二方面,本發(fā)明還提供了一種互聯(lián)網(wǎng)證據(jù)自動采集系統(tǒng),應(yīng)用于所述的互聯(lián)網(wǎng)證據(jù)自動采集方法,包括信息獲取模塊、信息采集方案生成模塊、信息采集模塊、采集內(nèi)容分析模塊、證據(jù)固定模塊和中央控制模塊;
31、信息獲取模塊,用于采集案件相關(guān)數(shù)據(jù),獲取案件基礎(chǔ)信息;
32、信息采集方案生成模塊,用于識別關(guān)鍵信息點及其證據(jù)價值,根據(jù)設(shè)定評估標準生成涉案原始信息采集策略;
33、信息采集模塊,用于執(zhí)行涉案原始信息采集策略,對涉案網(wǎng)絡(luò)頁面內(nèi)容進行采集,獲取涉案信息;
34、采集內(nèi)容分析模塊,用于利用光學(xué)字符識別對涉案信息中關(guān)鍵信息進行提取,利用知識圖譜將關(guān)鍵信息和法律知識庫進行關(guān)聯(lián),基于規(guī)則引擎和機器學(xué)習(xí)對關(guān)聯(lián)結(jié)果進行處理,生成最優(yōu)的證據(jù)固定策略;所述關(guān)鍵信息包括文本信息和多媒體信息;
35、證據(jù)固定模塊,用于執(zhí)行證據(jù)固定策略,將涉案證據(jù)固定,生成證據(jù)采集報告,并將證據(jù)采集報告?zhèn)鬏斨寥藱C交互界面;
36、中央控制模塊,用于協(xié)調(diào)各個模塊的工作,生成證據(jù)采集報告,并通過人機交互界面操作和查看證據(jù)采集報告。
37、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點和有益效果:
38、(1)本發(fā)明運用自然語言處理技術(shù)、圖像識別技術(shù)和知識圖譜技術(shù),對采集到的網(wǎng)絡(luò)網(wǎng)頁內(nèi)容進行智能分析,能夠自動提取關(guān)鍵信息,并結(jié)合法律知識庫生成最優(yōu)證據(jù)固定策略,增強模型魯棒性,從而提高證據(jù)采集的效率和準確性。
39、(2)本發(fā)明基于規(guī)則引擎和機器學(xué)習(xí)對關(guān)聯(lián)結(jié)果進行處理,增強了模型決策能力,確保了采集過程的科學(xué)性和針對性,降低了人工成本,提高了證據(jù)采集的質(zhì)量和效率。
40、(3)本發(fā)明結(jié)合現(xiàn)有的歷史案例庫并提供一套清晰的信息采集規(guī)則,為后續(xù)的實際取證工作提供了清晰、科學(xué)的行動指南。
1.一種互聯(lián)網(wǎng)證據(jù)自動采集方法,其特征在于,包括下述步驟:
2.根據(jù)權(quán)利要求1所述互聯(lián)網(wǎng)證據(jù)自動采集方法,其特征在于,所述深度整合案件基礎(chǔ)信息,包括:將采集到的案件基礎(chǔ)信息進行分類,將分類后的信息與預(yù)設(shè)的信息維度進行比對;所述信息維度包括信息種類和信息所處的平臺。
3.根據(jù)權(quán)利要求1所述互聯(lián)網(wǎng)證據(jù)自動采集方法,其特征在于,包括:
4.根據(jù)權(quán)利要求3所述互聯(lián)網(wǎng)證據(jù)自動采集方法,其特征在于,在執(zhí)行涉案原始信息采集策略時,如果侵權(quán)行為增加,定期采用增量式方法對涉案網(wǎng)絡(luò)頁面內(nèi)容進行采集。
5.根據(jù)權(quán)利要求1所述互聯(lián)網(wǎng)證據(jù)自動采集方法,其特征在于,所述證據(jù)采集策略涉案原始信息采集策略包括采集對象、采集范圍、采集步驟、采集工具和采集頻率。
6.根據(jù)權(quán)利要求1所述互聯(lián)網(wǎng)證據(jù)自動采集方法,其特征在于,所述對涉案信息中關(guān)鍵信息進行提取,包括:
7.根據(jù)權(quán)利要求1所述互聯(lián)網(wǎng)證據(jù)自動采集方法,其特征在于,所述利用知識圖譜將關(guān)鍵信息和法律知識庫進行關(guān)聯(lián),包括:
8.根據(jù)權(quán)利要求1所述互聯(lián)網(wǎng)證據(jù)自動采集方法,其特征在于,所述生成最優(yōu)的證據(jù)固定策略,包括以下步驟:
9.根據(jù)權(quán)利要求1所述互聯(lián)網(wǎng)證據(jù)自動采集方法,其特征在于,所述將涉案證據(jù)固定,包括:
10.一種互聯(lián)網(wǎng)證據(jù)自動采集系統(tǒng),其特征在于,應(yīng)用于權(quán)利要求1-9中任一項所述的互聯(lián)網(wǎng)證據(jù)自動采集方法,包括信息獲取模塊、信息采集方案生成模塊、信息采集模塊、采集內(nèi)容分析模塊、證據(jù)固定模塊和中央控制模塊;