本發(fā)明涉及數(shù)字指紋,具體涉及一種基于文檔內(nèi)容的數(shù)字指紋隱藏方法。
背景技術(shù):
1、隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)字文檔的復(fù)制和傳播變得越來越容易。然而,這種便利性同時(shí)也帶來了版權(quán)侵犯和身份識(shí)別等問題。為了解決這些問題,數(shù)字指紋技術(shù)應(yīng)運(yùn)而生。數(shù)字指紋技術(shù)通過在數(shù)字文檔中嵌入獨(dú)特的標(biāo)識(shí)信息,使得每個(gè)文檔都有一個(gè)唯一的標(biāo)識(shí),從而可以追蹤和識(shí)別文檔的來源。
2、然而,現(xiàn)有的數(shù)字指紋技術(shù)通常需要在文檔的顯眼位置嵌入標(biāo)識(shí)信息,這無疑會(huì)破壞文檔的原始內(nèi)容。此外,一些攻擊者可能會(huì)嘗試移除或修改這些標(biāo)識(shí)信息,以逃避版權(quán)追蹤和身份識(shí)別。傳統(tǒng)的文件在下載之后,由于留存于個(gè)人計(jì)算機(jī),當(dāng)個(gè)人進(jìn)行再次分發(fā)時(shí)就無法或知發(fā)送出去的最終人(合法版權(quán)最終操作人)和發(fā)出的時(shí)間。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明提供一種基于文檔內(nèi)容的數(shù)字指紋隱藏方法,主要在于解決各類文件(包括word、ppt、excel、pdf等格式文件),在外傳以后仍然能夠?qū)?shù)字信息隱藏在文檔的每一個(gè)頁和每一個(gè)段落中,且該數(shù)字信息不易被發(fā)現(xiàn)和清除,確保大家在未來進(jìn)行全文粘貼單頁粘貼段落復(fù)制時(shí)仍然能保持最終的數(shù)字指紋,用于文檔的身份識(shí)別、追根溯源,充分保護(hù)知識(shí)產(chǎn)權(quán),即在不破壞文檔原始內(nèi)容的情況下,將標(biāo)識(shí)信息隱藏在文檔中,同時(shí)保證這些信息在常規(guī)使用中不會(huì)被輕易發(fā)現(xiàn)或修改。
2、本發(fā)明通過下述技術(shù)方案實(shí)現(xiàn):
3、一種基于文檔內(nèi)容的數(shù)字指紋隱藏方法,對(duì)進(jìn)行改動(dòng)并保存后的目標(biāo)文件新增數(shù)字指紋切片并寫入進(jìn)所述目標(biāo)文件的多個(gè)區(qū)域中,具體步驟包括:
4、s1、解析目標(biāo)文件,確定數(shù)字指紋切片可寫入?yún)^(qū)域;
5、s2、獲取要寫入目標(biāo)文件的數(shù)字信息,并將所述數(shù)字信息進(jìn)行加工生成隱藏式的數(shù)字指紋切片;
6、s3、將不同的多個(gè)所述隱藏式的數(shù)字指紋切片基于設(shè)定的規(guī)則隱藏式的對(duì)應(yīng)分散寫入所述目標(biāo)文件的多個(gè)數(shù)字指紋切片可寫入?yún)^(qū)域。
7、作為優(yōu)化,所述目標(biāo)文件包括word文件、pdf文件、excel文件和powerpoint文件。
8、作為優(yōu)化,s1中,對(duì)word文件的解析以確定所述數(shù)字指紋切片可寫入?yún)^(qū)域的過程為:
9、a1、確定word文件的格式;
10、a2、對(duì)docx文件進(jìn)行解析或者對(duì)doc文件進(jìn)行解析;
11、具體的,對(duì)docx文件的數(shù)字指紋切片可寫入?yún)^(qū)域進(jìn)行解析;
12、通過對(duì)docx文件結(jié)構(gòu)解壓、讀取xml文件、分析所述docx文件的文件結(jié)構(gòu)、處理所述xml文件之間的關(guān)系文件來完成對(duì)所述docx文件結(jié)構(gòu)的解析,得到的所述docx文件的文件結(jié)構(gòu)包含三層內(nèi)容,第一層內(nèi)容為[content_types].xml,用于描述整個(gè)docx文件的文檔內(nèi)容;第二層內(nèi)容是_rels,用于描述存儲(chǔ)文檔內(nèi)容、樣式和布局的不同的文件夾和文件中之間的關(guān)系;第三層內(nèi)容為docx文件解壓后的內(nèi)容,包括word文件對(duì)象、xml文件;所述docx文件的數(shù)字指紋切片可寫入?yún)^(qū)域包括第一層內(nèi)容和第三層內(nèi)容;
13、具體的,對(duì)doc文件進(jìn)行解析:
14、doc?文件是二進(jìn)制存儲(chǔ)數(shù)據(jù)文件,解析步驟如下:
15、a、通過編程語言和庫來讀取doc文件的二進(jìn)制內(nèi)容,分析所述doc文件的文件結(jié)構(gòu)得到文件包含的文件頭、文件屬性、文本內(nèi)容、對(duì)象索引;
16、b、解析獲取到的二進(jìn)制內(nèi)容信息:
17、文件頭:用于標(biāo)識(shí)文件類型和版本;
18、文件屬性:包含了文件的元數(shù)據(jù)信息;
19、文本內(nèi)容:包含了文檔的實(shí)際文本數(shù)據(jù);
20、對(duì)象索引:用于定位和管理文檔中的word文件對(duì)象;
21、a3、解析所述word文件中的文檔內(nèi)容,識(shí)別和提取所述文檔內(nèi)容中的對(duì)象的特征和屬性;
22、a4、比對(duì)解析出來的文件結(jié)構(gòu)和文檔內(nèi)容,確認(rèn)所述word文件的真實(shí)性和完整性以及是否存在非法操作;
23、s1中,對(duì)pdf文件的解析過程為:
24、b1、基于物理結(jié)構(gòu)將所述pdf文件劃分成文件頭、文件體、交叉引用表和文件尾;
25、b2、利用“特征分析法”對(duì)所述pdf文件的特征向量進(jìn)行識(shí)別并分析所述pdf文件的特征;
26、b3、利用“對(duì)象分析法”對(duì)所述pdf文件進(jìn)行邏輯結(jié)構(gòu)分析,得到所述pdf文件的各個(gè)模塊對(duì)象;
27、所述pdf文件劃分成的文件頭、文件體、交叉引用表和文件尾即為數(shù)字指紋切片可寫入?yún)^(qū)域;
28、s1中,對(duì)excel文件的解析過程為:
29、c1、解析所述excel文件的文件頭,獲取所述excel的基本信息,所述基本信息包括文件版本、工作表數(shù)量;
30、c2、根據(jù)所述excel文件的文件頭的信息,逐個(gè)解析所述excel文件中的各個(gè)工作表,獲取各個(gè)所述工作表的名稱、行數(shù)、列數(shù)以及單元格信息,所述excel文件的文件頭、各個(gè)所述工作表的名稱、行數(shù)、列數(shù)以及單元格信息即為數(shù)字指紋切片可寫入?yún)^(qū)域;
31、s1中,對(duì)pptx文件的解析過程為:
32、d1、確定powerpoint文件的格式;
33、d2、對(duì)pptx文件進(jìn)行解析或者對(duì)ppt文件進(jìn)行解析;
34、具體的,對(duì)pptx文件的數(shù)字指紋切片可寫入?yún)^(qū)域進(jìn)行解析;
35、解析所述pptx文件的結(jié)構(gòu),得到多個(gè)關(guān)于所述pptx文件的子文件以及各個(gè)所述子文件之間的關(guān)系;所述子文件包括演示文稿文件、宏文件、圖片文件和圖表文件;
36、利用“對(duì)象識(shí)別法”對(duì)所述演示文稿文件中的每一張幻燈片的對(duì)象以及宏文件進(jìn)行識(shí)別和分析,充分了解每一張幻燈片的對(duì)象和結(jié)構(gòu)以及宏文件的代碼,所述幻燈片的對(duì)象包括圖片、圖表、文本和動(dòng)畫;
37、利用“特征分析法”對(duì)每一張幻燈片的對(duì)象和宏文件的代碼進(jìn)行特征向量提取,得到每個(gè)所述對(duì)象的屬性以及對(duì)象在幻燈片中的作用,以及宏文件的代碼在pptx文件中的應(yīng)用,所述pptx文件的演示文稿文件、宏文件、圖片文件和圖表文件即為數(shù)字指紋切片可寫入?yún)^(qū)域;
38、具體的,對(duì)pptx文件的數(shù)字指紋切片可寫入?yún)^(qū)域進(jìn)行解析:
39、pptx文件是二進(jìn)制存儲(chǔ)數(shù)據(jù)文件,解析步驟如下:
40、a、文件讀?。菏紫壤镁幊陶Z言的函數(shù)讀取整個(gè)ppt文件;
41、b、結(jié)構(gòu)分析:利用編程語言獲取.ppt文件的內(nèi)部結(jié)構(gòu)和格式;
42、c、數(shù)據(jù)提?。和ㄟ^對(duì)二進(jìn)制數(shù)據(jù)進(jìn)行位操作、字節(jié)解析和轉(zhuǎn)換,提取二進(jìn)制數(shù)據(jù),所述ppt文件的數(shù)字指紋切片可寫入?yún)^(qū)域包括幻燈片正文、文件屬性。
43、作為優(yōu)化,所述數(shù)字信息包括產(chǎn)品信息、公司組織信息、時(shí)間戳信息、圖標(biāo)信息、加密信息和自編碼序列信息。
44、作為優(yōu)化,s2中,將所述數(shù)字信息進(jìn)行加工生成不同層次的隱藏式的數(shù)字指紋切片的具體過程為:
45、s2.1、把選定的所有所述數(shù)字信息進(jìn)行匯總并保存為原有的數(shù)字信息,并按照設(shè)定的序列將不同的所述數(shù)字信息進(jìn)行編碼,并以第一特定符號(hào)將不同的所述數(shù)字信息的編碼分隔開,以形成聚合數(shù)字編碼信息;
46、s2.2、根據(jù)不同的分類維度對(duì)所述聚合數(shù)字編碼信息進(jìn)行切片轉(zhuǎn)換,形成不同分類維度的多維的第一特征向量,所述第一特征向量均為第一切片信息,并對(duì)各個(gè)所述第一切片信息進(jìn)行二進(jìn)制編碼得到第一切片編碼信息,利用混合加密技術(shù)結(jié)合多種加密策略對(duì)所述第一切片編碼信息進(jìn)行加密得到多個(gè)第一加密切片編碼信息;
47、s2.3、結(jié)合切片信息的分類維度中的時(shí)間維度和用戶組織信息維度,對(duì)所述目標(biāo)文件中的所有聚合數(shù)字編碼信息的第一特征向量使用聚類算法將相似度高于設(shè)定閾值的第一特征向量歸為一類,將屬于同一類的所述第一特征向量以第二特定符號(hào)隔開形成不同的層次的第二特征向量,所述第二特征向量為屬于同一類的第一特征向量的組合,且所述第一特定符號(hào)和第二特定符號(hào)不相同,所述第二特征向量均為第二切片信息,并對(duì)各個(gè)所述第二切片信息進(jìn)行二進(jìn)制編碼得到第二切片編碼信息,利用混合加密技術(shù)結(jié)合多種加密策略對(duì)所述第二切片編碼信息進(jìn)行加密得到多個(gè)第二加密切片編碼信息;
48、s2.5、對(duì)多個(gè)所述第一加密切片編碼信息和第二加密切片編碼信息進(jìn)行視覺效果設(shè)置,從而形成隱藏式的數(shù)字指紋切片。
49、作為優(yōu)化,s2.4還可以為:用降維技術(shù)提取所述目標(biāo)文件中的所有聚合數(shù)字編碼信息的不同類型的第一特征向量的主要成分,形成不同層次的第二特征向量。
50、作為優(yōu)化,s3的具體過程為:
51、s3.1、若目標(biāo)文件為word文件,則將所述數(shù)字指紋切片采用“信息隱寫技術(shù)”和“信息隱藏技術(shù)”分散寫入所述word文件的數(shù)字指紋切片可寫入?yún)^(qū)域中;
52、s3.2、若目標(biāo)文件為pdf文件,則將所述數(shù)字指紋切片中的第一加密切片編碼信息和第二特征向量采用“信息隱寫技術(shù)”和“信息隱藏技術(shù)”分散寫入所述pdf文件的數(shù)字指紋切片可寫入?yún)^(qū)域中;
53、s3.3、若目標(biāo)文件為excel文件,則將所述數(shù)字指紋切片中的第一加密切片編碼信息和第二特征向量采用“信息隱寫技術(shù)”和“信息隱藏技術(shù)”分散寫入所述excel文件的數(shù)字指紋切片可寫入?yún)^(qū)域中;
54、s3.4、若目標(biāo)文件為powerpoint文件,則所述數(shù)字指紋切片中的第一加密切片編碼信息和第二特征向量采用“信息隱寫技術(shù)”和“信息隱藏技術(shù)”分散寫入所述powerpoint文件的數(shù)字指紋切片可寫入?yún)^(qū)域中。
55、作為優(yōu)化,還包括s4、在接收到隱藏式的寫入數(shù)字指紋切片的目標(biāo)文件后,對(duì)所述目標(biāo)文件中的數(shù)值指紋切片進(jìn)行提取、重組和驗(yàn)證。
56、作為優(yōu)化,s4的具體過程為:
57、s4.1、在需要對(duì)所述目標(biāo)文件進(jìn)行檢測時(shí),通過設(shè)定的規(guī)則進(jìn)行位置定位來提取嵌入在目標(biāo)文件各處的數(shù)字指紋切片;
58、s4.2、將提取出的若干數(shù)字指紋切片進(jìn)行解密、重組并與原始的數(shù)字信息進(jìn)行比對(duì),判斷所述目標(biāo)文件是否被篡改。
59、作為優(yōu)化,s4.2中,提取出來的若干數(shù)字指紋切片對(duì)應(yīng)該目標(biāo)文件中的所有聚合數(shù)字編碼信息,s4.2的具體過程為:
60、s4.2.1、通過對(duì)所有所述第一加密切片編碼信息進(jìn)行加密的密鑰公鑰對(duì)應(yīng)的密鑰私鑰循環(huán)遍歷所有所述第一加密切片編碼信息從而對(duì)所有所述第一加密切片編碼信息進(jìn)行解密,得到所有的第一切片編碼信息,對(duì)所有的所述第一切片編碼信息進(jìn)行重組得到該目標(biāo)文件的所有聚合數(shù)字編碼信息,分別對(duì)所有的聚合數(shù)字編碼信息中的各數(shù)字信息與原有的所有的數(shù)字信息進(jìn)行比對(duì),判斷所述目標(biāo)文件是否被篡改;
61、s4.2.2、通過對(duì)所有所述第二加密切片編碼信息進(jìn)行加密的密鑰公鑰對(duì)應(yīng)的密鑰私鑰循環(huán)遍歷所有所述第二加密切片編碼信息從而對(duì)所有所述第二加密切片編碼信息進(jìn)行解密,得到所有的第二切片編碼信息,對(duì)所有的所述第二切片編碼信息進(jìn)行重組得到該目標(biāo)文件的所有聚合數(shù)字編碼信息,分別對(duì)所有的聚合數(shù)字編碼信息中的各數(shù)字信息與原有的所有的數(shù)字信息進(jìn)行比對(duì),判斷所述目標(biāo)文件是否被篡改;
62、s4.2.3、如果s4.2.1?和s4.2.2得到的結(jié)論均是所述目標(biāo)文件未被篡改,即可說明目標(biāo)文件的真實(shí)性。
63、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下的優(yōu)點(diǎn)和有益效果:
64、本發(fā)明的數(shù)字指紋信息包括合法版權(quán)人最后一次操作信息(操作人、操作時(shí)間),流轉(zhuǎn)出去后,這個(gè)指紋信息一直隱藏在文件中,可以溯源文件版權(quán)信息。
65、本發(fā)明通過第一加密切片編碼信息和第二加密切片編碼信息分散式的寫入到目標(biāo)文件中的可寫入?yún)^(qū)域,在得到目標(biāo)文件后再將分散式的第一加密切片編碼信息和第二加密切片編碼信息分別重組,這樣雙重信息的落實(shí)可以更好的判斷目標(biāo)文件是否被篡改,且有些加密切片編碼信息是寫在文件頭和文件尾、xml文件等看不到的地方,能更好的隱藏加密切片編碼信息。