果判定數(shù)據(jù)是否被過(guò)濾,并記錄日志。
[0070] 優(yōu)選的,所述步驟(5)中,包括如下步驟:
[0071] 步驟5-1、特征向量V'與隔離服務(wù)側(cè)中敏感庫(kù)的特征向量V通過(guò)余弦計(jì)算得到余弦 相似度值,余弦相似度計(jì)算公式如下:
[0072]
[0073] 式中,V'和V為兩個(gè)特征向量,V' · V為標(biāo)準(zhǔn)向量點(diǎn)積,定義為2]^八,Κ,t為向量的 維數(shù),分母中的范數(shù)IIV'II定義為^/^?^,分母中的范數(shù)IIVII定義為^/]:^;:
[0074] 步驟5-2、通過(guò)將余弦相似度值與預(yù)定義的相似度闊值比較,分析得到報(bào)文是否攜 帶設(shè)密信息,對(duì)設(shè)密的文檔進(jìn)行過(guò)濾。
[0075] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果在于:
[0076] 本發(fā)明只需要提供一個(gè)私有的JDBC驅(qū)動(dòng),在非設(shè)密網(wǎng)絡(luò)并不需要開放TNS協(xié)議通 信,僅在設(shè)密網(wǎng)絡(luò)開放TNS協(xié)議通信,運(yùn)樣隔離邊界兩側(cè)網(wǎng)絡(luò)的報(bào)文完全經(jīng)過(guò)語(yǔ)義翻譯,不 具備簡(jiǎn)單映射關(guān)系,非設(shè)密網(wǎng)絡(luò)的攻擊者無(wú)法攻擊內(nèi)網(wǎng)TNS協(xié)議漏桐,從而實(shí)現(xiàn)了完善的協(xié) 議隔離,大大提高了隔離強(qiáng)度。
[0077] 本發(fā)明通過(guò)基于特有的隔離交換架構(gòu),將深度內(nèi)容解析和內(nèi)容特征值提取前移到 前置代理側(cè)完成,在隔離裝置側(cè)則只進(jìn)行特征值匹配,運(yùn)樣隔離邊界的計(jì)算需求大幅降低。 在電力物聯(lián)網(wǎng)環(huán)境下,該技術(shù)可W利用數(shù)W億計(jì)的智能終端設(shè)備實(shí)現(xiàn)分布式的內(nèi)容過(guò)濾計(jì) 算,從而實(shí)現(xiàn)高效率低延遲的分布式內(nèi)容過(guò)濾。較好的解決了過(guò)濾深度和交換效率的矛盾。
[0078] 本發(fā)明通過(guò)引入前置代理,將隔離交換的邊界前移至終端側(cè),電力物聯(lián)網(wǎng)環(huán)境下 大量的智能終端基于可信計(jì)算的理念構(gòu)建,運(yùn)行在智能終端的前置代理軟件可W與智能終 端的可信計(jì)算體系相結(jié)合,通過(guò)私有應(yīng)用層協(xié)議加固,將整個(gè)隔離交換體系納入到可信交 換系中去,從而實(shí)現(xiàn)可信隔離交換。
【附圖說(shuō)明】
[0079] 圖1是本發(fā)明提供的一種面向電力物聯(lián)網(wǎng)的數(shù)據(jù)隔離交換和安全過(guò)濾方法流程圖
[0080] 圖2是本發(fā)明提供的在前置代理部分實(shí)現(xiàn)特征向量提取的流程圖
[0081] 圖3是本發(fā)明提供的標(biāo)簽及私有協(xié)議封裝將標(biāo)簽內(nèi)容進(jìn)行私有格式化處理的流程 圖
[0082] 圖4是本發(fā)明提供的策略過(guò)濾的流程圖
【具體實(shí)施方式】
[0083] 下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
[0084] 如圖1所示,本發(fā)明提供了一種面向電力物聯(lián)網(wǎng)的數(shù)據(jù)隔離交換和安全過(guò)濾方法, 采取如下技術(shù)方案:
[0085] 步驟1、隔離架構(gòu)的構(gòu)建
[0086] 構(gòu)建一種基于前置代理和專有協(xié)議的隔離架構(gòu),包括一種基于TCP/IP協(xié)議的專有 的應(yīng)用層交互協(xié)議、一種專用安全隔離裝置,該裝置一方面具備硬件級(jí)的TCP/IP協(xié)議分解 重組和交換能力,另一方面僅支持上述專用應(yīng)用層協(xié)議通信,拒絕一切第Ξ方公開應(yīng)用層 協(xié)議、一種前置代理,可W是驅(qū)動(dòng)、SDK或者硬件插件等形式,在本架構(gòu)中主要作用是將用戶 交互過(guò)程映射為專用應(yīng)用層協(xié)議報(bào)文,W實(shí)現(xiàn)數(shù)據(jù)交換,前置代理在實(shí)際實(shí)現(xiàn)過(guò)程中也能 夠起到終端加固和可信認(rèn)證的作用。
[0087] 步驟2、在前置代理部分實(shí)現(xiàn)特征向量提取,如圖2所示
[008引首先對(duì)報(bào)文內(nèi)內(nèi)容Ti進(jìn)行預(yù)處理,之后進(jìn)行特征提取生成報(bào)文特征向量V'和敏感 庫(kù)特征向量V,并將提取的特征向量保存到報(bào)文的標(biāo)簽字段中。
[0089] (1)預(yù)處理
[0090] 通過(guò)ICTCLAS分詞接口,將文本文件進(jìn)行分詞解析,報(bào)文內(nèi)容Τι分詞后表示為如下 形式:
[0091 ] Ti 二((iiil,lil,Pil),(iii2,li2,Pi2),......, (iiin , lin , Pin))
[0092] 其中:Ti表示報(bào)文i,ain表示劃分出來(lái)的詞組,lin表示詞組的長(zhǎng)度,Pin表示劃分出 來(lái)的詞組的詞性。
[0093] (2)特征提取
[0094] 1)詞性選擇
[0095] 在中文的文本中,根據(jù)詞性取其中能夠最強(qiáng)烈表達(dá)文章內(nèi)容的關(guān)鍵詞,用于后面 的特征提取,有助于消除冗余,簡(jiǎn)便計(jì)算過(guò)程。因此提取分析后的文本詞組中的名詞性詞 組,刪除其它詞性。文本文件Τι經(jīng)過(guò)詞性選擇后,表示為如下:
[0096]
[0097] 式中:Tai為提取名詞之后的文本,(口,<為名詞,環(huán)為名詞詞組的長(zhǎng)度。
[009引 2)詞頻統(tǒng)計(jì)
[0099] 統(tǒng)計(jì)關(guān)鍵字的出現(xiàn)頻率,形成分詞Ξ元組,包含詞組,詞組在本文本中出現(xiàn)的頻率 和詞性。將乂,增加一個(gè)詞頻項(xiàng),進(jìn)一步表達(dá)為:
[0100]
[0101] 式中:Tbi為統(tǒng)計(jì)詞頻之后的文本,誠(chéng)為統(tǒng)計(jì)詞頻后的詞組,G為統(tǒng)計(jì)詞頻后詞組 的長(zhǎng)度,貨為α直的詞頻。
[0102] 3)詞長(zhǎng)選擇
[0103] 在中文的文本中,詞比字有著更強(qiáng)的表達(dá)能力,計(jì)算每個(gè)關(guān)鍵字的長(zhǎng)度并刪除單 個(gè)字的關(guān)鍵詞。進(jìn)一步表達(dá)為:
[0104]
[01化]式中:Tci為刪除關(guān)鍵字為單個(gè)字之后的文本,其中4為長(zhǎng)度大于一個(gè)字的詞組, 滅為4詞頻。
[0106] 4)詞頻選擇
[0107] 在中文的文本中,只出現(xiàn)一次的詞具有偶然性不具備代表性,因此剔除統(tǒng)計(jì)后的 文本分詞Ξ元組中只出現(xiàn)過(guò)一次的詞組。得到最終的特征二元組表達(dá)為:
[010 引
[0109] 其中:Tdi為剔除關(guān)鍵字出現(xiàn)一次之后的文本,端,為剔除關(guān)鍵字出現(xiàn)一次之后的詞 組,滅為端的詞頻,其中端>1。
[0110] (3)生成特征向量
[0111] 對(duì)詞的權(quán)值的計(jì)算是衡量特征值的有效方法,目前廣泛使用的是基于統(tǒng)計(jì)方法的 TF-IDF公式,運(yùn)個(gè)公式在大量實(shí)際使用中被證明是可行的有效的。其核屯、思想是,認(rèn)為某個(gè) 詞在其它文本中出現(xiàn)的次數(shù)越是少,那么運(yùn)個(gè)詞就包含越多的信息,越能夠代表文檔的類 型,相反,如果在其它文檔中也是大量的出現(xiàn),那么運(yùn)個(gè)詞就不具有代表性。
[0112] 目前常用的計(jì)TF-IDF計(jì)算公式表示為:
[011引 cUj = tij*log(N/nj)
[0114] 其中,ti功詞組au在文本Τι中出現(xiàn)的次數(shù),等于Tdi中的fim,N為文檔的總數(shù),nj為 文檔庫(kù)中包含詞組aij的文檔的個(gè)數(shù)。
[0115] 由敏感庫(kù)數(shù)據(jù)組成的特征向量表示為:
[0116] V= ((aii,dii), (ai2,di2),......, (aim,dim),......, (ani ,dni), (ani ,dni),......, (過(guò)恤,dnin))
[0117] 簡(jiǎn)記為:
[011 引 V=(dll,dl2,......,dlm,......, dnldn2 ,......,dnm)
[0119] 同樣的方法得到報(bào)文的特征向量簡(jiǎn)記為:
[0120] V,=(d,ll,d,12,......,d,lm,......,d,nld,n2,......,d,nm)
[0121] 步驟3、在前置代理部分實(shí)現(xiàn)標(biāo)簽封裝,在隔離服務(wù)側(cè)實(shí)現(xiàn)標(biāo)簽解析
[0122] 標(biāo)簽封裝和解析包含有標(biāo)簽,標(biāo)簽及私有協(xié)議封裝,標(biāo)簽及私有協(xié)議解析。標(biāo)簽封 裝和解析通過(guò)在發(fā)送端對(duì)訪問用戶的用戶信息,發(fā)送數(shù)據(jù)屬性信息,數(shù)據(jù)的特征向量信息 進(jìn)行標(biāo)記,然后通過(guò)私有協(xié)議對(duì)數(shù)據(jù)進(jìn)行隨機(jī)分塊加密,再發(fā)送至服務(wù)端。在服務(wù)端,通過(guò) 解析技術(shù)首先將數(shù)據(jù)恢復(fù)?;謴?fù)后的數(shù)據(jù)為標(biāo)簽過(guò)濾和特征向量過(guò)濾服務(wù)。
[0123] 標(biāo)簽包括用戶信息U、數(shù)據(jù)屬性信息,特征向量V、生成時(shí)間T和加密標(biāo)識(shí)等信息。
[0124] Label =化化,v),AcKk,v),V',T,F(xiàn)e)
[0125] 其中,
[0126] 1)用戶信息包括用戶身份信息和用戶請(qǐng)求操作信息,用戶信息W鍵值對(duì)的形式存 在;
[0127] 2)數(shù)據(jù)屬性信息包含有數(shù)據(jù)類型、數(shù)據(jù)大小、數(shù)據(jù)創(chuàng)造者、數(shù)據(jù)修改時(shí)間等,數(shù)據(jù) 屬性也W鍵值對(duì)的形式存在。
[0128] 3)特征向量用于服務(wù)端的基于特征向量的內(nèi)容過(guò)濾;
[0129] 4)生成時(shí)間為標(biāo)簽產(chǎn)生的時(shí)間;
[0130] 5)加密標(biāo)識(shí)用于標(biāo)識(shí)標(biāo)簽分塊后,塊數(shù)據(jù)是否被加密,加密標(biāo)識(shí)在服務(wù)端不解析 時(shí)使用。
[0131] 如圖3所示,標(biāo)簽及私有協(xié)議封裝將標(biāo)簽內(nèi)容進(jìn)行私有格式化處理,步驟如下,
[0132] 步驟a:將用戶信息U、數(shù)據(jù)屬性信息AcKk,v),特征向量V'、生成時(shí)間T按序排列,并 分塊成N塊;
[0133] 步驟b:隨機(jī)選擇N塊中的N1塊,設(shè)置加密標(biāo)識(shí),并對(duì)數(shù)據(jù)進(jìn)行加密獲得EN1;
[0134] 步驟C:記錄隨機(jī)選擇過(guò)程R,將R作為塊,設(shè)置加密標(biāo)識(shí),加密R獲得ER;
[0135] 步驟d:對(duì)剩余的N2(N-N1)塊不設(shè)置加密標(biāo)識(shí);
[0136] 步驟e:計(jì)算EN1的長(zhǎng)度和邸的長(zhǎng)度,然后連接EN1長(zhǎng)度、EN1、邸長(zhǎng)度、邸和N2得E,上 述過(guò)程如圖例3所示。
[0137] 標(biāo)簽及私有化協(xié)議封裝后,將W報(bào)文形式發(fā)送至服務(wù)端。服務(wù)端首先對(duì)報(bào)告進(jìn)行 標(biāo)簽及私有協(xié)議解析,恢復(fù)標(biāo)簽值,步驟如下:
[0138] 步驟a:獲取私有協(xié)議數(shù)據(jù)E;
[0139] 步驟b:提取EN1長(zhǎng)度,通過(guò)EN1長(zhǎng)度提取EN1,并解密EN1獲得N1;
[0140] 步驟C:提取ER長(zhǎng)度,通過(guò)ER長(zhǎng)度提取ER,并解密ER獲得R;
[0141] 步驟d:提取后面的數(shù)據(jù)N2;
[0142] 步驟e:通過(guò)隨機(jī)選擇過(guò)程R,將N1和N2恢復(fù)到U化,V),Ad化,V),V'和T。
[0143] 步驟4、在隔離服務(wù)側(cè)實(shí)現(xiàn)標(biāo)簽過(guò)濾
[0144] 標(biāo)簽過(guò)濾通過(guò)設(shè)計(jì)靈活的策略規(guī)則,依客戶端提供的數(shù)據(jù)屬性,對(duì)數(shù)據(jù)進(jìn)行過(guò)濾。
[0145] 策略規(guī)則為策略過(guò)濾的規(guī)范。策略規(guī)則提供了一個(gè)統(tǒng)一的策略描述,W能夠處理 屬性信息來(lái)達(dá)到過(guò)濾數(shù)據(jù)的目的。為了方便計(jì)算與擴(kuò)展,