專利名稱:網(wǎng)絡(luò)信息危害性的分析系統(tǒng)及分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)絡(luò)技術(shù),特別涉及一種網(wǎng)絡(luò)信息危害性的分析系統(tǒng)極其對應(yīng)的分析方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)民數(shù)量越來越多,各種網(wǎng)絡(luò)信息被快速地制造和傳播。 在網(wǎng)絡(luò)信息中,包含著許多正面和負(fù)面的文字信息,而一些負(fù)面的信息甚至?xí)θ藗兊默F(xiàn) 實(shí)生活產(chǎn)生危害,如暴力、反動的信息。因此如何快速地識別出負(fù)面信息是互聯(lián)網(wǎng)中各個(gè)網(wǎng) 站需要解決的一個(gè)問題。目前,判斷網(wǎng)絡(luò)信息是否具有危險(xiǎn)性,所采用的方法與識別一般文字信息的危險(xiǎn) 性是相同的,最常見的是自然語言處理的方法。自然語言處理是一門融語言學(xué)、計(jì)算機(jī)科 學(xué)、數(shù)學(xué)于一體的科學(xué),它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語言進(jìn)行有效通信的各種理 論和方法。而其中基于分詞技術(shù)和標(biāo)準(zhǔn)詞庫的技術(shù)就是一種典型的自然語言處理方法,如 圖1所示,其包括以下步驟S101,對一條文字信息進(jìn)行分詞,并切分成多個(gè)詞匯。S102,在標(biāo)準(zhǔn)詞庫中查找這些詞匯,并判斷各個(gè)詞匯的危害性。所述的標(biāo)準(zhǔn)詞庫是 存儲于計(jì)算機(jī)中,且存儲有大量詞匯和對應(yīng)危害指數(shù)的一個(gè)詞庫。S103,記錄正面單詞、負(fù)面單詞、中性單詞的個(gè)數(shù)。S104,計(jì)算出表示網(wǎng)絡(luò)信息負(fù)面程度的數(shù)值。通過這種方法,可以有效地分析文字信息的危害性,但是將這種自然語言的處理 方法應(yīng)用的互聯(lián)網(wǎng)中卻會存在一些問題1.由于網(wǎng)絡(luò)文章只有通過一定的傳播途徑才能表現(xiàn)出真實(shí)的危害性。例如有的網(wǎng) 絡(luò)文章,雖然其危害性不高,但是由于其廣泛的傳播卻可能造成其危害性被放大。反之,有 的文章盡管從內(nèi)容上講是具有危害性的。但是,由于其傳播途徑不適當(dāng),危害性并不能表現(xiàn) 出來。因此,即便自然語言處理系統(tǒng)足夠智能,也僅僅能夠提取網(wǎng)絡(luò)文章的內(nèi)容特征,仍然 不能準(zhǔn)確描述網(wǎng)絡(luò)文章的真實(shí)危害性。2.網(wǎng)絡(luò)文章在傳播過程中,影響范圍是逐步擴(kuò)散的。因此,網(wǎng)絡(luò)文章的危害性必定 是一個(gè)隨時(shí)間變化的量,而不是一個(gè)恒定的常量?,F(xiàn)有的危害性計(jì)算方法通常都是得到一 個(gè)恒定量,因此無法很準(zhǔn)確地計(jì)算出網(wǎng)絡(luò)文章的危害程度。3.由于互聯(lián)網(wǎng)規(guī)模巨大,僅根據(jù)內(nèi)容特征識別的結(jié)果,負(fù)面信息數(shù)量往往很多。人 工一一排查和解決,往往需要巨大的成本和投入。綜上所述,現(xiàn)有的危害性分析方法在判斷網(wǎng)絡(luò)信息是否具有危害性時(shí),存在運(yùn)算 量大、準(zhǔn)確性低、成本高的問題。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種網(wǎng)絡(luò)信息危害性的分析系統(tǒng),以解決現(xiàn)有網(wǎng)絡(luò)信息危害性的分析方法準(zhǔn)確性低、運(yùn)算量大、成本高的問題。本發(fā)明的另一目的是提供一種網(wǎng)絡(luò)信息危害性的分析方法,以解決現(xiàn)有網(wǎng)絡(luò)信息 危害性的分析方法準(zhǔn)確性低、運(yùn)算量大、成本高的問題。本發(fā)明提出一種網(wǎng)絡(luò)信息危害性的分析系統(tǒng),包括搜索單元、內(nèi)容特征計(jì)算單元、 傳播放大因子計(jì)算單元及危害性計(jì)算單元。搜索單元與互聯(lián)網(wǎng)連接,用于在互聯(lián)網(wǎng)中搜索 與待分析信息相似的信息。內(nèi)容特征計(jì)算單元與搜索單元相連,用于計(jì)算搜索出的各條信 息的負(fù)面值。傳播放大因子計(jì)算單元與搜索單元相連,用于計(jì)算搜索出的各條信息的傳播 放大因子,所述傳播放大因子表示各條信息在網(wǎng)絡(luò)中的影響程度。危害性計(jì)算單元分別與 內(nèi)容特征計(jì)算單元和傳播放大因子計(jì)算單元相連,用于根據(jù)各條信息的負(fù)面值和傳播放大 因子計(jì)算出待分析信息在網(wǎng)絡(luò)中的危害值。依照本發(fā)明較佳實(shí)施例所述的網(wǎng)絡(luò)信息危害性的分析系統(tǒng),其還包括相似性計(jì)算 單元,其分別與搜索單元、內(nèi)容特征計(jì)算單元及傳播放大因子計(jì)算單元相連,用于對搜索到 的信息與待分析信息進(jìn)行相似性計(jì)算,保留相似性較高的信息,并將其輸出到內(nèi)容特征計(jì) 算單元及傳播放大因子計(jì)算單元。依照本發(fā)明較佳實(shí)施例所述的網(wǎng)絡(luò)信息危害性的分析系統(tǒng),所述相似性計(jì)算單元 利用詞頻向量的相似性(余弦夾角)來計(jì)算搜索到的信息與待分析信息的相似性。依照本發(fā)明較佳實(shí)施例所述的網(wǎng)絡(luò)信息危害性的分析系統(tǒng),危害性計(jì)算單元所依
據(jù)的計(jì)算公式為 /N = ^N1-Y1,
/=1其中,N表示待分析信息的危害值,Ni表示第i個(gè)網(wǎng)絡(luò)信息的負(fù)面值,Yi表示第i 個(gè)網(wǎng)絡(luò)信息的傳播放大因子,I是相似的網(wǎng)絡(luò)信息的總數(shù)。依照本發(fā)明較佳實(shí)施例所述的網(wǎng)絡(luò)信息危害性的分析系統(tǒng),所述搜索單元又包括 通用搜索子單元,其與網(wǎng)絡(luò)相連,用于利用通用的搜索引擎查詢與待分析信息相類似的網(wǎng) 絡(luò)信息。依照本發(fā)明較佳實(shí)施例所述的網(wǎng)絡(luò)信息危害性的分析系統(tǒng),所述搜索單元又包括 特定搜索子單元,其與若干特定網(wǎng)站的后臺數(shù)據(jù)庫相連,用于從特定網(wǎng)站中查詢與待分析 信息相類似的網(wǎng)絡(luò)信息。本發(fā)明另提出一種網(wǎng)絡(luò)信息危害性的分析方法,包括以下步驟(1)在互聯(lián)網(wǎng)中 搜索與待分析信息相似的信息。(2)計(jì)算搜索出的各條信息的負(fù)面值。(3)計(jì)算搜索出的 各條信息的傳播放大因子,所述傳播放大因子表示各條信息在網(wǎng)絡(luò)中的影響程度。(4)根據(jù) 各條信息的負(fù)面值和傳播放大因子計(jì)算出待分析信息在網(wǎng)絡(luò)中的危害值。依照本發(fā)明較佳實(shí)施例所述的網(wǎng)絡(luò)信息危害性的分析方法,計(jì)算所述危害值時(shí)所 依據(jù)的計(jì)算公式為
IN = YjNrYl ,
/=1其中,N表示待分析信息的危害值,Ni表示第i個(gè)網(wǎng)絡(luò)信息的負(fù)面值,Yi表示第i 個(gè)網(wǎng)絡(luò)信息的傳播放大因子,I是相似的網(wǎng)絡(luò)信息的總數(shù)。依照本發(fā)明較佳實(shí)施例所述的網(wǎng)絡(luò)信息危害性的分析方法,計(jì)算傳播放大因子時(shí)又進(jìn)一步包括步驟(1)采集搜索到的各條信息所在的網(wǎng)址。(2)獲取各個(gè)網(wǎng)址的PageRank 值。(3)將各網(wǎng)址的PageRank值歸一化處理,并計(jì)算得到所述傳播放大因子。依照本發(fā)明較佳實(shí)施例所述的網(wǎng)絡(luò)信息危害性的分析方法,計(jì)算傳播放大因子時(shí)又進(jìn)一步包括步驟(1)采集搜索到的各條信息在各自網(wǎng)站上的閱讀數(shù)和回復(fù)數(shù)。(2)對各 條信息的閱讀數(shù)和回復(fù)數(shù)進(jìn)行歸一化處理,并計(jì)算得到所述傳播放大因子。相對于現(xiàn)有技術(shù),本發(fā)明的有益效果是1、本發(fā)明在計(jì)算待分析信息的網(wǎng)絡(luò)危害值時(shí),同時(shí)將內(nèi)容特征和傳播特征納入在計(jì)算過程中,從而使計(jì)算結(jié)果可以體現(xiàn)出網(wǎng)絡(luò)傳播動態(tài)變化的特點(diǎn),可以真實(shí)地反映出待 分析信息任意時(shí)刻在互聯(lián)網(wǎng)上的危害程度。2、本發(fā)明的系統(tǒng)可以根據(jù)用戶輸入的信息,自動分析出其在互聯(lián)網(wǎng)上的危害程度,省去了人工一一排查和解決所需的時(shí)間,從而也降低了資金成本的投入。當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品并不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
圖1為現(xiàn)有的網(wǎng)絡(luò)信息危險(xiǎn)性的計(jì)算方法;圖2為本發(fā)明網(wǎng)絡(luò)信息危害性的分析系統(tǒng)的一種實(shí)施例架構(gòu)圖;圖3為本發(fā)明網(wǎng)絡(luò)信息危害性的分析系統(tǒng)的另一種實(shí)施例架構(gòu)圖;圖4為本發(fā)明網(wǎng)絡(luò)信息危害性的分析方法的一種實(shí)施例流程圖;圖5為本發(fā)明獲取傳播放大因子的一種實(shí)施例流程圖;圖6為本發(fā)明獲取傳播放大因子的另一種實(shí)施例流程圖。
具體實(shí)施例方式以下結(jié)合附圖,具體說明本發(fā)明。請參見圖2,其為本發(fā)明網(wǎng)絡(luò)信息危害性的分析系統(tǒng)的一種實(shí)施例架構(gòu)圖。此網(wǎng)絡(luò)信息危害性的分析系統(tǒng)21包括搜索單元22、內(nèi)容特征計(jì)算單元23、傳播放大因子計(jì)算單元 24及危害性計(jì)算單元25。搜索單元22與互聯(lián)網(wǎng)連接,內(nèi)容特征計(jì)算單元23和傳播放大因 子計(jì)算單元24均與搜索單元22相連,危害性計(jì)算單元25分別與內(nèi)容特征計(jì)算單元23和 傳播放大因子計(jì)算單元24相連。使用時(shí),用戶可以向系統(tǒng)輸入一條待分析信息,搜索單元22獲得待分析信息后,便會通過網(wǎng)絡(luò)搜索與之相類似的信息。搜索完成后,搜索結(jié)果會分別被傳輸給內(nèi)容特征計(jì) 算單元23和傳播放大因子計(jì)算單元24,內(nèi)容特征計(jì)算單元23會計(jì)算搜索到的各條信息的 負(fù)面值,而傳播放大因子計(jì)算單元24則會計(jì)算出各條信息的傳播放大因子。最后,危害性 計(jì)算單元25會根據(jù)所有信息的負(fù)面值以及對應(yīng)的傳播放大因子計(jì)算出待分析信息在網(wǎng)絡(luò) 中的危害值。值得注意的是,由于本發(fā)明突破性地引入了傳播放大因子,而本發(fā)明中的傳播放大因子表示了各條信息在網(wǎng)絡(luò)中的傳播影響程度,因此本發(fā)明的計(jì)算過程充分考慮到了互 聯(lián)網(wǎng)的傳播特性,其計(jì)算出的結(jié)果可以真實(shí)地體現(xiàn)出待分析信息目前在網(wǎng)絡(luò)中的危害性。為便于深入理解本發(fā)明的技術(shù)方案,現(xiàn)以另一詳盡的實(shí)施例結(jié)構(gòu)圖來說明本發(fā)明的分析過程,請參見圖3,此網(wǎng)絡(luò)信息危害性的分析系統(tǒng)31包括搜索單元22、內(nèi)容特征計(jì)算單元23、傳播放大因子計(jì)算單元24、危害性計(jì)算單元25及相似性計(jì)算單元32。搜索單元 22與互聯(lián)網(wǎng)連接,相似性計(jì)算單元32分別與搜索單元22、內(nèi)容特征計(jì)算單元23及傳播放 大因子計(jì)算單元24相連,危害性計(jì)算單元25分別與內(nèi)容特征計(jì)算單元23和傳播放大因子 計(jì)算單元24相連。在分析用戶輸入信息的危害性時(shí),搜索單元22會通過網(wǎng)絡(luò)搜索與待分析信息相類似的信息。這里搜索單元22可以采用通用的搜索引擎或者定制的搜索引擎來搜尋與待 分析信息相類似的網(wǎng)絡(luò)信息,因此本實(shí)施例的搜索單元22又進(jìn)一步包括有通用搜索子單 元33和特定搜索子單元34。利用通用搜索子單元33進(jìn)行搜索時(shí),用戶輸入的內(nèi)容可以是一段信息的標(biāo)題或 者核心內(nèi)容的關(guān)鍵詞,所述通用搜索子單元33與網(wǎng)絡(luò)相連,并利用如google、百度等通用 的搜索引擎進(jìn)行搜索。需要注意的是,使用通用搜索引擎,其查詢結(jié)果只能以網(wǎng)頁的形式返 回,因此通用搜索子單元33還會對返回的查詢結(jié)果進(jìn)行采集,如將查詢結(jié)果中的每一個(gè)鏈 接頁面數(shù)據(jù)進(jìn)行下載。通用搜索的優(yōu)勢在覆蓋范圍廣,而它的缺點(diǎn)在于(1)數(shù)據(jù)更新慢,對于一部分更新很快的網(wǎng)站會有信息遺漏。(2)特定用要求收錄的網(wǎng)站,并不一定收錄??赡苡捎谶@些網(wǎng)站的格式特殊或者它 的影響太小。因此,本實(shí)施例的系統(tǒng)還可以結(jié)合使用特定搜索子單元34,其與若干特定網(wǎng)站的 后臺數(shù)據(jù)庫相連。特定搜索子單元34主要覆蓋以下搜索范圍(1)用戶關(guān)心的但是通用搜索引擎不收錄的網(wǎng)站。(2)用戶關(guān)心的更新速度很快的網(wǎng)站。利用特定搜索子單元34進(jìn)行搜索時(shí),用戶輸入的查詢條件可以是文章標(biāo)題和關(guān) 鍵詞,也可以直接輸入文章內(nèi)容,特定搜索子單元34會直接調(diào)出相關(guān)網(wǎng)站數(shù)據(jù)庫中的相似 fn息ο當(dāng)然,在搜索時(shí),可以使用通用搜索子單元33和特定搜索子單元34的其中之一, 也可以同時(shí)使用,而同時(shí)使用可以使搜索效果更加的全面和準(zhǔn)確。在同時(shí)使用時(shí),有可能產(chǎn) 生信息被重復(fù)采集的問題,因此可以將通用搜索子單元33和特定搜索子單元34所采集的 重復(fù)網(wǎng)址進(jìn)行過濾,從而保證搜索列表中不存在相同網(wǎng)址的信息。網(wǎng)絡(luò)信息在傳播過程中,其內(nèi)容可能是變化的,例如有的轉(zhuǎn)載了原文的一部分、有 的在轉(zhuǎn)載時(shí)還加入了轉(zhuǎn)載者的評注,因此通過搜索單元22獲得的網(wǎng)絡(luò)信息與待分析信息 的相似性可能很高,也可能相似性很低。因此為了確保搜索出的信息與待分析信息之間有 較高的相似程度,且與圖2的實(shí)施例不同的是,本實(shí)施例的網(wǎng)絡(luò)信息危害性的分析系統(tǒng)31, 在搜索單元22與內(nèi)容特征計(jì)算單元23、傳播放大因子計(jì)算單元24之間增設(shè)了相似性計(jì)算 單元32,用于對搜索到的信息與待分析信息進(jìn)行相似性計(jì)算,并且通過設(shè)定閾值,保留相似 性較高的信息,并將其輸出到內(nèi)容特征計(jì)算單元23及傳播放大因子計(jì)算單元24。這里兩篇 信息的相似程度可以利用詞頻向量的相似性(余弦夾角)來計(jì)算,此技術(shù)是自然語言處理 領(lǐng)域中的公知技術(shù),在此不再贅述。在獲得了與待分析信息相似度較高的網(wǎng)絡(luò)信息后,內(nèi)容特征計(jì)算單元23會計(jì)算 出各條網(wǎng)絡(luò)信息的負(fù)面值。計(jì)算一段信息的負(fù)面值時(shí)可以采用自然語言的處理方式。申請人給出了一種基于標(biāo)準(zhǔn)詞庫的方式來計(jì)算負(fù)面值的方法,現(xiàn)以兩個(gè)簡單的例子來說明計(jì)算 過程(1)負(fù)面值的最簡單的計(jì)算公式是負(fù)面詞匯的個(gè)數(shù)減去正面詞匯的個(gè)數(shù)。例如 以下這條信息“這輛汽車,既有優(yōu)點(diǎn)也有缺點(diǎn),不過總的來說,還是缺點(diǎn)居多。例如,動力不 好就讓人很難受?!蓖ㄟ^查詢標(biāo)準(zhǔn)詞庫,得到正面詞匯優(yōu)點(diǎn)負(fù)面詞匯缺點(diǎn)(2次),不好,難受可以得到負(fù)面值4_1 = 3。(2)又如在分析“針對這些缺點(diǎn)”這條信息時(shí),先將這條信息分為“針對”、“這些”、“缺點(diǎn)”三個(gè)詞匯,然后在事先存放于本地?cái)?shù)據(jù)庫的標(biāo)準(zhǔn)詞庫中查詢這三個(gè)詞匯是屬于正面 詞匯還是負(fù)面詞匯。假設(shè)“針對”和“這些”屬于中性詞匯,而“缺點(diǎn)”屬于負(fù)面詞匯,則這條 信息的負(fù)面值就是1。當(dāng)然,在現(xiàn)有技術(shù)中,計(jì)算一條文字信息負(fù)面程度的方法還有許多,這里只舉出兩 種簡單且典型的計(jì)算方式,但并不是以此限制本發(fā)明。另一方面,傳播放大因子計(jì)算單元24同樣也會獲得與待分析信息相似性較高的 網(wǎng)絡(luò)信息,并會計(jì)算出各條信息的傳播放大因子。因?yàn)橐黄W(wǎng)絡(luò)信息發(fā)布在一個(gè)小型地方 性網(wǎng)站和大型新聞門戶,其危害性是不一樣的。因此本發(fā)明采用傳播放大因子來表示各條 信息在網(wǎng)絡(luò)中的影響程度,其可以通過兩種途徑來獲得(1)通過對應(yīng)網(wǎng)站的PageRank值來獲得傳播放大因子。這里所說的PageRank值 (以下簡稱I3R值)是Google公司對每一個(gè)互聯(lián)網(wǎng)上的網(wǎng)站提供的一個(gè)衡量該網(wǎng)站重要性 的權(quán)值。例如,一篇文章出現(xiàn)在一個(gè)大型門戶網(wǎng)站上(如新浪網(wǎng)),該網(wǎng)站的I3R值比較高, 因而該網(wǎng)站上的網(wǎng)絡(luò)信息的傳播放大因子也相應(yīng)較大。傳播放大因子計(jì)算單元24可以通 過互聯(lián)網(wǎng)的服務(wù)直接查詢?nèi)我庖粋€(gè)網(wǎng)站的I3R值。I3R值可以很好地衡量一個(gè)網(wǎng)絡(luò)信息出現(xiàn) 在某一個(gè)網(wǎng)站上,而造成的影響。然后將各條信息所在網(wǎng)站的I3R值歸一化處理,并得到各 條信息的傳播放大因子。這里的歸一化處理是指對各個(gè)I3R值的格式進(jìn)行統(tǒng)一規(guī)劃,并以簡 單的形式輸出,例如兩條網(wǎng)絡(luò)信息的傳播放大因子可以分別以阿拉伯?dāng)?shù)字6和8來表示。(2)以網(wǎng)絡(luò)信息的閱讀量和回復(fù)量來獲得傳播放大因子。這是一種非常直接的衡 量方式,在論壇和博客上發(fā)表的信息,網(wǎng)站都會附加地給出相應(yīng)的閱讀量和回復(fù)量指標(biāo)。大 部分新聞網(wǎng)站,也會給出一篇網(wǎng)絡(luò)文字信息的評論數(shù)(即回復(fù)量)。因此直接提取這些閱讀 量和回復(fù)量,并進(jìn)行歸一化處理,可以直接、精確地得到各條網(wǎng)絡(luò)信息的傳播放大因子。在得到各條網(wǎng)絡(luò)信息的負(fù)面值和傳播放大因子后,便可以利用危害性計(jì)算單元25 來評估待分析信息在網(wǎng)絡(luò)中的危害程度。發(fā)明人給出了一種線性加權(quán)求和的計(jì)算方法,其 計(jì)算公式為<formula>formula see original document page 8</formula>其中,N表示待分析信息的危害值,Ni表示第i個(gè)網(wǎng)絡(luò)信息的負(fù)面值,Yi表示第i 個(gè)網(wǎng)絡(luò)信息的傳播放大因子,I是相似的網(wǎng)絡(luò)信息的總數(shù)。最后,系統(tǒng)會將計(jì)算出的待分析信息的危害值反饋給用戶。而通過上述公式計(jì)算 出的危害值,由于將各個(gè)網(wǎng)絡(luò)信息的傳播放大因子包含在計(jì)算過程中,所以可以真實(shí)地反映出待分析信息在互聯(lián)網(wǎng)上的危害程度。相應(yīng)于上述系統(tǒng),本發(fā)明另提出一種網(wǎng)絡(luò)信息危害性的分析方法,如圖4所示,其 包括以下步驟S41,在互聯(lián)網(wǎng)中搜索與待分析信息相似的信息。S42,計(jì)算搜索出的各條信息的負(fù)面值。S43,計(jì)算搜索出的各條信息的傳播放大因子,所述傳播放大因子表示各條信息在 網(wǎng)絡(luò)中的影響程度。S44,根據(jù)各條信息的負(fù)面值和傳播放大因子計(jì)算出待分析信息在網(wǎng)絡(luò)中的危害值。在分析用戶輸入信息的危害性時(shí),首先要對待分析的信息進(jìn)行搜索,并在互聯(lián)網(wǎng) 中查詢相類似的信息(步驟S41)。這里可以采用通用的搜索引擎或者定制的搜索引擎來搜 尋網(wǎng)絡(luò)信息。通用搜索引擎是指如google、百度等常用的搜索引擎,用戶輸入的內(nèi)容可以是一 段信息的標(biāo)題或者核心內(nèi)容的關(guān)鍵詞。需要注意的是,由于其查詢結(jié)果只能以網(wǎng)頁的形式 返回,因此還要對返回的查詢結(jié)果進(jìn)行數(shù)據(jù)采集,并將查詢結(jié)果中的每一個(gè)鏈接頁面數(shù)據(jù) 都進(jìn)行下載。通用搜索的優(yōu)勢在覆蓋范圍廣,而它的缺點(diǎn)在于(1)數(shù)據(jù)更新慢,對于一部分更新很快的網(wǎng)站會有信息遺漏。(2)特定用要求收錄的網(wǎng)站,并不一定收錄??赡苡捎谶@些網(wǎng)站的格式特殊或者它 的影響太小。因此,本實(shí)施例的系統(tǒng)還可以結(jié)合使用特定搜索引擎,其主要覆蓋以下搜索范 圍(1)用戶關(guān)心的但是通用搜索引擎不收錄的網(wǎng)站。(2)用戶關(guān)心的更新速度很快的網(wǎng)站。利用特定搜索引擎進(jìn)行搜索時(shí),用戶輸入的查詢條件可以是文章標(biāo)題和關(guān)鍵詞, 也可以直接輸入文章內(nèi)容,特定搜索引擎會直接調(diào)出相關(guān)網(wǎng)站數(shù)據(jù)庫中的相似信息。當(dāng)然,在搜索時(shí),可以使用通用搜索和特定搜索的其中之一,也可以同時(shí)使用,而 同時(shí)使用可以使搜索效果更加的全面和準(zhǔn)確。在同時(shí)使用時(shí),有可能產(chǎn)生信息被重復(fù)采集 的問題,因此可以將兩種方式的重復(fù)網(wǎng)址進(jìn)行過濾,從而保證搜索列表中不存在相同網(wǎng)址 的信息。網(wǎng)絡(luò)信息在傳播過程中,其內(nèi)容可能是變化的,例如有的轉(zhuǎn)載了原文的一部分、有的在轉(zhuǎn)載時(shí)還加入了轉(zhuǎn)載者的評注,因此通過搜索獲得的網(wǎng)絡(luò)信息與待分析信息的相似性 可能很高,也可能相似性很低。因此為了確保搜索出的信息與待分析信息之間有較高的相 似程度,可以對搜索出的各網(wǎng)絡(luò)信息和待分析信息之間的相似程度進(jìn)行定量計(jì)算,并且通 過設(shè)定閾值,將相似程度較低的網(wǎng)絡(luò)信息排除掉。這里兩篇信息的相似程度可以利用詞頻 向量的相似性(余弦夾角)來計(jì)算,此技術(shù)是目前的公知技術(shù),在此不再贅述。在獲得了與待分析信息相似度較高的網(wǎng)絡(luò)信息后,便可以計(jì)算各條信息內(nèi)容中的 負(fù)面值(S42)。計(jì)算負(fù)面值時(shí)可以采用自然語言的處理方式,以基于標(biāo)準(zhǔn)詞庫的方式為例, 例如在分析“針對這些缺點(diǎn),,這條信息時(shí),先將這條信息分為“針對”、“這些”、“缺點(diǎn),,三個(gè)詞匯,然后在事先存放于本地?cái)?shù)據(jù)庫的標(biāo)準(zhǔn)詞庫中查詢這三個(gè)詞匯是屬于正面詞匯還是負(fù) 面詞匯。假設(shè)“針對”和“這些”屬于正面詞匯,而“缺點(diǎn)”屬于負(fù)面詞匯,則這條信息的負(fù)面 值就可以是1/3,或者以百分?jǐn)?shù)33%來表示。當(dāng)然,在現(xiàn)有技術(shù)中,計(jì)算一條文字信息負(fù)面 程度的方法還有許多,這里只舉出一種典型的計(jì)算方式,但并不是以此限制本發(fā)明。 同時(shí),考慮到網(wǎng)絡(luò)信息傳播速度快的特點(diǎn),因?yàn)橐黄W(wǎng)絡(luò)信息發(fā)布在一個(gè)小型地 方性網(wǎng)站和大型新聞門戶,其危害性是不一樣的,因此本發(fā)明還要計(jì)算出各網(wǎng)絡(luò)信息的傳 播放大因子(S43)。而傳播放大因子可以通過兩種途徑來獲得。請參見圖5,其為本發(fā)明獲取傳播放大因子的一種實(shí)施例流程圖。其包括以下步 驟S51,采集搜索到的各條信息所在的網(wǎng)址。S52,獲取各個(gè)網(wǎng)址的PageRank值。PageRank值(以下簡稱I3R值)是Google公司對每一個(gè)互聯(lián)網(wǎng)上的網(wǎng)站提供的 一個(gè)衡量該網(wǎng)站重要性的權(quán)值,可以通過互聯(lián)網(wǎng)的服務(wù)直接查詢?nèi)我庖粋€(gè)網(wǎng)站的I3R值。PR 值可以很好地衡量一個(gè)網(wǎng)絡(luò)信息出現(xiàn)在某一個(gè)網(wǎng)站上,而造成的影響。例如,一篇文章出現(xiàn) 在一個(gè)大型門戶網(wǎng)站上(如新浪網(wǎng)),則該網(wǎng)站的I3R值就比較高。S53,將各網(wǎng)址的PageRank值歸一化處理,并計(jì)算得到所述傳播放大因子。這里的歸一化處理是指對各個(gè)ra值的格式進(jìn)行統(tǒng)一規(guī)劃,并以簡單的形式輸出, 例如兩條網(wǎng)絡(luò)信息的傳播放大因子可以分別以阿拉伯?dāng)?shù)字6和8來表示,PR值越高,則傳 播放大因子也相應(yīng)較大。請參見圖6,其為本發(fā)明獲取傳播放大因子的另一種實(shí)施例流程圖。其包括以下步 驟S61,采集搜索到的各條信息在各自網(wǎng)站上的閱讀數(shù)和回復(fù)數(shù)。S62,對各條信息的閱讀數(shù)和回復(fù)數(shù)進(jìn)行歸一化處理,并計(jì)算得到所述傳播放大因子。這是一種非常直接的衡量方式,在論壇和博客上發(fā)表的信息,網(wǎng)站都會附加地給 出相應(yīng)的閱讀量和回復(fù)量指標(biāo)。大部分新聞網(wǎng)站,也會給出一篇網(wǎng)絡(luò)文字信息的評論數(shù) (即回復(fù)量)。因此直接提取這些閱讀量和回復(fù)量,并進(jìn)行歸一化處理,可以直接、精確地得 到各條網(wǎng)絡(luò)信息的傳播放大因子。在得到各條網(wǎng)絡(luò)信息的負(fù)面值和傳播放大因子后,便可以計(jì)算出待分析信息在網(wǎng)
絡(luò)中的危害值(S44)。發(fā)明人給出了一種線性加權(quán)求和的計(jì)算方法,其計(jì)算公式為 /N = YjNrYl ,
(=1其中,N表示待分析信息的危害值,Ni表示第i個(gè)網(wǎng)絡(luò)信息的負(fù)面值,Yi表示第i 個(gè)網(wǎng)絡(luò)信息的傳播放大因子,I是相似的網(wǎng)絡(luò)信息的總數(shù)。最后,系統(tǒng)會將計(jì)算出的待分析 信息的危害值反饋給用戶。本發(fā)明在計(jì)算待分析信息的網(wǎng)絡(luò)危害值時(shí),同時(shí)將內(nèi)容特征和傳播特征納入在計(jì) 算過程內(nèi),從而使計(jì)算結(jié)果可以體現(xiàn)出網(wǎng)絡(luò)傳播動態(tài)變化的特點(diǎn),可以真實(shí)地反映出待分 析信息任意時(shí)刻在互聯(lián)網(wǎng)上的危害程度。另外,本發(fā)明的系統(tǒng)可以根據(jù)用戶輸入的信息,自 動分析出其在互聯(lián)網(wǎng)上的危害程度,省去了人工一一排查和解決所需的時(shí)間,從而也降低了資金成本的投入。 以上公開的僅為本發(fā)明的幾個(gè)具體實(shí)施例,但本發(fā)明并非局限于此,例如,除了詞頻向量余弦夾角之外,還有其他信息相似性的計(jì)算方法;除了文章所述的信息負(fù)面值的計(jì) 算方法外,還有其他的計(jì)算方法;信息內(nèi)容特征和傳播放大因子之間結(jié)合除了線性加權(quán)之 外還有其他計(jì)算方法;任何本領(lǐng)域的技術(shù)人員能思之的變化,都應(yīng)落在本發(fā)明的保護(hù)范圍 內(nèi)。
權(quán)利要求
一種網(wǎng)絡(luò)信息危害性的分析系統(tǒng),其特征在于,包括一搜索單元,與互聯(lián)網(wǎng)連接,用于在互聯(lián)網(wǎng)中搜索與待分析信息相似的信息;一內(nèi)容特征計(jì)算單元,與該搜索單元相連,用于計(jì)算搜索出的各條信息的負(fù)面值;一傳播放大因子計(jì)算單元,與該搜索單元相連,用于計(jì)算搜索出的各條信息的傳播放大因子,所述傳播放大因子表示各條信息在網(wǎng)絡(luò)中的影響程度;一危害性計(jì)算單元,分別與該內(nèi)容特征計(jì)算單元和該傳播放大因子計(jì)算單元相連,用于根據(jù)各條信息的負(fù)面值和傳播放大因子計(jì)算出待分析信息在網(wǎng)絡(luò)中的危害值。
2.如權(quán)利要求1所述的網(wǎng)絡(luò)信息危害性的分析系統(tǒng),其特征在于,還包括一相似性計(jì) 算單元,其分別與該搜索單元、該內(nèi)容特征計(jì)算單元及傳播放大因子計(jì)算單元相連,用于對 搜索到的信息與待分析信息進(jìn)行相似性計(jì)算,保留相似性較高的信息,并將其輸出到該內(nèi) 容特征計(jì)算單元及該傳播放大因子計(jì)算單元。
3.如權(quán)利要求2所述的網(wǎng)絡(luò)信息危害性的分析系統(tǒng),其特征在于,所述相似性計(jì)算單 元利用詞頻向量的相似性來計(jì)算搜索到的信息與待分析信息的相似性。
4.如權(quán)利要求1所述的網(wǎng)絡(luò)信息危害性的分析系統(tǒng),其特征在于,該危害性計(jì)算單元 所依據(jù)的計(jì)算公式為<formula>formula see original document page 2</formula>其中,N表示待分析信息的危害值,Ni表示第i個(gè)網(wǎng)絡(luò)信息的內(nèi)容負(fù)面值,Yi表示第i 個(gè)網(wǎng)絡(luò)信息的傳播放大因子,I是相似的網(wǎng)絡(luò)信息的總數(shù)。
5.如權(quán)利要求1所述的網(wǎng)絡(luò)信息危害性的分析系統(tǒng),其特征在于,所述搜索單元又包 括一通用搜索子單元,其與網(wǎng)絡(luò)相連,用于利用通用的搜索引擎查詢與待分析信息相類似 的網(wǎng)絡(luò)信息。
6.如權(quán)利要求1所述的網(wǎng)絡(luò)信息危害性的分析系統(tǒng),其特征在于,所述搜索單元又包 括一特定搜索子單元,其與若干特定網(wǎng)站的后臺數(shù)據(jù)庫相連,用于從特定網(wǎng)站中查詢與待 分析信息相類似的網(wǎng)絡(luò)信息。
7.—種網(wǎng)絡(luò)信息危害性的分析方法,其特征在于,包括以下步驟在互聯(lián)網(wǎng)中搜索與待分析信息相似的信息;計(jì)算搜索出的各條信息的負(fù)面值;計(jì)算搜索出的各條信息的傳播放大因子,所述傳播放大因子表示各條信息在網(wǎng)絡(luò)中的 影響程度;根據(jù)各條信息的負(fù)面值和傳播放大因子計(jì)算出待分析信息在網(wǎng)絡(luò)中的危害值。
8.如權(quán)利要求7所述的網(wǎng)絡(luò)信息危害性的分析方法,其特征在于,計(jì)算所述危害值時(shí) 所依據(jù)的計(jì)算公式為<formula>formula see original document page 2</formula>其中,N表示待分析信息的危害值,Ni表示第i個(gè)網(wǎng)絡(luò)信息的負(fù)面值,Yi表示第i個(gè)網(wǎng) 絡(luò)信息的傳播放大因子,I是相似的網(wǎng)絡(luò)信息的總數(shù)。
9.如權(quán)利要求7所述的網(wǎng)絡(luò)信息危害性的分析方法,其特征在于,計(jì)算傳播放大因子 時(shí)又進(jìn)一步包括步驟采集搜索到的各條信息所在的網(wǎng)址; 獲取各個(gè)網(wǎng)址的PageRank值;將各網(wǎng)址的PageRank值歸一化處理,并計(jì)算得到所述傳播放大因子。
10.如權(quán)利要求7所述的網(wǎng)絡(luò)信息危害性的分析方法,其特征在于,計(jì)算傳播放大因子 時(shí)又進(jìn)一步包括步驟采集搜索到的各條信息在各自網(wǎng)站上的閱讀數(shù)和回復(fù)數(shù);對各條信息的閱讀數(shù)和回復(fù)數(shù)進(jìn)行歸一化處理,并計(jì)算得到所述傳播放大因子。
全文摘要
本發(fā)明提出一種網(wǎng)絡(luò)信息危害性的分析系統(tǒng)及分析方法,其系統(tǒng)包括搜索單元、內(nèi)容特征計(jì)算單元、傳播放大因子計(jì)算單元及危害性計(jì)算單元。搜索單元與互聯(lián)網(wǎng)連接,用于在互聯(lián)網(wǎng)中搜索與待分析信息相似的信息。內(nèi)容特征計(jì)算單元與搜索單元相連,用于計(jì)算搜索出的各條信息的負(fù)面值。傳播放大因子計(jì)算單元與搜索單元相連,用于計(jì)算搜索出的各條信息的傳播放大因子。危害性計(jì)算單元分別與內(nèi)容特征計(jì)算單元和傳播放大因子計(jì)算單元相連,用于根據(jù)各條信息的負(fù)面值和傳播放大因子計(jì)算出待分析信息在網(wǎng)絡(luò)中的危害值。利用本發(fā)明分析出的網(wǎng)絡(luò)信息危害性既符合信息的內(nèi)容特征,也符合其互聯(lián)網(wǎng)傳播特征。可以準(zhǔn)確地計(jì)算出一條信息在任意時(shí)刻的危害性。
文檔編號G06F17/30GK101799819SQ20101002308
公開日2010年8月11日 申請日期2010年1月21日 優(yōu)先權(quán)日2010年1月21日
發(fā)明者卜菊萍, 孫柱, 張長水, 翁時(shí)鋒, 賈春鑫, 高慶春 申請人:翁時(shí)鋒