專利名稱:網(wǎng)頁文本信息過濾系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)頁信息過濾系統(tǒng)及方法,特別是涉及一種可過濾網(wǎng)頁文本信息中不良內(nèi)容的網(wǎng)頁文本信息過濾系統(tǒng)及方法。
背景技術(shù):
目前國內(nèi)外在網(wǎng)頁內(nèi)容鑒別上主要有四種過濾技術(shù),即基于因特網(wǎng)內(nèi)容分級平臺 (PICS)過濾、數(shù)據(jù)庫過濾(IP庫、URL庫)、關(guān)鍵字過濾以及智能內(nèi)容理解過濾。由于不法分子一般是不會主動給其傳播的不良信息內(nèi)容按照PICS標(biāo)準(zhǔn)貼標(biāo)簽的,所以基于PICS過濾在實際應(yīng)用中效果不大;數(shù)據(jù)庫過濾方法對許多寄生在綜合性網(wǎng)站內(nèi)的不良信息無法過濾,對一些經(jīng)常性地更改IP、URL,或采取多級代理方式的含有不良信息網(wǎng)站也無法過濾;基于關(guān)鍵字的不良信息過濾技術(shù)能獲得較快的過濾速度,但往往不考慮上下文的關(guān)聯(lián)性,漏報、錯報率高,而且關(guān)鍵字是目前人們常使用的詞,有些信息內(nèi)容的發(fā)布者可能有意避開使用這些詞,用其他的詞或圖片替代,使得基于關(guān)鍵詞的信息過濾機制不能識別;智能內(nèi)容理解過濾技術(shù)發(fā)展不成熟、計算量大、過濾速度慢。
發(fā)明內(nèi)容
為克服上述現(xiàn)有網(wǎng)頁內(nèi)容過濾技術(shù)存在的不足,本發(fā)明的主要目的在于提供一種網(wǎng)頁文本信息過濾系統(tǒng)及方法,其利用面向?qū)ο蟮木幊趟枷雽ξ谋具M行過濾開發(fā),并結(jié)合各種數(shù)據(jù)結(jié)構(gòu)對系統(tǒng)進行充分優(yōu)化,模塊之間相互獨立,大大提高了本發(fā)明之系統(tǒng)的重用性和可擴展性。為達上述及其它目的,本發(fā)明提供一種網(wǎng)頁文本信息過濾系統(tǒng),至少包括網(wǎng)頁瀏覽終端,通過一瀏覽器接收并解析目標(biāo)請求,并將其發(fā)送;代理服務(wù)器,接收該目標(biāo)請求將其發(fā)送至網(wǎng)絡(luò)主機,并于獲得該網(wǎng)絡(luò)主機返回的源代碼信息后將該源代碼信息發(fā)送至一文本過濾中心模塊進行文本內(nèi)容過濾,同時,該代理服務(wù)器還用于接收該文本過濾中心模塊返回的過濾結(jié)果,并將該過濾結(jié)果返回至該網(wǎng)頁瀏覽終端;網(wǎng)絡(luò)主機,用于接收該代理服務(wù)器發(fā)送的目標(biāo)請求,并返回該源代碼信息;以及文本過濾中心模塊,負責(zé)該源代碼信息解析與過濾判斷,并將過濾結(jié)果返回至該代理服務(wù)器。進一步地,該代理服務(wù)器在將該目標(biāo)請求發(fā)送至該網(wǎng)絡(luò)主機之前,將該目標(biāo)請求發(fā)送給文本過濾中心模塊,并于接收到該文本過濾中心模塊解析出真實的網(wǎng)絡(luò)訪問地址、 請求參數(shù)信息后,重新構(gòu)建目標(biāo)請求,再將重新構(gòu)建的目標(biāo)請求發(fā)送至該網(wǎng)絡(luò)主機。進一步地,該文本過濾中心模塊包含業(yè)務(wù)模塊、過濾模塊以及數(shù)據(jù)庫,其中,該業(yè)務(wù)模塊用于接收該代理服務(wù)器發(fā)送的目標(biāo)請求,解析出真實的網(wǎng)絡(luò)訪問地址、請求參數(shù)信息并將其返回至代理服務(wù)器;該過濾模塊用于接收該代理服務(wù)器發(fā)送的該源代碼信息,并根據(jù)從該數(shù)據(jù)庫中加載的敏感詞信息對該源代碼信息進行解析過濾,同時記錄不合法請求;該數(shù)據(jù)庫用于存儲敏感詞信息。進一步地,該過濾模塊包括加載模組,用于加載并存儲該數(shù)據(jù)庫中的敏感詞信息;源代碼接收模組,用于接收來自該代理服務(wù)器的源代碼信息,并將過濾后的源代碼信息返還給代理服務(wù)器;解析模組,用于解析出該源代碼信息中的文本內(nèi)容;檢測模組,用于檢測該源代碼信息中的文本內(nèi)容是否需要過濾;以及過濾處理模組,根據(jù)加載的敏感詞信息對該源代碼信息進行過濾處理。進一步地,該加載模組于加載敏感詞信息后,將敏感詞存儲于一二叉樹數(shù)據(jù)結(jié)構(gòu)中。進一步地,該文本過濾中心模塊或設(shè)置于該網(wǎng)絡(luò)主機或由該代理服務(wù)器集成。進一步地,該網(wǎng)頁瀏覽終端為手機終端。為達到上述及其他目的,本發(fā)明還提供一種網(wǎng)頁文本信息過濾,包括如下步驟網(wǎng)頁瀏覽終端接收并解析一目標(biāo)請求,并將該目標(biāo)請求發(fā)送至代理服務(wù)器;該代理服務(wù)器將該目標(biāo)請求發(fā)送至網(wǎng)絡(luò)主機,并獲得網(wǎng)絡(luò)主機返回的源代碼信息;該代理服務(wù)器將該源代碼信息發(fā)送至文本過濾中心模塊進行過濾,并記錄不合法請求;該文本過濾中心模塊將過濾結(jié)果返回至該代理服務(wù)器;以及代理服務(wù)器將過濾后的源代碼信息進行處理,并將最終的頁面返回至該網(wǎng)頁瀏覽終端進行顯示。進一步地,在該代理服務(wù)器將該目標(biāo)請求發(fā)送至該網(wǎng)絡(luò)主機之前,該方法還包括如下步驟該代理服務(wù)器將該目標(biāo)請求發(fā)送至該文本過濾中心模塊的業(yè)務(wù)模塊;該業(yè)務(wù)模塊解析出真實的網(wǎng)絡(luò)訪問地址、請求參數(shù)信息,并將這些信息返回;以及該代理服務(wù)器將獲得的這些信息重新構(gòu)建目標(biāo)請求。進一步地,該文本過濾中心模塊進行過濾的步驟包括如下步驟從數(shù)據(jù)庫中加載敏感詞,并存儲于一二叉樹數(shù)據(jù)結(jié)構(gòu)中;接收該源代碼信息;解析出該源代碼信息中的文本內(nèi)容;檢測該源代碼信息中的文本內(nèi)容是否需要過濾;若需過濾,則根據(jù)該二叉樹數(shù)據(jù)結(jié)構(gòu)中的敏感詞對該源代碼信息中的文本內(nèi)容進行過濾處理,并返回過濾結(jié)果至該代理服務(wù)器。與現(xiàn)有技術(shù)相比,本發(fā)明一種網(wǎng)頁文本信息過濾系統(tǒng)及方法利用面向?qū)ο蟮木幊趟枷雽ξ谋具M行過濾開發(fā),并結(jié)合各種數(shù)據(jù)結(jié)構(gòu)對系統(tǒng)進行充分優(yōu)化,模塊之間相互獨立, 大大提高了本發(fā)明之系統(tǒng)的重用性和可擴展性。
圖1為本發(fā)明一種網(wǎng)頁文本信息過濾系統(tǒng)的系統(tǒng)架構(gòu)圖2為本發(fā)明一種網(wǎng)頁文本信息過濾系統(tǒng)之較佳實施例的系統(tǒng)架構(gòu)圖;圖3為圖2之信息處理時序圖;圖4為本發(fā)明中文本過濾中心模塊之過濾模塊42的原理框圖;圖5為本發(fā)明之較佳實施例中敏感詞的數(shù)據(jù)結(jié)構(gòu)示意圖;圖6為本發(fā)明一種網(wǎng)頁文本信息過濾方法的步驟流程圖;圖7為本發(fā)明一種網(wǎng)頁文本信息過濾方法之較佳實施例中步驟603的具體步驟流程圖;圖8為在無本發(fā)明之網(wǎng)頁文本信息過濾系統(tǒng)的情況下手機終端訪問到的網(wǎng)頁和在有本發(fā)明之網(wǎng)頁文本信息過濾系統(tǒng)的情況下手機終端訪問到的網(wǎng)頁效果對比示意圖;圖9為本發(fā)明之網(wǎng)頁文本信息過濾系統(tǒng)生成的日志信息示意圖。
具體實施例方式以下通過特定的具體實例并結(jié)合
本發(fā)明的實施方式,本領(lǐng)域技術(shù)人員可由本說明書所揭示的內(nèi)容輕易地了解本發(fā)明的其它優(yōu)點與功效。本發(fā)明亦可通過其它不同的具體實例加以施行或應(yīng)用,本說明書中的各項細節(jié)亦可基于不同觀點與應(yīng)用,在不背離本發(fā)明的精神下進行各種修飾與變更。圖1為本發(fā)明一種網(wǎng)頁文本信息過濾系統(tǒng)的系統(tǒng)架構(gòu)圖。如圖1所示,本發(fā)明一種網(wǎng)頁文本信息過濾系統(tǒng),至少網(wǎng)頁瀏覽終端10、代理服務(wù)器20、網(wǎng)絡(luò)主機30以及文本過濾中心模塊40。其中網(wǎng)頁瀏覽終端10為目標(biāo)信息輸入層和查詢結(jié)果的輸出層,其采用網(wǎng)絡(luò)瀏覽器作為用戶的交互界面,當(dāng)瀏覽器接收用戶輸入的URL(目標(biāo)請求)后,瀏覽器將目標(biāo)請求截獲并解析該目標(biāo)請求,然后將其發(fā)送至代理服務(wù)器20 ;代理服務(wù)器20用于將該目標(biāo)請求發(fā)送給網(wǎng)絡(luò)主機30,并于獲得網(wǎng)絡(luò)主機返回的源代碼信息后將該源代碼信息發(fā)送至文本過濾中心模塊40進行文本過濾,同時,該代理服務(wù)器20還用于接收文本過濾中心模塊40過濾完成后返回的過濾結(jié)果,并將過濾結(jié)果返回至網(wǎng)頁瀏覽終端10進行呈現(xiàn),較佳的,代理服務(wù)器20在將目標(biāo)請求發(fā)送至網(wǎng)絡(luò)主機30之前,會將該目標(biāo)請求發(fā)送給文本過濾中心模塊40,并于接收到文本過濾中心模塊40解析出真實的網(wǎng)絡(luò)訪問地址、請求參數(shù)等信息后, 重新構(gòu)建目標(biāo)請求,再將重新構(gòu)建的目標(biāo)請求發(fā)送至網(wǎng)絡(luò)主機30 ;網(wǎng)絡(luò)主機30,為互聯(lián)網(wǎng)中分布的各種類型主機,里面包含大量信息,其具有較高計算能力,網(wǎng)絡(luò)主機是通過網(wǎng)絡(luò)給客戶端用戶使用的;文本過濾中心模塊40,具有文本解析過濾能力,負責(zé)源代碼解析與過濾判斷并將結(jié)果返回給代理服務(wù)器20,能夠?qū)崿F(xiàn)系統(tǒng)的自優(yōu)化,文本過濾中心模塊40包含業(yè)務(wù)模塊41、過濾模塊42及數(shù)據(jù)庫43,其中,業(yè)務(wù)模塊41用于接收代理服務(wù)器20發(fā)送的目標(biāo)請求,解析出真實的網(wǎng)絡(luò)訪問地址、請求參數(shù)等信息并將其返回至代理服務(wù)器20,過濾模塊42用于接收代理服務(wù)器20發(fā)送的源代碼信息,并根據(jù)數(shù)據(jù)庫43中的敏感詞信息對該源代碼信息進行解析過濾,記錄不合法請求并過濾該源代碼信息中的敏感信息,數(shù)據(jù)庫43 用于存儲敏感詞信息。圖2為本發(fā)明一種網(wǎng)頁文本信息過濾系統(tǒng)之較佳實施例的系統(tǒng)架構(gòu)圖。在本發(fā)明較佳實施例中,網(wǎng)頁瀏覽終端10為一手機終端,由于UC瀏覽器瀏覽網(wǎng)站更快捷,功能更強大,手機終端采用UC瀏覽器,手機終端主要利用無線網(wǎng)絡(luò)通過代理服務(wù)器20從網(wǎng)絡(luò)主機30
6上下載HTML源代碼,此時代理服務(wù)器20相當(dāng)于一個文本過濾防火墻。(1)手機終端,為信息查詢的目標(biāo)信息輸入層和查詢結(jié)果的輸出層。采用網(wǎng)絡(luò)瀏覽器(UC瀏覽器)作為用戶的交互界面。(2)代理服務(wù)器20,當(dāng)用戶于手機終端的瀏覽器輸入URL后,瀏覽器將請求截獲然后解析請求,然后代理請求發(fā)送至代理服務(wù)器20,代理請求將該請求發(fā)送至網(wǎng)絡(luò)主機30, 于HTML代碼返回后再將該HTML代碼發(fā)送至本地或網(wǎng)絡(luò)的文本過濾中心模塊40,經(jīng)文本過濾中心模塊40解析過濾后再將處理后的頁面返回給代理服務(wù)器20,代理服務(wù)器20再將結(jié)果返回至手機終端。(3)網(wǎng)絡(luò)主機30為互聯(lián)網(wǎng)中分布的各種類型主機,里面包含大量信息。是一種具有較高計算能力,能夠提供給多個用戶使用的計算機,網(wǎng)絡(luò)主機通過網(wǎng)絡(luò)給客戶端用戶使用。(4)文本過濾中心模塊40包含業(yè)務(wù)模塊41、過濾模塊42及數(shù)據(jù)庫43,負責(zé)HTML 代碼解析與過濾判斷并將結(jié)果返回給代理服務(wù)器20。圖3為圖2之信息處理時序圖,以下將配合圖3進一步說明本發(fā)明之信息處理時序。在本發(fā)明較佳實施例中,信息處理通過如下7步完成(1) “手機終端”請求信息(URL 請求)發(fā)送給“代理服務(wù)器”;O) “代理服務(wù)器”將請求(URL請求)分配給文本過濾中心模塊40的“業(yè)務(wù)模塊”;(3) “業(yè)務(wù)模塊”解析出真實的網(wǎng)絡(luò)訪問地址、請求參數(shù)等信息,并將這些信息返回;(4) “代理服務(wù)器”獲得這些信息重新構(gòu)建請求,并將重新構(gòu)建的請求發(fā)送到互聯(lián)網(wǎng)中“網(wǎng)絡(luò)主機”,從而獲得訪問的HTML源代碼;( “代理服務(wù)器”獲取HTML源代碼后將此HTML源代碼發(fā)送到文本過濾中心模塊40的“過濾模塊”,由“過濾模塊”記錄不合法請求并過濾中間敏感信息;(6) “過濾模塊”完成過濾后將結(jié)果返回“代理服務(wù)器”,(7) “代理服務(wù)器”再壓縮HTML源代碼并將最終的網(wǎng)頁返回“手機終端”,以呈現(xiàn)在手機瀏覽器上。在此需說明的是,本發(fā)明中的文本過濾中心模塊40可以設(shè)置于“網(wǎng)絡(luò)主機”上,也可以是“代理服務(wù)器”集成的。圖4為本發(fā)明中文本過濾中心模塊之過濾模塊42的原理框圖。如圖4所示,過濾模塊42包括加載模組420、源代碼接收模組430、解析模組440、檢測模組450以及過濾處理模組460,其中加載模組420用于加載并存儲數(shù)據(jù)庫43中的敏感詞信息;源代碼接收模組430用于接收來自代理服務(wù)器20的源代碼信息,并將過濾處理模組460處理后的源代碼信息返還給代理服務(wù)器20 ;解析模組440用于解析出源代碼信息中的文本內(nèi)容;檢測模組 450用于檢測是否源代碼信息中的文本內(nèi)容是否需要過濾,這是根據(jù)網(wǎng)頁瀏覽終端的緩存實現(xiàn)的,緩存的內(nèi)容包括檢測到的非法請求,本發(fā)明還會將非法請求以HTML格式文檔保存起來,便于將來做數(shù)據(jù)分析;過濾處理模組460則根據(jù)加載的敏感詞信息對源代碼信息進行過濾處理。在本發(fā)明較佳實施例中,為提高本發(fā)明的效率,降低算法復(fù)雜度,加載模組420于加載敏感詞信息后,會將敏感詞存儲到一二叉樹數(shù)據(jù)結(jié)構(gòu)中,當(dāng)外部系統(tǒng)調(diào)用過濾接口時, 過濾模塊會根據(jù)輸入的源代碼信息來過濾,具體的數(shù)據(jù)庫表結(jié)構(gòu)如圖5所示。在本發(fā)明較佳實施例中,對敏感詞數(shù)據(jù)結(jié)構(gòu)的描述如表1所示
權(quán)利要求
1.一種網(wǎng)頁文本信息過濾系統(tǒng),至少包括網(wǎng)頁瀏覽終端,通過一瀏覽器接收并解析目標(biāo)請求,并將其發(fā)送; 代理服務(wù)器,接收該目標(biāo)請求將其發(fā)送至網(wǎng)絡(luò)主機,并于獲得該網(wǎng)絡(luò)主機返回的源代碼信息后將該源代碼信息發(fā)送至一文本過濾中心模塊進行文本內(nèi)容過濾,同時,該代理服務(wù)器還用于接收該文本過濾中心模塊返回的過濾結(jié)果,并將該過濾結(jié)果處理后返回至該網(wǎng)頁瀏覽終端;網(wǎng)絡(luò)主機,用于接收該代理服務(wù)器發(fā)送的目標(biāo)請求,并返回該源代碼信息;以及文本過濾中心模塊,負責(zé)該源代碼信息解析與過濾判斷,并將過濾結(jié)果返回至該代理服務(wù)器。
2.如權(quán)利要求1所述的網(wǎng)頁文本信息過濾系統(tǒng),其特征在于該代理服務(wù)器在將該目標(biāo)請求發(fā)送至該網(wǎng)絡(luò)主機之前,將該目標(biāo)請求發(fā)送給文本過濾中心模塊,并于接收到該文本過濾中心模塊解析出真實的網(wǎng)絡(luò)訪問地址、請求參數(shù)信息后,重新構(gòu)建目標(biāo)請求,再將重新構(gòu)建的目標(biāo)請求發(fā)送至該網(wǎng)絡(luò)主機。
3.如權(quán)利要求2所述的網(wǎng)頁文本信息過濾系統(tǒng),其特征在于該文本過濾中心模塊包含業(yè)務(wù)模塊、過濾模塊以及數(shù)據(jù)庫,其中,該業(yè)務(wù)模塊用于接收該代理服務(wù)器發(fā)送的目標(biāo)請求,解析出真實的網(wǎng)絡(luò)訪問地址、請求參數(shù)信息并將其返回至代理服務(wù)器;該過濾模塊用于接收該代理服務(wù)器發(fā)送的該源代碼信息,并根據(jù)從該數(shù)據(jù)庫中加載的敏感詞信息對該源代碼信息進行解析過濾,同時記錄不合法請求;該數(shù)據(jù)庫用于存儲敏感詞信息。
4.如權(quán)利要求3所述的網(wǎng)頁文本信息過濾系統(tǒng),其特征在于,該過濾模塊包括 加載模組,用于加載并存儲該數(shù)據(jù)庫中的敏感詞信息;源代碼接收模組,用于接收來自該代理服務(wù)器的源代碼信息,并將過濾后的源代碼信息返還給代理服務(wù)器;解析模組,用于解析出該源代碼信息中的文本內(nèi)容;檢測模組,用于檢測該源代碼信息中的文本內(nèi)容是否需要過濾;以及過濾處理模組,根據(jù)加載的敏感詞信息對該源代碼信息進行過濾處理。
5.如權(quán)利要求4所述的網(wǎng)頁文本信息過濾系統(tǒng),其特征在于該加載模組于加載敏感詞信息后,將敏感詞存儲于一二叉樹數(shù)據(jù)結(jié)構(gòu)中。
6.如權(quán)利要求1所述的網(wǎng)頁文本信息過濾系統(tǒng),其特征在于該文本過濾中心模塊或設(shè)置于該網(wǎng)絡(luò)主機或由該代理服務(wù)器集成。
7.如權(quán)利要求1所述的網(wǎng)頁文本信息過濾系統(tǒng),其特征在于該網(wǎng)頁瀏覽終端為手機終端。
8.一種網(wǎng)頁文本信息過濾,包括如下步驟網(wǎng)頁瀏覽終端接收并解析一目標(biāo)請求,并將該目標(biāo)請求發(fā)送至代理服務(wù)器; 該代理服務(wù)器將該目標(biāo)請求發(fā)送至網(wǎng)絡(luò)主機,并獲得網(wǎng)絡(luò)主機返回的源代碼信息; 該代理服務(wù)器將該源代碼信息發(fā)送至文本過濾中心模塊進行過濾,并記錄不合法請求;該文本過濾中心模塊將過濾結(jié)果返回至該代理服務(wù)器;以及代理服務(wù)器將過濾后的源代碼信息進行處理,并將最終的頁面返回至該網(wǎng)頁瀏覽終端進行顯示。
9.如權(quán)利要求8所述的網(wǎng)頁文本信息過濾方法,其特征在于,在該代理服務(wù)器將該目標(biāo)請求發(fā)送至該網(wǎng)絡(luò)主機之前,該方法還包括如下步驟該代理服務(wù)器將該目標(biāo)請求發(fā)送至該文本過濾中心模塊的業(yè)務(wù)模塊; 該業(yè)務(wù)模塊解析出真實的網(wǎng)絡(luò)訪問地址、請求參數(shù)信息,并將這些信息返回;以及該代理服務(wù)器將獲得的這些信息重新構(gòu)建目標(biāo)請求。
10.如權(quán)利要求8所述的網(wǎng)頁文本信息過濾方法,其特征在于,該文本過濾中心模塊進行過濾的步驟包括如下步驟從數(shù)據(jù)庫中加載敏感詞,并存儲于一二叉樹數(shù)據(jù)結(jié)構(gòu)中;接收該源代碼信息;解析出該源代碼信息中的文本內(nèi)容;檢測該源代碼信息中的文本內(nèi)容是否需要過濾;若需過濾,則根據(jù)該二叉樹數(shù)據(jù)結(jié)構(gòu)中的敏感詞對該源代碼信息中的文本內(nèi)容進行過濾處理,并返回過濾結(jié)果至該代理服務(wù)器。
全文摘要
本發(fā)明公開一種網(wǎng)頁文本信息過濾系統(tǒng)及方法,該系統(tǒng)包括網(wǎng)頁瀏覽終端,通過一瀏覽器接收、解析并發(fā)送目標(biāo)請求;代理服務(wù)器,接收該目標(biāo)請求將其發(fā)送至網(wǎng)絡(luò)主機,并于獲得返回的源代碼信息后將該源代碼信息發(fā)送至一文本過濾中心模塊進行過濾,同時,該代理服務(wù)器還用于接收文本過濾中心模塊返回的過濾結(jié)果;網(wǎng)絡(luò)主機,用于接收該目標(biāo)請求,并返回該源代碼信息;以及文本過濾中心模塊,負責(zé)該源代碼信息解析與過濾判斷,并將過濾結(jié)果返回,本發(fā)明利用面向?qū)ο蟮木幊趟枷雽ξ谋具M行過濾開發(fā),并結(jié)合各種數(shù)據(jù)結(jié)構(gòu)對系統(tǒng)進行充分優(yōu)化,模塊之間相互獨立,大大提高了本發(fā)明之系統(tǒng)的重用性和可擴展性。
文檔編號G06F17/30GK102402613SQ201110430970
公開日2012年4月4日 申請日期2011年12月20日 優(yōu)先權(quán)日2011年12月20日
發(fā)明者劉蘭保, 徐濤, 朱一群 申請人:上海電機學(xué)院