網(wǎng)頁內(nèi)容的過濾方法及服務(wù)器的制造方法
【專利摘要】本發(fā)明公開了一種網(wǎng)頁內(nèi)容的過濾方法及服務(wù)器,涉及電子設(shè)備應(yīng)用領(lǐng)域,能夠解決由于誤將垃圾圖片判斷為主體內(nèi)容導(dǎo)致的漏濾垃圾圖片的問題。所述方法包括:將待過濾網(wǎng)頁的網(wǎng)頁統(tǒng)一資源定位符URL地址與所述待過濾網(wǎng)頁中多媒體內(nèi)容的多媒體URL地址進(jìn)行關(guān)聯(lián),并保存在關(guān)系數(shù)據(jù)庫中,所述關(guān)系數(shù)據(jù)庫用于保存網(wǎng)頁URL地址與多媒體URL地址之間的映射關(guān)系;判斷所述關(guān)系數(shù)據(jù)庫中同一個(gè)多媒體URL地址所關(guān)聯(lián)的網(wǎng)頁URL地址是否多于一個(gè),得出判斷結(jié)果;如果所述判斷結(jié)果為是,則將所述多媒體URL地址所鏈接的多媒體內(nèi)容確定為垃圾多媒體內(nèi)容,將所述垃圾多媒體內(nèi)容進(jìn)行過濾。本發(fā)明應(yīng)用于網(wǎng)絡(luò)訪問的過程中。
【專利說明】網(wǎng)頁內(nèi)容的過濾方法及服務(wù)器
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子設(shè)備應(yīng)用領(lǐng)域,尤其涉及一種網(wǎng)頁內(nèi)容的過濾方法及服務(wù)器。
【背景技術(shù)】
[0002]隨著移動(dòng)通信技術(shù)的發(fā)展,通過移動(dòng)終端瀏覽網(wǎng)頁得到廣泛普及。由于移動(dòng)終端(如手機(jī))的屏幕遠(yuǎn)小于個(gè)人計(jì)算機(jī)(Personal Computer,簡稱PC機(jī))以及筆記本電腦的屏幕,因此不能將在PC機(jī)上展現(xiàn)的源網(wǎng)頁直接展現(xiàn)在手機(jī)屏幕上,如果直接展現(xiàn)用戶需要不斷的滾屏才能瀏覽完一個(gè)完整的源網(wǎng)頁。此外,由于移動(dòng)終端的上網(wǎng)帶寬和內(nèi)存容量遠(yuǎn)小于PC機(jī),因此也不能將在PC機(jī)上展現(xiàn)的源網(wǎng)頁直接展現(xiàn)在手機(jī)上,因?yàn)橐苿?dòng)終端獲取源網(wǎng)頁內(nèi)容將占用大量內(nèi)容,同時(shí)耗費(fèi)較多的移動(dòng)流量?;谄聊淮笮∫约皟?nèi)存的問題,需要對源網(wǎng)頁進(jìn)行網(wǎng)頁轉(zhuǎn)碼,以適應(yīng)移動(dòng)終端的瀏覽。
[0003]網(wǎng)頁轉(zhuǎn)碼能夠?qū)⒃淳W(wǎng)頁中和主體信息內(nèi)容無關(guān)的文字和圖片去除,抽取出主體內(nèi)容和圖片,并對圖片進(jìn)行縮略,對文字段落重新進(jìn)行排版,生成一個(gè)新的利于在手機(jī)上展現(xiàn)、方便手機(jī)下載獲取、利于用戶閱讀、且未損耗源網(wǎng)頁中主體信息的新頁面。進(jìn)行網(wǎng)頁轉(zhuǎn)碼時(shí)需要用到垃圾圖片識別技術(shù),也可稱作圖片過濾技術(shù)。網(wǎng)頁轉(zhuǎn)碼將過濾掉頁面內(nèi)不影響用戶對主體內(nèi)容信息獲取的圖片,被過濾掉的圖片稱作垃圾圖片。垃圾圖片將不出現(xiàn)在轉(zhuǎn)碼之后的頁面內(nèi)容中,垃圾圖片包括廣告圖片和其他與頁面主體內(nèi)容無關(guān)的圖片。具體的,通過下述方式過濾垃圾圖片:在一個(gè)網(wǎng)頁中,根據(jù)圖片在網(wǎng)頁所處的位置(通常處于網(wǎng)頁頂部、邊框、底部出現(xiàn)垃圾圖片的幾率較大)、圖片的說明文字、圖片所在的段落是否是主體段落塊、圖片的寬高信息等屬性信息,確定該網(wǎng)頁中的垃圾圖片,并將垃圾圖片從網(wǎng)頁中過濾掉。
[0004]在實(shí)現(xiàn)上述圖片過濾的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:由于垃圾圖片的過濾依據(jù)為圖片的屬性信息,因此如果垃圾圖片的屬性信息與主體內(nèi)容的屬性信息相同或相似,則不被確定為垃圾圖片,導(dǎo)致誤判。例如某廣告圖片,其出現(xiàn)在網(wǎng)頁中間位置,寬高也和主體圖片相同,所在的塊也是正文塊,由于該廣告圖片的屬性信息與主體內(nèi)容的屬性信息相同,則將垃圾圖片確定為主體內(nèi)容,此時(shí)出現(xiàn)誤判。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供的一種網(wǎng)頁內(nèi)容的過濾方法及服務(wù)器,能夠解決由于誤將垃圾圖片判斷為主體內(nèi)容導(dǎo)致的漏濾垃圾圖片的問題。
[0006]一方面,本發(fā)明提供了一種網(wǎng)頁內(nèi)容的過濾方法,包括:
[0007]將待過濾網(wǎng)頁的網(wǎng)頁統(tǒng)一資源定位符(Uniform Resource Locator,簡稱URL)地址與所述待過濾網(wǎng)頁中多媒體內(nèi)容的多媒體URL地址進(jìn)行關(guān)聯(lián),并保存在關(guān)系數(shù)據(jù)庫中,所述關(guān)系數(shù)據(jù)庫用于保存網(wǎng)頁URL地址與多媒體URL地址之間的映射關(guān)系;
[0008]判斷所述關(guān)系數(shù)據(jù)庫中同一個(gè)多媒體URL地址所關(guān)聯(lián)的網(wǎng)頁URL地址是否多于一個(gè),得出判斷結(jié)果;[0009]如果所述判斷結(jié)果為是,則將所述多媒體URL地址所鏈接的多媒體內(nèi)容確定為垃圾多媒體內(nèi)容,將所述垃圾多媒體內(nèi)容進(jìn)行過濾。
[0010]另一方面,本發(fā)明還提供了一種服務(wù)器,包括:
[0011]關(guān)聯(lián)單元,用于將待過濾網(wǎng)頁的網(wǎng)頁統(tǒng)一資源定位符URL地址與所述待過濾網(wǎng)頁中多媒體內(nèi)容的多媒體URL地址進(jìn)行關(guān)聯(lián),
[0012]存儲單元,用于保存在關(guān)系數(shù)據(jù)庫中,所述關(guān)系數(shù)據(jù)庫用于保存所述關(guān)聯(lián)單元關(guān)聯(lián)的網(wǎng)頁URL地址與多媒體URL地址之間的映射關(guān)系;
[0013]判斷單元,用于判斷所述存儲單元存儲的所述關(guān)系數(shù)據(jù)庫中同一個(gè)多媒體URL地址所關(guān)聯(lián)的網(wǎng)頁URL地址是否多于一個(gè),得出判斷結(jié)果;
[0014]過濾單元,用于當(dāng)所述判斷單元判斷出的所述判斷結(jié)果為是時(shí),將所述多媒體URL地址所鏈接的多媒體內(nèi)容確定為垃圾多媒體內(nèi)容,將所述垃圾多媒體內(nèi)容進(jìn)行過濾。
[0015]本發(fā)明提供的網(wǎng)頁內(nèi)容的過濾方法及服務(wù)器,能夠?qū)⒕W(wǎng)頁URL地址與多媒體URL地址進(jìn)行關(guān)聯(lián),當(dāng)判斷出同一個(gè)多媒體URL地址關(guān)聯(lián)了多于一個(gè)的網(wǎng)頁URL地址時(shí),確定該多媒體URL地址鏈接的多媒體內(nèi)容為垃圾多媒體內(nèi)容。現(xiàn)有技術(shù)中通過多媒體內(nèi)容的屬性信息進(jìn)行判斷,當(dāng)垃圾多媒體內(nèi)容的屬性信息與主體內(nèi)容的屬性信息相似時(shí),無法區(qū)分垃圾多媒體內(nèi)容與主體內(nèi)容,造成誤判。本發(fā)明中能夠確定同一個(gè)多媒體內(nèi)容與不同網(wǎng)頁URL地址的對應(yīng)關(guān)系,進(jìn)而確定同一個(gè)多媒體內(nèi)容是否出現(xiàn)在不同的網(wǎng)頁中。由于垃圾多媒體內(nèi)容存在于諸多網(wǎng)頁中,將存在于不同網(wǎng)頁中的相同多媒體內(nèi)容確定為垃圾多媒體內(nèi)容,避免因?qū)傩孕畔⑾嗨圃斐烧`判,提高網(wǎng)頁過濾的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0016]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0017]圖1為本發(fā)明實(shí)施例中一個(gè)網(wǎng)頁內(nèi)容的過濾方法的流程圖;
[0018]圖2為本發(fā)明實(shí)施例中另一個(gè)網(wǎng)頁內(nèi)容的過濾方法的流程圖;
[0019]圖3為本發(fā)明實(shí)施例中在一個(gè)網(wǎng)頁內(nèi)容的過濾方法的流程圖;
[0020]圖4為本發(fā)明實(shí)施例中第一個(gè)服務(wù)器的結(jié)構(gòu)示意圖;
[0021]圖5為本發(fā)明實(shí)施例中第二個(gè)服務(wù)器的結(jié)構(gòu)示意圖;
[0022]圖6為本發(fā)明實(shí)施例中第三個(gè)服務(wù)器的結(jié)構(gòu)示意圖;
[0023]圖7為本發(fā)明實(shí)施例中第四個(gè)服務(wù)器的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0024]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0025]實(shí)施例一[0026]本發(fā)明實(shí)施例提供了一種網(wǎng)頁內(nèi)容的過濾方法,如圖1所示,包括:
[0027]步驟101、將待過濾網(wǎng)頁的網(wǎng)頁統(tǒng)一資源定位符URL地址與待過濾網(wǎng)頁中多媒體內(nèi)容的多媒體URL地址進(jìn)行關(guān)聯(lián),并保存在關(guān)系數(shù)據(jù)庫中,關(guān)系數(shù)據(jù)庫用于保存網(wǎng)頁URL地址與多媒體URL地址之間的映射關(guān)系。
[0028]所述關(guān)系數(shù)據(jù)庫的作用為保存映射關(guān)系,其不限于字面意義上單純的數(shù)據(jù)庫,還可以為數(shù)據(jù)庫中的數(shù)據(jù)表單等,凡是能夠達(dá)到存儲所述映射關(guān)系的文件均能夠作為所述關(guān)系數(shù)據(jù)庫。通過所述待過濾網(wǎng)頁URL地址能夠獲取所述待過濾網(wǎng)頁URL地址對應(yīng)的待過濾網(wǎng)頁內(nèi)容,通過解析所述待過濾網(wǎng)頁內(nèi)容能夠得到所述待過濾網(wǎng)頁中包含有的多媒體URL地址。將所述待過濾網(wǎng)頁URL地址域所述多媒體URL地址進(jìn)行關(guān)聯(lián)后,可以將兩者的映射關(guān)系以表項(xiàng)的形式存儲到所述關(guān)系數(shù)據(jù)庫中,如表1所示,所述表1為所述關(guān)系數(shù)據(jù)庫。
[0029]表1
[0030]
【權(quán)利要求】
1.一種網(wǎng)頁內(nèi)容的過濾方法,其特征在于,包括: 將待過濾網(wǎng)頁的網(wǎng)頁統(tǒng)一資源定位符URL地址與所述待過濾網(wǎng)頁中多媒體內(nèi)容的多媒體URL地址進(jìn)行關(guān)聯(lián),并保存在關(guān)系數(shù)據(jù)庫中,所述關(guān)系數(shù)據(jù)庫用于保存網(wǎng)頁URL地址與多媒體URL地址之間的映射關(guān)系; 判斷所述關(guān)系數(shù)據(jù)庫中同一個(gè)多媒體URL地址所關(guān)聯(lián)的網(wǎng)頁URL地址是否多于一個(gè),得出判斷結(jié)果; 如果所述判斷結(jié)果為是,則將所述多媒體URL地址所鏈接的多媒體內(nèi)容確定為垃圾多媒體內(nèi)容,將所述垃圾多媒體內(nèi)容進(jìn)行過濾。
2.根據(jù)權(quán)利要求1所述的網(wǎng)頁內(nèi)容的過濾方法,其特征在于,所述方法還包括選取所述待過濾網(wǎng)頁; 所述選取所述待過濾網(wǎng)頁包括: 獲取網(wǎng)頁URL地址日志,所述網(wǎng)頁URL地址日志用于記錄已瀏覽網(wǎng)頁的網(wǎng)頁URL地址;根據(jù)預(yù)設(shè)條件將所述網(wǎng)頁URL地址日志中的至少一個(gè)網(wǎng)頁URL地址所鏈接的至少一個(gè)網(wǎng)頁確定為所述待過濾網(wǎng)頁。
3.根據(jù)權(quán)利要求2所述的網(wǎng)頁內(nèi)容的過濾方法,其特征在于,所述根據(jù)預(yù)設(shè)條件將所述網(wǎng)頁URL地址日志 中的至少一個(gè)網(wǎng)頁URL地址所鏈接的至少一個(gè)網(wǎng)頁確定為所述待過濾網(wǎng)頁,包括: 從所述網(wǎng)頁URL地址日志的每一個(gè)網(wǎng)頁URL地址子域中獲取預(yù)設(shè)數(shù)量的網(wǎng)頁URL地址,將所述網(wǎng)頁URL地址鏈接的網(wǎng)頁確定為所述待過濾網(wǎng)頁。
4.根據(jù)權(quán)利要求1所述的網(wǎng)頁內(nèi)容的過濾方法,其特征在于,在所述將所述多媒體URL地址所鏈接的多媒體內(nèi)容確定為垃圾多媒體內(nèi)容之后,所述方法進(jìn)一步包括: 根據(jù)預(yù)設(shè)的多媒體屬性信息從所述垃圾多媒體內(nèi)容中提取主體多媒體內(nèi)容,將所述主體多媒體內(nèi)容確定為非垃圾多媒體內(nèi)容; 其中,所述多媒體屬性信息包括下述至少一種信息:位置信息、寬高信息、說明信息。
5.根據(jù)權(quán)利要求1所述的網(wǎng)頁內(nèi)容的過濾方法,其特征在于,所述將所述垃圾多媒體內(nèi)容進(jìn)行過濾,進(jìn)一步包括: 將所述垃圾多媒體內(nèi)容對應(yīng)的垃圾多媒體URL地址保存到結(jié)果數(shù)據(jù)庫中,所述結(jié)果數(shù)據(jù)庫用于保存垃圾多媒體URL地址; 將所述結(jié)果數(shù)據(jù)庫中保存的至少一個(gè)垃圾多媒體URL地址發(fā)送給網(wǎng)頁轉(zhuǎn)碼模塊,以便所述網(wǎng)頁轉(zhuǎn)碼模塊根據(jù)所述垃圾多媒體URL地址對源網(wǎng)頁進(jìn)行轉(zhuǎn)碼。
6.一種服務(wù)器,其特征在于,包括: 關(guān)聯(lián)單元,用于將待過濾網(wǎng)頁的網(wǎng)頁統(tǒng)一資源定位符URL地址與所述待過濾網(wǎng)頁中多媒體內(nèi)容的多媒體URL地址進(jìn)行關(guān)聯(lián), 存儲單元,用于保存在關(guān)系數(shù)據(jù)庫中,所述關(guān)系數(shù)據(jù)庫用于保存所述關(guān)聯(lián)單元關(guān)聯(lián)的網(wǎng)頁URL地址與多媒體URL地址之間的映射關(guān)系; 判斷單元,用于判斷所述存儲單元存儲的所述關(guān)系數(shù)據(jù)庫中同一個(gè)多媒體URL地址所關(guān)聯(lián)的網(wǎng)頁URL地址是否多于一個(gè),得出判斷結(jié)果; 過濾單元,用于當(dāng)所述判斷單元判斷出的所述判斷結(jié)果為是時(shí),將所述多媒體URL地址所鏈接的多媒體內(nèi)容確定為垃圾多媒體內(nèi)容,將所述垃圾多媒體內(nèi)容進(jìn)行過濾。
7.根據(jù)權(quán)利要求6所述的服務(wù)器,其特征在于,所述服務(wù)器還包括選取單元,用于選取所述待過濾網(wǎng)頁; 所述選取單元還包括: 獲取子單元,用于獲取網(wǎng)頁URL地址日志,所述網(wǎng)頁URL地址日志用于記錄已瀏覽網(wǎng)頁的網(wǎng)頁URL地址; 確定子單元,用于根據(jù)預(yù)設(shè)條件將所述獲取單元獲取到的所述網(wǎng)頁URL地址日志中的至少一個(gè)網(wǎng)頁URL地址所鏈接的至少一個(gè)網(wǎng)頁確定為所述待過濾網(wǎng)頁。
8.根據(jù)權(quán)利要求7所述的服務(wù)器,其特征在于,所述確定子單元還用于,從所述網(wǎng)頁URL地址日志的每一個(gè)網(wǎng)頁URL地址子域中獲取預(yù)設(shè)數(shù)量的網(wǎng)頁URL地址,將所述網(wǎng)頁URL地址鏈接的網(wǎng)頁確定為所述待過濾網(wǎng)頁。
9.根據(jù)權(quán)利要求6所述的服務(wù)器,其特征在于,所述服務(wù)器進(jìn)一步包括: 確定單元,用于根據(jù)預(yù)設(shè)的多媒體屬性信息從所述過濾單元確定的所述垃圾多媒體內(nèi)容中提取主體多媒體內(nèi)容,將所述主體多媒體內(nèi)容確定為非垃圾多媒體內(nèi)容; 其中,所述多媒體屬性信息包括下述至少一種信息:位置信息、寬高信息、說明信息。
10.根據(jù)權(quán)利要求6所述的服務(wù)器,其特征在于,所述過濾單元進(jìn)一步包括: 存儲子單元,用于將 所述垃圾多媒體內(nèi)容對應(yīng)的垃圾多媒體URL地址保存到結(jié)果數(shù)據(jù)庫中,所述存儲單元還用于保存所述結(jié)果數(shù)據(jù)庫,所述結(jié)果數(shù)據(jù)庫用于保存垃圾多媒體URL地址; 發(fā)送子單元,用于將所述結(jié)果數(shù)據(jù)庫中保存的至少一個(gè)垃圾多媒體URL地址發(fā)送給網(wǎng)頁轉(zhuǎn)碼模塊,以便所述網(wǎng)頁轉(zhuǎn)碼模塊根據(jù)所述垃圾多媒體URL地址對源網(wǎng)頁進(jìn)行轉(zhuǎn)碼。
【文檔編號】G06F17/30GK104021126SQ201310065929
【公開日】2014年9月3日 申請日期:2013年2月28日 優(yōu)先權(quán)日:2013年2月28日
【發(fā)明者】王濤偉 申請人:深圳市世紀(jì)光速信息技術(shù)有限公司