網(wǎng)頁過濾方法和裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)技術領域,特別涉及一種網(wǎng)頁過濾方法和裝置。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)的普及,很多廠商會在網(wǎng)頁中發(fā)布廣告,以宣傳其生產(chǎn)的產(chǎn)品,這就導 致網(wǎng)頁中包括各種各樣的廣告,嚴重影響用戶正常瀏覽網(wǎng)頁。
[0003] 為了過濾掉網(wǎng)頁中的廣告,網(wǎng)站運營人員可以根據(jù)每個網(wǎng)頁中的廣告,人工配置 過濾模板,并上傳至網(wǎng)站服務器,網(wǎng)站服務器可以根據(jù)該過濾模板,對網(wǎng)頁進行過濾。該過 濾模板可以為黑名單或者白名單,當該過濾模板為黑名單時,網(wǎng)站服務器提取網(wǎng)頁中與該 過濾模板匹配的網(wǎng)頁內容,將提取到的網(wǎng)頁內容過濾掉,當該過濾模板為白名單時,網(wǎng)站服 務器提取網(wǎng)頁中與該過濾模板匹配的網(wǎng)頁內容,將網(wǎng)頁中的其他網(wǎng)頁內容過濾掉。
[0004] 在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術至少存在以下缺陷:為海量的網(wǎng)頁 配置過濾模板時,需要耗費過多的人力成本。
【發(fā)明內容】
[0005] 為了解決現(xiàn)有技術的問題,本發(fā)明實施例提供了一種網(wǎng)頁過濾方法和裝置。所述 技術方案如下:
[0006] 第一方面,提供了一種網(wǎng)頁過濾方法,所述方法包括:
[0007] 獲取待分析的網(wǎng)頁集合,所述網(wǎng)頁集合中包括多個網(wǎng)頁,每個網(wǎng)頁中包括多個節(jié) 占.
[0008] 對于每個網(wǎng)頁中的每個節(jié)點,計算所述節(jié)點的可能性特征值,所述可能性特征值 用于表示所述節(jié)點是指定類型節(jié)點的可能性大??;
[0009] 將可能性特征值大于指定閾值的節(jié)點確定為所述指定類型節(jié)點;
[0010] 基于已確定的指定類型節(jié)點,對待展示網(wǎng)頁進行過濾。
[0011] 第二方面,提供了一種網(wǎng)頁過濾裝置,所述裝置包括:
[0012] 網(wǎng)頁集合獲取模塊,用于獲取待分析的網(wǎng)頁集合,所述網(wǎng)頁集合中包括多個網(wǎng)頁, 每個網(wǎng)頁中包括多個節(jié)點;
[0013] 計算模塊,用于對于每個網(wǎng)頁中的每個節(jié)點,計算所述節(jié)點的可能性特征值,所述 可能性特征值用于表示所述節(jié)點是指定類型節(jié)點的可能性大?。?br>[0014] 指定類型節(jié)點確定模塊,用于將可能性特征值大于指定閾值的節(jié)點確定為所述指 定類型節(jié)點;
[0015] 過濾模塊,用于基于已確定的指定類型節(jié)點,對待展示網(wǎng)頁進行過濾。
[0016] 本發(fā)明實施例提供的技術方案帶來的有益效果是:
[0017] 本發(fā)明實施例提供的方法和裝置,通過計算網(wǎng)頁集合中每個網(wǎng)頁中每個節(jié)點的可 能性特征值,將可能性特征值大于指定閾值的節(jié)點作為指定類型節(jié)點,能夠直接基于已確 定的指定類型節(jié)點,對待展示網(wǎng)頁進行過濾,無需人工配置過濾模板,操作簡便快捷,節(jié)省 了時間成本和人力成本。
【附圖說明】
[0018] 為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0019] 圖1是本發(fā)明實施例提供的一種網(wǎng)頁過濾方法的流程圖;
[0020] 圖2是本發(fā)明實施例提供的一種網(wǎng)頁過濾方法的流程圖;
[0021] 圖3是本發(fā)明實施例提供的網(wǎng)頁示意圖;
[0022] 圖4是本發(fā)明實施例提供的指定樹形結構示意圖;
[0023] 圖5是本發(fā)明實施例提供的可能性特征值計算流程圖;
[0024] 圖6是本發(fā)明實施例提供的一種網(wǎng)頁過濾裝置結構示意圖;
[0025] 圖7是本發(fā)明實施例提供的一種服務器結構示意圖。
【具體實施方式】
[0026] 下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā) 明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施 例,都屬于本發(fā)明保護的范圍。
[0027] 圖1是本發(fā)明實施例提供的一種網(wǎng)頁過濾方法的流程圖。該發(fā)明實施例的執(zhí)行主 體為服務器,參見圖1,該方法包括:
[0028] 101、獲取待分析的網(wǎng)頁集合,該網(wǎng)頁集合中包括多個網(wǎng)頁,每個網(wǎng)頁中包括多個 節(jié)點。
[0029] 102、對于每個網(wǎng)頁中的每個節(jié)點,計算該節(jié)點的可能性特征值,該可能性特征值 用于表示該節(jié)點是指定類型節(jié)點的可能性大小。
[0030] 10 3、將可能性特征值大于指定閾值的節(jié)點確定為該指定類型節(jié)點。
[0031] 104、基于已確定的指定類型節(jié)點,對待展示網(wǎng)頁進行過濾。
[0032] 本發(fā)明實施例提供的方法,通過計算網(wǎng)頁集合中每個網(wǎng)頁中每個節(jié)點的可能性特 征值,將可能性特征值大于指定閾值的節(jié)點作為指定類型節(jié)點,能夠直接基于已確定的指 定類型節(jié)點,對待展示網(wǎng)頁進行過濾,無需人工配置過濾模板,操作簡便快捷,節(jié)省了時間 成本和人力成本。
[0033] 可選地,該對于每個網(wǎng)頁中的每個節(jié)點,計算該節(jié)點的可能性特征值包括:
[0034] 根據(jù)每個節(jié)點的內容,計算該節(jié)點與該網(wǎng)頁集合中除該網(wǎng)頁以外的其他網(wǎng)頁中每 個節(jié)點的相似度;
[0035] 對該節(jié)點與該其他網(wǎng)頁中每個節(jié)點的相似度進行統(tǒng)計,得到該節(jié)點的可能性特征 值。
[0036] 可選地,該方法還包括:
[0037] 根據(jù)每個節(jié)點在對應網(wǎng)頁中的位置,對該多個網(wǎng)頁中的多個節(jié)點進行分組,得到 多個節(jié)點集合,每個節(jié)點集合中的多個節(jié)點位于不同網(wǎng)頁中的相同位置。
[0038] 可選地,該對于每個網(wǎng)頁中的每個節(jié)點,計算該節(jié)點的可能性特征值包括:
[0039] 對于每個節(jié)點集合中的每個節(jié)點,根據(jù)每個節(jié)點的內容,計算該節(jié)點與該節(jié)點集 合中的其他節(jié)點的相似度;
[0040] 對該節(jié)點與該節(jié)點集合中的其他節(jié)點的相似度進行統(tǒng)計,得到該節(jié)點的可能性特 征值。
[0041] 可選地,該獲取待分析的網(wǎng)頁集合包括:
[0042] 獲取在當前時間點之前的指定時長內生成的多個網(wǎng)頁;
[0043] 對該多個網(wǎng)頁進行分組,得到多個網(wǎng)頁集合。
[0044] 可選地,該對該多個網(wǎng)頁進行分組,得到多個網(wǎng)頁集合包括:
[0045] 按照每個網(wǎng)頁的發(fā)布賬號,對該多個網(wǎng)頁進行分組,得到多個網(wǎng)頁集合;或者,
[0046] 按照每個網(wǎng)頁的存儲目錄,對該多個網(wǎng)頁進行分組,得到多個網(wǎng)頁集合;或者,
[0047] 按照每個網(wǎng)頁的子域名稱,對該多個網(wǎng)頁進行分組,得到多個網(wǎng)頁集合。
[0048] 可選地,該基于已確定的指定類型節(jié)點,對待展示網(wǎng)頁進行過濾包括:
[0049] 將已確定的指定類型節(jié)點輸出至黑名單模板配置文件中;
[0050] 當接收到網(wǎng)頁過濾展示請求時,獲取該網(wǎng)頁過濾展示請求對應的原始網(wǎng)頁;
[0051] 基于該黑名單模板配置文件,對該原始網(wǎng)頁進行過濾,以過濾掉該原始網(wǎng)頁中包 括的指定類型節(jié)點。
[0052] 可選地,該基于已確定的指定類型節(jié)點,對待展示網(wǎng)頁進行過濾包括:
[0053] 將該多個網(wǎng)頁中除該指定類型節(jié)點以外的節(jié)點輸出至白名單模板配置文件中;
[0054] 當接收到網(wǎng)頁過濾展示請求時,獲取該網(wǎng)頁過濾展示請求對應的原始網(wǎng)頁;
[0055] 基于該白名單模板配置文件,對該原始網(wǎng)頁進行過濾,以過濾掉該原始網(wǎng)頁中包 括的指定類型節(jié)點。
[0056] 上述所有可選技術方案,可以采用任意結合形成本發(fā)明的可選實施例,在此不再 --贅述。
[0057] 圖2是本發(fā)明實施例提供的一種網(wǎng)頁過濾方法的流程圖。該發(fā)明實施例的執(zhí)行主 體為服務器,參見圖2,該方法包括:
[0058] 201、該服務器對待分析的多個網(wǎng)頁進行分組,得到多個網(wǎng)頁集合。
[0059] 在本發(fā)明實施例中,該服務器用于為終端提供網(wǎng)頁,該終端可以為固定終端或者 移動終端,如計算機、