欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

網(wǎng)頁過濾方法和裝置的制造方法_2

文檔序號:9887651閱讀:來源:國知局
手機(jī)等。當(dāng)用戶希望瀏覽網(wǎng)頁時(shí),可以在終端上觸發(fā)訪問網(wǎng)頁的操作, 當(dāng)該終端獲取到訪問網(wǎng)頁的操作時(shí),向該服務(wù)器發(fā)送網(wǎng)頁展示請求,該網(wǎng)頁展示請求攜帶 網(wǎng)頁地址。該服務(wù)器接收到該網(wǎng)頁展示請求時(shí),可以根據(jù)該網(wǎng)頁地址,獲取該網(wǎng)頁展示請求 對應(yīng)的原始網(wǎng)頁,如果該終端為固定終端,該服務(wù)器向該固定終端發(fā)送該原始網(wǎng)頁,該固定 終端即可展示該原始網(wǎng)頁,如果該終端為移動終端,該服務(wù)器對該原始網(wǎng)頁進(jìn)行轉(zhuǎn)碼,向該 移動終端發(fā)送轉(zhuǎn)碼后的網(wǎng)頁,該移動終端即可展示該轉(zhuǎn)碼后的網(wǎng)頁。
[0060] 在實(shí)際應(yīng)用中,該原始網(wǎng)頁中可能包括廣告、使用說明、推薦信息、垃圾信息等內(nèi) 容,這些內(nèi)容與網(wǎng)頁本身的內(nèi)容無關(guān),但易對用戶的瀏覽造成影響,很多用戶希望在瀏覽網(wǎng) 頁時(shí)過濾掉這些內(nèi)容。為了滿足用戶的需求,該服務(wù)器可以在每次向終端發(fā)送待展示網(wǎng)頁 之前,確定該待展示網(wǎng)頁中要過濾的內(nèi)容,從而對該待展示網(wǎng)頁進(jìn)行過濾。而為了便于確定 該待展示網(wǎng)頁中要過濾的內(nèi)容,該服務(wù)器可以對多個(gè)網(wǎng)頁進(jìn)行訓(xùn)練,識別出每個(gè)網(wǎng)頁中要 過濾的內(nèi)容。
[0061] 進(jìn)一步地,為了提高訓(xùn)練精確度,該服務(wù)器可以對多個(gè)網(wǎng)頁進(jìn)行分組,得到多個(gè)網(wǎng) 頁集合,對每個(gè)網(wǎng)頁集合分別進(jìn)行訓(xùn)練。具體地,該服務(wù)器可以對所有網(wǎng)頁進(jìn)行分組,也可 以從所有網(wǎng)頁中,選取多個(gè)樣本網(wǎng)頁,對該多個(gè)樣本網(wǎng)頁進(jìn)行分組,還可以獲取每個(gè)網(wǎng)頁的 網(wǎng)頁快照,對獲取到的多個(gè)網(wǎng)頁快照進(jìn)行分組,本發(fā)明實(shí)施例對此不做限定。
[0062] 可選地,該服務(wù)器按照指定規(guī)則,對該多個(gè)網(wǎng)頁進(jìn)行分組,得到多個(gè)網(wǎng)頁集合。其 中,該指定規(guī)則可以為網(wǎng)頁的發(fā)布賬號、存儲目錄或者子域名稱等,本發(fā)明實(shí)施例對此不做 限定。該服務(wù)器中包括由多個(gè)賬號發(fā)布的網(wǎng)頁,當(dāng)該指定規(guī)則為網(wǎng)頁的發(fā)布賬號時(shí),該服務(wù) 器按照每個(gè)網(wǎng)頁的發(fā)布賬號,對該多個(gè)網(wǎng)頁進(jìn)行分組,得到多個(gè)網(wǎng)頁集合,同一網(wǎng)頁集合中 網(wǎng)頁的發(fā)布賬號相同,不同網(wǎng)頁集合中網(wǎng)頁的發(fā)布賬號不同。該服務(wù)器將多個(gè)網(wǎng)頁存儲于 不同的存儲目錄中,當(dāng)該指定規(guī)則為網(wǎng)頁的存儲目錄時(shí),該服務(wù)器按照每個(gè)網(wǎng)頁的存儲目 錄,對該多個(gè)網(wǎng)頁進(jìn)行分組,得到多個(gè)網(wǎng)頁集合,同一網(wǎng)頁集合中網(wǎng)頁的存儲目錄相同,不 同網(wǎng)頁集合中網(wǎng)頁的存儲目錄不同。該服務(wù)器為每個(gè)網(wǎng)頁生成對應(yīng)的網(wǎng)頁地址,該網(wǎng)頁地 址中包括子域名稱,當(dāng)該指定規(guī)則為網(wǎng)頁的子域名稱時(shí),該服務(wù)器按照每個(gè)網(wǎng)頁的子域名 稱,對該多個(gè)網(wǎng)頁進(jìn)行分組,得到多個(gè)網(wǎng)頁集合,同一網(wǎng)頁集合中網(wǎng)頁的子域名稱相同,不 同網(wǎng)頁集合中網(wǎng)頁的子域名稱不同。在實(shí)際應(yīng)用過程中,該服務(wù)器還可以采用其他的指定 規(guī)則,對該多個(gè)網(wǎng)頁進(jìn)行分組,本發(fā)明實(shí)施例對此不做限定。
[0063] 在本發(fā)明實(shí)施例中,不同的網(wǎng)頁集合屬于不同的組別,后續(xù)當(dāng)該服務(wù)器獲取到待 展示網(wǎng)頁時(shí),可以按照該指定規(guī)則,對該待展示網(wǎng)頁進(jìn)行劃分,確定與該待展示網(wǎng)頁屬于同 一組別的網(wǎng)頁集合,從而根據(jù)該網(wǎng)頁集合中的訓(xùn)練結(jié)果,確定該待展示網(wǎng)頁中要過濾的內(nèi) 容。例如,當(dāng)該服務(wù)器獲取到待展示網(wǎng)頁時(shí),獲取該待展示網(wǎng)頁的發(fā)布賬號,確定該發(fā)布賬 號對應(yīng)的網(wǎng)頁集合,即為與該待展示網(wǎng)頁屬于同一組別的網(wǎng)頁集合。
[0064] 202、對于每個(gè)網(wǎng)頁集合中每個(gè)網(wǎng)頁中的每個(gè)節(jié)點(diǎn),該服務(wù)器計(jì)算該節(jié)點(diǎn)的可能性 特征值,該可能性特征值用于表示該節(jié)點(diǎn)是指定類型節(jié)點(diǎn)的可能性大小。
[0065] 該服務(wù)器可以將網(wǎng)頁劃分為多個(gè)節(jié)點(diǎn),該多個(gè)節(jié)點(diǎn)可以包括文本節(jié)點(diǎn)、圖片節(jié)點(diǎn)、 視頻節(jié)點(diǎn)、網(wǎng)頁鏈接地址節(jié)點(diǎn)等多種格式的節(jié)點(diǎn)。具體地,該服務(wù)器可以將網(wǎng)頁中的文本內(nèi) 容按照段落劃分為多個(gè)文本節(jié)點(diǎn),將網(wǎng)頁中的每個(gè)圖片作為一個(gè)圖片節(jié)點(diǎn),將網(wǎng)頁中的每 個(gè)視頻作為一個(gè)視頻節(jié)點(diǎn),將網(wǎng)頁中的每個(gè)網(wǎng)頁鏈接地址作為一個(gè)網(wǎng)頁鏈接地址節(jié)點(diǎn),本 發(fā)明實(shí)施例對該服務(wù)器劃分節(jié)點(diǎn)的方式不做限定。
[0066] 其中,有些節(jié)點(diǎn)的內(nèi)容是該網(wǎng)頁本身的內(nèi)容,而有些節(jié)點(diǎn)的內(nèi)容與該網(wǎng)頁的內(nèi)容 無關(guān)。將內(nèi)容與其當(dāng)前所在網(wǎng)頁的內(nèi)容無關(guān)的節(jié)點(diǎn)作為指定類型節(jié)點(diǎn),則該指定類型節(jié)點(diǎn) 即為網(wǎng)頁中要過濾的節(jié)點(diǎn)。
[0067] 對于每個(gè)網(wǎng)頁集合來說,為了過濾掉網(wǎng)頁中的指定類型節(jié)點(diǎn),該服務(wù)器對該網(wǎng)頁 集合中的每個(gè)網(wǎng)頁進(jìn)行分析,從中找出最有可能是指定類型節(jié)點(diǎn)的節(jié)點(diǎn)。具體地,對于該網(wǎng) 頁集合中每個(gè)網(wǎng)頁中的每個(gè)節(jié)點(diǎn),該服務(wù)器計(jì)算該節(jié)點(diǎn)的可能性特征值,該可能性特征值 用于表示該節(jié)點(diǎn)是指定類型節(jié)點(diǎn)的可能性大小,也即是,節(jié)點(diǎn)的可能性特征值越大,表示該 節(jié)點(diǎn)越有可能是指定類型節(jié)點(diǎn),節(jié)點(diǎn)的可能性特征值越小,表示該節(jié)點(diǎn)越不可能是指定類 型節(jié)點(diǎn)。
[0068] 在實(shí)際應(yīng)用中,對于同一網(wǎng)頁集合中的不同網(wǎng)頁來說,其所包括的指定類型節(jié)點(diǎn) 的內(nèi)容往往相同或者相似。例如,圖3是本發(fā)明實(shí)施例提供的網(wǎng)頁示意圖,其包括同一賬號 發(fā)布的兩個(gè)網(wǎng)頁,這兩個(gè)網(wǎng)頁中包括兩篇不同的文章:"文章1"和"文章2",但兩個(gè)網(wǎng)頁的 上方和下方都包括相同內(nèi)容的節(jié)點(diǎn),該相同內(nèi)容的節(jié)點(diǎn)很可能是指定類型節(jié)點(diǎn)。
[0069] 基于上述特點(diǎn),對于每個(gè)節(jié)點(diǎn)來說,當(dāng)該網(wǎng)頁集合中包括的與該節(jié)點(diǎn)相似的節(jié)點(diǎn) 越多時(shí),可以認(rèn)為該節(jié)點(diǎn)越有可能是指定類型節(jié)點(diǎn),而該網(wǎng)頁集合中包括的與該節(jié)點(diǎn)相似 的節(jié)點(diǎn)越少時(shí),可以認(rèn)為該節(jié)點(diǎn)越不可能是指定類型節(jié)點(diǎn)。
[0070] 為此,對于每個(gè)網(wǎng)頁中的每個(gè)節(jié)點(diǎn),該服務(wù)器可以根據(jù)各個(gè)節(jié)點(diǎn)的內(nèi)容,計(jì)算該節(jié) 點(diǎn)與該網(wǎng)頁集合中除該節(jié)點(diǎn)所在網(wǎng)頁以外的其他網(wǎng)頁中的每個(gè)節(jié)點(diǎn)的相似度,則可以得到 該節(jié)點(diǎn)與多個(gè)節(jié)點(diǎn)的多個(gè)相似度,該服務(wù)器對計(jì)算得到的多個(gè)相似度進(jìn)行統(tǒng)計(jì),得到該節(jié) 點(diǎn)的可能性特征值,該可能性特征值能夠用于表示該節(jié)點(diǎn)是指定類型節(jié)點(diǎn)的可能性大小。 在對該多個(gè)相似度進(jìn)行統(tǒng)計(jì)時(shí),該服務(wù)器可以計(jì)算該多個(gè)相似度的和值或者平均值等,作 為該節(jié)點(diǎn)的可能性特征值,本發(fā)明實(shí)施例對此不做限定。
[0071] 參見表1,該網(wǎng)頁集合包括網(wǎng)頁A和網(wǎng)頁B,該網(wǎng)頁A中包括節(jié)點(diǎn)1、該網(wǎng)頁B中包 括節(jié)點(diǎn)2和節(jié)點(diǎn)3,則對于節(jié)點(diǎn)1來說,計(jì)算節(jié)點(diǎn)1與節(jié)點(diǎn)2的相似度,以及節(jié)點(diǎn)1與節(jié)點(diǎn)3 的相似度,將計(jì)算得到的兩個(gè)相似度的平均值作為節(jié)點(diǎn)1的相似度。
[0072]表 1
[0073]
[0074] 進(jìn)一步地,對于文本節(jié)點(diǎn)來說,該服務(wù)器可以預(yù)先設(shè)定節(jié)點(diǎn)內(nèi)容與特征值之間的 對應(yīng)關(guān)系,如文本節(jié)點(diǎn)中每個(gè)字對應(yīng)的特征值,根據(jù)該對應(yīng)關(guān)系,確定每個(gè)文本節(jié)點(diǎn)所對應(yīng) 的多個(gè)特征值,將得到的多個(gè)特征值組成特征向量,即可得到每個(gè)文本節(jié)點(diǎn)的特征向量。而 對于圖片節(jié)點(diǎn)或者網(wǎng)頁鏈接地址節(jié)點(diǎn)來說,該服務(wù)器可以預(yù)先設(shè)定URL (Uniform Resource Locator,統(tǒng)一資源定位符)與特征向量之間的對應(yīng)關(guān)系,則該服務(wù)器獲取每個(gè)圖片節(jié)點(diǎn)或 者網(wǎng)頁鏈接地址節(jié)點(diǎn)的URL,根據(jù)該對應(yīng)關(guān)系,確定每個(gè)圖片節(jié)點(diǎn)或者網(wǎng)頁鏈接地址節(jié)點(diǎn)的 特征向量。對于每個(gè)網(wǎng)頁中的每個(gè)節(jié)點(diǎn)來說,該服務(wù)器可以計(jì)算該節(jié)點(diǎn)的特征向量與其他 網(wǎng)頁中每個(gè)節(jié)點(diǎn)的特征向量的相似度,得到多個(gè)相似度。該服務(wù)器可以計(jì)算該節(jié)點(diǎn)的特征 向量與其他網(wǎng)頁中每個(gè)節(jié)點(diǎn)的特征向量的余弦相似度或者歐式距離相似度等,本發(fā)明實(shí)施 例對此不做限定。
[0075] 在實(shí)際應(yīng)用中,對于同一網(wǎng)頁集合中的不同網(wǎng)頁來說,其所包括的指定類型節(jié)點(diǎn) 在對應(yīng)網(wǎng)頁中的位置往往相同或相近,例如,網(wǎng)站服務(wù)器會在該網(wǎng)頁每個(gè)網(wǎng)頁的右下角添 加廣告節(jié)點(diǎn)?;谠撎攸c(diǎn),對于每個(gè)節(jié)點(diǎn)來說,為了減少計(jì)算量,該服務(wù)器僅計(jì)算該節(jié)點(diǎn)與 其他網(wǎng)頁中相同位置節(jié)點(diǎn)的相似度。具體地,該服務(wù)器根據(jù)每個(gè)節(jié)點(diǎn)在對應(yīng)網(wǎng)頁中的位置, 對該多個(gè)網(wǎng)頁中的多個(gè)節(jié)點(diǎn)進(jìn)行分組,得到多個(gè)節(jié)點(diǎn)集合,每個(gè)節(jié)點(diǎn)集合中的多個(gè)節(jié)點(diǎn)分 別位于不同網(wǎng)頁中的相同位置。則對于每個(gè)節(jié)點(diǎn)集合中的每個(gè)節(jié)點(diǎn),根據(jù)每個(gè)節(jié)點(diǎn)的內(nèi)容, 計(jì)算該節(jié)點(diǎn)與該節(jié)點(diǎn)集合中的其他節(jié)點(diǎn)的相似度,對該節(jié)點(diǎn)與該節(jié)點(diǎn)集合中的其他節(jié)點(diǎn)的 相似度進(jìn)行統(tǒng)計(jì),得到該節(jié)點(diǎn)的可能性特征值。
[0076] 基于表1的舉例,假設(shè)節(jié)點(diǎn)3在網(wǎng)頁B中的位置與節(jié)點(diǎn)1在網(wǎng)頁A中的位置相同, 則該服務(wù)器計(jì)算節(jié)點(diǎn)1與節(jié)點(diǎn)3的相似度,作為節(jié)點(diǎn)1的可能性特征值。
[0077] 可選地,該服務(wù)器可以對該網(wǎng)頁集合中的每個(gè)網(wǎng)頁進(jìn)行分析,建立每個(gè)網(wǎng)頁的指 定樹形結(jié)構(gòu),該指定樹形結(jié)構(gòu)中包括多個(gè)節(jié)點(diǎn),該服務(wù)器可以基于該指定樹形結(jié)構(gòu),計(jì)算每 個(gè)節(jié)點(diǎn)的可能性特征值。其中,該指定樹形結(jié)構(gòu)可以為D0M(Documen
當(dāng)前第2頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
绍兴县| 西和县| 县级市| 柞水县| 曲麻莱县| 苏州市| 葵青区| 綦江县| 凤城市| 阳江市| 临颍县| 印江| 禹城市| 积石山| 鄂伦春自治旗| 酉阳| 太仆寺旗| 安溪县| 潼关县| 漯河市| 黄平县| 镇原县| 南木林县| 永泰县| 桓台县| 社旗县| 泰州市| 广昌县| 巴林左旗| 元氏县| 凤冈县| 东台市| 临洮县| 黄山市| 布拖县| 涿州市| 奉节县| 嘉禾县| 平江县| 萝北县| 斗六市|