基于超鏈分析的頁面語義信息提取方法及系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明關于一種頁面語義信息提取方法及系統(tǒng),特別是涉及一種基于超鏈分析的 頁面語義信息提取方法及系統(tǒng)。
【背景技術】
[0002] 目前,當需要分析一個垂直行業(yè)網站的url(UniformResoureLocator,統(tǒng)一資源 定位器)和頁面語義的對應關系的時候,往往需要爬蟲去抓取該站點下面的所有頁面,這樣 往往需要耗費大量的時間和資源,同時有被網站封禁的風險。
【發(fā)明內容】
[0003] 為克服上述現(xiàn)有技術存在的不足,本發(fā)明之目的在于提供一種基于超鏈分析的頁 面語義信息提取方法及系統(tǒng),其通過爬蟲按照一定層次爬取頁面的超鏈,以很小的成本和 時間來實現(xiàn)對網站層次數(shù)據(jù)信息的獲取,同時通過利用網頁語義信息和url模板一一對應 的算法來實現(xiàn)對網站信息的理解,從而實現(xiàn)給定一個url就能知道該url所代表的頁面信 息和層次信息的目的。
[0004] 為達上述及其它目的,本發(fā)明提出一種基于超鏈分析的頁面語義信息提取方法, 包括如下步驟: 步驟一,從某一網站的首頁開始,逐層抓取當前層下面的所有超鏈信息; 步驟二,對步驟一的抓取結果進行統(tǒng)計學習匹配,對每層獲取的超鏈信息中的錨文本 和超鏈接分別進行切分,計算錨文本與超鏈接的切分結果之間的相似度,根據(jù)相似度獲得 錨文本與超鏈接的切分結果的匹配度。
[0005]進一步地,步驟一進一步包括: 步驟1. 1,從該網站的首頁開始,抓取首頁下面的所有超鏈; 步驟1. 2,對首頁或者上一層抓取下來的每一個超鏈接,抓取該超鏈接下面所有的超 鏈,對每一個超鏈,記錄超鏈的前鏈信息和它本身的信息; 步驟1. 3,持續(xù)步驟1. 2抓取到某一層次,以獲得大量的錨文本和超鏈接的對應關系信 息。
[0006] 進一步地,步驟二進一步包括: 步驟2. 1,對每一個錨文本進行中文切詞,記作W數(shù)組,其中的子項記為w; 步驟2. 2,將每一行的超鏈接按照一定的分隔符切分,記作U數(shù)組,其中的子項記住u; 步驟2. 3,將抓取下來的所有數(shù)據(jù)的行數(shù)記作N,對W中每一項和U中每一項,都表示成 一個N維的向量,并進行賦值; 步驟2. 4,計算每一行數(shù)據(jù)中,U中每一個u到對應的W中每一個w的余弦距離,獲得相 似度。
[0007]進一步地,于步驟2. 4之后,還包括: 步驟2. 5,對每一個u,如果它在N行中的Μ行出現(xiàn),則需對它對應的每一個w的值進行 加權處理。
[0008] 進一步地,于步驟2. 3中,向量賦值方法如下: 如果W中的w在第m行出現(xiàn),則w向量第m位為1,向量其余位都為0。
[0009] 進一步地,兩個η維樣本點w(xll,xl2,…,xln)和u(x21,x22,…,x2n)的夾角余 弦為:
其中,count(w,u)是w,u共同出現(xiàn)的次數(shù)。
[0011] 為達到上述目的,本發(fā)明還提供一種基于超鏈分析的頁面語義信息提取系統(tǒng),包 括: 超鏈信息抓取模塊,用于從網站首頁開始,逐層抓取當前層下的所有超鏈信息; 統(tǒng)計學習匹配模塊,用于對該超鏈信息抓取模塊抓取的超鏈信息進行統(tǒng)計學習匹配, 對該超鏈信息抓取模塊從每層網頁獲取的超鏈信息中的錨文本和超鏈接分別進行切分,計 算錨文本與超鏈接的切分結果之間的相似度,根據(jù)相似度獲得錨文本與超鏈接的切分結果 的匹配度。
[0012] 進一步地,該超鏈信息抓取模塊包括: 首頁抓取模塊,用于抓取網站首頁下面的所有超鏈; 超鏈接抓取模塊,對首頁或者上一層抓取下來的每一個超鏈接,抓取該超鏈接下面所 有的超鏈,對每一個超鏈,記錄超鏈的前鏈信息和它本身的信息。
[0013] 進一步地,該統(tǒng)計學習匹配模塊包括: 錨文本切分模塊,用于對每一個錨文本進行中文切詞,記作W數(shù)組,其中的子項記為w; 超鏈接切分模塊,用于將每一行的超鏈接按照一定的分隔符切分,記作U數(shù)組,其中的 子項記為u; 向量構成模塊,將抓取下來的所有數(shù)據(jù)的行數(shù)記作N,對W中每一項和U中每一項,都表 示成一個N維的向量; 相似度計算模塊,用于計算每一行數(shù)據(jù)中,U中每一個u到對應的W中每一個w的相似 度,根據(jù)相似度獲得錨文本與超鏈接的切分結果的匹配度。
[0014] 與現(xiàn)有技術相比,本發(fā)明一種基于超鏈分析的頁面語義信息提取方法及系統(tǒng),其 通過爬蟲按照一定層次爬取頁面的超鏈,以很小的成本和時間來實現(xiàn)對網站層次數(shù)據(jù)信 息的獲取,同時通過利用網頁語義信息和url模板一一對應的算法來實現(xiàn)對網站信息的理 解,從而實現(xiàn)給定一個url就能知道該url所代表的頁面信息和層次信息的目的。
[0015]
【附圖說明】
[0016] 圖1為本發(fā)明一種基于超鏈分析的頁面語義信息提取方法的步驟流程圖; 圖2為本發(fā)明一種基于超鏈分析的頁面語義信息提取系統(tǒng)的系統(tǒng)架構圖。
[0017]
【具體實施方式】
[0018] 以下通過特定的具體實例并結合【附圖說明】本發(fā)明的實施方式,本領域技術人員可 由本說明書所揭示的內容輕易地了解本發(fā)明的其它優(yōu)點與功效。本發(fā)明亦可通過其它不同 的具體實例加以施行或應用,本說明書中的各項細節(jié)亦可基于不同觀點與應用,在不背離 本發(fā)明的精神下進行各種修飾與變更。
[0019] 在本發(fā)明中,考慮到垂直行業(yè)網站往往是按照一定的層次結構去組織他們的網 站,例如,一個游戲網站往往會按照游戲大類組織第一層(例如單機游戲,電視游戲,網絡游 戲,手機游戲等),再按照具體游戲類型(例如角色扮演,第一人稱射擊,體育競技等)組織第 二層等等。同時,為了方便瀏覽,在各個層次之間網站會通過超鏈的方式幫助用戶進行導 航。
[0020] 因此,可以僅僅抓取部分頁面和他們的超鏈,即可知道該網站的大部分頁面信息。 注意,在本發(fā)明中,如果不特別說明,超鏈指超鏈對應的文本和鏈接,本發(fā)明利用anchor(錨 文本)表示超鏈的文本信息,用url表示超鏈對應的鏈接。
[0021] 圖1為本發(fā)明一種基于超鏈分析的頁面語義信息提取方法的步驟流程圖。如圖1 所示,本發(fā)明一種基于超鏈分析的頁面語義信息提取方法,包括如下步驟: 步驟101,從某一網站的首頁開始,逐層抓取當前層下面的所有超鏈信息。
[0022] 具體地說,步驟101進一步包括如下步驟: 1) 首先從該網站的首頁開始,抓取首頁下面的所有超鏈,對每一個超鏈記錄成如下形 式: 首頁Tab首頁UrlTabAnchorTabUrl。(其中,Tab是分割符號) 2) 對首頁或者上一層抓取下來的每一個url,抓取該url下面所有的超鏈。對每一個 超鏈,記錄超鏈的前鏈信息和它本身的信息,記錄如下: 前鏈AnchorTab前鏈UrlTabAnchorTabUrl 3) 持續(xù)步驟2)這樣的抓取到一定層次(往往5層左右即可,但不以此為限),這樣就得 到大量的Anchor和Url的對應關系信息。
[0023] 步驟102,對步驟101的結果進行統(tǒng)計學習匹配,對每層獲取的超鏈信息中的 Anchor(錨文本)和Url(超鏈接)分別進行切分,計算錨文本與超鏈接的切分結果之間的 相似度,根據(jù)相似度獲得錨文本與超鏈接的切分結果的匹配度。
[0024] 具體地,步驟102進一步包括如下步驟: 1)對每一個anchor進行中文切詞。記作W數(shù)組,其中的子項記為W。
[0025] 2)將每一行的url按照一定的分隔符切分,記作U數(shù)組,其中的 子項記為u。這樣對于抓取下來的數(shù)據(jù)中的每一行,都有W和U的對應。
[0026] 3)將抓取下來的所有數(shù)據(jù)的行數(shù)記作N,對W中每一項和U中每一項,.都可以表 示成一個N維的向量,向量賦值方法如下: 如果W中的w在第m行出現(xiàn),則w向量第m位為1,向量其余位都為0。
[0027] 4)計算每一行數(shù)據(jù)中,U中每一個u到對應的W中每一個w的cosine(余弦)距 離(稱之為相似度),cosine距離公式如下: 在二維空間中向量A(xl,yl)與向量B(x2,y2)的夾角余弦公式:
根據(jù)上面的二維空間擴展到η維空間,可以得到兩個η維樣本點w(xll,xl2,…,xln)和11(121,122,*",12]1)的夾角余弦
5)對每一個u,如果它在N行中的Μ行出現(xiàn),那么需要對它對應的每一個w的值進行加 權處理,處理方法如下:
其中,count(w,u)是w,u共同出現(xiàn)的次數(shù)。
[0028] 圖2為本發(fā)明一種基于超鏈分析的頁面語義信息提取系統(tǒng)的系統(tǒng)架構圖。如圖2 所示,本發(fā)明一種基于超鏈分析的頁面語義信息提取系統(tǒng),包括:超鏈信息抓取模塊20以 及統(tǒng)計學習匹配模塊21。
[0029] 超鏈信息抓取模塊20用于從網站首頁開始,逐層抓取當前層下的所有超鏈信息。 超鏈信息抓取模塊20包括首頁抓取模塊201以及超鏈接抓取模塊202,首頁抓取模塊201 用于抓取網站首頁下面的所有超鏈,對每一個超鏈記錄成如下形式: 首頁Tab首頁UrlTabAnchorTabUrl。(其中,Tab是分割符號) 超鏈接抓取模塊202對首頁或者上一層抓取下來的每一個url,抓取該url下面所有的 超鏈。對每一個超鏈,記錄超鏈的前鏈信息和它本身的信息,記錄如下: 前鏈AnchorTab前鏈UrlTabAnchorTabUrl 當超鏈接抓取模塊202抓取到一定層次(往往5層左右即可,但不以此為限),就得到大 量的Anchor和Url的對應關系信息。
[0030] 統(tǒng)計學習匹配模塊21用于對超鏈信息抓取模塊20抓取的超鏈信息進行統(tǒng)計學習 匹配,對超鏈信息抓取模塊20從每層網頁獲取的超鏈信息中的Anchor(錨文本)和Url(超 鏈接)分別進行切分,計算錨文本與超鏈接的切分結果之間的相似度,根據(jù)相似度獲得錨文 本與超鏈接的切分結果的匹配度。
[0031] 具體地,統(tǒng)計學習匹配模塊21包括:錨文本切分模塊210、超鏈接切分模塊211、向 量構成模塊212以及相似度計算模塊213,其中,錨文本切分模塊210用于對每一個anchor 進行中文切詞,記作W數(shù)組,其中的子項記為w;超鏈接切分模塊211用于將每一行的url按 照一定的分隔符切分,記作U數(shù)組,其中的子項記為u,這樣對于抓取下來 的數(shù)據(jù)中的每一行,都有W和U的對應;向量構成模塊212將抓取下來的所有數(shù)據(jù)的行數(shù)記 作N,對W中每一項和U中每一項,都可以表不成一個N維的向量,向量賦值方法如下: 如果W中的w在第m行出現(xiàn),則w向量第m位為1,向量其余位都為0。
[0032] 相似度計算模塊213用于計算每一行數(shù)據(jù)中,U中每一個u到對應的W中每一個 w的cosine(余弦)距離(稱之為相似度),根據(jù)相似度獲得錨文本與超鏈接的切分結果的匹 配度。該cosine距離公式如下: 在二維空間中向量A(xl,yl)與向量B(x2,y2)的夾角余弦公式:
根據(jù)上面的二維空間擴展到η維空間,可以得到兩個η維樣本點w(xll,xl2, ···,xln)和11(121,122,*",12]1)的夾角余弦
較佳的,相似度計算模塊213,對每一個u,如果它在N行中的Μ行出現(xiàn),那么需要對它 對應的每一個w的值進行加權處理,方法為
其中,count(w,u)是w,u共同出現(xiàn)的次數(shù)。