專利名稱:一種網(wǎng)絡節(jié)點評級的方法
技術領域:
本發(fā)明涉及網(wǎng)絡信息搜索技術領域,更具體地說,涉及一種網(wǎng)絡節(jié)點評級的方法。
背景技術:
當前,搜索引擎已經(jīng)成為與電子郵件等類似的使用最為頻繁的互聯(lián)網(wǎng)應用之一。 因此,提高網(wǎng)絡信息搜索技術具有重要的意義和價值。網(wǎng)絡信息的一大特征是豐富的鏈接關系信息分布在網(wǎng)絡的各個節(jié)點上,節(jié)點之間通過具有特定語義的鏈接而互相關聯(lián)、互相參照或者互相引用。另外,網(wǎng)站中的網(wǎng)頁還具有中間層次的目錄結(jié)構(gòu),而且網(wǎng)站之間還可通過域名形成更高級別的層次結(jié)構(gòu)。因此,網(wǎng)絡的信息節(jié)點可包括網(wǎng)頁、網(wǎng)站以及其它粒度的信息節(jié)點。節(jié)點之間豐富的鏈接關系和層次化的結(jié)構(gòu)成為網(wǎng)絡信息區(qū)別于常規(guī)的文本、圖像、音視頻等信.息的重要特性。對這些特性加以充分利用有助于提升網(wǎng)絡信息搜索的技術水平。因此,當前獲得主流應用的互聯(lián)網(wǎng)搜索引擎都普遍使用了網(wǎng)絡信息的鏈接關系。其目的在于通過網(wǎng)頁或者網(wǎng)站等信息節(jié)點之間的鏈接關系,對信息節(jié)點作內(nèi)容、屬性分析或者評級。對節(jié)點的評級即賦予節(jié)點一個或多個級別數(shù)值,以便定量地區(qū)分其質(zhì)量、重要性、 權威性或者受歡迎程度等性質(zhì)。目前的評級結(jié)果一方面可用作指導網(wǎng)頁收集的優(yōu)先級別, 以便將重要的網(wǎng)頁盡快收集或者更新;另一方面,它還可以同常規(guī)的針對具體查詢關鍵詞的搜索結(jié)果評分機制結(jié)合起來,提升高質(zhì)量網(wǎng)頁的排名,從而實現(xiàn)效果更佳的對搜索結(jié)果的排序。同時,也可以利用I^ageRank方法對網(wǎng)站進行評級。盡管I^ageRank方法為互聯(lián)網(wǎng)信息搜索提供了革新性的技術并在市場應用中獲得了巨大的成功,其完全基于鏈接關系和單向的網(wǎng)頁級別傳遞的性質(zhì)也顯現(xiàn)了一些不足的方面。作弊者只要不斷地增加包含指向某個網(wǎng)頁的鏈接的網(wǎng)頁,所指網(wǎng)頁的I^ageRank就能不斷提高。只依靠網(wǎng)頁的反向鏈接即進入鏈接進行評級,網(wǎng)頁的級別總是隨著入鏈的增加而單增,并且不區(qū)分入鏈是否具有相關性及其相關程度,由此導致其網(wǎng)頁級別容易受到鏈接交換、鏈接接力堆積等作弊行為的操縱; 直接基于網(wǎng)頁之間的鏈接關系,忽略了網(wǎng)頁在網(wǎng)站一級和其它層次上的聚集關系,鏈接關系的粒度過細,由此導致I^ageRank計算量大、更新慢,并且對于最新出現(xiàn)的網(wǎng)頁因缺少鏈接關系而失效;同一網(wǎng)站內(nèi)的網(wǎng)頁所包含的鏈接大都為站內(nèi)鏈接,因而難以對網(wǎng)站作出精確的評級。盡管可以對站內(nèi)鏈接與站間鏈接設置不同的權重,但不同網(wǎng)站的權重值設定并無確切依據(jù);有商業(yè)競爭關系的公司網(wǎng)站之間幾乎不會有任何鏈接關系,即使它們的內(nèi)容是非常相關的,這將影響評級的精確性。相互競爭的網(wǎng)站之間通常會有比較多的共引用和共指等關,但現(xiàn)有評級方法并未對此力口以應用;外出鏈接或稱為正向鏈接傾向于引起網(wǎng)頁的級別及其所在網(wǎng)站的總的級別下降。由此可見,PageRank還是一種比較簡單和初級的鏈接分析方法。這類改進方法的應用領域特定性與實現(xiàn)的復雜性都會引起更大范圍的問題,實際效果并不明顯。目前已知的改進方法大都屬于局部性的調(diào)整或特定場合的變種,其新的技術效果尚未在大規(guī)模實際應用中得到驗證,或者因計算復雜性過高而難以實現(xiàn)。更重要的是,已知的這些改進方法都沒有對I^geRank的單向傳遞性質(zhì)作出改進,因而并不能提供實質(zhì)性的改進效果以及更為有效的杭作弊性能??傊?,由于存在諸多方面的簡化或省略,P ageRank方法及其現(xiàn)有的改進方法尚未能精確、全面地或更為充分地利用網(wǎng)頁之間的鏈接關系對網(wǎng)頁和網(wǎng)站做出評級,并且易于受到人為操縱和鏈接作弊的影響。
發(fā)明內(nèi)容
本發(fā)明要解決的技術問題在于,針對現(xiàn)有技術存在的缺陷,提供一種網(wǎng)絡節(jié)點評級的方法,其特征在于,包括如下步驟
a、設置至少兩種如下所述的權重(1)對至少一部分節(jié)點之間的鏈接,為其中的每個鏈接設置一個正向權重;(2 )對至少一部分節(jié)點之間的鏈接,為其中的每個鏈接設置一個反向權重;(3 )對至少一部分節(jié)點,為其中的任意兩個節(jié)點的每個共引用關系設置一個權重;(4 )對至少一部分節(jié)點,為其中的任意兩個節(jié)點的每個共指關系設置一個權重;
b、根據(jù)步驟a中所設置的各種權重,計算如下各種加權和(1)如果所設置的權重是鏈接的正向權重,則計算節(jié)點入鏈的正向權重與入鏈的源節(jié)點的級別的加權和;(2 )如果所設置的權重是鏈接的反向權重,則計算節(jié)點出鏈的反向權重與出鏈的目標節(jié)點的級別的加權和;(3 )如果所設置的權重是節(jié)點之間的共引用關系的權重,則計算節(jié)點共引用關系的權重與共引用關系節(jié)點的級別的加權和;(4 )如果所設置的權重是節(jié)點之間的共指關系的權重,則計算節(jié)點共指關系的權重與共指關系節(jié)點的級別的加權和;
c、將步驟b所得到的各種加權和作進一步的加權和,作為節(jié)點的級別數(shù)值。在本發(fā)明所述的網(wǎng)絡節(jié)點評級方法中,所述鏈接的正向權重、鏈接的反向權重、共引用的權重、共指的權重分別依賴于節(jié)點的出度、節(jié)點的入度、共引用的頻次、共指的頻次。在本發(fā)明所述的網(wǎng)絡節(jié)點評級方法中,節(jié)點的級別還包括一個表示先驗概率分布的常數(shù)級別,該常數(shù)與所述進一步的加權和的權重因子之和為1。在本發(fā)明所述的網(wǎng)絡節(jié)點評級方法中,所述節(jié)點為網(wǎng)頁。在本發(fā)明所述的網(wǎng)絡節(jié)點評級方法中,所述鏈接的正向權重、鏈接的反向權重、共引用的權重、共指的權重還依據(jù)至少一個如下所列舉的因素被設置網(wǎng)頁的屬性,包括該網(wǎng)頁的URL以及該URL的屬性,該網(wǎng)頁的創(chuàng)建、搜集或更新時間,該網(wǎng)頁的訪問次數(shù)、訪問頻度,或者該網(wǎng)頁的上一次評級的結(jié)果;鏈接的屬性,包括鏈接在網(wǎng)頁中的位置,鏈接文字以及鏈接描述文字,鏈接的排版格式信息,該鏈接被點擊的次數(shù)、頻度、以及點擊者的來源信息,鏈接的兩個網(wǎng)頁之間的距離或者所包含的文本內(nèi)客的對比屬性。在所述的網(wǎng)絡節(jié)點評級方法中,所述節(jié)點為網(wǎng)站所對應的超級網(wǎng)頁,該超級網(wǎng)頁通過合并網(wǎng)站中的網(wǎng)頁而構(gòu)造,并且超級網(wǎng)頁之間的鏈接關系根據(jù)網(wǎng)站的網(wǎng)頁之間的鏈接關系而獲得。實施本發(fā)明的網(wǎng)絡節(jié)點評級的方法,具有以下有益效果能夠高效實現(xiàn)網(wǎng)絡信息節(jié)點評級技術,提供技術效果更好的對網(wǎng)頁和網(wǎng)站評級的方法和系統(tǒng)。
具體實施例方式本發(fā)明提供一種網(wǎng)絡節(jié)點評級的方法,根據(jù)節(jié)點之間的有向鏈接關系而賦予各個節(jié)點一個表示其級別的數(shù)值,其特征在于包括如下步驟a、設置至少兩種如下所述的權重(1 )對至少一部分節(jié)點之間的鏈接,為其中的每個鏈接設置一個正向權重;(2 )對至少一部分節(jié)點之間的鏈接,為其中的每個鏈接設置一個反向權重; (3 )對至少一部分節(jié)點,為其中的任意兩個節(jié)點的每個共引用關系設置一個權重; (4 )對至少一部分節(jié)點,為其中的任意兩個節(jié)點的每個共指關系設置一個權重; b、根據(jù)步驟a中所設置的各種權重,計算如下各種加權和(1 )如果所設置的權重是鏈接的正向權重,則計算節(jié)點入鏈的正向權重與入鏈的源節(jié)點的級別的加權和;(2 ) 如果所設置的權重是鏈接的反向權重,則計算節(jié)點出鏈的反向權重與出鏈的目標節(jié)點的級別的加權和;(3 )如果所設置的權重是節(jié)點之間的共引用關系的權重,則計算節(jié)點共引用關系的權重與共引用關系節(jié)點的級別的加權和;(4 )如果所設置的權重是節(jié)點之間的共指關系的權重,則計算節(jié)點共指關系的權重與共指關系節(jié)點的級別的加權和;C、將步驟 b所得到的各種加權和作進一步的加權和,作為節(jié)點的級別數(shù)值。所述的網(wǎng)絡節(jié)點評級方法中,所述鏈接的正向權重、鏈接的反向權重、共引用的權重、共指的權重分別依賴于節(jié)點的出度、節(jié)點的入度、共引用的頻次、共指的頻次。所述的網(wǎng)絡節(jié)點評級方法中,節(jié)點的級別還包括一個表示先驗概率分布的常數(shù)級別,該常數(shù)與所述進一步的加權和的權重因子之和為1。所述的網(wǎng)絡節(jié)點評級方法中,所述節(jié)點為網(wǎng)頁。所述的網(wǎng)絡節(jié)點評級方法中,所述鏈接的正向權重、鏈接的反向權重、共引用的權重、共指的權重還依據(jù)至少一個如下所列舉的因素被設置網(wǎng)頁的屬性,包括該網(wǎng)頁的 URL以及該U甩的屬性,該網(wǎng)頁的創(chuàng)建、搜集或更新時間,該網(wǎng)頁的訪問次數(shù)、訪問頻度,或者該網(wǎng)頁的上一次評級的結(jié)果;鏈接的屬性,包括鏈接在網(wǎng)頁中的位置,鏈接文字以及鏈接描述文字,鏈接的排版格式信,息,該鏈接被點擊的次數(shù)、頻度、以及點擊者的來源信息, 鏈接的兩個網(wǎng)頁之間的距離或者所包含的文本內(nèi)客的對比屬性。所述的網(wǎng)絡節(jié)點評級方法中,所述節(jié)點為網(wǎng)站所對應的超級網(wǎng)頁,該超級網(wǎng)頁通過合并網(wǎng)站中的網(wǎng)頁而構(gòu)造,并且超級網(wǎng)頁之間的鏈接關系根據(jù)網(wǎng)站的網(wǎng)頁之間的鏈接關系而獲得。所述的網(wǎng)絡節(jié)點評級方法中,網(wǎng)站的超級網(wǎng)頁包括直接混合網(wǎng)站中各個網(wǎng)頁的內(nèi)容,或者將各個網(wǎng)頁放置于超級網(wǎng)頁中的不同布局位置。所述的網(wǎng)絡節(jié)點評級方法中,網(wǎng)頁的級別由其所在的網(wǎng)站的超級網(wǎng)頁的級別而確定,其方式包括按照文件目錄將超級網(wǎng)頁的級別分布于各個網(wǎng)頁,或者根據(jù)網(wǎng)頁的實際訪問頻次確定分配比例,或者簡單地將超級網(wǎng)頁的級別平均分配給各個網(wǎng)頁。實施本發(fā)明的網(wǎng)絡節(jié)點評級的方法,具有以下有益效果能夠高效實現(xiàn)網(wǎng)絡信息節(jié)點評級技術,提供技術效果更好的對網(wǎng)頁和網(wǎng)站評級的方法和系統(tǒng)。本發(fā)明是通過一些實施例進行描述的,本領域技術人員知悉,在不脫離本發(fā)明的精神和范圍的情況下,可以對這些特征和實施例進行各種改變或等效替換。另外,在本發(fā)明的教導下,可以對這些特征和實施例進行修改以適應具體的情況及材料而不會脫離本發(fā)明的精神和范圍。因此,本發(fā)明不受此處所公開的具體實施例的限制,所有落入本申請的權利要求范圍內(nèi)的實施例都屬于本發(fā)明的保護范圍。
權利要求
1.一種網(wǎng)絡節(jié)點評級的方法,其特征在于,包括如下步驟a、設置至少兩種如下所述的權重(1)對至少一部分節(jié)點之間的鏈接,為其中的每個鏈接設置一個正向權重;(2 )對至少一部分節(jié)點之間的鏈接,為其中的每個鏈接設置一個反向權重;(3 )對至少一部分節(jié)點,為其中的任意兩個節(jié)點的每個共引用關系設置一個權重;(4 )對至少一部分節(jié)點,為其中的任意兩個節(jié)點的每個共指關系設置一個權重;b、根據(jù)步驟a中所設置的各種權重,計算如下各種加權和(1)如果所設置的權重是鏈接的正向權重,則計算節(jié)點入鏈的正向權重與入鏈的源節(jié)點的級別的加權和;(2 )如果所設置的權重是鏈接的反向權重,則計算節(jié)點出鏈的反向權重與出鏈的目標節(jié)點的級別的加權和;(3 )如果所設置的權重是節(jié)點之間的共引用關系的權重,則計算節(jié)點共引用關系的權重與共引用關系節(jié)點的級別的加權和;(4 )如果所設置的權重是節(jié)點之間的共指關系的權重,則計算節(jié)點共指關系的權重與共指關系節(jié)點的級別的加權和;c、將步驟b所得到的各種加權和作進一步的加權和,作為節(jié)點的級別數(shù)值。
2.根據(jù)權利要求1所述的網(wǎng)絡節(jié)點評級方法,其特征在于所述鏈接的正向權重、鏈接的反向權重、共引用的權重、共指的權重分別依賴于節(jié)點的出度、節(jié)點的入度、共引用的頻次、共指的頻次。
3.根據(jù)權利要求1所述的網(wǎng)絡節(jié)點評級方法,其特征在于節(jié)點的級別還包括一個表示先驗概率分布的常數(shù)級別,該常數(shù)與所述進一步的加權和的權重因子之和為1。
4.根據(jù)權利要求1至3之一所述的網(wǎng)絡節(jié)點評級方法,其特征在于所述節(jié)點為網(wǎng)頁。
5.根據(jù)權利要求4所述的網(wǎng)絡節(jié)點評級方法,其特征在于所述鏈接的正向權重、鏈接的反向權重、共引用的權重、共指的權重還依據(jù)至少一個如下所列舉的因素被設置網(wǎng)頁的屬性,包括該網(wǎng)頁的URL以及該URL的屬性,該網(wǎng)頁的創(chuàng)建、搜集或更新時間,該網(wǎng)頁的訪問次數(shù)、訪問頻度,或者該網(wǎng)頁的上一次評級的結(jié)果;鏈接的屬性,包括鏈接在網(wǎng)頁中的位置,鏈接文字以及鏈接描述文字,鏈接的排版格式信息,該鏈接被點擊的次數(shù)、頻度、以及點擊者的來源信息,鏈接的兩個網(wǎng)頁之間的距離或者所包含的文本內(nèi)客的對比屬性。
6.根據(jù)權利要求1至3之一所述的網(wǎng)絡節(jié)點評級方法,其特征在于所述節(jié)點為網(wǎng)站所對應的超級網(wǎng)頁,該超級網(wǎng)頁通過合并網(wǎng)站中的網(wǎng)頁而構(gòu)造,并且超級網(wǎng)頁之間的鏈接關系根據(jù)網(wǎng)站的網(wǎng)頁之間的鏈接關系而獲得。
全文摘要
本發(fā)明提供一種網(wǎng)絡節(jié)點評級的方法,包括如下步驟a、設置至少兩種如下所述的權重;b、根據(jù)步驟a中所設置的各種權重;c、將步驟b所得到的各種加權和作進一步的加權和,作為節(jié)點的級別數(shù)值。實施本發(fā)明的網(wǎng)絡節(jié)點評級的方法,具有以下有益效果能夠高效實現(xiàn)網(wǎng)絡信息節(jié)點評級技術,提供技術效果更好的對網(wǎng)頁和網(wǎng)站評級的方法和系統(tǒng)。
文檔編號G06F17/30GK102368253SQ20111029386
公開日2012年3月7日 申請日期2011年10月8日 優(yōu)先權日2011年10月8日
發(fā)明者滿超 申請人:大連高成網(wǎng)絡科技有限公司