專利名稱:一種鏡像網(wǎng)頁的查找方法及查找系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及鏡像網(wǎng)頁領(lǐng)域,特別是涉及一種鏡像網(wǎng)頁的查找方法及查找系統(tǒng)。
背景技術(shù):
鏡像網(wǎng)頁是指實質(zhì)內(nèi)容相同的網(wǎng)頁,例如,顯示內(nèi)容完全相同的網(wǎng)頁;正 文內(nèi)容相同,但標(biāo)題不同的網(wǎng)頁;正文內(nèi)容相同,但輔助內(nèi)容不同的網(wǎng)頁等。 在互聯(lián)網(wǎng)上查找鏡像網(wǎng)頁,可以排除重復(fù)的網(wǎng)頁,便于用戶檢索下載。目前, 現(xiàn)有技術(shù)常通過直接計算網(wǎng)頁特征值的方法查找鏡像網(wǎng)頁,將特征值相同及相 近的網(wǎng)頁認(rèn)定為鏡像網(wǎng)頁。參閱圖l,示出現(xiàn)有鏡像網(wǎng)頁的查找方法,具體步驟如下。步驟SlOl、在互聯(lián)網(wǎng)上抽取每個網(wǎng)站的主域首頁、子域首頁、目錄首頁 等各個網(wǎng)頁,組成鏡像網(wǎng)頁查找集合。新浪主域首頁,如,http: 〃www. sina. com 網(wǎng)頁各子域首頁,如,http://www.sina.com.cn/ 網(wǎng)頁 , http://news, sina. com. cn網(wǎng)頁;http://finance, sina. com. cn網(wǎng)頁;目錄首 頁,如,http://finance, sina. com. cn/stock網(wǎng)頁。步驟S102、分別提取各個網(wǎng)頁的特征詞語。特征詞語為具有實質(zhì)意義的 詞i吾,i。名詞、動詞等。步驟SI03、分析各個網(wǎng)頁的特征詞語,統(tǒng)計各個網(wǎng)頁特征詞的特征值, 特征值包括詞語數(shù)量、詞頻、出現(xiàn)位置等。步驟S104、依據(jù)特征值在鏡像網(wǎng)頁查找集合中查找鏡像網(wǎng)頁。將各個網(wǎng) 頁的各項特征值進(jìn)行比較,特征值相同及相近的網(wǎng)頁確定鏡像網(wǎng)頁,在鏡像網(wǎng) 頁查找集合中提取出來,進(jìn)行相應(yīng)處理。上述方法雖然可以較全面地查找鏡像網(wǎng)頁,但互聯(lián)網(wǎng)中的網(wǎng)站數(shù)以萬計, 每個網(wǎng)站還包括大量的子域頁面、目錄頁面,由每個網(wǎng)站的主域首頁、子域首 頁、目錄首頁等各個網(wǎng)頁組成的鏡像網(wǎng)頁查找集合相當(dāng)龐大,在如此龐大的集 合中查找鏡像網(wǎng)頁,需占用大量的網(wǎng)絡(luò)資源,進(jìn)行相關(guān)運算、分析、統(tǒng)計,耗 時耗力,查找效率低下。 發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題是提供一種鏡像網(wǎng)頁的查找方法,以解決現(xiàn)有 技術(shù)中查找方法效率低下的不足。本發(fā)明能夠簡單、快捷地查找鏡像網(wǎng).頁,具 有較高的效率。本發(fā)明的另一個目的是提供一種鏡像網(wǎng)頁的查找系統(tǒng),以解決現(xiàn)有技術(shù)中 查找方法效率低下的不足。本發(fā)明能夠簡單、快捷地查找鏡像網(wǎng)頁,具有較高 的效率。本發(fā)明一種鏡像網(wǎng)頁的查找方法,包括獲取網(wǎng)頁反向連接的錨文本;判 斷上述錨文本相對于所述網(wǎng)頁是否合法,確定不合法錨文本所屬的網(wǎng)頁,提取 該網(wǎng)頁所在主域、子域、及目錄的首頁;將提取的網(wǎng)頁組成鏡像網(wǎng)頁查找集合, 基于所述鏡像網(wǎng)頁查找集合查找鏡像網(wǎng)頁。優(yōu)選的,判斷上述錨文本相對于所述網(wǎng)頁是否合法之前,還包括計算上 述錨文本的權(quán)重,按權(quán)重大小順序,提取設(shè)置數(shù)量的錨文本,或提取設(shè)置比例 的錨文本。優(yōu)選的,計算上述錨文本的權(quán)重具體為統(tǒng)計與子網(wǎng)頁同主域的父網(wǎng)頁數(shù) 量,乘以同主域權(quán)重系數(shù);統(tǒng)計與子網(wǎng)頁不同主域的各主域的父網(wǎng)頁數(shù)量,乘 以不同主域—又重系數(shù);將上述乘積相加的和為上述錨文本權(quán)重。優(yōu)選的,還包括如與子網(wǎng)頁同主域的父網(wǎng)頁數(shù)量大于預(yù)置數(shù)值,按預(yù)置 數(shù)值計算。優(yōu)選的,還包括與子網(wǎng)頁不同主域的各主域的父網(wǎng)頁數(shù)量大于預(yù)設(shè)數(shù)值, 按預(yù)設(shè)數(shù)據(jù)計算。優(yōu)選的,獲取網(wǎng)頁反向鏈接的錨文本具體為在互聯(lián)網(wǎng)的各網(wǎng)頁上提取正 向連接的錨文本;反轉(zhuǎn)各正向鏈接,獲取網(wǎng)頁反向鏈接的錨文本。優(yōu)選的,判斷上述錨文本相對于所述網(wǎng)頁是否合法具體為判斷上述錨文 本內(nèi)容與所述網(wǎng)頁內(nèi)容是否相關(guān)聯(lián),如是,確定上述錨文本相對于所述網(wǎng)頁合法;如不是,確定上述錨文本相對于所述網(wǎng)頁不合法。優(yōu)選的,判斷上述錨文本相對于所述網(wǎng)頁是否合法具體為對上述錨文本 分解為各詞語,判斷各詞語與所述網(wǎng)頁是否相關(guān)聯(lián);如相關(guān)聯(lián)詞語個數(shù)小于絕 對閾值,確定上述錨文本相對于所述網(wǎng)頁不合法;否則,確定上述錨文本相對 于所述網(wǎng)頁合法。優(yōu)選的,判斷上述錨文本相對于所述網(wǎng)頁是否合法具體為對上述錨文本 分解為各詞語,判斷各詞語與所述網(wǎng)頁是否相關(guān)聯(lián);如相關(guān)聯(lián)詞語在上述各詞 語中的比例小于相對閾值,確定上述錨文本相對于所述網(wǎng)頁不合法;否則,確 定上述錨文本相對于所述網(wǎng)頁合法。本發(fā)明 一種鏡像網(wǎng)頁的查找系統(tǒng),包括錨文本獲取4莫塊、合法性判斷模塊、 網(wǎng)頁提取模塊、集合組成模塊、及查找模塊;所述錨文本獲取模塊,用于獲取 網(wǎng)頁反向連接的錨文本;所述合法性判斷模塊,用于判斷上述錨文本相對于所 述網(wǎng)頁是否合法;所述網(wǎng)頁提取模塊,用于確定不合法錨文本所屬的網(wǎng)頁,提 取該網(wǎng)頁所在主域、子域、及目錄的首頁;所述集合組成模塊,用于將提取的 網(wǎng)頁組成鏡像網(wǎng)頁查找集合;所述查找模塊,用于基于所述鏡像網(wǎng)頁查找集合 查找鏡像網(wǎng)頁。優(yōu)選的,還包括權(quán)重計算模塊,用于計算上述錨文本的權(quán)重,按權(quán)重大小 順序,提取設(shè)置數(shù)量的錨文本,或提取設(shè)置比例的錨文本,發(fā)送到所述合法性 判斷模塊。與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點本發(fā)明根據(jù)錨文本判斷選取可能存在鏡像的網(wǎng)頁,只將可能存在鏡像的網(wǎng) 頁組成鏡像網(wǎng)頁查找集合,相對于現(xiàn)有技術(shù)中由互聯(lián)網(wǎng)上全部網(wǎng)頁組成鏡像網(wǎng) 頁查找集合,本發(fā)明組成的鏡像網(wǎng)頁查找集合只包含可能存在鏡像的網(wǎng)頁,服 務(wù)器也只針對可能存在鏡像的網(wǎng)頁進(jìn)行計算、分析、統(tǒng)計,查找鏡像網(wǎng)頁,避 免不必要的分析計算,具有較高的查找效率。本發(fā)明在錨文本數(shù)量較多的情況下,只對權(quán)重較高的錨文本進(jìn)行合法性判 斷,確定不合法錨文本所屬的網(wǎng)頁,提取該網(wǎng)頁所在主域、子域、及目錄的首 頁,組成鏡像網(wǎng)頁查找集合,進(jìn)一步縮小鏡像網(wǎng)站集合的范圍,該集合的網(wǎng)頁 存在鏡像的可能性較高,使得基于該集合查找鏡像網(wǎng)頁的效率進(jìn)一步提高。
圖1為現(xiàn)有鏡-像網(wǎng)頁的查找方法流程圖;圖2為本發(fā)明鏡像網(wǎng)頁的查找方法第一實施例流程圖;圖3為本發(fā)明判斷錨文本是否合法的方法第一實施例流程圖;圖4為本發(fā)明判斷錨文本是否合法的方法第二實施例流程圖;圖5為本發(fā)明鏡像網(wǎng)頁的查找方法第二實施例流程圖; . 圖6為本發(fā)明計算錨文本權(quán)重方法第一實施例流程圖; 圖7為本發(fā)明計算錨文本權(quán)重方法第二實施例流程圖; 圖8為本發(fā)明鏡像網(wǎng)頁的查找系統(tǒng)第一實施例示意圖; 圖9為本發(fā)明鏡像網(wǎng)頁的查找系統(tǒng)第二實施例示意圖。
具體實施方式
為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本發(fā)明作進(jìn)一步詳細(xì)的說明。一個網(wǎng)頁包含指向另 一個網(wǎng)頁的超鏈接(URL ),認(rèn)為這兩個網(wǎng)頁之間存在 鏈接關(guān)系。超鏈接上的文字為錨文本。如果網(wǎng)頁A使用錨文本S鏈接網(wǎng)頁B, 網(wǎng)頁A可稱為父網(wǎng)頁,網(wǎng)頁B可稱為子網(wǎng)頁,該鏈"^妄對于網(wǎng)頁A為正向鏈^f妻, 對于網(wǎng)頁B為反向鏈接。每個網(wǎng)頁都可能存在多個正向鏈接和反向鏈接。一個網(wǎng)頁使用某個錨文本鏈接另 一個網(wǎng)頁,可以看作是現(xiàn)實中 一個人對另 一個人的稱謂、評價、總結(jié)。例如,網(wǎng)頁A使用錨文本"北大"指向網(wǎng)頁B, 可以看作是網(wǎng)頁A稱呼網(wǎng)頁B為"北大"。但如果"北大"并不是網(wǎng)頁B合法 稱呼,那么網(wǎng)頁A就可能存在問題。同理,使用錨文本"北大"指向網(wǎng)頁B 的各網(wǎng)頁都可能存在同樣的問題,因存在同樣的問題,上述各網(wǎng)頁間存在鏡像 網(wǎng)頁可能性較大。將存在鏡像可能性較大的網(wǎng)頁提取出來,組成鏡像網(wǎng)頁查找 集合,再基于該集合查找鏡像網(wǎng)頁,縮小查找范圍,提高查找效率。參閱圖2,示出本發(fā)明鏡像網(wǎng)頁的查找方法第一實施例,具體步驟如下。步驟S201、獲取網(wǎng)頁反向連接的錨文本。網(wǎng)絡(luò)服務(wù)器在互聯(lián)網(wǎng)的各網(wǎng)頁 內(nèi)提取全部正向鏈接的錨文本,再反轉(zhuǎn)獲得各網(wǎng)頁反向鏈接的錨文本。例如,網(wǎng)頁A使用錨文本S指向網(wǎng)頁B, S是網(wǎng)頁A的正向鏈接錨文本, 為網(wǎng)頁A (S)——>網(wǎng)頁B。反轉(zhuǎn)后,得到網(wǎng)頁B (S) <_ —網(wǎng)頁A,對于網(wǎng)頁 B,則是錨文本S為反向鏈接的錨文本。再例如,新浪網(wǎng)首頁使用"搜狐"指向搜狐網(wǎng)首頁,"搜狐"是新浪網(wǎng)首 頁的正向鏈才妄4苗文本,"i己錄為{parent: www. sina. com child: www. sohu. com anchortext: 搜狐}, 反轉(zhuǎn)后獲得 {child: www. sohu.com parent: www. sina. com anchortext:搜狐}。步驟S202、判斷錨文本相對于網(wǎng)頁是否合法,如是,可認(rèn)為該錨文本合 法;如否,則i人為該4苗文本不合法。對于每個網(wǎng)頁,可預(yù)置詞語列表,詞語列表內(nèi)包含與該網(wǎng)頁直接相關(guān)的詞 語、語句和標(biāo)識。例如,對于新浪網(wǎng)首頁,"新浪"、"新浪首頁""www. sina. com" 等都是直接相關(guān)詞語、語句和標(biāo)識。判斷時,在該網(wǎng)頁的詞語列表中查找該錨 文本,如查找到,認(rèn)為該錨文本相對于該網(wǎng)頁合法;如查找不到,i人為該4苗文 本相對于該網(wǎng)頁不合法。當(dāng)然,對于每個網(wǎng)頁,可預(yù)置反向詞語列表,該反向詞語列表內(nèi)包含與該 網(wǎng)頁完全不相關(guān)的詞語、語句和標(biāo)識。例如,對于新浪網(wǎng)首頁,"蘋果"、"游 戲,,"www.sna.com"等都是不相關(guān)詞語、語句和標(biāo)識。如果錨文本包含在該反 向詞語列表內(nèi),認(rèn)為該錨文本不合法;如錨文本不包含在該詞語列表內(nèi),則認(rèn) 為該4苗文本合法。步驟S203、確定不合法錨文本所屬的網(wǎng)頁,提取該網(wǎng)頁所在主域、子域、 及目錄的首頁,組成鏡像網(wǎng)頁查找集合。錨文本所屬的網(wǎng)頁是指錨文本所在的 網(wǎng)頁,即使用該錨文本作為正向鏈接的網(wǎng)頁。同主域是指包含相同的第一級域 名,如新浪網(wǎng)首頁、新浪網(wǎng)各子網(wǎng)頁、和新浪網(wǎng)各目錄網(wǎng)頁為同主域,都包含 www.sina.con這個第 一級域名。子域是主域的下一級域名。例如,網(wǎng)頁A、網(wǎng)頁B、網(wǎng)頁C使用錨文本S正向鏈接網(wǎng)頁D,如錨文本S 不合法,確定錨文本S所屬的網(wǎng)頁A、網(wǎng)頁B、網(wǎng)頁C,在分別提取網(wǎng)頁A、網(wǎng) 頁B、網(wǎng)頁C所在主域、子域、及目錄的首頁。再例如,網(wǎng)頁A為http:〃news.sohu.com/20071217/n254120723.shtml,則提 取其主域首頁http:〃www.sohu.com, 子域首頁http:〃news.sohu.com, 目錄首頁 http:〃news.sohu.com/20071217。步驟S204、基于鏡像網(wǎng)頁查找集合查找鏡像網(wǎng)頁。在鏡像網(wǎng)頁查找集合 內(nèi),分別提取各個網(wǎng)頁特征詞語,再分析各網(wǎng)頁的特征詞語,統(tǒng)計特征詞的特 征值,依據(jù)特征值在鏡像網(wǎng)頁查找集合中查找鏡像網(wǎng)頁。將各項特征值相同及 相近的網(wǎng)頁作為鏡像網(wǎng)頁,在鏡像網(wǎng)頁查找集合提取出來,進(jìn)行相應(yīng)處理。本發(fā)明根據(jù)錨文本判斷選取可能存在鏡像的網(wǎng)頁,只將可能存在鏡像的網(wǎng) 頁組成鏡像網(wǎng)頁查找集合,相對于現(xiàn)有技術(shù)中由互聯(lián)網(wǎng)上全部網(wǎng)頁組成鏡Z象網(wǎng)頁查找集合,本發(fā)明組成的鏡像網(wǎng)頁查找集合只包含可能存在鏡像的網(wǎng)頁,服 務(wù)器也只針對可能存在鏡像的網(wǎng)頁進(jìn)行計算、分析、統(tǒng)計,查找鏡像網(wǎng)頁,褲 免不必要的分析計算,具有較高的查找效率。在上述步驟S202中,如果錨文本包含多個詞語,簡單將錨文本與網(wǎng)頁詞 語列表內(nèi)的語句進(jìn)行比較,可能存在因某個虛詞和某個詞語不對應(yīng),導(dǎo)致錨文 本的誤判。本發(fā)明將該錨文本分解為各詞語,依據(jù)各詞語判斷該錨文本是否合 法。參閱圖3,示出本發(fā)明判斷錨文本是否合法的方法第一實施例,具體步驟 如下所述。步驟S301、對上述錨文本進(jìn)行分詞。將上述錨文本分解為多個詞語,選 擇具有實質(zhì)意思的詞語。例如,錨文本為"冬季請到海南旅游"分解為詞語"冬 季"、"請"、"到"、"海南"、"旅游,,,過濾掉"請"和"到"等沒有實質(zhì)意義 的詞語,提取"冬季"、"海南"、"旅游"詞語。步驟S302、判斷各詞語與所述網(wǎng)頁是否相關(guān)聯(lián)。對于每個網(wǎng)頁,可預(yù)置 詞語列表,詞語列表內(nèi)包含與該網(wǎng)頁直接相關(guān)的詞語、語句和標(biāo)識。分別判斷 各詞語是否包含在該詞語列表內(nèi),如是,認(rèn)為該詞語與所述網(wǎng)頁相關(guān)聯(lián);如否, 認(rèn)為該詞語與所述網(wǎng)頁不相關(guān)聯(lián)。例如,錨文本為"冬季請到海南旅游",提取的具有實質(zhì)意義的詞語"冬 季"、"海南"、"旅游",其中,"海南"、"旅游"包含在詞語列表內(nèi),為相關(guān)聯(lián) 詞語;"冬季"不包含在詞語列表內(nèi),為不相關(guān)聯(lián)詞語。步驟S303、如相關(guān)聯(lián)詞語小于絕對閾值,判斷該錨文本相對于該網(wǎng)頁不 合法;如相關(guān)聯(lián)詞語大于或等絕對閾值,判斷該錨文本相對于該網(wǎng)頁合法。絕 對閾值的取值范圍為3-5。例如,絕對閾值為2,錨文本"冬季請到海南旅游"中2個詞語為相關(guān)聯(lián) 詞語,等于絕對閾值,該錨文本為合法錨文本。本發(fā)明通過對錨文本分解后判斷其是否合法,有利于對包含多個詞語的錨 文本的合法性進(jìn)行準(zhǔn)確判斷。因網(wǎng)頁詞語列表所包含的詞語數(shù)量有限,如果錨 文本包含詞語數(shù)量較多,很可能因與詞語列表所包含的詞語不完全相同而被誤 認(rèn)為不合法錨文本,導(dǎo)致判斷的準(zhǔn)確性較低。本發(fā)明將錨文本分解后對各詞語分別進(jìn)行判斷,降低了判斷的偶然性,增大判斷的準(zhǔn)確性。參閱圖4,示出發(fā)明判斷錨文本是否.合法的方法第二實施例,具體步驟如 下所述。步驟S401、對上述錨文本進(jìn)行分詞。將上述錨文本分解為多個詞語,選 擇具有實質(zhì)意思的詞語。步驟S402、判斷各詞語與所述網(wǎng)頁是否相關(guān)聯(lián)。對于每個網(wǎng)頁,可預(yù)置 詞語列表,分別判斷各詞語是否包含在該詞語列表內(nèi),如是,認(rèn)為該詞語與所 述網(wǎng)頁相關(guān)if關(guān);如否,認(rèn)為該詞語與所述網(wǎng)頁不相關(guān)耳關(guān)。步驟S403、如相關(guān)聯(lián)詞語在各詞語中的比例小于相對閾值,判斷錨文本 不合法;如相關(guān)聯(lián)詞語的比例大于或等相對閾值,判斷錨文本合法。相對閾值 的取值范圍是30% -70%。例如,相對閾值取值為50%,錨文本為"冬季請到海南旅游",其中,"海 南"、"旅游"包含在詞語列表內(nèi),為相關(guān)聯(lián)詞語;"冬季"不包含在詞語列表 內(nèi),為不相關(guān)聯(lián)詞語。相關(guān)聯(lián)詞語占67%,等于相對閾值,該錨文本為合法 錨文本。本發(fā)明依據(jù)對錨文本包含的相關(guān)聯(lián)詞語所占的比例進(jìn)行判斷,避免錨文本 包含詞語數(shù)量多或少而影響判斷,能更準(zhǔn)確判斷錨文本與網(wǎng)頁的相關(guān)度,使錨 文本的合法性判斷更科學(xué)、更準(zhǔn)確。錨文本的權(quán)重是指網(wǎng)頁反向鏈接中該錨文本出現(xiàn)的總次數(shù)。如果某個錨文 本權(quán)重很高,那么該網(wǎng)頁反向鏈接可能來自多個不同的網(wǎng)站。如果高權(quán)重的錨 文本不合法,那么該錨文本所述的全部網(wǎng)頁就值得檢驗,這些網(wǎng)頁存在鏡像網(wǎng) 頁的可能性很高。本發(fā)明在錨文本數(shù)量較多的情況下,只對權(quán)重較高的錨文本 進(jìn)行合法性判斷,確定不合法錨文本所屬的網(wǎng)頁,提取該網(wǎng)頁所在主域、子域、 及目錄的首頁,對進(jìn)一步縮小鏡像網(wǎng)站集合的范圍。參閱圖5,示出本發(fā)明鏡像網(wǎng)頁的查找方法第二實施例,具體步驟如下。步驟S501、獲取網(wǎng)頁反向連接的錨文本。網(wǎng)絡(luò)服務(wù)器在互聯(lián)網(wǎng)的各網(wǎng)頁 內(nèi)提取全部正向鏈接的錨文本,再反轉(zhuǎn)獲得各網(wǎng)頁反向鏈接的錨文本。步驟S502、計算錨文本的權(quán)重。遍歷網(wǎng)頁的每一個反向鏈接,獲取全部 錨文本,統(tǒng)計每一個錨文本的權(quán)重。對于某子頁面的某個反向鏈接錨文本,設(shè)該子網(wǎng)頁的父網(wǎng)頁為Nl個,上述父網(wǎng)頁屬于N2個主域(有些父頁面可能屬于同一個主域,即N1>=N2)。設(shè) 和該子網(wǎng)頁屬于同主域的父網(wǎng)頁有M1個,其它N1-M1個父網(wǎng)頁分別屬于N2-l 個主域。設(shè)與子網(wǎng)頁同主域的權(quán)重系數(shù)為ul,與子網(wǎng)頁不同主域的權(quán)重系數(shù) 為u2,該4苗文本的4又重為該4苗文本4又重=Ml*ul+ (Nl-Ml) *u2。ul的斥又值范圍是0. 05 - 0. 15,優(yōu)選為0. 1; u2的權(quán)值范圍是0. 15 - 0. 25, 優(yōu)選為0. 2。舉例為,共有網(wǎng)頁A、 Al、 A2、 A3、 B、 Bl、 B2、 B3、 C、 Cl、 C2、 C3,使 用錨文本S正向鏈接網(wǎng)頁K,對于網(wǎng)頁K的反向《連接錨文本S,父網(wǎng)頁為A、 Al、 A2、 A3、 B、 Bl、 B2、 B3、 C、 Cl、 C2、 C3共12個,其中,A、 Al、 A2、 A3為同一主域,且與K為相同主域,B、 Bl、 B2、 B3為同一主域,C、 Cl、 C2、 C3為同一主域。計算可知,Ml為4, N1-M1為8。如111 = 0. 1, u2 = 0. 2,貝寸; 錨文本S的權(quán)重=4 x 0. 1 + 8 x 0. 2 = 2。步驟S503、將各錨文本按權(quán)重大小排序,提取設(shè)置數(shù)量的錨文本,或提 取設(shè)置比例的錨文本。計算各錨文本的權(quán)重后,如錨文本數(shù)量較大,可按設(shè)置 比例提取一定數(shù)量權(quán)重較大的錨文本。設(shè)置比例可為20% -80%;如錨文本 數(shù)量較小,可按設(shè)置數(shù)量提取權(quán)重較大的錨文本。設(shè)置數(shù)量可為100 - 10000。步驟S504、判斷錨文本相對于網(wǎng)頁是否合法,如是,可認(rèn)為該錨文本合 法;如否,則i人為該4苗文本非法。步驟S505、確定不合法錨文本所屬的網(wǎng)頁,提取該網(wǎng)頁所在主域、子域、 及目錄的首頁,組成鏡像網(wǎng)頁查找集合。錨文本所屬的網(wǎng)頁是指錨文本所在的網(wǎng)頁,即^f吏用該錨文本作為正向^y妻的網(wǎng)頁。步驟S506、基于鏡像網(wǎng)頁查找集合查找鏡像網(wǎng)頁。本發(fā)明提取權(quán)重較高的錨文本進(jìn)行分析,提取不合法錨文本對應(yīng)的網(wǎng)頁, 組成鏡像網(wǎng)頁查找集合,該集合的網(wǎng)頁存在鏡像的可能性較高,使得基于該集 合查找鏡像網(wǎng)頁的效率進(jìn)一步提高。為了避免某主域的對某網(wǎng)頁的正向鏈接過多而使錨文本的權(quán)重失真,本發(fā) 明對同主域的正向鏈接的網(wǎng)頁數(shù)量進(jìn)行限制,使錨文本權(quán)重能更好的體現(xiàn)其應(yīng)用的廣度。在步驟S502中,本發(fā)明可對錨文本在父網(wǎng)頁和子網(wǎng)頁出現(xiàn)次數(shù)進(jìn) 行限制。參閱圖6,示出本發(fā)明計算錨文本權(quán)重方法第一實施例,具體步驟如下。 步驟S601、統(tǒng)計錨文本在各網(wǎng)頁的出現(xiàn)次數(shù)。步驟S602、檢查與子網(wǎng)頁同主域的父網(wǎng)頁數(shù)量,如該數(shù)量超過預(yù)置數(shù)值, 錨文本在該主域的數(shù)量按預(yù)置數(shù)值計算;如沒有超過預(yù)置數(shù)值,按實際數(shù)量計 算。預(yù)置數(shù)值的范圍可為10-100。如,預(yù)置數(shù)值為Yl, M1〉Y1,則使M^Y1; MKY1,則使M1不變。參閱圖7,示出本發(fā)明計算錨文本權(quán)重方法第二實施例,具體步驟如下。步驟S701、統(tǒng)計上述錨文本在各網(wǎng)頁的出現(xiàn)次數(shù)。步驟S702、檢查不與子網(wǎng)頁同主域的各主域父網(wǎng)頁數(shù)量,如該數(shù)量超過 預(yù)設(shè)數(shù)值,按預(yù)設(shè)數(shù)值計算;如沒有超過預(yù)設(shè)數(shù)值,按實際數(shù)量計算。預(yù)設(shè)數(shù) 值的范圍可為8-80。如,預(yù)置數(shù)值為Y2,該主域父網(wǎng)頁數(shù)量為XI, X1〉Y2,則使XhY2; XKY2, 則使X1不變。本發(fā)明通過對同主域父網(wǎng)頁數(shù)量的進(jìn)行限制,防止錨文本在某主域出現(xiàn)次 數(shù)過多,影響該錨文本權(quán)重的代表性。本發(fā)明計算的錨文本權(quán)重能更好地體現(xiàn) 其在互聯(lián)網(wǎng)使用的廣度,從而使組成的鏡像網(wǎng)頁查找集合中的網(wǎng)頁存在鏡像的 可能性更高,進(jìn)一步提高查找效率?;谏鲜鲧R像網(wǎng)頁查找方法,本發(fā)明還提供一種鏡像網(wǎng)頁查找系統(tǒng)。該系 統(tǒng)能夠簡單、快捷地查找鏡像網(wǎng)頁,具有較高的效率。參閱圖8,為本發(fā)明鏡像網(wǎng)頁的查找系統(tǒng)第一實施例,包括錨文本獲取模 塊81、合法性判斷模塊82、網(wǎng)頁提取模塊83、集合組成模塊84、及查找模塊 85。錨文本獲取模塊81獲取網(wǎng)頁反向連接的錨文本。錨文本獲取模塊81在互 聯(lián)網(wǎng)的各網(wǎng)頁內(nèi)提取全部正向鏈接的錨文本,再反轉(zhuǎn)獲得各網(wǎng)頁反向鏈接的錨 文本。錨文本獲取模塊81將獲取的錨文本發(fā)送到合法性判斷模塊82。合法性判斷模塊82判斷上述錨文本相對于所述網(wǎng)頁是否合法,如是,可 認(rèn)為該錨文本合法;如否,則認(rèn)為該錨文本不合法。合法性判斷模塊82將不合法錨文本發(fā)送到網(wǎng)頁提^4莫塊83。網(wǎng)頁提取模塊83確定不合法錨文本所屬的網(wǎng)頁,提取該網(wǎng)頁所在主域、 子域、及目錄的首頁。錨文本所屬的網(wǎng)頁是指錨文本所在的網(wǎng)頁,即使用該錨 文本作為正向鏈接的網(wǎng)頁。網(wǎng)頁提取^莫塊83將提取的網(wǎng)頁發(fā)送到集合組成模 塊84。集合組成模塊84將提取的網(wǎng)頁組成鏡像網(wǎng)頁查找集合,將該鏡像網(wǎng)頁查 找集合發(fā)送到查找模塊85。查找模塊85基于鏡像網(wǎng)頁查找集合查找鏡像網(wǎng)頁。查找模塊85在鏡像網(wǎng) 頁查找集合內(nèi),分別提取各個網(wǎng)頁特征詞語,再分析各網(wǎng)頁的特征詞語,統(tǒng)計 特征詞的特征值,依據(jù)特征值在鏡像網(wǎng)頁查找集合中查找鏡像網(wǎng)頁。將各項特 征值相同及相近的網(wǎng)頁作為鏡像網(wǎng)頁,在鏡像網(wǎng)頁查找集合提取出來,進(jìn)行相 應(yīng)處理。本發(fā)明鏡像網(wǎng)頁的查找系統(tǒng)在錨文本數(shù)量較多的情況下,通過權(quán)重計算模 塊計算各錨文本的權(quán)重,只對權(quán)重較高的錨文本進(jìn)行合法性判斷,確定不合法錨文本所屬的網(wǎng)頁,提取該網(wǎng)頁所在主域、子域、及目錄的首頁組成鏡像網(wǎng)站 查找集合,對進(jìn)一步縮小鏡像網(wǎng)站查找集合的范圍。參閱圖9,為本發(fā)明鏡像網(wǎng)頁的查找系統(tǒng)第二實施例,包括錨文本獲取模 塊81、合法性判斷模塊82、網(wǎng)頁提取模塊83、集合組成模塊84、查找模塊 85、及權(quán)重計算模塊86。權(quán)重計算模塊86在錨文本獲取模塊81中獲取各錨文本,計算上述錨文本 的權(quán)重,按權(quán)重大小順序,提取設(shè)置數(shù)量的錨文本,或提取設(shè)置比例的錨文本, 發(fā)送到合法性判斷模塊82。獲取模塊81、合法性判斷模塊82、網(wǎng)頁提取模塊83、集合組成模塊84、 及查找模塊85在該實施例中的功能和作用與圖8所示實施例相同,不再贅述。以上對本發(fā)明所提供的一種鏡像網(wǎng)頁查找方法及查找系統(tǒng),進(jìn)行了詳細(xì)介例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的 一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變 之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1、一種鏡像網(wǎng)頁的查找方法,其特征在于,包括獲取網(wǎng)頁反向連接的錨文本;判斷上述錨文本相對于所述網(wǎng)頁是否合法,確定不合法錨文本所屬的網(wǎng)頁,提取該網(wǎng)頁所在主域、子域、及目錄的首頁;將提取的網(wǎng)頁組成鏡像網(wǎng)頁查找集合,基于所述鏡像網(wǎng)頁查找集合查找鏡像網(wǎng)頁。
2、 如權(quán)利要求1所述的方法,其特征在于,判斷上述錨文本相對于所述 網(wǎng)頁是否合法之前,還包括計算上述錨文本的權(quán)重,按權(quán)重大小順序,提取設(shè)置數(shù)量的錨文本,或提 取設(shè)置比例的錨文本。
3、 如權(quán)利要求2所述的方法,其特征在于,計算上述錨文本的權(quán)重具體為統(tǒng)計與子網(wǎng)頁同主域的父網(wǎng)頁數(shù)量,乘以同主域權(quán)重系數(shù);統(tǒng)計與子網(wǎng)頁不同主域的各主域的父網(wǎng)頁數(shù)量,乘以不同主域權(quán)重系數(shù);將上述乘積相加的和為上述錨文本權(quán)重。
4、 如權(quán)利要求3所述的方法,其特征在于,還包括 如與子網(wǎng)頁同主域的父網(wǎng)頁數(shù)量大于預(yù)置數(shù)值,按預(yù)置數(shù)值計算。
5、 如權(quán)利要求3所述的方法,其特征在于,還包括與子網(wǎng)頁不同主域的各主域的父網(wǎng)頁數(shù)量大于預(yù)設(shè)數(shù)值,按預(yù)設(shè)數(shù)據(jù)計算。
6、 如權(quán)利要求1至5任一項所述的方法,其特征在于,獲取網(wǎng)頁反向鏈 接的錨文本具體為在互聯(lián)網(wǎng)的各網(wǎng)頁上提取正向連接的錨文本; 反轉(zhuǎn)各正向鏈接,獲取網(wǎng)頁反向鏈接的錨文本。
7、 如權(quán)利要求1至5任一項所述的方法,其特征在于,判斷上述錨文本 相對于所述網(wǎng)頁是否合法具體為判斷上述錨文本內(nèi)容與所述網(wǎng)頁內(nèi)容是否相關(guān)聯(lián),如是,確定上述錨文本 相對于所述網(wǎng)頁合法;如不是,確定上述錨文本相對于所述網(wǎng)頁不合法。
8、 如權(quán)利要求1至5任一項所述的方法,其特征在于,判斷上述錨文本 相對于所述網(wǎng)頁是否合法具體為對上述錨文本分解為各詞語,判斷各詞語與所述網(wǎng)頁是否相關(guān)聯(lián); 如相關(guān)聯(lián)詞語個數(shù)小于絕對閾值,確定上述錨文本相對于所述網(wǎng)頁不合 法;否則,確定上述錨文本相對于所述網(wǎng)頁合法。
9、 如權(quán)利要求1至5任一項所述的方法,其特征在于,判斷上述錨文本 相對于所述網(wǎng)頁是否合法具體為對上述錨文本分解為各詞語,判斷各詞語與所述網(wǎng)頁是否相關(guān)聯(lián); 如相關(guān)聯(lián)詞語在上述各詞語中的比例小于相對閾值,確定上述錨文本相對 于所述網(wǎng)頁不合法;否則,確定上述錨文本相對于所述網(wǎng)頁合法。
10、 一種鎮(zhèn) 像網(wǎng)頁的查找系統(tǒng),其特征在于,包括錨文本獲取才莫塊、合法 性判斷模塊、網(wǎng)頁提取模塊、集合組成模塊、及查找模塊;所述錨文本獲取模塊,用于獲取網(wǎng)頁反向連接的錨文本; 所述合法性判斷模塊,用于判斷上述錨文本相對于所述網(wǎng)頁是否合法; 所述網(wǎng)頁提取模塊,用于確定不合法錨文本所屬的網(wǎng)頁,提取該網(wǎng)頁所在 主域、子域、及目錄的首頁;所述集合組成模塊,用于將提取的網(wǎng)頁組成鏡像網(wǎng)頁查找集合; 所述查找模塊,用于基于所述鏡像網(wǎng)頁查找集合查找鏡像網(wǎng)頁。
11、 如權(quán)利要求10所述的系統(tǒng),其特征在于,還包括權(quán)重計算模塊,用 于計算上述錨文本的權(quán)重,按權(quán)重大小順序,提取設(shè)置數(shù)量的錨文本,或提取 設(shè)置比例的錨文本,發(fā)送到所述合法性判斷模塊。
全文摘要
本發(fā)明涉及一種鏡像網(wǎng)頁的查找方法,包括獲取網(wǎng)頁反向連接的錨文本,計算上述錨文本的權(quán)重,按權(quán)重大小順序,提取設(shè)置數(shù)量的錨文本,或提取設(shè)置比例的錨文本,判斷上述錨文本相對于所述網(wǎng)頁是否合法,確定不合法錨文本所屬的網(wǎng)頁,提取該網(wǎng)頁所在主域、子域、及目錄的首頁,再將提取的網(wǎng)頁組成鏡像網(wǎng)頁查找集合,基于所述鏡像網(wǎng)頁查找集合查找鏡像網(wǎng)頁。同時,本發(fā)明還提供一種鏡像網(wǎng)頁的查找系統(tǒng)。本發(fā)明解決現(xiàn)有技術(shù)中查找方法效率低下的不足,能夠簡單、快捷地查找鏡像網(wǎng)頁,具有較高的效率。
文檔編號G06F17/30GK101226531SQ20071030456
公開日2008年7月23日 申請日期2007年12月28日 優(yōu)先權(quán)日2007年12月28日
發(fā)明者劉云峰, 熊展志, 禹榮凌 申請人:騰訊科技(北京)有限公司