欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁去重方法和設(shè)備的制造方法

文檔序號:9810532閱讀:405來源:國知局
一種網(wǎng)頁去重方法和設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及互聯(lián)網(wǎng)領(lǐng)域,特別涉及一種網(wǎng)頁去重方法和設(shè)備。
【背景技術(shù)】
[0002] 目前網(wǎng)頁檢索結(jié)果中,用戶經(jīng)常會得到內(nèi)容相同的冗余頁面,它們不但浪費了存 儲資源,并給用戶的檢索帶來諸多不便
[0003] 但目前中文網(wǎng)頁去重的方法還不是很多,且方法并不完備,其中主要中文網(wǎng)頁去 重的方法有:基于聚類的方法、排除相同URL的方法、基于關(guān)鍵詞位置序列的方法、基于特 征句抽取的方法等;以下對此進行簡要分析:
[0004] 一、聚類的方法
[0005] 聚類是將一個對象的集合分割成幾個類,每個類內(nèi)的對象之間是相似的,但與其 他類的對象是不相似的;其中,評判聚類好壞的標(biāo)準(zhǔn):1、能夠適用于大數(shù)據(jù)量;2、能應(yīng)付 不同的數(shù)據(jù)類型;3、能夠發(fā)現(xiàn)不同類型的聚類;4、使對專業(yè)知識的要求降到最低;5、能應(yīng) 付臟數(shù)據(jù);6、對于數(shù)據(jù)不同的順序不敏感;7、能應(yīng)付很多類型的數(shù)據(jù);8、模型可解釋,可使 用。
[0006] 去除重復(fù)網(wǎng)頁的問題可以看成是一個特殊的聚類問題。因此可以采用一般的聚類 方法來處理,我們可以用6763個漢字做成一個向量,將各個漢字在網(wǎng)頁正文中出現(xiàn)的個數(shù) 填入向量中,以該向量作為這個網(wǎng)頁的一個特征,通過計算網(wǎng)頁向量與聚類中心向量的夾 角余弦值,兩向量的模的大小關(guān)系,來判斷這個網(wǎng)頁是否應(yīng)該歸為該類。由于只有兩個網(wǎng)頁 完全相同才歸屬于一類,因此網(wǎng)頁向量與聚類中心向量的夾角應(yīng)該非常小,而且向量的模 應(yīng)該基本相同。
[0007] 但由于一般的聚類問題是把在某些特征上相似的元素聚為一類,而且聚類后總的 類別數(shù)不會很多,且一般都有一定的限制。而這個問題的特殊性在于不是要把相似的元素 聚成一類,而是把完全相同的元素聚成一類。另外,由于不同的網(wǎng)頁占有很大的比例,它們 都各自成為一類,聚類后總的類別數(shù)會特別大,且沒有具體的限制。因為一般的聚類方法會 比較每個元素到各個聚類中心的距離,當(dāng)類別較少時,這種計算是可行的,但當(dāng)類別數(shù)很大 的時候,比較的次數(shù)就會大大增加,當(dāng)要處理的數(shù)據(jù)很大時,這種算法所消耗的時間將會很 長,從而導(dǎo)致在計算效率上的低下??梢杂嬎氵@種方法的時間復(fù)雜度是0(n2)的,當(dāng)數(shù)據(jù)量 較大時(比如幾十萬網(wǎng)頁),這種方法是不可行的。另外,在計算網(wǎng)頁相似度時很難取得合 適的閾值使得能夠保證網(wǎng)頁內(nèi)容的完全相同。因此,實際應(yīng)用中難以適用。
[0008] 二、排除相同URL方法
[0009] 排除相同URL方法是目前各種元搜索引擎去重的主要方法。它分析來自不同搜索 引擎的網(wǎng)頁URL,將相同的URL認為是相同的網(wǎng)頁給予去除。這種方法的特點是方法簡單, 易于實現(xiàn),可去除一部分相同網(wǎng)頁。但不足之處是未利用網(wǎng)頁的文本內(nèi)容結(jié)構(gòu)信息,不能 對轉(zhuǎn)載造成的重復(fù)網(wǎng)頁去重。
[0010] 三、基于關(guān)鍵詞位置序列的方法 toon] 要使用這種算法,首先需要考慮的是基本關(guān)鍵詞如何獲取,以便使用關(guān)鍵詞列表 判斷文章是否重復(fù)。常用的方法是針對已知文檔樣本進行頻度掃描。當(dāng)對各個方面的文檔 進行分詞和詞匯頻度計算后,常??梢垣@得高頻詞、中頻詞和低頻詞三種詞匯段的數(shù)據(jù)。由 于關(guān)鍵詞的提取在搜索引擎系統(tǒng)中由相應(yīng)的模塊完成,因此,報文經(jīng)過處理后會產(chǎn)生相應(yīng) 的關(guān)鍵詞列表,列表中包含關(guān)鍵詞、出現(xiàn)位置、頻度等信息。該算法重點針對當(dāng)兩篇文檔完 全相同時可以獲得相同的關(guān)鍵詞命中序列,因此,屬于嚴格意義上的報文重復(fù)。
[0012] 但是,從算法的準(zhǔn)確率而言,有兩種情況需要避免。一種是兩篇文檔關(guān)鍵詞三元組 的信息相同但實際內(nèi)容不同的情況,這樣會造成算法的誤判。另外一種情況,即關(guān)鍵詞二元 組沒有匹配,但文檔內(nèi)容基本相同,僅僅是文檔的內(nèi)容次序發(fā)生了變化,這就改變了關(guān)鍵詞 二元組的次序,造成了文檔的不匹配。
[0013] 四、基于特征句抽取的方法
[0014] 該方法首先要選取網(wǎng)頁正文的特征句,將兩篇網(wǎng)頁是否重復(fù)的問題轉(zhuǎn)化為求兩篇 網(wǎng)頁的最長公共子序列的問題。并根據(jù)語言的直覺,當(dāng)兩篇網(wǎng)頁的最長公共子序列的長度 大于等于這兩篇網(wǎng)頁中較長的文本長度的95%時,認為這兩篇網(wǎng)頁重復(fù)的概率很大。
[0015] 首先需要從文章中取出特征詞,然后根據(jù)該特征詞第一次出現(xiàn)的位置確定該篇網(wǎng) 頁文檔的特征句,再將整篇文本的最長公共子序列的比較轉(zhuǎn)換為兩個句子的最長公共子序 列的比較。為了抽取每個網(wǎng)頁的特征詞,考慮每個詞語的詞頻信息、位置信息、是否在標(biāo)題 中出現(xiàn)以及其他一些特殊的標(biāo)識性信息。綜合考慮上述四個選項,分別賦予不同的比例,計 算得到特征詞的權(quán)值。文中四個特征按1 :1 :1 :1的比例分配。算法步驟如下:
[0016] St印1 :讀網(wǎng)頁文本,預(yù)處理;
[0017] Step2 :計算每個詞的權(quán)值;
[0018] St印3 :取權(quán)值最大的詞作為特征詞;
[0019] Step4 :根據(jù)特征詞找特征句;
[0020] St印5 :利用LCS算法進行特征句匹配;
[0021] St印6 :進行下一個網(wǎng)頁處理。
[0022] 該算法的第1步主要是進行一些預(yù)處理的工作,先將一個待進行去重識別的網(wǎng)頁 文本讀入,對其進行分詞(僅針對漢語和部分東方語言),然后去除對于詞頻統(tǒng)計沒有作用 的停用詞,并將網(wǎng)頁文本表示為向量。算法的第2,第3步計算向量中每個詞的權(quán)值,并從中 找出權(quán)值最大的詞語。算法的第4步根據(jù)前面找到的該網(wǎng)頁的特征詞,在網(wǎng)頁正文中尋找 該特征詞第一次出現(xiàn)的位置,以其第一次出現(xiàn)所在的句子作為該網(wǎng)頁的特征句。算法的第5 步則利用LCS算法在重復(fù)網(wǎng)頁數(shù)據(jù)庫中計算該特征句與數(shù)據(jù)庫中每個特征句的匹配度,當(dāng) 匹配度達到設(shè)定的閾值時(根據(jù)對一些語料的統(tǒng)計暫定為〇. 85),則認為該網(wǎng)頁與重復(fù)網(wǎng) 頁數(shù)據(jù)庫中的網(wǎng)頁重復(fù),將該網(wǎng)頁與原網(wǎng)頁合并,如果整個網(wǎng)頁數(shù)據(jù)庫中都沒有與之重復(fù) 的網(wǎng)頁,則將該網(wǎng)頁加入到網(wǎng)頁數(shù)據(jù)庫中。至此,該算法對一個網(wǎng)頁的處理進行完畢,轉(zhuǎn)到 算法的開始進行下一個網(wǎng)頁的處理。
[0023] 該算法將兩篇文本的全文比較轉(zhuǎn)化成數(shù)個單詞和句子的比較,一定程度的降低了 算法的時間復(fù)雜度和空間復(fù)雜度,但對于大規(guī)模的網(wǎng)頁去重也不是很理想,因為其最長公 共子序列的尋找會花費大量的時間。
[0024] 綜上分析表明,現(xiàn)有技術(shù)中的網(wǎng)頁去重算法各有其優(yōu)點,但也均存在著不足;其 中,例如聚類的方法效率低下,排除相同URL方法不能對相同文本內(nèi)容網(wǎng)頁進行去重;其他 的方法也都存在各種缺陷,因此現(xiàn)有技術(shù)中并沒有能很好的解決網(wǎng)頁去重的技術(shù)問題。

【發(fā)明內(nèi)容】

[0025] 本申請?zhí)峁┝艘环N網(wǎng)頁去重方法和設(shè)備,能有效去除內(nèi)容重復(fù)的網(wǎng)頁,能很好地 節(jié)約存儲資源,同時提高用戶的檢索體驗。
[0026] 為了達到上述目的,本申請公開了一種網(wǎng)頁去重方法,包括:
[0027] 提取需要處理的網(wǎng)頁的特征碼;
[0028] 將所述特征碼轉(zhuǎn)換為key值,并在存儲空間中查找是否存在所述key值;
[0029] 若存在,判斷所述需要處理的網(wǎng)頁的字符數(shù)與所述存儲空間中所述key值對應(yīng)的 網(wǎng)頁的字符數(shù)之間是否滿足預(yù)設(shè)要求;
[0030] 若判斷結(jié)果為滿足,則確定所述需要處理的網(wǎng)頁重復(fù)。
[0031] 具體的,在所述提取需要進行處理的網(wǎng)頁的特征碼之前,還包括:
[0032] 確定得到的網(wǎng)頁的類型;
[0033] 若所述得到的網(wǎng)頁為主題型網(wǎng)頁,對所述得到的網(wǎng)頁的正文內(nèi)容進行統(tǒng)一編輯, 并將編輯后的網(wǎng)頁作為所述需要處理的網(wǎng)頁。
[0034] 優(yōu)選的,所述提取需要處理的網(wǎng)頁的特征碼,包括:
[0035] 將所述需要處理的網(wǎng)頁的正文內(nèi)容放在二維矩陣中;
[0036] 提取所述二維矩陣中預(yù)設(shè)區(qū)域內(nèi)的內(nèi)容作為特征碼。
[0037] 具體的,所述將所述特征碼轉(zhuǎn)換為key值,包括:
[0038] 將所述特征碼通過散列函數(shù)轉(zhuǎn)換為散列值作為key值。
[0039] 優(yōu)選的,所述判斷所述需要處理的網(wǎng)頁的字符數(shù)與所述存儲空間中所述key值對 應(yīng)的網(wǎng)頁的字符數(shù)之間是否滿足預(yù)設(shè)要求,包括:
[0040]
來計算S值,其中,A為所述需要處理的網(wǎng)頁的字符數(shù);B為 存儲空間中所述key值對應(yīng)的網(wǎng)頁的字符數(shù);
[0041] 當(dāng)S值大于所述預(yù)設(shè)條件中的閾值時,則判斷結(jié)果為不滿足預(yù)設(shè)要求;
[0042] 當(dāng)S值小于等于所述閾值時,則判斷結(jié)果為滿足預(yù)設(shè)要求。
[0043] 優(yōu)選的,在所述在存儲空間中查找是否存在所述key值之后,還包括:
[0044] 若存儲空間中不存在所述key值,將不存在于所述存儲空間中的key值存入所述 存儲空間,并記錄下所述需要處理的網(wǎng)頁的字符數(shù)。
[0045] 優(yōu)選的,在所述判斷所述需要處理的網(wǎng)頁的字符數(shù)與所述存儲空間中所述key值 對應(yīng)的網(wǎng)頁的字符數(shù)之間是否滿足預(yù)設(shè)要求之后,還包括:
[0046] 若所述需要處理的網(wǎng)頁的字符數(shù)與所述存儲空間中所述key值對應(yīng)的網(wǎng)頁的字 符數(shù)之間不滿足預(yù)設(shè)要求,則將所述需要處理的網(wǎng)頁的字符數(shù)關(guān)聯(lián)到所述key值,并存入 所述
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
丰宁| 贵定县| 高密市| 余姚市| 开阳县| 兴业县| 区。| 左云县| 常州市| 大丰市| 五华县| 长治县| 金川县| 铜陵市| 蒲城县| 福贡县| 乐山市| 克拉玛依市| 宿松县| 宜宾县| 佛坪县| 乐都县| 海盐县| 德清县| 丹东市| 新田县| 新余市| 咸丰县| 防城港市| 洛扎县| 中江县| 无锡市| 谢通门县| 儋州市| 峨眉山市| 东乌珠穆沁旗| 泸西县| 招远市| 浮梁县| 游戏| 星子县|