欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁去重方法和設(shè)備的制造方法_3

文檔序號:9810532閱讀:來源:國知局
所述需要處理的 網(wǎng)頁重復(fù)。
[0084] 另外,具體的,在步驟103的判斷結(jié)果為不滿足預(yù)設(shè)要求時,可以將所述需要處理 的網(wǎng)頁的字符數(shù)關(guān)聯(lián)到所述key值,并存入所述存儲空間;這也是對存儲空間中的數(shù)據(jù)進 行不斷的更新,使得后續(xù)能更好地對相同內(nèi)容的網(wǎng)頁做出判斷。
[0085] 與現(xiàn)有技術(shù)相比,本申請實施例所提出的技術(shù)方案通過應(yīng)用本申請的技術(shù)方案, 通過提取需要處理的網(wǎng)頁的特征碼;將所述特征碼轉(zhuǎn)換為key值,并在存儲空間中查找是 否存在所述key值;若存在,判斷所述需要處理的網(wǎng)頁的字符數(shù)與所述存儲空間中所述key 值對應(yīng)的網(wǎng)頁的字符數(shù)之間是否滿足預(yù)設(shè)要求;若判斷結(jié)果為滿足,則確定所述需要處理 的網(wǎng)頁重復(fù),有效地對內(nèi)容重復(fù)的網(wǎng)頁進行了去重處理,節(jié)約了存儲資源,同時提高了用戶 檢索的體驗。
[0086] 為了更好對本申請的方案進行說明,如圖4所示,本申請實施例二提供了一種網(wǎng) 頁去重設(shè)備,包括:
[0087] 提取模塊401,用于提取需要處理的網(wǎng)頁的特征碼;
[0088] 轉(zhuǎn)換模塊402,用于將所述特征碼轉(zhuǎn)換為key值;
[0089] 查找模塊403,用于在存儲空間中查找是否存在所述key值;
[0090] 判斷模塊404,用于在所述查找模塊確定所述存儲空間中存在所述key值時,判斷 所述需要處理的網(wǎng)頁的字符數(shù)與所述存儲空間中所述key值對應(yīng)的網(wǎng)頁的字符數(shù)之間是 否滿足預(yù)設(shè)要求;
[0091] 去重模塊405,用于在所述判斷模塊確定滿足預(yù)設(shè)條件時,確定所述需要處理的網(wǎng) 頁重復(fù)。
[0092] 具體的,該設(shè)備還可以包括:
[0093] 確定模塊406,用于確定得到的網(wǎng)頁的類型;
[0094] 處理模塊407,用于當所述得到的網(wǎng)頁為主題型網(wǎng)頁,對所述得到的網(wǎng)頁的正文內(nèi) 容進行統(tǒng)一編輯,并將編輯后的網(wǎng)頁作為所述需要處理的網(wǎng)頁。
[0095] 具體的,所述提取模塊401,具體用于將所述需要處理的網(wǎng)頁的正文內(nèi)容放在二維 矩陣中,以提取所述二維矩陣中預(yù)設(shè)區(qū)域內(nèi)的內(nèi)容作為特征碼。
[0096] 所述轉(zhuǎn)換模塊402,具體用于將所述特征碼通過散列函數(shù)轉(zhuǎn)換為散列值作為key
值。
[0097] 所述判斷模塊404,具體用于通過公式 來計算S值,其中,A為所述需 要處理的網(wǎng)頁的字符數(shù);B為存儲空間中所述key值對應(yīng)的網(wǎng)頁的字符數(shù);
[0098] 當S值大于所述預(yù)設(shè)條件中的閾值時,則判斷結(jié)果為不滿足預(yù)設(shè)要求;
[0099] 當S值小于等于所述閾值時,則判斷結(jié)果為滿足預(yù)設(shè)要求。
[0100] 具體的,該設(shè)備還可以包括:
[0101] 記錄模塊408,用于當所述查找模塊確定存儲空間中不存在所述key值時,將不 存在于所述存儲空間中的key值存入所述存儲空間,并記錄下所述需要處理的網(wǎng)頁的字符 數(shù);和/或
[0102] 存儲模塊409,用于當所述判斷模塊確定不滿足預(yù)設(shè)要求時,將所述需要處理的網(wǎng) 頁的字符數(shù)關(guān)聯(lián)到所述key值,并存入所述存儲空間。
[0103] 與現(xiàn)有技術(shù)相比,本申請實施例所提出的技術(shù)方案通過應(yīng)用本申請的技術(shù)方案, 通過提取需要處理的網(wǎng)頁的特征碼;將所述特征碼轉(zhuǎn)換為key值,并在存儲空間中查找是 否存在所述key值;若存在,判斷所述需要處理的網(wǎng)頁的字符數(shù)與所述存儲空間中所述key 值對應(yīng)的網(wǎng)頁的字符數(shù)之間是否滿足預(yù)設(shè)要求;若判斷結(jié)果為滿足,則確定所述需要處理 的網(wǎng)頁重復(fù),有效地對內(nèi)容重復(fù)的網(wǎng)頁進行了去重處理,節(jié)約了存儲資源,同時提高了用戶 檢索的體驗
[0104] 本領(lǐng)域技術(shù)人員可以理解附圖只是一個優(yōu)選實施場景的示意圖,附圖中的模塊或 流程并不一定是實施本申請所必須的。
[0105] 本領(lǐng)域技術(shù)人員可以理解實施場景中的裝置中的模塊可以按照實施場景描述進 行分布于實施場景的裝置中,也可以進行相應(yīng)變化位于不同于本實施場景的一個或多個裝 置中。上述實施場景的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。
[0106] 上述本申請序號僅僅為了描述,不代表實施場景的優(yōu)劣。
[0107] 以上公開的僅為本申請的幾個具體實施場景,但是,本申請并非局限于此,任何本 領(lǐng)域的技術(shù)人員能思之的變化都應(yīng)落入本申請的保護范圍。
【主權(quán)項】
1. 一種網(wǎng)頁去重方法,其特征在于,包括: 提取需要處理的網(wǎng)頁的特征碼; 將所述特征碼轉(zhuǎn)換為key值,并在存儲空間中查找是否存在所述key值; 若存在,判斷所述需要處理的網(wǎng)頁的字符數(shù)與所述存儲空間中所述key值對應(yīng)的網(wǎng)頁 的字符數(shù)之間是否滿足預(yù)設(shè)要求; 若判斷結(jié)果為滿足,則確定所述需要處理的網(wǎng)頁重復(fù)。2. 如權(quán)利要求1所述的方法,其特征在于,在所述提取需要進行處理的網(wǎng)頁的特征碼 之前,還包括: 確定得到的網(wǎng)頁的類型; 若所述得到的網(wǎng)頁為主題型網(wǎng)頁,對所述得到的網(wǎng)頁的正文內(nèi)容進行統(tǒng)一編輯,并將 編輯后的網(wǎng)頁作為所述需要處理的網(wǎng)頁。3. 如權(quán)利要求2所述的方法,其特征在于,所述提取需要處理的網(wǎng)頁的特征碼,包括: 將所述需要處理的網(wǎng)頁的正文內(nèi)容放在二維矩陣中; 提取所述二維矩陣中預(yù)設(shè)區(qū)域內(nèi)的內(nèi)容作為特征碼。4. 如權(quán)利要求1所述的方法,其特征在于,所述將所述特征碼轉(zhuǎn)換為key值,包括: 將所述特征碼通過散列函數(shù)轉(zhuǎn)換為散列值作為key值。5. 如權(quán)利要求1所述的方法,其特征在于,所述判斷所述需要處理的網(wǎng)頁的字符數(shù)與 所述存儲空間中所述key值對應(yīng)的網(wǎng)頁的字符數(shù)之間是否滿足預(yù)設(shè)要求,包括: 通過公式來計算S值,其中,A為所述需要處理的網(wǎng)頁的字符數(shù);B為存儲 空間中所述key值對應(yīng)的網(wǎng)頁的字符數(shù); 當S值大于所述預(yù)設(shè)條件中的闊值時,則判斷結(jié)果為不滿足預(yù)設(shè)要求; 當S值小于等于所述闊值時,則判斷結(jié)果為滿足預(yù)設(shè)要求。6. 如權(quán)利要求1所述的方法,其特征在于,在所述在存儲空間中查找是否存在所述key 值之后,還包括: 若存儲空間中不存在所述key值,將不存在于所述存儲空間中的key值存入所述存儲 空間,并記錄下所述需要處理的網(wǎng)頁的字符數(shù)。7. 如權(quán)利要求1所述的方法,其特征在于,在所述判斷所述需要處理的網(wǎng)頁的字符數(shù) 與所述存儲空間中所述key值對應(yīng)的網(wǎng)頁的字符數(shù)之間是否滿足預(yù)設(shè)要求之后,還包括: 若所述需要處理的網(wǎng)頁的字符數(shù)與所述存儲空間中所述key值對應(yīng)的網(wǎng)頁的字符數(shù) 之間不滿足預(yù)設(shè)要求,則將所述需要處理的網(wǎng)頁的字符數(shù)關(guān)聯(lián)到所述key值,并存入所述 存儲空間。8. -種網(wǎng)頁去重設(shè)備,其特征在于,包括: 提取模塊,用于提取需要處理的網(wǎng)頁的特征碼; 轉(zhuǎn)換模塊,用于將所述特征碼轉(zhuǎn)換為key值; 查找模塊,用于在存儲空間中查找是否存在所述key值; 判斷模塊,用于在所述查找模塊確定所述存儲空間中存在所述key值時,判斷所述需 要處理的網(wǎng)頁的字符數(shù)與所述存儲空間中所述key值對應(yīng)的網(wǎng)頁的字符數(shù)之間是否滿足 預(yù)設(shè)要求; 去重模塊,用于在所述判斷模塊確定滿足預(yù)設(shè)條件時,確定所述需要處理的網(wǎng)頁重復(fù)。9. 如權(quán)利要求8所述的設(shè)備,其特征在于,還包括: 確定模塊,用于確定得到的網(wǎng)頁的類型; 處理模塊,用于當所述得到的網(wǎng)頁為主題型網(wǎng)頁,對所述得到的網(wǎng)頁的正文內(nèi)容進行 統(tǒng)一編輯,并將編輯后的網(wǎng)頁作為所述需要處理的網(wǎng)頁。10. 如權(quán)利要求9所述的設(shè)備,其特征在于, 所述提取模塊,具體用于將所述需要處理的網(wǎng)頁的正文內(nèi)容放在二維矩陣中,W提取 所述二維矩陣中預(yù)設(shè)區(qū)域內(nèi)的內(nèi)容作為特征碼。11. 如權(quán)利要求8所述的設(shè)備,其特征在于, 所述轉(zhuǎn)換模塊,具體用于將所述特征碼通過散列函數(shù)轉(zhuǎn)換為散列值作為key值。12. 如權(quán)利要求8所述的設(shè)備,其特征在于, 所述判斷模塊,具體用于通過公式宋計算S值,其中,A為所述需要處理的 網(wǎng)頁的字符數(shù);B為存儲空間中所述key值對應(yīng)的網(wǎng)頁的字符數(shù); 當S值大于所述預(yù)設(shè)條件中的闊值時,則判斷結(jié)果為不滿足預(yù)設(shè)要求; 當S值小于等于所述闊值時,則判斷結(jié)果為滿足預(yù)設(shè)要求。13. 如權(quán)利要求8所述的設(shè)備,其特征在于,還包括: 記錄模塊,用于當所述查找模塊確定存儲空間中不存在所述key值時,將不存在于所 述存儲空間中的key值存入所述存儲空間,并記錄下所述需要處理的網(wǎng)頁的字符數(shù)。14. 如權(quán)利要求8所述的設(shè)備,其特征在于,還包括: 存儲模塊,用于當所述判斷模塊確定不滿足預(yù)設(shè)要求時,將所述需要處理的網(wǎng)頁的字 符數(shù)關(guān)聯(lián)到所述key值,并存入所述存儲空間。
【專利摘要】本申請公開了一種網(wǎng)頁去重方法和設(shè)備,包括:提取需要處理的網(wǎng)頁的特征碼;將所述特征碼轉(zhuǎn)換為key值,并在存儲空間中查找是否存在所述key值;若存在,判斷所述需要處理的網(wǎng)頁的字符數(shù)與所述存儲空間中所述key值對應(yīng)的網(wǎng)頁的字符數(shù)之間是否滿足預(yù)設(shè)要求;若判斷結(jié)果為滿足,則確定所述需要處理的網(wǎng)頁重復(fù);本申請能實現(xiàn)對內(nèi)容相同的網(wǎng)頁進行有效的去重,同時能節(jié)約存儲資源,并提高用戶的檢索體驗。
【IPC分類】G06F17/30
【公開號】CN105574004
【申請?zhí)枴緾N201410532559
【發(fā)明人】唐小棚, 游永勝
【申請人】阿里巴巴集團控股有限公司
【公開日】2016年5月11日
【申請日】2014年10月10日
當前第3頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
阳新县| 建宁县| 大厂| 清涧县| 荃湾区| 宜丰县| 民乐县| 和平区| 兴海县| 阿拉尔市| 武夷山市| 洛阳市| 山东| 龙门县| 石台县| 寻甸| 郸城县| 景谷| 临汾市| 手机| 五原县| 同仁县| 曲麻莱县| 巴彦县| 绍兴县| 和林格尔县| 宝丰县| 新干县| 平谷区| 隆德县| 金寨县| 会理县| 北票市| 濮阳市| 开原市| 威宁| 九寨沟县| 南澳县| 峡江县| 长武县| 将乐县|