活鏈規(guī)則挖掘方法和裝置以及搜索方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種活鏈規(guī)則挖掘方法和裝置以及一種搜索方法和裝置,該方法包括:基于已抓取鏈接列表,選擇指定站點中鏈接,獲取該指定站點中鏈接所包含的各級目錄鏈接;對于各目錄鏈接,分別統(tǒng)計各自對應(yīng)的活鏈屬性,以及分別統(tǒng)計各自對應(yīng)的活鏈屬性的擴展性;基于上述各個目錄鏈接分別對應(yīng)的活鏈屬性以及活鏈屬性的擴展性,確定所述指定站點的活鏈規(guī)則。本發(fā)明提供的技術(shù)方案不再局限于對鏈接的活鏈屬性的遍歷式檢測,而是進一步通過分析其活鏈屬性和活鏈屬性的擴展性,挖掘活鏈規(guī)則,克服了現(xiàn)有技術(shù)的盲目和繁瑣,更加啟發(fā)式、有效、便捷地對指定站點中的鏈接屬性進行判斷;并給用戶提供更為有效、可靠的搜索體驗。
【專利說明】活鏈規(guī)則挖掘方法和裝置從及搜索方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)挖掘領(lǐng)域,具體設(shè)及一種活鏈規(guī)則挖掘方法和裝置W及一種捜索 方法和裝置。
【背景技術(shù)】
[0002] 網(wǎng)站作為大規(guī)模的信息集合體,包含了大量的web鏈接。有些Web鏈接經(jīng)過一段 時間之后,因種種原因而失效或者出現(xiàn)錯誤,從而形成死鏈。捜索引擎每天的捜索次數(shù)達億 次,其中展現(xiàn)的捜索結(jié)果頁不乏有些死鏈,該會影響用戶體驗。因此,活鏈規(guī)則挖掘并保證 展現(xiàn)的捜索結(jié)果頁的高活鏈率是非常必要且重要的。
[0003] 現(xiàn)有技術(shù)中,主要是解決網(wǎng)站活鏈檢測方法,即通過不斷抓取網(wǎng)站鏈接通過返回 碼判斷網(wǎng)頁是否為活鏈,該方案雖然能夠檢測網(wǎng)頁活鏈,但是并沒有從已發(fā)現(xiàn)的活鏈中挖 掘活鏈規(guī)則,無法覆蓋那些已死但未被調(diào)度檢測到的鏈接,具有一定的盲目性。并且當(dāng)用戶 進行捜索操作時,依然存在捜索到死鏈的可能性,用戶體驗不好。
【發(fā)明內(nèi)容】
[0004] 鑒于上述問題,提出了本發(fā)明W便提供一種克服上述問題或者至少部分地解決上 述問題的一種活鏈規(guī)則挖掘方法、裝置、捜索方法和裝置。
[0005] 依據(jù)本發(fā)明的一個方面,提供了一種活鏈規(guī)則挖掘方法,其中,該方法包括:
[0006] 基于已抓取鏈接列表,選擇指定站點中鏈接,獲取該指定站點中鏈接所包含的各 級目錄鏈接;
[0007] 對于各目錄鏈接,分別統(tǒng)計各自對應(yīng)的活鏈屬性,W及分別統(tǒng)計各自對應(yīng)的活鏈 屬性的擴展性;
[000引基于上述各個目錄鏈接分別對應(yīng)的活鏈屬性W及活鏈屬性的擴展性,確定所述指 定站點的活鏈規(guī)則。
[0009] 可選地,對于各目錄鏈接,分別統(tǒng)計各自對應(yīng)的活鏈屬性包括:
[0010] 對于一個目錄鏈接,根據(jù)該目錄鏈接下的總鏈量和活鏈接量確定該目錄鏈接的活 鏈屬性為:死鏈狀態(tài)、活鏈狀態(tài)或部分死鏈部分活鏈狀態(tài)。
[0011] 可選地,所述對于一個目錄鏈接,根據(jù)該目錄鏈接下的總鏈量和活鏈接量確定該 目錄鏈接的活鏈屬性為:死鏈狀態(tài)、活鏈狀態(tài)或部分死鏈部分活鏈狀態(tài)包括:
[0012] 如果該目錄鏈接下包含的總鏈數(shù)大于第一預(yù)設(shè)值,且其中的活鏈占比小于第二預(yù) 設(shè)值,則該目錄鏈接的活鏈屬性為死鏈狀態(tài);
[0013] 如果該目錄鏈接下包含的總鏈數(shù)大于第S預(yù)設(shè)值,且其中的死鏈占比小于第四預(yù) 設(shè)值,則該目錄鏈接的活鏈屬性為活鏈狀態(tài);
[0014] 如果目錄鏈接下包含的總鏈數(shù)大于第五預(yù)設(shè)值,且其中的死鏈占比小于第六預(yù)設(shè) 值,則該目錄鏈接的活鏈屬性為部分死鏈部分活鏈狀態(tài);
[0015] 其中,第一預(yù)設(shè)值〉第=預(yù)設(shè)值〉第五預(yù)設(shè)值;
[0016] 第二預(yù)設(shè)值 < 第四預(yù)設(shè)值 < 第六預(yù)設(shè)值。
[0017] 可選地,所述第一預(yù)設(shè)值為;15 ;
[001引所述第二預(yù)設(shè)值為;8%;
[0019] 所述第S預(yù)設(shè)值為;10;
[0020] 所述第四預(yù)設(shè)值為;30 % ;
[0021] 所述第五預(yù)設(shè)值為;5;
[0022] 所述第六預(yù)設(shè)值為;70%。
[0023] 可選地,所述分別統(tǒng)計各自對應(yīng)的活鏈屬性的擴展性包括:
[0024] 對于一個目錄鏈接,判斷該目錄鏈接的所有孩子目錄鏈接的活鏈屬性是否都與該 目錄鏈接的活鏈屬性一致,如果都一致則該目錄鏈接的活鏈屬性可擴展,否則該目錄鏈接 的活鏈屬性不可擴展。
[0025] 可選地,該方法進一步包括:
[0026] 對于沒有孩子目錄鏈接的目錄鏈接,默認(rèn)該目錄鏈接的活鏈屬性不可擴展。
[0027] 可選地,對于一個目錄鏈接,判斷該目錄鏈接的所有孩子目錄鏈接的活鏈屬性是 否都與該目錄鏈接的活鏈屬性一致,如果都一致則該目錄鏈接的活鏈屬性可擴展,否則該 目錄鏈接的活鏈屬性不可擴展包括:
[002引將該指定站點的各目錄鏈接按照從低到高的級別進行排序;
[0029] 按照所述排序?qū)ζ渲械拿總€目錄鏈接執(zhí)行如下操作:
[0030] 記錄該目錄鏈接的狀態(tài);
[0031] 如果該目錄鏈接有父目錄鏈接,則將其父目錄鏈接放入指定集合中;
[0032] 判斷該目錄鏈接是否在所述指定集合中,如果不在,默認(rèn)該目錄鏈接的活鏈屬性 不可擴展;如果在,判斷該目錄鏈接的所有孩子目錄鏈接的活鏈屬性是否都與該目錄鏈接 的活鏈屬性一致;
[0033] 如果都一致,則該目錄鏈接的活鏈屬性可擴展,否則該目錄鏈接的活鏈屬性不可 擴展,并在該目錄鏈接的活鏈屬性為死鏈狀態(tài)時將其臨時修改為部分死鏈部分活鏈狀態(tài);
[0034] 按照所述排序?qū)γ總€目錄鏈接都執(zhí)行如上操作后,將活鏈屬性為部分死鏈部分活 鏈狀態(tài)的目錄鏈接修改為死鏈狀態(tài)。
[0035] 可選地,該方法進一步包括:
[0036] 對個一個目錄鏈接,判斷該目錄鏈接的活鏈屬性是否與其父目錄鏈接的活鏈屬性 一致,且其父目錄鏈接的活鏈屬性可擴展,如果是則篩掉該目錄鏈接。
[0037] 可選地,所述判斷該目錄鏈接的活鏈屬性是否與其父目錄鏈接的活鏈屬性一致, 且其父目錄鏈接的活鏈屬性可擴展,如果是則篩掉該目錄鏈接包括:
[003引將該指定站點的目錄鏈接按照從高到低的級別進行排序;
[0039] 先設(shè)置如下S個變量為空;上一目錄鏈接、上一目錄鏈接的活鏈屬性和上一目錄 鏈接活鏈屬性的擴展性;
[0040] 然后按照所述排序?qū)γ總€目錄鏈接執(zhí)行如下操作:
[0041] 判斷上一目錄鏈接是否為當(dāng)前目錄鏈接的父目錄鏈接,否則保留當(dāng)前目錄鏈接; 其中,如果變量上一目錄鏈接為空,直接保留當(dāng)前目錄鏈接;
[0042] 如果是父目錄鏈接,判斷當(dāng)前目錄鏈接的活鏈屬性是否與上一目錄鏈接的活鏈屬 性一致,且其上一目錄鏈接的活鏈屬性可擴展,如果是則篩掉該目錄鏈接,否則保留當(dāng)前目 錄鏈接;
[0043] 將被保留的當(dāng)前目錄鏈接、被保留的當(dāng)前目錄鏈接的活鏈屬性和被保留的當(dāng)前目 錄鏈接活鏈屬性的擴展性依次分別賦值給所述的=個變量。
[0044] 依據(jù)本發(fā)明的另一個方面,提供了一種捜索方法,該方法包括:
[0045] 根據(jù)捜索請求獲取捜索結(jié)果;
[0046] 根據(jù)活鏈規(guī)則,在所述捜索結(jié)果中只保留活鏈;其中所述活鏈規(guī)則是依據(jù)上述任 一項所述的方法獲取的。
[0047] 向用戶展現(xiàn)只保留活鏈后的捜索結(jié)果。
[0048] 可選地,所述根據(jù)活鏈規(guī)則,在所述捜索結(jié)果中只保留活鏈包括:
[0049] 如果捜索結(jié)果中的一個鏈接包含一個活鏈屬性為活鏈狀態(tài),且活鏈屬性可擴展的 目錄鏈接,則確定該鏈接為活鏈,在捜索結(jié)果中保留該活鏈。
[0化0] 依據(jù)本發(fā)明的又一個方面,提供了一種活鏈規(guī)則挖掘裝置,該裝置包括:
[005U 目錄鏈接獲取單元,適于基于已抓取鏈接列表,選擇指定站點中鏈接,獲取該指定 站點中鏈接所包含的各級目錄鏈接;
[0052] 活鏈統(tǒng)計單元,適于對于各目錄鏈接,分別統(tǒng)計各自對應(yīng)的活鏈屬性,W及分別統(tǒng) 計各自對應(yīng)的活鏈屬性的擴展性;
[0053] 活鏈規(guī)則單元,適于基于上述各個目錄鏈接分別對應(yīng)的活鏈屬性W及活鏈屬性的 擴展性,確定所述指定站點的活鏈規(guī)則。
[0化4] 可選地,所述活鏈統(tǒng)計單元,適于對于一個目錄鏈接,根據(jù)該目錄鏈接下的總鏈量 和活鏈接量確定該目錄鏈接的活鏈屬性為:死鏈狀態(tài)、活鏈狀態(tài)或部分死鏈部分活鏈狀態(tài)。 [0化5] 可選地,所述活鏈統(tǒng)計單元,適于根據(jù)如下規(guī)則確定一個目錄鏈接的活鏈屬性:
[0化6] 如果該目錄鏈接下包含的總鏈數(shù)大于第一預(yù)設(shè)值,且其中的活鏈占比小于第二預(yù) 設(shè)值,則該目錄鏈接的活鏈屬性為死鏈狀態(tài);
[0057] 如果該目錄鏈接下包含的總鏈數(shù)大于第S預(yù)設(shè)值,且其中的死鏈占比小于第四預(yù) 設(shè)值,則該目錄鏈接的活鏈屬性為活鏈狀態(tài);
[0化引如果目錄鏈接下包含的總鏈數(shù)大于第五預(yù)設(shè)值,且其中的死鏈占比小于第六預(yù)設(shè) 值,則該目錄鏈接的活鏈屬性為部分死鏈部分活鏈狀態(tài);
[0化9] 其中,第一預(yù)設(shè)值〉第=預(yù)設(shè)值〉第五預(yù)設(shè)值;
[0060] 第二預(yù)設(shè)值 < 第四預(yù)設(shè)值 < 第六預(yù)設(shè)值。
[0061] 可選地,所述第一預(yù)設(shè)值為;15 ;
[0062] 所述第二預(yù)設(shè)值為;8% ;
[0063] 所述第S預(yù)設(shè)值為;10;
[0064] 所述第四預(yù)設(shè)值為;30 % ;
[00化]所述第五預(yù)設(shè)值為;5 ;
[0066] 所述第六預(yù)設(shè)值為;70 %。
[0067] 可選地,所述活鏈統(tǒng)計單元,適于對于一個目錄鏈接,判斷該目錄鏈接的所有孩子 目錄鏈接的活鏈屬性是否都與該目錄鏈接的活鏈屬性一致,如果都一致則該目錄鏈接的活 鏈屬性可擴展,否則該目錄鏈接的活鏈屬性不可擴展。
[0068] 可選地,所述活鏈統(tǒng)計單元,適于對于沒有孩子目錄鏈接的目錄鏈接,默認(rèn)該目錄 鏈接的活鏈屬性不可擴展。
[0069] 可選地,所述活鏈統(tǒng)計單元,適于根據(jù)如下步驟確定一個目錄鏈接的活鏈屬性的 擴展性:
[0070] 將該指定站點的各目錄鏈接按照從低到高的級別進行排序;
[0071] 按照所述排序?qū)ζ渲械拿總€目錄鏈接執(zhí)行如下操作:
[0072] 記錄該目錄鏈接的狀態(tài);
[0073] 如果該目錄鏈接有父目錄鏈接,則將其父目錄鏈接放入指定集合中;
[0074] 判斷該目錄鏈接是否在所述指定集合中,如果不在,默認(rèn)該目錄鏈接的活鏈屬性 不可擴展;如果在,判斷該目錄鏈接的所有孩子目錄鏈接的活鏈屬性是否都與該目錄鏈接 的活鏈屬性一致;
[0075] 如果都一致,則該目錄鏈接的活鏈屬性可擴展,否則該目錄鏈接的活鏈屬性不可 擴展,并在該目錄鏈接的活鏈屬性為死鏈狀態(tài)時將其臨時修改為部分死鏈部分活鏈狀態(tài);
[0076] 按照所述排序?qū)γ總€目錄鏈接都執(zhí)行如上操作后,將活鏈屬性為部分死鏈部分活 鏈狀態(tài)的目錄鏈接修改為死鏈狀態(tài)。
[0077] 可選地,該裝置進一步包括:
[007引去冗余單元,適于對個一個目錄鏈接,判斷該目錄鏈接的活鏈屬性是否與其父目 錄鏈接的活鏈屬性一致,且其父目錄鏈接的活鏈屬性可擴展,如果是則篩掉該目錄鏈接。
[0079] 可選地,去冗余單元,適于根據(jù)如下步驟篩掉部分目錄鏈接:
[0080] 將該指定站點的目錄鏈接按照從高到低的級別進行排序;
[0081] 先設(shè)置如下=個變量為空;上一目錄鏈接、上一目錄鏈接的活鏈屬性和上一目錄 鏈接活鏈屬性的擴展性;
[0082] 然后按照所述排序?qū)γ總€目錄鏈接執(zhí)行如下操作:
[0083] 判斷上一目錄鏈接是否為當(dāng)前目錄鏈接的父目錄鏈接,否則保留當(dāng)前目錄鏈接; 其中,如果變量上一目錄鏈接為空,直接保留當(dāng)前目錄鏈接;
[0084] 如果是父目錄鏈接,判斷當(dāng)前目錄鏈接的活鏈屬性是否與上一目錄鏈接的活鏈屬 性一致,且其上一目錄鏈接的活鏈屬性可擴展,如果是則篩掉該目錄鏈接,否則保留當(dāng)前目 錄鏈接;
[0085] 將被保留的當(dāng)前目錄鏈接、被保留的當(dāng)前目錄鏈接的活鏈屬性和被保留的當(dāng)前目 錄鏈接活鏈屬性的擴展性依次分別賦值給所述的=個變量。
[0086] 依據(jù)本發(fā)明的再一個方面,提供了一種捜索裝置,該裝置包括:
[0087] 捜索結(jié)果獲取單元,適于根據(jù)捜索請求獲取捜索結(jié)果;
[008引活鏈保留單元,適于根據(jù)活鏈規(guī)則,在所述捜索結(jié)果中只保留活鏈;其中所述活鏈 規(guī)則是如上任一項所述的活鏈規(guī)則挖掘裝置獲得的。
[0089] 捜索結(jié)果展示單元,適于向用戶展現(xiàn)只保留活鏈后的捜索結(jié)果。
[0090] 可選地,所述活鏈保留單元,適于在捜索結(jié)果中的一個鏈接包含一個活鏈屬性為 活鏈狀態(tài),且活鏈屬性可擴展的目錄鏈接,則確定該鏈接為活鏈,在捜索結(jié)果中保留該活 鏈。
[0091] 由上述可知,本發(fā)明提供的技術(shù)方案W指定站點中的目錄鏈接為樣本,通過統(tǒng)計 各目錄鏈接的活鏈屬性及活鏈屬性的擴展性,確定指定站點的活鏈規(guī)則。在用戶進行捜索 操作時,將活鏈規(guī)則能夠確定的活鏈保留下來,將只保留活鏈的捜索結(jié)果展現(xiàn)給用戶。與 現(xiàn)有技術(shù)相比,本方案不再局限于對鏈接的活鏈屬性的遍歷式檢測,而是進一步通過分析 其活鏈屬性和活鏈屬性的擴展性,挖掘活鏈規(guī)則,克服了現(xiàn)有技術(shù)的盲目和繁瑣,更加啟發(fā) 式、有效、便捷地對指定站點中的鏈接屬性進行判斷;并給用戶提供更為有效、可靠的捜索 體驗。
[0092] 上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段, 而可依照說明書的內(nèi)容予W實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠 更明顯易懂,W下特舉本發(fā)明的【具體實施方式】。
【專利附圖】
【附圖說明】
[0093] 通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通 技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明 的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0094] 圖1示出了根據(jù)本發(fā)明一個實施例的一種活鏈規(guī)則挖掘方法的流程圖;
[0095] 圖2示出了根據(jù)本發(fā)明一個實施例的一種捜索方法的流程圖;
[0096] 圖3示出了根據(jù)本發(fā)明一個實施例的一種活鏈規(guī)則挖掘裝置的示意圖;
[0097] 圖4示出了根據(jù)本發(fā)明另一個實施例的一種活鏈規(guī)則挖掘裝置的示意圖;
[009引圖5示出了根據(jù)本發(fā)明一個實施例的一種捜索裝置的示意圖。
【具體實施方式】
[0099] 下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開 的示例性實施例,然而應(yīng)當(dāng)理解,可各種形式實現(xiàn)本公開而不應(yīng)被該里闡述的實施例 所限制。相反,提供該些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍 完整的傳達給本領(lǐng)域的技術(shù)人員。
[0100] 圖1示出了根據(jù)本發(fā)明一個實施例的一種活鏈規(guī)則挖掘方法的流程圖。如圖1所 示,該方法包括:
[0101] 步驟S110,基于已抓取鏈接列表,選擇指定站點中鏈接,獲取該指定站點中鏈接所 包含的各級目錄鏈接。
[0102] 例如,一個鏈接http: //A/B/C所包含的各級目錄鏈接為http: //A、http: //A/B和 http://A/B/C。本本文中,為了描述方便,將如上述的目錄鏈接記錄為A、A/B、A/B/C。
[010引步驟S120,對于各目錄鏈接,分別統(tǒng)計各自對應(yīng)的活鏈屬性,化及分別統(tǒng)計各自對 應(yīng)的活鏈屬性的擴展性。
[0104] 步驟S130,基于上述各個目錄鏈接分別對應(yīng)的活鏈屬性W及活鏈屬性的擴展性, 確定指定站點的活鏈規(guī)則。
[0105] 可見,圖1所示的方法W指定站點中的目錄鏈接為樣本,通過統(tǒng)計各目錄鏈接的 活鏈屬性及活鏈屬性的擴展性,確定指定站點的活鏈規(guī)則。與現(xiàn)有技術(shù)相比,本方案不再局 限于對鏈接的活鏈屬性的遍歷式檢測,而是進一步通過分析其活鏈屬性和活鏈屬性的擴展 性,挖掘活鏈規(guī)則,克服了現(xiàn)有技術(shù)的盲目和繁瑣,更加啟發(fā)式、有效、便捷地對指定站點中 的鏈接屬性進行判斷。
[0106] 在本發(fā)明的一個實施例中,圖1所示方法的步驟S120中對于各目錄鏈接,分別統(tǒng) 計各自對應(yīng)的活鏈屬性是指:對于一個目錄鏈接,根據(jù)該目錄鏈接下的總鏈量和活鏈接量 確定該目錄鏈接的活鏈屬性,活鏈屬性包括:死鏈狀態(tài)、活鏈狀態(tài)或部分死鏈部分活鏈狀 態(tài)。
[0107] 在本發(fā)明的一個實施例中,所述對于一個目錄鏈接,根據(jù)該目錄鏈接下的總鏈量 和活鏈接量確定該目錄鏈接的活鏈屬性為:死鏈狀態(tài)、活鏈狀態(tài)或部分死鏈部分活鏈狀態(tài) 包括:
[0108] 如果該目錄鏈接下包含的總鏈數(shù)大于第一預(yù)設(shè)值,且其中的活鏈占比小于第二預(yù) 設(shè)值,則該目錄鏈接的活鏈屬性為死鏈狀態(tài);如果該目錄鏈接下包含的總鏈數(shù)大于第S預(yù) 設(shè)值,且其中的死鏈占比小于第四預(yù)設(shè)值,則該目錄鏈接的活鏈屬性為活鏈狀態(tài)姻果目錄 鏈接下包含的總鏈數(shù)大于第五預(yù)設(shè)值,且其中的死鏈占比小于第六預(yù)設(shè)值,則該目錄鏈接 的活鏈屬性為部分死鏈部分活鏈狀態(tài);其中,第一預(yù)設(shè)值〉第=預(yù)設(shè)值〉第五預(yù)設(shè)值;第二 預(yù)設(shè)值 < 第四預(yù)設(shè)值 < 第六預(yù)設(shè)值。
[0109] 在本發(fā)明的一個具體實施例中,所述第一預(yù)設(shè)值為;15 ;所述第二預(yù)設(shè)值為;8% ; 所述第S預(yù)設(shè)值為;10 ;所述第四預(yù)設(shè)值為;30% ;所述第五預(yù)設(shè)值為;5 ;所述第六預(yù)設(shè)值 為;70%。則本本實施例中,判斷活鏈屬性的方法為;如果一個目錄鏈接下包含的總鏈數(shù)大 于15,且其中的活鏈占比小于8%,則該目錄鏈接的活鏈屬性為死鏈狀態(tài);如果一個目錄鏈 接下包含的總鏈數(shù)大于10,且其中的死鏈占比小于30%,則該目錄鏈接的活鏈屬性為活鏈 狀態(tài);如果目錄鏈接下包含的總鏈數(shù)大于5值,且其中的死鏈占比小于70%,則該目錄鏈接 的活鏈屬性為部分死鏈部分活鏈狀態(tài)。
[0110] 例如,依據(jù)上述活鏈屬性的判斷標(biāo)準(zhǔn),指定站點SiteO中鏈接所包含的各級目錄 鏈接為;A/C/D/E、A/C/D/D、A/C/D、A/C/C/E、A/C/C/D、A/C/C、A/C、A/B、A,依據(jù)上述活鏈屬 性的判斷方法,判斷得到各目錄鏈接的活鏈屬性如表1所示,其中,"0"表示活鏈狀態(tài),"1" 表示死鏈狀態(tài),"2 "表示部分死鏈部分活鏈狀態(tài)。
[0111] 表 1
[0112]
【權(quán)利要求】
1. 一種活鏈規(guī)則挖掘方法,其中,該方法包括: 基于已抓取鏈接列表,選擇指定站點中鏈接,獲取該指定站點中鏈接所包含的各級目 錄鏈接; 對于各目錄鏈接,分別統(tǒng)計各自對應(yīng)的活鏈屬性,以及分別統(tǒng)計各自對應(yīng)的活鏈屬性 的擴展性; 基于上述各個目錄鏈接分別對應(yīng)的活鏈屬性以及活鏈屬性的擴展性,確定所述指定站 點的活鏈規(guī)則。
2. 如權(quán)利要求1所述的方法,其中,對于各目錄鏈接,分別統(tǒng)計各自對應(yīng)的活鏈屬性包 括: 對于一個目錄鏈接,根據(jù)該目錄鏈接下的總鏈量和活鏈接量確定該目錄鏈接的活鏈屬 性為:死鏈狀態(tài)、活鏈狀態(tài)或部分死鏈部分活鏈狀態(tài)。
3. 如權(quán)利要求1-2任一項所述的方法,其中,所述對于一個目錄鏈接,根據(jù)該目錄鏈接 下的總鏈量和活鏈接量確定該目錄鏈接的活鏈屬性為:死鏈狀態(tài)、活鏈狀態(tài)或部分死鏈部 分活鏈狀態(tài)包括: 如果該目錄鏈接下包含的總鏈數(shù)大于第一預(yù)設(shè)值,且其中的活鏈占比小于第二預(yù)設(shè) 值,則該目錄鏈接的活鏈屬性為死鏈狀態(tài); 如果該目錄鏈接下包含的總鏈數(shù)大于第三預(yù)設(shè)值,且其中的死鏈占比小于第四預(yù)設(shè) 值,則該目錄鏈接的活鏈屬性為活鏈狀態(tài); 如果目錄鏈接下包含的總鏈數(shù)大于第五預(yù)設(shè)值,且其中的死鏈占比小于第六預(yù)設(shè)值, 則該目錄鏈接的活鏈屬性為部分死鏈部分活鏈狀態(tài); 其中,第一預(yù)設(shè)值〉第三預(yù)設(shè)值〉第五預(yù)設(shè)值; 第二預(yù)設(shè)值〈第四預(yù)設(shè)值〈第六預(yù)設(shè)值。
4. 如權(quán)利要求1-3任一項所述的方法,其中,所述分別統(tǒng)計各自對應(yīng)的活鏈屬性的擴 展性包括: 對于一個目錄鏈接,判斷該目錄鏈接的所有孩子目錄鏈接的活鏈屬性是否都與該目錄 鏈接的活鏈屬性一致,如果都一致則該目錄鏈接的活鏈屬性可擴展,否則該目錄鏈接的活 鏈屬性不可擴展。
5. 如權(quán)利要求1-4任一項所述的方法,其中,該方法進一步包括: 對于沒有孩子目錄鏈接的目錄鏈接,默認(rèn)該目錄鏈接的活鏈屬性不可擴展。
6. 如權(quán)利要求1-5任一項所述的方法,其中,對于一個目錄鏈接,判斷該目錄鏈接的所 有孩子目錄鏈接的活鏈屬性是否都與該目錄鏈接的活鏈屬性一致,如果都一致則該目錄鏈 接的活鏈屬性可擴展,否則該目錄鏈接的活鏈屬性不可擴展包括: 將該指定站點的各目錄鏈接按照從低到高的級別進行排序; 按照所述排序?qū)ζ渲械拿總€目錄鏈接執(zhí)行如下操作: 記錄該目錄鏈接的狀態(tài); 如果該目錄鏈接有父目錄鏈接,則將其父目錄鏈接放入指定集合中; 判斷該目錄鏈接是否在所述指定集合中,如果不在,默認(rèn)該目錄鏈接的活鏈屬性不可 擴展;如果在,判斷該目錄鏈接的所有孩子目錄鏈接的活鏈屬性是否都與該目錄鏈接的活 鏈屬性一致; 如果都一致,則該目錄鏈接的活鏈屬性可擴展,否則該目錄鏈接的活鏈屬性不可擴展, 并在該目錄鏈接的活鏈屬性為死鏈狀態(tài)時將其臨時修改為部分死鏈部分活鏈狀態(tài); 按照所述排序?qū)γ總€目錄鏈接都執(zhí)行如上操作后,將活鏈屬性為部分死鏈部分活鏈狀 態(tài)的目錄鏈接修改為死鏈狀態(tài)。
7. 如權(quán)利要求1-6任一項所述的方法,其中,該方法進一步包括: 對個一個目錄鏈接,判斷該目錄鏈接的活鏈屬性是否與其父目錄鏈接的活鏈屬性一 致,且其父目錄鏈接的活鏈屬性可擴展,如果是則篩掉該目錄鏈接。
8. -種搜索方法,其中,該方法包括: 根據(jù)搜索請求獲取搜索結(jié)果; 根據(jù)活鏈規(guī)則,在所述搜索結(jié)果中只保留活鏈;其中所述活鏈規(guī)則是依據(jù)如權(quán)利要求 1-7中任一項所述的方法獲取的。 向用戶展現(xiàn)只保留活鏈后的搜索結(jié)果。
9. 一種活鏈規(guī)則挖掘裝置,其中,該裝置包括: 目錄鏈接獲取單元,適于基于已抓取鏈接列表,選擇指定站點中鏈接,獲取該指定站點 中鏈接所包含的各級目錄鏈接; 活鏈統(tǒng)計單元,適于對于各目錄鏈接,分別統(tǒng)計各自對應(yīng)的活鏈屬性,以及分別統(tǒng)計各 自對應(yīng)的活鏈屬性的擴展性; 活鏈規(guī)則單元,適于基于上述各個目錄鏈接分別對應(yīng)的活鏈屬性以及活鏈屬性的擴展 性,確定所述指定站點的活鏈規(guī)則。
10. -種搜索裝置,其中,該裝置包括: 搜索結(jié)果獲取單元,適于根據(jù)搜索請求獲取搜索結(jié)果; 活鏈保留單元,適于根據(jù)活鏈規(guī)則,在所述搜索結(jié)果中只保留活鏈;其中所述活鏈規(guī)則 是如權(quán)利要求9所述的活鏈規(guī)則挖掘裝置獲得的。 搜索結(jié)果展示單元,適于向用戶展現(xiàn)只保留活鏈后的搜索結(jié)果。
【文檔編號】G06F17/30GK104504097SQ201410836421
【公開日】2015年4月8日 申請日期:2014年12月29日 優(yōu)先權(quán)日:2014年12月29日
【發(fā)明者】鄭燕琴 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司