專利名稱:一種網(wǎng)頁數(shù)據(jù)信息的定向采集方法及裝置的制作方法
技術(shù)領域:
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領域,尤其涉及一種網(wǎng)頁數(shù)據(jù)信息的定向采集方法及裝置。
背景技術(shù):
隨著網(wǎng)絡技術(shù)的出現(xiàn),用戶獲取信息的方式得到了拓展,并且隨著網(wǎng)絡技術(shù)的不斷成熟,互聯(lián)網(wǎng)已經(jīng)成為用戶獲取信息的主要載體。在互聯(lián)網(wǎng)中用戶可以通過搜索引擎進行信息的采集,而網(wǎng)絡信息采集系統(tǒng)為搜索引擎的重要組成部分。網(wǎng)絡信息采集系統(tǒng)可以在互聯(lián)網(wǎng)中自動提取網(wǎng)頁,并以提取的網(wǎng)頁的統(tǒng)一資源定位符(Uniform Resource Locator, URL)為種子URL,訪問并下載該URL對應的網(wǎng)頁,獲取該網(wǎng)頁中存在的URL,將獲取的URL添加到URL列表中,在該列表中選擇一個URL,重新上述過程,直到滿足設定的要求。在通過提取網(wǎng)頁進行數(shù)據(jù)信息采集時,每兩次信息采集之間存在一定的時間間隔,現(xiàn)有技術(shù)中一般每兩次信息采集之間的時間間隔相等,或者該時間間隔符合泊松分布。在進行信息采集時,每兩次信息采集之間采用相等的時間間隔時,如果應用在更新比較緩慢的網(wǎng)站上,由于網(wǎng)站的更新比較慢,每兩次信息采集過程中可能采集的信息相同,從而造成了搜索引擎資源的浪費,并且還可能帶來帶寬的浪費。當該時間間隔應用在更新比較頻繁的網(wǎng)站上時,由于網(wǎng)站的更新比較頻繁,網(wǎng)站的內(nèi)容可能已經(jīng)更新了,但是下一采集時間還沒有到來,因此可能由于信息的漏采,造成信息采集的不準確。而當時間間隔符合泊松分布時,也只是由搜索引擎運行的時間增長,而使時間間隔趨于一個穩(wěn)定值,即當搜索引擎長時間運行時,搜索引擎的信息采集的時間間隔也為一恒定值,因此該時間間隔在進行信息采集的過程中也會造成資源的浪費,及信息采集不準確的問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提供一種網(wǎng)頁數(shù)據(jù)信息的定向采集方法及裝置,用以解決現(xiàn)有技術(shù)中搜索引擎在進行信息采集時,造成的資源浪費及信息采集不準確的問題。本發(fā)明實施例提供的一種網(wǎng)頁數(shù)據(jù)信息的定向采集方法,包括根據(jù)采集到的列表頁對應網(wǎng)頁的內(nèi)容,抽取每個內(nèi)容所在的內(nèi)容頁的統(tǒng)一資源定位符URL信息,其中所述列表頁為用于數(shù)據(jù)信息采集的網(wǎng)頁;根據(jù)抽取的每個內(nèi)容頁的URL信息,及服務器中保存的已經(jīng)進行了數(shù)據(jù)信息采集的每個URL信息,確定該列表頁中未進行數(shù)據(jù)信息采集的URL信息的數(shù)量;根據(jù)確定的所述列表頁中未進行數(shù)據(jù)信息采集的URL信息的數(shù)量,及抽取的所述內(nèi)容頁的URL信息的數(shù)量,確定所述列表頁當前的頁面更新率;根據(jù)所述列表頁所屬網(wǎng)站的標準更新率,確定的所述列表頁當前的頁面更新率, 及當前的信息采集時間間隔,確定針對所述列表頁當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔,并在等待該確定的時間間隔后,進行數(shù)據(jù)信息采集。本發(fā)明實施例提供的一種網(wǎng)頁數(shù)據(jù)信息的定向采集裝置,包括抽取模塊,用于根據(jù)采集到的列表頁對應網(wǎng)頁的內(nèi)容,抽取每個內(nèi)容所在的內(nèi)容頁的統(tǒng)一資源定位符URL信息,其中所述列表頁為用于數(shù)據(jù)信息采集的網(wǎng)頁;第一確定模塊,用于根據(jù)抽取的每個內(nèi)容頁的URL信息,及服務器中保存的已經(jīng)進行了數(shù)據(jù)信息采集的每個URL信息,確定該列表頁中未進行數(shù)據(jù)信息采集的URL信息的數(shù)量;第二確定模塊,用于根據(jù)確定的所述列表頁中未進行數(shù)據(jù)信息采集的URL信息的數(shù)量,及抽取的所述內(nèi)容頁的URL信息的數(shù)量,確定所述列表頁當前的頁面更新率;確定采集模塊,用于根據(jù)所述列表頁所屬網(wǎng)站的標準更新率,確定的所述列表頁當前的頁面更新率,及當前的信息采集時間間隔,確定針對所述列表頁當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔,并在等待該確定的時間間隔后,進行數(shù)據(jù)信息采集。本發(fā)明實施例提供了一種網(wǎng)頁數(shù)據(jù)信息的定向采集方法及裝置,該采集方法中確定列表頁當前的頁面更新率,根據(jù)列表頁所屬網(wǎng)站的標準更新率,確定的所述列表頁當前的頁面更新率,及當前的信息采集時間間隔,確定針對所述網(wǎng)站當前信息采集與下一次信息采集的時間間隔,在等待該確定的時間間隔后,進行信息采集。由于在本發(fā)明實施例的上述實現(xiàn)方式中,通過確定列表頁的頁面更新率,動態(tài)的確定信息采集的時間間隔,因此可以在網(wǎng)頁刷新時準確的獲取到信息,并且減少了網(wǎng)絡資源的浪費。
圖1為本發(fā)明實施例提供的網(wǎng)頁數(shù)據(jù)信息的定向采集過程;圖2為本發(fā)明實施例提供的網(wǎng)頁數(shù)據(jù)信息的定向裝置的組成結(jié)構(gòu)示意圖。
具體實施例方式本發(fā)明實施例中為了減少網(wǎng)絡資源的浪費,提高信息采集的準確性,提供了一種網(wǎng)頁數(shù)據(jù)信息的定向采集方法,在該方法中通過確定包含被采集網(wǎng)站的網(wǎng)頁信息的列表頁的當前頁面更新率,并根據(jù)所述網(wǎng)站的標準更新率,確定針對所述列表頁當前信息采集與下一次信息采集的時間間隔,根據(jù)該時間間隔進行信息的采集。由于在本發(fā)明實施例的上述實現(xiàn)方式中,通過確定列表頁中當前的頁面更新率,動態(tài)的確定信息采集的時間間隔,因此根據(jù)確定信息采集的時間間隔,可以在網(wǎng)頁刷新時準確的獲取到網(wǎng)頁的數(shù)據(jù)信息,并且減少了網(wǎng)絡資源的浪費。下面結(jié)合說明書附圖,對本發(fā)明實施例進行詳細說明。圖1為本發(fā)明實施例提供的網(wǎng)頁數(shù)據(jù)信息的定向采集過程,該過程包括以下步驟SlOl 根據(jù)采集到的列表頁對應網(wǎng)頁的內(nèi)容,抽取每個內(nèi)容所在的內(nèi)容頁的統(tǒng)一資源定位符URL信息,其中所述列表頁為用于數(shù)據(jù)信息采集的網(wǎng)頁。在本發(fā)明實施例中列表頁為用于數(shù)據(jù)信息采集的網(wǎng)頁。一般針對每個網(wǎng)站進行數(shù)據(jù)信息采集時,將該網(wǎng)站中初始進行信息采集的每個URL信息作為一個列表頁,即將某一網(wǎng)頁的URL信息作為初始數(shù)據(jù)信息采集的列表頁。
當進行數(shù)據(jù)信息采集時,根據(jù)采集任務對應的列表頁的URL信息,采集該列表頁的每個內(nèi)容。根據(jù)列表頁的每個內(nèi)容,抽取每個內(nèi)容所在內(nèi)容頁的URL信息。例如當該列表頁為某網(wǎng)站新聞主頁時,在該主頁中包含若干條新聞題目信息,其中該新聞題目即為該列表頁中的內(nèi)容,根據(jù)每個新聞題目信息,獲取每個新聞題目的新聞正文所在的網(wǎng)頁的URL, 從而達到采集每個新聞題目所在內(nèi)容頁的URL信息的目的,即每個新聞正文所在的網(wǎng)頁為該內(nèi)容所在的內(nèi)容頁。S102:根據(jù)抽取的每個內(nèi)容頁的URL信息,及服務器中保存的已經(jīng)進行了數(shù)據(jù)信息采集的每個URL信息對應的標識信息,確定該列表頁中未進行數(shù)據(jù)信息采集的URL信息的數(shù)量。在本發(fā)明實施例中確定列表頁中未進行數(shù)據(jù)信息采集的URL信息具體包括根據(jù)抽取的每個內(nèi)容頁的URL信息,確定每個URL信息對應的標識信息,針對確定的每個URL 信息對應的標識信息,在服務器保存的已經(jīng)進行了數(shù)據(jù)信息采集的每個URL信息對應的標識信息中查找,判斷是否存在該確定的標識信息,當判斷不存在時,確定該標識信息對應的 URL信息為該列表頁中未進行數(shù)據(jù)信息采集的URL信息。S103 根據(jù)確定的所述列表頁中未進行數(shù)據(jù)信息采集的URL信息的數(shù)量,及抽取的所述內(nèi)容頁中的URL信息的數(shù)量,確定所述列表頁當前的頁面更新率。其中,確定所述列表頁的頁面更新率包括計算所述列表頁中未進行數(shù)據(jù)信息采集的URL信息的數(shù)量,與抽取的所述內(nèi)容頁的URL信息的數(shù)量的比值,將所述比值作為確定的所述列表頁當前的頁面更新率。S104:根據(jù)所述列表頁所屬網(wǎng)站的標準更新率,確定的所述列表頁當前的頁面更新率,及當前的信息采集時間間隔,確定針對所述列表頁當前信息采集與下一次信息采集的時間間隔。在本發(fā)明實施例中確定針對所述列表頁當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔包括當確定的列表頁的當前頁面更新率大于所述網(wǎng)站的標準更新率時,縮短當前的數(shù)據(jù)信息采集時間間隔,將縮短后的時間間隔確定為當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔;當確定的列表頁的當前頁面更新率等于所述網(wǎng)站的標準更新率時,確定當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔為當前的數(shù)據(jù)信息采集時間間隔;當確定的列表頁的當前頁面更新率小于所述網(wǎng)站的標準更新率時,延長當前的數(shù)據(jù)信息采集時間間隔,將延長后的時間間隔確定為當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔。S105 在等待該確定的時間間隔后,進行數(shù)據(jù)信息采集。在本發(fā)明實施例中可以針對網(wǎng)站的重要性對網(wǎng)站進行分級,劃分級別的個數(shù)可以根據(jù)需要確定,網(wǎng)站的重要性越高對應的級別越高。并且每一級別中包含的網(wǎng)站對應的權(quán)重值相同,每一級別包含的網(wǎng)站對應的權(quán)重值可以為不小于1的數(shù)值。網(wǎng)站的重要性越高時,對應的權(quán)重值越大。其中網(wǎng)站的重要性可以根據(jù)用戶的經(jīng)驗進行確定,或根據(jù)網(wǎng)站信息的準確程度進行確定,在進行網(wǎng)站信息準確程度的評判時,可以根據(jù)用戶自身對網(wǎng)站信息的分析確定,或根據(jù)相應的匹配算法確定。上述實施方式中,在針對每個網(wǎng)站進行網(wǎng)頁數(shù)據(jù)信息的定向采集時,每個網(wǎng)站的重要性都是可知的,或者當存在不可知的網(wǎng)站時,可以任意將該網(wǎng)站劃分到一個級別中以便后續(xù)過程的進行。在進行網(wǎng)頁數(shù)據(jù)信息采集之前,需要確定全局更新率。該全局更新率,在進行網(wǎng)頁數(shù)據(jù)信息采集的初始階段設置,可以將該全局更新率設置為任意大于零小于1的數(shù)值。當設置了全局更新率后,根據(jù)每個網(wǎng)站對應的權(quán)重值,可以確定每個網(wǎng)站的標準更新率,其中該標準更新率可以為設置的全局更新率與該網(wǎng)站對應的權(quán)重值的積?;蛘咂渌拇_定方法,主要保證網(wǎng)站重要性越高時,該網(wǎng)站對應的標準更新率越高。在本發(fā)明實施例中在進行網(wǎng)頁數(shù)據(jù)信息的采集時,針對每個網(wǎng)站都可能存在一個或多個采集任務,每個采集任務即為一個列表頁,即針對每個采集任務都有對應的一個URL fn息ο每個采集任務對應一個列表頁,在服務器中可以保存已經(jīng)進行了數(shù)據(jù)采集的網(wǎng)頁的URL信息對應的唯一標識信息,相同的標識信息對應相同的URL信息。例如可以采用MD5 算法,確定每個URL信息對應的標識信息。根據(jù)采集到的列表頁對應網(wǎng)頁的內(nèi)容,抽取每個內(nèi)容所在的內(nèi)容頁的統(tǒng)一資源定位符URL信息時,由于每個URL信息對應一個網(wǎng)頁,而不同的網(wǎng)頁可能包含不同的內(nèi)容,因此可以根據(jù)每個內(nèi)容頁的URL信息,獲取對應的內(nèi)容數(shù)據(jù)。例如在網(wǎng)頁中可能包含帖子的標題、博客的標題、新聞正文的標題等等內(nèi)容。不同的內(nèi)容對應不同的鏈接,例如當列表頁中包含帖子的議題時,根據(jù)該議題可以獲取該帖子對應的鏈接,即該帖子的正文所在的內(nèi)容頁,在帖子的議題所在的內(nèi)容頁,即為列表頁中的內(nèi)容所在的內(nèi)容頁,而該內(nèi)容頁的URL 信息,即為該列表頁中的內(nèi)容所在內(nèi)容頁的URL信息。針對每個列表頁,由于每個網(wǎng)頁的格式基本上固定,因此一般情況下在采集列表頁每個內(nèi)容所在的內(nèi)容頁的URL信息時,可以獲取到相同數(shù)量的URL信息。例如對于某一論壇主頁為列表頁時,在該論壇主頁中包含的內(nèi)容-帖子的數(shù)量確定,而每個帖子在不同的內(nèi)容頁中。例如在該列表頁中可以包含20個帖子,當又有新的帖子出現(xiàn)時,按照更新程度進行排序時,該帖子將在該主頁內(nèi),相反一些帖子將會被替代,即不包含在該主頁內(nèi)。此時根據(jù)該列表頁的每個內(nèi)容進行URL信息的采集時,可以獲取每個帖子所在的內(nèi)容頁的URL fn息ο因為服務器中保存了已經(jīng)進行了數(shù)據(jù)信息采集的內(nèi)容頁的URL信息的標識信息, 并且相同的標識信息對應的URL信息相同,因此可以根據(jù)采集的每個內(nèi)容所在內(nèi)容頁的 URL信息,確定該列表頁中新出現(xiàn)的未進行數(shù)據(jù)信息采集的內(nèi)容頁URL信息的數(shù)量。例如出現(xiàn)了新增的帖子,當獲取了該帖子所在的網(wǎng)頁的URL信息后,根據(jù)該URL信息,確定該URL信息對應的標識信息,確定該標識信息是否在服務器中保存,當服務器中保存了該URL信息對應的標識信息時,可以認為該帖子在其他的采集任務中已經(jīng)采集過,即該帖子的數(shù)據(jù)信息已經(jīng)被采集過,該URL信息非未進行數(shù)據(jù)信息采集的URL信息;當該URL 信息對應的標識信息,在服務器中不存在時,確定該URL信息為該列表頁中新出現(xiàn)的未進行數(shù)據(jù)信息采集的URL信息。因此根據(jù)上述描述可知,當采集了列表頁中每個內(nèi)容所在的內(nèi)容頁的URL信息后,根據(jù)每個URL信息對應的標識信息,及服務器中保存的已經(jīng)進行了數(shù)據(jù)信息采集的每個URL信息對應的標識信息,可以確定該列表頁中新出現(xiàn)的未進行數(shù)據(jù)信息采集的URL信息的數(shù)量。
當進行第一次數(shù)據(jù)信息采集時,網(wǎng)站中初始進行數(shù)據(jù)信息采集的URL信息為該列表頁的URL信息,根據(jù)該URL信息在對應的網(wǎng)頁中抽取每個內(nèi)容所在的內(nèi)容頁的URL信息。 根據(jù)抽取的每個內(nèi)容頁的URL信息對應的標識信息,以及服務器中保存的已經(jīng)進行了數(shù)據(jù)信息采集的每個URL信息對應的標識信息,將未在該服務器中出現(xiàn)的URL信息對應的標識信息的數(shù)量,確定列表頁中新出現(xiàn)的未進行數(shù)據(jù)信息采集的URL信息的數(shù)量。當抽取了每個內(nèi)容所在的內(nèi)容頁的URL信息,并確定了列表頁中新出現(xiàn)的未進行數(shù)據(jù)信息采集的URL信息的數(shù)量,根據(jù)每個未進行數(shù)據(jù)信息采集的URL信息,在對應的網(wǎng)頁進行數(shù)據(jù)信息的采集,并在數(shù)據(jù)信息采集后,將該URL信息對應的標識信息保存到服務器中,作為已進行了數(shù)據(jù)信息采集的URL信息對應的標識信息。當下一次根據(jù)列表頁的每個內(nèi)容進行數(shù)據(jù)信息采集時,獲取到某一內(nèi)容所在的內(nèi)容頁的URL信息對應的標識信息,與該服務器中保存的該URL信息對應的標識信息相同時,則認為對該URL信息對應的網(wǎng)頁的內(nèi)容已進行了數(shù)據(jù)信息的采集。當采集了列表頁中每個內(nèi)容對應網(wǎng)頁的URL信息后,確定了該列表頁中新出現(xiàn)的未進行數(shù)據(jù)信息采集的URL信息的數(shù)量,根據(jù)確定的所述列表頁中新出現(xiàn)的未進行數(shù)據(jù)信息采集的URL信息的數(shù)量,及抽取的所述內(nèi)容頁的URL信息的數(shù)量,確定所述列表頁當前的頁面更新率。確定列表頁當前的頁面更新率具體包括計算列表頁中新出現(xiàn)的未進行數(shù)據(jù)采集的URL信息的數(shù)量,與抽取的所述內(nèi)容頁的URL信息的數(shù)量的商,將該商值作為該列表頁當前的頁面更新率。確定了該列表頁當前的頁面更新率后,由于該列表頁當前的頁面更新率表示按照當前的數(shù)據(jù)信息采集時間間隔,對該列表頁的內(nèi)容所在的內(nèi)容頁的URL信息進行抽取時, 當前該列表頁的內(nèi)容所在的內(nèi)容頁的URL信息的更新情況。并且由于該列表頁所屬網(wǎng)站的標準更新率已知,當該列表頁當前的頁面更新率大于該網(wǎng)站對應的標準更新率時,說明該列表頁的內(nèi)容所在的內(nèi)容頁的URL的信息更新較快,即進行數(shù)據(jù)信息采集時,該列表頁中未進行數(shù)據(jù)信息采集的URL信息數(shù)量較多,因此采用當前的時間間隔進行數(shù)據(jù)信息采集時,將會造成部分信息的丟失。因此為了保證數(shù)據(jù)信息采集的準確性,需要將數(shù)據(jù)信息采集的時間間隔縮短。在本發(fā)明實施例中在縮短該數(shù)據(jù)信息采集的時間間隔時,可以將當前的數(shù)據(jù)信息采集時間間隔減去一個固定值,或減去任意值,將減去固定值或任意值后的時間間隔,作為針對所述網(wǎng)站當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔。但在本發(fā)明實施例中為了使確定針對所述網(wǎng)站當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔更加準確, 可以確定當前的數(shù)據(jù)信息采集時間間隔與所述網(wǎng)站的標準更新率的積,并確定所述積與所述列表頁當前的頁面更新率的商,將所述商確定為針對所述網(wǎng)站當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔。當該列表頁當前的頁面更新率等于該網(wǎng)站對應的標準更新率時,說明對該列表頁的頁面更新時間,與當前的數(shù)據(jù)信息采集時間間隔比較吻合,針對所述網(wǎng)站當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔可以采用當前的數(shù)據(jù)信息采集時間間隔。當該列表頁當前的頁面更新率小于該網(wǎng)站對應的標準更新率時,說明該列表頁的頁面更新較慢,即進行數(shù)據(jù)信息采集時可能該列表頁的內(nèi)容所在內(nèi)容頁的URL信息還基本上沒進行更新,采用當前的時間間隔進行數(shù)據(jù)信息采集時,將會造成帶寬的浪費,因此為了節(jié)省帶寬資源,需要將數(shù)據(jù)信息采集的時間間隔延長。在本發(fā)明實施例中在延長該數(shù)據(jù)信息采集的時間間隔時,可以將當前的數(shù)據(jù)信息采集時間間隔加上一個固定值,或加上任意值,將加上固定值或任意值后的時間間隔,作為針對所述網(wǎng)站當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔。但在本發(fā)明實施例中為了使確定針對所述網(wǎng)站當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔更加準確, 可以確定所述網(wǎng)站的標準更新率與確定的所述列表頁當前的頁面更新率的差值,將該差值加一后確定與當前的數(shù)據(jù)信息采集時間間隔的積,將該積確定為針對所述網(wǎng)站當前信息采集與下一次信息采集的時間間隔。例如,在確定針對所述網(wǎng)站當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔時,可以根據(jù)下述公式進行
權(quán)利要求
1.一種網(wǎng)頁數(shù)據(jù)信息的定向采集方法,其特征在于,包括根據(jù)采集到的列表頁對應網(wǎng)頁的內(nèi)容,抽取每個內(nèi)容所在的內(nèi)容頁的統(tǒng)一資源定位符 URL信息,其中所述列表頁為用于數(shù)據(jù)信息采集的網(wǎng)頁;根據(jù)抽取的每個內(nèi)容頁的URL信息,及服務器中保存的已經(jīng)進行了數(shù)據(jù)信息采集的每個URL信息,確定該列表頁中未進行數(shù)據(jù)信息采集的URL信息的數(shù)量;根據(jù)確定的所述列表頁中未進行數(shù)據(jù)信息采集的URL信息的數(shù)量,及抽取的所述內(nèi)容頁的URL信息的數(shù)量,確定所述列表頁當前的頁面更新率;根據(jù)所述列表頁所屬網(wǎng)站的標準更新率,確定的所述列表頁當前的頁面更新率,及當前的信息采集時間間隔,確定針對所述列表頁當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔,并在等待該確定的時間間隔后,進行數(shù)據(jù)信息采集。
2.如權(quán)利要求1所述的方法,其特征在于,所述確定列表頁中未進行數(shù)據(jù)信息采集的 URL信息包括根據(jù)抽取的每個內(nèi)容頁的URL信息,確定每個URL信息對應的標識信息; 針對確定的每個URL信息對應的標識信息,在服務器保存的已經(jīng)進行了數(shù)據(jù)信息采集的每個URL信息對應的標識信息中查找,判斷是否存在該確定的標識信息;當判斷不存在時,確定該標識信息對應的URL信息為該列表頁中未進行數(shù)據(jù)信息采集的URL信息。
3.如權(quán)利要求2所述的方法,其特征在于,所述方法進一步包括根據(jù)所述未進行數(shù)據(jù)信息采集的URL信息,在對應的網(wǎng)頁進行數(shù)據(jù)信息采集后,將所述URL信息對應的標識信息保存在所述服務器中。
4.如權(quán)利要求1所述的方法,其特征在于,確定所述網(wǎng)站的標準更新率包括根據(jù)設置的全局更新率,以及所述網(wǎng)站對應的權(quán)重值,確定所述網(wǎng)站的標準更新率。
5.如權(quán)利要求4所述的方法,其特征在于,所述方法還包括將采集線程劃分為進行列表頁隊列采集的采集線程,和進行內(nèi)容頁隊列采集的采集線程,其中列表頁隊列包含待采集的每個列表頁的URL信息,針對列表頁的采集包括抽取列表頁中每個內(nèi)容所在的內(nèi)容頁的URL信息,內(nèi)容頁隊列包含待采集的每個內(nèi)容頁的URL信息,針對內(nèi)容頁的采集包括根據(jù)每個內(nèi)容頁的URL信息,獲取對應網(wǎng)頁中的數(shù)據(jù)信息;當列表頁隊列中待采集的URL信息的數(shù)量與采集任務總數(shù)的比例,大于設定的比例閾值,并且內(nèi)容頁隊列中的線程數(shù)量不小于內(nèi)容頁隊列中所有的URL信息所屬的網(wǎng)站的數(shù)量時,增加對列表頁隊列進行采集的采集線程的數(shù)量;當列表頁隊列中排隊等待采集的URL信息的數(shù)量與采集任務總數(shù)的比例,小于設定的比例閾值,且當前內(nèi)容頁隊列中的線程數(shù)量小于內(nèi)容頁隊列中所有的URL信息所屬的網(wǎng)站的數(shù)量時,減少對列表頁隊列進行采集的采集線程的數(shù)量,其中采集任務總數(shù)為初始進行數(shù)據(jù)信息采集時加載的所有列表頁的個數(shù)。
6.如權(quán)利要求5所述的方法,其特征在于,所述方法還包括Si根據(jù)iRatiOriRatioGlohal-gi^l ,if λ < A0AnThdNumciml > nSiteNumCim,a RatioiRatioGhhal,if λ < A0KnThdNumctmt < nSiteNumComiRatioGhhd * a1<alio,if λ > A0RnThdNumaml > nSiteNumCon,調(diào)整全局更新率,其中aKati。為1和1.5之間數(shù)值,λ。為理想狀態(tài)下,列表頁隊列中待采集的URL信息的數(shù)量與采集任務總數(shù)的比例,λ為當前列表頁隊列中待采集的URL 信息的數(shù)量與采集任務總數(shù)的比例,nThdNumCont為分配給內(nèi)容頁隊列的采集線程的數(shù)量, nSiteNUm。。nt為內(nèi)容頁隊列中所有的URL信息所屬的網(wǎng)站的數(shù)量。
7.如權(quán)利要求1所述的方法,其特征在于,確定針對所述列表頁當前信息采集與下一次信息采集的時間間隔包括當列表頁的當前頁面更新率大于所述網(wǎng)站的標準更新率時,縮短當前的信息采集時間間隔,將縮短后的時間間隔確定為當前信息采集與下一次信息采集的時間間隔;當列表頁的當前頁面更新率等于所述網(wǎng)站的標準更新率時,確定當前信息采集與下一次信息采集的時間間隔為當前的信息采集時間間隔;當列表頁的當前頁面更新率小于所述網(wǎng)站的標準更新率時,延長當前的信息采集時間間隔,將延長后的時間間隔確定為當前信息采集與下一次信息采集的時間間隔。
8.—種網(wǎng)頁數(shù)據(jù)信息的定向采集的裝置,其特征在于,包括抽取模塊,用于根據(jù)采集到的列表頁對應網(wǎng)頁的內(nèi)容,抽取每個內(nèi)容所在的內(nèi)容頁的統(tǒng)一資源定位符URL信息,其中所述列表頁為用于數(shù)據(jù)信息采集的網(wǎng)頁;第一確定模塊,用于根據(jù)抽取的每個內(nèi)容頁的URL信息,及服務器中保存的已經(jīng)進行了數(shù)據(jù)信息采集的每個URL信息,確定該列表頁中未進行數(shù)據(jù)信息采集的URL信息的數(shù)量;第二確定模塊,用于根據(jù)確定的所述列表頁中未進行數(shù)據(jù)信息采集的URL信息的數(shù)量,及抽取的所述內(nèi)容頁的URL信息的數(shù)量,確定所述列表頁當前的頁面更新率;確定采集模塊,用于根據(jù)所述列表頁所屬網(wǎng)站的標準更新率,確定的所述列表頁當前的頁面更新率,及當前的信息采集時間間隔,確定針對所述列表頁當前數(shù)據(jù)信息采集與下一次數(shù)據(jù)信息采集的時間間隔,并在等待該確定的時間間隔來后,進行數(shù)據(jù)信息采集。
9.如權(quán)利要求8所述的裝置,其特征在于,所述第一確定模塊包括第一確定單元,用于根據(jù)抽取的每個內(nèi)容頁的URL信息,確定每個URL信息對應的標識 fn息;判斷單元,用于針對確定的每個URL信息對應的標識信息,在服務器保存的已經(jīng)進行了數(shù)據(jù)信息采集的每個URL信息對應的標識信息中查找,判斷是否存在該確定的標識信息;第二確定單元,用于當判斷不存在時,確定該標識信息對應的URL信息為該列表頁中未進行數(shù)據(jù)信息采集的URL信息。
10.如權(quán)利要求9所述的裝置,其特征在于,所述裝置還包括存儲模塊,用于根據(jù)所述未進行數(shù)據(jù)信息采集的URL信息,在對應的網(wǎng)頁進行數(shù)據(jù)信息采集后,將所述URL信息對應的標識信息保存在所述服務器中。
11.如權(quán)利要求8所述的裝置,其特征在于,所述確定采集模塊具體用于,根據(jù)設置的全局更新率,以及所述網(wǎng)站對應的權(quán)重值,確定所述網(wǎng)站的標準更新率。
12.如權(quán)利要求11所述的裝置,其特征在于,所述裝置還包括線程分配模塊,用于將采集線程劃分為進行列表頁隊列采集的采集線程,和進行內(nèi)容頁隊列采集的采集線程,其中列表頁隊列包含待采集的每個列表頁的URL信息,針對列表頁的采集包括抽取列表頁中每個內(nèi)容所在的內(nèi)容頁的URL信息,內(nèi)容頁隊列包含待采集的每個內(nèi)容頁的URL信息,針對內(nèi)容頁的采集包括根據(jù)每個內(nèi)容頁的URL信息,獲取對應網(wǎng)頁中的數(shù)據(jù)信息,當列表頁隊列中待采集的URL信息的數(shù)量與采集任務總數(shù)的比例,大于設定的比例閾值,并且內(nèi)容頁隊列中的線程數(shù)量不小于內(nèi)容頁隊列中所有的URL信息所屬的網(wǎng)站的數(shù)量時,增加對列表頁隊列進行采集的采集線程的數(shù)量,當列表頁隊列中排隊等待采集的URL信息的數(shù)量與采集任務總數(shù)的比例,小于設定的比例閾值,且當前內(nèi)容頁隊列中的線程數(shù)量小于內(nèi)容頁隊列中所有的URL信息所屬的網(wǎng)站的數(shù)量時,減少對列表頁隊列進行采集的采集線程的數(shù)量,其中采集任務總數(shù)為初始進行數(shù)據(jù)信息采集時加載的所有列表頁的個數(shù)。
13.如權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括調(diào)整模 塊,用于根據(jù)
14.如權(quán)利要求8所述的裝置,其特征在于,所述確定采集模塊具體用于, 當列表頁的當前頁面更新率大于所述網(wǎng)站的標準更新率時,縮短當前的信息采集時間間隔,將縮短后的時間間隔確定為當前信息采集與下一次信息采集的時間間隔,當列表頁的當前頁面更新率等于所述網(wǎng)站的標準更新率時,確定當前信息采集與下一次信息采集的時間間隔為當前的信息采集時間間隔,當列表頁的當前頁面更新率小于所述網(wǎng)站的標準更新率時,延長當前的信息采集時間間隔,將延長后的時間間隔確定為當前信息采集與下一次信息采集的時間間隔。
全文摘要
本發(fā)明公開了一種網(wǎng)頁數(shù)據(jù)信息的定向采集方法,用以解決現(xiàn)有技術(shù)中搜索引擎在進行信息采集時,造成的資源浪費及信息采集不準確的問題。該方法確定列表頁當前的頁面更新率,根據(jù)列表頁所屬網(wǎng)站的標準更新率,確定的所述列表頁當前的頁面更新率,及當前的信息采集時間間隔,確定針對所述網(wǎng)站當前信息采集與下一次信息采集的時間間隔,在等待該確定的時間間隔后,進行信息采集。本發(fā)明還提供了一種網(wǎng)頁數(shù)據(jù)信息的定向采集裝置。如本發(fā)明提出的方案,通過確定列表頁的頁面更新率,動態(tài)的確定信息采集的時間間隔,因此可以在網(wǎng)頁刷新時準確的獲取到信息,并且減少了網(wǎng)絡資源的浪費。
文檔編號G06F17/30GK102339290SQ20101023636
公開日2012年2月1日 申請日期2010年7月22日 優(yōu)先權(quán)日2010年7月22日
發(fā)明者吳新麗, 楊建武 申請人:北京北大方正電子有限公司, 北京大學, 北大方正集團有限公司