欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的方法和裝置制造方法

文檔序號:6516974閱讀:158來源:國知局
一種用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的裝置和方法,該方法包括:抓取多個(gè)網(wǎng)絡(luò)資源點(diǎn)的數(shù)據(jù)信息;對每個(gè)網(wǎng)絡(luò)資源點(diǎn),篩選該網(wǎng)絡(luò)資源點(diǎn)的有效信息以及根據(jù)所述有效信息獲取在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù);根據(jù)所述有效交互數(shù)據(jù)計(jì)算所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性;根據(jù)所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率。使用本發(fā)明的裝置和方法,通過根據(jù)網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率,解決了現(xiàn)有的確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的技術(shù)時(shí)效性不足、準(zhǔn)確性較差的缺點(diǎn)。
【專利說明】一種用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及搜索領(lǐng)域,具體涉及一種用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的裝置和方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)成為人們獲取信息、交流信息的重要渠道,網(wǎng)絡(luò)搜索成為人們獲取信息的重要手段。網(wǎng)絡(luò)搜索需要確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率,現(xiàn)有技術(shù)(例如,爬蟲蜘蛛)確定網(wǎng)絡(luò)資源點(diǎn)抓取頻率的方法,更多地依賴于對網(wǎng)絡(luò)資源點(diǎn)的鏈接的分析,很少涉及對網(wǎng)絡(luò)資源點(diǎn)活躍度的分析和使用,所確定的抓取頻率的精確性和時(shí)效性不強(qiáng)。

【發(fā)明內(nèi)容】

[0003]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的裝置和相應(yīng)的一種用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的方法。
[0004]依據(jù)本發(fā)明的一個(gè)方面,提供了一種用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的裝置,該裝置包括:信息抓取單元,適于抓取多個(gè)網(wǎng)絡(luò)資源點(diǎn)的數(shù)據(jù)信息;操作數(shù)獲取單元,適于對每個(gè)網(wǎng)絡(luò)資源點(diǎn),篩選該網(wǎng)絡(luò)資源點(diǎn)的有效信息以及根據(jù)所述有效信息獲取在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù);等級屬性獲取單元,適于根據(jù)所述有效交互數(shù)據(jù)計(jì)算所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性;抓取頻率確定單元,適于根據(jù)所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率。
[0005]可選地,所述抓取頻率確定單元,適于以所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性作為所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率;或,使用蜘蛛爬蟲獲取所述網(wǎng)絡(luò)資源點(diǎn)的初始抓取頻率,使用所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性調(diào)整所述初始抓取頻率而確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率。
[0006]可選地,所述操作數(shù)獲取單元,適于獲取在該第一時(shí)間段內(nèi)的該網(wǎng)絡(luò)資源點(diǎn)的新增的有效信息的數(shù)目、在該第一時(shí)間段內(nèi)所述有效信息被訪問的次數(shù)以及在該第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對所述有效信息給出反饋的次數(shù)中的至少一個(gè)。
[0007]可選地,所述操作數(shù)獲取單元,適于對該網(wǎng)絡(luò)資源點(diǎn)的每條信息,判斷該條信息是否為有效信息,若判斷為否,則刪除該條信息,若判斷為是,則進(jìn)一步抽取在該第一時(shí)間段內(nèi)該信息被訪問的次數(shù),和/或,在該第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對該信息給出反饋的次數(shù);和/或,在對該網(wǎng)絡(luò)資源點(diǎn)的全部信息進(jìn)行其是否為有效信息的判斷后,獲取在該第一時(shí)間段內(nèi)新增的有效信息的數(shù)目。
[0008]可選地,所述操作數(shù)獲取單元,適于對每條信息抽取該信息的正文,使用質(zhì)量評價(jià)模型評估所述正文的質(zhì)量,判斷所述正文的質(zhì)量是否合格,若判斷為是,則該信息是有效信息,若判斷為否,則該信息不是有效信息??蛇x地,所述信息抓取單元,進(jìn)一步適于獲取所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)所屬的類別并根據(jù)類別將所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)分組;所述等級屬性獲取單元,適于計(jì)算屬于同一分組的所述網(wǎng)絡(luò)資源點(diǎn)的有效交互數(shù)據(jù)的平均值作為該分組的平均有效交互數(shù)據(jù);以及根據(jù)各個(gè)網(wǎng)絡(luò)資源點(diǎn)的有效交互數(shù)據(jù)和其所屬分組的平均有效交互數(shù)據(jù),計(jì)算該網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性。
[0009]根據(jù)本發(fā)明的另一方面,提供了一種用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的方法,該方法包括:抓取多個(gè)網(wǎng)絡(luò)資源點(diǎn)的數(shù)據(jù)信息;對每個(gè)網(wǎng)絡(luò)資源點(diǎn),篩選該網(wǎng)絡(luò)資源點(diǎn)的有效信息以及根據(jù)所述有效信息獲取在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù);根據(jù)所述有效交互數(shù)據(jù)計(jì)算所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性;根據(jù)所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率。
[0010]可選地,所述根據(jù)所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率,包括:以所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性作為所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率;或,使用蜘蛛爬蟲獲取所述網(wǎng)絡(luò)資源點(diǎn)的初始抓取頻率,使用所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性調(diào)整所述初始抓取頻率而確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率。
[0011]可選地,所述網(wǎng)絡(luò)資源點(diǎn)在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù)包括在該第一時(shí)間段內(nèi)的該網(wǎng)絡(luò)資源點(diǎn)的新增的有效信息的數(shù)目、在該第一時(shí)間段內(nèi)所述有效信息被訪問的次數(shù)以及在該第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對所述有效信息給出反饋的次數(shù)中的至少一個(gè)。
[0012]可選地,所述篩選該網(wǎng)絡(luò)資源點(diǎn)的有效信息以及根據(jù)所述有效信息獲取在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù),具體包括:對該網(wǎng)絡(luò)資源點(diǎn)的每條信息,判斷該條信息是否為有效信息,若判斷為否,則刪除該條信息,若判斷為是,則進(jìn)一步抽取在該第一時(shí)間段內(nèi)該信息被訪問的次數(shù),和/或,在該第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對該信息給出反饋的次數(shù);和/或,在對該網(wǎng)絡(luò)資源點(diǎn)的全部信息進(jìn)行其是否為有效信息的判斷后,獲取在該第一時(shí)間段內(nèi)新增的有效信息的數(shù)目。
[0013]可選地,所述判斷該信息是否為有效信息具體包括:抽取所述信息的正文,使用質(zhì)量評價(jià)模型評估所述正文的質(zhì)量,判斷所述正文的質(zhì)量是否合格,若判斷為是,則該信息是有效信息,若判斷為否,則該信息不是有效信息。
[0014]可選地,該方法進(jìn)一步包括:獲取所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)所屬的類別并根據(jù)類別將所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)分組;
[0015]所述根據(jù)所述有效交互數(shù)據(jù)計(jì)算所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性具體包括:計(jì)算屬于同一分組的所述網(wǎng)絡(luò)資源點(diǎn)的有效交互數(shù)據(jù)的平均值作為該分組的平均有效交互數(shù)據(jù);以及根據(jù)各個(gè)網(wǎng)絡(luò)資源點(diǎn)的有效交互數(shù)據(jù)和其所屬分組的平均有效交互數(shù)據(jù),計(jì)算該網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性。
[0016]可選地,所述每個(gè)網(wǎng)絡(luò)資源點(diǎn)為一個(gè)網(wǎng)絡(luò)論壇或網(wǎng)絡(luò)論壇的一個(gè)論壇版塊。
[0017]根據(jù)本發(fā)明的用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的裝置和方法可以對多個(gè)網(wǎng)絡(luò)資源點(diǎn)篩選一段預(yù)定的時(shí)間段內(nèi)的有效信息和獲取有效交互數(shù)據(jù),從而使用通過對實(shí)際的網(wǎng)絡(luò)操作進(jìn)行分析而獲取的有效交互數(shù)據(jù)計(jì)算活躍度等級屬性,根據(jù)網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率,由此解決了現(xiàn)有技術(shù)時(shí)效性不足、準(zhǔn)確性較差的缺點(diǎn),提高了確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的準(zhǔn)確性和時(shí)效性。
[0018]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】

【附圖說明】
[0019]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0020]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的方法的流程圖;
[0021]圖2示出了圖1之中的步驟S200的詳細(xì)的流程圖;
[0022]圖3示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的方法的流程圖;
[0023]圖4示出了圖3之中步驟S300’的詳細(xì)的流程圖;
[0024]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的裝置的框圖。圖
【具體實(shí)施方式】
[0025]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0026]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的方法的流程圖。該方法包括如下步驟S100、步驟S200、步驟S300和步驟S400:
[0027]S100、抓取多個(gè)網(wǎng)絡(luò)資源點(diǎn)的數(shù)據(jù)信息。
[0028]本實(shí)施例中,可以使用搜索引擎抓取多個(gè)網(wǎng)絡(luò)資源點(diǎn)的數(shù)據(jù)信息。
[0029]較佳地,所述每個(gè)網(wǎng)絡(luò)資源點(diǎn)為一個(gè)網(wǎng)絡(luò)論壇或網(wǎng)絡(luò)論壇的一個(gè)論壇版塊。本實(shí)施例尤其適用于對網(wǎng)絡(luò)論壇的分析,首先通過專業(yè)的論壇搜索引擎把論壇版塊的信息全部抓取下來。較佳地,可以使用奇虎的論壇搜索,借助PeopleRank搜索技術(shù),能夠有效地識別和抓取論壇里的內(nèi)容。
[0030]S200、對每個(gè)網(wǎng)絡(luò)資源點(diǎn),篩選該網(wǎng)絡(luò)資源點(diǎn)的有效信息以及根據(jù)所述有效信息獲取在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù)。本發(fā)明的交互數(shù)據(jù),為表征網(wǎng)絡(luò)資源點(diǎn)活躍程度的指標(biāo);有效交互數(shù)據(jù),為經(jīng)過篩選后(去除低質(zhì)量內(nèi)容后)的表征網(wǎng)絡(luò)資源點(diǎn)活躍程度的指標(biāo)的有效值。
[0031]所述網(wǎng)絡(luò)資源點(diǎn)在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù)包括在該第一時(shí)間段內(nèi)的該網(wǎng)絡(luò)資源點(diǎn)的新增的有效信息的數(shù)目、在該第一時(shí)間段內(nèi)所述有效信息被訪問的次數(shù)以及在該第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對所述有效信息給出反饋的次數(shù)中的至少一個(gè)。本發(fā)明通過篩選有效信息和有效交互數(shù)據(jù),提高計(jì)算活躍度等級屬性的準(zhǔn)確性。
[0032]本實(shí)施例的步驟S200,可以應(yīng)用于對網(wǎng)絡(luò)論壇或網(wǎng)絡(luò)論壇的論壇版塊的分析,實(shí)時(shí)地使用樓層識別技術(shù)抓取論壇版塊的帖子并抽取正文,篩選出質(zhì)量合格的正文,得到質(zhì)量合格的正文的數(shù)目即合格的帖子數(shù)(即獲取新增的有效信息的數(shù)目),抓取一段時(shí)間內(nèi)的點(diǎn)擊質(zhì)量合格的正文的點(diǎn)擊數(shù)(即獲取有效信息被訪問的次數(shù))、一段時(shí)間內(nèi)的網(wǎng)絡(luò)使用者針對合格的正文給出回復(fù)的回復(fù)數(shù)(即獲取網(wǎng)絡(luò)使用者針對所述有效信息給出反饋的次數(shù))。本實(shí)施例的有效交互數(shù)據(jù)包括在該第一時(shí)間段內(nèi)的該網(wǎng)絡(luò)資源點(diǎn)的新增的有效信息的數(shù)目、在該第一時(shí)間段內(nèi)所述有效信息被訪問的次數(shù)以及在該第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對所述有效信息給出反饋的次數(shù)中的至少一個(gè)。
[0033]通過定期對點(diǎn)擊和回復(fù)數(shù)做更新,能夠得到最真實(shí)的信息。對于用機(jī)器灌水制造虛假繁榮的論壇,會有效排除低質(zhì)量的內(nèi)容;對于那些夸大帖子的點(diǎn)擊回復(fù)數(shù)量的論壇,可以準(zhǔn)確地得到實(shí)際的有效交互數(shù)據(jù)。
[0034]更具體地,本實(shí)施例,可以通過使用奇虎論壇搜索的垃圾樣本自學(xué)習(xí)系統(tǒng),對垃圾樣本進(jìn)行有效分析并建立質(zhì)量評價(jià)模型(過濾模型),從而使用質(zhì)量評價(jià)模型判斷由帖子抽取得到的正文的質(zhì)量,對每一條論壇的帖子進(jìn)行打分,質(zhì)量低的內(nèi)容分值會很低,從而會被過濾,這就有效地去除了論壇版塊中的廣告推廣、無聊灌水等垃圾信息。
[0035]S300、根據(jù)所述有效交互數(shù)據(jù)計(jì)算所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性。例如,將每個(gè)網(wǎng)絡(luò)資源點(diǎn)的有效交互數(shù)據(jù)與全部網(wǎng)絡(luò)資源點(diǎn)的有效交互數(shù)據(jù)的平均值的比例作為該網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性。
[0036]在所述每個(gè)網(wǎng)絡(luò)資源點(diǎn)為一個(gè)網(wǎng)絡(luò)論壇或網(wǎng)絡(luò)論壇的一個(gè)論壇版塊時(shí),綜合一段時(shí)間內(nèi)的發(fā)帖數(shù)(即新增的有效信息的數(shù)目)、平均點(diǎn)擊數(shù)(即有效信息被訪問的次數(shù))和平均回復(fù)數(shù)(即網(wǎng)絡(luò)使用者針對所述有效信息給出反饋的次數(shù))的數(shù)據(jù),得到版塊和論壇的活躍度等級屬性。
[0037]S400、根據(jù)所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率。
[0038]具體的方法,可以是以所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性作為所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率,即活躍度等級屬性越大(即越活躍)的網(wǎng)絡(luò)資源點(diǎn)的抓取頻率越高(例如,蜘蛛爬蟲爬取該網(wǎng)絡(luò)資源點(diǎn)的頻率高);也可以是使用蜘蛛爬蟲獲取所述網(wǎng)絡(luò)資源點(diǎn)的初始抓取頻率,使用所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性調(diào)整所述初始抓取頻率而確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率,例如,可以使用蜘蛛爬蟲獲取所述網(wǎng)絡(luò)資源點(diǎn)的初始抓取頻率,使用所述活躍度等級屬性對上述初始抓取頻率進(jìn)行加權(quán)(包括相乘等操作)而確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率,使得活躍的網(wǎng)絡(luò)資源點(diǎn)的抓取頻率得到提高,從而可以優(yōu)化搜索質(zhì)量。
[0039]圖2示出了圖1之中的步驟S200的詳細(xì)的流程圖。步驟S200,具體包括步驟S210至步驟S290:
[0040]S210:判斷多個(gè)網(wǎng)絡(luò)資源點(diǎn)是否已全部經(jīng)過篩選,若判斷為是,則執(zhí)行圖1中的步驟S230,若判斷為否,則執(zhí)行步驟S220 ;
[0041]S220:取一個(gè)未經(jīng)篩選的網(wǎng)絡(luò)資源點(diǎn);通過步驟S210和步驟S220,在確保步驟SlOO之中獲取的多個(gè)網(wǎng)絡(luò)資源點(diǎn)已經(jīng)全部經(jīng)過篩選之后執(zhí)行步驟S300 ;
[0042]S230:判斷網(wǎng)絡(luò)資源點(diǎn)的信息是否已全部經(jīng)過篩選,若判斷為是,則執(zhí)行步驟S290,若判斷為否,則執(zhí)行步驟S240 ;
[0043]S240:取一個(gè)未經(jīng)篩選的信息,執(zhí)行步驟S250 ;
[0044]S250:抽取信息的正文,使用質(zhì)量評價(jià)模型評價(jià)正文的質(zhì)量,執(zhí)行步驟S260 ;
[0045]S260:判斷正文的質(zhì)量是否合格,若判斷為是,則執(zhí)行步驟S280,若判斷為否,則執(zhí)行步驟S270 ;[0046]S270:刪除該條信息,并返回步驟S230 ;
[0047]通過步驟S240至步驟S270,篩選得到有效信息,即抽取所述信息的正文,使用質(zhì)量評價(jià)模型評估所述正文的質(zhì)量,判斷所述正文的質(zhì)量是否合格,若判斷為是,則該信息是有效信息,若判斷為否,則該信息不是有效信息;
[0048]S280:抽取在第一時(shí)間段內(nèi)該信息被訪問的次數(shù),和/或,在第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對該信息給出反饋的次數(shù),并返回步驟S230;通過步驟S280,得到有效信息被訪問的次數(shù),和/或,網(wǎng)絡(luò)使用者針對有效信息給出反饋的次數(shù);
[0049]S290:獲取在第一時(shí)間段內(nèi)新增的有效信息的數(shù)目;通過步驟S230和步驟S290,在對該網(wǎng)絡(luò)資源點(diǎn)的全部信息進(jìn)行其是否為有效信息的判斷后,獲取在該第一時(shí)間段內(nèi)新增的有效信息的數(shù)目。
[0050]圖3示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的方法的流程圖。包括步驟S100’至S400’:
[0051]S100’:抓取多個(gè)網(wǎng)絡(luò)資源點(diǎn)的數(shù)據(jù)信息,對所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)進(jìn)行分組。
[0052]具體地,是獲取所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)所屬的類別并根據(jù)類別將所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)分組。
[0053]更具體地,可以使用QVM人工智能引擎(Qihoo Support Vector Machine)基于大量的數(shù)據(jù)分析,提取共性的客觀因素來進(jìn)行反向驗(yàn)證并建模,獲取所述網(wǎng)絡(luò)資源點(diǎn)所屬的類別并根據(jù)類別將所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)分組。這樣可以在對大量的數(shù)據(jù)進(jìn)行分析的基礎(chǔ)上,獲取更客觀準(zhǔn)確的分類模型,從而克服現(xiàn)有的人工分類主觀性過高的缺陷,提高對網(wǎng)絡(luò)資源點(diǎn)進(jìn)行分組的準(zhǔn)確性、客觀性和速度。
[0054]較佳地,在所述每個(gè)網(wǎng)絡(luò)資源點(diǎn)為一個(gè)網(wǎng)絡(luò)論壇或網(wǎng)絡(luò)論壇的一個(gè)論壇版塊時(shí),實(shí)際工程中,需要對論壇和版塊做自動(dòng)分類。本實(shí)施例由QVM人工智能引擎按照被考察對象的內(nèi)部或外部特征,根據(jù)一定的要求(如類別的數(shù)量限制,同類對象的親近程度等等),將相近、相似或相同特征的對象聚合在一起而對版塊進(jìn)行自動(dòng)分類,比如分成汽車類版塊、娛樂類版塊、數(shù)碼類版塊等等。
[0055]當(dāng)然,本領(lǐng)域技術(shù)人員可以了解的是,對所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)進(jìn)行分組的操作,不僅僅可以在步驟S100’完成,也可以在步驟S200’完成。不以圖3所示為限。
[0056]S200’:對每個(gè)網(wǎng)絡(luò)資源點(diǎn),篩選該網(wǎng)絡(luò)資源點(diǎn)的有效信息以及根據(jù)所述有效信息獲取在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù)。
[0057]S300’:根據(jù)所述有效交互數(shù)據(jù)計(jì)算所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性。
[0058]S400’:根據(jù)所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率。
[0059]圖4示出了圖3之中步驟S300’的詳細(xì)的流程圖。其中,步驟S300’具體包括步驟S310,和步驟S320’。
[0060]步驟S310’:計(jì)算屬于同一分組的網(wǎng)絡(luò)資源點(diǎn)的有效交互數(shù)據(jù)的平均值作為該分組的平均有效交互數(shù)據(jù);
[0061]S320’:根據(jù)各個(gè)網(wǎng)絡(luò)資源點(diǎn)的有效交互數(shù)據(jù)和其所屬分組的平均有效交互數(shù)據(jù),計(jì)算該網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性。
[0062]這樣可以根據(jù)分組計(jì)算網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性。
[0063]其中,計(jì)算公式為:活躍度等級屬性=有效交互數(shù)據(jù)+所屬分組的平均有效交互數(shù)據(jù)。
[0064]在所述每個(gè)網(wǎng)絡(luò)資源點(diǎn)為一個(gè)網(wǎng)絡(luò)論壇或網(wǎng)絡(luò)論壇的一個(gè)論壇版塊時(shí),綜合一段時(shí)間內(nèi)的發(fā)帖數(shù)(即新增的有效信息的數(shù)目)、平均點(diǎn)擊數(shù)(即有效信息被訪問的次數(shù))和平均回復(fù)數(shù)(即網(wǎng)絡(luò)使用者針對所述有效信息給出反饋的次數(shù))的數(shù)據(jù),得到版塊和論壇的活躍度等級屬性。
[0065]具體地,首先對網(wǎng)絡(luò)論壇或網(wǎng)絡(luò)論壇的論壇版塊進(jìn)行分組,計(jì)算屬于同一分組的所述網(wǎng)絡(luò)論壇或網(wǎng)絡(luò)論壇的論壇版塊的有效交互數(shù)據(jù)的平均值作為該分組的平均有效交互數(shù)據(jù)。對每一個(gè)網(wǎng)絡(luò)論壇或網(wǎng)絡(luò)論壇的論壇版塊,根據(jù)其自身的有效交互數(shù)據(jù)(版塊發(fā)帖數(shù)+版塊帖子平均點(diǎn)擊數(shù)+版塊帖子平均回復(fù)數(shù))和其所屬分組的平均有效交互數(shù)據(jù)(行業(yè)平均發(fā)帖數(shù)+行業(yè)帖子平均點(diǎn)擊數(shù)+行業(yè)帖子平均回復(fù)數(shù)),計(jì)算其活躍度等級屬性,計(jì)算公式為:活躍度等級屬性=(版塊發(fā)帖數(shù)+版塊帖子平均點(diǎn)擊數(shù)+版塊帖子平均回復(fù)數(shù))+ (行業(yè)平均發(fā)帖數(shù)+行業(yè)帖子平均點(diǎn)擊數(shù)+行業(yè)帖子平均回復(fù)數(shù))。
[0066]圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于分析多個(gè)網(wǎng)絡(luò)資源點(diǎn)的裝置的框圖。該裝置包括:信息抓取單元100、操作數(shù)獲取單元200、等級屬性獲取單元300和抓取頻率確定單元400。
[0067]信息抓取單元100,適于抓取多個(gè)網(wǎng)絡(luò)資源點(diǎn)的數(shù)據(jù)信息。
[0068]操作數(shù)獲取單元200,適于對每個(gè)網(wǎng)絡(luò)資源點(diǎn),篩選該網(wǎng)絡(luò)資源點(diǎn)的有效信息以及根據(jù)所述有效信息獲取在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù)。
[0069]較佳地,操作數(shù)獲取單元200,適于獲取在該第一時(shí)間段內(nèi)的該網(wǎng)絡(luò)資源點(diǎn)的新增的有效信息的數(shù)目、在該第一時(shí)間段內(nèi)所述有效信息被訪問的次數(shù)以及在該第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對所述有效信息給出反饋的次數(shù)中的至少一個(gè),從而得到有效交互數(shù)據(jù)。
[0070]較佳地,操作數(shù)獲取單元200,適于對該網(wǎng)絡(luò)資源點(diǎn)的每條信息,判斷該條信息是否為有效信息,若判斷為否,則刪除該條信息,若判斷為是,則進(jìn)一步抽取在該第一時(shí)間段內(nèi)該信息被訪問的次數(shù),和/或,在該第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對該信息給出反饋的次數(shù);和/或,在對該網(wǎng)絡(luò)資源點(diǎn)的全部信息進(jìn)行其是否為有效信息的判斷后,獲取在該第一時(shí)間段內(nèi)新增的有效信息的數(shù)目。
[0071]較佳地,操作數(shù)獲取單元200,適于對每條信息抽取該信息的正文,使用質(zhì)量評價(jià)模型評估所述正文的質(zhì)量,判斷所述正文的質(zhì)量是否合格,若判斷為是,則該信息是有效信息,若判斷為否,則該信息不是有效信息。從而判斷一條信息是否為有效信息。
[0072]等級屬性獲取單元300,適于根據(jù)所述有效交互數(shù)據(jù)計(jì)算所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性。
[0073]抓取頻率確定單元400,適于根據(jù)所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率。
[0074]抓取頻率確定單元400,可以以所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性作為所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率,即活躍度等級屬性越大(即越活躍)的網(wǎng)絡(luò)資源點(diǎn)的抓取頻率越高(例如,蜘蛛爬蟲爬取該網(wǎng)絡(luò)資源點(diǎn)的頻率高);也可以是使用蜘蛛爬蟲獲取所述網(wǎng)絡(luò)資源點(diǎn)的初始抓取頻率,使用所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性調(diào)整所述初始抓取頻率而確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率,例如,抓取頻率確定單元400可以使用蜘蛛爬蟲獲取所述網(wǎng)絡(luò)資源點(diǎn)的初始抓取頻率,使用所述活躍度等級屬性對上述初始抓取頻率進(jìn)行加權(quán)(包括相乘等操作)而確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率,使得活躍的網(wǎng)絡(luò)資源點(diǎn)的抓取頻率得到提高,從而可以優(yōu)化搜索質(zhì)量。
[0075]進(jìn)一步地,所述信息抓取單元100,適于獲取所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)所屬的類別并根據(jù)類別將所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)分組。則,操作數(shù)獲取單元200,適于計(jì)算屬于同一分組的所述網(wǎng)絡(luò)資源點(diǎn)的有效交互數(shù)據(jù)的平均值作為該分組的平均有效交互數(shù)據(jù);等級屬性獲取單元300,適于根據(jù)各個(gè)網(wǎng)絡(luò)資源點(diǎn)的有效交互數(shù)據(jù)和其所屬分組的平均有效交互數(shù)據(jù),計(jì)算該網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性。
[0076]需要說明的是:
[0077]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0078]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
[0079]類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0080]本領(lǐng)域那些技術(shù)人員可以理解,可以對實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中??梢园褜?shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0081]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0082]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號處理器(DSP)來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的XXX設(shè)備中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0083]應(yīng)該注意的是上述實(shí)施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
【權(quán)利要求】
1.一種用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的裝置,該裝置包括: 信息抓取單元,適于抓取多個(gè)網(wǎng)絡(luò)資源點(diǎn)的數(shù)據(jù)信息; 操作數(shù)獲取單元,適于對每個(gè)網(wǎng)絡(luò)資源點(diǎn),篩選該網(wǎng)絡(luò)資源點(diǎn)的有效信息以及根據(jù)所述有效信息獲取在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù); 等級屬性獲取單元,適于根據(jù)所述有效交互數(shù)據(jù)計(jì)算所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性; 抓取頻率確定單元,適于根據(jù)所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率。
2.根據(jù)權(quán)利要求1所述的裝置,其中, 所述抓取頻率確定單元,適于以所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性作為所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率;或,使用蜘蛛爬蟲獲取所述網(wǎng)絡(luò)資源點(diǎn)的初始抓取頻率,使用所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性調(diào)整所述初始抓取頻率而確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率。
3.如權(quán)利要求1所述的裝置,其中, 所述操作數(shù)獲取單元,適于獲取在該第一時(shí)間段內(nèi)的該網(wǎng)絡(luò)資源點(diǎn)的新增的有效信息的數(shù)目、在該第一時(shí)間段內(nèi)所述有效信息被訪問的次數(shù)以及在該第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對所述有效信息給出反饋的次數(shù)中的至少一個(gè)。
4.如權(quán)利要求1所 述的裝置,其中, 所述操作數(shù)獲取單元,適于對該網(wǎng)絡(luò)資源點(diǎn)的每條信息,判斷該條信息是否為有效信息,若判斷為否,則刪除該條信息,若判斷為是,則進(jìn)一步抽取在該第一時(shí)間段內(nèi)該信息被訪問的次數(shù),和/或,在該第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對該信息給出反饋的次數(shù);和/或,在對該網(wǎng)絡(luò)資源點(diǎn)的全部信息進(jìn)行其是否為有效信息的判斷后,獲取在該第一時(shí)間段內(nèi)新增的有效信息的數(shù)目。
5.如權(quán)利要求4所述的裝置,其中, 所述操作數(shù)獲取單元,適于對每條信息抽取該信息的正文,使用質(zhì)量評價(jià)模型評估所述正文的質(zhì)量,判斷所述正文的質(zhì)量是否合格,若判斷為是,則該信息是有效信息,若判斷為否,則該信息不是有效信息。
6.根據(jù)權(quán)利要求1所述的裝置,其中, 所述信息抓取單元,進(jìn)一步適于獲取所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)所屬的類別并根據(jù)類別將所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)分組; 所述操作數(shù)獲取單元,適于計(jì)算屬于同一分組的所述網(wǎng)絡(luò)資源點(diǎn)的有效交互數(shù)據(jù)的平均值作為該分組的平均有效交互數(shù)據(jù); 所述等級屬性獲取單元,適于根據(jù)各個(gè)網(wǎng)絡(luò)資源點(diǎn)的有效交互數(shù)據(jù)和其所屬分組的平均有效交互數(shù)據(jù),計(jì)算該網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性。
7.一種用于確定網(wǎng)絡(luò)資源點(diǎn)的抓取頻率的方法,該方法包括: 抓取多個(gè)網(wǎng)絡(luò)資源點(diǎn)的數(shù)據(jù)信息; 對每個(gè)網(wǎng)絡(luò)資源點(diǎn),篩選該網(wǎng)絡(luò)資源點(diǎn)的有效信息以及根據(jù)所述有效信息獲取在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù); 根據(jù)所述有效交互數(shù)據(jù)計(jì)算所述多個(gè)網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性; 根據(jù)所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率。
8.根據(jù)權(quán)利要求7所述的方法,其中,所述根據(jù)所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率,包括: 以所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性作為所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率; 或, 使用蜘蛛爬蟲獲取所述網(wǎng)絡(luò)資源點(diǎn)的初始抓取頻率,使用所述網(wǎng)絡(luò)資源點(diǎn)的活躍度等級屬性調(diào)整所述初始抓取頻率而確定所述網(wǎng)絡(luò)資源點(diǎn)的抓取頻率。
9.根據(jù)權(quán)利要求7所述的方法,其中, 所述網(wǎng)絡(luò)資源點(diǎn)在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù)包括在該第一時(shí)間段內(nèi)的該網(wǎng)絡(luò)資源點(diǎn)的新增的有效信息的數(shù)目、在該第一時(shí)間段內(nèi)所述有效信息被訪問的次數(shù)以及在該第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對所述有效信息給出反饋的次數(shù)中的至少一個(gè)。
10.根據(jù)權(quán)利要求7所述的方法,其中,所述篩選該網(wǎng)絡(luò)資源點(diǎn)的有效信息以及根據(jù)所述有效信息獲取在預(yù)定的一段第一時(shí)間段內(nèi)的有效交互數(shù)據(jù),具體包括: 對該網(wǎng)絡(luò)資源點(diǎn)的每條信息,判斷該條信息是否為有效信息,若判斷為否,則刪除該條信息,若判斷為是,則進(jìn)一步抽取在該第一時(shí)間段內(nèi)該信息被訪問的次數(shù),和/或,在該第一時(shí)間段內(nèi)網(wǎng)絡(luò)使用者針對該信息給出反饋的次數(shù);和/或, 在對該網(wǎng)絡(luò)資源點(diǎn)的全部信息進(jìn)行其是否為有效信息的判斷后,獲取在該第一時(shí)間段內(nèi)新增的有效信息的數(shù)目。
【文檔編號】G06F17/30GK103605670SQ201310522135
【公開日】2014年2月26日 申請日期:2013年10月29日 優(yōu)先權(quán)日:2013年10月29日
【發(fā)明者】林英杰, 劉曉麗 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
任丘市| 海兴县| 瑞昌市| 乌兰察布市| 彩票| 宁陕县| 哈尔滨市| 新营市| 孝昌县| 阿拉善左旗| 于田县| 江山市| 彰化县| 津南区| 昌宁县| 和林格尔县| 凌云县| 上蔡县| 小金县| 特克斯县| 晋城| 石城县| 府谷县| 神池县| 宿迁市| 辽宁省| 山东| 额敏县| 界首市| 连平县| 攀枝花市| 西和县| 泸定县| 铜山县| 邛崃市| 江源县| 安阳市| 顺昌县| 揭阳市| 沐川县| 武鸣县|