一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法,通過將原始小規(guī)模種子網(wǎng)頁按長度分類的方式,依據(jù)原始網(wǎng)頁的長度和詞頻信息生成大規(guī)模的文本數(shù)據(jù),入出度生成和URL賦值,則根據(jù)原始種子頁面中每類頁面的入出度的條件概率計算生成網(wǎng)頁的入出度值,利用已有入出度值向網(wǎng)頁中插入URL,使得在生成的數(shù)據(jù)中,入度的總和是等于出度的總和。通過提取小規(guī)模的真實數(shù)據(jù)的特征來生成大規(guī)模的相對真實可靠的數(shù)據(jù)來提供給數(shù)據(jù)中心的應用,從而使得到的研究結(jié)果有更加真實。
【專利說明】一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及頁面入出度統(tǒng)計和web頁面的數(shù)據(jù)生成,尤其涉及一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)的快速發(fā)展和數(shù)字信息的急速膨脹,數(shù)據(jù)中心存儲的數(shù)據(jù)量越來越大。數(shù)據(jù)中心的應用的主要目的是從海量數(shù)據(jù)中獲取信息,并將這些信息提供給用戶。這就體現(xiàn)出來數(shù)據(jù)中心計算的核心就是數(shù)據(jù)。而大量的應用圍繞著web頁面數(shù)據(jù),如Search、Index、bayes等,在這里數(shù)據(jù)的主要用途是用來測試一些算法的計算性能,和作為benchmark時處理數(shù)據(jù)得到的結(jié)果來分析一個系統(tǒng)的性能。同時如果想獲得大規(guī)模的真實數(shù)據(jù)需要大量的人力、物力還有時間,這樣就會浪費很多的資源。有些大公司擁有大量的真實web頁面,如google、baidu等,而大公司由于商業(yè)價值的原因不會公開大規(guī)模真實的web頁面數(shù)據(jù)。對于一些新興的公司想對基于網(wǎng)頁應用進行研發(fā)而得不到大量的真實數(shù)據(jù),這樣將使得研發(fā)結(jié)果受限。
[0003]現(xiàn)有生成web網(wǎng)頁的方法有隨機生成,如hadoop example里面的sort、wordcount等;概率模型生成,如HiBench采用的Zipf分布;和拷貝復制數(shù)據(jù)這幾種方法。而web網(wǎng)頁的基本構(gòu)成是一些文字和URL的交織體。網(wǎng)頁中的URL和文字存在著一些特有的關(guān)系:如導航、Index頁面,存有大量的URL和少量文字。而如博客這種類型的網(wǎng)頁則是相對文字較多,而URL較少。用現(xiàn)有的方法來生成這樣的web網(wǎng)頁往往會存在很多的問題,如采用完全隨機生成的網(wǎng)頁數(shù)據(jù)將會破壞數(shù)據(jù)內(nèi)容的真實性,這樣就不適用于頁面處理的應用,如搜索引擎;隨機生成和概率模型生成的數(shù)據(jù)脫離了真實數(shù)據(jù)的內(nèi)在規(guī)律性,不能體現(xiàn)正常網(wǎng)頁中出入度的關(guān)聯(lián)。而簡單的復制拷貝的網(wǎng)頁群之間不會有鏈接,會出現(xiàn)孤島。圖1為復制拷貝出現(xiàn)的孤島現(xiàn)象圖,通過原始的四個網(wǎng)頁來生成數(shù)據(jù),使用拷貝出來的大規(guī)模數(shù)據(jù),而拷貝出來的數(shù)據(jù)之間不存在鏈接,都是以四個網(wǎng)頁原有的連接為模型來生成的一塊一塊的數(shù)據(jù),這就出現(xiàn)了孤島,而且每一塊數(shù)據(jù)之間的連接都是和原始網(wǎng)頁相同的。
[0004]可見,使用隨機生成的大規(guī)模數(shù)據(jù)來進行相關(guān)的實驗研究得到的結(jié)果不是很有說服力,現(xiàn)有的方法來生成大規(guī)模的真實性數(shù)據(jù)存在孤島等問題,生成后用來做研究得到的實驗結(jié)果就會存在真實性問題。
【發(fā)明內(nèi)容】
[0005]為了解決上述技術(shù)問題,本發(fā)明的目的在于提出了一種基于小規(guī)模真實數(shù)據(jù)生成大規(guī)模數(shù)據(jù)的方法及系統(tǒng),解決在對數(shù)據(jù)中心應用進行研究時,所使用的數(shù)據(jù)的真實性問題。
[0006]具體地說,本發(fā)明公開了一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法,通過將原始小規(guī)模種子網(wǎng)頁按長度分類的方式,依據(jù)原始網(wǎng)頁的長度和詞頻信息生成大規(guī)模的文本數(shù)據(jù),入出度生成和URL賦值,則根據(jù)原始種子頁面中每類頁面的入出度的條件概率計算生成網(wǎng)頁的入出度值,利用已有入出度值向網(wǎng)頁中插入URL,使得在生成的數(shù)據(jù)中,入度的總和是等于出度的總和。
[0007]所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成方法,包括如下步驟:
[0008]步驟S1、統(tǒng)計種子頁面信息包括文本信息和URL信息;
[0009]步驟S11、統(tǒng)計文本長度給種子頁面分類:
[0010]統(tǒng)計種子網(wǎng)頁中的文本長度是將文檔按長度進行分類,計算每一類出現(xiàn)的概率P(k):P (k)=k類中網(wǎng)頁的總數(shù)量/種子網(wǎng)頁總數(shù)量。
[0011]步驟S12、統(tǒng)計種子頁面中文本中的詞頻:
[0012]統(tǒng)計種子頁面中出現(xiàn)詞的概率是統(tǒng)計每個詞在整個種子網(wǎng)頁中出現(xiàn)的概率P(w),概率P (W)=詞w出現(xiàn)的總數(shù)/種子網(wǎng)頁中所有詞的總個數(shù)。
[0013]步驟S13、統(tǒng)計種子頁面中URL的入出度條件概率:
[0014]統(tǒng)計在特定文檔長度下的入出度條件概率時,首先去除種子網(wǎng)頁中的死鏈,然后在統(tǒng)計每一個類網(wǎng)頁中的入度和出度的條件概率P (d I k )。
[0015]步驟S2、根據(jù)種子頁面信息生成web頁面。
[0016]步驟S21、根據(jù)分析得到的概率P (k)生成每個類中頁面的數(shù)量,用每一類的P (k)乘以要生成的網(wǎng)頁總數(shù),來獲得每個類別中應生成的網(wǎng)頁數(shù),按照概率模型可以獲得每一類中特定長度的網(wǎng)頁數(shù)量;
[0017]步驟S22、根據(jù)分析得到的概率P (W)生成符合網(wǎng)頁長度的內(nèi)容,通過按每個詞在種子頁面中出現(xiàn)的概率生成詞,然后注入到將生成的網(wǎng)頁中;
[0018]步驟S23、根據(jù)分析得到的概率P(d|k)向網(wǎng)頁中添加URL;在每一類中根據(jù)P(d|k)給每個網(wǎng)頁賦入出度的值,再根據(jù)這個入出度的值產(chǎn)生相應的URL,在添加URL的時候如果沒有滿足入出度條件則返回繼續(xù)添加,直到滿足條件時即可。
[0019]所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成方法,其特征在于,向網(wǎng)頁之間添加URL包括如下步驟:
[0020]當添加到某一 ID號的現(xiàn)有入出度信息和應有入出度信息相同時,就把這一 ID號的網(wǎng)頁入出度情況從這個數(shù)據(jù)結(jié)構(gòu)結(jié)果中刪除,則表示添加的入出度已完成;
[0021]尋找存在表格中沒有刪除的信息繼續(xù)添加,直到數(shù)據(jù)結(jié)構(gòu)中沒有存在的信息則表示全部的入出度添加結(jié)束。
[0022]本發(fā)明還公開了一種基于Web頁面的大規(guī)模數(shù)據(jù)生成系統(tǒng),包括:
[0023]統(tǒng)計模塊,用于統(tǒng)計種子頁面信息包括文本信息和URL信息;
[0024]頁面生成模塊,用于根據(jù)種子頁面信息生成web頁面。
[0025]所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成系統(tǒng),統(tǒng)計模塊包括:
[0026]分類計算模塊,用于統(tǒng)計文本長度給種子頁面分類,統(tǒng)計種子網(wǎng)頁中的文本長度是將文檔按長度進行分類,計算每一類出現(xiàn)的概率P (k):P (k)=k類中網(wǎng)頁的總數(shù)量/種子網(wǎng)頁總數(shù)量;
[0027]詞頻統(tǒng)計模塊,用于統(tǒng)計種子頁面中出現(xiàn)詞的概率是統(tǒng)計每個詞在整個種子網(wǎng)頁中出現(xiàn)的概率P (W),概率P (W) =詞W出現(xiàn)的總數(shù)/種子網(wǎng)頁中所有詞的總個數(shù);
[0028]入出度條件概率統(tǒng)計模塊,用于統(tǒng)計在特定文檔長度下的入出度條件概率時,首先去除種子網(wǎng)頁中的死鏈,然后在統(tǒng)計每一個類網(wǎng)頁中的入度和出度的條件概率P(d|k)。[0029]所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成系統(tǒng),頁面生成模塊包括:
[0030]網(wǎng)頁數(shù)量模塊,用于根據(jù)分析得到的概率P (k)生成每個類中頁面的數(shù)量,用每一類的P (k)乘以要生成的網(wǎng)頁總數(shù),來獲得每個類別中應生成的網(wǎng)頁數(shù),按照概率模型可以獲得每一類中特定長度的網(wǎng)頁數(shù)量;
[0031]注入模塊,用于根據(jù)分析得到的概率P (W)生成符合網(wǎng)頁長度的內(nèi)容,通過按每個詞在種子頁面中出現(xiàn)的概率生成詞,然后注入到將生成的網(wǎng)頁中;
[0032]添加模塊,用于根據(jù)分析得到的概率P (d|k)向網(wǎng)頁中添加URL;在每一類中根據(jù)P (d|k)給每個網(wǎng)頁賦入出度的值,再根據(jù)這個入出度的值產(chǎn)生相應的URL,在添加URL的時候如果沒有滿足入出度條件則返回繼續(xù)添加,直到滿足條件。
[0033]綜上,用現(xiàn)有的方法來生成的數(shù)據(jù)對研究基于網(wǎng)頁的應用和評價數(shù)據(jù)中心系統(tǒng)而言,得到的結(jié)果會存在問題,本發(fā)明使用真實小規(guī)模數(shù)據(jù)來生成大規(guī)模的相對真實可靠的數(shù)據(jù)來提供給數(shù)據(jù)中心的應用,從而使得到的研究結(jié)果有更加真實。通過提取小規(guī)模的真實數(shù)據(jù)的特征,進而基于獲得的特征來生成大規(guī)模的數(shù)據(jù)。
【專利附圖】
【附圖說明】
[0034]圖1為現(xiàn)有技術(shù)的復制拷貝出現(xiàn)的孤島現(xiàn)象圖;
[0035]圖2為本發(fā)明大數(shù)據(jù)網(wǎng)頁生產(chǎn);
[0036]圖3為通過種子頁面的信息生成大規(guī)模數(shù)據(jù)流程圖;
[0037]圖4來說明入出度的URL添加過程。
【具體實施方式】
[0038]本發(fā)明數(shù)據(jù)生成方法是通過將原始小規(guī)模種子網(wǎng)頁按長度分類的方式,依據(jù)原始網(wǎng)頁的長度和詞頻信息生成大規(guī)模的文本數(shù)據(jù),入出度生成和URL賦值法則是根據(jù)原始種子頁面中每類頁面的入出度的條件概率計算生成網(wǎng)頁的入出度值,利用已有入出度值向網(wǎng)頁中插入URL。
[0039]詳細步驟如下:
[0040]步驟S1、統(tǒng)計種子頁面信息
[0041]種子頁面為能夠獲得的小規(guī)模真實web頁面,基本信息為文本信息和URL信息。文本信息需要統(tǒng)計文本中每個詞的詞頻和文本的總長度,URL的信息需要統(tǒng)計入出度信息,其中入度為指向本網(wǎng)頁的URL個數(shù)X,出度信息為指向其他網(wǎng)頁的URL個數(shù)y,理想狀態(tài)下生成的大規(guī)模數(shù)據(jù),它的總?cè)攵葦?shù)應該和總出度數(shù)是相等的。
[0042]對種子頁面的統(tǒng)計過程如下:
[0043]步驟S11、統(tǒng)計文本長度給種子頁面分類P (k)
[0044]統(tǒng)計種子網(wǎng)頁中的文本長度是將文檔按長度進行分類,計算每一類出現(xiàn)的概率P(k)。這里對網(wǎng)頁的長度分類是因為有的網(wǎng)頁如導航網(wǎng)頁,它們的文字很少URL卻很多,還有就如博客這類網(wǎng)頁,它們的URL很少但文字很多,所以通過對文本的長度來進行分類,來模擬這種真實生活中的現(xiàn)象。而這里的概率P (k)計算方法如下:
[0045]P (k)=k類中網(wǎng)頁的總數(shù)量/種子網(wǎng)頁總數(shù)量。
[0046]比如:網(wǎng)頁的文本長度是在100到100000個詞間,根據(jù)這些網(wǎng)頁后開始統(tǒng)計它們的基本信息。
[0047]按照網(wǎng)頁的文本長度來進行分類,把所有的種子網(wǎng)頁分為10類:
[0048]100-10000 詞為類別 I ;
[0049]10001-20000 詞為類別 2 ;
[0050]......[0051]90001-100000 為類別 10。
[0052]再計算每個類別在所有的種子頁面中出現(xiàn)的概率P (k)
[0053]步驟S12、統(tǒng)計種子頁面中文本中的詞頻P (W)
[0054]統(tǒng)計種子頁面中出現(xiàn)詞的概率是統(tǒng)計每個詞在整個種子網(wǎng)頁中出現(xiàn)的概率P(w),概率P (W)=詞w出現(xiàn)的總數(shù)/種子網(wǎng)頁中所有詞的總個數(shù)。
[0055]步驟S13、統(tǒng)計種子頁面中URL的入出度條件概率P (d|k)
[0056]統(tǒng)計在特定文檔長度下的入度和出度條件概率時,首先去除種子網(wǎng)頁中的死鏈也就是鏈接出去的URL不在指向種子頁面。然后在統(tǒng)計每一個類網(wǎng)頁中的入度和出度的條件概率P (d I k),這里的概率P (d |k)中d為一個2元組的入出度統(tǒng)計信息,其中入度rd=x、出度cd=y則d= (x,y),k代表的是這一類網(wǎng)頁,則概率P (d|k)=k類網(wǎng)頁中入出度情況為d的頁數(shù)/k類網(wǎng)頁的總頁數(shù),這就表示為入出度為d的網(wǎng)頁在k類網(wǎng)頁中所出現(xiàn)的概率。
[0057]例如P ((2,I) |k) =0.2這個表示的就是k類中入度為2,出度為I的網(wǎng)頁占k類網(wǎng)頁總量的20%。
[0058]對種子頁面的基本信息已經(jīng)統(tǒng)計結(jié)束,收集統(tǒng)計得到的相應數(shù)據(jù),包括每一類文檔出現(xiàn)的概率、每個詞出現(xiàn)的概率和對應每一類網(wǎng)頁中入出度的概率,通過這些基本信息生成大規(guī)模網(wǎng)頁數(shù)據(jù)。
[0059]步驟2:根據(jù)種子頁面生成web頁面。
[0060]根據(jù)對種子頁面分析所得到的相關(guān)信息來生成大規(guī)模的數(shù)據(jù),根據(jù)種子頁面的數(shù)據(jù)分析首先生成與詞頻和文檔長度相對應的文本,然后再根據(jù)種子頁面數(shù)據(jù)的出入度概率向生成的網(wǎng)頁中添加URL。圖3為通過種子頁面的信息生成大規(guī)模數(shù)據(jù)流程圖。
[0061]完成生成的大規(guī)模頁面包括:
[0062]步驟S21、根據(jù)分析得到的概率P (k)生成每個類中頁面的數(shù)量。用每一類的P(k)乘以要生成的網(wǎng)頁總數(shù),來獲得每個類別中應生成的網(wǎng)頁數(shù)。按照概率模型可以獲得每一類中特定長度的網(wǎng)頁數(shù)量。
[0063]將要生成的網(wǎng)頁數(shù)量乘以種子網(wǎng)頁中的概率P(k),計算出每類網(wǎng)頁的個數(shù)。在每類中按照正態(tài)分布計算出每個文檔的長度,這里均值采用的是每類中文檔長度的均值,方差采用標準正態(tài)分布的方差。
[0064]步驟S22、根據(jù)分析得到的概率P (W)生成符合網(wǎng)頁長度的內(nèi)容。通過按每個詞在種子頁面中出現(xiàn)的概率生成詞,然后注入到將生成的網(wǎng)頁中。
[0065]向生成的網(wǎng)頁中出入詞語。按照詞頻P (W)生成特定長度的文檔,在每個文檔中生成指定個數(shù)的詞,這些詞的頻率滿足原始頁面中每個詞出現(xiàn)的概率
[0066]步驟S23、根據(jù)分析得到的概率P (d|k)向網(wǎng)頁中添加URL。在每一類中根據(jù)P(d|k)給每個網(wǎng)頁賦入度和出度的值,再根據(jù)這個入出度的值產(chǎn)生相應的URL。在添加URL的時候如果沒有滿足入出度條件則返回繼續(xù)添加,直到滿足條件時即可。[0067]按照P (d|k)向已生成的網(wǎng)頁中注入URL。這里給每個類別中的網(wǎng)頁添加入出度,入出度滿足類中的入出度的概率P (d|k)。然后開始在任意一個網(wǎng)頁中添加URL,然后追蹤沒有滿足入出度條件的網(wǎng)頁,繼續(xù)生成即可。
[0068]在向頁面中注入ULR時,采用下表數(shù)據(jù)結(jié)構(gòu)來保存網(wǎng)頁的狀態(tài):
[0069]
【權(quán)利要求】
1.一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法,其特征在于,通過將原始小規(guī)模種子網(wǎng)頁按長度分類的方式,依據(jù)原始網(wǎng)頁的長度和詞頻信息生成大規(guī)模的文本數(shù)據(jù),入出度生成和URL賦值生成web頁面,則根據(jù)原始種子頁面中每類頁面的入出度的條件概率計算生成網(wǎng)頁的入出度值,利用已有入出度值向網(wǎng)頁中插入URL,使得在生成的數(shù)據(jù)中,入度的總和是等于出度的總和。
2.如權(quán)利要求1所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成方法,其特征在于,包括如下步驟: 步驟S1、統(tǒng)計種子頁面信息包括文本信息和URL信息; 步驟S2、根據(jù)種子頁面信息生成web頁面。
3.如權(quán)利要求2所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成方法,其特征在于,步驟SI具體包括: 步驟S11、統(tǒng)計文本長度給種子頁面分類: 統(tǒng)計種子網(wǎng)頁中的文本長度是將文檔按長度進行分類,計算每一類出現(xiàn)的概率P (k):P (k)=k類中網(wǎng)頁的總數(shù)量/種子網(wǎng)頁總數(shù)量。 步驟S12、統(tǒng)計種子頁面中文本中的詞頻: 統(tǒng)計種子頁面中出現(xiàn)詞的概率是統(tǒng)計每個詞在整個種子網(wǎng)頁中出現(xiàn)的概率P(w),概率P (W)=詞w出現(xiàn)的總數(shù)/種子網(wǎng)頁中所有詞的總個數(shù)。 步驟S13、統(tǒng)計種子頁面中URL的入出度條件概率: 統(tǒng)計在特定文檔長度下的入出度條件概率時,首先去除種子網(wǎng)頁中的死鏈,然后在統(tǒng)計每一個類網(wǎng)頁中的入度和出度的條件概率P (d|k)。
4.如權(quán)利要求3所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成方法,其特征在于,步驟S2具體包括: 步驟S21、根據(jù)分析得到的概率P (k)生成每個類中頁面的數(shù)量,用每一類的P (k)乘以要生成的網(wǎng)頁總數(shù),來獲得每個類別中應生成的網(wǎng)頁數(shù),按照概率模型可以獲得每一類中特定長度的網(wǎng)頁數(shù)量; 步驟S22、根據(jù)分析得到的概率P (w)生成符合網(wǎng)頁長度的內(nèi)容,通過按每個詞在種子頁面中出現(xiàn)的概率生成詞,然后注入到將生成的網(wǎng)頁中; 步驟S23、根據(jù)分析得到的概率P (d|k)向網(wǎng)頁中添加URL;在每一類中根據(jù)P (d|k)給每個網(wǎng)頁賦入出度的值,再根據(jù)這個入出度的值產(chǎn)生相應的URL,在添加URL的時候如果沒有滿足入出度條件則返回繼續(xù)添加,直到滿足條件時即可。
5.如權(quán)利要求4所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成方法,其特征在于,向網(wǎng)頁之間添加URL包括如下步驟: 當添加到某一 ID號的現(xiàn)有入出度信息和應有入出度信息相同時,就把這一 ID號的網(wǎng)頁入出度情況從這個數(shù)據(jù)結(jié)構(gòu)結(jié)果中刪除,則表示添加的入出度已完成; 尋找存在表格中沒有刪除的信息繼續(xù)添加,直到數(shù)據(jù)結(jié)構(gòu)中沒有存在的信息則表示全部的入出度添加結(jié)束。
6.一種基于Web頁面的大規(guī)模數(shù)據(jù)生成系統(tǒng),其特征在于,包括: 統(tǒng)計模塊,用于統(tǒng)計種子頁面信息包括文本信息和URL信息; 頁面生成模塊,用于根據(jù)種子頁面信息生成web頁面,其中根據(jù)原始種子頁面中每類頁面的入出度的條件概率計算生成網(wǎng)頁的入出度值,利用已有入出度值向網(wǎng)頁中插入URL,使得在生成的數(shù)據(jù)中,入度的總和是等于出度的總和。
7.如權(quán)利要求6所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成系統(tǒng),其特征在于,統(tǒng)計模塊包括: 分類計算模塊,用于統(tǒng)計文本長度給種子頁面分類,統(tǒng)計種子網(wǎng)頁中的文本長度是將文檔按長度進行分類,計算每一類出現(xiàn)的概率P (k):P (k)=k類中網(wǎng)頁的總數(shù)量/種子網(wǎng)頁總數(shù)量; 詞頻統(tǒng)計模塊,用于統(tǒng)計種子頁面中出現(xiàn)詞的概率是統(tǒng)計每個詞在整個種子網(wǎng)頁中出現(xiàn)的概率P (W),概率P (W) =詞w出現(xiàn)的總數(shù)/種子網(wǎng)頁中所有詞的總個數(shù); 入出度條件概率統(tǒng)計模塊,用于統(tǒng)計在特定文檔長度下的入出度條件概率時,首先去除種子網(wǎng)頁中的死鏈,然后在統(tǒng)計每一個類網(wǎng)頁中的入度和出度的條件概率P (d|k)。
8.如權(quán)利要求6所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成系統(tǒng),其特征在于,頁面生成模塊包括: 網(wǎng)頁數(shù)量模塊,用于根據(jù)分析得到的概率P (k)生成每個類中頁面的數(shù)量,用每一類的P (k)乘以要生成的網(wǎng)頁總數(shù),來獲得每個類別中應生成的網(wǎng)頁數(shù),按照概率模型可以獲得每一類中特定長度的網(wǎng)頁數(shù)量; 注入模塊,用于根據(jù)分析得到的概率P (w)生成符合網(wǎng)頁長度的內(nèi)容,通過按每個詞在種子頁面中出現(xiàn)的概率生成詞,然后注入到將生成的網(wǎng)頁中; 添加模塊,用于根據(jù)分析得到的概率P (d|k)向網(wǎng)頁中添加URL;在每一類中根據(jù)P(d|k)給每個網(wǎng)頁賦入出度的值,再根據(jù)這個入出度的值產(chǎn)生相應的URL,在添加URL的時候如果沒有滿足入出度條件則返回繼續(xù)添加,直到滿足條件。
【文檔編號】G06F17/30GK103678495SQ201310576331
【公開日】2014年3月26日 申請日期:2013年11月18日 優(yōu)先權(quán)日:2013年11月18日
【發(fā)明者】賈禛, 呂杰, 王磊, 權(quán)靜, 詹劍鋒, 張立新 申請人:中國科學院計算技術(shù)研究所