一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法及系統(tǒng)的制作方法

文檔序號：6519322閱讀：272來源：國知局

一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法，通過將原始小規(guī)模種子網(wǎng)頁按長度分類的方式，依據(jù)原始網(wǎng)頁的長度和詞頻信息生成大規(guī)模的文本數(shù)據(jù)，入出度生成和URL賦值，則根據(jù)原始種子頁面中每類頁面的入出度的條件概率計算生成網(wǎng)頁的入出度值，利用已有入出度值向網(wǎng)頁中插入URL，使得在生成的數(shù)據(jù)中，入度的總和是等于出度的總和。通過提取小規(guī)模的真實數(shù)據(jù)的特征來生成大規(guī)模的相對真實可靠的數(shù)據(jù)來提供給數(shù)據(jù)中心的應用，從而使得到的研究結(jié)果有更加真實。
【專利說明】一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及頁面入出度統(tǒng)計和web頁面的數(shù)據(jù)生成，尤其涉及一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)技術(shù)的快速發(fā)展和數(shù)字信息的急速膨脹，數(shù)據(jù)中心存儲的數(shù)據(jù)量越來越大。數(shù)據(jù)中心的應用的主要目的是從海量數(shù)據(jù)中獲取信息，并將這些信息提供給用戶。這就體現(xiàn)出來數(shù)據(jù)中心計算的核心就是數(shù)據(jù)。而大量的應用圍繞著web頁面數(shù)據(jù)，如Search、Index、bayes等,在這里數(shù)據(jù)的主要用途是用來測試一些算法的計算性能,和作為benchmark時處理數(shù)據(jù)得到的結(jié)果來分析一個系統(tǒng)的性能。同時如果想獲得大規(guī)模的真實數(shù)據(jù)需要大量的人力、物力還有時間，這樣就會浪費很多的資源。有些大公司擁有大量的真實web頁面,如google、baidu等,而大公司由于商業(yè)價值的原因不會公開大規(guī)模真實的web頁面數(shù)據(jù)。對于一些新興的公司想對基于網(wǎng)頁應用進行研發(fā)而得不到大量的真實數(shù)據(jù)，這樣將使得研發(fā)結(jié)果受限。
[0003]現(xiàn)有生成web網(wǎng)頁的方法有隨機生成，如hadoop example里面的sort、wordcount等；概率模型生成，如HiBench采用的Zipf分布；和拷貝復制數(shù)據(jù)這幾種方法。而web網(wǎng)頁的基本構(gòu)成是一些文字和URL的交織體。網(wǎng)頁中的URL和文字存在著一些特有的關(guān)系:如導航、Index頁面，存有大量的URL和少量文字。而如博客這種類型的網(wǎng)頁則是相對文字較多，而URL較少。用現(xiàn)有的方法來生成這樣的web網(wǎng)頁往往會存在很多的問題，如采用完全隨機生成的網(wǎng)頁數(shù)據(jù)將會破壞數(shù)據(jù)內(nèi)容的真實性，這樣就不適用于頁面處理的應用，如搜索引擎；隨機生成和概率模型生成的數(shù)據(jù)脫離了真實數(shù)據(jù)的內(nèi)在規(guī)律性，不能體現(xiàn)正常網(wǎng)頁中出入度的關(guān)聯(lián)。而簡單的復制拷貝的網(wǎng)頁群之間不會有鏈接，會出現(xiàn)孤島。圖1為復制拷貝出現(xiàn)的孤島現(xiàn)象圖，通過原始的四個網(wǎng)頁來生成數(shù)據(jù)，使用拷貝出來的大規(guī)模數(shù)據(jù)，而拷貝出來的數(shù)據(jù)之間不存在鏈接，都是以四個網(wǎng)頁原有的連接為模型來生成的一塊一塊的數(shù)據(jù)，這就出現(xiàn)了孤島，而且每一塊數(shù)據(jù)之間的連接都是和原始網(wǎng)頁相同的。
[0004]可見，使用隨機生成的大規(guī)模數(shù)據(jù)來進行相關(guān)的實驗研究得到的結(jié)果不是很有說服力，現(xiàn)有的方法來生成大規(guī)模的真實性數(shù)據(jù)存在孤島等問題，生成后用來做研究得到的實驗結(jié)果就會存在真實性問題。

【發(fā)明內(nèi)容】

[0005]為了解決上述技術(shù)問題，本發(fā)明的目的在于提出了一種基于小規(guī)模真實數(shù)據(jù)生成大規(guī)模數(shù)據(jù)的方法及系統(tǒng)，解決在對數(shù)據(jù)中心應用進行研究時，所使用的數(shù)據(jù)的真實性問題。
[0006]具體地說，本發(fā)明公開了一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法，通過將原始小規(guī)模種子網(wǎng)頁按長度分類的方式，依據(jù)原始網(wǎng)頁的長度和詞頻信息生成大規(guī)模的文本數(shù)據(jù)，入出度生成和URL賦值，則根據(jù)原始種子頁面中每類頁面的入出度的條件概率計算生成網(wǎng)頁的入出度值，利用已有入出度值向網(wǎng)頁中插入URL，使得在生成的數(shù)據(jù)中，入度的總和是等于出度的總和。
[0007]所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成方法，包括如下步驟:
[0008]步驟S1、統(tǒng)計種子頁面信息包括文本信息和URL信息；
[0009]步驟S11、統(tǒng)計文本長度給種子頁面分類:
[0010]統(tǒng)計種子網(wǎng)頁中的文本長度是將文檔按長度進行分類，計算每一類出現(xiàn)的概率P(k):P (k)=k類中網(wǎng)頁的總數(shù)量/種子網(wǎng)頁總數(shù)量。
[0011]步驟S12、統(tǒng)計種子頁面中文本中的詞頻:
[0012]統(tǒng)計種子頁面中出現(xiàn)詞的概率是統(tǒng)計每個詞在整個種子網(wǎng)頁中出現(xiàn)的概率P(w)，概率P (W)=詞w出現(xiàn)的總數(shù)/種子網(wǎng)頁中所有詞的總個數(shù)。
[0013]步驟S13、統(tǒng)計種子頁面中URL的入出度條件概率:
[0014]統(tǒng)計在特定文檔長度下的入出度條件概率時，首先去除種子網(wǎng)頁中的死鏈，然后在統(tǒng)計每一個類網(wǎng)頁中的入度和出度的條件概率P (d I k )。
[0015]步驟S2、根據(jù)種子頁面信息生成web頁面。
[0016]步驟S21、根據(jù)分析得到的概率P (k)生成每個類中頁面的數(shù)量，用每一類的P (k)乘以要生成的網(wǎng)頁總數(shù)，來獲得每個類別中應生成的網(wǎng)頁數(shù)，按照概率模型可以獲得每一類中特定長度的網(wǎng)頁數(shù)量；
[0017]步驟S22、根據(jù)分析得到的概率P (W)生成符合網(wǎng)頁長度的內(nèi)容，通過按每個詞在種子頁面中出現(xiàn)的概率生成詞，然后注入到將生成的網(wǎng)頁中；
[0018]步驟S23、根據(jù)分析得到的概率P(d|k)向網(wǎng)頁中添加URL;在每一類中根據(jù)P(d|k)給每個網(wǎng)頁賦入出度的值，再根據(jù)這個入出度的值產(chǎn)生相應的URL，在添加URL的時候如果沒有滿足入出度條件則返回繼續(xù)添加，直到滿足條件時即可。
[0019]所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成方法，其特征在于，向網(wǎng)頁之間添加URL包括如下步驟:
[0020]當添加到某一 ID號的現(xiàn)有入出度信息和應有入出度信息相同時,就把這一 ID號的網(wǎng)頁入出度情況從這個數(shù)據(jù)結(jié)構(gòu)結(jié)果中刪除，則表示添加的入出度已完成；
[0021]尋找存在表格中沒有刪除的信息繼續(xù)添加，直到數(shù)據(jù)結(jié)構(gòu)中沒有存在的信息則表示全部的入出度添加結(jié)束。
[0022]本發(fā)明還公開了一種基于Web頁面的大規(guī)模數(shù)據(jù)生成系統(tǒng)，包括:
[0023]統(tǒng)計模塊，用于統(tǒng)計種子頁面信息包括文本信息和URL信息；
[0024]頁面生成模塊，用于根據(jù)種子頁面信息生成web頁面。
[0025]所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成系統(tǒng)，統(tǒng)計模塊包括:
[0026]分類計算模塊，用于統(tǒng)計文本長度給種子頁面分類，統(tǒng)計種子網(wǎng)頁中的文本長度是將文檔按長度進行分類，計算每一類出現(xiàn)的概率P (k):P (k)=k類中網(wǎng)頁的總數(shù)量/種子網(wǎng)頁總數(shù)量；
[0027]詞頻統(tǒng)計模塊，用于統(tǒng)計種子頁面中出現(xiàn)詞的概率是統(tǒng)計每個詞在整個種子網(wǎng)頁中出現(xiàn)的概率P (W)，概率P (W) =詞W出現(xiàn)的總數(shù)/種子網(wǎng)頁中所有詞的總個數(shù)；
[0028]入出度條件概率統(tǒng)計模塊，用于統(tǒng)計在特定文檔長度下的入出度條件概率時，首先去除種子網(wǎng)頁中的死鏈，然后在統(tǒng)計每一個類網(wǎng)頁中的入度和出度的條件概率P(d|k)。[0029]所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成系統(tǒng)，頁面生成模塊包括:
[0030]網(wǎng)頁數(shù)量模塊，用于根據(jù)分析得到的概率P (k)生成每個類中頁面的數(shù)量，用每一類的P (k)乘以要生成的網(wǎng)頁總數(shù)，來獲得每個類別中應生成的網(wǎng)頁數(shù)，按照概率模型可以獲得每一類中特定長度的網(wǎng)頁數(shù)量；
[0031]注入模塊，用于根據(jù)分析得到的概率P (W)生成符合網(wǎng)頁長度的內(nèi)容，通過按每個詞在種子頁面中出現(xiàn)的概率生成詞，然后注入到將生成的網(wǎng)頁中；
[0032]添加模塊，用于根據(jù)分析得到的概率P (d|k)向網(wǎng)頁中添加URL;在每一類中根據(jù)P (d|k)給每個網(wǎng)頁賦入出度的值，再根據(jù)這個入出度的值產(chǎn)生相應的URL，在添加URL的時候如果沒有滿足入出度條件則返回繼續(xù)添加，直到滿足條件。
[0033]綜上，用現(xiàn)有的方法來生成的數(shù)據(jù)對研究基于網(wǎng)頁的應用和評價數(shù)據(jù)中心系統(tǒng)而言，得到的結(jié)果會存在問題，本發(fā)明使用真實小規(guī)模數(shù)據(jù)來生成大規(guī)模的相對真實可靠的數(shù)據(jù)來提供給數(shù)據(jù)中心的應用，從而使得到的研究結(jié)果有更加真實。通過提取小規(guī)模的真實數(shù)據(jù)的特征，進而基于獲得的特征來生成大規(guī)模的數(shù)據(jù)。
【專利附圖】

【附圖說明】
[0034]圖1為現(xiàn)有技術(shù)的復制拷貝出現(xiàn)的孤島現(xiàn)象圖；
[0035]圖2為本發(fā)明大數(shù)據(jù)網(wǎng)頁生產(chǎn)；
[0036]圖3為通過種子頁面的信息生成大規(guī)模數(shù)據(jù)流程圖；
[0037]圖4來說明入出度的URL添加過程。
【具體實施方式】
[0038]本發(fā)明數(shù)據(jù)生成方法是通過將原始小規(guī)模種子網(wǎng)頁按長度分類的方式，依據(jù)原始網(wǎng)頁的長度和詞頻信息生成大規(guī)模的文本數(shù)據(jù)，入出度生成和URL賦值法則是根據(jù)原始種子頁面中每類頁面的入出度的條件概率計算生成網(wǎng)頁的入出度值，利用已有入出度值向網(wǎng)頁中插入URL。
[0039]詳細步驟如下:
[0040]步驟S1、統(tǒng)計種子頁面信息
[0041]種子頁面為能夠獲得的小規(guī)模真實web頁面，基本信息為文本信息和URL信息。文本信息需要統(tǒng)計文本中每個詞的詞頻和文本的總長度，URL的信息需要統(tǒng)計入出度信息，其中入度為指向本網(wǎng)頁的URL個數(shù)X，出度信息為指向其他網(wǎng)頁的URL個數(shù)y，理想狀態(tài)下生成的大規(guī)模數(shù)據(jù)，它的總?cè)攵葦?shù)應該和總出度數(shù)是相等的。
[0042]對種子頁面的統(tǒng)計過程如下:
[0043]步驟S11、統(tǒng)計文本長度給種子頁面分類P (k)
[0044]統(tǒng)計種子網(wǎng)頁中的文本長度是將文檔按長度進行分類，計算每一類出現(xiàn)的概率P(k)。這里對網(wǎng)頁的長度分類是因為有的網(wǎng)頁如導航網(wǎng)頁，它們的文字很少URL卻很多，還有就如博客這類網(wǎng)頁，它們的URL很少但文字很多，所以通過對文本的長度來進行分類，來模擬這種真實生活中的現(xiàn)象。而這里的概率P (k)計算方法如下:
[0045]P (k)=k類中網(wǎng)頁的總數(shù)量/種子網(wǎng)頁總數(shù)量。
[0046]比如:網(wǎng)頁的文本長度是在100到100000個詞間，根據(jù)這些網(wǎng)頁后開始統(tǒng)計它們的基本信息。
[0047]按照網(wǎng)頁的文本長度來進行分類，把所有的種子網(wǎng)頁分為10類:
[0048]100-10000 詞為類別 I ;
[0049]10001-20000 詞為類別 2 ；
[0050]......[0051]90001-100000 為類別 10。
[0052]再計算每個類別在所有的種子頁面中出現(xiàn)的概率P (k)
[0053]步驟S12、統(tǒng)計種子頁面中文本中的詞頻P (W)
[0054]統(tǒng)計種子頁面中出現(xiàn)詞的概率是統(tǒng)計每個詞在整個種子網(wǎng)頁中出現(xiàn)的概率P(w)，概率P (W)=詞w出現(xiàn)的總數(shù)/種子網(wǎng)頁中所有詞的總個數(shù)。
[0055]步驟S13、統(tǒng)計種子頁面中URL的入出度條件概率P (d|k)
[0056]統(tǒng)計在特定文檔長度下的入度和出度條件概率時，首先去除種子網(wǎng)頁中的死鏈也就是鏈接出去的URL不在指向種子頁面。然后在統(tǒng)計每一個類網(wǎng)頁中的入度和出度的條件概率P (d I k)，這里的概率P (d |k)中d為一個2元組的入出度統(tǒng)計信息，其中入度rd=x、出度cd=y則d= (x，y)，k代表的是這一類網(wǎng)頁，則概率P (d|k)=k類網(wǎng)頁中入出度情況為d的頁數(shù)/k類網(wǎng)頁的總頁數(shù)，這就表示為入出度為d的網(wǎng)頁在k類網(wǎng)頁中所出現(xiàn)的概率。
[0057]例如P ((2，I) |k) =0.2這個表示的就是k類中入度為2，出度為I的網(wǎng)頁占k類網(wǎng)頁總量的20%。
[0058]對種子頁面的基本信息已經(jīng)統(tǒng)計結(jié)束，收集統(tǒng)計得到的相應數(shù)據(jù)，包括每一類文檔出現(xiàn)的概率、每個詞出現(xiàn)的概率和對應每一類網(wǎng)頁中入出度的概率，通過這些基本信息生成大規(guī)模網(wǎng)頁數(shù)據(jù)。
[0059]步驟2:根據(jù)種子頁面生成web頁面。
[0060]根據(jù)對種子頁面分析所得到的相關(guān)信息來生成大規(guī)模的數(shù)據(jù)，根據(jù)種子頁面的數(shù)據(jù)分析首先生成與詞頻和文檔長度相對應的文本，然后再根據(jù)種子頁面數(shù)據(jù)的出入度概率向生成的網(wǎng)頁中添加URL。圖3為通過種子頁面的信息生成大規(guī)模數(shù)據(jù)流程圖。
[0061]完成生成的大規(guī)模頁面包括:
[0062]步驟S21、根據(jù)分析得到的概率P (k)生成每個類中頁面的數(shù)量。用每一類的P(k)乘以要生成的網(wǎng)頁總數(shù)，來獲得每個類別中應生成的網(wǎng)頁數(shù)。按照概率模型可以獲得每一類中特定長度的網(wǎng)頁數(shù)量。
[0063]將要生成的網(wǎng)頁數(shù)量乘以種子網(wǎng)頁中的概率P(k)，計算出每類網(wǎng)頁的個數(shù)。在每類中按照正態(tài)分布計算出每個文檔的長度，這里均值采用的是每類中文檔長度的均值，方差采用標準正態(tài)分布的方差。
[0064]步驟S22、根據(jù)分析得到的概率P (W)生成符合網(wǎng)頁長度的內(nèi)容。通過按每個詞在種子頁面中出現(xiàn)的概率生成詞，然后注入到將生成的網(wǎng)頁中。
[0065]向生成的網(wǎng)頁中出入詞語。按照詞頻P (W)生成特定長度的文檔，在每個文檔中生成指定個數(shù)的詞，這些詞的頻率滿足原始頁面中每個詞出現(xiàn)的概率
[0066]步驟S23、根據(jù)分析得到的概率P (d|k)向網(wǎng)頁中添加URL。在每一類中根據(jù)P(d|k)給每個網(wǎng)頁賦入度和出度的值，再根據(jù)這個入出度的值產(chǎn)生相應的URL。在添加URL的時候如果沒有滿足入出度條件則返回繼續(xù)添加，直到滿足條件時即可。[0067]按照P (d|k)向已生成的網(wǎng)頁中注入URL。這里給每個類別中的網(wǎng)頁添加入出度，入出度滿足類中的入出度的概率P (d|k)。然后開始在任意一個網(wǎng)頁中添加URL，然后追蹤沒有滿足入出度條件的網(wǎng)頁，繼續(xù)生成即可。
[0068]在向頁面中注入ULR時，采用下表數(shù)據(jù)結(jié)構(gòu)來保存網(wǎng)頁的狀態(tài):
[0069]
【權(quán)利要求】
1.一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法，其特征在于，通過將原始小規(guī)模種子網(wǎng)頁按長度分類的方式，依據(jù)原始網(wǎng)頁的長度和詞頻信息生成大規(guī)模的文本數(shù)據(jù)，入出度生成和URL賦值生成web頁面，則根據(jù)原始種子頁面中每類頁面的入出度的條件概率計算生成網(wǎng)頁的入出度值，利用已有入出度值向網(wǎng)頁中插入URL，使得在生成的數(shù)據(jù)中，入度的總和是等于出度的總和。
2.如權(quán)利要求1所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成方法，其特征在于，包括如下步驟: 步驟S1、統(tǒng)計種子頁面信息包括文本信息和URL信息；步驟S2、根據(jù)種子頁面信息生成web頁面。
3.如權(quán)利要求2所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成方法，其特征在于，步驟SI具體包括: 步驟S11、統(tǒng)計文本長度給種子頁面分類: 統(tǒng)計種子網(wǎng)頁中的文本長度是將文檔按長度進行分類，計算每一類出現(xiàn)的概率P (k):P (k)=k類中網(wǎng)頁的總數(shù)量/種子網(wǎng)頁總數(shù)量。步驟S12、統(tǒng)計種子頁面中文本中的詞頻: 統(tǒng)計種子頁面中出現(xiàn)詞的概率是統(tǒng)計每個詞在整個種子網(wǎng)頁中出現(xiàn)的概率P(w)，概率P (W)=詞w出現(xiàn)的總數(shù)/種子網(wǎng)頁中所有詞的總個數(shù)。步驟S13、統(tǒng)計種子頁面中URL的入出度條件概率: 統(tǒng)計在特定文檔長度下的入出度條件概率時，首先去除種子網(wǎng)頁中的死鏈，然后在統(tǒng)計每一個類網(wǎng)頁中的入度和出度的條件概率P (d|k)。
4.如權(quán)利要求3所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成方法，其特征在于，步驟S2具體包括: 步驟S21、根據(jù)分析得到的概率P (k)生成每個類中頁面的數(shù)量，用每一類的P (k)乘以要生成的網(wǎng)頁總數(shù)，來獲得每個類別中應生成的網(wǎng)頁數(shù)，按照概率模型可以獲得每一類中特定長度的網(wǎng)頁數(shù)量；步驟S22、根據(jù)分析得到的概率P (w)生成符合網(wǎng)頁長度的內(nèi)容，通過按每個詞在種子頁面中出現(xiàn)的概率生成詞，然后注入到將生成的網(wǎng)頁中；步驟S23、根據(jù)分析得到的概率P (d|k)向網(wǎng)頁中添加URL;在每一類中根據(jù)P (d|k)給每個網(wǎng)頁賦入出度的值，再根據(jù)這個入出度的值產(chǎn)生相應的URL，在添加URL的時候如果沒有滿足入出度條件則返回繼續(xù)添加，直到滿足條件時即可。
5.如權(quán)利要求4所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成方法，其特征在于，向網(wǎng)頁之間添加URL包括如下步驟: 當添加到某一 ID號的現(xiàn)有入出度信息和應有入出度信息相同時，就把這一 ID號的網(wǎng)頁入出度情況從這個數(shù)據(jù)結(jié)構(gòu)結(jié)果中刪除，則表示添加的入出度已完成；尋找存在表格中沒有刪除的信息繼續(xù)添加，直到數(shù)據(jù)結(jié)構(gòu)中沒有存在的信息則表示全部的入出度添加結(jié)束。
6.一種基于Web頁面的大規(guī)模數(shù)據(jù)生成系統(tǒng)，其特征在于，包括: 統(tǒng)計模塊，用于統(tǒng)計種子頁面信息包括文本信息和URL信息；頁面生成模塊，用于根據(jù)種子頁面信息生成web頁面，其中根據(jù)原始種子頁面中每類頁面的入出度的條件概率計算生成網(wǎng)頁的入出度值，利用已有入出度值向網(wǎng)頁中插入URL，使得在生成的數(shù)據(jù)中，入度的總和是等于出度的總和。
7.如權(quán)利要求6所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成系統(tǒng)，其特征在于，統(tǒng)計模塊包括: 分類計算模塊，用于統(tǒng)計文本長度給種子頁面分類，統(tǒng)計種子網(wǎng)頁中的文本長度是將文檔按長度進行分類，計算每一類出現(xiàn)的概率P (k):P (k)=k類中網(wǎng)頁的總數(shù)量/種子網(wǎng)頁總數(shù)量；詞頻統(tǒng)計模塊，用于統(tǒng)計種子頁面中出現(xiàn)詞的概率是統(tǒng)計每個詞在整個種子網(wǎng)頁中出現(xiàn)的概率P (W)，概率P (W) =詞w出現(xiàn)的總數(shù)/種子網(wǎng)頁中所有詞的總個數(shù)；入出度條件概率統(tǒng)計模塊，用于統(tǒng)計在特定文檔長度下的入出度條件概率時，首先去除種子網(wǎng)頁中的死鏈，然后在統(tǒng)計每一個類網(wǎng)頁中的入度和出度的條件概率P (d|k)。
8.如權(quán)利要求6所述的基于Web頁面的大規(guī)模數(shù)據(jù)生成系統(tǒng)，其特征在于，頁面生成模塊包括: 網(wǎng)頁數(shù)量模塊，用于根據(jù)分析得到的概率P (k)生成每個類中頁面的數(shù)量，用每一類的P (k)乘以要生成的網(wǎng)頁總數(shù)，來獲得每個類別中應生成的網(wǎng)頁數(shù)，按照概率模型可以獲得每一類中特定長度的網(wǎng)頁數(shù)量；注入模塊，用于根據(jù)分析得到的概率P (w)生成符合網(wǎng)頁長度的內(nèi)容，通過按每個詞在種子頁面中出現(xiàn)的概率生成詞，然后注入到將生成的網(wǎng)頁中；添加模塊，用于根據(jù)分析得到的概率P (d|k)向網(wǎng)頁中添加URL;在每一類中根據(jù)P(d|k)給每個網(wǎng)頁賦入出度的值，再根據(jù)這個入出度的值產(chǎn)生相應的URL，在添加URL的時候如果沒有滿足入出度條件則返回繼續(xù)添加，直到滿足條件。
【文檔編號】G06F17/30GK103678495SQ201310576331
【公開日】2014年3月26日申請日期:2013年11月18日優(yōu)先權(quán)日:2013年11月18日
【發(fā)明者】賈禛, 呂杰, 王磊, 權(quán)靜, 詹劍鋒, 張立新申請人:中國科學院計算技術(shù)研究所

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：賈禛;呂杰;王磊;權(quán)靜;詹劍鋒;張立新
技術(shù)所有人：中國科學院計算技術(shù)研究所
我是此專利的發(fā)明人

上一篇：一種基于阿倫尼斯模型的環(huán)境因子點估計方法
上一篇：通知欄消息的處理方法和裝置制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

生成靜態(tài)頁面相關(guān)技術(shù)

靜態(tài)頁面生成器相關(guān)技術(shù)

java生成靜態(tài)html頁面相關(guān)技術(shù)

頁面生成二維碼相關(guān)技術(shù)

js動態(tài)生成html頁面相關(guān)技術(shù)

php生成靜態(tài)頁面相關(guān)技術(shù)

免費的h5頁面生成工具相關(guān)技術(shù)

生成鏈接頁面相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于Web頁面的大規(guī)模數(shù)據(jù)生成方法及系統(tǒng)的制作方法