本發(fā)明涉及數(shù)據(jù)預(yù)測技術(shù)領(lǐng)域,特別涉及一種網(wǎng)絡(luò)流量峰值的預(yù)測方法及裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,人們越來越多的利用網(wǎng)絡(luò)觀看電視劇或者綜藝節(jié)目。當(dāng)新電視劇劇集或者新一期綜藝節(jié)目上線后,在一段時間內(nèi),針對新電視劇劇集或者新一期綜藝節(jié)目的點擊量會增加到一個峰值,對應(yīng)的網(wǎng)絡(luò)流量數(shù)據(jù)就達到了一個峰值,然后隨著時間的推進,點擊量逐漸下降。如果網(wǎng)絡(luò)流量數(shù)據(jù)超出服務(wù)器的最大工作能力,會導(dǎo)致部分用戶無法訪問或者服務(wù)器超負荷運轉(zhuǎn),因此對網(wǎng)絡(luò)流量數(shù)據(jù)的峰值進行預(yù)測是非常必要的。
目前網(wǎng)絡(luò)流量峰值預(yù)測的常用方法為時間序列分析法,這類方法是根據(jù)一段時間周期內(nèi)的網(wǎng)絡(luò)流量數(shù)據(jù)的歷史數(shù)據(jù)隨著時間的變化關(guān)系進行未來數(shù)據(jù)的計算和預(yù)測。而時間序列分析法只能對確定性的事件進行預(yù)測,即應(yīng)用時間序列分析法的前提條件是網(wǎng)絡(luò)流量數(shù)據(jù)的變化趨勢必然會延續(xù)到未來數(shù)據(jù)采集周期內(nèi)。而且在實際應(yīng)用中,網(wǎng)絡(luò)流量數(shù)據(jù)的變化過程不只是與時間相關(guān),還有可能與時間之外的一些因素相關(guān),比如影視內(nèi)容等一些不規(guī)則因素,因此,網(wǎng)絡(luò)流量數(shù)據(jù)的變化過程具有一定的概率學(xué)上的隨機性。
由于時間序列分析法只能對確定性的變化趨勢進行預(yù)測,而無法對未來數(shù)據(jù)采集周期內(nèi)網(wǎng)絡(luò)流量數(shù)據(jù)的隨機性變化進行概率上的描述,進而應(yīng)用現(xiàn)有技術(shù)對未來網(wǎng)絡(luò)流量數(shù)據(jù)的峰值預(yù)測的準確度較低。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例的目的在于提供一種網(wǎng)絡(luò)流量峰值的預(yù)測方法及裝置,以提高網(wǎng)絡(luò)流量峰值預(yù)測的準確度。
為達到上述目的,本發(fā)明實施例公開了一種網(wǎng)絡(luò)流量峰值的預(yù)測方法,所述方法包括:
采集當(dāng)前數(shù)據(jù)采集周期內(nèi)的網(wǎng)絡(luò)流量數(shù)據(jù);
確定所述網(wǎng)絡(luò)流量數(shù)據(jù)服從的至少一個概率分布;
針對所確定的概率分布中的每一概率分布,估計該概率分布的參數(shù);
根據(jù)該概率分布以及該概率分布的參數(shù),確定針對所述網(wǎng)絡(luò)流量數(shù)據(jù)的概率密度函數(shù);
確定和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù);
利用所述擬合優(yōu)度最高的概率密度函數(shù)預(yù)測下一數(shù)據(jù)采集周期的網(wǎng)絡(luò)流量峰值。
較佳的,在所述確定所述網(wǎng)絡(luò)流量數(shù)據(jù)服從的至少一個概率分布之前,所述方法還包括:
修正所述網(wǎng)絡(luò)流量數(shù)據(jù)中的異常數(shù)據(jù);
所述確定所述網(wǎng)絡(luò)流量數(shù)據(jù)服從的至少一個概率分布,包括:
確定修正異常數(shù)據(jù)后的網(wǎng)絡(luò)流量數(shù)據(jù)服從的至少一個概率分布。
較佳的,所述確定所述網(wǎng)絡(luò)流量數(shù)據(jù)服從的至少一個概率分布,包括:
針對所述網(wǎng)絡(luò)流量數(shù)據(jù),利用至少一種連續(xù)性隨機概率分布進行擬合,得到每一種連續(xù)性隨機概率分布對應(yīng)的擬合結(jié)果;
確定每一擬合結(jié)果服從的概率分布。
較佳的,所述針對所確定的概率分布中的每一概率分布,估計該概率分布的參數(shù),包括:
針對所確定的概率分布中的每一概率分布,利用馬爾科夫蒙特卡洛方法估計該概率分布的參數(shù)。
較佳的,所述針對所確定的概率分布中的每一概率分布,利用馬爾科夫蒙特卡洛方法估計該概率分布的參數(shù),包括:
針對所確定的概率分布中的每一概率分布,根據(jù)該概率分布對應(yīng)的先驗共軛概率分布的參數(shù),確定與所述先驗共軛概率分布對應(yīng)的似然函數(shù)表達式;
根據(jù)所述似然函數(shù)表達式以及所述先驗共軛概率分布的參數(shù),利用貝葉斯公式計算該概率分布的后驗概率分布的參數(shù);
判斷所述后驗概率分布的參數(shù)相對于所述先驗共軛概率分布的參數(shù)的改變量是否小于預(yù)設(shè)閾值;
若是,將所述后驗概率分布的參數(shù)確定為所述概率分布的參數(shù);
若否,將所述先驗共軛概率分布的參數(shù)更改為當(dāng)前所述后驗概率分布的參數(shù),繼續(xù)執(zhí)行所述根據(jù)所述似然函數(shù)表達式以及所述先驗共軛概率分布的參數(shù),利用貝葉斯公式計算該概率分布的后驗概率分布的參數(shù)的操作步驟。
較佳的,所述確定和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù),包括:
利用卡方檢測法,確定和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù)。
為達到上述目的,本發(fā)明實施例還提供了一種網(wǎng)絡(luò)流量峰值的預(yù)測裝置,所述裝置包括:采集模塊、第一確定模塊、估計模塊、第二確定模塊、第三確定模塊和預(yù)測模塊,其中,
所述采集模塊,用于采集當(dāng)前數(shù)據(jù)采集周期內(nèi)的網(wǎng)絡(luò)流量數(shù)據(jù);
所述第一確定模塊,用于確定所述網(wǎng)絡(luò)流量數(shù)據(jù)服從的至少一個概率分布;
所述估計模塊,用于針對所確定的概率分布中的每一概率分布,估計該概率分布的參數(shù);
所述第二確定模塊,用于根據(jù)該概率分布以及該概率分布的參數(shù),確定針對所述網(wǎng)絡(luò)流量數(shù)據(jù)的概率密度函數(shù);
所述第三確定模塊,用于確定和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù);
所述預(yù)測模塊,用于利用所述擬合優(yōu)度最高的概率密度函數(shù)預(yù)測下一數(shù)據(jù)采集周期的網(wǎng)絡(luò)流量峰值。
較佳的,所述裝置還包括修正模塊,用于修正所述網(wǎng)絡(luò)流量數(shù)據(jù)中的異常數(shù)據(jù);
所述第一確定模塊,具體用于:
確定修正異常數(shù)據(jù)后的網(wǎng)絡(luò)流量數(shù)據(jù)服從的至少一個概率分布。
較佳的,所述第一確定模塊,具體用于:
針對所述網(wǎng)絡(luò)流量數(shù)據(jù),利用至少一種連續(xù)性隨機概率分布進行擬合,得到每一種連續(xù)性隨機概率分布對應(yīng)的擬合結(jié)果;
確定每一擬合結(jié)果服從的概率分布。
較佳的,所述估計模塊,具體用于:
針對所確定的概率分布中的每一概率分布,利用馬爾科夫蒙特卡洛方法估計該概率分布的參數(shù)。
較佳的,所述估計模塊,具體用于:
針對所確定的概率分布中的每一概率分布,根據(jù)該概率分布對應(yīng)的先驗共軛概率分布的參數(shù),確定與所述先驗共軛概率分布對應(yīng)的似然函數(shù)表達式;
根據(jù)所述似然函數(shù)表達式以及所述先驗共軛概率分布的參數(shù),利用貝葉斯公式計算該概率分布的后驗概率分布的參數(shù);
判斷所述后驗概率分布的參數(shù)相對于所述先驗共軛概率分布的參數(shù)的改變量是否小于預(yù)設(shè)閾值;
若是,將所述后驗概率分布的參數(shù)確定為所述概率分布的參數(shù);
若否,將所述先驗共軛概率分布的參數(shù)更改為當(dāng)前所述后驗概率分布的參數(shù),繼續(xù)執(zhí)行所述根據(jù)所述似然函數(shù)表達式以及所述先驗共軛概率分布的參數(shù),利用貝葉斯公式計算該概率分布的后驗概率分布的參數(shù)的操作步驟。
較佳的,所述第三確定模塊,具體用于:
利用卡方檢測法,確定和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù)。
本發(fā)明實施例提供了一種網(wǎng)絡(luò)流量峰值的預(yù)測方法及裝置,所述方法包括:采集當(dāng)前數(shù)據(jù)采集周期內(nèi)的網(wǎng)絡(luò)流量數(shù)據(jù);確定所述網(wǎng)絡(luò)流量數(shù)據(jù)服從的至少一個概率分布;針對所確定的概率分布中的每一概率分布,估計該概率分布的參數(shù);根據(jù)該概率分布以及該概率分布的參數(shù),確定針對所述網(wǎng)絡(luò)流量數(shù)據(jù)的概率密度函數(shù);確定和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù);利用所述擬合優(yōu)度最高的概率密度函數(shù)預(yù)測下一數(shù)據(jù)采集周期的網(wǎng)絡(luò)流量峰值。
應(yīng)用本發(fā)明實施例,對下一數(shù)據(jù)采集周期的網(wǎng)絡(luò)流量數(shù)據(jù)進行了概率上的描述,相對于現(xiàn)有技術(shù)無法對未來數(shù)據(jù)采集周期內(nèi)網(wǎng)絡(luò)流量數(shù)據(jù)的變化進行概率上的描述,提高了網(wǎng)絡(luò)流量峰值預(yù)測的準確度。
當(dāng)然,實施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時達到以上所述的所有優(yōu)點。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例提供的一種網(wǎng)絡(luò)流量峰值的預(yù)測方法的流程示意圖;
圖2為本發(fā)明實施例提供的擬合占比序列中的數(shù)據(jù)的結(jié)果示意圖;
圖3為本發(fā)明實施例提供的另一種網(wǎng)絡(luò)流量峰值的預(yù)測方法的流程示意圖;
圖4為本發(fā)明實施例提供的一種網(wǎng)絡(luò)流量峰值的預(yù)測裝置的結(jié)構(gòu)示意圖;
圖5為本發(fā)明實施例提供的另一種網(wǎng)絡(luò)流量峰值的預(yù)測裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
為解決現(xiàn)有技術(shù)問題,本發(fā)明實施例提供了一種網(wǎng)絡(luò)流量峰值的預(yù)測方法及裝置,下面首先就一種網(wǎng)絡(luò)流量峰值的預(yù)測方法進行介紹。
圖1為本發(fā)明實施例提供的一種網(wǎng)絡(luò)流量峰值的預(yù)測方法的流程示意圖,可以包括:
S101:采集當(dāng)前數(shù)據(jù)采集周期內(nèi)的網(wǎng)絡(luò)流量數(shù)據(jù)。
通常情況下,本發(fā)明實施例可以應(yīng)用于綜藝節(jié)目、電視劇等連播劇集的網(wǎng)絡(luò)流量峰值的預(yù)測。
需要說明的是,網(wǎng)絡(luò)流量為用戶針對該連播劇集的訪問量。
具體的,假設(shè)第3集電視劇上線時刻為21:00,采集(20:30,24:00)時間段內(nèi)的訪問量,其中,(20:30,24:00)時間段為當(dāng)前數(shù)據(jù)采集周期。
通常情況下,可以按照每5秒但不僅限于每5秒一個步長,將(20:30,24:00)時間段劃分為2520個子周期,將每一子周期內(nèi)的訪問量之和確定為當(dāng)前子周期的訪問量,以此類推,對(20:30,24:00)時間段內(nèi)的用戶訪問量進行處理,就形成了2520個數(shù)據(jù)點,其中,每一數(shù)據(jù)點對應(yīng)一個子周期和該子周期內(nèi)的用戶訪問量的和。
還可以將(20:30,24:00)時間段按照每5秒一個步長劃分為2520個子周期,根據(jù)每一子周期的開始時刻的用戶訪問量和該時刻值確定2520個數(shù)據(jù)點,還可以根據(jù)每一子周期的結(jié)束時刻的用戶訪問量和該時刻值確定2520個數(shù)據(jù)點。
在實際應(yīng)用中,還需要對在(20:30,24:00)時間段內(nèi)確定出的2520個數(shù)據(jù)點對應(yīng)的用戶訪問量進行歸一化處理,即確定出每一子周期對應(yīng)的用戶訪問量占當(dāng)前數(shù)據(jù)采集周期內(nèi)總用戶訪問量的比值,其中,歸一化采用的公式為:
其中,Y(t)為每一子周期對應(yīng)的用戶訪問量占當(dāng)前數(shù)據(jù)采集周期內(nèi)總用戶訪問量的比值的序列,也可以稱之為占比序列;X(t)為每一子周期對應(yīng)的用戶訪問量;t=1,2,…,2520。
例如,確定出的占比序列為Y(t),t=1,2,…,2520。
在實際應(yīng)用中,當(dāng)前數(shù)據(jù)采集周期可以包含針對至少一集電視劇或者綜藝節(jié)目的網(wǎng)絡(luò)流量數(shù)據(jù)。
S102:確定所述網(wǎng)絡(luò)流量數(shù)據(jù)服從的至少一個概率分布。
具體的,可以針對所述網(wǎng)絡(luò)流量數(shù)據(jù),利用至少一種連續(xù)性隨機概率分布進行擬合,得到每一種連續(xù)性隨機概率分布對應(yīng)的擬合結(jié)果;確定每一擬合結(jié)果服從的概率分布。
在實際應(yīng)用中,根據(jù)占比序列Y(t)對應(yīng)的時刻建立一個以時間為橫軸,以Y(t)中的比值為縱軸的坐標系。
可以根據(jù)坐標系中的峰值和波峰的形狀的不同選擇至少一種連續(xù)形概率分布進行擬合,其中,選擇的每一種連續(xù)形概率分布要盡可能多的擬合占比序列Y(t)中的比值。
需要說明的是,連續(xù)形概率分布包括但不限于截斷的高斯正態(tài)分布、伽馬分布和指數(shù)修正的混合高斯分布。
一般來說,網(wǎng)絡(luò)流量數(shù)據(jù)的峰值的到達有左偏的趨勢,即網(wǎng)絡(luò)新內(nèi)容上線后,短期內(nèi)大量的訪問涌入產(chǎn)生點擊和網(wǎng)絡(luò)流量,之后的到達強度在一定時間段內(nèi)發(fā)生衰減,因此,擬合網(wǎng)絡(luò)流量選取左偏的連續(xù)性概率分布更為適合。
假設(shè)針對占比序列Y(t)擬合的概率分布服從截斷的高斯正態(tài)分布。
圖2為應(yīng)用本發(fā)明實施例得到的對占比序列中的數(shù)據(jù)進行擬合的結(jié)果示意圖,如圖2所示,橫軸對應(yīng)的是占比序列Y(t)中數(shù)據(jù)對應(yīng)的子周期,縱軸為占比序列Y(t)中數(shù)據(jù)的大小,實線對應(yīng)占比序列Y(t)中的數(shù)據(jù),虛線對應(yīng)的是擬合的結(jié)果。
通常情況下,連續(xù)性概率分布也可以稱為概率分布。
S103:針對所確定的概率分布中的每一概率分布,估計該概率分布的參數(shù)。
具體的,可以針對所確定的概率分布中的每一概率分布,利用馬爾科夫蒙特卡洛方法估計該概率分布的參數(shù)。
具體的,可以針對所確定的概率分布中的每一概率分布,根據(jù)該概率分布對應(yīng)的先驗共軛概率分布的參數(shù),確定與所述先驗共軛概率分布對應(yīng)的似然函數(shù)表達式;根據(jù)所述似然函數(shù)表達式以及所述先驗共軛概率分布的參數(shù),利用貝葉斯公式計算該概率分布的后驗概率分布的參數(shù);判斷所述后驗概率分布的參數(shù)相對于所述先驗共軛概率分布的參數(shù)的改變量是否小于預(yù)設(shè)閾值;若是,將所述后驗概率分布的參數(shù)確定為所述概率分布的參數(shù);若否,將所述先驗共軛概率分布的參數(shù)更改為當(dāng)前所述后驗概率分布的參數(shù),繼續(xù)執(zhí)行所述根據(jù)所述似然函數(shù)表達式以及所述先驗共軛概率分布的參數(shù),利用貝葉斯公式計算該概率分布的后驗概率分布的參數(shù)的操作步驟。
在實際應(yīng)用中,截斷的高斯正態(tài)分布的參數(shù)包括方差σ2和期望參數(shù)μ,可以首先固定方差σ2,估計期望參數(shù)μ。
假設(shè)期望參數(shù)μ的先驗共軛概率分布也為正態(tài)分布,即,μprior=N(μ0,σ2),初始化參數(shù)為但不僅限于μ0=0,
再確定出與期望參數(shù)μ的先驗共軛概率分布對應(yīng)的似然函數(shù)表達式,其中似然函數(shù)的表達式為截斷的正態(tài)分布的概率密度表達式。
利用貝葉斯公式posterior∝prior×likehood計算出期望參數(shù)μ的后驗概率分布,后驗概率分布也為截斷的高斯正態(tài)分布,其中,
posterior為后驗概率分布;prior為先驗共軛概率分布;likehood為似然概率。
利用公式根據(jù)μ的先驗概率分布的參數(shù),更新期望參數(shù)μ的后驗概率分布的參數(shù),其中,
μposterior為后驗概率分布的參數(shù);N()為正態(tài)分布函數(shù);為Y(t)中所有比值的平均值;σ2為固定的方差;μ0為先驗共軛概率分布對應(yīng)的期望參數(shù)的初始值;為方差的初始值。
假設(shè)計算期望參數(shù)μ的后驗概率分布的參數(shù)為0.8。
判斷后驗概率分布的參數(shù)相對于先驗概率分布的參數(shù)改變量大于預(yù)設(shè)閾值5%,則認為期望參數(shù)μ的馬爾科夫鏈是不收斂的。假設(shè)0.8與先驗概率分布的差值小于預(yù)設(shè)閾值5%,則認為期望參數(shù)μ的馬爾科夫鏈是收斂的。
再以當(dāng)前期望參數(shù)μ的后驗概率分布的參數(shù)0.8,估計方差σ2的后驗概率分布的參數(shù)。
假設(shè)方差σ2的先驗共軛概率分布為逆伽馬分布,即初始化參數(shù)為但不僅限于α0=0,β0=1。
再確定出與方差σ2的先驗共軛概率分布對應(yīng)的似然函數(shù)表達式。
再利用貝葉斯公式posterior∝prior×likehood計算出方差σ2的后驗概率分布,后驗概率分布也為逆伽馬分布,其中,
posterior為后驗概率分布;prior為先驗共軛概率分布;likehood為似然概率。
利用公式根據(jù)方差σ2的先驗共軛概率分布的參數(shù),更新方差σ2的后驗概率分布的參數(shù),其中,
為后驗概率分布的參數(shù);IG()為逆伽馬分布函數(shù);α0為逆伽馬分布的形狀參數(shù);β0為逆伽馬分布的尺寸參數(shù);n為當(dāng)前數(shù)據(jù)采集周期內(nèi)采集的數(shù)據(jù)點的個數(shù);Xi為第i個數(shù)據(jù)點對應(yīng)的Y(t)中的比值;μ為固定的期望參數(shù)0.8。
假設(shè)計算方差σ2的后驗概率分布的參數(shù)為0.5。
將方差σ2的后驗概率分布的參數(shù)0.5,期望μ的后驗概率分布的參數(shù)0.8作為初始值,更新占比序列Y(t)服從截斷的高斯正態(tài)分布的參數(shù)期望μ。
需要強調(diào)的是,可以在期望μ收斂后,僅繼續(xù)估計方差σ2的后驗概率分布的參數(shù);也可以在期望μ收斂的情況下,繼續(xù)估計期望μ和方差σ2的后驗概率分布的參數(shù)。
S104:根據(jù)該概率分布以及該概率分布的參數(shù),確定針對所述網(wǎng)絡(luò)流量數(shù)據(jù)的概率密度函數(shù)。
假設(shè)S102中確定出了網(wǎng)絡(luò)流量數(shù)據(jù)服從的n個概率分布,根據(jù)S103步驟中估計出來的概率分布的參數(shù),確定針對每一概率分布的概率密度函數(shù),假設(shè)確定出來的概率密度函數(shù)的表達式分別為fi(t),i=1,2,…,n。
S105:確定和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù)。
具體的,可以利用卡方檢測法,確定和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù)。
利用卡方檢測法,確定和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù),可以計算每一概率密度函數(shù)的卡方值,比較每一概率密度函數(shù)的卡方值與其對應(yīng)的卡方統(tǒng)計量,將卡方值小于卡方統(tǒng)計量的概率密度函數(shù)確定為通過卡方檢測的概率密度函數(shù),將通過卡方檢測的概率密度函數(shù)中最小卡方值對應(yīng)的概率密度函數(shù),確定為和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù)(即將卡方值小于卡方統(tǒng)計量的概率密度函數(shù)中最小卡方值對應(yīng)的概率密度函數(shù),確定為和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù)。
具體的,在實際應(yīng)用中,還可以不利用卡方檢測法,確定和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù),比如計算每一概率密度函數(shù)的卡方值,將最小卡方值對應(yīng)的概率密度函數(shù),確定為和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù)。
在實際應(yīng)用中,利用公式i=1,2,...,n計算每個概率密度函數(shù)fi(t)的卡方值,其中,
χ2為第i個概率密度函數(shù)fi(t)的卡方值;N為在當(dāng)前周期內(nèi)的網(wǎng)絡(luò)流量的和;fi(t)為擬合的概率密度函數(shù);Y(t)為每一子周期對應(yīng)的用戶訪問量占當(dāng)前數(shù)據(jù)采集周期內(nèi)總用戶訪問量的比值的序列。
再利用公式df=n-p-1,確定網(wǎng)絡(luò)流量數(shù)據(jù)服從的每一概率分布對應(yīng)的卡方檢測的計算自由度,其中,
df為計算自由度,p為針對確定出的每一概率分布對應(yīng)的估計的參數(shù)的個數(shù)。
查詢在計算自由度和預(yù)設(shè)p-value(假定值)條件下的卡方統(tǒng)計量chi-value。
假設(shè)擬合出來的概率密度函數(shù)為f1(t)、f2(t)、f3(t)、f4(t)、f5(t)和f6(t),利用公式i=1,2,...,n確定出來的卡方值分別為5、7、10、16、8和21,每一概率密度函數(shù)對應(yīng)的卡方統(tǒng)計量分別為7、9、8、13、15和13。顯然,f1(t)、f2(t)和f5(t)的卡方值小于其對應(yīng)的卡方統(tǒng)計量,即概率密度函數(shù)f1(t)、f2(t)和f5(t)通過了卡方檢測,其中,概率密度函數(shù)f1(t)的卡方值最小,將概率密度函數(shù)f1(t)確定為和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù)。
還可以不利用卡方檢測法,確定出概率密度函數(shù)f1(t)的卡方值最小,將概率密度函數(shù)f1(t)確定為和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù)。
S106:利用所述擬合優(yōu)度最高的概率密度函數(shù)預(yù)測下一數(shù)據(jù)采集周期的網(wǎng)絡(luò)流量峰值。
具體的,利用S105步驟中確定出來的擬合優(yōu)度最高的概率密度函數(shù)f2(t),預(yù)測下一數(shù)據(jù)采集周期的網(wǎng)絡(luò)流量峰值。
假設(shè)當(dāng)前數(shù)據(jù)采集周期內(nèi),概率密度函數(shù)的峰值位于第1000個子周期處,且在該處的密度函數(shù)的峰值為max(t)。
在實際應(yīng)用中,先利用f2(t)預(yù)測下一數(shù)據(jù)采集周期的總網(wǎng)絡(luò)流量,假設(shè)預(yù)測的總網(wǎng)絡(luò)流量為N′,下一數(shù)據(jù)采集周期的總網(wǎng)絡(luò)流量可以與當(dāng)前數(shù)據(jù)采集周期的總網(wǎng)絡(luò)流量相同。
再利用公式pk(t)=N′×max(t)確定出下一數(shù)據(jù)采集周期的網(wǎng)絡(luò)流量峰值,其中,
pk(t)為下一數(shù)據(jù)采集周期的網(wǎng)絡(luò)流量峰值;N′為下一數(shù)據(jù)采集周期的總網(wǎng)絡(luò)流量;max(t)為當(dāng)前數(shù)據(jù)采集周期的概率密度峰值。
在下一數(shù)據(jù)采集周期內(nèi),網(wǎng)絡(luò)流量峰值到達的時間可以與當(dāng)前數(shù)據(jù)采集周期內(nèi)網(wǎng)絡(luò)流量峰值到達的時間相同。
應(yīng)用本發(fā)明實施例,對下一數(shù)據(jù)采集周期的網(wǎng)絡(luò)流量數(shù)據(jù)進行了概率上的描述,相對于現(xiàn)有技術(shù)無法對未來數(shù)據(jù)采集周期內(nèi)網(wǎng)絡(luò)流量數(shù)據(jù)的變化進行概率上的描述,提高了網(wǎng)絡(luò)流量峰值預(yù)測的準確度。
圖3為本發(fā)明實施例提供的另一種網(wǎng)絡(luò)流量峰值的預(yù)測方法的流程示意圖。圖3所示實施例在圖1所示實施例的基礎(chǔ)上,在S102之前,增加了S107:修正所述網(wǎng)絡(luò)流量數(shù)據(jù)中的異常數(shù)據(jù),本發(fā)明實施例的S102具體可以為S102A:確定修正異常數(shù)據(jù)后的網(wǎng)絡(luò)流量數(shù)據(jù)服從的至少一個概率分布。
具體的,利用公式修正當(dāng)前數(shù)據(jù)采集周期內(nèi)采集到的數(shù)據(jù)異常點,其中,
X′(tk)為第tk個子周期時,修正后的用戶訪問量的值;tk為數(shù)據(jù)異常點對應(yīng)的子周期;ti為數(shù)據(jù)異常點所在的時間段的開始時間,tj為數(shù)據(jù)異常點所在的時間段的結(jié)束時間。
應(yīng)用本發(fā)明圖3所示實施例,修正了所述網(wǎng)絡(luò)流量數(shù)據(jù)中的異常數(shù)據(jù),提高了概率分布的擬合的精度,進而提高了預(yù)測的準確度。
與上述方法相對應(yīng),本發(fā)明實施例還提供了一種網(wǎng)絡(luò)流量峰值的預(yù)測裝置。
圖4為本發(fā)明實施例提供的一種網(wǎng)絡(luò)流量峰值的預(yù)測裝置的結(jié)構(gòu)示意圖,可以包括:采集模塊301、第一確定模塊302、估計模塊303、第二確定模塊304、第三確定模塊305和預(yù)測模塊306,其中,
采集模塊301,用于采集當(dāng)前數(shù)據(jù)采集周期內(nèi)的網(wǎng)絡(luò)流量數(shù)據(jù)。
第一確定模塊302,用于確定所述網(wǎng)絡(luò)流量數(shù)據(jù)服從的至少一個概率分布。
具體的,第一確定模塊302,具體用于:
針對所述網(wǎng)絡(luò)流量數(shù)據(jù),利用至少一種連續(xù)性隨機概率分布進行擬合,得到每一種連續(xù)性隨機概率分布對應(yīng)的擬合結(jié)果;
確定每一擬合結(jié)果服從的概率分布。
估計模塊303,用于針對所確定的概率分布中的每一概率分布,估計該概率分布的參數(shù)。
具體的,估計模塊303,具體用于:
針對所確定的概率分布中的每一概率分布,利用馬爾科夫蒙特卡洛方法估計該概率分布的參數(shù)。
在實際應(yīng)用中,估計模塊303,具體用于:
針對所確定的概率分布中的每一概率分布,根據(jù)該概率分布對應(yīng)的先驗共軛概率分布的參數(shù),確定與所述先驗共軛概率分布對應(yīng)的似然函數(shù)表達式;
根據(jù)所述似然函數(shù)表達式以及所述先驗共軛概率分布的參數(shù),利用貝葉斯公式計算該概率分布的后驗概率分布的參數(shù);
判斷所述后驗概率分布的參數(shù)相對于所述先驗共軛概率分布的參數(shù)的改變量是否小于預(yù)設(shè)閾值;
若是,將所述后驗概率分布的參數(shù)確定為所述概率分布的參數(shù);
若否,將所述先驗共軛概率分布的參數(shù)更改為當(dāng)前所述后驗概率分布的參數(shù),繼續(xù)執(zhí)行所述根據(jù)所述似然函數(shù)表達式以及所述先驗共軛概率分布的參數(shù),利用貝葉斯公式計算該概率分布的后驗概率分布的參數(shù)的操作步驟。
第二確定模塊304,用于根據(jù)該概率分布以及該概率分布的參數(shù),確定針對所述網(wǎng)絡(luò)流量數(shù)據(jù)的概率密度函數(shù);
具體的,第三確定模塊305,用于確定和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù);
第三確定模塊305,具體用于:
利用卡方檢測法,確定和所述網(wǎng)絡(luò)流量數(shù)據(jù)的擬合優(yōu)度最高的概率密度函數(shù)。
預(yù)測模塊306,用于利用所述擬合優(yōu)度最高的概率密度函數(shù)預(yù)測下一數(shù)據(jù)采集周期的網(wǎng)絡(luò)流量峰值。
應(yīng)用本發(fā)明實施例,對下一數(shù)據(jù)采集周期的網(wǎng)絡(luò)流量數(shù)據(jù)進行了概率上的描述,相對于現(xiàn)有技術(shù)無法對未來數(shù)據(jù)采集周期內(nèi)網(wǎng)絡(luò)流量數(shù)據(jù)的變化進行概率上的描述,提高了網(wǎng)絡(luò)流量峰值預(yù)測的準確度。
圖5為本發(fā)明實施例提供的另一種網(wǎng)絡(luò)流量峰值的預(yù)測裝置的結(jié)構(gòu)示意圖。本發(fā)明圖5所示實施例在圖4所示實施例的基礎(chǔ)上,增加了修正模塊307,用于修正所述網(wǎng)絡(luò)流量數(shù)據(jù)中的異常數(shù)據(jù).
在實際應(yīng)用中,第一確定模塊302,具體用于:
確定修正異常數(shù)據(jù)后的網(wǎng)絡(luò)流量數(shù)據(jù)服從的至少一個概率分布。
應(yīng)用本發(fā)明圖5所示實施例,修正所述網(wǎng)絡(luò)流量數(shù)據(jù)中的異常數(shù)據(jù),提高了概率分布的擬合的精度,進而提高了預(yù)測的準確度。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中的各個實施例均采用相關(guān)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述方法實施方式中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于計算機可讀取存儲介質(zhì)中,這里所稱得的存儲介質(zhì),如:ROM/RAM、磁碟、光盤等。
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內(nèi)。