專利名稱:趨勢確定和識別的制作方法
背景技術(shù):
在信息處理環(huán)境中,大量的各種性能數(shù)據(jù)是可用的。系統(tǒng)性能監(jiān)視器在硬件級別、 操作系統(tǒng)級別、數(shù)據(jù)庫級別、中間件級別和應(yīng)用級別收集性能數(shù)據(jù)。收集和使用大量可用的性能數(shù)據(jù)是一項(xiàng)要求相當(dāng)多資源的繁重任務(wù)。在一些情況下,收集和使用性能數(shù)據(jù)不利地影響性能以及因此影響性能數(shù)據(jù)本身。高效的收集和使用性能數(shù)據(jù)是希望的。
對于本發(fā)明的實(shí)施例的具體說明現(xiàn)在將參照附圖進(jìn)行,附圖中 圖IA示出了根據(jù)至少一些實(shí)施例的用于趨勢確定和識別的系統(tǒng)。
圖IB示出了根據(jù)至少一些實(shí)施例的用于趨勢確定和識別的系統(tǒng)。
圖IC示出了提供用于趨勢確定和識別的性能數(shù)據(jù)的棧。
圖2示出了根據(jù)至少一些實(shí)施例的具有用于趨勢確定和識別的計(jì)算機(jī)可讀介質(zhì)的系統(tǒng)。
圖3示出了根據(jù)至少一些實(shí)施例的趨勢確定和識別的方法。
注釋和術(shù)語 在以下權(quán)利要求書和說明書中通篇使用某些術(shù)語來表示特定組件。本領(lǐng)域普通技術(shù)人員會理解,不同的實(shí)體可能使用不同的名字來表示組件。本文件不打算區(qū)分名字不同而非功能不同的組件。在以下討論和權(quán)利要求中,術(shù)語“包括”和“包含”以開放的方式被使用,并且因此應(yīng)當(dāng)解釋為意指“包括,但不限于…”。而且,術(shù)語“耦合”意欲表示光學(xué)的、 無線的、間接電連接、或直接電連接。因此,如果第一設(shè)備耦合到第二設(shè)備,該連接可以是通過經(jīng)由其它設(shè)備和連接的間接電連接,通過直接光學(xué)連接等。此外,術(shù)語“系統(tǒng)”表示兩個或更多個硬件組件的集合,并且可以用于表示電子設(shè)備。
具體實(shí)施例方式以下討論針對本發(fā)明的各種實(shí)施例。盡管這些實(shí)施例的一個或多個可能是優(yōu)選的,但是公開的實(shí)施例不應(yīng)解釋為或以其他方式用作限制包括權(quán)利要求的本公開的范圍, 除非另有說明。此外,本領(lǐng)域普通技術(shù)人員會理解以下說明具有廣泛應(yīng)用,并且任意實(shí)施例的討論僅意欲例證該實(shí)施例,并且不意欲暗示包括權(quán)利要求的本公開的范圍限于該實(shí)施例。
公開了趨勢確定和識別?;跈C(jī)器學(xué)習(xí)的自調(diào)節(jié)預(yù)測性能模型采用性能數(shù)據(jù)來監(jiān)視系統(tǒng)性能水平,在各個層面控制監(jiān)視水平以使得動態(tài)地決定收集的性能數(shù)據(jù)的種類和細(xì)節(jié),并且確定潛在的服務(wù)水平目標(biāo)違背。這樣,模型在不同的部署情形、配置和工作負(fù)荷下捕獲性能數(shù)據(jù)。模型自身調(diào)節(jié)和改善以提高預(yù)測性能。此外,大量性能數(shù)據(jù)中的每一條數(shù)據(jù)可用于被收集,但是避免了過度的不必要的監(jiān)視,節(jié)省了時間和資源。因此,模型的實(shí)施導(dǎo)致更少的違背以及相對于競爭者的時間和資源優(yōu)勢。
參考圖1A,系統(tǒng)100包括處理器102和耦合至處理器102的警報模塊104。參考圖1B,在至少一個實(shí)施例中,系統(tǒng)100是計(jì)算機(jī)。這樣,處理器102是計(jì)算機(jī)處理器,以及警報模塊104是計(jì)算機(jī)顯示器。許多處理器和警報模塊是可能的。例如,在至少一個實(shí)施例中,處理器102包括多個計(jì)算機(jī)處理器,以及警報模塊104包括耦合至音頻揚(yáng)聲器的發(fā)光二極管。
處理器102優(yōu)選地監(jiān)視性能數(shù)據(jù)。圖IC示出提供用于趨勢確定和識別的性能數(shù)據(jù)189的棧199。棧199包括從其測量性能數(shù)據(jù)189的各層硬件和軟件。性能數(shù)據(jù)189優(yōu)選地由系統(tǒng)性能監(jiān)視器在硬件層197、操作系統(tǒng)層195、中間件層193和應(yīng)用層191收集。這些層的每一層提供多種類型的性能數(shù)據(jù)。硬件層197提供硬件性能數(shù)據(jù)187,例如硬件性能計(jì)數(shù)器等。操作系統(tǒng)層195提供操作系統(tǒng)性能數(shù)據(jù)185,例如I/O/秒,存儲器分配,頁面故障,頁面命中Oiits),駐留存儲器大小,CPU使用,分組/秒等。中間件層193提供中間件性能數(shù)據(jù)183,例如查詢/秒,讀取的元組(tuples read),高速緩沖存儲器中的頁面命中,盤 1/0,表掃描,請求/秒,連接等。應(yīng)用層191提供應(yīng)用性能數(shù)據(jù),例如響應(yīng)時間,未完成的請求,先前事務(wù)等。許多類型的性能數(shù)據(jù)是可能的。在至少一個實(shí)施例中,從網(wǎng)絡(luò)收集性能數(shù)據(jù)。這樣,硬件層197提供了用于整個網(wǎng)絡(luò)的硬件的硬件性能數(shù)據(jù)187。類似地,其它層提供了整個網(wǎng)絡(luò)的性能數(shù)據(jù)。在至少一個實(shí)施例中,性能數(shù)據(jù)包括應(yīng)用度量和操作系統(tǒng)度量。 然而,監(jiān)視任意類型的性能數(shù)據(jù)都是可能的。
處理器102優(yōu)選地基于監(jiān)視的性能數(shù)據(jù)構(gòu)造符合SLO的模型。對于給定的SL0,令 S= {符合SL0,違背SL0}為可能狀態(tài)的集合。在任意時間t,SL0的狀態(tài)St可以是這兩個狀態(tài)中的一個。令Mt表示值的矢量Dvivm2,...,mn]t,所述值由處理器102使用被監(jiān)視的性能指示符收集。處理器102優(yōu)選地構(gòu)造模型F (M,k,Δ),該模型將輸入矢量[Mt_k,Mt_k+1,..., MJ映射到SLO在時間t+Δ的狀態(tài)St+,。在至少一個實(shí)施例中,閾值k和Δ是參數(shù)。在至少一個其他實(shí)施例中,參數(shù)k無窮大,并且處理器102使用性能指示符值的所有可用的歷史來構(gòu)造模型F(M,k,Δ)。存在處理器102用來構(gòu)造模型F (M,k,Δ)的各種機(jī)器學(xué)習(xí)技術(shù)。 例如,處理器102中使用的機(jī)器學(xué)習(xí)技術(shù)包括,但不限于,樸素貝葉斯分類器,支持矢量機(jī)器,決策樹,貝葉斯網(wǎng)絡(luò)或神經(jīng)網(wǎng)絡(luò)。對于這些技術(shù)的細(xì)節(jié),參考Τ. Hastie,R. Tibrishani, 禾口 J. Friedman 的 The elements of statistical learning, Springer, 2001。在至少一個實(shí)施例中,處理器102優(yōu)選地基于給定的訓(xùn)練集在近似函數(shù)F(M,k,Δ)的分類器C中構(gòu)造模型F (M,k,△),該訓(xùn)練集包括性能指示符的過去觀測結(jié)果和SLO度量的觀測狀態(tài)。
在至少一個實(shí)施例中,處理器102將性能指示符的值與這些值隨時間的方向性進(jìn)行組合。令 Dt = [{+,=,-I1, {+,=,_}2,{+,=,-}3,...,{+,=,_}n]t 為方向性矢量,指示 Mt和Mw之間的方向差異。Dt中的每個元素e」指示Mt中的對應(yīng)度量j是否已經(jīng)增加({+} 值),減少({_}值),或保持相同({ = }值)。在至少一個實(shí)施例中,處理器102構(gòu)造模型 F(M,k,Δ ),該模型將輸入矢量[Mt,Dt_k,Dt_k+1,. . . ,DJ映射到SLO在時間t+ Δ的狀態(tài)St+,。
盡管監(jiān)視每一條性能數(shù)據(jù)是可能的,但是當(dāng)性能數(shù)據(jù)的量增加時監(jiān)視成本將非常高。這樣,處理器102確定與性能不佳(imderperformance)的量度相關(guān)的性能數(shù)據(jù)的子集。在至少一個實(shí)施例中,性能不佳的量度基于服務(wù)水平目標(biāo)(“SLO”)。SLO優(yōu)選地是服務(wù)提供方和客戶之間的服務(wù)水平協(xié)定(“SLA”)的一部分。SLO是測量服務(wù)提供方的性能的協(xié)定手段,并且有助于管理期望并且避免雙方之間的爭執(zhí)。在至少一個實(shí)施例中,SLA是指定SLO的整個協(xié)定,即提供什么服務(wù),和如何支持服務(wù),以及時間,地點(diǎn),成本,性能,和涉及的各方的責(zé)任。SLO是SLA的具體可測量特性,例如可用性,吞吐量,頻率,響應(yīng)時間和質(zhì)量。例如,網(wǎng)站主控服務(wù)和網(wǎng)站擁有者之間的SLO可以是應(yīng)當(dāng)在一秒以下完成所提交的事務(wù)的99%,并且性能不佳的量度準(zhǔn)確追蹤SL0。換句話說,與性能不佳的量度相關(guān)的性能數(shù)據(jù)的子集可以是例如在少于10分鐘內(nèi)使網(wǎng)站業(yè)務(wù)增至三倍。
在至少一個實(shí)施例中,處理器102使用特征選擇技術(shù)選擇性能指示符的子集。 處理器102選擇M的子集虬,以使得它們對應(yīng)的模型F*(MJ和F(M)之間的差異相對于訓(xùn)練集是最小的。處理器102優(yōu)選地使用在每一步消除單一度量m的貪婪算法,以使得
F(Mi)-F(M) I 最小。
在至少一個實(shí)施例中,子集對應(yīng)于一個SL0。然而,在至少一個其他實(shí)施例中,SLO 由一個或多個性能指示符組成,所述性能指示符被組合以產(chǎn)生SLO成就值。這樣,SLO可以取決于多個分量,每個分量具有性能指示符測量。當(dāng)用于計(jì)算SLO成就值時應(yīng)用到性能指示符測量的權(quán)重取決于服務(wù)的性質(zhì)和服務(wù)提供方和客戶將優(yōu)先級給予哪些分量。優(yōu)選地, 在這樣的實(shí)施例中,多個分量的每一個對應(yīng)于性能數(shù)據(jù)的它自己的子集。通過該方式,性能不佳的量度是性能不佳的子量度的組合。在至少一個實(shí)施例中,子集和性能不佳的量度之間的相關(guān)值必須在可編程的閾值以上。這樣,選擇包括在子集中的性能數(shù)據(jù)的元素不會過度包含或包含不足。
如果子集適當(dāng)?shù)嘏c性能不佳的量度相關(guān),子集可以被監(jiān)視以預(yù)料量度。如果量度對應(yīng)于SLO違背,則能夠預(yù)料SLA協(xié)定的違反。
處理器102確定性能數(shù)據(jù)的子集的趨勢,該趨勢也與性能不佳的量度相關(guān)。優(yōu)選地,處理器102確定與SLO違背本身相關(guān)的趨勢。確定性能數(shù)據(jù)的子集的趨勢包括確定子集的一個元素以某種方式進(jìn)行行為表現(xiàn),另一個元素以某種方式進(jìn)行行為表現(xiàn)等,其中每個行為可以獨(dú)立于每個其他行為,并且每一個行為不需要同時發(fā)生。該行為包括線性的、指數(shù)的、算術(shù)的、幾何等的增加、減少、振蕩、隨機(jī)運(yùn)動等。該行為還包括方向性。例如,兩種行為In1 = 1, = 2,n3 = 3}和In1 = 3, = 2,n3 = 1}是不同的行為,即使每個行為包含相同的值,其中nx是元素的第χ個值。前一行為是網(wǎng)站業(yè)務(wù)增至三倍,而后一行為是網(wǎng)站業(yè)務(wù)減少至三分之一。在至少一個實(shí)施例中,行為也可表示為閾值。例如,{1 < Ii1 < 2, 2 < n2 < 3,3 < n3 < 4}。具體地,元素的第一值是在1和2之間,第二值是在2和3之間等。作為例子,可通過確定在特定時間段內(nèi)一個元素增加而另一個元素同時減少來確定趨勢。注意元素的行為不需要總是同時發(fā)生。許多可調(diào)整的參數(shù)可用于增加趨勢和性能不佳的量度之間的相關(guān),其允許性能不佳的量度的更準(zhǔn)確的預(yù)測。此類參數(shù)包括以下任意一個或全部用于子集的性能數(shù)據(jù)的元素的數(shù)量,為每個元素收集的樣本的數(shù)量,每個元素的記錄速率,元素的變化率,整個趨勢的變化率和性能數(shù)據(jù)本身的不同元素之間的相關(guān),例如如果一個元素的變化導(dǎo)致另一個元素的變化。許多可調(diào)整的參數(shù)和參數(shù)的組合都是可能的。 在至少一個實(shí)施例中,趨勢是子集的子趨勢的組合。例如,處理器確定性能數(shù)據(jù)的不同子集,當(dāng)每一個子集以其自己的特定方式進(jìn)行行為表現(xiàn)時,所述不同子集會導(dǎo)致SLO違背,但是當(dāng)少于全部的子集呈現(xiàn)其行為時所述不同子集不會導(dǎo)致SLO違背。
在至少一個實(shí)施例中,處理器102在確定趨勢之后停止監(jiān)視除了子集之外的性能數(shù)據(jù)。因?yàn)楸O(jiān)視本身是使用系統(tǒng)資源的增加的開銷,保持專用于監(jiān)視的系統(tǒng)資源的量處于最小是有利的。這樣,停止監(jiān)視與性能不佳的量度很少相關(guān)或不相關(guān)的性能數(shù)據(jù)的性能是優(yōu)選的。通過監(jiān)視子集,處理器102仍然能夠識別趨勢的發(fā)生。在這種識別后,在至少一個實(shí)施例中,處理器102監(jiān)視性能數(shù)據(jù)的第二子集。優(yōu)選地,第二子集包括至少一個不在該子集中的元素。系統(tǒng)管理者更喜歡在事實(shí)發(fā)生后研究各種數(shù)據(jù)源以確定SLO違背的根本原因,并且診斷信息的收集的這種動態(tài)控制(何時以及什么種類的更詳細(xì)監(jiān)視和探測作為第二子集被開啟)在SLO違背發(fā)生的情況下幫助系統(tǒng)管理者。然而,在正常操作期間收集相同級別的診斷信息是資源的低效使用。如果違背確實(shí)發(fā)生,處理器102優(yōu)選地自動改善性能數(shù)據(jù)的子集。許多改善方法是可能的。
機(jī)器學(xué)習(xí)技術(shù)確定和改善趨勢,所述趨勢在性能數(shù)據(jù)和性能不佳的量度之間建立相關(guān)。由于機(jī)器學(xué)習(xí)技術(shù)根據(jù)多樣的數(shù)據(jù)集創(chuàng)建相關(guān)的簡明表示,該技術(shù)對于確定哪些性能度量導(dǎo)致性能不佳和哪些性能度量能夠被安全地忽略是理想的。這樣,系統(tǒng)100是自我改善的。具體地,SLO違背的實(shí)例提供用于訓(xùn)練機(jī)器學(xué)習(xí)模型的正面例子,而沒有SLO違背的正常操作條件提供用于訓(xùn)練的負(fù)面例子。這樣,與性能不佳相關(guān)的性能數(shù)據(jù)的子集能夠自動地被調(diào)整,并且如果高度相關(guān)的子集由于任何原因突然或逐漸地變得不相關(guān),子集能夠被調(diào)整以保持高度相關(guān)。通過這種方式,正面和負(fù)面例子的穩(wěn)定提供允許自我改善。人為改善也是可能的。
警報模塊104優(yōu)選地基于趨勢的識別而輸出警報。在至少一個實(shí)施例中,處理器 102發(fā)送信號到警報模塊104以輸出警報。在至少一個實(shí)施例中,該警報是包含視覺警報、 音頻警報和電子郵件警報等的警報的組合。許多報警方法是可能的。優(yōu)選地,性能不佳的量度是性能不佳的未來量度,并且在性能不佳的未來量度發(fā)生之前輸出警報。在至少一個實(shí)施例中,性能不佳的未來量度是基于SLO的。
參考圖2,在各種實(shí)施例中,計(jì)算機(jī)可讀介質(zhì)988包括易失存儲器(例如隨機(jī)存取存儲器等),非易失儲存器(例如只讀存儲器,閃存,硬盤驅(qū)動器,CD-ROM等)或者其組合。 計(jì)算機(jī)可讀介質(zhì)包括由處理器982執(zhí)行的軟件984(包括固件)。在本文件中描述的一個或多個動作由處理器982在軟件執(zhí)行期間實(shí)施。優(yōu)選地,計(jì)算機(jī)可讀介質(zhì)988存儲軟件程序984,當(dāng)由處理器982執(zhí)行時,軟件程序984使得處理器982監(jiān)視性能數(shù)據(jù)和確定性能數(shù)據(jù)的子集,該子集與性能不佳的量度相關(guān)。優(yōu)選地,處理器982確定子集的趨勢,該趨勢與該量度相關(guān)。在至少一個實(shí)施例中,進(jìn)一步使得處理器982在確定趨勢之后停止監(jiān)視除了該子集之外的性能數(shù)據(jù)。處理器982優(yōu)選地識別趨勢的發(fā)生。在至少一個實(shí)施例中,進(jìn)一步使得處理器982在識別趨勢的發(fā)生之后監(jiān)視性能數(shù)據(jù)的第二子集,該第二子集包括至少一個不在該子集中的元素。處理器982優(yōu)選地基于所述識別輸出警報。在至少一個實(shí)施例中,該警報是到警報模塊104的信號。
圖3示出了根據(jù)至少一些實(shí)施例的趨勢確定和識別的方法300,其開始于302且結(jié)束于316。在該方法期間執(zhí)行在本文件中描述的一個或多個步驟。在304,監(jiān)視性能數(shù)據(jù)。 在306,確定性能數(shù)據(jù)的子集,該子集與性能不佳的量度相關(guān)。在308,確定子集的趨勢,該趨勢與該量度相關(guān)。在至少一個實(shí)施例中,在310,在確定趨勢后停止監(jiān)視除了該子集之外的性能數(shù)據(jù)。在312,識別趨勢的發(fā)生。在314,基于識別輸出警報。在至少一個實(shí)施例中, 警報是到警報模塊的信號。
以上討論旨在說明本發(fā)明的原理和各個實(shí)施例。一旦以上公開被充分理解,許多變形和修改對本領(lǐng)域普通技術(shù)人員來說是顯而易見的。以下權(quán)利要求意欲被解釋為涵蓋了所有這樣的變形和修改。
8
權(quán)利要求
1.一種系統(tǒng),包括 處理器;以及耦合到該處理器的警報模塊;其中,該處理器監(jiān)視性能數(shù)據(jù),在該性能數(shù)據(jù)中確定與性能不佳的量度相關(guān)的子集, 在該子集中確定與該量度相關(guān)的趨勢,以及識別所述趨勢的發(fā)生;以及其中該警報模塊基于該識別輸出警報。
2.如權(quán)利要求1的系統(tǒng),其中該處理器在確定趨勢之后停止監(jiān)視除了該子集之外的性能數(shù)據(jù)。
3.如權(quán)利要求2的系統(tǒng),其中該處理器在識別了趨勢的發(fā)生之后監(jiān)視性能數(shù)據(jù)的第二子集,該第二子集包括至少一個不在該子集中的元素。
4.如權(quán)利要求1的系統(tǒng),其中該量度是性能的子量度的組合。
5.如權(quán)利要求1的系統(tǒng),其中該趨勢是子集的子趨勢的組合。
6.如權(quán)利要求1的系統(tǒng),其中該性能不佳的量度是基于服務(wù)水平目標(biāo)的。
7.如權(quán)利要求1的系統(tǒng),其中性能數(shù)據(jù)包括應(yīng)用度量,操作系統(tǒng)度量,中間件度量和硬件度量。
8.如權(quán)利要求7的系統(tǒng),其中中間件度量選自由每秒的查詢,讀取的元組,高速緩沖存儲器中的頁面命中,盤輸入/輸出,頁面命中,每秒的請求,連接和表掃描組成的組中。
9.如權(quán)利要求7的系統(tǒng),其中操作系統(tǒng)度量選自由每秒的輸入/輸出操作,存儲器分配,頁面故障,頁面命中,駐留存儲器大小,中央處理單元使用和每秒傳送的分組組成的組中。
10.如權(quán)利要求7的系統(tǒng),其中應(yīng)用度量選自由先前的事務(wù),響應(yīng)時間和未完成請求組成的組中。
11.一種存儲軟件程序的計(jì)算機(jī)可讀介質(zhì),所述軟件程序當(dāng)由處理器執(zhí)行時使得該處理器監(jiān)視性能數(shù)據(jù);在該性能數(shù)據(jù)中確定與性能不佳的量度相關(guān)的子集; 在該子集中確定與該量度相關(guān)的趨勢; 識別所述趨勢的發(fā)生;以及基于該識別輸出警報。
12.如權(quán)利要求11的計(jì)算機(jī)可讀介質(zhì),進(jìn)一步使得該處理器在確定趨勢之后停止監(jiān)視除了該子集之外的性能數(shù)據(jù)。
13.如權(quán)利要求11的計(jì)算機(jī)可讀介質(zhì),進(jìn)一步使得該處理器在識別了趨勢的發(fā)生之后監(jiān)視性能數(shù)據(jù)的第二子集,該第二子集包括至少一個不在該子集中的元素。
14.一種方法,包括 監(jiān)視性能數(shù)據(jù);在該性能數(shù)據(jù)中確定與性能不佳的量度相關(guān)的子集; 在該子集中確定與該量度相關(guān)的趨勢; 識別所述趨勢的發(fā)生;以及基于該識別輸出警報。
15.如權(quán)利要求14的方法,進(jìn)一步包括在確定趨勢之后停止監(jiān)視除了該子集之外的性能數(shù)據(jù)。
16.如權(quán)利要求1的系統(tǒng),其中該性能不佳的量度是性能不佳的未來量度。
17.如權(quán)利要求16的系統(tǒng),其中該性能不佳的未來量度是基于服務(wù)水平目標(biāo)的。
全文摘要
一種系統(tǒng)包括處理器和耦合到該處理器的警報模塊。該處理器監(jiān)視性能數(shù)據(jù);確定該性能數(shù)據(jù)的子集,該子集與性能不佳的量度相關(guān);確定該子集的趨勢,該趨勢與該量度相關(guān);以及識別所述趨勢的發(fā)生。該警報模塊基于該識別輸出警報。
文檔編號G06F15/16GK102187327SQ200880131557
公開日2011年9月14日 申請日期2008年10月13日 優(yōu)先權(quán)日2008年10月13日
發(fā)明者M·烏伊薩爾, V·史密斯, A·A·默尚 申請人:惠普開發(fā)有限公司