欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

信息存儲(chǔ)裝置、故障預(yù)測(cè)裝置及故障預(yù)測(cè)方法與流程

文檔序號(hào):11261886閱讀:259來(lái)源:國(guó)知局
信息存儲(chǔ)裝置、故障預(yù)測(cè)裝置及故障預(yù)測(cè)方法與流程

本申請(qǐng)要求以美國(guó)臨時(shí)專(zhuān)利申請(qǐng)62/305,663號(hào)(申請(qǐng)日:2016年3月9日)為在先申請(qǐng)的優(yōu)先權(quán)。本申請(qǐng)通過(guò)參照該在先申請(qǐng)而包括在先申請(qǐng)的全部?jī)?nèi)容。

本實(shí)施方式通常涉及信息存儲(chǔ)裝置、故障預(yù)測(cè)裝置以及故障預(yù)測(cè)方法。



背景技術(shù):

為了防止磁盤(pán)裝置中記錄的數(shù)據(jù)的損壞和/或消失,希望預(yù)測(cè)磁盤(pán)裝置的故障,在預(yù)測(cè)到磁盤(pán)裝置的故障的情況下,快速地進(jìn)行配件更換和/或數(shù)據(jù)退避等。



技術(shù)實(shí)現(xiàn)要素:

本實(shí)施方式提供能夠適當(dāng)?shù)仡A(yù)測(cè)磁盤(pán)裝置等信息存儲(chǔ)裝置的故障的信息存儲(chǔ)裝置、故障預(yù)測(cè)裝置以及故障預(yù)測(cè)方法。

本實(shí)施方式的故障預(yù)測(cè)方法中,獲取記錄介質(zhì)上的錯(cuò)誤的物理位置信息,基于所述位置信息算出所述記錄介質(zhì)上的錯(cuò)誤之間的物理位置關(guān)系,基于所述位置關(guān)系判別關(guān)于所述錯(cuò)誤的故障模式。

附圖說(shuō)明

圖1是示出應(yīng)用第1實(shí)施方式所涉及的故障預(yù)測(cè)方法的存儲(chǔ)系統(tǒng)的概略構(gòu)成例的框圖。

圖2是示出用于圖1的存儲(chǔ)系統(tǒng)的磁盤(pán)裝置的概略構(gòu)成的框圖。

圖3的(a)以及圖3的(b)是示出應(yīng)用第1實(shí)施方式所涉及的故障預(yù)測(cè)方法的磁盤(pán)上的錯(cuò)誤分布的一例的圖。

圖4的(a)是示出頭故障以及盤(pán)故障中的錯(cuò)誤數(shù)與錯(cuò)誤間平均距離的關(guān)系的圖,圖4的(b)是示出頭故障以及盤(pán)故障中的錯(cuò)誤間平均距離與故障頻度的關(guān)系的直方圖。

圖5的(a)是示出圖2的參數(shù)信息收集部的工作的流程圖,圖5的(b)是示出圖1的故障預(yù)測(cè)裝置的工作的流程圖。

圖6是示出圖1的故障模式判別部的構(gòu)成例的框圖。

圖7是示出應(yīng)用第1實(shí)施方式所涉及的故障預(yù)測(cè)方法的存儲(chǔ)系統(tǒng)的其它例的框圖。

圖8是示出應(yīng)用第1實(shí)施方式所涉及的故障預(yù)測(cè)方法的存儲(chǔ)系統(tǒng)的又一其它例的框圖。

圖9是示出應(yīng)用第1實(shí)施方式所涉及的故障預(yù)測(cè)方法的存儲(chǔ)系統(tǒng)的又一其它例的框圖。

圖10是示出應(yīng)用第1實(shí)施方式所涉及的故障預(yù)測(cè)方法的存儲(chǔ)系統(tǒng)的又一其它例的框圖。

圖11的(a)至圖11的(c)是示出應(yīng)用第2實(shí)施方式所涉及的故障預(yù)測(cè)方法的磁盤(pán)上的錯(cuò)誤分布的一例的圖。

圖12是示出頭故障以及寫(xiě)入故障中的最大連續(xù)軌道數(shù)與故障頻度的關(guān)系的直方圖。

圖13是示出應(yīng)用第2實(shí)施方式所涉及的故障預(yù)測(cè)方法的故障預(yù)測(cè)裝置的工作的流程圖。

圖14是示出應(yīng)用第2實(shí)施方式所涉及的故障預(yù)測(cè)方法的故障模式判別部的構(gòu)成例的框圖。

圖15是示出被第2實(shí)施方式所涉及的故障預(yù)測(cè)方法檢測(cè)到的錯(cuò)誤位置的顯示例的圖。

具體實(shí)施方式

以下,參照附圖,對(duì)實(shí)施方式所涉及的磁盤(pán)裝置以及故障預(yù)測(cè)方法詳細(xì)地進(jìn)行說(shuō)明。此外,并不通過(guò)這些實(shí)施方式來(lái)限定本發(fā)明。

(第1實(shí)施方式)

圖1是示出應(yīng)用第1實(shí)施方式所涉及的故障預(yù)測(cè)方法的存儲(chǔ)系統(tǒng)的概略構(gòu)成例的框圖。

在圖1中,在存儲(chǔ)系統(tǒng)11a設(shè)置有n(n為正整數(shù))臺(tái)磁盤(pán)裝置hd1~hdn。存儲(chǔ)系統(tǒng)11a的容量能夠設(shè)定為例如太字節(jié)(terabyte)量級(jí)。存儲(chǔ)系統(tǒng)11a能夠用于例如數(shù)據(jù)中心。

圖2是示出用于圖1的存儲(chǔ)系統(tǒng)的磁盤(pán)裝置的概略構(gòu)成的框圖。

在圖2中,在磁盤(pán)裝置hdd設(shè)置有磁盤(pán)22,磁盤(pán)22經(jīng)由主軸21被支承。另外,在磁盤(pán)裝置hdd設(shè)置有頭滑塊hm,在頭滑塊hm,作為磁頭而設(shè)置有寫(xiě)入頭hw以及讀取頭hr。另外,寫(xiě)入頭hw以及讀取頭hr被配置成與磁盤(pán)22對(duì)置。

此外,在圖2中,示出如下情況:設(shè)置有3張磁盤(pán)22,通過(guò)在磁盤(pán)22的雙面進(jìn)行記錄,記錄面有6面。在此,能夠針對(duì)各記錄面設(shè)置磁頭。在此,頭滑塊hm經(jīng)由臂a被保持在磁盤(pán)22上。臂a能夠在尋道(seek)時(shí)等使頭滑塊hm在水平面內(nèi)滑動(dòng)。

另外,在磁盤(pán)裝置hdd設(shè)置有驅(qū)動(dòng)臂a的音圈馬達(dá)24,并且設(shè)置有使磁盤(pán)22旋轉(zhuǎn)的主軸馬達(dá)23。

寫(xiě)入頭hw以及讀取頭hr經(jīng)由頭放大器25與信號(hào)處理電路26連接。

另外,在磁盤(pán)裝置hdd設(shè)置有馬達(dá)驅(qū)動(dòng)器27、28、控制器29、mcu(microcontrollerunit;微控制器單元)30、存儲(chǔ)器31以及參數(shù)信息收集部32。信號(hào)處理電路26、馬達(dá)驅(qū)動(dòng)器27、28、控制器29、mcu30、存儲(chǔ)器31以及參數(shù)信息收集部32能夠經(jīng)由總線33而連接??刂破?9與外部裝置34連接。外部裝置34可以是主計(jì)算機(jī),也可以是外部接口。

頭放大器25能夠?qū)⒃趯?xiě)入頭hw中流動(dòng)的寫(xiě)入電流放大和/或?qū)⒂勺x取頭hr讀出的再生信號(hào)放大。信號(hào)處理電路26能夠?qū)⒂勺x取頭hr再生的信號(hào)轉(zhuǎn)換為可由主機(jī)10處理的數(shù)據(jù)形式,能夠?qū)闹鳈C(jī)10輸出的數(shù)據(jù)轉(zhuǎn)換為可由寫(xiě)入頭hw記錄的信號(hào)形式。馬達(dá)驅(qū)動(dòng)器27能夠驅(qū)動(dòng)主軸馬達(dá)23。馬達(dá)驅(qū)動(dòng)器28能夠驅(qū)動(dòng)音圈馬達(dá)24??刂破?9能夠進(jìn)行與外部裝置34的接口控制。mcu30能夠進(jìn)行磁盤(pán)裝置hdd的整體控制。存儲(chǔ)器31能夠保存磁盤(pán)裝置hdd的控制所必需的數(shù)據(jù)和/或作為寫(xiě)入緩沖器和/或讀取緩沖器使用。參數(shù)信息收集部32能夠收集與磁盤(pán)裝置hdd的寫(xiě)入或者讀取相關(guān)的參數(shù)信息以及錯(cuò)誤信息。錯(cuò)誤信息例如可以舉出錯(cuò)誤數(shù)、錯(cuò)誤率、錯(cuò)誤位置信息,參數(shù)信息可以舉出重試數(shù)、重試率、信號(hào)質(zhì)量值、頭浮起量等。

另外,在圖1中,存儲(chǔ)系統(tǒng)11a經(jīng)由接口(if)13與主機(jī)10連接。主機(jī)10與故障預(yù)測(cè)裝置15以及顯示部16連接。故障預(yù)測(cè)裝置15能夠預(yù)測(cè)各磁盤(pán)裝置hd1~hdn的故障模式。在該故障模式的預(yù)測(cè)中,可以使用與磁盤(pán)22上的錯(cuò)誤之間的物理位置關(guān)系相關(guān)的信息。該錯(cuò)誤可以是讀取錯(cuò)誤,也可以是寫(xiě)入錯(cuò)誤。在此,作為各磁盤(pán)裝置hd1~hdn的故障模式,故障預(yù)測(cè)裝置15可以判別盤(pán)故障和頭故障。在該故障模式的判別中,可以使用與磁盤(pán)22上的錯(cuò)誤之間的物理距離相關(guān)的參數(shù)。

或者,作為各磁盤(pán)裝置hd1~hdn的故障模式,故障預(yù)測(cè)裝置15也可以判別寫(xiě)入故障和讀取故障。在該故障模式的判別中,可以使用與磁盤(pán)22上的存在錯(cuò)誤的半徑方向的大小(日文:大きさ)相關(guān)的參數(shù)。

在故障預(yù)測(cè)裝置15設(shè)置有故障預(yù)兆檢測(cè)部15a、故障模式判別部15b以及保全部15c。故障預(yù)兆檢測(cè)部15a能夠檢測(cè)各磁盤(pán)裝置hd1~hdn的故障預(yù)兆。故障模式判別部15b能夠基于磁盤(pán)22上的錯(cuò)誤之間的物理位置關(guān)系來(lái)判別關(guān)于錯(cuò)誤的故障模式。在此,故障模式判別部15b能夠基于與磁盤(pán)22上的錯(cuò)誤之間的物理距離相關(guān)的參數(shù),來(lái)判別盤(pán)故障和頭故障。與錯(cuò)誤之間的物理距離相關(guān)的參數(shù)能夠表示磁盤(pán)22上的錯(cuò)誤分布的局部存在性(局部性)或者分散性。在此,通過(guò)將與錯(cuò)誤之間的物理距離相關(guān)的參數(shù)用于故障模式的判別,能夠?qū)⒐收夏J綌?shù)值化,能夠使計(jì)算機(jī)執(zhí)行故障模式的判別。保全部15c能夠根據(jù)各磁盤(pán)裝置hd1~hdn的故障模式來(lái)進(jìn)行數(shù)據(jù)的保全處理。

圖3的(a)以及圖3的(b)是示出應(yīng)用第1實(shí)施方式所涉及的故障預(yù)測(cè)方法的磁盤(pán)上的錯(cuò)誤分布的一例的圖。

在圖3的(a)中,錯(cuò)誤pe分散在磁盤(pán)22上。該錯(cuò)誤pe的分散由于磁頭移動(dòng)至磁盤(pán)22上的任意位置而發(fā)生。因此,當(dāng)存在錯(cuò)誤pe的分散的情況下,能夠判別為頭故障。

另一方面,在圖3的(b)中,錯(cuò)誤pe存在于磁盤(pán)22的局部上。該錯(cuò)誤pe的局部存在能夠與磁盤(pán)22的局部的損傷對(duì)應(yīng)。因此,當(dāng)錯(cuò)誤pe局部存在的情況下,能夠判別為盤(pán)故障。

作為與錯(cuò)誤之間的物理距離相關(guān)的參數(shù),能夠使用分散率d。通過(guò)使用該分散率d,能夠容易地判定磁盤(pán)22上的錯(cuò)誤分布的局部存在性或者分散性。對(duì)于該分散率d,可以根據(jù)錯(cuò)誤間平均距離w和錯(cuò)誤間平均距離的期待值we,利用以下的式子給出。

d=w/we

其中,

s:分布有錯(cuò)誤的面積

di:從錯(cuò)誤i到最鄰近錯(cuò)誤為止的距離

n:錯(cuò)誤個(gè)數(shù)

在此,若分散率d為比1小的程度,則能夠稱(chēng)為錯(cuò)誤pe局部存在,若分散率d為接近1的程度,則錯(cuò)誤pe會(huì)分散。能夠使分散率d反映錯(cuò)誤的空間分布特性,能夠使盤(pán)故障的判別精度得以提高。

圖4的(a)是示出頭故障以及盤(pán)故障中的錯(cuò)誤數(shù)(可恢復(fù)錯(cuò)誤(recoverederror)數(shù))和錯(cuò)誤間平均距離的關(guān)系的圖,圖4的(b)是示出頭故障以及盤(pán)故障中的錯(cuò)誤間平均距離和故障頻度的關(guān)系的直方圖。此外,錯(cuò)誤間平均距離用mddbe表現(xiàn)。

在圖4的(a)以及圖4的(b)中,利用錯(cuò)誤間平均距離,將頭故障組和盤(pán)故障組明確地分離。在此,能夠從錯(cuò)誤比較少的階段起,將頭故障組與盤(pán)故障組分離。

在此,通過(guò)在各磁盤(pán)裝置hd1~hdn的故障預(yù)測(cè)時(shí)判別是頭故障還是盤(pán)故障,能夠早期地判斷是無(wú)法在磁盤(pán)22整面進(jìn)行讀取或者寫(xiě)入的狀態(tài)、還是能夠在磁盤(pán)22的局部區(qū)域以外正常地進(jìn)行讀取或者寫(xiě)入的狀態(tài)。因此,能夠在防止磁盤(pán)裝置hd1~hdn的過(guò)度更換的同時(shí),防止數(shù)據(jù)的大范圍的損壞,能夠在抑制成本增加的同時(shí),提高各磁盤(pán)裝置hd1~hdn的可靠性。

以下,對(duì)圖1的故障預(yù)測(cè)裝置15的整體的工作進(jìn)行說(shuō)明。

圖5的(a)是示出圖2的參數(shù)信息收集部的工作的流程圖,圖5的(b)是示出圖1的故障預(yù)測(cè)裝置的工作的流程圖。

在圖5的(a)中,在磁盤(pán)裝置hdd通常工作的情況下(s1),判斷是否發(fā)生了錯(cuò)誤(s2)。在發(fā)生了錯(cuò)誤的情況下,在參數(shù)信息收集部32中,獲取錯(cuò)誤信息(s3),并記錄該錯(cuò)誤信息(s4)。另外,即便在未發(fā)生錯(cuò)誤的情況下(s2),當(dāng)發(fā)生內(nèi)部的定時(shí)器中斷(timerinterrupt)(s5)時(shí),在參數(shù)信息收集部32中,獲取磁盤(pán)裝置hdd的內(nèi)部信息(s6),并記錄該內(nèi)部信息(s7)。

另一方面,在圖5的(b)中,在磁盤(pán)裝置hdd通常工作的情況下(s11),在故障預(yù)測(cè)裝置15中,從參數(shù)信息收集部32獲取錯(cuò)誤信息以及內(nèi)部信息(s12)。另外,在故障預(yù)兆檢測(cè)部15a中,基于錯(cuò)誤數(shù)、錯(cuò)誤率、錯(cuò)誤位置信息、重試數(shù)、重試率、信號(hào)質(zhì)量值以及頭浮起量等測(cè)定值,來(lái)檢測(cè)有無(wú)故障預(yù)兆(s13)。例如,使用該測(cè)定值中的某一個(gè)或者該測(cè)定值中的1個(gè)以上來(lái)算出評(píng)價(jià)值,在該評(píng)價(jià)值超過(guò)了預(yù)定的閾值的情況下,能夠判定為存在故障預(yù)兆。在未檢測(cè)到故障預(yù)兆的情況下,繼續(xù)使用磁盤(pán)裝置hdd(s15)。

另一方面,若在故障預(yù)兆檢測(cè)部15a中檢測(cè)到故障預(yù)兆,則在故障模式判定部15b中,判定關(guān)于故障預(yù)兆的故障模式(s14)。故障模式判定部15b在預(yù)定的定時(shí),獲取磁盤(pán)裝置hdd內(nèi)所保存的參數(shù)信息以及錯(cuò)誤信息。在此所述的錯(cuò)誤意味磁數(shù)據(jù)的讀取錯(cuò)誤,其中除包含可恢復(fù)的錯(cuò)誤之外,還包含通過(guò)扇區(qū)交替處理恢復(fù)的交替源(日文:交代元)的錯(cuò)誤。在此,故障模式判定部15b能夠憑借預(yù)定的閾值,根據(jù)與錯(cuò)誤的空間連續(xù)性相關(guān)的參數(shù),判定關(guān)于故障預(yù)兆的故障模式是盤(pán)故障、還是頭故障。

在判定為故障模式是頭故障的情況下,在保全部15c中,保全由該讀取頭hr讀出的數(shù)據(jù)(s16)。該由讀取頭hr讀出的數(shù)據(jù)是指記錄于與該讀取頭hr對(duì)應(yīng)的盤(pán)面的數(shù)據(jù)。在此,保全部15c能夠?qū)⒂膳卸榇嬖陬^故障的預(yù)兆的讀取頭hr讀出的數(shù)據(jù)拷貝至其它的盤(pán)面。其它的盤(pán)面是指,磁盤(pán)裝置hdd所含的盤(pán)面(在圖2的例子中為6面)中的、由判定為存在頭故障的預(yù)兆的讀取頭hr以外的讀取頭hr讀出數(shù)據(jù)的盤(pán)面。

其它的盤(pán)面既可以是設(shè)置有被判定為存在頭故障的預(yù)兆的讀取頭hr的盤(pán)面的相反側(cè)的盤(pán)面,也可以是與設(shè)置有被判定為存在頭故障的預(yù)兆的讀取頭hr的磁盤(pán)22不同的磁盤(pán)22的盤(pán)面,還可以是與具備被判定為存在頭故障的預(yù)兆的讀取頭hr的磁盤(pán)裝置不同的磁盤(pán)裝置所含的盤(pán)面。另外,優(yōu)選其它的盤(pán)面是設(shè)置于該盤(pán)面的讀取頭hr的狀態(tài)良好的盤(pán)面。讀取頭hr的狀態(tài)良好的盤(pán)面也可以是與判定為無(wú)故障預(yù)兆的讀取頭hr對(duì)應(yīng)的盤(pán)面、或在該盤(pán)面發(fā)生的錯(cuò)誤數(shù)為預(yù)定值以下的盤(pán)面。進(jìn)而,優(yōu)選其它的盤(pán)面是錯(cuò)誤率少的盤(pán)面。在此,保全部15c能夠從磁盤(pán)裝置收集各盤(pán)面的錯(cuò)誤率,基于所收集的錯(cuò)誤率,選擇錯(cuò)誤率少的盤(pán)面。

在判定為故障模式是盤(pán)故障的情況下,在保全部15c中,能夠根據(jù)發(fā)生了錯(cuò)誤的地址信息,決定是盤(pán)故障的可能性高的區(qū)域,并向主機(jī)10通知不在該區(qū)域新記錄數(shù)據(jù)。另外,也可以向用戶(hù)通知有無(wú)故障預(yù)兆和/或與故障模式相關(guān)的信息(s17)。此外,基于保全部15c的數(shù)據(jù)的保全方法不限于上述的方法。例如,保全部15c也可以將多個(gè)保全方法保存于查找表等,根據(jù)被檢測(cè)到預(yù)兆的頭的id和/或各頭的評(píng)價(jià)值等,選擇要執(zhí)行的保全方法。

圖6是示出圖1的故障模式判別部的構(gòu)成例的框圖。

在圖6中,在故障模式判別部15b設(shè)置有錯(cuò)誤記錄獲取部41、位置信息生成部42、故障模式判別模型43以及物理位置轉(zhuǎn)換表44。錯(cuò)誤記錄獲取部41能夠經(jīng)由主機(jī)10獲取錯(cuò)誤記錄。位置信息生成部42能夠生成磁盤(pán)22上的錯(cuò)誤的物理位置信息。物理位置轉(zhuǎn)換表44能夠保持邏輯地址與磁盤(pán)上的物理位置信息的對(duì)應(yīng)關(guān)系。故障模式判別模型43能夠構(gòu)建以與錯(cuò)誤的位置信息相關(guān)的參數(shù)為解釋變量(說(shuō)明變量)的回歸模型。在判別是頭故障、還是盤(pán)故障的情況下,也可以構(gòu)建以與錯(cuò)誤的個(gè)數(shù)和錯(cuò)誤之間的物理距離相關(guān)的參數(shù)為解釋變量的多變量邏輯回歸模型。

另外,通過(guò)錯(cuò)誤記錄獲取部41從參數(shù)信息收集部32獲取錯(cuò)誤記錄。在該錯(cuò)誤記錄中可以包含錯(cuò)誤的邏輯地址。另外,在錯(cuò)誤記錄中,存在將寫(xiě)入錯(cuò)誤和讀取錯(cuò)誤區(qū)別地記錄的情況,但是,也可以包含錯(cuò)誤記錄的寫(xiě)入錯(cuò)誤和讀取錯(cuò)誤而稱(chēng)為錯(cuò)誤。另外,在位置信息生成部42中,通過(guò)參照邏輯-物理地址轉(zhuǎn)換表44而將錯(cuò)誤的邏輯地址轉(zhuǎn)換為物理地址。另外,在故障模式判別模型43中,基于錯(cuò)誤的物理地址生成與錯(cuò)誤之間的物理距離相關(guān)的參數(shù),根據(jù)該參數(shù)判別故障模式。

在此,在對(duì)故障模式的判別使用多變量邏輯回歸模型的情況下,可以使用以下的式(1)。

p=1/(1+exp(-(β0+β1x1+…+βnxn)))…(1)

其中,p為模型輸出,x為解釋變量,β為其系數(shù)。在判別是頭故障、還是盤(pán)故障的情況下,可以對(duì)解釋變量x使用錯(cuò)誤的個(gè)數(shù)(例如,可恢復(fù)錯(cuò)誤數(shù))、再生扇區(qū)數(shù)、或者與錯(cuò)誤之間的物理距離相關(guān)的參數(shù)。與錯(cuò)誤之間的物理距離相關(guān)的參數(shù)可以從分散率、錯(cuò)誤之間的二維距離平均值、錯(cuò)誤之間的二維距離中央值、錯(cuò)誤之間的一維距離平均值以及錯(cuò)誤之間的一維距離中央值之中進(jìn)行選擇。二維距離平均值以及二維距離中央值能夠體現(xiàn)二維空間距離。在使用二維空間距離的方法中,能夠精度良好地判別錯(cuò)誤之間的接近性,能夠精度良好地判別錯(cuò)誤的局部性或者分散性。一維距離平均值以及一維距離中央值能夠體現(xiàn)柱面(cylinder)距離。使用柱面距離的方法,與使用二維空間距離的方法相比,能夠降低涉及計(jì)算的負(fù)擔(dān)。

能夠通過(guò)該模型輸出p與預(yù)定的閾值的大小關(guān)系來(lái)判別是盤(pán)故障、還是頭故障。例如,能夠表示:模型輸出p越接近于1,則是盤(pán)故障的可能性越高,模型輸出p越接近于0,則是頭故障的可能性越高。

圖7是示出應(yīng)用第1實(shí)施方式所涉及的故障預(yù)測(cè)方法的存儲(chǔ)系統(tǒng)的其它例的框圖。

在圖1中,示出了以單體構(gòu)成故障預(yù)測(cè)裝置15的例子,當(dāng)也可以將故障預(yù)測(cè)裝置15內(nèi)置于服務(wù)器。

即,在圖7中,在存儲(chǔ)系統(tǒng)11b設(shè)置有n臺(tái)磁盤(pán)裝置hd1~hdn、外部接口12a、控制裝置12b以及維護(hù)接口12c??刂蒲b置12b能夠?qū)⒋疟P(pán)裝置hd1~hdn與外部接口12a或者維護(hù)接口12c連接。外部接口12a經(jīng)由外部網(wǎng)絡(luò)50與m(m為正整數(shù))臺(tái)客戶(hù)端pc1~pcm連接。維護(hù)接口12c與管理服務(wù)器51a連接。管理服務(wù)器能夠與一個(gè)或者多個(gè)存儲(chǔ)系統(tǒng)12b的維護(hù)接口12c連接。在管理服務(wù)器51a設(shè)置有主機(jī)10、故障預(yù)測(cè)裝置15以及顯示部16。

在此,故障預(yù)測(cè)裝置15能夠經(jīng)由維護(hù)接口12c對(duì)磁盤(pán)裝置hd1~hdn進(jìn)行訪問(wèn),能夠減輕涉及外部網(wǎng)絡(luò)50的負(fù)擔(dān)。

圖8是示出應(yīng)用第1實(shí)施方式所涉及的故障預(yù)測(cè)方法的存儲(chǔ)系統(tǒng)的又一其它例的框圖。

在圖7中,示出了故障預(yù)測(cè)裝置15不經(jīng)由外部網(wǎng)絡(luò)50對(duì)磁盤(pán)裝置hd1~hdn進(jìn)行訪問(wèn)的例子,但也可以經(jīng)由外部網(wǎng)絡(luò)50與磁盤(pán)裝置hd1~hdn進(jìn)行訪問(wèn)。

即,在圖8中,在存儲(chǔ)系統(tǒng)11c設(shè)置有n臺(tái)磁盤(pán)裝置hd1~hdn、外部接口12a以及控制裝置12b。控制裝置12b能夠?qū)⒋疟P(pán)裝置hd1~hdn與外部接口12a連接。外部接口12a經(jīng)由外部網(wǎng)絡(luò)50與客戶(hù)端pc1~pcm以及管理服務(wù)器51a連接。在管理服務(wù)器51a設(shè)置有主機(jī)10、故障預(yù)測(cè)裝置15以及顯示部16。

在此,故障預(yù)測(cè)裝置15能夠經(jīng)由外部網(wǎng)絡(luò)50對(duì)磁盤(pán)裝置hd1~hdn進(jìn)行訪問(wèn)。因此,不再需要存儲(chǔ)系統(tǒng)11c設(shè)置維護(hù)接口12c,與圖7的存儲(chǔ)系統(tǒng)11b相比能夠使構(gòu)成簡(jiǎn)化。

圖9是示出應(yīng)用第1實(shí)施方式所涉及的故障預(yù)測(cè)方法的存儲(chǔ)系統(tǒng)的又一其它例的框圖。

在圖7以及圖8中,示出了故障預(yù)測(cè)裝置15設(shè)置于磁盤(pán)裝置hd1~hdn的外部的例子,但也可以設(shè)置于各磁盤(pán)裝置hd1~hdn。

即,在圖9中,在存儲(chǔ)系統(tǒng)11d設(shè)置有n臺(tái)磁盤(pán)裝置hd1~hdn、外部接口12a、控制裝置12b以及維護(hù)接口12c。在各磁盤(pán)裝置hd1~hdn,設(shè)置有故障預(yù)測(cè)裝置15以及主機(jī)10??刂蒲b置12b能夠?qū)⒋疟P(pán)裝置hd1~hdn與外部接口12a或者維護(hù)接口12c連接。外部接口12a經(jīng)由外部網(wǎng)絡(luò)50與客戶(hù)端pc1~pcm連接。維護(hù)接口12c與管理服務(wù)器51b連接。管理服務(wù)器51b與顯示部16連接。

在此,通過(guò)在各磁盤(pán)裝置hd1~hdn設(shè)置故障預(yù)測(cè)裝置15,能夠使各磁盤(pán)裝置hd1~hdn專(zhuān)有故障預(yù)測(cè)裝置15,能夠減輕涉及故障預(yù)測(cè)裝置15的負(fù)擔(dān)。

圖10是示出應(yīng)用第1實(shí)施方式所涉及的故障預(yù)測(cè)方法的存儲(chǔ)系統(tǒng)的又一其它例的框圖。

在圖9中,示出故障預(yù)測(cè)裝置15設(shè)置于各磁盤(pán)裝置hd1~hdn的例子,但也可以設(shè)置于存儲(chǔ)系統(tǒng)11e。

即,在圖10中,在存儲(chǔ)系統(tǒng)11e設(shè)置有n臺(tái)磁盤(pán)裝置hd1~hdn、外部接口12a、控制裝置12b、管理接口12d以及管理節(jié)點(diǎn)12e??刂蒲b置12b能夠?qū)⒋疟P(pán)裝置hd1~hdn與外部接口12a或者管理接口12d連接。外部接口12a經(jīng)由外部網(wǎng)絡(luò)50與m臺(tái)客戶(hù)端pc1~pcm連接。管理接口12d與管理服務(wù)器12e連接。在管理服務(wù)器12e設(shè)置有主機(jī)10、故障預(yù)測(cè)裝置15以及顯示部16。管理服務(wù)器12e也可以經(jīng)由管理接口12d與多個(gè)存儲(chǔ)系統(tǒng)11e連接。在該情況下,在由管理接口12d連接的多個(gè)存儲(chǔ)系統(tǒng)11e中,只要存在至少一個(gè)以上的具有管理服務(wù)器12e的存儲(chǔ)系統(tǒng)11e即可,也可以是組合使用無(wú)管理系統(tǒng)12e的存儲(chǔ)系統(tǒng)的構(gòu)成。

在此,故障預(yù)測(cè)裝置15能夠經(jīng)由管理接口12d對(duì)磁盤(pán)裝置hd1~hdn進(jìn)行訪問(wèn),能夠減輕涉及外部網(wǎng)絡(luò)50的負(fù)擔(dān)。

此外,在上述的實(shí)施方式中,對(duì)于判別作為故障模式是頭故障、還是盤(pán)故障的方法進(jìn)行了說(shuō)明,但也可以應(yīng)用于判別作為故障模式是頭故障、還是介質(zhì)故障的方法。另外,在上述的實(shí)施方式中,作為記錄介質(zhì),以磁盤(pán)為例,但是,記錄介質(zhì)也可以是磁光盤(pán),還可以是相變型光盤(pán)。

(第2實(shí)施方式)

圖11的(a)至圖11的(c)是示出應(yīng)用第2實(shí)施方式所涉及的故障預(yù)測(cè)方法的磁盤(pán)上的錯(cuò)誤分布的一例的圖。

在圖11的(a)中,在磁盤(pán)22上,錯(cuò)誤pe僅在1條軌道t內(nèi)沿圓周方向連續(xù)地發(fā)生。在軌道t內(nèi)僅在圓周方向連續(xù)地發(fā)生錯(cuò)誤pe的情況下,該錯(cuò)誤pe的軌跡能夠與寫(xiě)入頭hw寫(xiě)入時(shí)的軌跡對(duì)應(yīng)。因此,在錯(cuò)誤pe在軌道t內(nèi)僅在圓周方向上連續(xù)地發(fā)生的情況下,能夠判別為寫(xiě)入故障。

另一方面,在圖11的(b)中,在磁盤(pán)22上,錯(cuò)誤pe在區(qū)域ea局部存在。但是,圖11的(b)的錯(cuò)誤pe,遍及多個(gè)軌道t而發(fā)生。該錯(cuò)誤pe的局部存在能夠與磁盤(pán)22的局部的損傷對(duì)應(yīng)。因此,在錯(cuò)誤pe遍及多個(gè)軌道t而局部存在于區(qū)域ea的情況下,能夠判別為盤(pán)故障。

另一方面,在圖11的(c)中,在磁盤(pán)22上,錯(cuò)誤pe遍及大范圍地分散。該錯(cuò)誤pe的分散由于磁頭移動(dòng)至磁盤(pán)22上的任意的位置而發(fā)生。在該情況下,存在不僅發(fā)生了頭故障,還發(fā)生了大范圍內(nèi)的盤(pán)故障或者這雙方的故障的可能性。在該情況下,由于錯(cuò)誤pe分散,因此,磁盤(pán)22的盤(pán)面全部無(wú)法被使用,該磁盤(pán)22上的故障的范圍與頭故障相同。因此,在存在錯(cuò)誤pe的分散的情況,能夠判別為頭故障。

圖12是示出頭故障以及寫(xiě)入故障中的最大連續(xù)軌道數(shù)與故障頻度的關(guān)系的直方圖。此外,頭故障組(群)與讀取時(shí)發(fā)生的錯(cuò)誤(也稱(chēng)為讀取故障)對(duì)應(yīng),寫(xiě)入故障組與寫(xiě)入時(shí)發(fā)生的錯(cuò)誤(也稱(chēng)為寫(xiě)入故障)對(duì)應(yīng)。也能夠換言之為:讀取故障組是由于與圖2中的讀取頭hr相關(guān)聯(lián)的故障而發(fā)生的錯(cuò)誤,寫(xiě)入故障組是由于與寫(xiě)入頭hw相關(guān)聯(lián)的故障而發(fā)生的錯(cuò)誤。

在圖12中,對(duì)于寫(xiě)入故障組,在軌道t內(nèi)沿圓周方向連續(xù)地發(fā)生了錯(cuò)誤pe。頭故障組遍及多個(gè)軌道t發(fā)生了錯(cuò)誤pe。因此,能夠利用發(fā)生錯(cuò)誤pe的最大連續(xù)軌道數(shù),將頭故障組與寫(xiě)入故障組明確地分離。

在此,通過(guò)在各磁盤(pán)裝置hd1~hdn的故障預(yù)測(cè)時(shí)判別是寫(xiě)入故障、還是讀取故障,能夠早期地檢測(cè)能夠進(jìn)行磁盤(pán)22的讀取、但無(wú)法進(jìn)行寫(xiě)入的狀態(tài)。因此,通過(guò)在禁止磁盤(pán)22的寫(xiě)入同時(shí)容許讀取,能夠在防止磁盤(pán)裝置hd1~hdn的過(guò)度更換的同時(shí)防止數(shù)據(jù)的大范圍的損壞,能夠在抑制成本增加的同時(shí),提高各磁盤(pán)裝置hd1~hdn的可靠性。

圖13是示出應(yīng)用第2實(shí)施方式所涉及的故障預(yù)測(cè)方法的故障預(yù)測(cè)裝置的工作的流程圖。

在圖13中,在磁盤(pán)裝置hdd通常工作的情況下(s21),故障預(yù)測(cè)裝置15,從參數(shù)信息收集部32獲取錯(cuò)誤信息(s22)。另外,在故障預(yù)兆檢測(cè)部15a中,基于錯(cuò)誤數(shù)、錯(cuò)誤率、錯(cuò)誤位置信息、重試數(shù)、重試率、信號(hào)質(zhì)量值以及頭浮起量等測(cè)定值,檢測(cè)有無(wú)故障預(yù)兆(s23)。在未檢測(cè)到故障預(yù)兆的情況下,繼續(xù)使用磁盤(pán)裝置hdd(s25)。

另一方面,若由故障預(yù)兆檢測(cè)部15a檢測(cè)到故障預(yù)兆,則在故障模式判定部15b中,判定關(guān)于故障預(yù)兆的故障模式(s24)。在此,故障模式判定部15b能夠憑借預(yù)定的閾值,以與存在錯(cuò)誤的半徑方向的大小相關(guān)的參數(shù)為基礎(chǔ),判定關(guān)于故障預(yù)兆的故障模式是寫(xiě)入故障、還是讀取故障。與錯(cuò)誤的半徑方向的大小相關(guān)的參數(shù),例如可以使用在磁盤(pán)裝置hdd中發(fā)生的所有錯(cuò)誤的軌道總數(shù)和/或錯(cuò)誤不重復(fù)的軌道編號(hào)的總數(shù)等?;蛘?,也可以使用錯(cuò)誤的半徑方向的軌道位置的標(biāo)準(zhǔn)偏差和/或軌道間距離的總和等?;蛘?,也可以使用最大連續(xù)軌道數(shù)(在磁盤(pán)裝置hdd中發(fā)生的全部的錯(cuò)誤連續(xù)的軌道數(shù)的最大值)。

在判定為故障模式是寫(xiě)入故障的情況下,在保全部15c中,例如,針對(duì)被判定為寫(xiě)入故障的盤(pán)面,通過(guò)禁止自此以后的寫(xiě)入而抑制錯(cuò)誤的發(fā)生(s26)。另外,由于認(rèn)為未發(fā)生讀取故障,因此,也可以通過(guò)通常的讀取工作使存儲(chǔ)于盤(pán)面的數(shù)據(jù)進(jìn)行退避。進(jìn)而,例如,也可以通過(guò)在數(shù)據(jù)退避后等再次進(jìn)行寫(xiě)入而判斷是否是暫時(shí)的和/或局部的寫(xiě)入錯(cuò)誤。另外,也可以向用戶(hù)通知有無(wú)故障預(yù)兆和/或與故障模式相關(guān)的信息。

在故障模式被判定為讀取故障的情況下,在保全部15c中,也可以根據(jù)讀取錯(cuò)誤的個(gè)數(shù)等來(lái)對(duì)數(shù)據(jù)退避和/或繼續(xù)使用進(jìn)行判斷(s27)。另外,讀取故障的情況也存在未讀取到數(shù)據(jù)的情況,因此,也可以為了保全而提前將記錄于其它的磁盤(pán)裝置hdd的數(shù)據(jù)進(jìn)一步拷貝至其它的場(chǎng)所。另外,也可以通過(guò)與實(shí)施方式1同樣的保全方法,來(lái)進(jìn)行數(shù)據(jù)的保全。

圖14是示出應(yīng)用第2實(shí)施方式所涉及的故障預(yù)測(cè)方法的故障模式判別部的構(gòu)成例的框圖。

在圖14中,在第2實(shí)施方式中,可以取代故障模式判別部15b而設(shè)置故障模式判別部15b′。在故障模式判別部15b′設(shè)置有錯(cuò)誤記錄獲取部41、位置信息生成部42′以及故障模式判別模型43′。錯(cuò)誤記錄獲取部41能夠經(jīng)由主機(jī)10獲取錯(cuò)誤記錄。位置信息生成部42′能夠生成磁盤(pán)22上的錯(cuò)誤的物理位置信息。故障模式判別模型43′能夠構(gòu)建以與錯(cuò)誤的位置信息相關(guān)的參數(shù)為解釋變量的回歸模型。在判別是寫(xiě)入故障、還是讀取故障的情況下,也可以構(gòu)建以與軌道數(shù)相關(guān)的參數(shù)和/或錯(cuò)誤次數(shù)、重試次數(shù)等為解釋變量的多變量邏輯回歸模型。

另外,利用錯(cuò)誤記錄獲取部41從參數(shù)信息收集部32獲取錯(cuò)誤記錄。在該錯(cuò)誤記錄中可以含有錯(cuò)誤的邏輯地址。另外,在位置信息生成部42′中,從錯(cuò)誤的邏輯地址生成錯(cuò)誤的軌道位置。另外,在故障模式判別模型43′中,基于錯(cuò)誤的軌道位置生成與存在錯(cuò)誤的半徑方向的大小相關(guān)的參數(shù),根據(jù)該參數(shù)判別故障模式。

在此,在對(duì)故障模式的判別使用多變量邏輯回歸模型的情況下,能夠使用式(1)。在判別是寫(xiě)入故障、還是讀取故障的情況下,對(duì)于解釋變量x,可以使用軌道總數(shù)和/或錯(cuò)誤次數(shù)等。或者,也可以使用錯(cuò)誤的最大連續(xù)軌道數(shù)、內(nèi)部信息記錄中的交替處理啟動(dòng)次數(shù)、錯(cuò)誤信息記錄的全部錯(cuò)誤的軌道位置的分散、記錄于錯(cuò)誤信息記錄的硬件錯(cuò)誤次數(shù)、內(nèi)部信息記錄中的寫(xiě)入重試次數(shù)、記錄于錯(cuò)誤信息記錄的寫(xiě)入錯(cuò)誤次數(shù)、內(nèi)部信息記錄中的讀取重試次數(shù)、記錄于內(nèi)部信息記錄的軟件錯(cuò)誤次數(shù)、記錄于錯(cuò)誤信息記錄的軟件錯(cuò)誤次數(shù)等。能夠通過(guò)該模型輸出p與預(yù)定的閾值的大小關(guān)系來(lái)判別是寫(xiě)入故障、還是讀取故障。例如,能夠表示為:模型輸出p越接近于1,則是寫(xiě)入故障的可能性越高,模型輸出p越接近于0,則是讀取故障的可能性越高。

圖15是示出被第2實(shí)施方式所涉及的故障預(yù)測(cè)方法檢測(cè)到的錯(cuò)誤位置的顯示例的圖。

在圖15中,設(shè)為預(yù)測(cè)圖1的磁盤(pán)裝置hdd的寫(xiě)入故障和讀取故障。在此,對(duì)磁盤(pán)裝置hdd的與6面相當(dāng)?shù)谋P(pán)面標(biāo)注①至⑥的編號(hào),各盤(pán)面的狀態(tài)顯示在顯示部16。在此,針對(duì)各盤(pán)面,能夠顯示有無(wú)故障預(yù)兆(“d:-”表示無(wú)故障預(yù)兆)、寫(xiě)入故障與讀取故障的區(qū)別、錯(cuò)誤軌道數(shù)以及錯(cuò)誤位置等。

此外,在故障預(yù)測(cè)裝置15判別是寫(xiě)入故障、還是讀取故障的情況下,既可以應(yīng)用于圖1的構(gòu)成,也可以應(yīng)用于圖7至圖10中任一個(gè)的構(gòu)成。

雖然說(shuō)明了本發(fā)明的幾個(gè)實(shí)施方式,但是這些實(shí)施方式只是作為例子而示出的,并非用于限定發(fā)明的范圍。這些新的實(shí)施方式能夠以其他各種方式被實(shí)施,在不脫離發(fā)明的主旨的范圍內(nèi),可以進(jìn)行各種省略、置換、變更。這些實(shí)施方式和其變形包含于發(fā)明的范圍和主旨內(nèi),并且包含于權(quán)利要求書(shū)所記載的發(fā)明及其等同的范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
章丘市| 黑水县| 梅河口市| 景宁| 莲花县| 台中县| 新乡县| 商洛市| 芜湖县| 鹤峰县| 绥滨县| 搜索| 锡林浩特市| 自贡市| 玉山县| 呼和浩特市| 黔江区| 湾仔区| 象州县| 宁河县| 桦川县| 延川县| 马鞍山市| 小金县| 淮南市| 买车| 晋中市| 延长县| 长春市| 曲麻莱县| 宁阳县| 金堂县| 嘉义县| 普陀区| 高碑店市| 三穗县| 金秀| 喀喇| 汽车| 永新县| 易门县|