專利名稱:評(píng)價(jià)文件重要性程度的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)存儲(chǔ)技術(shù)領(lǐng)域,具體涉及一種評(píng)價(jià)文件重要性程 度的方法。
背景技術(shù):
在存儲(chǔ)領(lǐng)域中, 一直有性能和價(jià)格的平衡,將最重要的數(shù)據(jù)放在最 安全的設(shè)備上,將常被訪問的數(shù)據(jù)放在性能最好的設(shè)備上,對(duì)整個(gè)系統(tǒng) 的性能和安全性都是一個(gè)提升。傳統(tǒng)的數(shù)據(jù)重要性的評(píng)價(jià)主要是根據(jù)訪 問頻率或者訪問時(shí)間間隔得到的熱點(diǎn)數(shù)據(jù)進(jìn)行被動(dòng)式的記錄,這已經(jīng)遠(yuǎn) 不能滿足當(dāng)今數(shù)據(jù)復(fù)雜性日益增大的存儲(chǔ)需求。
在互聯(lián)網(wǎng)領(lǐng)域,Google針對(duì)網(wǎng)頁超級(jí)鏈接提出了頁面級(jí)別 (PageRank)技術(shù),見L Page, S. Brin, R. Motwani, and T. Winogmd. The PageRank Citation Ranking: Bringing Order to the Web. Technical r印ort, Stanford Digital Library Technologies Project, 1998., 這種技術(shù)的核心就是通過網(wǎng)頁鏈接的價(jià)值傳遞來計(jì)算一個(gè)網(wǎng)頁的重要 性,用這種技術(shù)對(duì)互聯(lián)網(wǎng)上成千上萬的網(wǎng)頁按照其級(jí)別值進(jìn)行排序。 Google通過頁面級(jí)別(PageRank)來調(diào)整搜索結(jié)果,使那些更具有重要 性的網(wǎng)頁在搜索結(jié)果中的網(wǎng)站排名獲得提升,從而提高搜索結(jié)果的相關(guān) 性和質(zhì)量。在該技術(shù)中,網(wǎng)頁鏈接的訪問矩陣中的文件關(guān)聯(lián)度僅僅用1 (代表有訪問關(guān)聯(lián))或者0 (代表無訪問關(guān)聯(lián))來表示。而在存儲(chǔ)系統(tǒng)中 文件訪問關(guān)聯(lián)度僅僅用l (代表有訪問關(guān)聯(lián))或者0 (代表無訪問關(guān)聯(lián)) 來表示是不夠的,而應(yīng)當(dāng)是能夠體現(xiàn)相互關(guān)聯(lián)度的一個(gè)范圍,從0到1 的一個(gè)值表示兩個(gè)文件相關(guān)性的高低,l表示完全相關(guān),O表示完全不相 關(guān)。
文件的關(guān)聯(lián)度研究主要涵蓋了兩個(gè)方面 一個(gè)是語義方面的研究,見
David K. Gifford , Pierre Jouvelot , Mark A. Sheldon , James W. 0'Toole, Jr. , Semantic file systems, Proceedings of the thirteenth ACM symposium on Operating systems principles, p. 16-25, October 13-16, 1991, Pacific Grove, California, United States [doi>10. 1145/121133. 121138];另一個(gè)則是關(guān)聯(lián)度量化及性能評(píng)價(jià)方 面的研究,見Geoffrey (Zhengfu) Liu. Semantic vector space model: Implementation and evaluation. Journal of the American Society for Information Science, 1997.48(5), 395-417。語義文件系統(tǒng)最早從傳 統(tǒng)的文件系統(tǒng)中提取語義方面的信息,并提出相應(yīng)的策略;關(guān)聯(lián)性量化 和性能評(píng)價(jià)方面的研究更多的體現(xiàn)在對(duì)語義向量相關(guān)性的計(jì)算方面,語 義向量空間模型提出將語義向量通過矩陣的模型來表示,并提出計(jì)算不 同語義向量之間匹配度的方法。通過這種對(duì)語義向量的量化分析,更容 易顯式的評(píng)價(jià)出各種語義的關(guān)聯(lián)情況。僅僅針對(duì)提取的語義信息來評(píng)價(jià) 兩個(gè)文件之間的關(guān)聯(lián)度而忽略了文件間訪問次序的關(guān)系,會(huì)造成實(shí)際不 可能發(fā)生訪問次序的兩個(gè)高語義相關(guān)性文件對(duì)象之間評(píng)價(jià)產(chǎn)生誤差。
基于文件訪問次序的預(yù)取算法從另一個(gè)角度即文件訪問次序方面關(guān) 注了文件的關(guān)聯(lián)度,見Thomas Kroeger, Darrell D. E. Long, The case for efficient file access pattern modeling, Proceedings of the 7th IEEE Workshop on Hot Topics in Operating Systems (Hot0S_VII), March 1999, pages 14-19。而對(duì)文件訪問關(guān)系的描述現(xiàn)在依舊停留在人為主 觀的為其賦予初值并根據(jù)"訪問距離"遠(yuǎn)近遞減的階段。這實(shí)際上是一 個(gè)粗略的文件訪問關(guān)系的評(píng)價(jià)。
上述的算法均將文件訪問次序和文件語義信息分隔開來研究,文件 的訪問次序與訪問程序有關(guān),與系統(tǒng)有關(guān),所有這些都不是人可以控制 的,即文件訪問次序不一定能夠表現(xiàn)用戶的實(shí)際的訪問功能次序,因?yàn)?br>
在系統(tǒng)中CPU具有線程調(diào)度功能,不同的線程會(huì)輪流被調(diào)入訪問,那么 這些線程所涉及的文件也會(huì)依次被訪問,哪怕這兩個(gè)文件沒有任何的關(guān) 聯(lián)性,在這樣的情況下對(duì)文件次序的記錄會(huì)有相當(dāng)?shù)恼`差;即使考慮訪
問程序這個(gè)因素也不能夠完全保證,因?yàn)楹芏嚓P(guān)聯(lián)訪問由于文件類型的 對(duì)象不同會(huì)涉及到不同程序,尤其是在分布式的存儲(chǔ)系統(tǒng)中,如果僅考 慮程序而不考慮其他因素,諸如用戶權(quán)限,安全級(jí)別的話,那么不考慮 文件關(guān)聯(lián)的訪問次序的記錄實(shí)際上總會(huì)有相當(dāng)大的誤差。同樣的,針對(duì) 提取的語義信息來評(píng)價(jià)關(guān)聯(lián)度而忽略了訪問次序的關(guān)系,造成對(duì)實(shí)際不 可能發(fā)生訪問次序的兩個(gè)高語義相關(guān)性文件對(duì)象的關(guān)聯(lián)度評(píng)價(jià)產(chǎn)生誤 差。
發(fā)明內(nèi)容
本發(fā)明提出一種評(píng)價(jià)文件重要性程度的方法,其目的是根據(jù)文件關(guān) 聯(lián)度對(duì)文件重要性程度進(jìn)行量化的評(píng)價(jià),用于對(duì)重要性程度不同的文件 采取相應(yīng)策略。
本發(fā)明的一種評(píng)價(jià)文件重要性程度的方法,順序包括
(1)計(jì)算文件關(guān)聯(lián)度步驟,用語義向量Si二(Vi,, Vi2,……VJ表示 文件Fi的語義,每一個(gè)語義向量元素Vix表示該文件的一個(gè)語義屬性, Kx〈n,類似地,S產(chǎn)(V," V,2,……VJ表示文件F,的語義,計(jì)算文件Fi 到文件F」的關(guān)聯(lián)度W(Fi, Fj):<formula>formula see original document page 6</formula>
式中,文件Fi和文件F,的語義向量相似度Sim (Si, Sj):<formula>formula see original document page 6</formula>
ISiHSjl表示文件Fi和文件F」中語義向量元素值相同的個(gè)數(shù)
max(SySj)表示文件F,和文件F,中最多的語義向量元素個(gè)數(shù); 訪問文件F,后再訪問文件Fj的訪問概率AP(Fi, F」)
AP & Fj) = / &
Ni為文件Fi的訪問次數(shù),I為訪問文件F,后再訪問文件Fj的訪問次 數(shù);權(quán)值P取值范圍為[O, l];
(2)計(jì)算文件重要性程度步驟, 文件F,的重要性程度Rj為
為 N。i
其中,文件Fi傳遞給它鏈接的文件F」的重要性程度值Rij為 R^二 RiXW(5,Fj)臭
建立下列每個(gè)訪問文件重要性程度的方程組,求解得到每一個(gè)訪問 文件的重要性程度
^我駒 ^ N0X
j我 N0i
Q)
上述方程組中,S,為所有鏈接到文件F,的文件的集合,鏈接到文件 F,的文件之一Fx的重要性程度Rx,文件Fx到文件F,的關(guān)聯(lián)度W(Fx, F》, 文件Fx鏈出鏈接的個(gè)數(shù)NOx; S」為所有鏈接到文件F,的文件的集合,鏈接
到文件F,的文件之一 F,的重要性程度Ri,文件Fi到文件F」的關(guān)聯(lián)度W(Fi, F》,文件Fi鏈出鏈接的個(gè)數(shù)NOi;跳轉(zhuǎn)因子Q取值范圍為[O, l]。
所述的評(píng)價(jià)文件重要性程度的方法,其特征在于,所述計(jì)算文件關(guān) 聯(lián)度步驟之前,先按照文件訪問次序建立一個(gè)訪問鏈接圖G (F, L),其 中F表示每一個(gè)訪問的文件F,、 F」、…的集合,L表示文件之間有向鏈接 的集合,有向鏈接表示源文件和目標(biāo)文件的訪問次序。
所述的評(píng)價(jià)文件重要性程度的方法,其特征在于,所述計(jì)算文件關(guān) 聯(lián)度步驟中,所述語義向量中的各語義向量元素Vu分別為進(jìn)程、用戶名、 一級(jí)路徑名、二級(jí)路徑名,…,各表示該文件的一個(gè)語義屬性。
本發(fā)明以圖的形式表示文件關(guān)系,以有向鏈接的形式表示訪問次序 的關(guān)系,并通過對(duì)源文件到目標(biāo)文件的關(guān)聯(lián)度來表示該有向鏈接的兩個(gè) 文件的關(guān)聯(lián)度,這是計(jì)算文件重要程度的基礎(chǔ)。在計(jì)算文件的重要性程 度值的過程中,由于對(duì)文件關(guān)系予以量化,使得以數(shù)學(xué)方式的研究文件 訪問特性對(duì)結(jié)果的影響成為可能。
本發(fā)明利用文件關(guān)聯(lián)度來評(píng)價(jià)訪問次序的鏈接,更加符合現(xiàn)實(shí)中文 件關(guān)系的特性。在存儲(chǔ)系統(tǒng)中,為了提高I0性能,將文件關(guān)聯(lián)度高的小 文件合并成大文件進(jìn)行統(tǒng)一操作,可以增加帶寬的流量,從而提高整個(gè) 系統(tǒng)的性能。根據(jù)統(tǒng)計(jì)文件的平均大小大概在150KB到300KB之間,尤 其是1M以下的文件占到了整個(gè)文件數(shù)量的99%,所以通過定量的評(píng)價(jià)文 件之間的關(guān)聯(lián)度,為提出優(yōu)化策略提供了基礎(chǔ),在此基礎(chǔ)上評(píng)價(jià)文件的 重要性程度將會(huì)更加深入,更加具有價(jià)值。本發(fā)明可以使機(jī)器能夠自動(dòng) 的定量分析數(shù)據(jù)的重要性程度,并分而治之。
圖1為本發(fā)明流程框圖2為本發(fā)明實(shí)施例建立的三個(gè)文件之間的訪問鏈接圖; 圖3為本發(fā)明計(jì)算關(guān)聯(lián)度步驟中計(jì)算語義向量相似度的實(shí)例; 圖4為本發(fā)明計(jì)算關(guān)聯(lián)度步驟中計(jì)算文件間訪問概率的實(shí)例; 圖5為根據(jù)圖2、圖3、圖4所建立的三個(gè)文件之間的訪問鏈接圖及 其關(guān)聯(lián)度評(píng)價(jià)。
具體實(shí)施例方式
下面舉例對(duì)本發(fā)明加以說明。
首先可以建立文件訪問鏈接圖,如圖2所示,文件F」的后繼文件分別 為文件Fi和文件^,文件K的后繼文件為文件Fi,文件Fi的后繼文件為文件 Fj。然后,需要計(jì)算文件之間的關(guān)聯(lián)度,文件的關(guān)聯(lián)度和它們之間的語義 向量相似度以及訪問概率有關(guān),圖3為一個(gè)實(shí)際的計(jì)算語義向量相似度的 例子。從圖3中(1)的部分可以看到,每一個(gè)文件的信息都分為訪問進(jìn) 程,用戶名和各級(jí)路徑名,將這些信息表示成為形如(V" V2……VJ的 語義向量,其中語義向量元素分別為進(jìn)程、用戶名、 一級(jí)路徑名、二級(jí) 路徑名,…,如圖3中(1) 、 (2)所示,其中中間一個(gè)文件的進(jìn)程名 AdobeReader.exe ,用戶名李明,文件路徑名/論文/對(duì)象存儲(chǔ)/對(duì) 象級(jí)別/xxx.PDF;其語義向量可以表示為(AdobeReader,李明,論文,對(duì)
象存儲(chǔ),對(duì)象級(jí)別K然后利用公式計(jì)算兩個(gè)語義向量之間的相似度,如 圖3中(3)所示。從上面的計(jì)算我們可以看到,max(S,,Sj)表示文件Fi和文 件F,中最多的語義向量元素個(gè)數(shù),這里是5, ISinSjl表示文件Fi和文件Fj 中語義向量元素值相同的個(gè)數(shù),這里是2。所以文件F,和文件Fj之間的語
義向量相似度Sim(Si, Sj) =0.4,同理計(jì)算出其它文件兩兩之間的語義 向量相似度。
圖4展示的是每個(gè)文件的訪問次數(shù)以及訪問該文件后訪問其后繼文 件的次數(shù),利用公式可以計(jì)算出兩兩文件之間的訪問概率,如文件Fj的 后繼文件分別為文件Fi和文件K,其中文件F」總共被訪問了 5次,這5 次訪問中有2次接著訪問了文件h,有3次接著訪問了文件Ri,那么計(jì) 算出的結(jié)果就是從文件Fj到文件K的訪問概率是0. 4,而從文件Fj到文 件Fi的訪問概率是0.6。
在得到了文件之間的語義向量相似度和訪問概率后就可以計(jì)算文件
之間的關(guān)聯(lián)度,利用公式
W(Fi, Fj) = px Sim(Sy S]) + (1 - p) x AP(&, F」)
這里權(quán)重p可以為0.5,于是計(jì)算出W (Fi,F(xiàn)》的值為0.7,按照同樣
的方法可以求得其它文件之間鏈接的關(guān)聯(lián)度。圖5描述了三個(gè)文件之間
的訪問關(guān)系圖及其關(guān)聯(lián)度評(píng)價(jià)。
利用訪問關(guān)系圖和計(jì)算文件重要性程度公式可以建立以下方程組, 這里跳轉(zhuǎn)因子Q可以取0.5:
Ri 二 0. 5 + 0. 5 X (Rj X 0. 5/2 + Rra X 0. 6) Rj 二 0. 5 + 0. 5 X Ri X 0. 7 Rm = 0. 5 + 0. 5 X & X 0. 6/2
計(jì)算該方程組得到三個(gè)文件的重要性程度R^O. 7815, R尸0.7735, Rra 二 0.6160.我們可以對(duì)結(jié)果進(jìn)行分析,從圖5可以看到文件F,被文件 Fj和文件Fm鏈入,并且在圖4中它的訪問頻率也是最高的,所以它的重 要性程度最高。文件F」和文件Fm雖然鏈入鏈接的個(gè)數(shù)一樣,但是鏈接到 文件Fj的文件Fi的重要性程度相對(duì)較高,所以文件Fj的重要性高于文件 Fra。
權(quán)利要求
1.一種評(píng)價(jià)文件重要性程度的方法,順序包括(1)計(jì)算文件關(guān)聯(lián)度步驟,用語義向量Si={Vi1,Vi2,……Vin}表示文件Fi的語義,每一個(gè)語義向量元素Vix表示該文件的一個(gè)語義屬性,1<x<n,類似地,Sj={Vj1,Vj2,……Vjn}表示文件Fj的語義,計(jì)算文件Fi到文件Fj的關(guān)聯(lián)度W(Fi,F(xiàn)j)W(Fi,F(xiàn)j)=p×Sim(Si,Sj)+(1-p)×AP(Fi,F(xiàn)j)式中,文件Fi和文件Fj的語義向量相似度Sim(Si,Sj)
2. 如權(quán)利要求1所述的評(píng)價(jià)文件重要性程度的方法,其特征在于, 所述計(jì)算文件關(guān)聯(lián)度步驟之前,先按照文件訪問次序建立一個(gè)訪問鏈接 圖G (F, L),其中F表示每一個(gè)訪問的文件Fi、 Fj、…的集合,L表示文 件之間有向鏈接的集合,有向鏈接表示源文件和目標(biāo)文件的訪問次序。
3. 如權(quán)利要求1或2所述的評(píng)價(jià)文件重要性程度的方法,其特征在 于,所述計(jì)算文件關(guān)聯(lián)度步驟中,所述語義向量中的各語義向量元素Vix 分別為進(jìn)程、用戶名、 一級(jí)路徑名、二級(jí)路徑名,…,各表示該文件的 一個(gè)語義屬性。
全文摘要
評(píng)價(jià)文件重要性程度的方法,屬于計(jì)算機(jī)存儲(chǔ)技術(shù)領(lǐng)域,其目的是根據(jù)文件關(guān)聯(lián)度對(duì)文件重要性程度進(jìn)行量化評(píng)價(jià),用于對(duì)重要性程度不同的文件采取相應(yīng)策略。本發(fā)明包括計(jì)算文件關(guān)聯(lián)度步驟,計(jì)算文件重要性程度步驟;為方便起見,可以先建立訪問鏈接圖。本發(fā)明將文件訪問關(guān)系和文件語義信息作為量化評(píng)價(jià)文件重要性程度的因素,能夠更好的描述實(shí)際用戶訪問行為和文件特征,為提出優(yōu)化策略提供了基礎(chǔ),在此基礎(chǔ)上評(píng)價(jià)文件的重要性程度更加深入,更加具有價(jià)值,可以使機(jī)器能夠自動(dòng)的定量分析數(shù)據(jù)的重要性程度,并分而治之。
文檔編號(hào)G06F17/30GK101105799SQ20071005290
公開日2008年1月16日 申請(qǐng)日期2007年8月2日 優(yōu)先權(quán)日2007年8月2日
發(fā)明者丹 馮, 宇 華, 可 周, 鵬 夏, 龐麗萍, 娟 王, 芳 王 申請(qǐng)人:華中科技大學(xué)