一種獲取云中心和數(shù)據(jù)中心信息系統(tǒng)的發(fā)掘遷移方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種獲取云中心和數(shù)據(jù)中心信息發(fā)掘迀移的系統(tǒng)方法及子方法,屬于 云計算,知識挖掘領(lǐng)域。
【背景技術(shù)】
[0002] 云計算在基于面向服務計算領(lǐng)域已經(jīng)取得了極大的成功,并在計算基礎設施方面 有著革命性的發(fā)展。當前的云計算特性,對各種企業(yè)用戶都有著強烈的吸引力。但同時企 業(yè)的舊IT基礎設施并不具備直接吸收云計算的能力。理論上,打包并迀移數(shù)據(jù)和應用到云 計算環(huán)境看起來很直接,企業(yè)可以很容易的利用云的計算能力為自己服務,應為無非就是 把數(shù)據(jù),商業(yè)應用,及代碼迀移到一個新的環(huán)境。但是,實際上迀移數(shù)據(jù),應用和系統(tǒng)所涉及 的方面,要考慮的因素,和處理的問題錯綜復雜。其中,對于企業(yè)的關(guān)鍵商業(yè)應用來說,如何 合理的打包迀移這些數(shù)據(jù)應用,同時維護企業(yè)客戶的良好運行,且不影響企業(yè)的其他業(yè)務 的正常運帷操作,是一個嚴肅重要的研宄課題。這需要大量的人力資源來管理可能涉及的 敏感數(shù)據(jù),應用等等。而當前已有的數(shù)據(jù)系統(tǒng)迀移方案要耗費大量人力物力和時間來完成。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明提供了本發(fā)明涉及一種獲取云中心和數(shù)據(jù)中心信息系統(tǒng)的發(fā)掘迀移方法, 屬于云計算,知識挖掘領(lǐng)域,解決了現(xiàn)有系統(tǒng)迀移體系不完善,手工作業(yè)比重大,花費高,耗 時長的問題。
[0004] 本發(fā)明技術(shù)方案如下:
[0005] -種獲取云中心和數(shù)據(jù)中心信息系統(tǒng)的發(fā)掘迀移方法,包括以下步驟,
[0006] S1,選取待發(fā)掘迀移的云中心和數(shù)據(jù)中心信息系統(tǒng)Si;
[0007] S2,觸發(fā)系統(tǒng)Si迀移,通過模式識別尋找依賴系統(tǒng)S 所有相關(guān)系統(tǒng),獲取依賴于 系統(tǒng)Si的系統(tǒng)清單S \S2,…,Sn;
[0008] S3,信息收集:收集主機系統(tǒng)的系統(tǒng)日志、應用程序日志和網(wǎng)絡活動日志;將收集 到的日志匯總;
[0009] S4,將當前系統(tǒng)清單S1,S2,…,Sn*已完成信息收集的系統(tǒng)信息(如,主機系統(tǒng)間 的依賴關(guān)系,關(guān)鍵應用程序在主機間的相互依賴關(guān)系,系統(tǒng)負荷等)與系統(tǒng)清單S 1,S2,… ,Sn建立映射,并歸檔;
[0010] S5,針對系統(tǒng)清單中的系統(tǒng)S' S%計算系統(tǒng)SW的迀移風險函數(shù)值R,其中 l〈j〈q〈n ;
[0011] S6,基于迀移風險函數(shù)值R值來創(chuàng)建迀移系統(tǒng)清單S1,S2,…,Sn的優(yōu)先隊列,并基 于所述優(yōu)先隊列順序?qū)ο到y(tǒng)清單S 1,S2,…,Sn中的系統(tǒng)啟動迀移。
[0012] 本發(fā)明所米用基于 SVM(space vector machine)技術(shù)的 Active Learning 的算 法來模式識別系統(tǒng)迀移中可識別模式.所述通過模式識別基于概率SVM的主動學習 (SVM active Ierning)算法獲得在模式數(shù)據(jù)庫中已有的可識別模式;
[0013] 所述基于概率SVM的主動學習算法具體包括以下步驟:
[0014] (1)數(shù)據(jù)輸入:將系統(tǒng)清單S\S2,…,Sn中已標示系統(tǒng)定義集合為D 1, ^為訓練數(shù) 據(jù)集合,還未標示的集合為Du,計算步驟數(shù)T和在每一次迭代中采樣數(shù)t ;
[0015] (2)獲取分類下的所有子分類,具體包括以下步驟:
[0016] (2-a)當t < = T時,基于訓練數(shù)據(jù)集合D1,訓練獲得多重標示SVM分類器;
[0017] (2-b)對于每一個在集合Du中的X,X e D u;
[0018] (2-c)利用損失抑制(loss reduction)方法預測標示向量集合Y ;
【主權(quán)項】
1. 一種獲取云中心和數(shù)據(jù)中心信息系統(tǒng)的發(fā)掘迀移方法,其特征在于:包括以下步 驟, S1,選取待發(fā)掘迀移的云中心和數(shù)據(jù)中心信息系統(tǒng)Si; 52, 觸發(fā)系統(tǒng)Si迀移,通過模式識別尋找依賴系統(tǒng)S 所有相關(guān)系統(tǒng),獲取依賴于系統(tǒng) Si的系統(tǒng)清單S1JV^Sn; 53, 信息收集:收集主機系統(tǒng)的系統(tǒng)日志、應用程序日志和網(wǎng)絡活動日志;將收集到的 日志匯總; 54, 將當前系統(tǒng)清單S1,S2,…,Sn中已完成信息收集的系統(tǒng)信息與系統(tǒng)清單S \ S2,…,Sn 建立映射,并歸檔; 55, 針對系統(tǒng)清單中的系統(tǒng)Sq,計算系統(tǒng)Sq的迀移風險函數(shù)值R,其中l(wèi)〈j〈q〈n ; 56, 基于迀移風險函數(shù)值R值來創(chuàng)建迀移系統(tǒng)清單S1,S2,…,Sn的優(yōu)先隊列,并基于所 述優(yōu)先隊列順序?qū)ο到y(tǒng)清單S 1,S2,…,Sn中的系統(tǒng)啟動迀移。
2. 根據(jù)權(quán)利要求1所述的一種獲取云中心和數(shù)據(jù)中心信息系統(tǒng)的發(fā)掘迀移方法,其特 征在于: 所述通過模式識別基于概率SVM的主動學習算法獲得在模式數(shù)據(jù)庫中已有的可識別 模式; 所述基于概率SVM的主動學習算法具體包括以下步驟: (1) 數(shù)據(jù)輸入:將系統(tǒng)清單S1,S2,…,Sn中已標示系統(tǒng)定義集合為D p D1為訓練數(shù)據(jù)集 合,還未標示的集合為Du,計算步驟數(shù)T和在每一次迭代中采樣數(shù)t ; (2) 獲取分類下的所有子分類,具體包括以下步驟: (2-a)當t < = T時,基于訓練數(shù)據(jù)集合D1,訓練獲得多重標示SVM分類器; (2-b)對于每一個在集合Du中的X,X e D u; (2-c)利用損失抑制方法預測標示向量集合Y ;
其中,fi (X)是與類i相關(guān)的分類器函數(shù),分類器函數(shù)總共包括k個類;y為標示向量集 合Y的元素向量,為二維向量,且收斂于[一 1,1],DS為損失抑制方法計算時從Du*的取樣 集合;公式(1)表示為滿,
(2-d)基于標示向量集合Y,計算期望的降損score (X):
(2-e),對于所有在集合Du*存在的X,對score (X)降序排序; (2-f),從A中選取最大的scoreOc),作為樣本集合S,同時更新訓練數(shù)據(jù)集合 D/-z)/+D:,可識別模式基于新的Di更新。
3. 根據(jù)權(quán)利要求1所述的一種獲取云中心和數(shù)據(jù)中心信息系統(tǒng)的發(fā)掘迀移方法,其特 征在于:所述迀移風險函數(shù)值R計算公式為: R(0, δ) = e*L(9, δ (X)) =/ L(0, δ (X))dP0(X) 其中,參數(shù)Θ為原始狀態(tài)的固定值,δ為目的前移狀態(tài);X是從全部收集的系統(tǒng)數(shù)據(jù) 中隨機抽取的向量空間集合;R(9, δ)為系統(tǒng)狀態(tài)由原始狀態(tài)Θ前移到δ狀態(tài)的迀移風 險值,期望E由在全部數(shù)據(jù)集中出現(xiàn)的X計算;dP0 (X)為全部數(shù)據(jù)X的微分概率測量值; L ( θ,δ (X))為全部數(shù)據(jù)X的損失,經(jīng)過在X的積分獲得R ; 其中E的計算公式為:
其中P0 (X)為全部數(shù)據(jù)X的概率測量值。
【專利摘要】本發(fā)明公開了一種獲取云中心和數(shù)據(jù)中心信息系統(tǒng)的發(fā)掘遷移方法,包括以下步驟,S1,選取待發(fā)掘遷移的云中心和數(shù)據(jù)中心信息系統(tǒng)Si;S2,獲取依賴于系統(tǒng)Si的系統(tǒng)清單S1,S2,…,Sn;S3,信息收集;S4,將當前系統(tǒng)清單中已完成信息收集的系統(tǒng)信息與系統(tǒng)清單建立映射,并歸檔;S5,針對系統(tǒng)清單中的系統(tǒng)Sj、Sq,計算系統(tǒng)Sj、Sq的遷移風險函數(shù)值R;S6,基于遷移風險函數(shù)值R值來創(chuàng)建遷移系統(tǒng)清單的優(yōu)先隊列。本發(fā)明通過知識挖掘,在實際遷移系統(tǒng)時,將系統(tǒng)所涉及的子系統(tǒng)按照優(yōu)先級排序,解決錯綜復雜的子系統(tǒng)前移問題,解決了現(xiàn)有系統(tǒng)遷移體系不完善,手工作業(yè)比重大,花費高,耗時長的問題。
【IPC分類】G06F9-48
【公開號】CN104834560
【申請?zhí)枴緾N201510173929
【發(fā)明人】白琨, 王飛, 陳文
【申請人】浙江奇道網(wǎng)絡科技有限公司
【公開日】2015年8月12日
【申請日】2015年4月14日