欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向多用戶協(xié)作的數(shù)據(jù)挖掘平臺的構(gòu)建方法

文檔序號:6538406閱讀:315來源:國知局
一種面向多用戶協(xié)作的數(shù)據(jù)挖掘平臺的構(gòu)建方法
【專利摘要】本發(fā)明公開了一種面向多用戶協(xié)作的數(shù)據(jù)挖掘平臺的構(gòu)建方法,該方法集成了彈性工作流、多用戶協(xié)作機(jī)制,提供了面向數(shù)據(jù)采集人員、數(shù)據(jù)分析人員和結(jié)果審查人員三種用戶角色協(xié)作進(jìn)行數(shù)據(jù)挖掘的工作空間,整個工作流程以構(gòu)件來實(shí)現(xiàn),包括:數(shù)據(jù)采集構(gòu)件、數(shù)據(jù)預(yù)處理構(gòu)件、數(shù)據(jù)建模構(gòu)件、結(jié)果可視化顯示構(gòu)件和模型評估構(gòu)件。不同的用戶角色可以在不同的用戶視圖里以拖拽的方式建立和操縱由構(gòu)件和箭頭組成的彈性工作流。針對數(shù)據(jù)挖掘不斷重復(fù)、不斷修改、不斷迭代的復(fù)雜性,本發(fā)明不僅可以極大的簡化數(shù)據(jù)挖掘工作,還可以防止數(shù)據(jù)的外泄,保證數(shù)據(jù)的安全性。
【專利說明】一種面向多用戶協(xié)作的數(shù)據(jù)挖掘平臺的構(gòu)建方法
[0001]
【技術(shù)領(lǐng)域】
[0002]本發(fā)明涉及一種集成彈性工作流、面向多用戶協(xié)作的數(shù)據(jù)挖掘平臺的構(gòu)建方法,屬于數(shù)據(jù)挖掘【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0003]數(shù)據(jù)挖掘(data mining)是一種從海量的歷史業(yè)務(wù)數(shù)據(jù)中,透過數(shù)理分析模式提取出蘊(yùn)藏于其中的潛在信息的過程。數(shù)據(jù)挖掘是一個不斷重復(fù)、不斷修改、不斷迭代的過程,主要包括:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、結(jié)果可視化顯示和模型評估等流程。目前,數(shù)據(jù)挖掘已經(jīng)在銀行、電信、保險、交通、零售等商業(yè)領(lǐng)域得到了廣泛的應(yīng)用。
[0004]現(xiàn)有的數(shù)據(jù)挖掘平臺,存在以下問題:缺少可撤銷、可重做、可保存的彈性用戶工作空間,使得用戶在進(jìn)行數(shù)據(jù)挖掘時必須一步到位,帶來諸多不便;缺少可修改、可迭代、可中間結(jié)果輸出的流程化構(gòu)件,使得用戶不能很好地了解和操縱其數(shù)據(jù)分析過程;面向單用戶的挖掘機(jī)制,使得用戶集數(shù)據(jù)采集人員、數(shù)據(jù)分析人員、結(jié)果審查人員三個角色于一身,無法在整個分析流程中進(jìn)行協(xié)作,還易于導(dǎo)致數(shù)據(jù)和分析結(jié)果的外泄,引起數(shù)據(jù)安全問題。

【發(fā)明內(nèi)容】

[0005]發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種涉及彈性工作流、多用戶協(xié)作的數(shù)據(jù)挖掘平臺的構(gòu)建方法。
[0006]通過本發(fā)明方法構(gòu)建的數(shù)據(jù)挖掘平臺提供一種基于Web的可撤銷、可重做、可保存的彈性用戶工作空間。在用戶工作空間里,數(shù)據(jù)采集人員可以上傳、更新、刪除數(shù)據(jù)集;數(shù)據(jù)分析人員可以建立和操縱自己的數(shù)據(jù)分析流程;結(jié)果審查人員可以進(jìn)行挖掘結(jié)果的審查和批復(fù)。
[0007]技術(shù)方案:一種面向多用戶協(xié)作的數(shù)據(jù)挖掘平臺的構(gòu)建方法,提供一種面向數(shù)據(jù)采集人員、數(shù)據(jù)分析人員和結(jié)果審查人員三種用戶角色協(xié)作進(jìn)行數(shù)據(jù)挖掘的工作空間,整個工作流程以構(gòu)件實(shí)現(xiàn),包括:數(shù)據(jù)采集構(gòu)件、數(shù)據(jù)預(yù)處理構(gòu)件、數(shù)據(jù)建模構(gòu)件、結(jié)果可視化顯示構(gòu)件和模型評估構(gòu)件。不同的用戶角色使用不同的用戶視圖,可以使用拖拽的方式建立和操作自己的數(shù)據(jù)分析流程,所述數(shù)據(jù)采集人員通過所述數(shù)據(jù)采集構(gòu)件進(jìn)行數(shù)據(jù)的上傳、更新和刪除操作,所述數(shù)據(jù)分析人員按流程順序依次利用數(shù)據(jù)預(yù)處理構(gòu)件、數(shù)據(jù)建模構(gòu)件、結(jié)果可視化構(gòu)件和模型評估構(gòu)件進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、建模、模型評估等數(shù)據(jù)分析操作,所述結(jié)果審查人員在所述用戶工作空間里通過所述結(jié)果可視化構(gòu)件對挖掘結(jié)果進(jìn)行審查和批復(fù)。
[0008]所述用戶工作空間是一個拖拽式的圖形操作界面,包括:候選流程構(gòu)件區(qū)和流程創(chuàng)建區(qū)兩個部分,所述候選流程構(gòu)件區(qū)是陳列一系列可伸展式數(shù)據(jù)挖掘流程構(gòu)件的區(qū)域,所述流程創(chuàng)建區(qū)是用戶建立和操縱數(shù)據(jù)分析流程的區(qū)域。[0009]所述數(shù)據(jù)分析流程是一種由構(gòu)件和箭頭組成的彈性工作流。在任意一條數(shù)據(jù)分析流程上,用戶都可以隨時進(jìn)行調(diào)整構(gòu)件節(jié)點(diǎn)上的執(zhí)行參數(shù)、更改流程執(zhí)行方向以及導(dǎo)出中間運(yùn)算結(jié)果等操作。
[0010]數(shù)據(jù)挖掘平臺構(gòu)建方法包括以下步驟;
步驟1:設(shè)計并實(shí)現(xiàn)數(shù)據(jù)采集構(gòu)件。在以下兩種情況下進(jìn)行數(shù)據(jù)采集:在數(shù)據(jù)庫中采集數(shù)據(jù)和web上傳方式采集數(shù)據(jù)。
[0011]在數(shù)據(jù)庫中采集數(shù)據(jù),通過Java數(shù)據(jù)庫連接實(shí)現(xiàn),將數(shù)據(jù)挖掘平臺的數(shù)據(jù)訪問實(shí)時地轉(zhuǎn)化為數(shù)據(jù)庫中相應(yīng)的數(shù)據(jù)查詢。
[0012]Web上傳方式采集數(shù)據(jù),通過監(jiān)聽web客戶端的數(shù)據(jù)上傳請求,建立客戶端和數(shù)據(jù)存儲服務(wù)器的socket連接,再使用Java I/O流將數(shù)據(jù)集寫入到數(shù)據(jù)存儲服務(wù)器的文件系統(tǒng)中。
[0013]在兩種數(shù)據(jù)采集構(gòu)件具體實(shí)現(xiàn)時,都需將數(shù)據(jù)集相應(yīng)的數(shù)據(jù)的元數(shù)據(jù)信息保存到系統(tǒng)的數(shù)據(jù)庫中,并對外提供統(tǒng)一的訪問接口。
[0014]步驟2:設(shè)計并實(shí)現(xiàn)數(shù)據(jù)預(yù)處理構(gòu)件。通過R語言對數(shù)據(jù)集進(jìn)行統(tǒng)計分析,以圖形的方式向用戶展現(xiàn)數(shù)據(jù)集的基本描述信息;封裝插值填補(bǔ)、記錄去除和數(shù)據(jù)修正的數(shù)學(xué)方法,提供處理數(shù)據(jù)缺失值、處理重復(fù)數(shù)據(jù)、處理噪聲數(shù)據(jù)和處理異常數(shù)據(jù)等數(shù)據(jù)預(yù)處理環(huán)節(jié)的用戶接口。
[0015]步驟3:設(shè)計并實(shí)現(xiàn)數(shù)據(jù)建模構(gòu)件。通過R語言封裝分類、聚類、關(guān)聯(lián)和時間序列等數(shù)據(jù)挖掘模型;提供圖形界面接口給用戶設(shè)置相應(yīng)的模型分析參數(shù)。
[0016]步驟4:設(shè)計并實(shí)現(xiàn)結(jié)果可視化顯示構(gòu)件。通過R語言將數(shù)據(jù)挖掘結(jié)果和模型評估結(jié)果以圖形、列表等方式展現(xiàn)給用戶;通過Ajax輪詢技術(shù)將結(jié)果實(shí)時推送給結(jié)果審查人員。
[0017]步驟5:設(shè)計并實(shí)現(xiàn)模型評估構(gòu)件。通過使用R語言提供精確率、誤差率和混淆矩陣等多種模型評估方法;提供將模型分析參數(shù)和模型元數(shù)據(jù)信息保存到系統(tǒng)數(shù)據(jù)庫的用戶接口。
[0018]步驟6:設(shè)計并實(shí)現(xiàn)用戶工作空間。通過JQuery實(shí)現(xiàn)一個拖拽式的圖形操作界面,包括構(gòu)件候選流程構(gòu)件區(qū)和流程創(chuàng)建區(qū)兩個部分;通過堆棧數(shù)據(jù)結(jié)構(gòu)存儲用戶操作日志,提供撤銷、重做和保存工作空間的用戶接口。
[0019]步驟7:定義并實(shí)現(xiàn)數(shù)據(jù)挖掘流程。以步驟I至步驟5設(shè)計的數(shù)據(jù)挖掘構(gòu)件為節(jié)點(diǎn),定義由若干個節(jié)點(diǎn)和箭頭組成的工作流;提供調(diào)整節(jié)點(diǎn)執(zhí)行參數(shù)、更改流程執(zhí)行方向以及導(dǎo)出中間運(yùn)算結(jié)果等用戶接口。
[0020]步驟8:集成和部署挖掘平臺。對步驟I至步驟5設(shè)計的數(shù)據(jù)挖掘構(gòu)件提供JSON格式的配置接口,提供以編輯配置文件的方式定制挖掘平臺的功能的用戶接口。
[0021]本發(fā)明采用上述技術(shù)方案,具有以下有益效果:針對數(shù)據(jù)挖掘的不斷重復(fù)、不斷修改、不斷迭代的復(fù)雜性,提供了一種面向多用戶協(xié)作的彈性數(shù)據(jù)挖掘工作空間。不僅可以極大的簡化數(shù)據(jù)挖掘工作,還可以防止數(shù)據(jù)的外泄,保證數(shù)據(jù)的安全性。
【專利附圖】

【附圖說明】
[0022]圖1為本發(fā)明實(shí)施例的面向多用戶數(shù)據(jù)挖掘平臺的結(jié)構(gòu)原理框圖?!揪唧w實(shí)施方式】
[0023]下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0024]本發(fā)明實(shí)施例中數(shù)據(jù)挖掘平臺構(gòu)建方法包括以下步驟;
步驟1:設(shè)計并實(shí)現(xiàn)數(shù)據(jù)采集構(gòu)件。針對數(shù)據(jù)集的大量化(volume),多樣化(variety)和快速化(velocity)等復(fù)雜特性,分為以下兩種情況具體實(shí)現(xiàn):在數(shù)據(jù)庫中采集數(shù)據(jù)和web上傳方式采集數(shù)據(jù)。
[0025]在數(shù)據(jù)庫中采集數(shù)據(jù),通過Java數(shù)據(jù)庫連接(JDBC)實(shí)現(xiàn),將數(shù)據(jù)挖掘平臺的數(shù)據(jù)訪問實(shí)時地轉(zhuǎn)化為數(shù)據(jù)庫中相應(yīng)的數(shù)據(jù)查詢SQL。
[0026]Web上傳方式采集數(shù)據(jù),通過監(jiān)聽web客戶端的數(shù)據(jù)上傳請求,建立客戶端和數(shù)據(jù)存儲服務(wù)器的socket連接,再使用Java I/O流將數(shù)據(jù)集寫入到數(shù)據(jù)存儲服務(wù)器的文件系統(tǒng)中。
[0027]在兩種數(shù)據(jù)采集構(gòu)件具體實(shí)現(xiàn)時,都需將數(shù)據(jù)集相應(yīng)的數(shù)據(jù)的元數(shù)據(jù)信息保存到系統(tǒng)的數(shù)據(jù)庫中,并對外提供統(tǒng)一的訪問接口。
[0028]步驟2:設(shè)計并實(shí)現(xiàn)數(shù)據(jù)預(yù)處理構(gòu)件。通過R語言對數(shù)據(jù)集進(jìn)行統(tǒng)計分析,以圖形的方式向用戶展現(xiàn)數(shù)據(jù)集的基本描述信息;封裝插值填補(bǔ)、記錄去除和數(shù)據(jù)修正的數(shù)學(xué)方法,提供處理數(shù)據(jù)缺失值、處理重復(fù)數(shù)據(jù)、處理噪聲數(shù)據(jù)和處理異常數(shù)據(jù)等數(shù)據(jù)預(yù)處理環(huán)節(jié)的用戶接口。
[0029]步驟3:設(shè)計并實(shí)現(xiàn)數(shù)據(jù)建模構(gòu)件。通過R語言封裝分類、聚類、關(guān)聯(lián)和時間序列等數(shù)據(jù)挖掘模型;提供圖形界面接口給用戶設(shè)置相應(yīng)的模型分析參數(shù)。
[0030]步驟4:設(shè)計并實(shí)現(xiàn)結(jié)果可視化顯示構(gòu)件。通過R語言將數(shù)據(jù)挖掘結(jié)果和模型評估結(jié)果以圖形、列表等方式展現(xiàn)給用戶;通過Ajax輪詢技術(shù)將結(jié)果實(shí)時推送給結(jié)果審查人員。
[0031]步驟5:設(shè)計并實(shí)現(xiàn)模型評估構(gòu)件。通過R語言對之前建立好的模型進(jìn)行評估;提供將模型分析參數(shù)和模型元數(shù)據(jù)信息保存到系統(tǒng)數(shù)據(jù)庫的用戶接口。
[0032]步驟6:設(shè)計并實(shí)現(xiàn)用戶工作空間。通過JQuery實(shí)現(xiàn)一個拖拽式的圖形操作界面,包括構(gòu)件候選流程構(gòu)件區(qū)和流程創(chuàng)建區(qū)兩個部分;通過堆棧數(shù)據(jù)結(jié)構(gòu)存儲用戶操作日志,提供撤銷、重做和保存工作空間的用戶接口。
[0033]步驟7:定義并實(shí)現(xiàn)數(shù)據(jù)挖掘流程。以步驟I至步驟5設(shè)計的數(shù)據(jù)挖掘構(gòu)件為節(jié)點(diǎn),定義由若干個節(jié)點(diǎn)和箭頭組成的工作流;提供調(diào)整節(jié)點(diǎn)執(zhí)行參數(shù)、更改流程執(zhí)行方向以及導(dǎo)出中間運(yùn)算結(jié)果等用戶接口。
[0034]步驟8:集成和部署挖掘平臺。對步驟I至步驟5設(shè)計的數(shù)據(jù)挖掘構(gòu)件提供JSON格式的配置接口,提供以編輯配置文件的方式定制挖掘平臺的功能的用戶接口。
[0035]如圖1所示,本發(fā)明涉及的數(shù)據(jù)挖掘平臺面向數(shù)據(jù)采集人員、數(shù)據(jù)分析人員和結(jié)果審查人員三種用戶角色進(jìn)行協(xié)作數(shù)據(jù)挖掘,且提供一種構(gòu)件化的用戶工作空間,包括數(shù)據(jù)采集構(gòu)件、數(shù)據(jù)預(yù)處理構(gòu)件、數(shù)據(jù)建模構(gòu)件、結(jié)果可視化顯示構(gòu)件和模型評估構(gòu)件。
[0036]不同的用戶角色使用不同的用戶視圖,可以使用拖拽的方式建立和操作自己的數(shù)據(jù)分析流程,數(shù)據(jù)采集人員通過數(shù)據(jù)采集構(gòu)件進(jìn)行數(shù)據(jù)的上傳、更新和刪除操作,所述數(shù)據(jù)分析人員按流程順序依次利用數(shù)據(jù)預(yù)處理構(gòu)件、數(shù)據(jù)建模構(gòu)件、結(jié)果可視化構(gòu)件和模型評估構(gòu)件進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、建模、模型評估等數(shù)據(jù)分析操作,結(jié)果審查人員在用戶工作空間里通過結(jié)果可視化構(gòu)件對挖掘結(jié)果進(jìn)行審查和批復(fù)。
[0037]數(shù)據(jù)分析流程是一種由構(gòu)件和箭頭組成的彈性工作流。在任意一條數(shù)據(jù)分析流程上,用戶都可以隨時進(jìn)行調(diào)整構(gòu)件節(jié)點(diǎn)上的執(zhí)行參數(shù)、更改流程執(zhí)行方向以及導(dǎo)出中間運(yùn)算結(jié)果等操作。
【權(quán)利要求】
1.一種面向多用戶協(xié)作的數(shù)據(jù)挖掘平臺的構(gòu)建方法,其特征在于:提供一種面向數(shù)據(jù)采集人員、數(shù)據(jù)分析人員和結(jié)果審查人員三種用戶角色協(xié)作進(jìn)行數(shù)據(jù)挖掘的工作空間,具體包括以下步驟: 步驟1:設(shè)計并實(shí)現(xiàn)數(shù)據(jù)采集構(gòu)件; 在以下兩種情況下進(jìn)行數(shù)據(jù)采集:在數(shù)據(jù)庫中采集數(shù)據(jù)和web上傳方式采集數(shù)據(jù);在數(shù)據(jù)庫中采集數(shù)據(jù),通過Java數(shù)據(jù)庫連接實(shí)現(xiàn),將數(shù)據(jù)挖掘平臺的數(shù)據(jù)訪問實(shí)時地轉(zhuǎn)化為數(shù)據(jù)庫中相應(yīng)的數(shù)據(jù)查詢; Web上傳方式采集數(shù)據(jù),通過監(jiān)聽web客戶端的數(shù)據(jù)上傳請求,建立客戶端和數(shù)據(jù)存儲服務(wù)器的socket連接,再使用Java I/O流將數(shù)據(jù)集寫入到數(shù)據(jù)存儲服務(wù)器的文件系統(tǒng)中;在兩種數(shù)據(jù)采集構(gòu)件具體實(shí)現(xiàn)時,都需將數(shù)據(jù)集相應(yīng)的數(shù)據(jù)的元數(shù)據(jù)信息保存到系統(tǒng)的數(shù)據(jù)庫中,并對外提供統(tǒng)一的訪問接口 ; 步驟2:設(shè)計并實(shí)現(xiàn)數(shù)據(jù)預(yù)處理構(gòu)件;通過R語言對數(shù)據(jù)集進(jìn)行統(tǒng)計分析,以圖形的方式向用戶展現(xiàn)數(shù)據(jù)集的基本描述信息;封裝插值填補(bǔ)、記錄去除和數(shù)據(jù)修正的數(shù)學(xué)方法,提供處理數(shù)據(jù)缺失值、處理重復(fù)數(shù)據(jù)、處理噪聲數(shù)據(jù)和處理異常數(shù)據(jù)等數(shù)據(jù)預(yù)處理環(huán)節(jié)的用戶接口 ; 步驟3:設(shè)計并實(shí)現(xiàn)數(shù)據(jù)建模構(gòu)件;通過R語言封裝分類、聚類、關(guān)聯(lián)和時間序列的數(shù)據(jù)挖掘模型;提供圖形界面接口給用戶設(shè)置相應(yīng)的模型分析參數(shù); 步驟4:設(shè)計并實(shí)現(xiàn)結(jié)果可視化顯示構(gòu)件;通過R語言將數(shù)據(jù)挖掘結(jié)果和模型評估結(jié)果以圖形、列表等方式展現(xiàn)給用戶;通過Ajax輪詢技術(shù)將結(jié)果實(shí)時推送給結(jié)果審查人員;步驟5:設(shè)計并實(shí)現(xiàn)模型評估構(gòu)件;通過使用R語言提供精確率、誤差率和混淆矩陣的多種模型評估方法;提供將模型分析參數(shù)和模型元數(shù)據(jù)信息保存到系統(tǒng)數(shù)據(jù)庫的用戶接Π ; 步驟6:設(shè)計并實(shí)現(xiàn)用戶工作空間;通過JQuery實(shí)現(xiàn)一個拖拽式的圖形操作界面,包括構(gòu)件候選流程構(gòu)件區(qū)和流程創(chuàng)建區(qū)兩個部分;通過堆棧數(shù)據(jù)結(jié)構(gòu)存儲用戶操作日志,提供撤銷、重做和保存工作空間的用戶接口 ; 步驟7:定義并實(shí)現(xiàn)數(shù)據(jù)挖掘流程;以步驟I至步驟5設(shè)計的數(shù)據(jù)挖掘構(gòu)件為節(jié)點(diǎn),定義由若干個節(jié)點(diǎn)和箭頭組成的工作流;提供調(diào)整節(jié)點(diǎn)執(zhí)行參數(shù)、更改流程執(zhí)行方向以及導(dǎo)出中間運(yùn)算結(jié)果等用戶接口; 步驟8:集成和部署挖掘平臺;對步驟I至步驟5設(shè)計的數(shù)據(jù)挖掘構(gòu)件提供JSON格式的配置接口,提供以編輯配置文件的方式定制挖掘平臺的功能的用戶接口。
【文檔編號】G06F17/30GK103853821SQ201410059806
【公開日】2014年6月11日 申請日期:2014年2月21日 優(yōu)先權(quán)日:2014年2月21日
【發(fā)明者】葉楓, 郭小成, 李源暢, 范仕良 申請人:河海大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
民丰县| 南和县| 邯郸市| 呼伦贝尔市| 冀州市| 玛沁县| 文成县| 东平县| 涞源县| 鲁山县| 海原县| 丹寨县| 诸暨市| 萨嘎县| 青川县| 太康县| 沛县| 那曲县| 沙田区| 忻城县| 颍上县| 黔江区| 成安县| 泰州市| 乌审旗| 汉寿县| 浦县| 台山市| 邓州市| 台州市| 利川市| 鞍山市| 长春市| 青岛市| 社会| 阿鲁科尔沁旗| 芮城县| 泽州县| 雷山县| 滨海县| 盐津县|