欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于r的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法

文檔序號(hào):8412620閱讀:267來源:國(guó)知局
一種基于r的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法
【專利說明】一種基于R的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法
[0001]
技術(shù)領(lǐng)域
[0002]本發(fā)明涉及一種基于R的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法,屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域。
【背景技術(shù)】
[0003]數(shù)據(jù)挖掘(data mining)是一種從海量的歷史業(yè)務(wù)數(shù)據(jù)中,透過數(shù)理分析模式提取出蘊(yùn)藏于其中的潛在信息的過程。數(shù)據(jù)挖掘是一個(gè)不斷重復(fù)、不斷修改、不斷迭代的過程,主要包括:數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析、結(jié)果可視化顯示和模型評(píng)估等流程。目前,數(shù)據(jù)挖掘已經(jīng)在銀行、電信、保險(xiǎn)、交通、零售等商業(yè)領(lǐng)域得到了廣泛的應(yīng)用。
[0004]而在商務(wù)與日常實(shí)踐中,需要使用數(shù)據(jù)挖掘技術(shù)分析的數(shù)據(jù)通常是不完整(缺少屬性值或某些感興趣的屬性)、含噪聲(包含錯(cuò)誤或存在偏離期望的離群值),這樣的數(shù)據(jù)必須經(jīng)過預(yù)處理,恢復(fù)數(shù)據(jù)完整性和一致性后才能使用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析。
[0005]現(xiàn)今仍沒有成熟的專門用于數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的系統(tǒng),數(shù)據(jù)預(yù)處理模塊大多以構(gòu)件的形式集成于數(shù)據(jù)挖掘平臺(tái)中?,F(xiàn)有的數(shù)據(jù)挖掘平臺(tái),尚存在以下問題:平臺(tái)中包含的數(shù)據(jù)預(yù)處理構(gòu)件過于簡(jiǎn)單,通常只包含數(shù)據(jù)加載與數(shù)據(jù)清洗兩個(gè)模塊,而且數(shù)據(jù)清洗的方法也很單調(diào),往往不能滿足用戶需求,導(dǎo)致數(shù)據(jù)預(yù)處理的結(jié)果不甚理想,直接影響了之后數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性與有效性。

【發(fā)明內(nèi)容】

[0006]發(fā)明目的:針對(duì)現(xiàn)有技術(shù)中存在的問題,本發(fā)明提供一種基于R的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法。
[0007]通過本發(fā)明方法構(gòu)建的數(shù)據(jù)預(yù)處理系統(tǒng)將數(shù)據(jù)集加載、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換以及數(shù)據(jù)歸約等模塊有機(jī)地整合成一個(gè)統(tǒng)一整體,基于R語言提供豐富且有效的方法幫助用戶恢復(fù)數(shù)據(jù)集的完整性與一致性,以便更好地進(jìn)行后續(xù)數(shù)據(jù)挖掘工作。
[0008]技術(shù)方案:一種基于R的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法,采取集數(shù)據(jù)加載、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換以及數(shù)據(jù)歸約于一身的數(shù)據(jù)預(yù)處理技術(shù),主要包括如下部分:
A、數(shù)據(jù)加載方面:首先將客戶端待處理的數(shù)據(jù)集上傳至服務(wù)器端,然后由服務(wù)器端的相關(guān)程序?qū)?shù)據(jù)集加載至內(nèi)存中的用戶空間,支持的數(shù)據(jù)集格式有:Txt文本數(shù)據(jù)、Csv文本數(shù)據(jù)、Xsl文本數(shù)據(jù)、Url網(wǎng)絡(luò)數(shù)據(jù)以及關(guān)系數(shù)據(jù)庫數(shù)據(jù)等。
[0009]B、數(shù)據(jù)清洗方面:首先遍歷由A得到的內(nèi)存中的數(shù)據(jù)集,識(shí)別缺失值,并統(tǒng)一用NA替代;然后是缺失值的可視化,由用戶在客戶端選擇列表展示或是圖形展示,進(jìn)而觸發(fā)服務(wù)器端不同的函數(shù)來將識(shí)別出的缺失值用列表或圖形的方式返回給客戶端;最后,由用戶在客戶端選擇缺失值處理方式,服務(wù)器端做出相應(yīng)的響應(yīng)。
[0010]C、數(shù)據(jù)集成方面:對(duì)經(jīng)過清洗的數(shù)據(jù)集進(jìn)行合并。由用戶在客戶端選擇要合并的數(shù)據(jù)集,服務(wù)器端首先對(duì)數(shù)據(jù)集冗余進(jìn)行檢測(cè),然后對(duì)觀測(cè)值重復(fù)進(jìn)行檢測(cè),合并產(chǎn)生新的數(shù)據(jù)集。
[0011]D、數(shù)據(jù)變換方面:把經(jīng)過清洗后的數(shù)據(jù)集變換成適應(yīng)于數(shù)據(jù)挖掘需求的形式。用戶在客戶端選擇要變換的數(shù)據(jù)集,并選擇變換形式(規(guī)范化或離散化),參數(shù)提交至服務(wù)器端,服務(wù)器端調(diào)用函數(shù)進(jìn)行變換。
[0012]E、數(shù)據(jù)歸約方面:用戶在客戶端選擇要進(jìn)行歸約的數(shù)據(jù)集名稱,服務(wù)器端函數(shù)通過移除不相關(guān)屬性實(shí)現(xiàn)維歸約。
[0013]本發(fā)明采用上述技術(shù)方案,具有以下有益效果:本發(fā)明提供的基于R語言的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法,使得豐富的數(shù)據(jù)預(yù)處理方法展現(xiàn)在用戶面前,通過人機(jī)交互,用戶可以各取所需來完成數(shù)據(jù)預(yù)處理工作,使得數(shù)據(jù)挖掘效率大大提高,挖掘結(jié)果更加準(zhǔn)確有效。
【附圖說明】
[0014]圖1為本發(fā)明實(shí)施例的數(shù)據(jù)預(yù)處理系統(tǒng)工作流程圖;
圖2為本發(fā)明實(shí)施例的數(shù)據(jù)預(yù)處理系統(tǒng)分層示意圖;
圖3為本發(fā)明實(shí)施例的數(shù)據(jù)清洗模塊設(shè)計(jì)示意圖;
圖4為本發(fā)明實(shí)施例的數(shù)據(jù)集成流程圖。
【具體實(shí)施方式】
[0015]下面結(jié)合具體實(shí)施例,進(jìn)一步闡明本發(fā)明,應(yīng)理解這些實(shí)施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對(duì)本發(fā)明的各種等價(jià)形式的修改均落于本申請(qǐng)所附權(quán)利要求所限定的范圍。
[0016]如圖1所示,本發(fā)明方法所構(gòu)建的數(shù)據(jù)預(yù)處理系統(tǒng)的工作流程大致分為三大步:第一步,加載源數(shù)據(jù)集;第二步,將源數(shù)據(jù)集進(jìn)行清洗;第三步,根據(jù)用戶需求進(jìn)行數(shù)據(jù)集成、數(shù)據(jù)變換或數(shù)據(jù)規(guī)約,得到目標(biāo)數(shù)據(jù)集。
[0017]為實(shí)現(xiàn)上述的工作流程,本發(fā)明所提供的方法將數(shù)據(jù)預(yù)處理系統(tǒng)分為四層,分別是表現(xiàn)層、控制層、邏輯層和數(shù)據(jù)層。系統(tǒng)分層示意圖如圖2。表現(xiàn)層即客戶端,主要用來收集用戶數(shù)據(jù),為用戶選擇方法、設(shè)置參數(shù)提供接口,與用戶進(jìn)行交互;服務(wù)器端分為控制層、邏輯層、數(shù)據(jù)層??刂茖又饕脕磉^濾用戶的錯(cuò)誤操作請(qǐng)求,避免造成系統(tǒng)不可修復(fù)的后果,同時(shí)控制層還擔(dān)任著調(diào)度函數(shù)的職責(zé);邏輯層主要用來處理復(fù)雜的業(yè)務(wù)邏輯,對(duì)R語言算法封裝,調(diào)用JRI進(jìn)行Java和R語言的連接;數(shù)據(jù)層主要用來存放用戶的源數(shù)據(jù)集以及目標(biāo)數(shù)據(jù)集。
[0018]本發(fā)明實(shí)施例中數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法包括以下步驟:
步驟1:設(shè)計(jì)并實(shí)現(xiàn)數(shù)據(jù)加載構(gòu)件。首先在服務(wù)器端的邏輯層用Java封裝R語言的數(shù)據(jù)集導(dǎo)入函數(shù)。在客戶端與服務(wù)器網(wǎng)絡(luò)鏈路通暢的情況下,建立客戶端與服務(wù)器之間的TCP連接,然后以I/O數(shù)據(jù)流的形式將客戶端的待挖掘文本上傳至服務(wù)器端,服務(wù)器端進(jìn)行解析之后調(diào)用封裝的函數(shù)將數(shù)據(jù)集加載至內(nèi)存中的用戶空間。
[0019]步驟2:設(shè)計(jì)并實(shí)現(xiàn)數(shù)據(jù)清洗構(gòu)件,該構(gòu)件的設(shè)計(jì)流程如圖3所示。首先要識(shí)別步驟I加載的數(shù)據(jù)集的缺失值,服務(wù)器端封裝了 R語言中的complete, cases O函數(shù),接收到客戶端提交的請(qǐng)求后觸發(fā)此函數(shù)識(shí)別缺失值;然后將缺失值信息展現(xiàn)給用戶,同理,邏輯層封裝了 R包mice中的md.pattern O函數(shù)用來列表顯示缺失值,封裝了 VIM包中的aggr()函數(shù)用來圖形探宄缺失值,用戶在客戶端選擇顯示方法,服務(wù)器端做出相應(yīng)的響應(yīng);最后處理缺失值,同樣在服務(wù)器端封裝刪除法與插補(bǔ)法兩個(gè)函數(shù),由用戶在客戶端自由選擇缺失值處理方法,觸發(fā)相應(yīng)函數(shù)并將處理后的目標(biāo)數(shù)據(jù)集返回給客戶端。
[0020]步驟3:設(shè)計(jì)并實(shí)現(xiàn)數(shù)據(jù)集成構(gòu)件,數(shù)據(jù)集成流程圖如圖4。封裝R語言中的卡方檢驗(yàn)函數(shù)用來實(shí)現(xiàn)屬性冗余檢測(cè),并用unique O函數(shù)進(jìn)行觀測(cè)值重復(fù)檢測(cè)。用戶在客戶端選擇待集成的數(shù)據(jù)集,控制層調(diào)用兩個(gè)檢測(cè)函數(shù)將數(shù)據(jù)集進(jìn)行合并,并將目標(biāo)數(shù)據(jù)集存放至數(shù)據(jù)層或由用戶從服務(wù)器端下載至客戶端。
[0021]步驟4:設(shè)計(jì)并實(shí)現(xiàn)數(shù)據(jù)變換構(gòu)件。在服務(wù)器端的邏輯層封裝R語言的scale O函數(shù)用于實(shí)現(xiàn)數(shù)據(jù)的規(guī)范化;同時(shí)也封裝用于離散化的函數(shù),函數(shù)的具體過程為,首先遍歷數(shù)據(jù)集的屬性,找出所有的數(shù)值屬性(例如,age),然后將該數(shù)值屬性的原始值用區(qū)間標(biāo)簽(0-10,11-20)或者概念標(biāo)簽(youth,adult)進(jìn)行替換,實(shí)現(xiàn)定量數(shù)據(jù)向定性數(shù)據(jù)轉(zhuǎn)化,從而將連續(xù)型數(shù)據(jù)離散化。用戶在客戶端選擇變換方式,控制層調(diào)用相應(yīng)函數(shù)完成變換,并將目標(biāo)數(shù)據(jù)集存放至數(shù)據(jù)層或由用戶從服務(wù)器端下載至客戶端。
[0022]步驟5:設(shè)計(jì)并實(shí)現(xiàn)數(shù)據(jù)歸約構(gòu)件。R中可以依賴glmnetO程序包中的glmnet O函數(shù)進(jìn)行LASSO變量選擇以實(shí)現(xiàn)維歸約,在邏輯層將其封裝為Java函數(shù)。用戶在客戶端選擇待歸約的數(shù)據(jù)集,觸發(fā)此函數(shù)完成維歸約,并將目標(biāo)數(shù)據(jù)集存放至數(shù)據(jù)層或由用戶從服務(wù)器端下載至客戶端。
[0023]步驟6:集成和部署數(shù)據(jù)預(yù)處理系統(tǒng)。對(duì)步驟I至步驟5設(shè)計(jì)的數(shù)據(jù)預(yù)處理構(gòu)件提供配置接口,提供以編輯配置文件的方式定制數(shù)據(jù)預(yù)處理系統(tǒng)功能的用戶接口。
【主權(quán)項(xiàng)】
1.一種基于R的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法,其特征在于,采取集數(shù)據(jù)加載、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換以及數(shù)據(jù)歸約于一身的數(shù)據(jù)預(yù)處理技術(shù),主要包括如下部分: A、數(shù)據(jù)加載方面:首先將客戶端待處理的數(shù)據(jù)集上傳至服務(wù)器端,然后由服務(wù)器端的相關(guān)程序?qū)?shù)據(jù)集加載至內(nèi)存中的用戶空間; B、數(shù)據(jù)清洗方面:首先遍歷由A得到的內(nèi)存中的數(shù)據(jù)集,識(shí)別缺失值,并統(tǒng)一用NA替代;然后是缺失值的可視化,由用戶在客戶端選擇列表展示或是圖形展示,進(jìn)而觸發(fā)服務(wù)器端不同的函數(shù)來將識(shí)別出的缺失值用列表或圖形的方式返回給客戶端;最后,由用戶在客戶端選擇缺失值處理方式,服務(wù)器端做出相應(yīng)的響應(yīng); C、數(shù)據(jù)集成方面:對(duì)經(jīng)過清洗的數(shù)據(jù)集進(jìn)行合并;由用戶在客戶端選擇要合并的數(shù)據(jù)集,服務(wù)器端首先對(duì)數(shù)據(jù)集冗余進(jìn)行檢測(cè),然后對(duì)觀測(cè)值重復(fù)進(jìn)行檢測(cè),合并產(chǎn)生新的數(shù)據(jù)集; D、數(shù)據(jù)變換方面:把經(jīng)過清洗后的數(shù)據(jù)集變換成適應(yīng)于數(shù)據(jù)挖掘需求的形式;用戶在客戶端選擇要變換的數(shù)據(jù)集,并選擇變換形式(規(guī)范化或離散化),參數(shù)提交至服務(wù)器端,服務(wù)器端調(diào)用函數(shù)進(jìn)行變換; E、數(shù)據(jù)歸約方面:用戶在客戶端選擇要進(jìn)行歸約的數(shù)據(jù)集名稱,服務(wù)器端函數(shù)通過移除不相關(guān)屬性實(shí)現(xiàn)維歸約。
2.如權(quán)利要求1所述的基于R的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法,其特征在于:所述數(shù)據(jù)集加載模塊支持多種數(shù)據(jù)來源,包括結(jié)構(gòu)化和半結(jié)構(gòu)化文本數(shù)據(jù)。
3.具體支持Txt文本數(shù)據(jù)、Csv文本數(shù)據(jù)、Xsl文本數(shù)據(jù)、Url網(wǎng)絡(luò)數(shù)據(jù)以及關(guān)系數(shù)據(jù)庫數(shù)據(jù)等。
4.如權(quán)利要求1所述的基于R的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法,其特征在于:述缺失值可視化基于R語言實(shí)現(xiàn)了列表顯示缺失值、圖形探宄缺失值等方法;所述用戶在客戶端選擇缺失值處理方式包括刪除和插補(bǔ),服務(wù)器端基于R語言實(shí)現(xiàn)刪除法和插補(bǔ)法;基于R語言實(shí)現(xiàn)了數(shù)據(jù)集成過程中的屬性冗余檢測(cè)與觀測(cè)值重復(fù)檢測(cè)。
5.如權(quán)利要求1所述的基于R的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法,其特征在于:數(shù)據(jù)變換基于R語言實(shí)現(xiàn)了數(shù)據(jù)的規(guī)范化(將數(shù)據(jù)按比例縮放,使之落入特定的區(qū)間)與離散化(將定量數(shù)據(jù)向定性數(shù)據(jù)轉(zhuǎn)化)。
6.如權(quán)利要求1所述的基于R的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法,其特征在于:所述數(shù)據(jù)歸約基于R語言實(shí)現(xiàn)了移除不相關(guān)屬性的維歸約方法。
【專利摘要】本發(fā)明公開了一種基于R的數(shù)據(jù)預(yù)處理系統(tǒng)的構(gòu)建方法,將數(shù)據(jù)預(yù)處理系統(tǒng)具體分為數(shù)據(jù)集加載、數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換以及數(shù)據(jù)歸約等五個(gè)子模塊。數(shù)據(jù)集加載模塊將待處理的數(shù)據(jù)集加載至內(nèi)存中的用戶空間;數(shù)據(jù)清洗模塊是數(shù)據(jù)預(yù)處理的核心模塊;數(shù)據(jù)集成模塊用于把多個(gè)數(shù)據(jù)源中的數(shù)據(jù)合并,并存放到一個(gè)一致的數(shù)據(jù)倉庫中;在數(shù)據(jù)變換模塊中,數(shù)據(jù)被變換為適應(yīng)于數(shù)據(jù)挖掘需求的形式;數(shù)據(jù)歸約模塊對(duì)歸約的數(shù)據(jù)進(jìn)行挖掘并產(chǎn)生分析結(jié)果。本發(fā)明在加載數(shù)據(jù)集并清洗數(shù)據(jù)的基礎(chǔ)上,設(shè)計(jì)了數(shù)據(jù)集成、數(shù)據(jù)變換與數(shù)據(jù)歸約等預(yù)處理技術(shù),盡可能地恢復(fù)數(shù)據(jù)集的完整性與一致性,大大提高了數(shù)據(jù)挖掘的效率,并保證了挖掘結(jié)果的準(zhǔn)確性與有效性。
【IPC分類】G06F17-30
【公開號(hào)】CN104731953
【申請(qǐng)?zhí)枴緾N201510150373
【發(fā)明人】范仕良, 張雪潔
【申請(qǐng)人】河海大學(xué)
【公開日】2015年6月24日
【申請(qǐng)日】2015年3月31日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
许昌市| 屯昌县| 邵武市| 双鸭山市| 遵义县| 兴宁市| 龙江县| 墨竹工卡县| 平利县| 乐清市| 乐昌市| 栾城县| 桐城市| 泌阳县| 海晏县| 法库县| 泰州市| 凤城市| 措美县| 新密市| 乡宁县| 和政县| 宁海县| 河东区| 茶陵县| 徐水县| 新余市| 卢氏县| 涟源市| 丰镇市| 凤城市| 洱源县| 武宣县| 舒城县| 阿拉善左旗| 澳门| 彭州市| 仁寿县| 西贡区| 福州市| 营口市|