欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種數(shù)據(jù)處理方法及系統(tǒng)的制作方法

文檔序號:9708468閱讀:561來源:國知局
一種數(shù)據(jù)處理方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本申請涉及信息技術(shù)領(lǐng)域,具體地說,涉及一種數(shù)據(jù)處理方法及系統(tǒng)。
【背景技術(shù)】
[0002]在信息化快速發(fā)展的當(dāng)代,信息數(shù)據(jù)的數(shù)量級發(fā)生了爆炸式的增長。海量的大數(shù)據(jù)為很多行業(yè)領(lǐng)域的發(fā)展提供了新的機(jī)遇。另一方面,如何對海量的數(shù)據(jù)進(jìn)行管理和有效的利用,也成為了信息領(lǐng)域中需要不斷完善的課題。
[0003]例如在線視頻的巨大流量,會隨之帶來了豐富多樣的廣告數(shù)據(jù)。如何充分的利用這些數(shù)據(jù)來得到良好的廣告效果,就是一項非常困難的事情。目前往往依靠數(shù)據(jù)流管道架構(gòu)(S卩pipeline架構(gòu)),對線下的原始日志數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗、特征抽取、特征格式化、模型訓(xùn)練等一系列的處理過程。而在現(xiàn)有技術(shù)中,所述的pipeline架構(gòu)一般基于分布式文件系統(tǒng)(Hadoop Distributed File System,簡稱HDFS)來實現(xiàn),然后通過MapReduce程序完成執(zhí)行。
[0004]基于HDFS系統(tǒng)的特點,致使現(xiàn)有的pipeline架構(gòu)存在的缺陷是:HDFS系統(tǒng)在多次迭代數(shù)據(jù)處理的過程中,每次迭代結(jié)果都要落磁盤,導(dǎo)致大量的磁盤讀寫,嚴(yán)重影響執(zhí)行的效率;同時數(shù)據(jù)的也共享必須依賴于HDFS,這使得數(shù)據(jù)在節(jié)點間復(fù)制和存儲過程都十分低效。

【發(fā)明內(nèi)容】

[0005]有鑒于此,本申請所要解決的技術(shù)問題是提供了一種數(shù)據(jù)處理方法及系統(tǒng),將pipeline移植到spark平臺,實現(xiàn)基于內(nèi)存完成pipeline架構(gòu)的數(shù)據(jù)處理過程,提高了數(shù)據(jù)處理的效率。
[0006]為了解決上述技術(shù)問題,本申請有如下技術(shù)方案:
[0007]—種數(shù)據(jù)處理方法,所述方法包括:
[0008]從數(shù)據(jù)源采集原始數(shù)據(jù),并對所述原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;
[0009]將所述清洗之后的原始數(shù)據(jù),輸入到spark平臺下的轉(zhuǎn)換模塊,以利用所述轉(zhuǎn)換模塊內(nèi)置的數(shù)據(jù)轉(zhuǎn)換機(jī)制進(jìn)行數(shù)據(jù)轉(zhuǎn)換,得到樣本數(shù)據(jù);
[0010]將所述樣本數(shù)據(jù),輸入至Ijspark平臺下的測算模塊,以利用所述測算模塊內(nèi)置的訓(xùn)練算法進(jìn)行數(shù)據(jù)訓(xùn)練,得到邏輯回歸模型。
[0011]所述spark平臺下的轉(zhuǎn)換模塊具體為:
[0012]將數(shù)據(jù)流管道架構(gòu)中的原始轉(zhuǎn)換模塊進(jìn)行第一具化,得到spark平臺下的轉(zhuǎn)換模塊。
[0013]所述轉(zhuǎn)換模塊包括:
[0014]若干有序的轉(zhuǎn)換單元,每個轉(zhuǎn)換單元用于完成特定數(shù)據(jù)類型的轉(zhuǎn)換;
[0015]所述完成特定數(shù)據(jù)類型的轉(zhuǎn)換具體為,利用第二具化完成數(shù)據(jù)類型的轉(zhuǎn)換。
[0016]所述spark平臺下的測算模塊具體為:
[0017]將數(shù)據(jù)流管道架構(gòu)中的原始測算模塊進(jìn)行第一具化,得到spark平臺下的測算模塊。
[0018]所述測算模塊包括:
[0019]若干無序的測算單元,每個測算單元用于利用特定的邏輯回歸算法,進(jìn)行相應(yīng)的數(shù)據(jù)訓(xùn)練;
[0020]所述完成相應(yīng)的數(shù)據(jù)訓(xùn)練具體為,利用第二具化完成相應(yīng)的數(shù)據(jù)訓(xùn)練。
[0021]—種數(shù)據(jù)處理系統(tǒng),所述系統(tǒng)包括轉(zhuǎn)換模塊和測算模塊,所述轉(zhuǎn)換模塊和測算模塊置于spark平臺下,具體為:
[0022]采集模塊,用于采集原始數(shù)據(jù);
[0023]轉(zhuǎn)換模塊,用于對所述原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗;利用內(nèi)置的數(shù)據(jù)轉(zhuǎn)換機(jī)制進(jìn)行數(shù)據(jù)轉(zhuǎn)換,得到樣本數(shù)據(jù);
[0024]測算模塊,用于利用內(nèi)置的訓(xùn)練算法進(jìn)行數(shù)據(jù)訓(xùn)練,得到邏輯回歸模型。
[0025]所述轉(zhuǎn)換模塊置于spark平臺下的具體為:
[0026]將數(shù)據(jù)流管道架構(gòu)中的原始轉(zhuǎn)換模塊進(jìn)行第一具化,得到spark平臺下的轉(zhuǎn)換模塊。
[0027]所述轉(zhuǎn)換模塊包括:
[0028]若干有序的轉(zhuǎn)換單元,每個轉(zhuǎn)換單元用于完成特定數(shù)據(jù)類型的轉(zhuǎn)換;
[0029]所述完成特定數(shù)據(jù)類型的轉(zhuǎn)換具體為,利用第二具化完成數(shù)據(jù)類型的轉(zhuǎn)換。
[0030]所述測算模塊置于spark平臺下的具體為:
[0031]將數(shù)據(jù)流管道架構(gòu)中的原始測算模塊進(jìn)行第一具化,得到spark平臺下的測算模塊。
[0032]所述測算模塊包括:
[0033]若干無序的測算單元,每個測算單元用于利用特定的邏輯回歸算法,進(jìn)行相應(yīng)的數(shù)據(jù)訓(xùn)練;
[0034]所述完成相應(yīng)的數(shù)據(jù)訓(xùn)練具體為,利用第二具化完成相應(yīng)的數(shù)據(jù)訓(xùn)練。
[0035]與現(xiàn)有技術(shù)相比,本申請所述的方法和系統(tǒng),達(dá)到了如下效果:
[0036]基于spark平臺的特點,實現(xiàn)在內(nèi)存中完成多次迭代的數(shù)據(jù)處理,計算過程無需落磁盤,由此提高了數(shù)據(jù)處理的執(zhí)行效率。
[0037]當(dāng)然,實施本申請的任一產(chǎn)品必不一定需要同時達(dá)到以上所述的所有技術(shù)效果。
【附圖說明】
[0038]此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:
[0039]圖1為本申請實施例所述方法流程圖;
[0040]圖2為本申請實施例所述系統(tǒng)結(jié)構(gòu)示意圖。
【具體實施方式】
[0041]如在說明書及權(quán)利要求當(dāng)中使用了某些詞匯來指稱特定組件。本領(lǐng)域技術(shù)人員應(yīng)可理解,硬件制造商可能會用不同名詞來稱呼同一個組件。本說明書及權(quán)利要求并不以名稱的差異來作為區(qū)分組件的方式,而是以組件在功能上的差異來作為區(qū)分的準(zhǔn)則。如在通篇說明書及權(quán)利要求當(dāng)中所提及的“包含”為一開放式用語,故應(yīng)解釋成“包含但不限定于”?!按笾隆笔侵冈诳山邮盏恼`差范圍內(nèi),本領(lǐng)域技術(shù)人員能夠在一定誤差范圍內(nèi)解決所述技術(shù)問題,基本達(dá)到所述技術(shù)效果。此外,“耦接”一詞在此包含任何直接及間接的電性耦接手段。因此,若文中描述一第一裝置耦接于一第二裝置,則代表所述第一裝置可直接電性耦接于所述第二裝置,或通過其他裝置或耦接手段間接地電性耦接至所述第二裝置。說明書后續(xù)描述為實施本申請的較佳實施方式,然所述描述乃以說明本申請的一般原則為目的,并非用以限定本申請的范圍。本申請的保護(hù)范圍當(dāng)視所附權(quán)利要求所界定者為準(zhǔn)。
[0042]傳統(tǒng)的pipeline架構(gòu),包括原始轉(zhuǎn)換模塊(transf ormers )和原始測算模塊(estimators)。所述原始轉(zhuǎn)換模塊,用于進(jìn)行數(shù)據(jù)清洗以及數(shù)據(jù)格式的轉(zhuǎn)換,輸出特定格式的樣本數(shù)據(jù)。所述原始測算模塊,用于利用所述樣本數(shù)據(jù)訓(xùn)練建模。
[0043]前述已知,基于HDFS系統(tǒng)的pipeline架構(gòu),存在大量的磁盤讀寫,執(zhí)行效率低的缺陷,在當(dāng)前亟待改善。相比之下,spark平臺作為統(tǒng)一數(shù)據(jù)處理方案的基礎(chǔ)框架,基于彈性分布式數(shù)據(jù)集RDD計算;在內(nèi)存充足的情況下,運(yùn)算結(jié)果可以完全保存在內(nèi)存中,在內(nèi)存不充足的情況下也可通過序列化等方法使數(shù)據(jù)高效存儲與讀取。因此特別適合做多次迭代操作。并且,spark平臺又可以與pipeline架構(gòu)無縫連接。所以本申請,將提供一種數(shù)據(jù)處理的解決方案,將pipeline架構(gòu)一直到spark平臺之下。
[0044]參見圖1所示,為本申請所述數(shù)據(jù)處理方法的具體實施例。本實施例中,所述方法包括以下步驟:
[0045]步驟101、從數(shù)據(jù)源采集原始數(shù)據(jù),并對所述原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗。
[0046]首先從各類業(yè)務(wù)資源中,采集原始數(shù)據(jù),以作為后續(xù)處理和訓(xùn)練建模的基礎(chǔ)。并且在得到原始數(shù)據(jù)之后,還需利用transformers對原始數(shù)據(jù)進(jìn)行必要的數(shù)據(jù)清洗。
[0047]步驟102、將所述清洗之后的原始數(shù)據(jù),輸入到spark平臺下的轉(zhuǎn)換模塊,以利用所述轉(zhuǎn)換模塊內(nèi)置的數(shù)據(jù)轉(zhuǎn)換機(jī)制進(jìn)行數(shù)據(jù)轉(zhuǎn)換,得到樣本數(shù)據(jù)。
[0048]為將pipeline架構(gòu)移植到spark平臺下,需將pipeline架構(gòu)原始轉(zhuǎn)換模塊進(jìn)行第一具化,得到spark平臺下的轉(zhuǎn)換模塊。所述第一具化,即將相關(guān)的操作具體化到spark平臺。所述轉(zhuǎn)換模塊包括若干有序的轉(zhuǎn)換單元,每個轉(zhuǎn)換單元用于完成特定數(shù)據(jù)類型的轉(zhuǎn)換。
[0049]例如,所述轉(zhuǎn)換單元可以包括PlainText2DataInstanceTransformer、Data Ins tance2SampleTransformer、Sample 2LabeledPo in tTransformer幾種類型。以PlainText類型數(shù)據(jù)作為數(shù)據(jù),則按照轉(zhuǎn)換單元的順序,執(zhí)行PlainText-Datalnstance-Sample-LabeledPoint的數(shù)據(jù)格式轉(zhuǎn)換。最終得到LabeledPoint格式的樣本數(shù)據(jù)。
[0050]spark平臺下所述完成特定數(shù)據(jù)類型的轉(zhuǎn)換具體為,利用第二具化完成數(shù)據(jù)類型的轉(zhuǎn)換。所述第二具化,即將操作從spark平臺具體化到具體的業(yè)務(wù)上來。
[0051]步驟103、將所述樣本數(shù)據(jù),輸入到spark平臺下的測算模塊,以利用所述測算模塊內(nèi)置的訓(xùn)練算法進(jìn)行數(shù)據(jù)訓(xùn)練,得到邏輯回歸模型。
[0052]對于測算模塊的處理,與轉(zhuǎn)換模塊比較類似。為將pipeline架構(gòu)移植到spark平臺下,需將pipel ine架構(gòu)原始測算模塊進(jìn)行第一具化,得到spark平臺下的測算模塊。所述第一具化,即將相關(guān)的操作具體化到spark平臺。不同在于,所述測算模塊包括若干無序的測算單元,每個測算單元用于利用特定的邏輯回歸算法,進(jìn)行相應(yīng)的數(shù)據(jù)訓(xùn)
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
石城县| 时尚| 宕昌县| 龙胜| 阿图什市| 申扎县| 特克斯县| 昭通市| 墨玉县| 建宁县| 海伦市| 高唐县| 常德市| 大宁县| 周至县| 文水县| 富民县| 梅河口市| 青龙| 林周县| 荆门市| 茂名市| 嘉峪关市| 积石山| 怀安县| 乐安县| 伊金霍洛旗| 兴义市| 建始县| 砀山县| 佛学| 神农架林区| 铅山县| 永德县| 称多县| 夏河县| 漳平市| 襄垣县| 蓬溪县| 沈阳市| 胶南市|