欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于管理數(shù)據(jù)建模的系統(tǒng)及其方法

文檔序號:10488999閱讀:308來源:國知局
用于管理數(shù)據(jù)建模的系統(tǒng)及其方法
【專利摘要】本發(fā)明提供了一種用于管理數(shù)據(jù)建模的方法,包括:(A)建立用于管理數(shù)據(jù)建模的建模項目;(B)在建立的建模項目下,建立至少一個建模計劃,其中,建模計劃用于執(zhí)行數(shù)據(jù)建模活動;(C)在建立的每個建模計劃下,配置相應的數(shù)據(jù)建?;顒铀婕暗慕H蝿?,其中,所述建模任務包括以下項中的至少一個:數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務;(D)啟動所述至少一個建模計劃,并將所述至少一個建模計劃產(chǎn)生的結(jié)果保存在所述建模項目下。通過上述方式,能夠有效地管理數(shù)據(jù)建模中涉及的處理、數(shù)據(jù)和資源等。
【專利說明】
用于管理數(shù)據(jù)建模的系統(tǒng)及其方法
技術(shù)領域
[0001]本發(fā)明總體地涉及數(shù)據(jù)建模技術(shù),更具體地涉及用于管理數(shù)據(jù)建模的系統(tǒng)及其方法。
【背景技術(shù)】
[0002]近年來,隨著各領域海量數(shù)據(jù)的產(chǎn)生,數(shù)據(jù)挖掘技術(shù)逐漸得到更為廣泛的應用,以便透析數(shù)據(jù)的潛在含義并揭示業(yè)務的內(nèi)在規(guī)律,從而幫助人們更好地進行生產(chǎn)、經(jīng)營等實踐活動。然而,應用數(shù)據(jù)挖掘技術(shù)不僅需要相關(guān)人員具備關(guān)于機器學習或統(tǒng)計學習等方面的專業(yè)知識,而且還需要使用各種格式和內(nèi)容的大量數(shù)據(jù)樣本,因此,在實踐中常常由于數(shù)據(jù)管理、人員配合、建模水平等問題導致難以高效地進行數(shù)據(jù)建模來解決業(yè)務問題。
[0003]現(xiàn)有技術(shù)中存在一些用于進行數(shù)據(jù)建模的系統(tǒng)和裝置,這些系統(tǒng)和裝置能夠幫助用戶完成數(shù)據(jù)建模的運算過程,并進行相應的數(shù)據(jù)分析。然而,現(xiàn)有的系統(tǒng)和裝置僅能單純基于導入的特征進行模型訓練,并未整合數(shù)據(jù)建模的項目流程,更無法實現(xiàn)有效的體系化數(shù)據(jù)建模處理。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的示例性實施例旨在克服現(xiàn)有的數(shù)據(jù)建模系統(tǒng)缺乏體系化建模處理的缺陷。
[0005]根據(jù)本發(fā)明示例性實施例的一個方面,提供了一種用于管理數(shù)據(jù)建模的方法,包括:(A)建立用于管理數(shù)據(jù)建模的建模項目;(B)在建立的建模項目下,建立至少一個建模計劃,其中,建模計劃用于執(zhí)行數(shù)據(jù)建?;顒?;(C)在建立的每個建模計劃下,配置相應的數(shù)據(jù)建?;顒铀婕暗慕H蝿?,其中,所述建模任務包括以下項中的至少一個:數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務;(D)啟動所述至少一個建模計劃,并將所述至少一個建模計劃產(chǎn)生的結(jié)果保存在所述建模項目下。
[0006]在所述方法中,步驟(A)可還包括:在建立的建模項目下指定參與數(shù)據(jù)建模的至少一個用戶,其中,所述至少一個用戶可被設置為針對建模項目、建模計劃和/或建模任務具有各自相應的操作權(quán)限。
[0007]在所述方法中,所述至少一個用戶可包括建模項目主用戶和建模項目參與用戶,其中,建模項目主用戶能夠?qū)m椖俊⒔S媱澓?或建模任務進行全部操作,建模項目參與用戶能夠?qū)m椖?、建模計劃?或建模任務進行受限操作。
[0008]在所述方法中,建模項目參與用戶可被設置為能夠共享建模項目主用戶在建模項目下的系統(tǒng)資源和數(shù)據(jù)資源。
[0009]在所述方法中,在步驟(B)中,可通過復制已經(jīng)建立的建模計劃來建立所述至少一個建模計劃;或者,在步驟(C)中,可通過復制已經(jīng)建立的建模任務來配置相應的數(shù)據(jù)建?;顒铀婕暗慕H蝿铡?br>[0010]在所述方法中,在步驟(C)中,可顯示與建立的建模計劃相應的DAG圖,其中,所述DAG圖可包括用于分別配置建模任務的交互式結(jié)構(gòu)單元。
[0011]在所述方法中,交互式結(jié)構(gòu)單元可包括以下項之中的至少一個:建模任務名稱、建模任務圖標、建模任務配置入口、建模任務進度指示。
[0012]在所述方法中,建模任務配置入口和建模任務進度指示可以以復用的方式顯示在交互式結(jié)構(gòu)單元中的相同區(qū)域。
[0013]在所述方法中,在步驟(A)建立的建模項目可以為快速建模項目;并且,在步驟(B)中,可自動在快速建模項目下建立一個快速建模計劃,在步驟(C)中,可在快速建模計劃下根據(jù)用戶的輸入操作配置完輸入的數(shù)據(jù)記錄之后,自動配置相應的特征抽取任務和模型訓練任務,并在步驟(D)中,自動啟動快速建模計劃。
[0014]在所述方法中,可在步驟(C)中,利用預設的特征抽取配置項和模型訓練參數(shù)來自動配置特征抽取任務和模型訓練任務,其中,特征抽取配置項可用于限定如何從數(shù)據(jù)記錄抽取預定特征。
[0015]在所述方法中,可在步驟(C)中,在配置特征抽取任務時,根據(jù)用戶在用于設置特征抽取配置項的頁面上執(zhí)行的輸入操作來生成特征抽取配置項,其中,特征抽取配置項可用于限定如何從數(shù)據(jù)記錄抽取預定特征。
[0016]在所述方法中,用于設置特征抽取配置項的頁面可以為圖形用戶界面,所述圖形用戶界面可包括用于手動編輯特征抽取配置項的文本編輯界面和/或用于顯示特征抽取配置項的內(nèi)容選項以供用戶選擇的選擇輸入型界面。
[0017]在所述方法中,每種預定特征的特征抽取配置項可包括來源字段項和處理方法項,來源字段項可用于將所述每種預定特征所涉及的數(shù)據(jù)記錄的字段限定為來源字段,處理方法項可用于指定對預先編程為可執(zhí)行代碼的數(shù)據(jù)處理函數(shù)的引用,其中,所述數(shù)據(jù)處理函數(shù)可用于在建模計劃被啟動時針對由來源字段項限定的來源字段的字段值執(zhí)行用于抽取所述每種預定特征的數(shù)據(jù)處理以運行特征抽取任務。
[0018]在所述方法中,步驟(D)可還包括:按照預定百分比或預定行數(shù)來下載保存的所述至少一個建模計劃產(chǎn)生的結(jié)果。
[0019]在所述方法中,在步驟(D)中,啟動所述至少一個建模計劃的模型訓練任務后,在模型訓練任務的執(zhí)行過程中產(chǎn)生的模型系數(shù)可被分布地保存在多個參數(shù)服務器中。
[0020]所述方法可還包括:(E)將啟動所述至少一個建模計劃下的模型評估任務時產(chǎn)生的數(shù)據(jù)模型的評估報告與相應的模型訓練任務和/或建模計劃相對應地進行顯示。
[0021]在所述方法中,在步驟(C)中,可將模型應用任務配置為手動應用方式和/或自動應用方式,其中,在手動應用方式下,可根據(jù)用戶的操作來啟動模型應用,在自動應用方式下,可根據(jù)預設的時間間隔來啟動模型應用。
[0022]根據(jù)本發(fā)明示例性實施例的另一方面,提供一種用于管理數(shù)據(jù)建模的系統(tǒng),包括:項目建立模塊,用于建立用于管理數(shù)據(jù)建模的建模項目;計劃建立模塊,用于在建立的建模項目下,建立至少一個建模計劃,其中,建模計劃用于執(zhí)行數(shù)據(jù)建?;顒?任務配置模塊,用于在建立的每個建模計劃下,配置相應的數(shù)據(jù)建?;顒铀婕暗慕H蝿眨渲?,所述建模任務包括以下項中的至少一個:數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務;計劃啟動模塊,用于啟動所述至少一個建模計劃,并將所述至少一個建模計劃產(chǎn)生的結(jié)果保存在所述建模項目下。
[0023]在所述系統(tǒng)中,項目建立模塊可還在建立的建模項目下指定參與數(shù)據(jù)建模的至少一個用戶,其中,所述至少一個用戶可被設置為針對建模項目、建模計劃和/或建模任務具有各自相應的操作權(quán)限。
[0024]在所述系統(tǒng)中,所述至少一個用戶可包括建模項目主用戶和建模項目參與用戶,其中,建模項目主用戶能夠?qū)m椖?、建模計劃?或建模任務進行全部操作,建模項目參與用戶能夠?qū)m椖?、建模計劃?或建模任務進行受限操作。
[0025]在所述系統(tǒng)中,建模項目參與用戶可被設置為能夠共享建模項目主用戶在建模項目下的系統(tǒng)資源和數(shù)據(jù)資源。
[0026]在所述系統(tǒng)中,計劃建立模塊可通過復制已經(jīng)建立的建模計劃來建立所述至少一個建模計劃;或者,任務配置模塊可通過復制已經(jīng)建立的建模任務來配置相應的數(shù)據(jù)建模活動所涉及的建模任務。
[0027]在所述系統(tǒng)中,任務配置模塊可顯示與建立的建模計劃相應的DAG圖,其中,所述DAG圖可包括用于分別配置建模任務的交互式結(jié)構(gòu)單元。
[0028]在所述系統(tǒng)中,交互式結(jié)構(gòu)單元可包括以下項之中的至少一個:建模任務名稱、建模任務圖標、建模任務配置入口、建模任務進度指示。
[0029]在所述系統(tǒng)中,建模任務配置入口和建模任務進度指示可以以復用的方式顯示在交互式結(jié)構(gòu)單元中的相同區(qū)域。
[0030]在所述系統(tǒng)中,由項目建立模塊建立的建模項目可以為快速建模項目;并且,計劃建立模塊可自動在快速建模項目下建立一個快速建模計劃,任務配置模塊可在快速建模計劃下根據(jù)用戶的輸入操作配置完輸入的數(shù)據(jù)記錄之后,自動配置相應的特征抽取任務和模型訓練任務,并且,計劃啟動模塊可自動啟動快速建模計劃。
[0031]在所述系統(tǒng)中,任務配置模塊可利用預設的特征抽取配置項和模型訓練參數(shù)來自動配置特征抽取任務和模型訓練任務,其中,特征抽取配置項可用于限定如何從數(shù)據(jù)記錄抽取預定特征。
[0032]在所述系統(tǒng)中,任務配置模塊可在配置特征抽取任務時,根據(jù)用戶在用于設置特征抽取配置項的頁面上執(zhí)行的輸入操作來生成特征抽取配置項,其中,特征抽取配置項可用于限定如何從數(shù)據(jù)記錄抽取預定特征。
[0033]在所述系統(tǒng)中,用于設置特征抽取配置項的頁面可以為圖形用戶界面,所述圖形用戶界面可包括用于手動編輯特征抽取配置項的文本編輯界面和/或用于顯示特征抽取配置項的內(nèi)容選項以供用戶選擇的選擇輸入型界面。
[0034]在所述系統(tǒng)中,每種預定特征的特征抽取配置項可包括來源字段項和處理方法項,來源字段項可用于將所述每種預定特征所涉及的數(shù)據(jù)記錄的字段限定為來源字段,處理方法項可用于指定對預先編程為可執(zhí)行代碼的數(shù)據(jù)處理函數(shù)的引用,其中,所述數(shù)據(jù)處理函數(shù)可用于在建模計劃被啟動時針對由來源字段項限定的來源字段的字段值執(zhí)行用于抽取所述每種預定特征的數(shù)據(jù)處理以運行特征抽取任務。
[0035]在所述系統(tǒng)中,計劃啟動模塊可還按照預定百分比或預定行數(shù)來下載保存的所述至少一個建模計劃產(chǎn)生的結(jié)果。
[0036]在所述系統(tǒng)中,在計劃啟動模塊啟動所述至少一個建模計劃的模型訓練任務后,在模型訓練任務的執(zhí)行過程中產(chǎn)生的模型系數(shù)可被分布地保存在多個參數(shù)服務器中。
[0037]所述系統(tǒng)可還包括:呈現(xiàn)模塊,用于將啟動所述至少一個建模計劃下的模型評估任務時產(chǎn)生的數(shù)據(jù)模型的評估報告與相應的模型訓練任務和/或建模計劃相對應地進行顯不O
[0038]在所述系統(tǒng)中,任務配置模塊可將模型應用任務配置為手動應用方式和/或自動應用方式,其中,在手動應用方式下,可根據(jù)用戶的操作來啟動模型應用,在自動應用方式下,可根據(jù)預設的時間間隔來啟動模型應用。
[0039]根據(jù)本發(fā)明示例性實施例的另一方面,提供一種用于管理數(shù)據(jù)建模的計算裝置,包括存儲部件和處理器,存儲部件中存儲有計算機可執(zhí)行指令集合,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟:(A)建立用于管理數(shù)據(jù)建模的建模項目;(B)在建立的建模項目下,建立至少一個建模計劃,其中,建模計劃用于執(zhí)行數(shù)據(jù)建?;顒?;(C)在建立的每個建模計劃下,配置相應的數(shù)據(jù)建模活動所涉及的建模任務,其中,所述建模任務包括以下項中的至少一個:數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務;(D)啟動所述至少一個建模計劃,并將所述至少一個建模計劃產(chǎn)生的結(jié)果保存在所述建模項目下。
[0040]在所述計算裝置中,步驟(A)可還包括:在建立的建模項目下指定參與數(shù)據(jù)建模的至少一個用戶,其中,所述至少一個用戶可被設置為針對建模項目、建模計劃和/或建模任務具有各自相應的操作權(quán)限。
[0041 ]在所述計算裝置中,所述至少一個用戶可包括建模項目主用戶和建模項目參與用戶,其中,建模項目主用戶能夠?qū)m椖?、建模計劃?或建模任務進行全部操作,建模項目參與用戶能夠?qū)m椖?、建模計劃?或建模任務進行受限操作。
[0042]在所述計算裝置中,建模項目參與用戶可被設置為能夠共享建模項目主用戶在建模項目下的系統(tǒng)資源和數(shù)據(jù)資源。
[0043]在所述計算裝置中,在步驟(B)中,可通過復制已經(jīng)建立的建模計劃來建立所述至少一個建模計劃;或者,在步驟(C)中,可通過復制已經(jīng)建立的建模任務來配置相應的數(shù)據(jù)建?;顒铀婕暗慕H蝿铡?br>[0044]在所述計算裝置中,在步驟(C)中,可顯示與建立的建模計劃相應的DAG圖,其中,所述DAG圖可包括用于分別配置建模任務的交互式結(jié)構(gòu)單元。
[0045]在所述計算裝置中,交互式結(jié)構(gòu)單元可包括以下項之中的至少一個:建模任務名稱、建模任務圖標、建模任務配置入口、建模任務進度指示。
[0046]在所述計算裝置中,建模任務配置入口和建模任務進度指示可以以復用的方式顯示在交互式結(jié)構(gòu)單元中的相同區(qū)域。
[0047]在所述計算裝置中,在步驟(A)建立的建模項目可以為快速建模項目;并且,在步驟(B)中,可自動在快速建模項目下建立一個快速建模計劃,在步驟(C)中,可在快速建模計劃下根據(jù)用戶的輸入操作配置完輸入的數(shù)據(jù)記錄之后,自動配置相應的特征抽取任務和模型訓練任務,并在步驟(D)中,自動啟動快速建模計劃。
[0048]在所述計算裝置中,在步驟(C)中,可利用預設的特征抽取配置項和模型訓練參數(shù)來自動配置特征抽取任務和模型訓練任務,其中,特征抽取配置項可用于限定如何從數(shù)據(jù)記錄抽取預定特征。
[0049]在所述計算裝置中,在步驟(C)中,可在配置特征抽取任務時,根據(jù)用戶在用于設置特征抽取配置項的頁面上執(zhí)行的輸入操作來生成特征抽取配置項,其中,特征抽取配置項可用于限定如何從數(shù)據(jù)記錄抽取預定特征。
[0050]在所述計算裝置中,用于設置特征抽取配置項的頁面可以為圖形用戶界面,所述圖形用戶界面可包括用于手動編輯特征抽取配置項的文本編輯界面和/或用于顯示特征抽取配置項的內(nèi)容選項以供用戶選擇的選擇輸入型界面。
[0051]在所述計算裝置中,每種預定特征的特征抽取配置項可包括來源字段項和處理方法項,來源字段項可用于將所述每種預定特征所涉及的數(shù)據(jù)記錄的字段限定為來源字段,處理方法項可用于指定對預先編程為可執(zhí)行代碼的數(shù)據(jù)處理函數(shù)的引用,其中,所述數(shù)據(jù)處理函數(shù)可用于在建模計劃被啟動時針對由來源字段項限定的來源字段的字段值執(zhí)行用于抽取所述每種預定特征的數(shù)據(jù)處理以運行特征抽取任務。
[0052]在所述計算裝置中,步驟(D)可還包括:按照預定百分比或預定行數(shù)來下載保存的所述至少一個建模計劃產(chǎn)生的結(jié)果。
[0053]在所述計算裝置中,在步驟(D)中,啟動所述至少一個建模計劃的模型訓練任務后,在模型訓練任務的執(zhí)行過程中產(chǎn)生的模型系數(shù)可被分布地保存在多個參數(shù)服務器中。
[0054]在所述計算裝置中,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,可還執(zhí)行下述步驟:(E)將啟動所述至少一個建模計劃下的模型評估任務時產(chǎn)生的數(shù)據(jù)模型的評估報告與相應的模型訓練任務和/或建模計劃相對應地進行顯示。
[0055]在所述計算裝置中,在步驟(C)中,可將模型應用任務配置為手動應用方式和/或自動應用方式,其中,在手動應用方式下,可根據(jù)用戶的操作來啟動模型應用,在自動應用方式下,可根據(jù)預設的時間間隔來啟動模型應用。
[0056]在根據(jù)本發(fā)明示例性實施例的用于管理數(shù)據(jù)建模的系統(tǒng)及其方法中,不僅能夠幫助用戶完成數(shù)據(jù)建模的過程,而且能夠有效地進行體系化的數(shù)據(jù)處理、流程處理和/或模型處理,從而真正幫助用戶基于大數(shù)據(jù)技術(shù)來找到解決實際問題的方式。
【附圖說明】
[0057]從下面結(jié)合附圖對本發(fā)明實施例的詳細描述中,本發(fā)明的這些和/或其它方面和優(yōu)點將變得更加清楚并更容易理解,其中:
[0058]圖1示出根據(jù)本發(fā)明示例性實施例的數(shù)據(jù)建模管理系統(tǒng)的框圖;
[0059]圖2示出根據(jù)本發(fā)明示例性實施例的數(shù)據(jù)建模管理方法的流程圖;
[0060]圖3示出根據(jù)本發(fā)明示例性實施例的建模計劃的配置頁面的示例;
[0061]圖4示出根據(jù)本發(fā)明示例性實施例的交互式結(jié)構(gòu)單元的操作項列表的示例;
[0062]圖5A示出根據(jù)本發(fā)明示例性實施例的用于配置特征抽取任務的圖形用戶界面的示例;
[0063]圖5B示出根據(jù)本發(fā)明示例性實施例的在圖5A的左側(cè)區(qū)域中的單個字段被用戶選擇的同時,向用戶顯示處理方法列表的部分圖形用戶界面的示例;
[0064]圖5C示出根據(jù)本發(fā)明示例性實施例的在圖5A的左側(cè)區(qū)域中的多個字段被用戶選擇的同時,向用戶顯示處理方法列表的部分圖形用戶界面的示例;
[0065]圖6示出根據(jù)本發(fā)明示例性實施例的具有能夠?qū)μ卣鞒槿∨渲庙椷M行文本編輯的區(qū)域的示例性圖形用戶界面的示例;
[0066]圖7示出根據(jù)本發(fā)明示例性實施例的用于下載結(jié)果文件的頁面的示例;
[0067]圖8示出根據(jù)本發(fā)明示例性實施例的用于新建建模項目的頁面的示例;
[0068]圖9示出根據(jù)本發(fā)明示例性實施例的用于快速建模的頁面的示例。
【具體實施方式】
[0069]為了使本領域技術(shù)人員更好地理解本發(fā)明,下面結(jié)合附圖和【具體實施方式】對本發(fā)明的示例性實施例作進一步詳細說明。
[0070]本發(fā)明的示例性實施例提出了一種管理數(shù)據(jù)建模的系統(tǒng),該系統(tǒng)可全部通過計算機程序以軟件方式來實現(xiàn),也可由專門的硬件裝置來實現(xiàn),還可通過軟硬件結(jié)合的方式來實現(xiàn)。在所述系統(tǒng)中,不僅能夠幫助用戶完成數(shù)據(jù)建模的過程,而且能夠有效地進行體系化的數(shù)據(jù)處理、流程處理和/或模型處理,從而真正幫助用戶基于大數(shù)據(jù)技術(shù)來找到解決實際問題的方式。
[0071]圖1示出根據(jù)本發(fā)明示例性實施例的數(shù)據(jù)建模管理系統(tǒng)的框圖。具體說來,所述數(shù)據(jù)建模管理系統(tǒng)提出了一種基于“建模項目-建模計劃-建模任務”的處理體系結(jié)構(gòu),其中,建模項目所針對的是數(shù)據(jù)建模管理,而建模計劃為建模項目下可啟動的建?;顒樱摻;顒由婕爸辽僖粋€建模任務(例如,數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務),使得每啟動一次建模活動,即完成了一個或多個完整數(shù)據(jù)建模過程和/或部分數(shù)據(jù)建模過程,這樣的數(shù)據(jù)建模過程所產(chǎn)生的中間結(jié)果數(shù)據(jù)和/或最終結(jié)果數(shù)據(jù)可被保存在所述建模項目之下。
[0072]如圖1所示,項目建立模塊10用于建立用于管理數(shù)據(jù)建模的建模項目。例如,可針對預定的建模目標、建模小組、建模數(shù)據(jù)源等來建立相應的建模項目。這里,所述建模項目可根據(jù)用戶的指示而建立,使得用戶可在建模項目下實現(xiàn)對數(shù)據(jù)、流程、參與用戶和/或模型等的管理。
[0073]計劃建立模塊20用于在建立的建模項目下,建立至少一個建模計劃,其中,建模計劃用于執(zhí)行數(shù)據(jù)建?;顒?。這里,建模計劃指的是建模項目下可啟動的數(shù)據(jù)建模活動,該數(shù)據(jù)建?;顒由婕爸辽僖粋€建模任務(例如,數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務等),使得每啟動一次建?;顒?,即執(zhí)行了一個或多個完整數(shù)據(jù)建模過程和/或部分數(shù)據(jù)建模過程,從而完成了對至少一個建模環(huán)節(jié)的嘗試性工作。這些嘗試性工作的過程和/或結(jié)果會被保存在建模項目之下。
[0074]任務配置模塊30用于在建立的每個建模計劃下,配置相應的數(shù)據(jù)建?;顒铀婕暗慕H蝿?,其中,所述建模任務可包括以下項中的至少一個:數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務。
[0075]具體說來,數(shù)據(jù)輸入任務用于輸入進行模型訓練的原始數(shù)據(jù)資源;數(shù)據(jù)拼接任務用于在必要時將原始數(shù)據(jù)資源的相同或不同輸入表的特定字段進行拼接以得到可從中抽取特征的數(shù)據(jù)記錄;特征抽取任務用于從數(shù)據(jù)記錄抽取出模型訓練用的特征和目標值;模型訓練任務用于基于抽取的特征以及相應的目標值訓練出模型;模型評估任務用于利用測試數(shù)據(jù)來進行模型效果的評估;模型應用任務用于將新的數(shù)據(jù)樣本應用于訓練出的模型以得到預測結(jié)果。
[0076]應注意,根據(jù)本發(fā)明的示例性實施例,能夠配置的建模任務可包括上述建模任務中的一個或多個,而并不限制所有建模任務均需處于可配置的狀態(tài)。
[0077]這里,任務配置模塊30可在每個建模計劃下配置一個或多個建模任務,這些配置的建模任務可構(gòu)成一個或多個完整數(shù)據(jù)建模過程和/或部分數(shù)據(jù)建模過程,使得每個建模計劃被啟動時,該建模計劃下相應配置的建模任務得以執(zhí)行。
[0078]計劃啟動模塊40用于啟動所述至少一個建模計劃,并將所述至少一個建模計劃產(chǎn)生的結(jié)果保存在所述建模項目下。這里,計劃啟動模塊40可逐條和/或批量啟動所建立的至少一個建模計劃,當建模計劃被啟動時,其下所配置的建模任務即按照預定的順序得以執(zhí)行并產(chǎn)生相應的執(zhí)行結(jié)果,相應地,計劃啟動模塊40可將與各個建模任務相應的執(zhí)行結(jié)果保存在建模計劃之下,從而建模項目下可保存有相關(guān)的各個建模計劃產(chǎn)生的中間結(jié)果和/或最終結(jié)果。
[0079]在現(xiàn)有的數(shù)據(jù)建模系統(tǒng)中,僅能夠針對單次數(shù)據(jù)建模的流程,按照數(shù)據(jù)的輸入和輸出來進行各步驟的配置。然而,數(shù)據(jù)建模技術(shù)涉及非常強的專業(yè)知識,其處理的數(shù)據(jù)和涉及的運算均十分復雜,因此,用戶(例如,業(yè)務人員)在操作現(xiàn)有的建模系統(tǒng)時很難直接獲得較好的建模效果,更無法有效地對建模流程進行調(diào)整或改進,導致難以方便地利用數(shù)據(jù)建模技術(shù)來解決實際問題。
[0080]根據(jù)本發(fā)明的示例性實施例,通過執(zhí)行配置有一個或多個建模任務的建模計劃,并將各建模任務的執(zhí)行結(jié)果保存在建模計劃之下,可在同一建模項目下進行多次完整建模實驗或不同環(huán)節(jié)的階段性建模實驗,并利用各個實驗結(jié)果或?qū)嶒炁渲脕碛行У卣{(diào)整或改進數(shù)據(jù)建模項目。
[0081]以下參照圖2來描述根據(jù)本發(fā)明示例性實施例的數(shù)據(jù)建模管理方法。這里,作為示例,圖2所示的方法可由圖1所示的數(shù)據(jù)管理系統(tǒng)來執(zhí)行,應注意,還可通過特定配置的計算裝置來執(zhí)行圖2所示的方法。
[0082]如圖所示,在步驟SlO中,由項目建立模塊10建立用于管理數(shù)據(jù)建模的建模項目,如上所述,在建立的建模項目下,可進一步建立可啟動的建模計劃,其中,建模計劃涉及一個或多個建模任務,相應地,建模計劃被啟動后產(chǎn)生的結(jié)果被保存在其所屬的建模項目之下。
[0083]這里,作為示例,項目建立模塊10可檢測用戶在項目管理頁面中點擊“新建項目”選項卡的操作,并根據(jù)用戶的點擊操作來創(chuàng)建新的建模項目。此外,可選地,項目建立模塊10可根據(jù)用戶的操作對建立的建模項目進行項目配置,例如,項目參與用戶配置、項目可用數(shù)據(jù)配置等。
[0084]這里,作為優(yōu)選方式,可在新建的建模項目下指定參與數(shù)據(jù)建模的至少一個用戶,其中,所述至少一個用戶被設置為針對建模項目、建模計劃和/或建模任務具有各自相應的操作權(quán)限。如上所述,根據(jù)本發(fā)明的示例性實施例,每個建模項目下建立有能夠獨立啟動的建模計劃,并且,每個建模計劃下可配置各自的一個或多個建模任務,因此,通過這種方式,不僅可實現(xiàn)多用戶協(xié)同建模,而且,各用戶在協(xié)同建模時,還可在同一個建模項目下相對獨立地操作,從而進一步確保各用戶在協(xié)作時的獨立性和借鑒性。
[0085]例如,參與建模項目的至少一個用戶可包括建模項目主用戶和建模項目參與用戶,其中,建模項目主用戶能夠?qū)m椖?、建模計劃?或建模任務進行全部操作,建模項目參與用戶能夠?qū)m椖?、建模計劃?或建模任務進行受限操作。
[0086]如上所述,項目建立模塊10可根據(jù)用戶的指示來建立相應的建模項目,在這種情況下,作為示例,可將指示建立建模項目的用戶指定為建模項目主用戶,并且,可將建模項目主用戶所擁有的至少一部分數(shù)據(jù)資源分配到建模項目之下,此外,還可將建模項目主用戶的至少一部分系統(tǒng)資源(例如,運算資源、存儲資源等)分配到建模項目之下。也就是說,由建模項目主用戶來承擔建模項目的各種開銷。相應地,建模項目參與用戶可被設置為能夠共享建模項目主用戶在建模項目下的系統(tǒng)資源和數(shù)據(jù)資源。這里,建模項目參與用戶的共享權(quán)限可由建模項目主用戶來指定,也可由系統(tǒng)默認設置。作為示例,只有建模項目主用戶被配置為有權(quán)刪除或修改已經(jīng)建立的建模項目及其配置項,例如,可對建模項目整體進行刪除或修改、對建模項目可使用的原始數(shù)據(jù)資源(例如,輸入表)進行刪除、修改或增加等。此外,可允許建模項目參與用戶對建模項目的結(jié)果(例如,中間結(jié)果(如,樣本表)或最終結(jié)果(如,訓練出的模型))進行處理,但禁止其對建模項目本身或其配置項進行任何處理。
[0087]可以看出,根據(jù)本發(fā)明的示例性實施例,建模項目主用戶能夠通過建模項目來實現(xiàn)數(shù)據(jù)建模的資源配置與人員調(diào)配。例如,項目建立模塊10可根據(jù)建模項目主用戶的指示來修改建模項目的配置(包括數(shù)據(jù)資源、系統(tǒng)資源或參與人員等)、刪除建立的建模項目等。
[0088]在步驟S20中,由計劃建立模塊20在建立的建模項目下,建立至少一個建模計劃,其中,建模計劃用于執(zhí)行數(shù)據(jù)建?;顒印H缟纤觯S媱澴鳛榭蓡拥膶ο?,在啟動時所執(zhí)行的數(shù)據(jù)建?;顒涌杀灰暈橐淮谓嶒?,該建模實驗可對應于完整的數(shù)據(jù)建模過程,也可對應于一部分數(shù)據(jù)建模過程。
[0089]這里,作為示例,在所述建立的建模項目的頁面之中,可顯示有已經(jīng)建立的建模計劃的列表,此外,還設置有諸如“新建計劃”的按鈕,當用戶點擊該“新建計劃”按鈕時,計劃建立模塊20可新建一個空白的建模計劃,并將其添加到所述列表中。
[0090]作為另一示例,可通過復制已經(jīng)建立的建模計劃來建立所述至少一個建模計劃。例如,在所述建立的建模項目的頁面之中,可顯示有已經(jīng)建立的建模計劃的列表,在列表中所列出的每一個建模計劃旁邊,可設置有諸如“復制計劃”的按鈕。當用戶點擊該“復制計劃”按鈕時,相應的建模計劃的配置內(nèi)容被復制。
[0091]此外,還可在當前建模計劃的配置頁面中進行復制。圖3示出根據(jù)本發(fā)明示例性實施例的建模計劃的配置頁面的示例,例如,可在圖3所示的頁面上設置用于復制建模計劃的操作項(例如,圖標、按鈕等),并根據(jù)用戶對所述操作項執(zhí)行的操作來復制當前建模計劃的配置內(nèi)容。
[0092]這里,作為示例,所述配置內(nèi)容可包括建模計劃下的所有建模任務的相關(guān)配置項,作為優(yōu)選方式,計劃建立模塊20可按照預設的命名規(guī)則對復制后的建模計劃名稱、建模任務名稱、輸出表名稱、模型名稱等自動重新命名。
[0093]作為示例,復制后得到的建模計劃可默認地被建立在相同的建模項目之下,在這種情況下,當用戶點擊用于復制特定建模計劃的操作項(例如,圖標、按鈕等)之后,在該建模計劃所屬的建模項目下可自動顯示復制后得到的新的建模計劃。
[0094]這里,計劃建立模塊20可根據(jù)各個用戶的指示分別建立各自的建模計劃,這里,作為示例,對于建立的建模計劃,可僅允許建模項目主用戶和/或建立所述建模計劃的建模項目參與用戶對所述建模計劃進行修改、刪除等操作,此外,也可允許所有用戶對所述建模計劃進行修改、刪除等操作。
[0095]在步驟S30中,由任務配置模塊30在建立的每個建模計劃下,配置相應的數(shù)據(jù)建?;顒铀婕暗慕H蝿眨渲?,所述建模任務包括以下項中的至少一個:數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務。
[0096]這里,能夠進行配置的建模任務可以是數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務之中的任意一種或任意多種的組合,相應地,數(shù)據(jù)建?;顒铀婕暗慕H蝿湛梢允侵辽僖粋€能夠進行配置的建模任務。
[0097]作為示例,可將能夠進行配置的建模任務設置為僅包括特征抽取任務和模型訓練任務兩者。在這種情況下,可在特征抽取任務中配置如何從作為原始數(shù)據(jù)資源的輸入表的數(shù)據(jù)記錄直接抽取出訓練樣本的特征和目標值。此外,在需要進行模型評估和模型應用的情況下,可在模型被訓練出來之后獨立地進行模型評估(即,模型評估獨立于建模計劃而執(zhí)行),類似地,模型應用也可獨立于建模計劃,使得模型訓練和模型應用可在獨立的兩個平臺中分別運行。
[0098]作為另一示例,可將能夠進行配置的建模任務設置為包括上述六項建模任務:數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務。這里,在各個建模任務下可配置與所述建模任務相關(guān)的任何參數(shù)或項目。作為示例,在數(shù)據(jù)輸入任務中可配置一個或多個原始數(shù)據(jù)資源;在數(shù)據(jù)拼接任務中可配置針對原始數(shù)據(jù)資源的輸入表進行字段拼接以得到數(shù)據(jù)記錄的方式;在特征抽取任務中可配置如何從數(shù)據(jù)記錄得到訓練樣本的特征和目標值(即,樣本表);在模型訓練任務中可配置模型算法、模型大小、訓練輪數(shù)、學習率等模型訓練參數(shù);在模型評估任務中可配置評估指標等參數(shù);在模型應用任務中可配置應用方式、結(jié)果數(shù)據(jù)下載等項目。
[0099]應注意,以上僅作為示例,實踐中,可根據(jù)需要在數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務之中選出任意組合來作為能夠進行配置的建模任務,并適應性地調(diào)整具體配置內(nèi)容。
[0100]這里,作為示例,任務配置模塊30可根據(jù)用戶在每個建模計劃的頁面之中執(zhí)行的操作來配置所述建模計劃下的各個建模任務。例如,可通過設置在所述頁面中的用于新建各個建模任務的選項卡來建立新的建模任務,并在與新建的建模任務相應的配置頁面中完成對所述建模任務的具體配置。
[0101]作為優(yōu)選方式,根據(jù)本發(fā)明的示例性實施例,可通過體現(xiàn)建模計劃流程的方式,以良好的交互來實現(xiàn)對建模任務的配置。具體說來,任務配置模塊30可顯示與建立的建模計劃相應的DAG圖,其中,所述DAG圖包括用于分別配置建模任務的交互式結(jié)構(gòu)單元。上述DAG圖可被顯示在建模計劃的頁面之中,所述頁面中還可設置有用于新建各種建模任務的按鈕。作為示例,當用戶點擊這樣的按鈕時,會直接進入相應的建模任務配置頁面,在用戶在建模任務配置頁面中完成對新建的建模任務的具體配置之后,DAG圖上可顯示與該建模任務相應的交互式結(jié)構(gòu)單元。作為另一示例,當用戶點擊上述按鈕時,可首先在DAG圖上顯示與新建的建模任務相應的交互式結(jié)構(gòu)單元,此時,可通過在交互式單元上執(zhí)行操作來完成對該建模任務的具體配置。
[0102]作為示例,在圖3所示的頁面中可包括根據(jù)本發(fā)明示例性實施例的與當前的建模計劃相應的DAG圖,該DAG圖可包括用于分配配置各個建模任務的交互式結(jié)構(gòu)單元。
[0103]這里,為了增強建模任務配置的交互性,可將交互式結(jié)構(gòu)單元設計為包括以下項之中的至少一個:建模任務名稱、建模任務圖標、建模任務配置入口、建模任務進度指示。
[0104]以圖3所示的“數(shù)據(jù)拼接任務I”交互式結(jié)構(gòu)單元為例,其上從左到右依次顯示有建模任務圖標、建模任務名稱和建模任務配置入口。這里,建模任務配置入口作為進入建模任務配置頁面的入口。
[0105]作為示例,建模任務配置入口可被設計為用于直接進入建模任務配置頁面的按鈕,當用戶點擊這樣的按鈕時,可進入建模任務配置頁面以對建模任務進行具體配置或?qū)H蝿盏囊延信渲眠M行修改。
[0106]此外,作為另一示例,建模任務配置入口可被設計為用于展示操作項列表的按鈕,這里,所述列表除了包括用于進入建模任務配置頁面的操作項(例如,“修改”)之外,還可附加地包括其它操作項,以便有效地完成建模計劃下的相關(guān)操作。例如,可在列表中進一步包括用于復制當前建模任務的操作項、用于新建下游建模任務的操作項和用于刪除當前建模任務的操作項等。
[0107]圖4示出根據(jù)本發(fā)明示例性實施例的交互式結(jié)構(gòu)單元的操作項列表的示例。具體說來,當用戶點擊圖3所示的交互式結(jié)構(gòu)單元“特征拼接任務I”上的建模任務配置入口時,可如圖4所示在交互式結(jié)構(gòu)單元“特征拼接任務I”附近顯示相應的操作項列表,該列表中可包括諸如修改(用于修改當前建模任務的配置內(nèi)容)、復制(用于復制當前建模任務)、特征抽取(用于新建下游的特征抽取任務)、模型訓練(用于新建下游的模型訓練任務)、刪除(用于刪除當前建模任務)等操作項,從而用戶可通過點擊各個操作項來針對建模任務執(zhí)行相應的配置或其他操作。
[0108]交互式結(jié)構(gòu)單元中還可包括建模任務進度指示,用于在啟動建模計劃時指示交互式結(jié)構(gòu)單元所表示的建模任務的運行進度。這里,作為優(yōu)選方式,建模任務配置入口和建模任務進度指示以復用的方式顯示在交互式結(jié)構(gòu)單元中的相同區(qū)域。
[0109]如圖3所示,在啟動建模計劃之后,當運行到交互式結(jié)構(gòu)單元所代表的建模任務(例如,模型訓練任務)時,該交互式結(jié)構(gòu)單元上的建模任務配置入口轉(zhuǎn)換為建模任務進度指示。作為示例,所述建模任務進度指示可按照百分比的形式來指示建模任務的運行進度。在建模任務運行成功或運行失敗之后,所述建模任務進度指示會再次轉(zhuǎn)換為建模任務配置入口。也就是說,在建模任務尚未運行以及建模任務運行完畢(即,運行成功或失敗)時,交互式結(jié)構(gòu)單元上顯示的是建模任務配置入口,以便對相應的建模任務進行配置或其它操作。而在建模任務運行期間,交互式結(jié)構(gòu)單元上顯示的是建模任務進度指示,一方面指示建模任務的運行進度,另一方面也可禁止對建模任務進行配置等操作。這里,作為優(yōu)選方式,為了進一步區(qū)分出處于尚未運行、運行失敗和運行成功的建模任務,可利用交互式結(jié)構(gòu)單元的填充樣式來進行區(qū)分。例如,關(guān)于尚未運行的建模任務,其交互式結(jié)構(gòu)單元內(nèi)可不填充任何內(nèi)容(例如,顏色區(qū)域);對于運行成功的建模任務,其交互式結(jié)構(gòu)單元內(nèi)可填充有預定內(nèi)容(例如,綠色區(qū)域);而對于運行失敗的建模任務,其交互式結(jié)構(gòu)單元內(nèi)可填充有另一種預定內(nèi)容(例如,紅色區(qū)域)。此外,作為示例,對于運行中的建模任務,其交互式結(jié)構(gòu)單元內(nèi)可按照建模任務進度指示的百分比來填充內(nèi)容。
[0110]可以看出,上述交互式結(jié)構(gòu)單元能夠有效地表達建模任務的屬性、運行狀態(tài),也能夠有效地對相應的建模任務進行配置或操作,增強了用戶體驗。
[0111]此外,作為示例,在步驟S30中,可通過復制已經(jīng)建立的建模任務來配置相應的數(shù)據(jù)建?;顒铀婕暗慕H蝿铡@?,可在圖4所示的頁面中設置用于復制建模任務的操作項(例如,列表中的“復制”選項等),并根據(jù)用戶對所述操作項執(zhí)行的操作來復制相應建模任務的配置內(nèi)容。這里,作為示例,所述配置內(nèi)容可包括該建模任務的相關(guān)配置項,作為優(yōu)選方式,任務配置模塊30可按照預設的命名規(guī)則對復制后的建模任務名稱、輸出表名稱、模型名稱等自動重新命名。
[0112]作為示例,復制后得到的建模任務可默認地被配置在相同的建模計劃之下,在這種情況下,當用戶選擇用于復制建模任務的操作項(例如,列表中的“復制”選項等)之后,在其所屬的建模計劃下可自動顯示復制后得到的建模任務。作為示例,在DAG圖顯示的建模計劃的整個流程中,該建模任務可被顯示在與被復制的建模任務相同階段的位置,即,兩者接續(xù)于同一個上游建模任務。
[0113]這里,任務配置模塊30可根據(jù)各個用戶的指示分別配置各自的建模任務,這里,作為示例,對于配置的建模任務,可僅允許建模項目主用戶和/或配置所述建模任務的建模項目參與用戶對所述建模任務進行修改、刪除等操作,此外,也可允許所有用戶對所述建模任務進行修改、刪除等操作。
[0114]進一步地,根據(jù)本發(fā)明的示例性實施例,可根據(jù)用戶的手動操作來實現(xiàn)特征工程(feature engi neering),具體說來,可根據(jù)用戶的輸入來配置特征抽取任務,以將數(shù)據(jù)記錄通過數(shù)據(jù)轉(zhuǎn)換和定義來形成能夠代表待確定問題的訓練用特征。
[0115]例如,任務配置模塊30在配置特征抽取任務時,可根據(jù)用戶在用于設置特征抽取配置項的頁面上執(zhí)行的輸入操作來生成特征抽取配置項,其中,特征抽取配置項用于限定如何從數(shù)據(jù)記錄抽取預定特征。
[0116]在建模計劃下配置的建模任務包括數(shù)據(jù)拼接任務的情況下,上述數(shù)據(jù)記錄可來源于數(shù)據(jù)拼接任務的輸出;在建模計劃下配置的建模任務僅包括數(shù)據(jù)輸入任務而不包括數(shù)據(jù)拼接任務的情況下,上述數(shù)據(jù)記錄可直接來源于數(shù)據(jù)輸入任務的輸出;在建模計劃下配置的建模任務既不包括數(shù)據(jù)輸入任務也不包括數(shù)據(jù)拼接任務的情況下,上述數(shù)據(jù)記錄可直接來源于用戶在特征抽取任務中配置的作為原始數(shù)據(jù)資源的輸入表。
[0117]具體說來,每種預定特征的特征抽取配置項可包括來源字段項和處理方法項,來源字段項用于將所述每種預定特征所涉及的數(shù)據(jù)記錄的字段限定為來源字段,處理方法項用于指定對預先編程為可執(zhí)行代碼的數(shù)據(jù)處理函數(shù)的引用,其中,所述數(shù)據(jù)處理函數(shù)用于在建模計劃被啟動時針對由來源字段項限定的來源字段的字段值執(zhí)行用于抽取所述每種預定特征的數(shù)據(jù)處理以運行特征抽取任務。
[0118]相應地,用于設置特征抽取配置項的頁面可以為圖形用戶界面,所述圖形用戶界面包括用于手動編輯特征抽取配置項的文本編輯界面和/或用于顯示特征抽取配置項的內(nèi)容選項以供用戶選擇的選擇輸入型界面。
[0119]下面結(jié)合附圖描述根據(jù)本發(fā)明實施例的由用戶通過圖形用戶界面來配置特征抽取任務的示例。應注意,這里的圖形用戶界面僅作為示例,本發(fā)明還可采用任何其它形式的輸入界面。作為示例,通過所述界面設置的特征抽取配置項可用于形成相應的配置文件以便后續(xù)從所述配置文件中讀取各個特征抽取配置項,也可將通過所述界面設置的特征抽取配置項直接應用于特征抽取主程序而無需生成任何配置文件。
[0120]圖5A示出根據(jù)本發(fā)明示例性實施例的用于配置特征抽取任務的圖形用戶界面200的示例,其中,輸入表201bank basic data可指示銀行的原始數(shù)據(jù),目標值202y指示訓練樣本的目標值,輸出表203bankdata_out指示抽取出的特征表。
[0121]在上述圖形用戶界面200中,可至少顯示有數(shù)據(jù)記錄的能夠作為來源字段的各個字段以及設置的預定特征的特征抽取配置項。此外,作為示例,還可顯示其它關(guān)于數(shù)據(jù)源或數(shù)據(jù)輸出的信息。具體說來,如圖5A所示,左側(cè)區(qū)域示出輸入表中數(shù)據(jù)記錄的各個字段,包括字段名稱204和字段屬性205;右側(cè)區(qū)域示出配置特征的配置頁面,作為示例,該配置頁面可包括用于顯示特征抽取配置項的內(nèi)容選項以供手動選擇的選擇輸入型界面,其中,每一行針對一個特定的特征,相應地配置了該特征的來源項206、處理方法207和特征名208。
[0122]作為示例,可根據(jù)用戶對左側(cè)區(qū)域顯示的各個字段的設置操作,相應地在右側(cè)區(qū)域顯示用戶設置的各個特征配置項目。在一個示例中,用戶可手動編輯右側(cè)區(qū)域顯示的配置項目。
[0123]具體說來,可首先在圖形用戶界面上(例如,左側(cè)區(qū)域)顯示數(shù)據(jù)記錄的各個字段,當用戶選中(例如,通過點擊來選中)某個或某些顯示的字段時,在配置頁面中將用戶選中的字段設置為設置的來源字段,并在所述來源字段被選擇的同時,將處理方法列表顯示在圖形用戶界面上,這里,作為示例,處理方法列表可被顯示在用戶選擇的來源字段附近以便于用戶從中選擇將在配置頁面中顯示的處理方法;這里,在所述處理方法列表中,所有處理方法可均處于激活狀態(tài);或者,可僅包括能夠應用于選中的來源字段項的處理方法;或者,可包括全部處理方法但將能夠應用的處理方法顯示為激活狀態(tài)而將無法應用的處理方法顯示為禁用狀態(tài)。
[0124]圖5B示出在左側(cè)區(qū)域中的單個字段(例如,“age”字段)301被用戶選擇的同時,向用戶顯示處理方法列表302的部分圖形用戶界面300的示例。例如,當用戶點擊“age”字段301時,右側(cè)在“age”字段的附近彈出處理方法列表302供選擇。在處理方法列表302中可列出所有的處理方法,并將用戶當前選擇的處理方法高亮顯示。此外,還可僅在處理方法列表302中顯示能夠應用于選擇的“age”字段的處理方法,或者,在處理方法列表302中僅將能夠應用于選擇的“age”字段的處理方法進行激活(例如,顯示為可選狀態(tài)或突出顯示狀態(tài))而將其它處理方法顯示為禁止狀態(tài)。
[0125]圖5C示出在左側(cè)區(qū)域中的多個字段401、402、403被用戶選擇的同時,向用戶顯示處理方法列表404的部分圖形用戶界面400的示例。這表示,用戶可在左側(cè)選取一個以上的來源字段401、402和403,相應地,可彈出處理方法列表404,供用戶選取對這些來源字段應用的處理方法。類似地,可采用適當?shù)姆绞絹韽棾鎏幚矸椒斜?04,并且,處理方法列表404可不必包括所有的處理方法,相應地,可根據(jù)左側(cè)選擇的來源字段而動態(tài)地調(diào)整在處理方法列表404中顯示的處理方法。
[0126]除了上述顯示特征抽取配置項的內(nèi)容選項以供手動選擇(例如,通過鼠標點擊的方式)的選擇輸入型界面之外,還可以采用其它形式的用于設置特征抽取配置項的界面,例如,用于手動編輯配置文件的文本編輯界面,使得用戶能夠直接在文本編輯界面中編寫“配置文件”,由于配置文件本身具有內(nèi)容上的重復性,可通過文本編輯操作(例如,復制、粘貼、拖動等)來快速完成“配置文件”的編寫。
[0127]圖6示出了具有能夠?qū)μ卣鞒槿∨渲庙椷M行文本編輯的區(qū)域的示例性圖形用戶界面500。圖形用戶界面500的左側(cè)與圖5B和圖5C所示的圖形用戶界面具有類似性,只是圖形用戶界面500的右側(cè)區(qū)域示出用于手動編輯配置文件的文本編輯界面501,用戶可以在文本編輯界面501中手動編輯特征抽取配置項目,包括配置特征項名稱、來源字段項、處理方法項等。通過文本編輯界面中執(zhí)行的文本編輯操作(例如、復制、粘貼、拖動等),用戶能夠高效率進行特征抽取配置項目的設置。
[0128]上述兩種圖形用戶界面可同時顯示在屏幕上,也可根據(jù)用戶的選擇而單獨顯示在屏幕上,例如,響應于用戶的界面切換操作輸入在文本編輯界面和選擇輸入型界面之間切換(顯示切換或激活切換),在切換前界面下的特征抽取配置項設置結(jié)果被同步地顯示到切換后的界面下。相應地,用戶可利用兩種配置界面在操作上的便利性,更有效地設置多個特征抽取方式,例如,用戶可首先在選擇輸入型界面中通過點擊等選擇輸入方式完成代表性的特征抽取配置,然后切換到文本編輯界面下,由于之前設置的結(jié)果會同步地顯示在文本編輯界面中,用戶可結(jié)合復制粘貼等操作快速地完成大量特征的抽取項設置。
[0129]在現(xiàn)有的數(shù)據(jù)建模領域中,為了能夠基于大量的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)進行模型訓練、測試或應用,往往需要在特征工程階段耗費較多的人力,例如,需要編程人員預先針對特定的特征抽取規(guī)則編寫每一種特征的提取代碼。相應地,在諸如建模平臺等供客戶使用的建模產(chǎn)品中,往往需要輸入建模平臺的已經(jīng)是提取出的訓練數(shù)據(jù)(即,提取好的特征向量),而用戶難以靈活地設置或調(diào)整關(guān)于特征抽取的對象和規(guī)則,使得建模平臺的使用受到限制。然而,根據(jù)本發(fā)明的示例性實施例,可通過上述方式來方便地配置特征抽取任務,充分擴展了數(shù)據(jù)建模的應用性。
[0130]進一步地,根據(jù)本發(fā)明的示例性實施例,在配置模型應用任務時,可將模型應用任務配置為手動應用方式和/或自動應用方式,其中,在手動應用方式下,根據(jù)用戶的操作來啟動模型應用,在自動應用方式下,根據(jù)預設的時間間隔來啟動模型應用。
[0131]這里,作為示例,可在用于配置模型應用的頁面中,配置普通的模型批量預估應用或定時自動運行的模型批量預估應用,其應用結(jié)果可以通過接口形式調(diào)用或者下載。
[0132]具體說來,在手動應用配置中,可輸入或修改模型應用的名稱,例如“2015年用戶信貸風控建模應用”。
[0133]此外,可根據(jù)用戶的選擇來確定將應用于訓練出的模型的模型應用數(shù)據(jù)的來源,例如,可用數(shù)據(jù)表、HDFS(Hadoc)P分布式文件系統(tǒng))數(shù)據(jù)源、本地文件等。在應用數(shù)據(jù)的來源被確定之后,可向用戶展示相應的可選數(shù)據(jù)的列表,以供用戶從中選擇出模型應用數(shù)據(jù)。
[0134]除此之外,還可根據(jù)用戶的操作來確定向用戶展示的模型應用結(jié)果包含模型應用數(shù)據(jù)的哪些表項(即,原始字段或相關(guān)特征)。例如,可向用戶提供關(guān)于表項選擇的彈出框,其中,包括“保留全表項結(jié)果”和“自定義表項結(jié)果”這兩個項目。當用戶選擇“自定義表項結(jié)果”時,可向用戶顯示模型應用數(shù)據(jù)的所有表項(包括模型所預測出的目標值),以供用戶從中勾選出最終顯示的表項,其中,預測出的目標值可默認為輸出表項且不可修改,其余表項可被勾選或撤銷勾選。此外,還可設置“反選”按鈕,以用于對選擇結(jié)果進行反轉(zhuǎn)。
[0135]進一步地,還可根據(jù)用戶的操作來確定模型應用結(jié)果的輸出排序。這里,作為示例,可向用戶提供關(guān)于輸出排序的三種選擇按鈕,例如,“原順序”、“按預測值升序”、“按預測值降序”等。
[0136]此外,在定時應用配置中,除了上述項目之外,還可進一步根據(jù)用戶的輸入來設置“定時應用任務運行的周期”、“定時的計時開始時間”和“定時的結(jié)束方式”等項目。這里,定時的結(jié)束時間可被設置為“一直運行”、“當完成預定次數(shù)的模型預測后結(jié)束”、具體的結(jié)束時間等。
[0137]通過定時應用的配置方式,能夠有效地擴展預測模型的應用場景,特別適用于預測模型的在線應用。
[0138]再次參照圖2,在步驟S40,由計劃啟動模塊40啟動所建立的至少一個建模計劃,并將所述至少一個建模計劃產(chǎn)生的結(jié)果保存在所述建模項目下。這里,當計劃啟動模塊40啟動所述至少一個建模計劃之中的某個建模計劃時,該建模計劃下所配置的建模任務被依次執(zhí)行,并獲得了相應的中間結(jié)果數(shù)據(jù)和/或最終結(jié)果數(shù)據(jù),例如,數(shù)據(jù)拼接任務被執(zhí)行時所獲得的完整輸入表、特征抽取任務被執(zhí)行時所獲得的訓練用樣本表、模型訓練任務被執(zhí)行時所獲得的預測模型、模型評估任務被執(zhí)行時所獲得的評估報告、模型應用任務被執(zhí)行時所獲得的預測結(jié)果等。這些結(jié)果數(shù)據(jù)均可被保存在建模計劃之下,從而便于在其所屬的建模項目下進行統(tǒng)一的處理。
[0139]如上所述,作為示例,在所述建立的建模項目的頁面之中,可顯示有已經(jīng)建立的建模計劃的列表,其中,在每個建模計劃的附近,可提供用于“啟動建模計劃”的按鈕。通過這種方式,用戶可在建模項目的頁面下選擇將要啟動的建模計劃。
[0140]或者,可在與建立的建模計劃相應的DAG圖頁面中設置用于啟動當前建模計劃的按鈕,從而當用戶按下該按鈕時,計劃啟動模塊40啟動當前的建模計劃,以依次執(zhí)行DAG中配置好的各個建模任務。
[0141]這里,在步驟S40中,啟動所述至少一個建模計劃的模型訓練任務后,在模型訓練任務的執(zhí)行過程中產(chǎn)生的模型系數(shù)可被分布地保存在多個參數(shù)服務器中。通過這種方式,可進一步提尚t旲型訓練的能力。
[0142]此外,還可按照預定百分比或預定行數(shù)來下載保存的所述至少一個建模計劃產(chǎn)生的結(jié)果。例如,模型應用任務被執(zhí)行時將產(chǎn)生預測結(jié)果文件。圖7示出根據(jù)本發(fā)明示例性實施例的用于下載結(jié)果文件的頁面的示例。對此,當用戶在建模項目的頁面或當前建模計劃的頁面中點擊用于下載結(jié)果文件的按鈕時,可向用戶顯示如圖7所示的彈出框,以便用戶選擇下載全部結(jié)果數(shù)據(jù)還是下載全部結(jié)果數(shù)據(jù)的前多少行數(shù)據(jù)。應注意,圖7顯示的頁面僅作為示例而非限制,例如,根據(jù)本發(fā)明的示例性實施例,還可選擇下載全部結(jié)果數(shù)據(jù)中的預定百分比的結(jié)果數(shù)據(jù)。
[0143]此外,圖2所述的方法可還包括:將啟動所述至少一個建模計劃下的模型評估任務時產(chǎn)生的數(shù)據(jù)模型的評估報告與相應的模型訓練任務和/或建模計劃相對應地進行顯示。具體說來,根據(jù)本發(fā)明的示例性實施例,可將數(shù)據(jù)模型的評估報告的顯示入口設置為對應于所述數(shù)據(jù)模型所屬的模型訓練任務和/或建模計劃,通過這種方式,用戶可以在查看模型的評估報告之后方便地調(diào)整模型訓練任務或建模計劃下的其它相關(guān)建模任務。
[0144]以上結(jié)合圖2描述了根據(jù)本發(fā)明示例性實施例進行數(shù)據(jù)建模管理的示例??梢钥闯?,根據(jù)本發(fā)明的示例性實施例,不僅能夠幫助用戶完成數(shù)據(jù)建模的過程,而且能夠有效地進行體系化的數(shù)據(jù)處理、流程處理和/或模型處理,從而真正幫助用戶基于大數(shù)據(jù)技術(shù)來找到解決實際問題的方式。
[0145]優(yōu)選地,在根據(jù)本發(fā)明示例性實施例的建模體系下,可以有效地配置快速建模的過程,使得對建模過程并不熟悉的用戶能夠快速得到期望的數(shù)據(jù)模型。
[0146]具體說來,在步驟SlO建立的建模項目為快速建模項目。這里,可根據(jù)用戶對“快速建模項目”選項卡的選擇來建立快速建模項目。
[0147]圖8示出根據(jù)本發(fā)明示例性實施例的用于新建建模項目的頁面。作為示例,在圖8所示的頁面下,當用戶點擊“快速建?!卑粹o或“快速建?!边x項卡時,會建立一個快速建模項目。
[0148]相應地,在快速建模項目被建立之后,在步驟S20中,自動在快速建模項目下建立一個快速建模計劃,在步驟S30中,在快速建模計劃下根據(jù)用戶的輸入操作配置完輸入的數(shù)據(jù)記錄之后,自動配置相應的特征抽取任務和模型訓練任務,并在步驟S40中,自動啟動快速建模計劃。
[0149]作為示例,在步驟S30,可向用戶提供用于直接選擇輸入表的操作入口,以便用戶選擇快速建模下的原始訓練數(shù)據(jù)及其中的目標值。在用戶配置好輸入的數(shù)據(jù)記錄之后,可利用預設的特征抽取配置項和模型訓練參數(shù)來自動配置特征抽取任務和模型訓練任務,其中,特征抽取配置項用于限定如何從數(shù)據(jù)記錄抽取預定特征。
[0150]這里,可預先將特征抽取配置項設置為使用默認的處理方法(例如,直接抽取)對輸入表的所有表項(即,字段)進行處理以得到樣本的各個特征,此外,可采用預先設定的模型訓練參數(shù)來配置模型訓練任務,也可通過分析輸入的數(shù)據(jù)記錄的特點來適應性地自動設置模型訓練參數(shù)。
[0151]作為優(yōu)選方式,用戶還可在快速建模過程中選擇手動設置模型訓練參數(shù)。具體說來,可將默認方式設置為利用預設的模型訓練參數(shù)來配置模型訓練任務,但是用戶也可選擇自行設置模型訓練參數(shù),并手動設置期望的模型訓練參數(shù)。
[0152]圖9示出根據(jù)本發(fā)明示例性實施例的用于快速建模的頁面的示例。具體說來,在圖9所示的快速建模頁面中,用戶可通過選擇“更多設置”來對模型訓練參數(shù)進行手動設置,否貝1J,則可針對輸入表和目標值,按照預定的特征抽取配置項和模型訓練參數(shù)進行模型訓練。
[0153]應注意,上述數(shù)據(jù)建模管理系統(tǒng)可完全依賴計算機程序的運行來實現(xiàn)相應的功能,即,各個模塊與計算機程序的功能架構(gòu)中與各步驟相應,使得整個系統(tǒng)通過專門的軟件包(例如,Iib庫)而被調(diào)用,以實現(xiàn)相應的數(shù)據(jù)建模管理功能。
[0154]另一方面,圖1所示的各個模塊也可以通過硬件、軟件、固件、中間件、微代碼或其任意組合來實現(xiàn)。當以軟件、固件、中間件或微代碼實現(xiàn)時,用于執(zhí)行相應操作的程序代碼或者代碼段可以存儲在諸如存儲介質(zhì)的計算機可讀介質(zhì)中,使得處理器可通過讀取并運行相應的程序代碼或者代碼段來執(zhí)行相應的操作。
[0155]這里,本發(fā)明的示例性實施例還可以實現(xiàn)為計算裝置,該計算裝置包括存儲部件和處理器,存儲部件中存儲有計算機可執(zhí)行指令集合,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行上述數(shù)據(jù)建模管理方法。
[0156]具體說來,所述計算裝置可以部署在服務器或客戶端中,也可以部署在分布式網(wǎng)絡環(huán)境中的節(jié)點裝置上。此外,所述計算裝置可以是PC計算機、平板裝置、個人數(shù)字助理、智能手機、web應用或其它能夠執(zhí)行上述指令集合的裝置。
[0157]這里,所述計算裝置并非必須是單個的計算裝置,還可以是任何能夠單獨或聯(lián)合執(zhí)行上述指令(或指令集)的裝置或電路的集合體。計算裝置還可以是集成控制系統(tǒng)或系統(tǒng)管理器的一部分,或者可被配置為與本地或遠程(例如,經(jīng)由無線傳輸)以接口互聯(lián)的便攜式電子裝置。
[0158]在所述計算裝置中,處理器可包括中央處理器(CPU)、圖形處理器(GPU)、可編程邏輯裝置、專用處理器系統(tǒng)、微控制器或微處理器。作為示例而非限制,處理器還可包括模擬處理器、數(shù)字處理器、微處理器、多核處理器、處理器陣列、網(wǎng)絡處理器等。
[0159]上述數(shù)據(jù)建模管理方法中所描述的某些操作可通過軟件方式來實現(xiàn),某些操作可通過硬件方式來實現(xiàn),此外,還可通過軟硬件結(jié)合的方式來實現(xiàn)這些操作。
[0160]處理器可運行存儲在存儲部件之一中的指令或代碼,其中,所述存儲部件還可以存儲數(shù)據(jù)。指令和數(shù)據(jù)還可經(jīng)由網(wǎng)絡接口裝置而通過網(wǎng)絡被發(fā)送和接收,其中,所述網(wǎng)絡接口裝置可采用任何已知的傳輸協(xié)議。
[0161]存儲部件可與處理器集成為一體,例如,將RAM或閃存不知在集成電路微處理器等之內(nèi)。此外,存儲部件可包括獨立的裝置,諸如,外部盤驅(qū)動、存儲陣列或任何數(shù)據(jù)庫系統(tǒng)可使用的其它存儲裝置。存儲部件和處理器可在操作上進行耦合,或者可例如通過I/o端口、網(wǎng)絡連接等互相通信,使得處理器能夠讀取存儲在存儲部件中的文件。
[0162]此外,所述計算裝置還可包括視頻顯示器(諸如,液晶顯示器)和用戶交互接口(諸如,鍵盤、鼠標、觸摸輸入裝置等)。計算裝置的所有組件可經(jīng)由總線和/或網(wǎng)絡而彼此連接。
[0163]上述數(shù)據(jù)建模管理方法所涉及的操作可被描述為各種互聯(lián)或耦合的功能塊或功能示圖。然而,這些功能塊或功能示圖可被均等地集成為單個的邏輯裝置或按照非確切的邊界進行操作。
[0164]具體說來,如上所述,根據(jù)本發(fā)明示例性實施例的用于管理數(shù)據(jù)建模的計算裝置可包括存儲部件和處理器,存儲部件中存儲有計算機可執(zhí)行指令集合,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟:(A)建立用于管理數(shù)據(jù)建模的建模項目;
(B)在建立的建模項目下,建立至少一個建模計劃,其中,建模計劃用于執(zhí)行數(shù)據(jù)建?;顒樱?br>(C)在建立的每個建模計劃下,配置相應的數(shù)據(jù)建模活動所涉及的建模任務,其中,所述建模任務包括以下項中的至少一個:數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務;(D)啟動所述至少一個建模計劃,并將所述至少一個建模計劃產(chǎn)生的結(jié)果保存在所述建模項目下。
[0165]應注意,以上已經(jīng)結(jié)合圖2描述了根據(jù)本發(fā)明示例性實施例的數(shù)據(jù)建模管理方法的各處理細節(jié),這里將不再贅述計算裝置執(zhí)行各步驟時的處理細節(jié)。
[0166]以上已經(jīng)描述了本發(fā)明的各示例性實施例,應理解,上述描述僅是示例性的,并非窮盡性的,并且本發(fā)明也不限于所披露的各示例性實施例。在不偏離本發(fā)明的范圍和精神的情況下,對于本技術(shù)領域的普通技術(shù)人員來說許多修改和變更都是顯而易見的。因此,本發(fā)明的保護范圍應該以權(quán)利要求的范圍為準。
【主權(quán)項】
1.一種用于管理數(shù)據(jù)建模的方法,包括: (A)建立用于管理數(shù)據(jù)建模的建模項目; (B)在建立的建模項目下,建立至少一個建模計劃,其中,建模計劃用于執(zhí)行數(shù)據(jù)建?;顒樱?(C)在建立的每個建模計劃下,配置相應的數(shù)據(jù)建?;顒铀婕暗慕H蝿眨渲?,所述建模任務包括以下項中的至少一個:數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務; (D)啟動所述至少一個建模計劃,并將所述至少一個建模計劃產(chǎn)生的結(jié)果保存在所述建模項目下。2.如權(quán)利要求1所述的方法,其中,步驟(A)還包括:在建立的建模項目下指定參與數(shù)據(jù)建模的至少一個用戶,其中,所述至少一個用戶被設置為針對建模項目、建模計劃和/或建模任務具有各自相應的操作權(quán)限。3.如權(quán)利要求1所述的方法,其中,在步驟(B)中,通過復制已經(jīng)建立的建模計劃來建立所述至少一個建模計劃;或者,在步驟(C)中,通過復制已經(jīng)建立的建模任務來配置相應的數(shù)據(jù)建?;顒铀婕暗慕H蝿?。4.如權(quán)利要求1所述的方法,其中,在步驟(C)中,顯示與建立的建模計劃相應的DAG圖,其中,所述DAG圖包括用于分別配置建模任務的交互式結(jié)構(gòu)單元。5.如權(quán)利要求1所述的方法,其中,在步驟(A)建立的建模項目為快速建模項目;并且,在步驟(B)中,自動在快速建模項目下建立一個快速建模計劃,在步驟(C)中,在快速建模計劃下根據(jù)用戶的輸入操作配置完輸入的數(shù)據(jù)記錄之后,自動配置相應的特征抽取任務和模型訓練任務,并在步驟(D)中,自動啟動快速建模計劃。6.如權(quán)利要求1所述的方法,其中,在步驟(C)中,在配置特征抽取任務時,根據(jù)用戶在用于設置特征抽取配置項的頁面上執(zhí)行的輸入操作來生成特征抽取配置項,其中,特征抽取配置項用于限定如何從數(shù)據(jù)記錄抽取預定特征。7.如權(quán)利要求6所述的方法,其中,用于設置特征抽取配置項的頁面為圖形用戶界面,所述圖形用戶界面包括用于手動編輯特征抽取配置項的文本編輯界面和/或用于顯示特征抽取配置項的內(nèi)容選項以供用戶選擇的選擇輸入型界面。8.如權(quán)利要求1所述的方法,其中,在步驟(C)中,將模型應用任務配置為手動應用方式和/或自動應用方式,其中,在手動應用方式下,根據(jù)用戶的操作來啟動模型應用,在自動應用方式下,根據(jù)預設的時間間隔來啟動模型應用。9.一種用于管理數(shù)據(jù)建模的系統(tǒng),包括:項目建立模塊,用于建立用于管理數(shù)據(jù)建模的建模項目;計劃建立模塊,用于在建立的建模項目下,建立至少一個建模計劃,其中,建模計劃用于執(zhí)行數(shù)據(jù)建?;顒?任務配置模塊,用于在建立的每個建模計劃下,配置相應的數(shù)據(jù)建模活動所涉及的建模任務,其中,所述建模任務包括以下項中的至少一個:數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務;計劃啟動模塊,用于啟動所述至少一個建模計劃,并將所述至少一個建模計劃產(chǎn)生的結(jié)果保存在所述建模項目下。10.—種用于管理數(shù)據(jù)建模的計算裝置,包括存儲部件和處理器,存儲部件中存儲有計算機可執(zhí)行指令集合,當所述計算機可執(zhí)行指令集合被所述處理器執(zhí)行時,執(zhí)行下述步驟: (A)建立用于管理數(shù)據(jù)建模的建模項目; (B)在建立的建模項目下,建立至少一個建模計劃,其中,建模計劃用于執(zhí)行數(shù)據(jù)建?;顒?; (C)在建立的每個建模計劃下,配置相應的數(shù)據(jù)建?;顒铀婕暗慕H蝿?,其中,所述建模任務包括以下項中的至少一個:數(shù)據(jù)輸入任務、數(shù)據(jù)拼接任務、特征抽取任務、模型訓練任務、模型評估任務、模型應用任務; (D)啟動所述至少一個建模計劃,并將所述至少一個建模計劃產(chǎn)生的結(jié)果保存在所述建模項目下。
【文檔編號】G06F17/30GK105843873SQ201610157875
【公開日】2016年8月10日
【申請日】2016年3月18日
【發(fā)明人】康執(zhí)璽, 田楓
【申請人】北京物思創(chuàng)想科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
皋兰县| 泾阳县| 白玉县| 峨眉山市| 岗巴县| 湖州市| 旺苍县| 桃园市| 枣庄市| 梁平县| 正定县| 金乡县| 大新县| 射洪县| 彭山县| 新密市| 安福县| 伊宁县| 包头市| 苗栗县| 孝义市| 辰溪县| 酉阳| 佛山市| 象山县| 濉溪县| 苍南县| 耿马| 都昌县| 永新县| 子长县| 永康市| 新乡市| 广饶县| 敦煌市| 同江市| 博爱县| 兰州市| 永善县| 海原县| 石台县|