本申請涉及電數(shù)字數(shù)據(jù)處理領(lǐng)域,具體而言,涉及一種業(yè)務(wù)預(yù)測模型訓(xùn)練方法、裝置及非易失性存儲介質(zhì)。
背景技術(shù):
1、在對二分基模型進行訓(xùn)練時,通常會要求正負樣本之間的比例接近1∶1,來保證訓(xùn)練效率和訓(xùn)練結(jié)果。但是在實際應(yīng)用場景中,可能存在正負樣本嚴重失衡的情況。這導(dǎo)致相關(guān)技術(shù)中在特定應(yīng)用場景下無法保證二分基模型的訓(xùn)練效率。進而導(dǎo)致在特定應(yīng)用場景下無法有效對業(yè)務(wù)結(jié)果進行預(yù)測。
2、針對上述的問題,目前尚未提出有效的解決方案。
技術(shù)實現(xiàn)思路
1、本申請實施例提供了一種業(yè)務(wù)預(yù)測模型訓(xùn)練方法、裝置及非易失性存儲介質(zhì),以至少解決由于相關(guān)技術(shù)中在特定應(yīng)用場景下二分模型訓(xùn)練效率低導(dǎo)致的在特定應(yīng)用場景下無法有效的對業(yè)務(wù)結(jié)果進行預(yù)測的技術(shù)問題。
2、根據(jù)本申請實施例的一個方面,提供了一種業(yè)務(wù)預(yù)測模型訓(xùn)練方法,包括:獲取待預(yù)測業(yè)務(wù)的歷史業(yè)務(wù)數(shù)據(jù),并從歷史業(yè)務(wù)數(shù)據(jù)中確定第一類訓(xùn)練樣本和第二類訓(xùn)練樣本,其中,第二類訓(xùn)練樣本多于第一類訓(xùn)練樣本,在第一類訓(xùn)練樣本為正樣本的情況下,第二類訓(xùn)練樣本為負樣本,在第一類訓(xùn)練樣本為負樣本的情況下,第二類訓(xùn)練樣本為正樣本;將第二類訓(xùn)練樣本隨機劃分為多個第一樣本集合,并將多個第一樣本集合分別與第一類訓(xùn)練樣本融合,得到多個第二樣本集合;依據(jù)多個第二樣本集合對業(yè)務(wù)預(yù)測模型進行訓(xùn)練,其中,業(yè)務(wù)預(yù)測模型中包括多個二分基模型,二分基模型的數(shù)量與第二樣本集合的數(shù)量相同,業(yè)務(wù)預(yù)測模型用于處理與待預(yù)測業(yè)務(wù)相關(guān)的待預(yù)測樣本,從而得到待預(yù)測業(yè)務(wù)的預(yù)測業(yè)務(wù)處理結(jié)果。
3、可選地,將第二類訓(xùn)練樣本隨機劃分為多個第一樣本集合包括:對第一類訓(xùn)練樣本進行聚類,得到聚類結(jié)果,其中,聚類結(jié)果中包括聚類中心;確定各個第二類訓(xùn)練樣本和聚類中心之間的相似度,并依據(jù)相似度對第二類訓(xùn)練樣本進行篩選,得到第一篩選結(jié)果,其中,第二類訓(xùn)練樣本和聚類中心之間的相似度為第二類訓(xùn)練樣本與各個聚類之間的相似度的最小值;將第一篩選結(jié)果隨機劃分為多個第一樣本集合。
4、可選地,方法還包括:確定各個待預(yù)測樣本與聚類中心之間的相似度,其中,待預(yù)測樣本與聚類中心之間的相似度為待預(yù)測樣本與各個聚類中心之間的相似度的最小值;基于各個待預(yù)測樣本對應(yīng)的相似度和預(yù)設(shè)相似度閾值對待預(yù)測樣本進行篩選,得到第二篩選結(jié)果,其中,第二篩選結(jié)果中包括對應(yīng)的相似度大于預(yù)設(shè)相似度閾值的待預(yù)測樣本;采用業(yè)務(wù)預(yù)測模型處理第二篩選結(jié)果。
5、可選地,方法還包括:通過每個二分基模型分別處理待預(yù)測樣本,得到各個二分基模型的模型輸出結(jié)果;依據(jù)各個二分基模型的模型輸出結(jié)果,確定預(yù)測業(yè)務(wù)處理結(jié)果。
6、可選地,依據(jù)多個第二樣本集合對業(yè)務(wù)預(yù)測模型進行訓(xùn)練包括:確定與每個第二樣本集合對應(yīng)的二分基模型;對每個二分基模型,采用與二分基模型對應(yīng)的第二樣本集合進行訓(xùn)練。
7、可選地,用與二分基模型對應(yīng)的第二樣本集合進行訓(xùn)練包括:采用輕量梯度提升機算法和第二樣本集合對二分基模型進行訓(xùn)練,直到二分基模型的評價指標(biāo)的波動值在預(yù)設(shè)閾值區(qū)間內(nèi),其中,評價指標(biāo)的波動值為本輪訓(xùn)練的評價指標(biāo)與上一輪訓(xùn)練的評價指標(biāo)之間的差值,評價指標(biāo)包括以下至少之一:精確率,召回率,以及精確率和召回率的調(diào)和平均數(shù)。
8、可選地,待預(yù)測業(yè)務(wù)包括用戶寬帶流失風(fēng)險預(yù)測業(yè)務(wù),預(yù)設(shè)業(yè)務(wù)的潛在客戶挖掘結(jié)果預(yù)測,其中,在待預(yù)測業(yè)務(wù)為用戶寬帶流失風(fēng)險預(yù)測業(yè)務(wù)的情況下,正樣本為預(yù)設(shè)時間段內(nèi)不再辦理寬帶業(yè)務(wù)的客戶樣本數(shù)據(jù),負樣本為預(yù)設(shè)時間段內(nèi)繼續(xù)辦理寬帶業(yè)務(wù)的客戶樣本數(shù)據(jù);在待預(yù)測業(yè)務(wù)為預(yù)設(shè)業(yè)務(wù)的潛在客戶挖掘結(jié)果預(yù)測的情況下,正樣本為辦理預(yù)設(shè)業(yè)務(wù)的客戶樣本數(shù)據(jù),負樣本為不辦理預(yù)設(shè)業(yè)務(wù)的客戶樣本數(shù)據(jù)。
9、根據(jù)本申請實施例的另一方面,還提供了一種業(yè)務(wù)預(yù)測模型訓(xùn)練裝置,包括:第一處理模塊,用于獲取待預(yù)測業(yè)務(wù)的歷史業(yè)務(wù)數(shù)據(jù),并從歷史業(yè)務(wù)數(shù)據(jù)中確定第一類訓(xùn)練樣本和第二類訓(xùn)練樣本,其中,第二類訓(xùn)練樣本多于第一類訓(xùn)練樣本,在第一類訓(xùn)練樣本為正樣本的情況下,第二類訓(xùn)練樣本為負樣本,在第一類訓(xùn)練樣本為負樣本的情況下,第二類訓(xùn)練樣本為正樣本;第二處理模塊,用于將第二類訓(xùn)練樣本隨機劃分為多個第一樣本集合,并將多個第一樣本集合分別與第一類訓(xùn)練樣本融合,得到多個第二樣本集合;第三處理模塊,用于依據(jù)多個第二樣本集合對業(yè)務(wù)預(yù)測模型進行訓(xùn)練,其中,業(yè)務(wù)預(yù)測模型中包括多個二分基模型,二分基模型的數(shù)量與第二樣本集合的數(shù)量相同,業(yè)務(wù)預(yù)測模型用于處理與待預(yù)測業(yè)務(wù)相關(guān)的待預(yù)測樣本,從而得到待預(yù)測業(yè)務(wù)的預(yù)測業(yè)務(wù)處理結(jié)果。
10、根據(jù)本申請實施例的另一方面,還提供了一種非易失性存儲介質(zhì),非易失性存儲介質(zhì)中存儲有程序,其中,在程序運行時控制非易失性存儲介質(zhì)所在設(shè)備執(zhí)行業(yè)務(wù)預(yù)測模型訓(xùn)練方法。
11、根據(jù)本申請實施例的另一方面,還提供了一種電子設(shè)備,包括:存儲器和處理器,處理器用于運行存儲在存儲器中的程序,其中,程序運行時執(zhí)行業(yè)務(wù)預(yù)測模型訓(xùn)練方法。
12、根據(jù)本申請實施例的另一方面,還提供了一種計算機程序產(chǎn)品,包括計算機程序,計算機程序在被處理器執(zhí)行時實現(xiàn)業(yè)務(wù)預(yù)測模型訓(xùn)練方法的步驟。
13、在本申請實施例中,采用獲取待預(yù)測業(yè)務(wù)的歷史業(yè)務(wù)數(shù)據(jù),并從歷史業(yè)務(wù)數(shù)據(jù)中確定第一類訓(xùn)練樣本和第二類訓(xùn)練樣本,其中,第二類訓(xùn)練樣本多于第一類訓(xùn)練樣本,在第一類訓(xùn)練樣本為正樣本的情況下,第二類訓(xùn)練樣本為負樣本,在第一類訓(xùn)練樣本為負樣本的情況下,第二類訓(xùn)練樣本為正樣本;將第二類訓(xùn)練樣本隨機劃分為多個第一樣本集合,并將多個第一樣本集合分別與第一類訓(xùn)練樣本融合,得到多個第二樣本集合;依據(jù)多個第二樣本集合對業(yè)務(wù)預(yù)測模型進行訓(xùn)練,其中,業(yè)務(wù)預(yù)測模型中包括多個二分基模型,二分基模型的數(shù)量與第二樣本集合的數(shù)量相同,業(yè)務(wù)預(yù)測模型用于處理與待預(yù)測業(yè)務(wù)相關(guān)的待預(yù)測樣本,從而得到待預(yù)測業(yè)務(wù)的預(yù)測業(yè)務(wù)處理結(jié)果的方式,通過對第二類訓(xùn)練樣本進行劃分并與第一類訓(xùn)練樣本融合,達到了平衡各個樣本集合中的第一類訓(xùn)練樣本和第二類訓(xùn)練樣本的比例的目的,從而實現(xiàn)了提高二分模型的訓(xùn)練效率的技術(shù)效果,進而解決了由于相關(guān)技術(shù)中在特定應(yīng)用場景下二分模型訓(xùn)練效率低導(dǎo)致的在特定應(yīng)用場景下無法有效的對業(yè)務(wù)結(jié)果進行預(yù)測的技術(shù)問題。
1.一種業(yè)務(wù)預(yù)測模型訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的業(yè)務(wù)預(yù)測模型訓(xùn)練方法,其特征在于,將所述第二類訓(xùn)練樣本隨機劃分為多個第一樣本集合包括:
3.根據(jù)權(quán)利要求2所述的業(yè)務(wù)預(yù)測模型訓(xùn)練方法,其特征在于,所述業(yè)務(wù)預(yù)測模型訓(xùn)練方法還包括:
4.根據(jù)權(quán)利要求1所述的業(yè)務(wù)預(yù)測模型訓(xùn)練方法,其特征在于,所述方法還包括:
5.根據(jù)權(quán)利要求1所述的業(yè)務(wù)預(yù)測模型訓(xùn)練方法,其特征在于,依據(jù)多個所述第二樣本集合對業(yè)務(wù)預(yù)測模型進行訓(xùn)練包括:
6.根據(jù)權(quán)利要求5所述的業(yè)務(wù)預(yù)測模型訓(xùn)練方法,其特征在于,采用與所述二分基模型對應(yīng)的所述第二樣本集合進行訓(xùn)練的步驟包括:
7.根據(jù)權(quán)利要求1所述的業(yè)務(wù)預(yù)測模型訓(xùn)練方法,其特征在于,所述待預(yù)測業(yè)務(wù)包括用戶寬帶流失風(fēng)險預(yù)測業(yè)務(wù),預(yù)設(shè)業(yè)務(wù)的潛在客戶挖掘結(jié)果預(yù)測,其中,
8.一種業(yè)務(wù)預(yù)測裝置,其特征在于,包括:
9.一種非易失性存儲介質(zhì),其特征在于,所述非易失性存儲介質(zhì)中存儲有程序,其中,在所述程序運行時控制所述非易失性存儲介質(zhì)所在設(shè)備執(zhí)行權(quán)利要求1至7中任意一項所述的業(yè)務(wù)預(yù)測模型訓(xùn)練方法。
10.一種計算機程序產(chǎn)品,包括計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任意一項所述的業(yè)務(wù)預(yù)測模型訓(xùn)練方法的步驟。