本發(fā)明涉及數(shù)據(jù)請(qǐng)求處理領(lǐng)域,尤其涉及一種數(shù)據(jù)處理動(dòng)態(tài)調(diào)整方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)。
背景技術(shù):
1、隨著大數(shù)據(jù)時(shí)代的到來,apache?spark作為一個(gè)開源的大規(guī)模數(shù)據(jù)處理框架,因其具備高性能、易用性以及豐富的功能集,已經(jīng)成為銀行業(yè)務(wù)數(shù)據(jù)分析處理的主流選擇之一。在銀行金融領(lǐng)域,apache?spark被廣泛應(yīng)用于信用卡交易分析、客戶行為分析、風(fēng)險(xiǎn)管理等多種場(chǎng)景。然而,在apache?spark中,設(shè)置數(shù)據(jù)的數(shù)據(jù)區(qū)塊數(shù)量對(duì)于其性能和效率具有重要的影響。
2、apache?spark的數(shù)據(jù)區(qū)塊數(shù)量通常需要根據(jù)開發(fā)人員的經(jīng)驗(yàn)手動(dòng)設(shè)定,并且在作業(yè)運(yùn)行過程中這個(gè)數(shù)據(jù)區(qū)塊數(shù)量通常是固定的。如果數(shù)據(jù)區(qū)塊數(shù)量太少,那么銀行的計(jì)算資源將得不到充分利用,導(dǎo)致處理效率低下,尤其是在處理大量交易數(shù)據(jù)時(shí),可能會(huì)出現(xiàn)嚴(yán)重的延遲和響應(yīng)時(shí)間增加。相反,如果數(shù)據(jù)區(qū)塊數(shù)量太多,雖然可以提高并行度,但是也會(huì)帶來過多的調(diào)度開銷和內(nèi)存消耗,特別是在處理高峰期,這可能導(dǎo)致資源浪費(fèi)和系統(tǒng)性能下降。
3、在實(shí)際應(yīng)用中,這種靜態(tài)的數(shù)據(jù)區(qū)塊方式往往不能滿足不同數(shù)據(jù)量和運(yùn)行環(huán)境的需求。因此,通過自動(dòng)化的方式數(shù)據(jù)處理動(dòng)態(tài)調(diào)整,以滿足不同數(shù)據(jù)量和運(yùn)行環(huán)境的需求是亟需解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、鑒于以上內(nèi)容,有必要提供一種數(shù)據(jù)處理動(dòng)態(tài)調(diào)整方法,其目的是通過自動(dòng)化的方式數(shù)據(jù)處理動(dòng)態(tài)調(diào)整,滿足不同數(shù)據(jù)量和運(yùn)行環(huán)境的需求。
2、本發(fā)明提供的數(shù)據(jù)處理動(dòng)態(tài)調(diào)整方法,包括:
3、接收對(duì)待處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分區(qū)的請(qǐng)求,將所述待處理數(shù)據(jù)劃分為多個(gè)數(shù)據(jù)區(qū)塊,對(duì)每個(gè)數(shù)據(jù)區(qū)塊配置計(jì)算資源,所述計(jì)算資源包括服務(wù)器節(jié)點(diǎn)、cpu核心數(shù)量及內(nèi)存容量中的一種;
4、調(diào)用分配的計(jì)算資源運(yùn)行每個(gè)數(shù)據(jù)區(qū)塊,并記錄每個(gè)數(shù)據(jù)區(qū)塊中已運(yùn)行的數(shù)據(jù)量和未運(yùn)行的數(shù)據(jù)量,根據(jù)所述計(jì)算資源運(yùn)行所述已運(yùn)行的數(shù)據(jù)量的執(zhí)行時(shí)間,計(jì)算得到每個(gè)數(shù)據(jù)區(qū)塊的執(zhí)行速度;
5、根據(jù)所述執(zhí)行速度和所述未運(yùn)行的數(shù)據(jù)量動(dòng)態(tài)調(diào)整所述數(shù)據(jù)區(qū)塊或計(jì)算資源,包括:從所述多個(gè)數(shù)據(jù)區(qū)塊中,篩選所述未運(yùn)行的數(shù)據(jù)量小于第一預(yù)設(shè)閾值的數(shù)據(jù)區(qū)塊,將篩選后小于第一預(yù)設(shè)閾值的數(shù)據(jù)區(qū)塊兩兩合并,從所述多個(gè)數(shù)據(jù)區(qū)塊中,篩選所述執(zhí)行速度小于第二預(yù)設(shè)閾值的數(shù)據(jù)區(qū)塊,對(duì)篩選后小于第二預(yù)設(shè)閾值的數(shù)據(jù)區(qū)塊調(diào)整所述計(jì)算資源,所述第一預(yù)設(shè)閾值與所述第二預(yù)設(shè)閾值的計(jì)量單位不同。
6、可選的,在所述將所述待處理數(shù)據(jù)劃分為多個(gè)數(shù)據(jù)區(qū)塊之后,所述方法還包括:
7、獲取每個(gè)數(shù)據(jù)區(qū)塊的元數(shù)據(jù),計(jì)算每個(gè)數(shù)據(jù)區(qū)塊的元數(shù)據(jù)的哈希值;
8、將每個(gè)數(shù)據(jù)區(qū)塊的元數(shù)據(jù)的哈希值作為對(duì)應(yīng)數(shù)據(jù)區(qū)塊的標(biāo)識(shí)符。
9、可選的,在所述調(diào)用分配的計(jì)算資源運(yùn)行每個(gè)數(shù)據(jù)區(qū)塊之前,所述方法還包括:
10、開啟預(yù)設(shè)監(jiān)控工具,利用所述預(yù)設(shè)監(jiān)控工具對(duì)每個(gè)數(shù)據(jù)區(qū)塊配置事件記錄日志;
11、利用所述事件記錄日志記錄每個(gè)數(shù)據(jù)區(qū)塊的關(guān)鍵指標(biāo),所述關(guān)鍵指標(biāo)包括已運(yùn)行的數(shù)據(jù)量、未運(yùn)行的數(shù)據(jù)量和執(zhí)行時(shí)間。
12、可選的,所述記錄每個(gè)數(shù)據(jù)區(qū)塊中已運(yùn)行的數(shù)據(jù)量和未運(yùn)行的數(shù)據(jù)量,根據(jù)所述計(jì)算資源運(yùn)行所述已運(yùn)行的數(shù)據(jù)量的執(zhí)行時(shí)間,包括:
13、在所述事件記錄日志上分別設(shè)置第一記錄任務(wù)和第二記錄任務(wù);
14、利用所述第一記錄任務(wù)記錄每個(gè)數(shù)據(jù)區(qū)塊中已運(yùn)行的數(shù)據(jù)量和未運(yùn)行的數(shù)據(jù)量,以及利用所述第二記錄任務(wù)記錄每個(gè)數(shù)據(jù)區(qū)塊運(yùn)行所述已運(yùn)行的數(shù)據(jù)量所需的執(zhí)行時(shí)間。
15、可選的,所述將篩選后小于第一預(yù)設(shè)閾值的數(shù)據(jù)區(qū)塊兩兩合并,包括:
16、將篩選后小于第一預(yù)設(shè)閾值的數(shù)據(jù)區(qū)塊按照數(shù)據(jù)區(qū)塊的標(biāo)識(shí)符從小到大進(jìn)行排序;
17、將排序中相鄰的兩個(gè)數(shù)據(jù)區(qū)塊合并,并釋放所述相鄰的兩個(gè)數(shù)據(jù)區(qū)塊中的任意一個(gè)數(shù)據(jù)區(qū)塊的計(jì)算資源。
18、可選的,所述將篩選后小于第一預(yù)設(shè)閾值的數(shù)據(jù)區(qū)塊兩兩合并,包括:
19、將篩選后小于第一預(yù)設(shè)閾值的數(shù)據(jù)區(qū)塊按照數(shù)據(jù)量從小到大進(jìn)行排序,得到排序合并列表;
20、從所述排序合并列表中,依次選取數(shù)據(jù)量最大的數(shù)據(jù)區(qū)塊及選取數(shù)據(jù)量最小的數(shù)據(jù)區(qū)塊進(jìn)行兩兩合并,直至合并完所述排序合并列表中所有的數(shù)據(jù)區(qū)塊。
21、可選的,所述方法還包括:
22、每隔預(yù)設(shè)時(shí)間段,重復(fù)執(zhí)行所述根據(jù)所述執(zhí)行速度和所述未運(yùn)行的數(shù)據(jù)量動(dòng)態(tài)調(diào)整所述數(shù)據(jù)區(qū)塊或計(jì)算資源的步驟,直至完成所述待處理數(shù)據(jù)的運(yùn)行任務(wù)。
23、為了解決上述問題,本發(fā)明還提供一種數(shù)據(jù)處理動(dòng)態(tài)調(diào)整裝置,所述裝置包括:
24、接收模塊,用于接收對(duì)待處理數(shù)據(jù)進(jìn)行數(shù)據(jù)分區(qū)的請(qǐng)求,將所述待處理數(shù)據(jù)劃分為多個(gè)數(shù)據(jù)區(qū)塊,對(duì)每個(gè)數(shù)據(jù)區(qū)塊配置計(jì)算資源,所述計(jì)算資源包括服務(wù)器節(jié)點(diǎn)、cpu核心數(shù)量及內(nèi)存容量中的一種;
25、記錄模塊,用于調(diào)用分配的計(jì)算資源運(yùn)行每個(gè)數(shù)據(jù)區(qū)塊,并記錄每個(gè)數(shù)據(jù)區(qū)塊中已運(yùn)行的數(shù)據(jù)量和未運(yùn)行的數(shù)據(jù)量,根據(jù)所述計(jì)算資源運(yùn)行所述已運(yùn)行的數(shù)據(jù)量的執(zhí)行時(shí)間,計(jì)算得到每個(gè)數(shù)據(jù)區(qū)塊的執(zhí)行速度;
26、調(diào)整模塊,用于根據(jù)所述執(zhí)行速度和所述未運(yùn)行的數(shù)據(jù)量動(dòng)態(tài)調(diào)整所述數(shù)據(jù)區(qū)塊或計(jì)算資源,包括:從所述多個(gè)數(shù)據(jù)區(qū)塊中,篩選所述未運(yùn)行的數(shù)據(jù)量小于第一預(yù)設(shè)閾值的數(shù)據(jù)區(qū)塊,將篩選后小于第一預(yù)設(shè)閾值的數(shù)據(jù)區(qū)塊兩兩合并,從所述多個(gè)數(shù)據(jù)區(qū)塊中,篩選所述執(zhí)行速度小于第二預(yù)設(shè)閾值的數(shù)據(jù)區(qū)塊,對(duì)篩選后小于第二預(yù)設(shè)閾值的數(shù)據(jù)區(qū)塊調(diào)整所述計(jì)算資源,所述第一預(yù)設(shè)閾值與所述第二預(yù)設(shè)閾值的計(jì)量單位不同。
27、為了解決上述問題,本發(fā)明還提供一種電子設(shè)備,所述電子設(shè)備包括:
28、至少一個(gè)處理器;以及,
29、與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,
30、所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的數(shù)據(jù)處理動(dòng)態(tài)調(diào)整程序,所述數(shù)據(jù)處理動(dòng)態(tài)調(diào)整程序被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行上述數(shù)據(jù)處理動(dòng)態(tài)調(diào)整方法。
31、為了解決上述問題,本發(fā)明還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有數(shù)據(jù)處理動(dòng)態(tài)調(diào)整程序,所述數(shù)據(jù)處理動(dòng)態(tài)調(diào)整程序可被一個(gè)或者多個(gè)處理器執(zhí)行,以實(shí)現(xiàn)上述數(shù)據(jù)處理動(dòng)態(tài)調(diào)整方法。
32、相較現(xiàn)有技術(shù),本發(fā)明當(dāng)收到對(duì)待處理數(shù)據(jù)的請(qǐng)求時(shí),將待處理數(shù)據(jù)分割成多個(gè)數(shù)據(jù)區(qū)塊,并為每個(gè)數(shù)據(jù)區(qū)塊分配相應(yīng)的計(jì)算資源(如服務(wù)器節(jié)點(diǎn)、cpu核心數(shù)量、內(nèi)存容量等)。監(jiān)控各個(gè)數(shù)據(jù)區(qū)塊的運(yùn)行狀態(tài),記錄每個(gè)分區(qū)已運(yùn)行的數(shù)據(jù)量、未運(yùn)行的數(shù)據(jù)量和執(zhí)行時(shí)間,根據(jù)執(zhí)行速度和未運(yùn)行的數(shù)據(jù)量動(dòng)態(tài)調(diào)整數(shù)據(jù)區(qū)塊。如果某些分區(qū)的未運(yùn)行的數(shù)據(jù)量小于預(yù)先設(shè)定的第一預(yù)設(shè)閾值,則合并這些分區(qū)以減少冗余;反之,如果執(zhí)行速度小于第二預(yù)設(shè)閾值,則為這些分區(qū)分配額外的計(jì)算資源。
33、本發(fā)明根據(jù)各數(shù)據(jù)區(qū)塊的執(zhí)行速度和未運(yùn)行的數(shù)據(jù)量動(dòng)態(tài)調(diào)整數(shù)據(jù)區(qū)塊,可以更合理地分配計(jì)算資源,減少不必要的資源浪費(fèi),可以最大化并行處理的優(yōu)勢(shì),縮短數(shù)據(jù)處理的總時(shí)間,自動(dòng)化調(diào)整分區(qū)數(shù)量減少了人工干預(yù)的需求,降低了運(yùn)維復(fù)雜度,使系統(tǒng)更容易管理和維護(hù)