本技術(shù)屬于自主駕駛,尤其涉及一種車輛的駕駛策略模型的訓(xùn)練方法、裝置及終端設(shè)備。
背景技術(shù):
1、傳統(tǒng)的自主駕駛車輛的駕駛方案,往往通過集中式大數(shù)據(jù)集訓(xùn)練傳統(tǒng)機(jī)器學(xué)習(xí)模型,通過訓(xùn)練后的傳統(tǒng)機(jī)器學(xué)習(xí)模型決策自主駕駛車輛的駕駛方案。這種通過集中式大數(shù)據(jù)集進(jìn)行訓(xùn)練的駕駛策略模型,雖然提高了自主駕駛車輛的駕駛策略的精度,但集中式大數(shù)據(jù)的收集也帶來了用戶數(shù)據(jù)隱私泄露的風(fēng)險(xiǎn)。
2、聯(lián)邦學(xué)習(xí)作為一種新興的分布式機(jī)器學(xué)習(xí)框架,允許多個(gè)設(shè)備在不共享原始數(shù)據(jù)的情況下,通過中央服務(wù)器的協(xié)調(diào),共同訓(xùn)練一個(gè)模型,可以避免隱私數(shù)據(jù)的直接暴露,有效保護(hù)用戶數(shù)據(jù)的隱私。
3、然而,現(xiàn)有的這種聯(lián)邦學(xué)習(xí)方法,是集中在跨數(shù)據(jù)中心的訓(xùn)練上,其仍依賴于一個(gè)中心服務(wù)器來協(xié)調(diào)各方,通過中心服務(wù)器傳遞駕駛策略模型的模型參數(shù),模型訓(xùn)練效率較低,一旦中心服務(wù)器出現(xiàn)問題,整個(gè)訓(xùn)練過程都會受到影響,增加了整個(gè)系統(tǒng)的單點(diǎn)故障風(fēng)險(xiǎn)的概率。并且,不同數(shù)據(jù)中心的數(shù)據(jù)可能存在異質(zhì)性,如:數(shù)據(jù)分布、特征空間或標(biāo)簽空間,這種異質(zhì)性可能導(dǎo)致駕駛策略模型在全局范圍內(nèi)難以收斂或性能下降,使得模型的訓(xùn)練時(shí)間更長,通過第三方傳遞駕駛策略模型的模型參數(shù),造成的模型訓(xùn)練效率較低的技術(shù)問題的問題。
技術(shù)實(shí)現(xiàn)思路
1、本技術(shù)實(shí)施例提供了一種車輛的駕駛策略模型的方法、裝置及終端設(shè)備,可以解決通過現(xiàn)有的聯(lián)邦學(xué)習(xí)方法訓(xùn)練駕駛策略模型導(dǎo)致的訓(xùn)練時(shí)間較長、效率較低的問題。
2、第一方面,本技術(shù)實(shí)施例提供了一種車輛的駕駛策略模型的訓(xùn)練方法,包括:
3、獲取多個(gè)車輛的駕駛策略樣本數(shù)據(jù)的融合特征,以及預(yù)先構(gòu)建的全局駕駛策略模型的當(dāng)前迭代次數(shù)和當(dāng)前模型參數(shù);其中,所述駕駛策略樣本數(shù)據(jù)的融合特征是通過所述全局駕駛策略模型對所述駕駛策略樣本數(shù)據(jù)提取殘差特征和累積特征后,進(jìn)行融合得到的,所述當(dāng)前迭代次數(shù)用于表示所述全局駕駛策略模型當(dāng)前正在進(jìn)行的訓(xùn)練更新輪次,所述當(dāng)前模型參數(shù)包括:所述全局駕駛策略模型中每個(gè)所述車輛的駕駛策略模型對應(yīng)的模型參數(shù);
4、根據(jù)所述當(dāng)前迭代次數(shù),確定所述全局駕駛策略模型的當(dāng)前更新方式,其中,所述當(dāng)前更新方式包括:本地梯度更新和全局聚合更新;
5、基于所述當(dāng)前更新方式,根據(jù)每個(gè)所述車輛的所述駕駛策略樣本數(shù)據(jù)的融合特征和所述全局駕駛策略模型的所述當(dāng)前模型參數(shù),對所述全局駕駛策略模型中的該車輛的所述駕駛策略模型進(jìn)行更新,得到該車輛更新后的駕駛策略模型。
6、在第一方面的一種可能的實(shí)現(xiàn)方式中,所述根據(jù)所述當(dāng)前迭代次數(shù),確定所述全局駕駛策略模型的當(dāng)前更新方式,包括:
7、判斷所述當(dāng)前迭代次數(shù)是否滿足基于預(yù)先設(shè)定的聚合周期確定的預(yù)設(shè)條件;
8、當(dāng)所述當(dāng)前迭代次數(shù)不滿足預(yù)設(shè)條件時(shí),確定所述全局駕駛策略模型的當(dāng)前更新方式為本地梯度更新;
9、當(dāng)所述當(dāng)前迭代次數(shù)滿足預(yù)設(shè)條件時(shí),確定所述全局駕駛策略模型的當(dāng)前更新方式為全局聚合更新。
10、在第一方面的一種可能的實(shí)現(xiàn)方式中,當(dāng)所述全局駕駛策略模型的當(dāng)前更新方式為本地梯度更新時(shí),所述基于所述當(dāng)前更新方式,根據(jù)每個(gè)所述車輛的所述駕駛策略樣本數(shù)據(jù)的融合特征和所述全局駕駛策略模型的所述當(dāng)前模型參數(shù),對所述全局駕駛策略模型中的該車輛的所述駕駛策略模型進(jìn)行更新,得到該車輛更新后的駕駛策略模型,包括:
11、通過該車輛的所述駕駛策略模型,根據(jù)該車輛的駕駛策略樣本數(shù)據(jù)的融合特征,對該車輛的駕駛策略進(jìn)行預(yù)測,得到所述駕駛策略樣本數(shù)據(jù)對應(yīng)的駕駛策略預(yù)測值;其中,所述駕駛策略樣本數(shù)據(jù)包括駕駛策略實(shí)際值;
12、根據(jù)所述駕駛策略樣本數(shù)據(jù)中的所述駕駛策略實(shí)際值和所述駕駛策略樣本數(shù)據(jù)對應(yīng)的所述駕駛策略預(yù)測值,基于預(yù)先設(shè)定的局部損失函數(shù),計(jì)算得到該車輛的駕駛策略模型的當(dāng)前梯度;
13、根據(jù)該車輛的駕駛策略模型的當(dāng)前梯度,對該車輛的駕駛策略模型對應(yīng)的模型參數(shù)進(jìn)行更新,得到該車輛的駕駛策略模型對應(yīng)的更新后的模型參數(shù);
14、根據(jù)該車輛的駕駛策略模型對應(yīng)的更新后的模型參數(shù),確定該車輛更新后的駕駛策略模型。
15、在第一方面的一種可能的實(shí)現(xiàn)方式中,當(dāng)所述全局駕駛策略模型的當(dāng)前更新方式為全局聚合更新時(shí),所述基于所述當(dāng)前更新方式,根據(jù)每個(gè)所述車輛的所述駕駛策略樣本數(shù)據(jù)的融合特征和所述全局駕駛策略模型的所述當(dāng)前模型參數(shù),對所述全局駕駛策略模型中的該車輛的所述駕駛策略模型進(jìn)行更新,得到該車輛更新后的駕駛策略模型,包括:
16、獲取每個(gè)所述車輛的通信資源,以及多個(gè)所述車輛之間的初始通信路徑;
17、根據(jù)每個(gè)所述車輛的通信資源,對多個(gè)所述車輛之間的初始通信路徑進(jìn)行優(yōu)化,得到多個(gè)所述車輛之間的最優(yōu)通信路徑;
18、根據(jù)多個(gè)所述車輛之間的最優(yōu)通信路徑,確定每個(gè)所述車輛的鄰居車輛;
19、根據(jù)該車輛的鄰居車輛的駕駛策略模型對應(yīng)的模型參數(shù),對該車輛的駕駛策略模型對應(yīng)的模型參數(shù)進(jìn)行聚合更新,得到該車輛的駕駛策略模型對應(yīng)的更新后的模型參數(shù);
20、根據(jù)該車輛的駕駛策略模型對應(yīng)的更新后的模型參數(shù),確定該車輛更新后的駕駛策略模型。
21、在第一方面的一種可能的實(shí)現(xiàn)方式中,所述根據(jù)該車輛的鄰居車輛的駕駛策略模型對應(yīng)的模型參數(shù),對該車輛的駕駛策略模型對應(yīng)的模型參數(shù)進(jìn)行聚合更新,得到該車輛的駕駛策略模型對應(yīng)的更新后的模型參數(shù),包括:
22、根據(jù)每個(gè)所述車輛的鄰居車輛的數(shù)量,構(gòu)建每個(gè)所述車輛的共識矩陣;
23、根據(jù)該車輛的共識矩陣,對該車輛的每個(gè)所述鄰居車輛的駕駛策略模型對應(yīng)的模型參數(shù)進(jìn)行加權(quán)求和,得到該車輛的駕駛策略模型對應(yīng)的更新后的模型參數(shù)。
24、在第一方面的一種可能的實(shí)現(xiàn)方式中,所述獲取多個(gè)車輛的駕駛策略樣本數(shù)據(jù)的融合特征,包括:
25、將每個(gè)所述車輛的駕駛策略樣本數(shù)據(jù)輸入該車輛的駕駛策略模型,對所述駕駛策略樣本數(shù)據(jù)進(jìn)行歸一化預(yù)處理,得到預(yù)處理后的駕駛策略樣本數(shù)據(jù);
26、對所述預(yù)處理后的駕駛策略樣本數(shù)據(jù)進(jìn)行多次特征提取,得到所述駕駛策略樣本數(shù)據(jù)的融合特征。
27、在第一方面的一種可能的實(shí)現(xiàn)方式中,所述對所述預(yù)處理后的駕駛策略樣本數(shù)據(jù)進(jìn)行多次特征提取,得到所述駕駛策略樣本數(shù)據(jù)的融合特征,包括:
28、通過所述駕駛策略模型中的卷積層和池化層,對所述預(yù)處理后的駕駛策略樣本數(shù)據(jù)進(jìn)行局部特征提取,得到所述駕駛策略樣本數(shù)據(jù)的局部特征;
29、通過所述駕駛策略模型中的多個(gè)殘差塊,對所述駕駛策略樣本數(shù)據(jù)的局部特征進(jìn)行殘差塊特征提取,得到所述駕駛策略樣本數(shù)據(jù)的多個(gè)殘差特征;
30、通過所述駕駛策略模型中的多個(gè)全局平均池化層,分別對所述駕駛策略樣本數(shù)據(jù)的多個(gè)殘差特征進(jìn)行池化匯總,得到所述駕駛策略樣本數(shù)據(jù)的多個(gè)全局池化特征;
31、通過所述駕駛策略模型中的累積層,對所述駕駛策略樣本數(shù)據(jù)的多個(gè)全局池化特征進(jìn)行加權(quán)計(jì)算,得到所述駕駛策略樣本數(shù)據(jù)的累積特征;
32、通過所述駕駛策略模型中的聚合層,對所述駕駛策略樣本數(shù)據(jù)的累積特征和所述駕駛策略樣本數(shù)據(jù)的多個(gè)殘差特征進(jìn)行融合,得到所述駕駛策略樣本數(shù)據(jù)的融合特征。
33、第二方面,本技術(shù)實(shí)施例提供了一種車輛的駕駛策略模型的訓(xùn)練裝置,包括:
34、數(shù)據(jù)獲取模塊,用于獲取多個(gè)車輛的駕駛策略樣本數(shù)據(jù)的融合特征,以及預(yù)先構(gòu)建的全局駕駛策略模型的當(dāng)前迭代次數(shù)和當(dāng)前模型參數(shù);其中,所述駕駛策略樣本數(shù)據(jù)的融合特征是通過所述全局駕駛策略模型對所述駕駛策略樣本數(shù)據(jù)提取殘差特征和累積特征后,進(jìn)行融合得到的,所述當(dāng)前迭代次數(shù)用于表示所述全局駕駛策略模型當(dāng)前正在進(jìn)行的訓(xùn)練更新輪次,所述當(dāng)前模型參數(shù)包括:所述全局駕駛策略模型中每個(gè)所述車輛的駕駛策略模型對應(yīng)的模型參數(shù);
35、模型更新方式確定模塊,用于根據(jù)所述當(dāng)前迭代次數(shù),確定所述全局駕駛策略模型的當(dāng)前更新方式,其中,所述當(dāng)前更新方式包括:本地梯度更新和全局聚合更新;
36、模型更新模塊,用于基于所述當(dāng)前更新方式,根據(jù)每個(gè)所述車輛的所述駕駛策略樣本數(shù)據(jù)的融合特征和所述全局駕駛策略模型的所述當(dāng)前模型參數(shù),對所述全局駕駛策略模型中的該車輛的所述駕駛策略模型進(jìn)行更新,得到該車輛更新后的駕駛策略模型。
37、第三方面,本技術(shù)實(shí)施例提供了一種終端設(shè)備,包括存儲器、處理器以及存儲在所述存儲器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的方法。
38、第四方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述任一項(xiàng)所述的方法。
39、第五方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)計(jì)算機(jī)程序產(chǎn)品在終端設(shè)備上運(yùn)行時(shí),使得終端設(shè)備執(zhí)行上述任一項(xiàng)所述的方法。
40、本技術(shù)實(shí)施例與現(xiàn)有技術(shù)相比存在的有益效果是:通過獲取多個(gè)車輛的駕駛策略樣本數(shù)據(jù)的融合特征,以及預(yù)先構(gòu)建的全局駕駛策略模型的當(dāng)前迭代次數(shù)和當(dāng)前模型參數(shù);根據(jù)當(dāng)前迭代次數(shù),確定全局駕駛策略模型的當(dāng)前更新方式;而當(dāng)前更新方式包括本地梯度更新和全局聚合更新,當(dāng)前迭代次數(shù)用于表示全局駕駛策略模型當(dāng)前正在進(jìn)行的訓(xùn)練更新輪次,基于當(dāng)前更新方式,根據(jù)每個(gè)車輛的駕駛策略樣本數(shù)據(jù)的融合特征和全局駕駛策略模型的當(dāng)前模型參數(shù),對全局駕駛策略模型中的該車輛的駕駛策略模型進(jìn)行更新,得到該車輛更新后的駕駛策略模型;由于當(dāng)前模型參數(shù)包括全局駕駛策略模型中每個(gè)車輛的駕駛策略模型對應(yīng)的模型參數(shù),駕駛策略樣本數(shù)據(jù)的融合特征是通過全局駕駛策略模型對駕駛策略樣本數(shù)據(jù)提取殘差特征和累積特征后,進(jìn)行融合得到的,使得每個(gè)車輛的更新后的駕駛策略模型,是根據(jù)該車輛的駕駛策略樣本數(shù)據(jù)和多個(gè)車輛的駕駛策略模型對應(yīng)的模型參數(shù)進(jìn)行模型參數(shù)更新得到的,而訓(xùn)練過程無需獲取其他車輛的駕駛策略樣本數(shù)據(jù),從而保護(hù)了各個(gè)車輛之間的數(shù)據(jù)隱私,無需設(shè)置第三方服務(wù)器進(jìn)行通信,并且,融合特征是將殘差特征和累積特征進(jìn)行融合得到的,從而節(jié)省了模型參數(shù)更新的時(shí)間,使得每個(gè)車輛的駕駛策略模型的更新效率更高,訓(xùn)練所需時(shí)間更短,訓(xùn)練后的駕駛策略模型的識別準(zhǔn)確率更高,從而解決了通過現(xiàn)有的聯(lián)邦學(xué)習(xí)方法訓(xùn)練駕駛策略模型導(dǎo)致的訓(xùn)練時(shí)間較長、效率較低的問題。