本發(fā)明涉及電池安全快速充電,具體涉及一種基于深度強(qiáng)化學(xué)習(xí)的鋰電池高安全快速充電方法。
背景技術(shù):
1、鋰電池因其具有高能量密度、低自放電率和使用壽命長等優(yōu)點(diǎn)在電動汽車能源領(lǐng)域占據(jù)核心地位,已成為現(xiàn)代可持續(xù)交通轉(zhuǎn)型的關(guān)鍵驅(qū)動力。然而,鋰電池在實(shí)際應(yīng)用中面臨著一些諸如熱失控、加速老化和結(jié)構(gòu)完整性損害等嚴(yán)峻挑戰(zhàn),尤其是在快速充電的場景下更為顯著。盲目地追求最大充電速度很可能違反臨界物理極限,并伴隨著意外的熱/應(yīng)力積累和副反應(yīng),這會導(dǎo)致充電效率降低,甚至在最嚴(yán)重的情況下存在安全危險(xiǎn);因此開發(fā)安全且高效的快速充電方法對于滿足日益增長的市場需求和緩解用戶續(xù)航焦慮至關(guān)重要。
2、授權(quán)公告號cn114552038b基于動態(tài)規(guī)劃的鋰電池?zé)o析鋰快速充電方法及系統(tǒng),搭建完成sp+模型后,基于觀測結(jié)果對鋰電池進(jìn)行快速充電,并通過動態(tài)規(guī)劃成本函數(shù)對鋰電池快速充電階段進(jìn)行優(yōu)化處理,從而實(shí)現(xiàn)對鋰電池的快速充電。由于上述專利中的觀測對象有限,使得其無法更好地理解和處理復(fù)雜的環(huán)境。
技術(shù)實(shí)現(xiàn)思路
1、針對現(xiàn)有技術(shù)中的問題,本發(fā)明提供一種基于深度強(qiáng)化學(xué)習(xí)的鋰電池高安全快速充電方法,目的在于,能夠自動從環(huán)境狀態(tài)數(shù)據(jù)中學(xué)習(xí)更高層次的表示,并更好地理解和處理復(fù)雜的環(huán)境,使其具有更好的泛化能力和自適應(yīng)性。
2、一種基于深度強(qiáng)化學(xué)習(xí)的鋰電池高安全快速充電方法,包括如下步驟:
3、步驟1:使用sp+模型對鋰電池進(jìn)行建模,并確定建模所需的辨識參數(shù);
4、步驟2:設(shè)定多種不同充、放電倍率下的脈沖工況,在不同溫度下對鋰電池進(jìn)行劣化實(shí)驗(yàn);根據(jù)不同劣化階段對鋰電池所設(shè)定的脈沖工況,辨識得到不同soh、不同soc、不同溫度、不同倍率下的sp+模型參數(shù);
5、步驟3:構(gòu)建改進(jìn)的深度強(qiáng)化學(xué)習(xí)sac算法,并定義獎勵函數(shù);
6、步驟4:將sp+模型作為改進(jìn)sac算法的智能體的交互環(huán)境,基于獎勵函數(shù)對智能體進(jìn)行離線訓(xùn)練,讓智能體學(xué)會在不同soh、不同soc、不同溫度、不同倍率下提供最優(yōu)的安全快速充電策略;
7、步驟5:基于離線訓(xùn)練完畢的智能體和獎勵函數(shù),并將實(shí)體鋰電池作為交互環(huán)境,在不同soh、不同soc、不同溫度、不同倍率下進(jìn)行在線測試,輸出最優(yōu)的安全快速充電策略。
8、進(jìn)一步為:記sac算法輸出的動作值為:,輸入的狀態(tài)為:;其中,為時間步,在時間步,表示充放電電流倍率,表示soc值,dsoc表示soc增量,表示端電壓,表示負(fù)極電位,表示溫度;
9、在sac算法的訓(xùn)練和測試過程中進(jìn)行如下改進(jìn):
10、訓(xùn)練過程為:
11、步驟3.1:使用單邊采樣替代雙邊采樣對sac算法的智能體輸出的動作高斯分布進(jìn)行采樣:
12、
13、其中,表示動作高斯分布的均值,表示采樣值;
14、步驟3.2:使用截?cái)嗖僮鲗幼髦狄?guī)范到合理的范圍內(nèi):
15、
16、其中,表示最大的充放電倍率,此外,將輸入到智能體的狀態(tài)標(biāo)準(zhǔn)化為:
17、
18、
19、
20、其中,和分別表示經(jīng)驗(yàn)回放池中所有樣本的狀態(tài)值的均值和標(biāo)準(zhǔn)差,表示經(jīng)驗(yàn)回放池中的樣本數(shù)量;
21、步驟3.3:每次訓(xùn)練完一個輪次后更新和,和的初始值分別為0和1;并在當(dāng)訓(xùn)練輪次達(dá)到設(shè)定閾值停止訓(xùn)練;
22、測試過程為:
23、將訓(xùn)練好的智能體輸出的動作值記為策略動作值,策略動作值為:
24、
25、其中,是端電壓安全冗余值,是負(fù)極電位安全冗余值,為快速充電過程中端電壓的上限截止電壓。
26、進(jìn)一步為:將測試好的智能體在環(huán)境狀態(tài)為時輸出策略動作值到環(huán)境中得到的獎勵反饋?zhàn)鳛楠剟詈瘮?shù),獎勵函數(shù)定義為:
27、
28、其中,表示固定懲罰:
29、
30、表示過放懲罰:
31、
32、表示充電獎勵或放電懲罰:
33、
34、表示過壓懲罰:
35、
36、表示負(fù)極電位懲罰:
37、
38、表示過溫懲罰:
39、
40、表示充電懲罰:
41、
42、為獎勵或懲罰項(xiàng)的參數(shù),表示充電過程的目標(biāo)soc值,表示最長允許充電時間,為最高允許溫度。
43、進(jìn)一步為:離線訓(xùn)練包括以下步驟:
44、步驟4.1:隨機(jī)初始化智能體中的策略網(wǎng)絡(luò)和預(yù)測價(jià)值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)和;
45、步驟4.2:利用智能體中的預(yù)測價(jià)值網(wǎng)絡(luò)參數(shù)來初始化智能體中的目標(biāo)價(jià)值網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù);
46、步驟4.3:初始化經(jīng)驗(yàn)回放池容量,初始化sp+模型的初始時刻狀態(tài);
47、步驟4.4:將初始時刻的狀態(tài)標(biāo)準(zhǔn)化為再輸入到策略網(wǎng)絡(luò)中,得到動作高斯分布的均值和標(biāo)準(zhǔn)差,對動作高斯分布進(jìn)行單邊采樣得到動作采樣值,再對進(jìn)行截?cái)嗖僮鬏敵鲈摃r刻的策略動作;
48、步驟4.5:將產(chǎn)生的策略動作輸入到sp+模型中,得到下一個時刻的狀態(tài),計(jì)算獎勵,將作為一個樣本數(shù)據(jù)保存到經(jīng)驗(yàn)回放池中;
49、步驟4.6:當(dāng)經(jīng)驗(yàn)回放池中的樣本數(shù)量小于時,利用下一時刻的狀態(tài),循環(huán)步驟4.4和4.5,得到一系列的樣本數(shù)據(jù)存放于經(jīng)驗(yàn)回放池中;當(dāng)經(jīng)驗(yàn)回放池中的樣本數(shù)量大于時,執(zhí)行步驟4.7;
50、步驟4.7:從經(jīng)驗(yàn)回放池中隨機(jī)采樣個樣本數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),每個樣本的目標(biāo)價(jià)值為:,每個樣本的預(yù)測價(jià)值網(wǎng)絡(luò)為;
51、其中,為上一個時刻的狀態(tài),是策略網(wǎng)絡(luò)根據(jù)輸出的動作,表示折扣因子,用于削弱未來獎勵對當(dāng)前狀態(tài)獎勵總和的影響,表示動作熵的加權(quán)因子;
52、步驟4.8:通過最小化損失函數(shù)來更新預(yù)測價(jià)值網(wǎng)絡(luò)參數(shù):,其中表示均方誤差,用于衡量目標(biāo)價(jià)值和預(yù)測價(jià)值之間的誤差;
53、步驟4.9:通過最小化kl散度期望來更新策略網(wǎng)絡(luò)參數(shù):;
54、其中,表示期望;為了使得能夠正常計(jì)算梯度,令,其中,和分別表示策略網(wǎng)絡(luò)輸出的均值和標(biāo)準(zhǔn)差,表示從標(biāo)準(zhǔn)正態(tài)分布中采樣的噪聲;
55、步驟4.10:使用軟更新策略更新目標(biāo)價(jià)值網(wǎng)絡(luò)參數(shù):,其中,表示軟更新參數(shù);
56、步驟4.11:通過最小化來更新動作熵加權(quán)因子,其中,表示目標(biāo)熵,取值為動作維度的相反數(shù);
57、步驟4.12:利用更新后的網(wǎng)絡(luò)參數(shù)繼續(xù)循環(huán)步驟4.4和步驟4.11,并更新經(jīng)驗(yàn)回放池中的樣本;當(dāng)離線訓(xùn)練總時間步數(shù)大于最長允許充電時間或者當(dāng)前soc大于目標(biāo)時,執(zhí)行步驟4.13;
58、步驟4.13:利用經(jīng)驗(yàn)回放池中的所有樣本更新和,執(zhí)行步驟4.14;
59、步驟4.14:利用更新后的經(jīng)驗(yàn)回放池采取步驟4.12;當(dāng)總訓(xùn)練輪次達(dá)到設(shè)定閾值時,執(zhí)行步驟4.15;
60、步驟4.15:得到離線訓(xùn)練完畢后的智能體。
61、進(jìn)一步為:在線測試的步驟包括:
62、步驟5.1:設(shè)定端電壓安全冗余值和負(fù)極電位安全冗余值;
63、步驟5.2:加載離線訓(xùn)練完畢后的智能體的、和,以及標(biāo)準(zhǔn)化參數(shù)和,將初始時刻的實(shí)際鋰電池的狀態(tài)標(biāo)準(zhǔn)化為再輸入到策略網(wǎng)絡(luò)中,得到動作高斯分布的均值和標(biāo)準(zhǔn)差,輸出最佳策略動作:
64、
65、步驟5.3:將產(chǎn)生的最佳策略動作轉(zhuǎn)換為實(shí)際電流對鋰電池進(jìn)行充電,得到鋰電池下一個時刻狀態(tài);
66、步驟5.4:循環(huán)步驟5.2和5.3,直到鋰電池充滿電。
67、進(jìn)一步為:sp+模型包含電化學(xué)反應(yīng)基本過程、固相擴(kuò)散過程、液相濃差極化過程、反應(yīng)極化過程和歐姆極化過程,并用于表征鋰電池在充放電過程中的soc、端電壓、負(fù)極電位和溫度變化。
68、進(jìn)一步為:步驟2中的辨識過程基于脈沖激勵響應(yīng)法展開且需按照一定的順序,即,在不同soh、不同soc、不同溫度、不同倍率下,先后進(jìn)行電池基本特征參數(shù)辨識、歐姆極化參數(shù)辨識、電化學(xué)極化參數(shù)辨識、擴(kuò)散過程參數(shù)辨識,并插值獲得參數(shù)譜。
69、進(jìn)一步為:脈沖激勵響應(yīng)法包括以下步驟:
70、步驟2.1:制備三電極電池,擬合正負(fù)極固有特性曲線,并結(jié)合電池電化學(xué)反應(yīng)基本方程,辨識得到電池基本特征參數(shù),即正、負(fù)極活性粒子初始嵌鋰濃度,和正、負(fù)極嵌鋰濃度分?jǐn)?shù)的最大變化范圍;
71、步驟2.2:使用電化學(xué)工作站測得電池交流阻抗譜,計(jì)算得到等效歐姆內(nèi)阻;
72、步驟2.3:在脈沖上升沿測算反應(yīng)極化過電勢,辨識得到正、負(fù)反應(yīng)極化系數(shù);
73、步驟2.4:在各穩(wěn)態(tài)工作點(diǎn)計(jì)算濃差極化過電勢,辨識得到正、負(fù)極固相擴(kuò)散時間常數(shù),液相擴(kuò)散時間常數(shù)和液相擴(kuò)散比例系數(shù)。
74、本發(fā)明的有益效果:通過對sac算法進(jìn)行改進(jìn)并定義相應(yīng)的獎勵函數(shù),將sp+模型作為改進(jìn)后sac算法的智能體的交互環(huán)境,再基于獎勵函數(shù)對智能體進(jìn)行離線訓(xùn)練,使智能體能夠自動從環(huán)境狀態(tài)數(shù)據(jù)中學(xué)習(xí)更高層次的表示,并更好地理解和處理復(fù)雜的環(huán)境;然后使訓(xùn)練后的智能體能夠?yàn)殇囯姵卦诓煌瑂oh、不同soc、不同溫度、不同倍率下提供最優(yōu)的安全快速充電策略,具有兼顧充電過程中的安全性和快速性,最大程度減少快速充電過程對鋰電池的損害,并具有更好的泛化能力和自適應(yīng)性。