本發(fā)明涉及城市軌道交通,特別是涉及用于城市軌道交通多模態(tài)模型的訓(xùn)練方法與系統(tǒng)。
背景技術(shù):
1、城市軌道交通是現(xiàn)代社會的重要組成部分,對經(jīng)濟(jì)發(fā)展、環(huán)境質(zhì)量和居民生活有著深遠(yuǎn)的影響。隨著城市化進(jìn)程的加快,交通系統(tǒng)面臨著諸多挑戰(zhàn),包括交通擁堵、環(huán)境污染、安全問題和運(yùn)營效率等。為了應(yīng)對這些挑戰(zhàn),發(fā)展智能交通系統(tǒng)(its)變得尤為重要,它能夠通過分析、預(yù)測和優(yōu)化交通狀態(tài)和行為來提供解決方案。然而,its的發(fā)展需要深入理解交通領(lǐng)域的特定知識和數(shù)據(jù),以及處理多模態(tài)輸入和輸出的能力。近年來,基于大型語言模型的人工智能系統(tǒng)在多個領(lǐng)域展現(xiàn)出了其強(qiáng)大的能力,從醫(yī)療診斷到法律分析,再到金融風(fēng)險評估。大型語言模型(llm)通過深度神經(jīng)網(wǎng)絡(luò)從大量文本數(shù)據(jù)中學(xué)習(xí),捕捉語言的語義和句法模式,為各種應(yīng)用生成連貫、準(zhǔn)確的文本。然而,大多數(shù)llm在通用語料庫上進(jìn)行預(yù)訓(xùn)練,未能充分涵蓋交通領(lǐng)域的特殊性和細(xì)節(jié)。因此,直接將這些模型應(yīng)用于交通領(lǐng)域可能會產(chǎn)生不準(zhǔn)確或不相關(guān)的輸出。
技術(shù)實現(xiàn)思路
1、為解決上述問題,本發(fā)明實施例的目的在于提供用于城市軌道交通多模態(tài)模型的訓(xùn)練方法與系統(tǒng)。
2、用于城市軌道交通多模態(tài)模型的訓(xùn)練方法,包括:
3、步驟1:收集城市軌道交通領(lǐng)域數(shù)據(jù);
4、步驟2:從所述城市軌道交通領(lǐng)域數(shù)據(jù)中提取出文本數(shù)據(jù),并基于所述文本數(shù)據(jù)生成結(jié)構(gòu)化的問答對形成單模態(tài)數(shù)據(jù)集;
5、步驟3:從所述城市軌道交通領(lǐng)域數(shù)據(jù)中提取出圖像和文本,并對齊每個圖像和文本形成多模態(tài)數(shù)據(jù)集;
6、步驟4:將單模態(tài)數(shù)據(jù)集輸入到chatglm2-6b模型中進(jìn)行訓(xùn)練形成urbantrackai-sm模型;
7、步驟5:將多模態(tài)數(shù)據(jù)集輸入到visualglm-6b模型中進(jìn)行訓(xùn)練形成urbantrackai-mm模型;
8、步驟6:利用urbantrackai-sm模型或者urbantrackai-mm模型回答用戶在城市軌道交通領(lǐng)域的提問。
9、優(yōu)選的,所述步驟2:從所述城市軌道交通領(lǐng)域數(shù)據(jù)中提取出文本數(shù)據(jù),并基于所述文本數(shù)據(jù)生成結(jié)構(gòu)化的問答對形成單模態(tài)數(shù)據(jù)集,包括:
10、步驟2.1:使用文檔處理工具從城市軌道交通領(lǐng)域數(shù)據(jù)中提取出文本數(shù)據(jù);
11、步驟2.2:使用段落分隔符、句子邊界或章節(jié)標(biāo)題將文本數(shù)據(jù)分割為多個塊,且每個塊中包含一個不同的主題;
12、步驟2.3:利用語言模型基于每個塊中的相應(yīng)段落生成一個或多個問題;
13、步驟2.4:將生成的問題與相應(yīng)的塊合并,然后利用語言模型基于相應(yīng)的塊中每個段落的內(nèi)容生成各個問題的答案,形成結(jié)構(gòu)化的問答對。
14、優(yōu)選的,所述步驟3:從所述城市軌道交通領(lǐng)域數(shù)據(jù)中提取出圖像和文本,并對齊每個圖像和文本形成多模態(tài)數(shù)據(jù)集,包括:
15、步驟3.1:基于對齊的圖像和文本按照預(yù)設(shè)的順序構(gòu)建文本-圖像樣本;
16、步驟3.2:為每個文本-圖像樣本設(shè)定相應(yīng)的問題形成多模態(tài)駕駛測試樣本;
17、步驟3.3:將所有的文本-圖像樣本轉(zhuǎn)換為中文版本形成通用數(shù)據(jù)集,并將所述多模態(tài)駕駛測試樣本和通用數(shù)據(jù)集作為多模態(tài)數(shù)據(jù)集。
18、優(yōu)選的,所述步驟4:將單模態(tài)數(shù)據(jù)集輸入到chatglm2-6b模型中進(jìn)行訓(xùn)練形成urbantrackai-sm模型,包括:
19、將學(xué)習(xí)率的初始值設(shè)置為1e-4,批次大小設(shè)置為32,利用單模態(tài)數(shù)據(jù)集對chatglm2-6b模型進(jìn)行3個epoch的lora微調(diào)形成urbantrackai-sm模型。
20、優(yōu)選的,所述步驟5:將多模態(tài)數(shù)據(jù)集輸入到visualglm-6b模型中進(jìn)行訓(xùn)練形成urbantrackai-mm模型,包括:
21、步驟5.1:將學(xué)習(xí)率的初始值設(shè)置為1e-4,lora等級設(shè)置32,批次大小設(shè)置32,利用多模態(tài)數(shù)據(jù)集使用lora技術(shù)對visualglm-6b模型進(jìn)行了300個epoch的微調(diào),形成一階段優(yōu)化模型;
22、步驟5.2:利用通用數(shù)據(jù)集對一階段優(yōu)化模型進(jìn)行120個epoch的訓(xùn)練形成urbantrackai-mm模型。
23、優(yōu)選的,所述步驟5.1中,在微調(diào)一階段優(yōu)化模型時,多模態(tài)駕駛測試樣本和通用數(shù)據(jù)集的比例為1:1。
24、優(yōu)選的,在訓(xùn)練chatglm2-6b模型或者visualglm-6b模型過程中,使用交叉熵?fù)p失函數(shù)衡量預(yù)測值和實際值之間的差異;其中,所述交叉熵?fù)p失函數(shù)為:
25、
26、其中,是類別的數(shù)量,是真實的標(biāo)簽分布,是chatglm2-6b模型或者visualglm-6b模型預(yù)測第類的概率分布。
27、優(yōu)選的,在訓(xùn)練chatglm2-6b模型或者visualglm-6b模型過程中,采用公式:
28、
29、
30、
31、對chatglm2-6b模型或者visualglm-6b模型的學(xué)習(xí)率進(jìn)行更新;其中,下標(biāo)表示當(dāng)前時間步,下標(biāo)表示前一時間步,為時間步時的一階矩估計,為時間步時的二階矩估計,為梯度,和為超參數(shù),為學(xué)習(xí)率,為常數(shù),為時間步時的一階矩估計,為時間步時的二階矩估計,為時間步?t?時的一階矩估計的偏差校正值,為超參數(shù)的次方,用于調(diào)整一階矩估計的平滑程度,為超參數(shù)的次方,用于調(diào)整二階矩估計的平滑程度,為時間步?時的模型參數(shù),為時間步時的模型參數(shù)。
32、本發(fā)明還提供了一種用于城市軌道交通多模態(tài)模型的訓(xùn)練系統(tǒng),包括:
33、數(shù)據(jù)收集模塊,用于收集城市軌道交通領(lǐng)域數(shù)據(jù);
34、單模態(tài)數(shù)據(jù)集構(gòu)建模塊,用于從所述城市軌道交通領(lǐng)域數(shù)據(jù)中提取出文本數(shù)據(jù),并基于所述文本數(shù)據(jù)生成結(jié)構(gòu)化的問答對形成單模態(tài)數(shù)據(jù)集;
35、多模態(tài)數(shù)據(jù)集構(gòu)建模塊,用于從所述城市軌道交通領(lǐng)域數(shù)據(jù)中提取出圖像和文本,并對齊每個圖像和文本形成多模態(tài)數(shù)據(jù)集;
36、單模態(tài)模型訓(xùn)練模塊,用于將單模態(tài)數(shù)據(jù)集輸入到chatglm2-6b模型中進(jìn)行訓(xùn)練形成urbantrackai-sm模型;
37、多模態(tài)模型訓(xùn)練模塊,用于將多模態(tài)數(shù)據(jù)集輸入到visualglm-6b模型中進(jìn)行訓(xùn)練形成urbantrackai-mm模型;
38、模型應(yīng)用模塊,用于利用urbantrackai-sm模型或者urbantrackai-mm模型回答用戶在城市軌道交通領(lǐng)域的提問。
39、本發(fā)明還提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述的一種用于城市軌道交通多模態(tài)模型的訓(xùn)練方法中的步驟。
40、根據(jù)本發(fā)明提供的具體實施例,本發(fā)明公開了以下技術(shù)效果:
41、本發(fā)明涉及一種用于城市軌道交通多模態(tài)模型的訓(xùn)練方法,與現(xiàn)有技術(shù)相比,本發(fā)明通過收集城市軌道交通領(lǐng)域的文本和圖像數(shù)據(jù),使得模型在訓(xùn)練可以充分利用不同類型的信息,增強(qiáng)了模型的準(zhǔn)確性和可靠性,此外本發(fā)明通過訓(xùn)練單模態(tài)和多模態(tài)模型,可以選擇最適合的模型來回答問題,從而增強(qiáng)了用戶體驗。
42、為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實施例,并配合所附附圖,作詳細(xì)說明如下。