1.基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法,其特征在于,步驟2中判斷用戶配置的具體方式為:
3.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法,其特征在于,步驟3中配置并創(chuàng)建?triton?模型倉庫的具體過程為:
4.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法,其特征在于,步驟4中詳細配置模型文件的方式為:
5.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法,其特征在于,步驟5中啟動?triton?推理服務(wù)器的具體操作為:
6.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法,其特征在于,步驟2中實現(xiàn)?kvcache?查詢的具體方法為:
7.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法,其特征在于,步驟3中配置?triton?模型的動態(tài)更新功能為:
8.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法,其特征在于,步驟4中實現(xiàn)推理過程中的數(shù)據(jù)兼容性和穩(wěn)定性具體如下:
9.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法,其特征在于,步驟5中處理后續(xù)的推理請求具體如下:
10.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法,其特征在于,步驟5中還包括實現(xiàn)推理結(jié)果的持久化存儲,具體如下: