基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法與流程

文檔序號：40525478發(fā)布日期：2024-12-31 13:34閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法與流程

技術(shù)特征：

1.基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法，其特征在于，步驟2中判斷用戶配置的具體方式為：

3.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法，其特征在于，步驟3中配置并創(chuàng)建?triton?模型倉庫的具體過程為：

4.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法，其特征在于，步驟4中詳細配置模型文件的方式為：

5.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法，其特征在于，步驟5中啟動?triton?推理服務(wù)器的具體操作為：

6.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法，其特征在于，步驟2中實現(xiàn)?kvcache?查詢的具體方法為：

7.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法，其特征在于，步驟3中配置?triton?模型的動態(tài)更新功能為：

8.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法，其特征在于，步驟4中實現(xiàn)推理過程中的數(shù)據(jù)兼容性和穩(wěn)定性具體如下：

9.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法，其特征在于，步驟5中處理后續(xù)的推理請求具體如下：

10.根據(jù)權(quán)利要求1所述的基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法，其特征在于，步驟5中還包括實現(xiàn)推理結(jié)果的持久化存儲，具體如下：

技術(shù)總結(jié)
本發(fā)明提出基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法，包括：在推理引擎中接收布爾參數(shù)enable_cache；根據(jù)傳入的enable_cache值，執(zhí)行條件判斷邏輯，決定是否執(zhí)行緩存查詢：在指定的文件路徑下創(chuàng)建Triton模型倉庫，為每個模型建立獨立的文件夾；在config.pbtxt文件中，定義模型的版本信息、輸入輸出張量名稱、數(shù)據(jù)類型及維度；使用命令行工具啟動Triton?Inference?Server，并指定模型倉庫路徑。本發(fā)明在提升推理速度、優(yōu)化資源使用、改善用戶體驗、降低成本及增強可擴展性等方面都展現(xiàn)出顯著的優(yōu)勢，為大型模型的實際應(yīng)用提供了強有力的支持。

技術(shù)研發(fā)人員：羅劍鋒,吳小炎,雷朋,鐘靖
受保護的技術(shù)使用者：浩鯨云計算科技股份有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2024/12/30

完整全部詳細技術(shù)資料下載

當前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于封裝引擎實現(xiàn)機器學(xué)習(xí)和大語言模型的推理加速方法與流程