視覺任務(wù)處理、視覺處理模型的訓(xùn)練、基于視覺處理模型的信息處理方法及任務(wù)平臺(tái)與流程

文檔序號(hào)：40563493發(fā)布日期：2025-01-03 11:23閱讀：10來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

視覺任務(wù)處理、視覺處理模型的訓(xùn)練、基于視覺處理模型的信息處理方法及任務(wù)平臺(tái)與流程

本說明書實(shí)施例涉及深度學(xué)習(xí)，特別涉及一種視覺任務(wù)處理、視覺處理模型的訓(xùn)練、基于視覺處理模型的信息處理方法及任務(wù)平臺(tái)。

背景技術(shù)：

1、隨著計(jì)算機(jī)技術(shù)和人工智能技術(shù)的快速發(fā)展，深度學(xué)習(xí)模型在視覺任務(wù)處理方面展現(xiàn)出了巨大潛力，可以執(zhí)行不同的下游視覺任務(wù)。目前，在處理視覺任務(wù)時(shí)，對(duì)視覺對(duì)象、文本提示的限制較多，視覺任務(wù)處理的靈活性和準(zhǔn)確率較差。因此，亟需一種能夠提高任務(wù)處理靈活性和準(zhǔn)確率的視覺任務(wù)處理方法。

技術(shù)實(shí)現(xiàn)思路

1、有鑒于此，本說明書實(shí)施例提供了一種視覺任務(wù)處理方法。本說明書一個(gè)或者多個(gè)實(shí)施例同時(shí)涉及一種視覺處理模型的訓(xùn)練方法，一種基于視覺處理模型的信息處理方法，一種任務(wù)平臺(tái)，一種計(jì)算設(shè)備，一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及一種計(jì)算機(jī)程序產(chǎn)品，以解決現(xiàn)有技術(shù)中存在的技術(shù)缺陷。

2、根據(jù)本說明書實(shí)施例的第一方面，提供了一種視覺任務(wù)處理方法，包括：

3、獲取目標(biāo)視覺任務(wù)的任務(wù)數(shù)據(jù)，其中，所述任務(wù)數(shù)據(jù)包括至少一個(gè)視覺對(duì)象；

4、提取所述至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征，并根據(jù)所述至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征，確定所述至少一個(gè)視覺對(duì)象的空間分布信息；

5、根據(jù)所述至少一個(gè)視覺對(duì)象的空間分布信息，利用目標(biāo)視覺處理模型將所述至少一個(gè)視覺對(duì)象分配至對(duì)應(yīng)的對(duì)象區(qū)域，獲得所述目標(biāo)視覺任務(wù)的目標(biāo)處理結(jié)果。

6、根據(jù)本說明書實(shí)施例的第二方面，提供了一種視覺處理模型的訓(xùn)練方法，包括：

7、獲取訓(xùn)練任務(wù)的訓(xùn)練數(shù)據(jù)，其中，所述訓(xùn)練數(shù)據(jù)包括至少一個(gè)樣本對(duì)象以及對(duì)應(yīng)的結(jié)果標(biāo)簽；

8、提取所述至少一個(gè)樣本對(duì)象的樣本對(duì)象嵌入特征，并根據(jù)所述至少一個(gè)樣本對(duì)象的樣本對(duì)象嵌入特征，確定所述至少一個(gè)樣本對(duì)象的樣本空間分布信息；

9、根據(jù)所述至少一個(gè)樣本對(duì)象的樣本空間分布信息，結(jié)合所述結(jié)果標(biāo)簽，對(duì)初始視覺處理模型進(jìn)行訓(xùn)練，獲得訓(xùn)練完成的目標(biāo)視覺處理模型。

10、根據(jù)本說明書實(shí)施例的第三方面，提供了一種基于視覺處理模型的信息處理方法，應(yīng)用于任務(wù)平臺(tái)，包括：

11、接收終端設(shè)備發(fā)送的模型請(qǐng)求，其中，所述模型請(qǐng)求包括目標(biāo)場(chǎng)景的場(chǎng)景標(biāo)識(shí)、目標(biāo)場(chǎng)景的場(chǎng)景輸入數(shù)據(jù)，以及模型規(guī)格參數(shù)中至少一項(xiàng)；

12、基于所述模型請(qǐng)求，從至少一個(gè)視覺處理模型中確定對(duì)應(yīng)的目標(biāo)視覺處理模型，其中，所述至少一個(gè)視覺處理模型基于如上述的視覺處理模型的訓(xùn)練方法訓(xùn)練得到。

13、根據(jù)本說明書實(shí)施例的第四方面，提供了一種任務(wù)平臺(tái)，包括請(qǐng)求接口和響應(yīng)單元；

14、所述請(qǐng)求接口，用于接收終端設(shè)備發(fā)送的模型請(qǐng)求，其中，所述模型請(qǐng)求包括目標(biāo)場(chǎng)景的場(chǎng)景標(biāo)識(shí)、目標(biāo)場(chǎng)景的場(chǎng)景輸入數(shù)據(jù)，以及模型規(guī)格參數(shù)中至少一項(xiàng)；

15、所述響應(yīng)單元，用于基于所述模型請(qǐng)求，從至少一個(gè)視覺處理模型中確定對(duì)應(yīng)的目標(biāo)視覺處理模型，其中，所述至少一個(gè)視覺處理模型基于如上述的視覺處理模型的訓(xùn)練方法訓(xùn)練得到。

16、根據(jù)本說明書實(shí)施例的第五方面，提供了一種計(jì)算設(shè)備，包括：

17、存儲(chǔ)器和處理器；

18、其中，存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序/指令，處理器用于執(zhí)行計(jì)算機(jī)程序/指令，該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述視覺任務(wù)處理方法、視覺處理模型的訓(xùn)練方法或者基于視覺處理模型的信息處理方法的步驟。

19、根據(jù)本說明書實(shí)施例的第六方面，提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其存儲(chǔ)有計(jì)算機(jī)程序/指令，該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述視覺任務(wù)處理方法、視覺處理模型的訓(xùn)練方法或者基于視覺處理模型的信息處理方法的步驟。

20、根據(jù)本說明書實(shí)施例的第七方面，提供了一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序/指令，該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述視覺任務(wù)處理方法、視覺處理模型的訓(xùn)練方法或者基于視覺處理模型的信息處理方法的步驟。

21、本說明書一個(gè)實(shí)施例實(shí)現(xiàn)了，提取至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征，并根據(jù)至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征，確定至少一個(gè)視覺對(duì)象的空間分布信息，利用目標(biāo)視覺處理模型將至少一個(gè)視覺對(duì)象分配至對(duì)應(yīng)的對(duì)象區(qū)域，獲得目標(biāo)視覺任務(wù)的目標(biāo)處理結(jié)果，將至少一個(gè)視覺對(duì)象自適應(yīng)地組合和分發(fā)到對(duì)應(yīng)的對(duì)象區(qū)域，分配和管理至少一個(gè)視覺對(duì)象，實(shí)現(xiàn)單視覺對(duì)象和多視覺對(duì)象的定制化生成，而無需對(duì)目標(biāo)視覺處理模型的文本提示和布局進(jìn)行限制，無需人工干預(yù)，不影響視覺對(duì)象的完整性、目標(biāo)處理結(jié)果的多樣性和文本提示的靈活性，提高了視覺任務(wù)處理的準(zhǔn)確率，且可以兼容大部分的目標(biāo)視覺處理模型，實(shí)現(xiàn)了良好的可擴(kuò)展性和通用兼容性。

技術(shù)特征：

1.一種視覺任務(wù)處理方法，包括：

2.根據(jù)權(quán)利要求1所述的方法，所述提取所述至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征，包括：

3.根據(jù)權(quán)利要求2所述的方法，所述對(duì)象識(shí)別模塊包括結(jié)構(gòu)識(shí)別網(wǎng)絡(luò)和身份識(shí)別網(wǎng)絡(luò)；所述利用嵌入模型的對(duì)象識(shí)別模塊，獲得所述至少一個(gè)視覺對(duì)象的對(duì)象身份特征，包括：

4.根據(jù)權(quán)利要求2所述的方法，所述對(duì)象編碼模塊包括圖像編碼器和特征結(jié)合網(wǎng)絡(luò)；所述利用嵌入模型的對(duì)象編碼模塊，獲得所述至少一個(gè)視覺對(duì)象的對(duì)象結(jié)構(gòu)特征之前，還包括：

5.根據(jù)權(quán)利要求2所述的方法，所述融合模塊包括第一注意力機(jī)制層、第二注意力機(jī)制層和特征轉(zhuǎn)換層；所述利用嵌入模型的融合模塊，根據(jù)所述至少一個(gè)視覺對(duì)象的對(duì)象身份特征以及所述至少一個(gè)視覺對(duì)象的對(duì)象結(jié)構(gòu)特征，獲得所述至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征，包括：

6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法，所述根據(jù)所述至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征，確定所述至少一個(gè)視覺對(duì)象的空間分布信息，包括：

7.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法，所述任務(wù)數(shù)據(jù)還包括參考圖像和/或文本提示信息；所述根據(jù)所述至少一個(gè)視覺對(duì)象的空間分布信息，利用目標(biāo)視覺處理模型將所述至少一個(gè)視覺對(duì)象分配至對(duì)應(yīng)的對(duì)象區(qū)域，獲得所述目標(biāo)視覺任務(wù)的目標(biāo)處理結(jié)果，包括：

8.一種視覺處理模型的訓(xùn)練方法，包括：

9.根據(jù)權(quán)利要求8所述的方法，所述訓(xùn)練數(shù)據(jù)包括第一樣本數(shù)據(jù)和第二樣本數(shù)據(jù)，所述第二樣本數(shù)據(jù)包括至少兩個(gè)樣本對(duì)象；所述提取所述至少一個(gè)樣本對(duì)象的樣本對(duì)象嵌入特征之前，還包括：

10.根據(jù)權(quán)利要求9所述的方法，所述第二樣本數(shù)據(jù)還包括多對(duì)象結(jié)果標(biāo)簽；所述根據(jù)所述至少一個(gè)樣本對(duì)象的樣本空間分布信息，結(jié)合所述結(jié)果標(biāo)簽，對(duì)初始視覺處理模型進(jìn)行訓(xùn)練，獲得訓(xùn)練完成的目標(biāo)視覺處理模型，包括：

11.根據(jù)權(quán)利要求9所述的方法，所述初始嵌入模型包括初始識(shí)別模塊、初始編碼模塊、第一丟棄模塊和初始融合模塊，所述第一樣本數(shù)據(jù)包括單樣本對(duì)象以及對(duì)應(yīng)的單對(duì)象結(jié)果標(biāo)簽；所述利用所述第一樣本數(shù)據(jù)，對(duì)初始嵌入模型和初始視覺處理模型進(jìn)行單對(duì)象訓(xùn)練，獲得更新視覺處理模型和訓(xùn)練完成的對(duì)象嵌入模型，包括：

12.根據(jù)權(quán)利要求11所述的方法，所述初始融合模塊包括第一初始注意力機(jī)制層、第二初始注意力機(jī)制層、第二丟棄模塊和初始特征轉(zhuǎn)換層；所述將所述樣本對(duì)象身份特征和所述更新對(duì)象結(jié)構(gòu)特征輸入初始融合模塊，獲得所述單樣本對(duì)象的樣本對(duì)象嵌入特征，包括：

13.根據(jù)權(quán)利要求10所述的方法，所述將所述至少兩個(gè)樣本對(duì)象的樣本對(duì)象嵌入特征輸入至初始路由模型，獲得所述至少兩個(gè)樣本對(duì)象的樣本空間分布信息，包括：

14.一種基于視覺處理模型的信息處理方法，應(yīng)用于任務(wù)平臺(tái)，包括：

15.一種任務(wù)平臺(tái)，包括請(qǐng)求接口和響應(yīng)單元；

16.根據(jù)權(quán)利要求15所述的任務(wù)平臺(tái)，所述任務(wù)平臺(tái)還包括視覺處理接口，所述視覺處理接口基于所述目標(biāo)視覺處理模型構(gòu)建得到；

17.一種計(jì)算設(shè)備，包括：

18.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其存儲(chǔ)有計(jì)算機(jī)程序/指令，該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至14任意一項(xiàng)所述方法的步驟。

19.一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)程序/指令，該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至14任意一項(xiàng)所述方法的步驟。

技術(shù)總結(jié)
本說明書實(shí)施例提供視覺任務(wù)處理、視覺處理模型的訓(xùn)練、基于視覺處理模型的信息處理方法及任務(wù)平臺(tái)，視覺任務(wù)處理方法包括：獲取目標(biāo)視覺任務(wù)的任務(wù)數(shù)據(jù)，其中，任務(wù)數(shù)據(jù)包括至少一個(gè)視覺對(duì)象；提取至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征，并根據(jù)至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征，確定至少一個(gè)視覺對(duì)象的空間分布信息；根據(jù)至少一個(gè)視覺對(duì)象的空間分布信息，利用目標(biāo)視覺處理模型將至少一個(gè)視覺對(duì)象分配至對(duì)應(yīng)的對(duì)象區(qū)域，獲得目標(biāo)視覺任務(wù)的目標(biāo)處理結(jié)果。利用目標(biāo)視覺處理模型將至少一個(gè)視覺對(duì)象分配至對(duì)應(yīng)的對(duì)象區(qū)域，獲得目標(biāo)視覺任務(wù)的目標(biāo)處理結(jié)果，分配和管理至少一個(gè)視覺對(duì)象，實(shí)現(xiàn)單視覺對(duì)象和多視覺對(duì)象的定制化生成。

技術(shù)研發(fā)人員：何俊杰,耿益鋒,薄列峰
受保護(hù)的技術(shù)使用者：阿里巴巴（中國(guó)）有限公司
技術(shù)研發(fā)日：
技術(shù)公布日：2025/1/2

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：何俊杰,耿益鋒,薄列峰
技術(shù)所有人：阿里巴巴（中國(guó)）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

視覺任務(wù)處理、視覺處理模型的訓(xùn)練、基于視覺處理模型的信息處理方法及任務(wù)平臺(tái)與流程

視覺任務(wù)處理、視覺處理模型的訓(xùn)練、基于視覺處理模型的信息處理方法及任務(wù)平臺(tái)與流程