本說明書實(shí)施例涉及深度學(xué)習(xí),特別涉及一種視覺任務(wù)處理、視覺處理模型的訓(xùn)練、基于視覺處理模型的信息處理方法及任務(wù)平臺(tái)。
背景技術(shù):
1、隨著計(jì)算機(jī)技術(shù)和人工智能技術(shù)的快速發(fā)展,深度學(xué)習(xí)模型在視覺任務(wù)處理方面展現(xiàn)出了巨大潛力,可以執(zhí)行不同的下游視覺任務(wù)。目前,在處理視覺任務(wù)時(shí),對(duì)視覺對(duì)象、文本提示的限制較多,視覺任務(wù)處理的靈活性和準(zhǔn)確率較差。因此,亟需一種能夠提高任務(wù)處理靈活性和準(zhǔn)確率的視覺任務(wù)處理方法。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本說明書實(shí)施例提供了一種視覺任務(wù)處理方法。本說明書一個(gè)或者多個(gè)實(shí)施例同時(shí)涉及一種視覺處理模型的訓(xùn)練方法,一種基于視覺處理模型的信息處理方法,一種任務(wù)平臺(tái),一種計(jì)算設(shè)備,一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以及一種計(jì)算機(jī)程序產(chǎn)品,以解決現(xiàn)有技術(shù)中存在的技術(shù)缺陷。
2、根據(jù)本說明書實(shí)施例的第一方面,提供了一種視覺任務(wù)處理方法,包括:
3、獲取目標(biāo)視覺任務(wù)的任務(wù)數(shù)據(jù),其中,所述任務(wù)數(shù)據(jù)包括至少一個(gè)視覺對(duì)象;
4、提取所述至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征,并根據(jù)所述至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征,確定所述至少一個(gè)視覺對(duì)象的空間分布信息;
5、根據(jù)所述至少一個(gè)視覺對(duì)象的空間分布信息,利用目標(biāo)視覺處理模型將所述至少一個(gè)視覺對(duì)象分配至對(duì)應(yīng)的對(duì)象區(qū)域,獲得所述目標(biāo)視覺任務(wù)的目標(biāo)處理結(jié)果。
6、根據(jù)本說明書實(shí)施例的第二方面,提供了一種視覺處理模型的訓(xùn)練方法,包括:
7、獲取訓(xùn)練任務(wù)的訓(xùn)練數(shù)據(jù),其中,所述訓(xùn)練數(shù)據(jù)包括至少一個(gè)樣本對(duì)象以及對(duì)應(yīng)的結(jié)果標(biāo)簽;
8、提取所述至少一個(gè)樣本對(duì)象的樣本對(duì)象嵌入特征,并根據(jù)所述至少一個(gè)樣本對(duì)象的樣本對(duì)象嵌入特征,確定所述至少一個(gè)樣本對(duì)象的樣本空間分布信息;
9、根據(jù)所述至少一個(gè)樣本對(duì)象的樣本空間分布信息,結(jié)合所述結(jié)果標(biāo)簽,對(duì)初始視覺處理模型進(jìn)行訓(xùn)練,獲得訓(xùn)練完成的目標(biāo)視覺處理模型。
10、根據(jù)本說明書實(shí)施例的第三方面,提供了一種基于視覺處理模型的信息處理方法,應(yīng)用于任務(wù)平臺(tái),包括:
11、接收終端設(shè)備發(fā)送的模型請(qǐng)求,其中,所述模型請(qǐng)求包括目標(biāo)場(chǎng)景的場(chǎng)景標(biāo)識(shí)、目標(biāo)場(chǎng)景的場(chǎng)景輸入數(shù)據(jù),以及模型規(guī)格參數(shù)中至少一項(xiàng);
12、基于所述模型請(qǐng)求,從至少一個(gè)視覺處理模型中確定對(duì)應(yīng)的目標(biāo)視覺處理模型,其中,所述至少一個(gè)視覺處理模型基于如上述的視覺處理模型的訓(xùn)練方法訓(xùn)練得到。
13、根據(jù)本說明書實(shí)施例的第四方面,提供了一種任務(wù)平臺(tái),包括請(qǐng)求接口和響應(yīng)單元;
14、所述請(qǐng)求接口,用于接收終端設(shè)備發(fā)送的模型請(qǐng)求,其中,所述模型請(qǐng)求包括目標(biāo)場(chǎng)景的場(chǎng)景標(biāo)識(shí)、目標(biāo)場(chǎng)景的場(chǎng)景輸入數(shù)據(jù),以及模型規(guī)格參數(shù)中至少一項(xiàng);
15、所述響應(yīng)單元,用于基于所述模型請(qǐng)求,從至少一個(gè)視覺處理模型中確定對(duì)應(yīng)的目標(biāo)視覺處理模型,其中,所述至少一個(gè)視覺處理模型基于如上述的視覺處理模型的訓(xùn)練方法訓(xùn)練得到。
16、根據(jù)本說明書實(shí)施例的第五方面,提供了一種計(jì)算設(shè)備,包括:
17、存儲(chǔ)器和處理器;
18、其中,存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序/指令,處理器用于執(zhí)行計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述視覺任務(wù)處理方法、視覺處理模型的訓(xùn)練方法或者基于視覺處理模型的信息處理方法的步驟。
19、根據(jù)本說明書實(shí)施例的第六方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其存儲(chǔ)有計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述視覺任務(wù)處理方法、視覺處理模型的訓(xùn)練方法或者基于視覺處理模型的信息處理方法的步驟。
20、根據(jù)本說明書實(shí)施例的第七方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述視覺任務(wù)處理方法、視覺處理模型的訓(xùn)練方法或者基于視覺處理模型的信息處理方法的步驟。
21、本說明書一個(gè)實(shí)施例實(shí)現(xiàn)了,提取至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征,并根據(jù)至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征,確定至少一個(gè)視覺對(duì)象的空間分布信息,利用目標(biāo)視覺處理模型將至少一個(gè)視覺對(duì)象分配至對(duì)應(yīng)的對(duì)象區(qū)域,獲得目標(biāo)視覺任務(wù)的目標(biāo)處理結(jié)果,將至少一個(gè)視覺對(duì)象自適應(yīng)地組合和分發(fā)到對(duì)應(yīng)的對(duì)象區(qū)域,分配和管理至少一個(gè)視覺對(duì)象,實(shí)現(xiàn)單視覺對(duì)象和多視覺對(duì)象的定制化生成,而無需對(duì)目標(biāo)視覺處理模型的文本提示和布局進(jìn)行限制,無需人工干預(yù),不影響視覺對(duì)象的完整性、目標(biāo)處理結(jié)果的多樣性和文本提示的靈活性,提高了視覺任務(wù)處理的準(zhǔn)確率,且可以兼容大部分的目標(biāo)視覺處理模型,實(shí)現(xiàn)了良好的可擴(kuò)展性和通用兼容性。
1.一種視覺任務(wù)處理方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,所述提取所述至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征,包括:
3.根據(jù)權(quán)利要求2所述的方法,所述對(duì)象識(shí)別模塊包括結(jié)構(gòu)識(shí)別網(wǎng)絡(luò)和身份識(shí)別網(wǎng)絡(luò);所述利用嵌入模型的對(duì)象識(shí)別模塊,獲得所述至少一個(gè)視覺對(duì)象的對(duì)象身份特征,包括:
4.根據(jù)權(quán)利要求2所述的方法,所述對(duì)象編碼模塊包括圖像編碼器和特征結(jié)合網(wǎng)絡(luò);所述利用嵌入模型的對(duì)象編碼模塊,獲得所述至少一個(gè)視覺對(duì)象的對(duì)象結(jié)構(gòu)特征之前,還包括:
5.根據(jù)權(quán)利要求2所述的方法,所述融合模塊包括第一注意力機(jī)制層、第二注意力機(jī)制層和特征轉(zhuǎn)換層;所述利用嵌入模型的融合模塊,根據(jù)所述至少一個(gè)視覺對(duì)象的對(duì)象身份特征以及所述至少一個(gè)視覺對(duì)象的對(duì)象結(jié)構(gòu)特征,獲得所述至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征,包括:
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,所述根據(jù)所述至少一個(gè)視覺對(duì)象的對(duì)象嵌入特征,確定所述至少一個(gè)視覺對(duì)象的空間分布信息,包括:
7.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,所述任務(wù)數(shù)據(jù)還包括參考圖像和/或文本提示信息;所述根據(jù)所述至少一個(gè)視覺對(duì)象的空間分布信息,利用目標(biāo)視覺處理模型將所述至少一個(gè)視覺對(duì)象分配至對(duì)應(yīng)的對(duì)象區(qū)域,獲得所述目標(biāo)視覺任務(wù)的目標(biāo)處理結(jié)果,包括:
8.一種視覺處理模型的訓(xùn)練方法,包括:
9.根據(jù)權(quán)利要求8所述的方法,所述訓(xùn)練數(shù)據(jù)包括第一樣本數(shù)據(jù)和第二樣本數(shù)據(jù),所述第二樣本數(shù)據(jù)包括至少兩個(gè)樣本對(duì)象;所述提取所述至少一個(gè)樣本對(duì)象的樣本對(duì)象嵌入特征之前,還包括:
10.根據(jù)權(quán)利要求9所述的方法,所述第二樣本數(shù)據(jù)還包括多對(duì)象結(jié)果標(biāo)簽;所述根據(jù)所述至少一個(gè)樣本對(duì)象的樣本空間分布信息,結(jié)合所述結(jié)果標(biāo)簽,對(duì)初始視覺處理模型進(jìn)行訓(xùn)練,獲得訓(xùn)練完成的目標(biāo)視覺處理模型,包括:
11.根據(jù)權(quán)利要求9所述的方法,所述初始嵌入模型包括初始識(shí)別模塊、初始編碼模塊、第一丟棄模塊和初始融合模塊,所述第一樣本數(shù)據(jù)包括單樣本對(duì)象以及對(duì)應(yīng)的單對(duì)象結(jié)果標(biāo)簽;所述利用所述第一樣本數(shù)據(jù),對(duì)初始嵌入模型和初始視覺處理模型進(jìn)行單對(duì)象訓(xùn)練,獲得更新視覺處理模型和訓(xùn)練完成的對(duì)象嵌入模型,包括:
12.根據(jù)權(quán)利要求11所述的方法,所述初始融合模塊包括第一初始注意力機(jī)制層、第二初始注意力機(jī)制層、第二丟棄模塊和初始特征轉(zhuǎn)換層;所述將所述樣本對(duì)象身份特征和所述更新對(duì)象結(jié)構(gòu)特征輸入初始融合模塊,獲得所述單樣本對(duì)象的樣本對(duì)象嵌入特征,包括:
13.根據(jù)權(quán)利要求10所述的方法,所述將所述至少兩個(gè)樣本對(duì)象的樣本對(duì)象嵌入特征輸入至初始路由模型,獲得所述至少兩個(gè)樣本對(duì)象的樣本空間分布信息,包括:
14.一種基于視覺處理模型的信息處理方法,應(yīng)用于任務(wù)平臺(tái),包括:
15.一種任務(wù)平臺(tái),包括請(qǐng)求接口和響應(yīng)單元;
16.根據(jù)權(quán)利要求15所述的任務(wù)平臺(tái),所述任務(wù)平臺(tái)還包括視覺處理接口,所述視覺處理接口基于所述目標(biāo)視覺處理模型構(gòu)建得到;
17.一種計(jì)算設(shè)備,包括:
18.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其存儲(chǔ)有計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至14任意一項(xiàng)所述方法的步驟。
19.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至14任意一項(xiàng)所述方法的步驟。