欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于多模態(tài)大模型的自適應(yīng)視覺標(biāo)記剪枝方法及裝置

文檔序號:40522444發(fā)布日期:2024-12-31 13:31閱讀:10來源:國知局
一種基于多模態(tài)大模型的自適應(yīng)視覺標(biāo)記剪枝方法及裝置

本發(fā)明涉及多模態(tài)模型,尤其涉及一種基于多模態(tài)大模型的自適應(yīng)視覺標(biāo)記剪枝方法及裝置。


背景技術(shù):

1、近年來,多模態(tài)大規(guī)模語言模型(mllms)在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域取得了顯著進(jìn)展。通過結(jié)合文本和圖像兩種模態(tài)的信息,mllms在多模態(tài)任務(wù)(如圖像描述生成、視覺問答等)中表現(xiàn)出色。然而,隨著模型參數(shù)和數(shù)據(jù)規(guī)模的不斷增加,訓(xùn)練和推理所需的計(jì)算資源也急劇上升。

2、當(dāng)前mllms的主要挑戰(zhàn)之一是高昂的計(jì)算和存儲(chǔ)開銷。這些模型通常包含大量的令牌(tokens),每個(gè)令牌都需要進(jìn)行復(fù)雜的計(jì)算處理,從而導(dǎo)致推理效率低下,尤其是在實(shí)際應(yīng)用場景中。盡管現(xiàn)有的優(yōu)化技術(shù)(如模型剪枝和知識蒸餾)在一定程度上可以緩解這一問題,但它們往往需要額外的訓(xùn)練數(shù)據(jù)和復(fù)雜的模型調(diào)整過程。在多模態(tài)模型中,視覺模態(tài)的標(biāo)記(即圖像令牌)的冗余問題尤為突出。圖像通常被分割成多個(gè)小塊,每個(gè)塊作為一個(gè)獨(dú)立的令牌輸入模型。這些視覺令牌中存在大量冗余信息,導(dǎo)致不必要的計(jì)算開銷。例如,在圖像描述生成任務(wù)中,并不是所有的圖像塊都對生成的描述具有重要貢獻(xiàn)。

3、傳統(tǒng)的令牌剪枝方法通過移除不重要的令牌來減少計(jì)算量,但這些方法通常需要大量的手工特征工程或復(fù)雜的訓(xùn)練過程。此外,這些方法在實(shí)際應(yīng)用中的通用性較差,因?yàn)椴煌娜蝿?wù)和數(shù)據(jù)集可能需要不同的剪枝策略。

4、為了提高模型的推理效率并減少計(jì)算資源的消耗,亟需一種通用且高效的令牌剪枝方法。該方法應(yīng)能夠在保持模型性能的前提下,自動(dòng)識別和移除冗余令牌,從而優(yōu)化計(jì)算資源的使用。這不僅有助于降低模型的運(yùn)行成本,還可以加速模型的推理速度,使其在資源受限的環(huán)境中也能高效運(yùn)行。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于解決現(xiàn)有技術(shù)中移除視覺標(biāo)記過程復(fù)雜且通用性差的問題。

2、本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:提供一種基于多模態(tài)大模型的自適應(yīng)視覺標(biāo)記剪枝方法,包括以下步驟:

3、初始統(tǒng)計(jì)步驟,對于一批待剪枝的數(shù)據(jù),計(jì)算其輸入統(tǒng)計(jì)多模態(tài)大語言模型后每一層視覺標(biāo)記的內(nèi)部注意力總量和跨模態(tài)注意力總量作為兩個(gè)初始分布;

4、初始閾值步驟,給定目標(biāo)模型運(yùn)算量,并根據(jù)二分查找算法初始化誤差閾值;

5、刪除步驟,對于每一層視覺標(biāo)記,使用貪心算法逐層刪除對兩個(gè)初始分布影響最小的視覺標(biāo)記,直到兩個(gè)初始分布的誤差均達(dá)到誤差閾值,得到兩組候選刪除標(biāo)記;取兩組候選刪除標(biāo)記的交集作為最終要?jiǎng)h除的視覺標(biāo)記,對視覺標(biāo)記進(jìn)行刪除;

6、更新步驟,根據(jù)刪除完視覺標(biāo)記的模型運(yùn)算量與目標(biāo)計(jì)算量更新誤差閾值邊界;

7、停止判斷步驟,重復(fù)刪除步驟和更新步驟直到達(dá)到停止條件,進(jìn)入剪枝步驟;

8、剪枝步驟,計(jì)算平均每層視覺標(biāo)記刪除的數(shù)量作為刪除策略;將待刪除的視覺標(biāo)記進(jìn)行排序,排序時(shí)同時(shí)考慮視覺標(biāo)記的內(nèi)部注意力大小和跨模態(tài)注意力大小,對排序后的視覺標(biāo)記按照刪除策略進(jìn)行刪除,實(shí)現(xiàn)自適應(yīng)視覺標(biāo)記剪枝。

9、優(yōu)選的,所述多模態(tài)包括視覺模態(tài)和文本模態(tài),所述多模態(tài)大語言模型中包括視覺標(biāo)記和文本標(biāo)記。

10、優(yōu)選的,所述兩個(gè)初始分布包括內(nèi)部注意力總量和跨模態(tài)注意力總量,表示為:

11、

12、a′=max(a1,a2,…,ah),

13、其中,di(l)表示第l層視覺標(biāo)記的內(nèi)部注意力總量,dc(l)表示第l層視覺標(biāo)記的跨模態(tài)注意力總量,n表示第l層視覺標(biāo)記的總數(shù);a′表示每個(gè)注意力頭的注意力矩陣中的最大值,h表示注意力頭的數(shù)量;n和m分別表示視覺標(biāo)記和文本標(biāo)記的數(shù)量;fi(tl,i)表示視覺標(biāo)記tl,i受其他視覺標(biāo)記的注意力總量,fc(tl,i)表示視覺標(biāo)記tl,i從文本標(biāo)記收到的注意力總量。

14、優(yōu)選的,所述誤差閾值表示為:

15、

16、其中,αmin表示左邊界,αmax表示右邊界;

17、所述初始化誤差閾值指,令αmin=0,αmax=1。

18、優(yōu)選的,所述刪除步驟對每一層視覺標(biāo)記分別進(jìn)行刪除,對第l層進(jìn)行刪除的過程包括以下步驟:

19、初始化兩個(gè)空集合分別用于存儲(chǔ)對內(nèi)部注意力和跨模態(tài)注意力影響最小的候選刪除標(biāo)記;

20、對于每一個(gè)視覺標(biāo)記tl,i,計(jì)算刪除該標(biāo)記對內(nèi)部注意力分布的第一影響和對跨模態(tài)注意力分布的第二影響,分別表示為:

21、

22、根據(jù)第一影響和第二影響分別對輸入該層的視覺標(biāo)記序列進(jìn)行排序,獲得視覺標(biāo)記序列,表示為:

23、xv,i=sort(xv,d(di(l),di′(l)));

24、xv,c=sort(xv,d(dc(l),d′c(l)));

25、其中,xv,i表示根據(jù)第一影響排序好的的視覺標(biāo)記序列,xv,c表示根據(jù)第二影響排序好的視覺標(biāo)記序列,xv表示輸入該層的視覺標(biāo)記序列,sort表示排序函數(shù);

26、從視覺標(biāo)記序列xv,i和xv,c中分別從前往后找出一組視覺標(biāo)記序列子集,存儲(chǔ)到兩個(gè)空集合中,作為兩組候選視覺標(biāo)記,表示為:

27、

28、取集合pl,1和pl,2的交集作為刪除集對對應(yīng)層的視覺標(biāo)記進(jìn)行刪除,所述刪除集表示為:

29、pl=pl,1∩pl,2。

30、優(yōu)選的,所述取集合pl,1和pl,2的交集作為刪除集對對應(yīng)層的視覺標(biāo)記進(jìn)行刪除,在刪除過程中確保模型運(yùn)算量不超過目標(biāo)模型運(yùn)算量,具體為:執(zhí)行刪除操作時(shí)監(jiān)控刪除后整個(gè)模型的計(jì)算量,如果刪除操作導(dǎo)致計(jì)算量超過目標(biāo)計(jì)算量則停止下一層視覺標(biāo)記的刪除。

31、優(yōu)選的,所述更新步驟中,具體是根據(jù)刪除完視覺標(biāo)記的模型運(yùn)算量與目標(biāo)模型運(yùn)算量的比較結(jié)果更新誤差閾值邊界,表示為:

32、

33、其中,flops為刪除完視覺標(biāo)記的模型運(yùn)算量,x0是初始輸入模型未經(jīng)過刪除的視覺標(biāo)記序列,是每一層的刪除集的集合,l為模型總層數(shù);表示給定輸入視覺標(biāo)記序列x0在條件下的模型運(yùn)算量,s表示目標(biāo)模型運(yùn)算量。

34、優(yōu)選的,所述停止判斷步驟中的停止條件表示為:

35、αmax-αmin≤δ;

36、其中,δ為預(yù)設(shè)的二分搜索停止閾值;

37、滿足停止條件則進(jìn)入剪枝步驟;不滿足則根據(jù)更新后的誤差閾值邊界更新誤差閾值,并重復(fù)刪除步驟和更新步驟。

38、優(yōu)選的,所述剪枝步驟,具體包括以下步驟:

39、計(jì)算平均每層視覺標(biāo)記刪除的數(shù)量作為刪除策略,表示為:

40、

41、其中,表示處理輸入數(shù)據(jù)bi時(shí)在第l層刪除的視覺標(biāo)記,表示的數(shù)量,c為樣本總數(shù);

42、對待刪除的視覺標(biāo)記計(jì)算綜合重要性度量,表示為:

43、fu(tl,i)=fc(tl,i)·fi(tl,i);

44、對視覺標(biāo)記按照綜合重要性度量fu(tl,i)從小到大進(jìn)行排序;

45、對排序后的視覺標(biāo)記按照刪除策略進(jìn)行刪除,表示為:

46、

47、其中,表示視覺標(biāo)記tl,i在綜合重要性度量fu(tl,i)排序中的位置。

48、本發(fā)明還提供一種基于多模態(tài)大模型的自適應(yīng)視覺標(biāo)記剪枝裝置,包括:

49、初始統(tǒng)計(jì)模塊,對于一批待剪枝的數(shù)據(jù),計(jì)算其輸入統(tǒng)計(jì)多模態(tài)大語言模型后每一層視覺標(biāo)記的內(nèi)部注意力總量和跨模態(tài)注意力總量作為兩個(gè)初始分布;

50、初始閾值模塊,給定目標(biāo)模型運(yùn)算量,并根據(jù)二分查找算法初始化誤差閾值;

51、刪除模塊,對于每一層視覺標(biāo)記,使用貪心算法逐層刪除對兩個(gè)初始分布影響最小的視覺標(biāo)記,直到兩個(gè)初始分布的誤差均達(dá)到誤差閾值,得到兩組候選刪除標(biāo)記;取兩組候選刪除標(biāo)記的交集作為最終要?jiǎng)h除的視覺標(biāo)記,對視覺標(biāo)記進(jìn)行刪除;

52、更新模塊,根據(jù)刪除完視覺標(biāo)記的模型運(yùn)算量與目標(biāo)計(jì)算量更新誤差閾值邊界;

53、停止判斷模塊,重復(fù)刪除步驟和更新步驟直到達(dá)到停止條件,進(jìn)入剪枝步驟;

54、剪枝模塊,計(jì)算平均每層視覺標(biāo)記刪除的數(shù)量作為刪除策略;將待刪除的視覺標(biāo)記進(jìn)行排序,排序時(shí)同時(shí)考慮視覺標(biāo)記的內(nèi)部注意力大小和跨模態(tài)注意力大小,對排序后的視覺標(biāo)記按照刪除策略進(jìn)行刪除,實(shí)現(xiàn)自適應(yīng)視覺標(biāo)記剪枝。

55、本發(fā)明具有如下有益效果:本發(fā)明提出了一種自適應(yīng)視覺標(biāo)記剪枝方法,通過自動(dòng)識別和移除冗余的視覺令牌,優(yōu)化計(jì)算資源的使用,從而在不犧牲模型性能的前提下,降低運(yùn)行成本,加速模型的推理速度,使其在資源受限的環(huán)境中也能高效運(yùn)行;該方法無需額外的訓(xùn)練數(shù)據(jù)和復(fù)雜的模型調(diào)整過程,具有通用性和高效性,能夠廣泛應(yīng)用于不同的任務(wù)和數(shù)據(jù)集。

56、以下結(jié)合附圖及實(shí)施例對本發(fā)明作進(jìn)一步詳細(xì)說明,但本發(fā)明不局限于實(shí)施例。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
安溪县| 海阳市| 翁牛特旗| 祁连县| 富宁县| 英吉沙县| 舟山市| 长宁区| 勃利县| 化隆| 乐安县| 仁寿县| 自治县| 田阳县| 长汀县| 香港 | 深泽县| 炎陵县| 莆田市| 绥德县| 定南县| 灌南县| 扶绥县| 东阳市| 琼海市| 石屏县| 邓州市| 渑池县| 阿巴嘎旗| 札达县| 资源县| 巴彦淖尔市| 石首市| 怀宁县| 仪征市| 右玉县| 枣强县| 山东| 鄂伦春自治旗| 平乐县| 新宾|