欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)與流程

文檔序號(hào):40639455發(fā)布日期:2025-01-10 18:45閱讀:5來(lái)源:國(guó)知局
基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)與流程

本申請(qǐng)涉及人工智能,尤其涉及一種基于統(tǒng)一表征模型的數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì)。


背景技術(shù):

1、隨著人工智能(ai)技術(shù)的迅猛發(fā)展,多模態(tài)學(xué)習(xí)在諸多領(lǐng)域(如計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和語(yǔ)音識(shí)別等)中表現(xiàn)卓越。多模態(tài)學(xué)習(xí)模型能夠同時(shí)處理和融合來(lái)自不同模態(tài)(如圖像、文本、音頻等)的數(shù)據(jù),從而提高模型的性能和應(yīng)用效果。然而,現(xiàn)有的多模態(tài)學(xué)習(xí)方法在實(shí)際應(yīng)用中仍面臨諸多挑戰(zhàn),特別是在信息融合效率、計(jì)算資源需求以及模型整體性能方面還存在不足。

2、現(xiàn)有的多模態(tài)數(shù)據(jù)處理方法通常采用直接地獨(dú)立處理各原始模態(tài)數(shù)據(jù),并在網(wǎng)絡(luò)模型的高層對(duì)獨(dú)立處理后的多模態(tài)數(shù)據(jù)進(jìn)行簡(jiǎn)單融合的方法。例如,在圖像與文本匹配中,圖像數(shù)據(jù)和文本數(shù)據(jù)分別經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)和預(yù)訓(xùn)練語(yǔ)言模型(如bert語(yǔ)言模型)提取特征,然后將這些特征簡(jiǎn)單拼接或僅通過(guò)全連接層進(jìn)行簡(jiǎn)單的融合。

3、因此,這種方法存在信息融合效率低下,從而導(dǎo)致訓(xùn)練和推理效率低等問(wèn)題。

4、申請(qǐng)內(nèi)容

5、本申請(qǐng)實(shí)施例的主要目的在于提供一種基于統(tǒng)一表征模型的數(shù)據(jù)處理方法、裝置、設(shè)備及介質(zhì),旨在解決相關(guān)技術(shù)中的多模態(tài)學(xué)習(xí)方法在實(shí)際應(yīng)用中存在的信息融合效率低下、導(dǎo)致訓(xùn)練和推理效率低、泛化能力和適應(yīng)不同任務(wù)的能力方面表現(xiàn)不足等問(wèn)題中的至少一個(gè)問(wèn)題。

6、第一方面,本申請(qǐng)實(shí)施例提供一種基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法,所述方法包括:獲取多模態(tài)特征數(shù)據(jù);在第一基于注意力的融合層,將所述多模態(tài)特征數(shù)據(jù)分別轉(zhuǎn)化為查詢向量、鍵向量和值向量;計(jì)算所述查詢向量和所述鍵向量之間的第一注意力權(quán)重;基于所述第一注意力權(quán)重對(duì)所述值向量進(jìn)行加權(quán)處理,獲取加權(quán)后的值向量;將所述加權(quán)后的值向量與所述查詢向量進(jìn)行初始融合,獲取初始融合特征數(shù)據(jù);在全連接融合層,對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行二次融合,以形成二次融合特征數(shù)據(jù);在第二基于注意力的融合層,計(jì)算出所述二次融合特征數(shù)據(jù)與所述初始融合特征數(shù)據(jù)之間的相似度;基于所述相似度生成第二注意力權(quán)重;基于所述第二注意力權(quán)重對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行加權(quán),獲取加權(quán)后的初始融合特征數(shù)據(jù);以及將所述加權(quán)后的初始融合特征數(shù)據(jù)與所述二次融合特征數(shù)據(jù)融合,以生成多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示。

7、可選的,所述獲取多模態(tài)特征數(shù)據(jù),包括:獲取預(yù)處理后的多模態(tài)數(shù)據(jù),其中,所述預(yù)處理后的多模態(tài)數(shù)據(jù)包括第一模態(tài)數(shù)據(jù)、第二模態(tài)數(shù)據(jù)以及第三模態(tài)數(shù)據(jù);以及基于不同的特征提取模型,分別對(duì)所述第一模態(tài)數(shù)據(jù)、所述第二模態(tài)數(shù)據(jù)以及所述第三模態(tài)數(shù)據(jù)進(jìn)行特征提取,獲取所述多模態(tài)特征數(shù)據(jù)。

8、可選的,所述預(yù)處理包括:對(duì)所述多模態(tài)數(shù)據(jù)進(jìn)行對(duì)齊處理,以確保同一場(chǎng)景下的所述第一模態(tài)數(shù)據(jù)、所述第二模態(tài)數(shù)據(jù)以及所述第三模態(tài)數(shù)據(jù)彼此對(duì)應(yīng);以及對(duì)所述多模態(tài)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以消除所述多模態(tài)數(shù)據(jù)之間的差異。

9、可選的,所述第一模態(tài)數(shù)據(jù)為圖像數(shù)據(jù),所述第二模態(tài)數(shù)據(jù)為文本數(shù)據(jù),所述第三模態(tài)數(shù)據(jù)為音頻數(shù)據(jù)。

10、可選的,在全連接融合層,對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行二次融合,以形成二次融合特征數(shù)據(jù),包括:對(duì)所述初始融合特征數(shù)據(jù)中的每個(gè)單模態(tài)特征數(shù)據(jù)進(jìn)行拼接,獲取拼接后的初始融合特征數(shù)據(jù);以及在所述全連接融合層,將拼接后的所述初始融合特征數(shù)據(jù)映射到一個(gè)不同維的表示空間,以形成二次融合特征數(shù)據(jù)。

11、可選的,所述方法通過(guò)將所述多模態(tài)數(shù)據(jù)輸入預(yù)設(shè)統(tǒng)一表征模型,得到所述多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示,其中,所述統(tǒng)一表征模型包括編碼器、第一基于注意力的融合層、全連接融合層、第二基于注意力的融合層以及輸出層,所述第一基于注意力的融合層、所述全連接融合層以及第二基于注意力的融合層按順序依次連接。

12、可選的,所述預(yù)設(shè)統(tǒng)一表征模型通過(guò)以下方式預(yù)先訓(xùn)練得到:獲取訓(xùn)練的多模態(tài)數(shù)據(jù),將所述多模態(tài)數(shù)據(jù)輸入所述統(tǒng)一表征模型,得到多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示;分別計(jì)算所述多模態(tài)數(shù)據(jù)中的單模態(tài)數(shù)據(jù)與所述多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示中的單模態(tài)數(shù)據(jù)之間的一致性損失值;將所有的所述一致性損失值按特定的權(quán)重系數(shù)加權(quán)求和,獲取聯(lián)合損失值;根據(jù)所述聯(lián)合損失值更新所述統(tǒng)一表征模型的模型參數(shù)值,直至所述聯(lián)合損失值收斂;以及將所述聯(lián)合損失值收斂時(shí)的統(tǒng)一表征模型,作為所述預(yù)設(shè)統(tǒng)一表征模型。

13、第二方面,本申請(qǐng)實(shí)施例提供一種多模態(tài)數(shù)據(jù)處理裝置,具有實(shí)現(xiàn)對(duì)應(yīng)于上述第一方面提供的基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法的功能。所述功能可以通過(guò)硬件實(shí)現(xiàn),也可以通過(guò)硬件執(zhí)行相應(yīng)的軟件實(shí)現(xiàn)。硬件或軟件包括一個(gè)或多個(gè)與上述功能相對(duì)應(yīng)的模塊,所述模塊可以是軟件和/或硬件。

14、在一個(gè)實(shí)施方式中,所述多模態(tài)數(shù)據(jù)處理裝置包括:獲取模塊,被配置為獲取多模態(tài)特征數(shù)據(jù);第一融合模塊,被配置為對(duì)所述多模態(tài)特征數(shù)據(jù)進(jìn)行初始融合,獲取初始融合特征數(shù)據(jù);第二融合模塊,被配置為對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行二次融合,以形成二次融合特征數(shù)據(jù);第三融合模塊,被配置為計(jì)算出所述二次融合特征數(shù)據(jù)與所述初始融合特征數(shù)據(jù)之間的相似度;基于所述相似度生成第二注意力權(quán)重;基于所述第二注意力權(quán)重對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行加權(quán),獲取加權(quán)后的初始融合特征數(shù)據(jù),將所述加權(quán)后的初始融合特征數(shù)據(jù)與所述二次融合特征數(shù)據(jù)進(jìn)行融合;以及表示模塊,被配置為基于所述加權(quán)后的初始融合特征數(shù)據(jù)與所述二次融合特征數(shù)據(jù)的融合,以生成多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示。

15、第三方面,本申請(qǐng)實(shí)施例提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括指令,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行如第一方面所述的基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法。

16、第四方面,本申請(qǐng)實(shí)施例提供一種計(jì)算設(shè)備,包括存儲(chǔ)器,處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其中,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)第一方面所述的基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法。

17、相對(duì)于現(xiàn)有技術(shù)的對(duì)多模態(tài)數(shù)據(jù)直接進(jìn)行特征提取,本申請(qǐng)的實(shí)施例在進(jìn)行特征提取之前,首先對(duì)多模態(tài)數(shù)據(jù)進(jìn)行了預(yù)處理,以確保數(shù)據(jù)的一致性和質(zhì)量。此外,針對(duì)多模態(tài)數(shù)據(jù)的融合,現(xiàn)有技術(shù)采用獨(dú)立處理各模態(tài)數(shù)據(jù)并在高層進(jìn)行簡(jiǎn)單融合的方式,而簡(jiǎn)單的特征拼接或全連接層融合無(wú)法充分捕捉不同模態(tài)數(shù)據(jù)之間的關(guān)聯(lián)信息,進(jìn)而影響了模型的性能。

18、與之不同的是,本申請(qǐng)實(shí)施例中,首先對(duì)多模態(tài)特征數(shù)據(jù)進(jìn)行對(duì)齊和初始融合處理,在此基礎(chǔ)上,再對(duì)經(jīng)過(guò)初始融合處理后的多模態(tài)特征數(shù)據(jù)進(jìn)行多層次融合。由于本申請(qǐng)實(shí)施例是采用跨模態(tài)注意力機(jī)制和多層次融合網(wǎng)絡(luò)結(jié)合的方式對(duì)多模態(tài)特征數(shù)據(jù)進(jìn)行融合,而不是現(xiàn)有技術(shù)中的簡(jiǎn)單融合的方式,并且在初始融合特征數(shù)據(jù)的基礎(chǔ)上,通過(guò)將低級(jí)特征和高級(jí)特征進(jìn)行融合,可以獲得高分辨率和語(yǔ)意強(qiáng)的圖文特征,該模型提高了信息融合效率以及信息融合的準(zhǔn)確性和全面性,從而提高了模型在圖文生成應(yīng)用方面的準(zhǔn)確性。

19、綜上所述,本申請(qǐng)實(shí)施例可以充分地利用多模態(tài)數(shù)據(jù)的豐富信息,提高了信息融合效率以及信息融合的準(zhǔn)確性和全面性,從而可以提高模型在ai字幕生成以及圖文生成應(yīng)用中的準(zhǔn)確性。


技術(shù)實(shí)現(xiàn)思路



技術(shù)特征:

1.一種基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法,所述方法包括:

2.如權(quán)利要求1所述的方法,其中,所述獲取多模態(tài)特征數(shù)據(jù),包括:

3.如權(quán)利要求2所述的方法,其中,所述預(yù)處理包括:

4.如權(quán)利要求2所述的方法,其中,所述第一模態(tài)數(shù)據(jù)為圖像數(shù)據(jù),所述第二模態(tài)數(shù)據(jù)為文本數(shù)據(jù),所述第三模態(tài)數(shù)據(jù)為音頻數(shù)據(jù)。

5.如權(quán)利要求1所述的方法,其中,在全連接融合層,對(duì)所述初始融合特征數(shù)據(jù)進(jìn)行二次融合,以形成二次融合特征數(shù)據(jù),包括:

6.如權(quán)利要求1所述的方法,其中,所述方法通過(guò)將所述多模態(tài)數(shù)據(jù)輸入預(yù)設(shè)統(tǒng)一表征模型,得到所述多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示,其中,所述統(tǒng)一表征模型包括編碼器、第一基于注意力的融合層、全連接融合層、第二基于注意力的融合層以及輸出層,所述第一基于注意力的融合層、所述全連接融合層以及第二基于注意力的融合層按順序依次連接。

7.如權(quán)利要求1所述的方法,其中,所述預(yù)設(shè)統(tǒng)一表征模型通過(guò)以下方式預(yù)先訓(xùn)練得到:

8.一種多模態(tài)數(shù)據(jù)處理裝置,包括:

9.一種計(jì)算設(shè)備,包括存儲(chǔ)器,處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其中,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如權(quán)利要求1-7中任一項(xiàng)所述的方法。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其包括指令,當(dāng)其在計(jì)算機(jī)上運(yùn)行時(shí),使得計(jì)算機(jī)執(zhí)行如權(quán)利要求1-7中任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本申請(qǐng)涉及人工智能領(lǐng)域,提供了基于統(tǒng)一表征模型的多模態(tài)數(shù)據(jù)處理方法,包括:獲取多模態(tài)特征數(shù)據(jù),在第一基于注意力的融合層,對(duì)多模態(tài)特征數(shù)據(jù)進(jìn)行處理,獲取初始融合特征數(shù)據(jù),再對(duì)初始融合特征數(shù)據(jù)進(jìn)行二次融合,以形成二次融合特征數(shù)據(jù),計(jì)算出二次融合特征數(shù)據(jù)與初始融合特征數(shù)據(jù)之間的相似度,基于相似度生成第二注意力權(quán)重,再基于第二注意力權(quán)重對(duì)初始融合特征數(shù)據(jù)進(jìn)行加權(quán),獲取加權(quán)后的初始融合特征數(shù)據(jù),最后將加權(quán)后的初始融合特征數(shù)據(jù)與二次融合特征數(shù)據(jù)融合,生成多模態(tài)數(shù)據(jù)的統(tǒng)一多模態(tài)表示。本申請(qǐng)充分地利用多模態(tài)數(shù)據(jù)的豐富信息,提高了信息融合效率,從而提高了模型在AI字幕生成以及圖文生成應(yīng)用中的準(zhǔn)確性。

技術(shù)研發(fā)人員:闖小明,楊龔軼凡,鄭瀚尋,戴長(zhǎng)樂(lè)
受保護(hù)的技術(shù)使用者:上海泰則半導(dǎo)體有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2025/1/9
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
塘沽区| 和静县| 昌宁县| 金山区| 新蔡县| 绍兴市| 普格县| 黄山市| 红安县| 会东县| 临沭县| 广汉市| 涞水县| 石门县| 皮山县| 肇庆市| 泉州市| 甘南县| 屯留县| 同心县| 福海县| 固原市| 咸丰县| 明溪县| 周宁县| 永新县| 乌审旗| 梁河县| 天全县| 马尔康县| 黄梅县| 东宁县| 迁西县| 潞城市| 甘德县| 太保市| 长垣县| 会东县| 九龙坡区| 军事| 盘锦市|