一種基于深度學(xué)習(xí)的多模態(tài)標(biāo)注方法

文檔序號(hào)：40528902發(fā)布日期：2024-12-31 13:40閱讀：16來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及計(jì)算機(jī)領(lǐng)域，特別涉及一種用于多模態(tài)數(shù)據(jù)標(biāo)注的系統(tǒng)及方法，使用深度學(xué)習(xí)模型的目標(biāo)檢測(cè)算法，加快標(biāo)注人員在需標(biāo)注數(shù)據(jù)上進(jìn)行標(biāo)注的效率。

背景技術(shù)：

1、多模態(tài)數(shù)據(jù)標(biāo)注是計(jì)算機(jī)視覺與數(shù)據(jù)科學(xué)領(lǐng)域的一個(gè)重要研究領(lǐng)域，它涉及為包含文本、圖像、音頻、視頻等多種類型信息的數(shù)據(jù)賦予語義標(biāo)簽、元數(shù)據(jù)或注釋。這些標(biāo)注使得計(jì)算機(jī)系統(tǒng)能夠理解和處理這些信息。多模態(tài)數(shù)據(jù)標(biāo)注的目標(biāo)是將數(shù)據(jù)與語義信息關(guān)聯(lián)起來，例如分類標(biāo)簽、描述性文本、情感情感極性等，以便于計(jì)算機(jī)系統(tǒng)更好地理解和分析這些數(shù)據(jù)。這種標(biāo)注通常由人工標(biāo)注員完成，他們根據(jù)數(shù)據(jù)的內(nèi)容和特點(diǎn)，為數(shù)據(jù)添加適當(dāng)?shù)臉?biāo)簽和注釋，但是人工標(biāo)注會(huì)隨之帶來高成本、時(shí)間消耗、數(shù)據(jù)整合難度、一致性和標(biāo)準(zhǔn)化等問題。多模態(tài)數(shù)據(jù)標(biāo)注的重要性在于提高機(jī)器的理解能力。當(dāng)計(jì)算機(jī)系統(tǒng)能夠理解不同模態(tài)的數(shù)據(jù)時(shí)，它們可以更好地處理和分析這些數(shù)據(jù)，從而提高在各種應(yīng)用中的性能。

2、隨著數(shù)字化技術(shù)的快速發(fā)展，多模態(tài)數(shù)據(jù)的獲取和應(yīng)用已經(jīng)成為現(xiàn)實(shí)生活和各個(gè)行業(yè)中的常見情況。這些多模態(tài)數(shù)據(jù)通常包括圖像、文本等不同形式的信息，這些信息相互之間存在關(guān)聯(lián)，綜合利用這些信息可以幫助實(shí)現(xiàn)更準(zhǔn)確和全面的數(shù)據(jù)分析、識(shí)別和應(yīng)用。然而，多模態(tài)數(shù)據(jù)的標(biāo)注工作卻面臨著諸多挑戰(zhàn)。傳統(tǒng)的標(biāo)注方法通常需要大量的人力投入，且標(biāo)注過程中容易出現(xiàn)主觀誤差，標(biāo)注效率和準(zhǔn)確性難以保證。另外，不同模態(tài)數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)性也增加了標(biāo)注任務(wù)的復(fù)雜性。

3、現(xiàn)有的技術(shù)往往采用人工標(biāo)注的方式，即便在一定程度上利用了自動(dòng)化標(biāo)注工具，但仍然存在標(biāo)注效率低、準(zhǔn)確性差等問題。因此，迫切需要一種能夠高效、準(zhǔn)確地完成多模態(tài)數(shù)據(jù)標(biāo)注的方法和系統(tǒng)。提供一種自動(dòng)化、高效、準(zhǔn)確的多模態(tài)數(shù)據(jù)標(biāo)注系統(tǒng)及方法成為一項(xiàng)迫切需要完成的任務(wù)，以應(yīng)對(duì)日益增長(zhǎng)的多模態(tài)數(shù)據(jù)標(biāo)注需求，推動(dòng)多模態(tài)數(shù)據(jù)在各領(lǐng)域的應(yīng)用和發(fā)展。

4、公開號(hào)cn113535949a的專利公開了提供了一種基于圖片和句子的多模態(tài)聯(lián)合事件檢測(cè)方法。同時(shí)從圖片和句子中識(shí)別事件，可以利用現(xiàn)有的單模態(tài)數(shù)據(jù)集分別學(xué)習(xí)圖片和文本事件分類器；另一方面利用已有的圖片與標(biāo)題對(duì)訓(xùn)練圖片句子匹配模塊，找出多模態(tài)文章中語義相似度最高的圖片和句子，從而獲取圖片實(shí)體和單詞在公共空間的特征表示。最后，利用少量的多模態(tài)標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試，利用共享事件分類器分別獲取圖片和句子描述的事件及其類型。

5、公開號(hào)cn115311512a的專利公開了一種數(shù)據(jù)標(biāo)注方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。將待標(biāo)注數(shù)據(jù)集輸入預(yù)設(shè)的自動(dòng)標(biāo)注模型，得到第一數(shù)據(jù)集；將第一數(shù)據(jù)集中相同幀的標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注之間的融合補(bǔ)全，得到第二數(shù)據(jù)集；確定第二數(shù)據(jù)集中存在冗余標(biāo)注的標(biāo)注數(shù)據(jù)，并根據(jù)存在冗余標(biāo)注的標(biāo)注數(shù)據(jù)對(duì)第二數(shù)據(jù)集進(jìn)行交叉驗(yàn)證整合，得到補(bǔ)全數(shù)據(jù)集。通過采集器獲取點(diǎn)云和圖像數(shù)據(jù)，使用多模態(tài)標(biāo)注交叉驗(yàn)證并豐富語義信息，并將多模態(tài)標(biāo)注融合。

6、公開號(hào)cn115937738a的專利公開了視頻標(biāo)注模型的訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。其方法包括：獲取視頻數(shù)據(jù)，在所述視頻數(shù)據(jù)中提取關(guān)鍵幀；對(duì)幀進(jìn)行特征提取，得到幀在不同模態(tài)下的特征數(shù)據(jù)；基于不同模態(tài)下的特征數(shù)據(jù)，構(gòu)建不同模態(tài)對(duì)應(yīng)的子圖；基于圖神經(jīng)網(wǎng)絡(luò)，對(duì)不同模態(tài)對(duì)應(yīng)的子圖執(zhí)行聚合操作，得到目標(biāo)圖；基于目標(biāo)圖，獲取圖神經(jīng)網(wǎng)絡(luò)對(duì)關(guān)鍵幀進(jìn)行視頻標(biāo)注的預(yù)測(cè)標(biāo)注結(jié)果；基于預(yù)測(cè)標(biāo)注結(jié)果和關(guān)鍵幀的實(shí)際標(biāo)注結(jié)果，訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)直至收斂，得到視頻標(biāo)注模型。

7、綜合目前存在的多模態(tài)標(biāo)注工具，智能模型發(fā)展較為緩慢，多數(shù)工具只能進(jìn)行文字、圖片或者視頻單一文件進(jìn)行標(biāo)注，對(duì)文件的處理過程也很復(fù)雜，標(biāo)注的形式也很單一，不能添加標(biāo)注標(biāo)簽的關(guān)系等方面的信息。標(biāo)注效率也是一個(gè)工具的重要評(píng)價(jià)指標(biāo)，現(xiàn)存的工具對(duì)智能標(biāo)注的發(fā)展也是相對(duì)有限的，加入深度學(xué)習(xí)模型可以在很大程度上進(jìn)行自動(dòng)化標(biāo)注、提高準(zhǔn)確性、進(jìn)行多模態(tài)融合、加強(qiáng)實(shí)時(shí)性與適應(yīng)性。

8、不同的文件內(nèi)容，如文本和圖片在進(jìn)行標(biāo)注時(shí)要求完全不同，標(biāo)注模型需要針對(duì)不同的內(nèi)容進(jìn)行專門的訓(xùn)練?；诖爽F(xiàn)狀，本發(fā)明提供一種基于深度學(xué)習(xí)的多模態(tài)標(biāo)注方法，能直接在多種形式的數(shù)據(jù)上進(jìn)行多模態(tài)信息標(biāo)注，訓(xùn)練模型，優(yōu)化模型，對(duì)標(biāo)注的信息進(jìn)行實(shí)時(shí)回顯。

技術(shù)實(shí)現(xiàn)思路

1、為解決上述問題，本發(fā)明提供一種基于深度學(xué)習(xí)的多模態(tài)標(biāo)注方法。本發(fā)明利用深度學(xué)習(xí)技術(shù)，針對(duì)包含圖像、文本等多種模態(tài)的數(shù)據(jù)進(jìn)行高效準(zhǔn)確的標(biāo)注。

2、本發(fā)明的技術(shù)方案為：

3、一種基于深度學(xué)習(xí)的多模態(tài)標(biāo)注方法，其步驟包括：

4、1)利用多模態(tài)標(biāo)注模塊進(jìn)行數(shù)據(jù)內(nèi)容的標(biāo)注：

5、11)標(biāo)注任務(wù)定義，明確定義標(biāo)注任務(wù)的具體內(nèi)容和標(biāo)準(zhǔn)，確定需要標(biāo)注的數(shù)據(jù)類型、標(biāo)簽體系等，確保標(biāo)注人員理解標(biāo)注任務(wù)的要求；

6、12)標(biāo)注形式選擇，選擇合適的多模態(tài)標(biāo)注形式，確保標(biāo)注的形式能夠滿足標(biāo)注任務(wù)的需求。

7、13)標(biāo)注結(jié)果整合，將標(biāo)注結(jié)果整合到統(tǒng)一的數(shù)據(jù)集中，確保數(shù)據(jù)的組織和格式符合后續(xù)任務(wù)的需求。

8、2)利用深度學(xué)習(xí)模型對(duì)標(biāo)注出的內(nèi)容進(jìn)行學(xué)習(xí)：

9、21)收集標(biāo)注好的數(shù)據(jù)集，包括輸入數(shù)據(jù)和對(duì)應(yīng)的標(biāo)注信息。確保數(shù)據(jù)集的質(zhì)量和標(biāo)注準(zhǔn)確性對(duì)于深度學(xué)習(xí)模型的訓(xùn)練至關(guān)重要；

10、22)選擇合適的深度學(xué)習(xí)模型，根據(jù)公開數(shù)據(jù)集arxiv?dataset的特點(diǎn)和標(biāo)注任務(wù)的復(fù)雜性來確定模型的結(jié)構(gòu)和參數(shù)，arxiv?dataset數(shù)據(jù)集是一個(gè)包含170萬篇文章的資料庫，其中包含文章標(biāo)題、作者、類別、摘要、pdf全文等相關(guān)特征，數(shù)據(jù)以json格式存儲(chǔ)；

11、23)使用準(zhǔn)備好的數(shù)據(jù)集對(duì)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練。在訓(xùn)練過程中，通過反向傳播算法和優(yōu)化器來調(diào)整模型的權(quán)重和參數(shù)，使模型逐漸學(xué)習(xí)到標(biāo)注內(nèi)容的特征和規(guī)律，為了提高模型在處理多模態(tài)數(shù)據(jù)時(shí)對(duì)標(biāo)注內(nèi)容的學(xué)習(xí)能力，對(duì)損失函數(shù)進(jìn)行改進(jìn)，使其能夠更好地捕捉各模態(tài)之間的關(guān)系和特征，本發(fā)明使用了加權(quán)融合的多模態(tài)損失函數(shù)：

12、l＝α·ltext+β·limg+γ·lfusion

13、其中，ltext是針對(duì)文本模態(tài)的損失，limg是圖像數(shù)據(jù)的損失，lfusion是模態(tài)融合的損失，α、β、γ是不同的權(quán)重系數(shù)。

14、24)利用驗(yàn)證數(shù)據(jù)集對(duì)訓(xùn)練好的模型進(jìn)行驗(yàn)證，評(píng)估模型的性能和泛化能力，根據(jù)驗(yàn)證結(jié)果進(jìn)行模型的調(diào)優(yōu)，以提高模型的性能；

15、25)將訓(xùn)練好的深度學(xué)習(xí)模型應(yīng)用于新的未標(biāo)注數(shù)據(jù)，進(jìn)行推理和預(yù)測(cè)。模型會(huì)根據(jù)輸入數(shù)據(jù)自動(dòng)進(jìn)行標(biāo)注或分類，生成相應(yīng)的輸出結(jié)果。

16、進(jìn)一步的，對(duì)于多模態(tài)數(shù)據(jù)形式的標(biāo)注，提供不同的標(biāo)注方式，如文本、圖像、音頻等，用不同的標(biāo)注方式進(jìn)行標(biāo)注，以人工標(biāo)注的方式構(gòu)建標(biāo)注數(shù)據(jù)集。

17、進(jìn)一步的，需要選擇適合的標(biāo)注工具，以本系統(tǒng)為標(biāo)注工具，進(jìn)行數(shù)據(jù)標(biāo)注，本系統(tǒng)提供了不同數(shù)據(jù)的標(biāo)注方法，如圖片類型，可以進(jìn)行目標(biāo)識(shí)別和分類、關(guān)鍵點(diǎn)標(biāo)注、圖像描述、區(qū)域標(biāo)注、屬性標(biāo)注。

18、進(jìn)一步的，深度學(xué)習(xí)模塊，對(duì)標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練、預(yù)測(cè)和評(píng)估，以及根據(jù)標(biāo)注人員對(duì)智能標(biāo)注識(shí)別的信息進(jìn)行修改所得更新數(shù)據(jù)，對(duì)所述深度學(xué)習(xí)模型進(jìn)行增量訓(xùn)練。

19、進(jìn)一步的，收集標(biāo)注后的數(shù)據(jù)進(jìn)行存儲(chǔ)，存儲(chǔ)到指定數(shù)據(jù)庫，用于下一步進(jìn)行模型的訓(xùn)練，存儲(chǔ)數(shù)據(jù)庫使用非關(guān)系型數(shù)據(jù)庫。

20、進(jìn)一步的，在收集好的數(shù)據(jù)集上使用yolo算法進(jìn)行預(yù)訓(xùn)練深度學(xué)習(xí)模型，對(duì)模型參數(shù)進(jìn)行訓(xùn)練和調(diào)優(yōu)，使用yolo算法結(jié)合手動(dòng)標(biāo)注的標(biāo)簽相結(jié)合，以訓(xùn)練模型檢測(cè)圖像中的對(duì)象并識(shí)別它們的類別和屬性。

21、進(jìn)一步的，應(yīng)用訓(xùn)練完成的深度學(xué)習(xí)模型，整合yolo和標(biāo)注模型，融合yolo目標(biāo)檢測(cè)和標(biāo)注模型的多模態(tài)框架，將yolo和智能標(biāo)注模型整合到一個(gè)多模態(tài)標(biāo)注框架中，該框架可以用于對(duì)新的未標(biāo)注文件進(jìn)行多模態(tài)標(biāo)注，具有使用yolo模型檢測(cè)圖像中的對(duì)象、提取每個(gè)檢測(cè)到的對(duì)象的特征、使用文本標(biāo)注模型預(yù)測(cè)每個(gè)對(duì)象的類別和屬性等功能。框架使用yolo算法進(jìn)行圖片模態(tài)目標(biāo)檢測(cè)識(shí)別，識(shí)別結(jié)果為json格式傳輸?shù)綌?shù)據(jù)庫，標(biāo)注模型進(jìn)行在前端的顯示；文本模態(tài)直接通過深度學(xué)習(xí)模型進(jìn)行抽取標(biāo)注實(shí)體，同樣保存json格式數(shù)據(jù)。

22、一種服務(wù)器，其特征在于，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被配置為由所述處理器執(zhí)行，所述計(jì)算機(jī)程序包括用于執(zhí)行上述方法中各步驟的指令。

23、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。

24、本發(fā)明分為四個(gè)模塊，多模態(tài)標(biāo)注模塊、模型訓(xùn)練模塊、智能標(biāo)注模塊和標(biāo)注回顯模塊。附圖1展示了多模態(tài)標(biāo)注方法的模塊。

25、多模態(tài)標(biāo)注模塊是使用各種標(biāo)注方法對(duì)內(nèi)容進(jìn)行標(biāo)注，對(duì)文字、表格和圖片等進(jìn)行標(biāo)注，定位其位置和信息，并對(duì)標(biāo)注信息進(jìn)行數(shù)據(jù)存儲(chǔ)。模型訓(xùn)練模塊是根據(jù)數(shù)據(jù)庫標(biāo)注的數(shù)據(jù)進(jìn)行模型的訓(xùn)練，對(duì)模型的參數(shù)進(jìn)行學(xué)習(xí)和調(diào)優(yōu)。智能標(biāo)注模塊是應(yīng)用已訓(xùn)練好的模型對(duì)未標(biāo)注的文件進(jìn)行自動(dòng)標(biāo)注，把標(biāo)注結(jié)果存儲(chǔ)到數(shù)據(jù)庫中。標(biāo)注回顯模塊基于模型輸出結(jié)果在文檔相應(yīng)位置顯示標(biāo)注結(jié)果。

26、下面對(duì)本發(fā)明的四個(gè)模塊進(jìn)行詳細(xì)的說明。

27、一、多模態(tài)標(biāo)注模塊

28、多模態(tài)標(biāo)注模塊需要完成對(duì)文檔中各種數(shù)據(jù)格式的標(biāo)注，對(duì)于不同的數(shù)據(jù)類型應(yīng)進(jìn)行區(qū)分。首先進(jìn)行數(shù)據(jù)收集，對(duì)文檔內(nèi)容應(yīng)標(biāo)注的部分進(jìn)行詳細(xì)的說明。

29、定義標(biāo)注方案，確定標(biāo)注的類型和格式，文本標(biāo)注類型包括：分類，將文本分配到預(yù)定義的類別中。實(shí)體識(shí)別：識(shí)別文本中特定類型的實(shí)體，例如人名、地點(diǎn)或組織。關(guān)系抽?。鹤R(shí)別文本中實(shí)體之間的關(guān)系。然后使用標(biāo)注模塊對(duì)文本進(jìn)行標(biāo)注。對(duì)圖片以及其他形式的數(shù)據(jù)，標(biāo)注方案是類似的，但標(biāo)注的形式要相應(yīng)改變，圖片作為一種包含數(shù)字化數(shù)據(jù)的視覺媒介，并不能直接使用文字直觀表達(dá)出來。我們規(guī)定多模態(tài)標(biāo)注模塊使用坐標(biāo)選擇的方式進(jìn)行標(biāo)注，并可進(jìn)行與關(guān)系聯(lián)系起來。

30、分類標(biāo)注，是一種文本數(shù)據(jù)的標(biāo)注技術(shù)，是將文本數(shù)據(jù)分為不同的類別或標(biāo)簽，并為每個(gè)類別分配一個(gè)標(biāo)簽的過程。為每個(gè)文本數(shù)據(jù)分配相應(yīng)的類別標(biāo)簽，標(biāo)注者需要根據(jù)預(yù)先定義好的分類體系對(duì)文本進(jìn)行分類。分類標(biāo)注的保存通常相對(duì)簡(jiǎn)單，只需存儲(chǔ)文本內(nèi)容和文本標(biāo)簽，其他根據(jù)實(shí)際場(chǎng)景進(jìn)行增加。

31、邊界框標(biāo)注，是一種圖片標(biāo)注技術(shù)，涉及為圖片中的對(duì)象繪制矩形框，并指定對(duì)象的類別標(biāo)簽。是計(jì)算機(jī)視覺中最常用的標(biāo)注類型之一，用于訓(xùn)練對(duì)象檢測(cè)和識(shí)別模型。使用標(biāo)注模塊中的選擇工具在圖片上繪制邊界框，為每個(gè)邊界框分配一個(gè)類別標(biāo)簽，表示對(duì)象所屬的類別。類別標(biāo)簽可以是預(yù)定義的，也可以是自定義的。將標(biāo)注保存為所需格式。

32、邊界框通常表示為一個(gè)四元組(x,y,w,h)，

33、其中：

34、x和y是邊界框左上角的坐標(biāo)；

35、w和h是邊界框的寬度和高度。

36、多邊形標(biāo)注，是一種圖片標(biāo)注技術(shù)，涉及使用多邊形形狀來勾勒出圖片中對(duì)象或區(qū)域的輪廓。它比邊界框標(biāo)注更精細(xì)，可以更準(zhǔn)確地表示對(duì)象的形狀。使用標(biāo)注模塊中的多邊形繪制工具在圖片上繪制邊界框，為每個(gè)邊界框分配一個(gè)類別標(biāo)簽，表示對(duì)象所屬的類別。多邊形可以用一組有序頂點(diǎn)來表示：

37、p＝[(x1,y1),(x2,y2),...,(xn,yn)]，

38、其中：

39、(xi,yi)是第i個(gè)頂點(diǎn)的坐標(biāo)；

40、n是多邊形的頂點(diǎn)數(shù)。

41、如上所述的各類數(shù)據(jù)的標(biāo)注，對(duì)原始數(shù)據(jù)文檔進(jìn)行標(biāo)注后，標(biāo)注數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中。數(shù)據(jù)庫負(fù)責(zé)管理和處理數(shù)據(jù)，包括存儲(chǔ)、檢索、更新和刪除等操作。數(shù)據(jù)庫自發(fā)的組織和索引數(shù)據(jù)，以實(shí)現(xiàn)快速高效的訪問。標(biāo)注數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫采用非關(guān)系型數(shù)據(jù)庫進(jìn)行存儲(chǔ)，每條數(shù)據(jù)采用json格式進(jìn)行存儲(chǔ)到數(shù)據(jù)庫中。json數(shù)據(jù)為鍵值對(duì)格式的數(shù)據(jù)，存儲(chǔ)到非關(guān)系型數(shù)據(jù)庫中會(huì)非常方便。同時(shí)，取出數(shù)據(jù)時(shí)轉(zhuǎn)化為json格式更方便下游模塊進(jìn)行使用和分析，對(duì)于模型的訓(xùn)練速度也有很大的提升。

42、附圖2展示了多模態(tài)標(biāo)注模塊的架構(gòu)。

43、二、模型訓(xùn)練模塊

44、為了處理圖像和文本數(shù)據(jù)的多模態(tài)輸入，我們可以設(shè)計(jì)一個(gè)聯(lián)合的深度學(xué)習(xí)模型，其中包含兩個(gè)分支：圖像處理分支和文本處理分支。這兩個(gè)分支分別負(fù)責(zé)處理圖像和文本數(shù)據(jù)，并在后續(xù)的層中將它們的特征進(jìn)行融合，以實(shí)現(xiàn)聯(lián)合的多模態(tài)處理。

45、1.圖像處理分支

46、圖像特征提取器：使用卷積神經(jīng)網(wǎng)絡(luò)作為圖像處理分支的基礎(chǔ)模型，用于提取圖像數(shù)據(jù)的特征。池化層：將卷積層輸出的特征圖進(jìn)行池化操作，減少特征維度并提高模型的魯棒性。全連接層：將池化層的輸出連接到一個(gè)或多個(gè)全連接層，用于學(xué)習(xí)更高級(jí)別的圖像特征表示。

47、2.文本處理分支

48、詞嵌入層：將文本數(shù)據(jù)表示為詞嵌入向量，使用預(yù)訓(xùn)練的詞嵌入模型或通過訓(xùn)練自己的詞嵌入模型。循環(huán)神經(jīng)網(wǎng)絡(luò)：使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)詞嵌入向量序列進(jìn)行處理，捕捉文本數(shù)據(jù)的語義信息。池化層或全局平均池化：對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行池化操作，得到文本數(shù)據(jù)的固定長(zhǎng)度的表示。

49、3.多模態(tài)融合

50、特征融合層：將圖像處理分支和文本處理分支的特征進(jìn)行融合，使用拼接、相加、加權(quán)平均等方式。全連接層：將融合后的特征輸入到全連接層，用于學(xué)習(xí)多模態(tài)特征的聯(lián)合表示。

51、模型訓(xùn)練與優(yōu)化方式，使用帶有圖像和文本數(shù)據(jù)標(biāo)注的訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練，采用損失函數(shù)和優(yōu)化器進(jìn)行參數(shù)優(yōu)化。通過驗(yàn)證集對(duì)模型進(jìn)行驗(yàn)證和調(diào)優(yōu)，防止過擬合并提高模型的泛化能力。此模型可以同時(shí)處理圖像和文本數(shù)據(jù)，并將它們的特征進(jìn)行有效融合，從而實(shí)現(xiàn)多模態(tài)輸入的處理和聯(lián)合學(xué)習(xí)。

52、附圖3為模型訓(xùn)練模塊的整體架構(gòu)。

53、三、智能標(biāo)注模塊

54、智能標(biāo)注模塊對(duì)需要標(biāo)注的文檔中的文字、圖片等信息進(jìn)行智能標(biāo)注，在結(jié)合多模態(tài)標(biāo)注模塊的基礎(chǔ)上，使用訓(xùn)練完成的智能模型進(jìn)行自動(dòng)化標(biāo)注。智能標(biāo)注的質(zhì)量取決于模型的準(zhǔn)確率，在標(biāo)注結(jié)束后，可以人工進(jìn)行查看標(biāo)注結(jié)果，并對(duì)其進(jìn)行修改。

55、根據(jù)模型進(jìn)行多模態(tài)標(biāo)注，標(biāo)注得到的實(shí)體信息和關(guān)系信息使用統(tǒng)一的格式放入數(shù)據(jù)庫中并在文檔進(jìn)行顯示，并根據(jù)預(yù)先定義的知識(shí)本體進(jìn)行標(biāo)注篩選，以實(shí)現(xiàn)方便使用者使用的自動(dòng)標(biāo)注工具。

56、此模塊可以自動(dòng)創(chuàng)建標(biāo)注實(shí)體和關(guān)系信息，也可通過人工進(jìn)行對(duì)模塊處理后缺乏的實(shí)體和關(guān)系信息進(jìn)行添加，對(duì)于標(biāo)注完成后未使用的標(biāo)注實(shí)體和關(guān)系信息，可以通過人工的方式進(jìn)行刪除。

57、文本信息標(biāo)注，使用word2vec模型對(duì)定義的實(shí)體名和關(guān)系名向量化，基于向量的余弦相似度計(jì)算每一個(gè)名稱(包括實(shí)體名和關(guān)系名)對(duì)應(yīng)的智能標(biāo)注模型中標(biāo)出的實(shí)體和關(guān)系類別。選擇的實(shí)體和關(guān)系名稱進(jìn)行智能標(biāo)注模型輸出篩選。智能標(biāo)注模塊模型的輸出結(jié)果為實(shí)體字典和關(guān)系字典，根據(jù)字典中的類別名稱篩選出標(biāo)注項(xiàng)目需要的類別。生成標(biāo)注，將文本內(nèi)容的標(biāo)注或描述輸出給用戶，以輔助用戶理解文本內(nèi)容或進(jìn)行相關(guān)應(yīng)用。

58、多媒體信息標(biāo)注，涉及圖像、視頻、音頻、文本等不同類型的數(shù)據(jù)，使用常見的多媒體信息轉(zhuǎn)換模型。首先將圖像轉(zhuǎn)換為文本，使用圖像到文本的轉(zhuǎn)換模型將圖像中的內(nèi)容轉(zhuǎn)換成文字描述用于輔助圖片內(nèi)容識(shí)別，其次使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合，使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型，將圖像輸入網(wǎng)絡(luò)中，將圖像轉(zhuǎn)化為數(shù)字特征，提取圖像的隱含特征。將卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征作為循環(huán)神經(jīng)網(wǎng)絡(luò)的初始隱藏狀態(tài)，然后通過循環(huán)神經(jīng)網(wǎng)絡(luò)逐步生成文本序列。

59、附圖4為智能標(biāo)注模塊的整體架構(gòu)。

60、四、標(biāo)注回顯模塊

61、根據(jù)模型得到的實(shí)體信息和實(shí)體關(guān)系信息使用統(tǒng)一的格式放入數(shù)據(jù)庫中并在文檔上進(jìn)行回顯，并根據(jù)預(yù)先定義的知識(shí)本體進(jìn)行標(biāo)注篩選，實(shí)現(xiàn)方便使用者使用自動(dòng)標(biāo)注工具。此模塊在標(biāo)注過程中起到了及時(shí)反饋和確認(rèn)標(biāo)注結(jié)果的作用，以直觀的方式展示標(biāo)注結(jié)果，如在圖像上繪制邊界框、在文本中顯示標(biāo)注部分等，使用戶能夠清晰地看到標(biāo)注的內(nèi)容。

62、1.用戶在標(biāo)注工具中建立標(biāo)注項(xiàng)目本體和關(guān)系，包含標(biāo)注項(xiàng)目中需要標(biāo)注的實(shí)體類別和實(shí)體間的關(guān)系類別。

63、2.使用word2vec模型對(duì)用戶定義的實(shí)體名和關(guān)系名向量化，基于向量的余弦相似度計(jì)算每一個(gè)名稱對(duì)應(yīng)的智能標(biāo)注模型中標(biāo)出的實(shí)體和關(guān)系類別。

64、3.根據(jù)步驟2中選擇的實(shí)體和關(guān)系名稱進(jìn)行智能標(biāo)注模型輸出篩選。智能標(biāo)注模塊模型的輸出結(jié)果為實(shí)體字典和關(guān)系字典，根據(jù)字典中的類別名稱篩選出標(biāo)注項(xiàng)目需要的類別。

65、4.根據(jù)文檔的文字和文字坐標(biāo)信息字典進(jìn)行定位，將篩選出的實(shí)體和關(guān)系定位到文檔上的坐標(biāo)。

66、5.在原始文檔上建立一個(gè)智能標(biāo)注層，根據(jù)坐標(biāo)構(gòu)建標(biāo)注框，標(biāo)注出實(shí)體類別和關(guān)系類別。

67、附圖5為標(biāo)注回顯模塊的整體架構(gòu)。

68、與現(xiàn)有技術(shù)相比，本發(fā)明的積極效果為：

69、本發(fā)明通過深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)了自動(dòng)化標(biāo)注，相比于傳統(tǒng)的標(biāo)注方法，本發(fā)明的系統(tǒng)和方法具有標(biāo)注效率高、準(zhǔn)確性高的優(yōu)點(diǎn)，可以廣泛應(yīng)用于文本標(biāo)注、圖像標(biāo)注、知識(shí)圖譜構(gòu)建等領(lǐng)域，為多模態(tài)數(shù)據(jù)的標(biāo)注提供了一種高效可靠的解決方案。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：宋東澤,崔強(qiáng),王露笛,崔文娟,杜一
技術(shù)所有人：中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于深度學(xué)習(xí)的多模態(tài)標(biāo)注方法