本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,特別涉及一種用于多模態(tài)數(shù)據(jù)標(biāo)注的系統(tǒng)及方法,使用深度學(xué)習(xí)模型的目標(biāo)檢測(cè)算法,加快標(biāo)注人員在需標(biāo)注數(shù)據(jù)上進(jìn)行標(biāo)注的效率。
背景技術(shù):
1、多模態(tài)數(shù)據(jù)標(biāo)注是計(jì)算機(jī)視覺與數(shù)據(jù)科學(xué)領(lǐng)域的一個(gè)重要研究領(lǐng)域,它涉及為包含文本、圖像、音頻、視頻等多種類型信息的數(shù)據(jù)賦予語義標(biāo)簽、元數(shù)據(jù)或注釋。這些標(biāo)注使得計(jì)算機(jī)系統(tǒng)能夠理解和處理這些信息。多模態(tài)數(shù)據(jù)標(biāo)注的目標(biāo)是將數(shù)據(jù)與語義信息關(guān)聯(lián)起來,例如分類標(biāo)簽、描述性文本、情感情感極性等,以便于計(jì)算機(jī)系統(tǒng)更好地理解和分析這些數(shù)據(jù)。這種標(biāo)注通常由人工標(biāo)注員完成,他們根據(jù)數(shù)據(jù)的內(nèi)容和特點(diǎn),為數(shù)據(jù)添加適當(dāng)?shù)臉?biāo)簽和注釋,但是人工標(biāo)注會(huì)隨之帶來高成本、時(shí)間消耗、數(shù)據(jù)整合難度、一致性和標(biāo)準(zhǔn)化等問題。多模態(tài)數(shù)據(jù)標(biāo)注的重要性在于提高機(jī)器的理解能力。當(dāng)計(jì)算機(jī)系統(tǒng)能夠理解不同模態(tài)的數(shù)據(jù)時(shí),它們可以更好地處理和分析這些數(shù)據(jù),從而提高在各種應(yīng)用中的性能。
2、隨著數(shù)字化技術(shù)的快速發(fā)展,多模態(tài)數(shù)據(jù)的獲取和應(yīng)用已經(jīng)成為現(xiàn)實(shí)生活和各個(gè)行業(yè)中的常見情況。這些多模態(tài)數(shù)據(jù)通常包括圖像、文本等不同形式的信息,這些信息相互之間存在關(guān)聯(lián),綜合利用這些信息可以幫助實(shí)現(xiàn)更準(zhǔn)確和全面的數(shù)據(jù)分析、識(shí)別和應(yīng)用。然而,多模態(tài)數(shù)據(jù)的標(biāo)注工作卻面臨著諸多挑戰(zhàn)。傳統(tǒng)的標(biāo)注方法通常需要大量的人力投入,且標(biāo)注過程中容易出現(xiàn)主觀誤差,標(biāo)注效率和準(zhǔn)確性難以保證。另外,不同模態(tài)數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)性也增加了標(biāo)注任務(wù)的復(fù)雜性。
3、現(xiàn)有的技術(shù)往往采用人工標(biāo)注的方式,即便在一定程度上利用了自動(dòng)化標(biāo)注工具,但仍然存在標(biāo)注效率低、準(zhǔn)確性差等問題。因此,迫切需要一種能夠高效、準(zhǔn)確地完成多模態(tài)數(shù)據(jù)標(biāo)注的方法和系統(tǒng)。提供一種自動(dòng)化、高效、準(zhǔn)確的多模態(tài)數(shù)據(jù)標(biāo)注系統(tǒng)及方法成為一項(xiàng)迫切需要完成的任務(wù),以應(yīng)對(duì)日益增長(zhǎng)的多模態(tài)數(shù)據(jù)標(biāo)注需求,推動(dòng)多模態(tài)數(shù)據(jù)在各領(lǐng)域的應(yīng)用和發(fā)展。
4、公開號(hào)cn113535949a的專利公開了提供了一種基于圖片和句子的多模態(tài)聯(lián)合事件檢測(cè)方法。同時(shí)從圖片和句子中識(shí)別事件,可以利用現(xiàn)有的單模態(tài)數(shù)據(jù)集分別學(xué)習(xí)圖片和文本事件分類器;另一方面利用已有的圖片與標(biāo)題對(duì)訓(xùn)練圖片句子匹配模塊,找出多模態(tài)文章中語義相似度最高的圖片和句子,從而獲取圖片實(shí)體和單詞在公共空間的特征表示。最后,利用少量的多模態(tài)標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行測(cè)試,利用共享事件分類器分別獲取圖片和句子描述的事件及其類型。
5、公開號(hào)cn115311512a的專利公開了一種數(shù)據(jù)標(biāo)注方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。將待標(biāo)注數(shù)據(jù)集輸入預(yù)設(shè)的自動(dòng)標(biāo)注模型,得到第一數(shù)據(jù)集;將第一數(shù)據(jù)集中相同幀的標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注之間的融合補(bǔ)全,得到第二數(shù)據(jù)集;確定第二數(shù)據(jù)集中存在冗余標(biāo)注的標(biāo)注數(shù)據(jù),并根據(jù)存在冗余標(biāo)注的標(biāo)注數(shù)據(jù)對(duì)第二數(shù)據(jù)集進(jìn)行交叉驗(yàn)證整合,得到補(bǔ)全數(shù)據(jù)集。通過采集器獲取點(diǎn)云和圖像數(shù)據(jù),使用多模態(tài)標(biāo)注交叉驗(yàn)證并豐富語義信息,并將多模態(tài)標(biāo)注融合。
6、公開號(hào)cn115937738a的專利公開了視頻標(biāo)注模型的訓(xùn)練方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。其方法包括:獲取視頻數(shù)據(jù),在所述視頻數(shù)據(jù)中提取關(guān)鍵幀;對(duì)幀進(jìn)行特征提取,得到幀在不同模態(tài)下的特征數(shù)據(jù);基于不同模態(tài)下的特征數(shù)據(jù),構(gòu)建不同模態(tài)對(duì)應(yīng)的子圖;基于圖神經(jīng)網(wǎng)絡(luò),對(duì)不同模態(tài)對(duì)應(yīng)的子圖執(zhí)行聚合操作,得到目標(biāo)圖;基于目標(biāo)圖,獲取圖神經(jīng)網(wǎng)絡(luò)對(duì)關(guān)鍵幀進(jìn)行視頻標(biāo)注的預(yù)測(cè)標(biāo)注結(jié)果;基于預(yù)測(cè)標(biāo)注結(jié)果和關(guān)鍵幀的實(shí)際標(biāo)注結(jié)果,訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)直至收斂,得到視頻標(biāo)注模型。
7、綜合目前存在的多模態(tài)標(biāo)注工具,智能模型發(fā)展較為緩慢,多數(shù)工具只能進(jìn)行文字、圖片或者視頻單一文件進(jìn)行標(biāo)注,對(duì)文件的處理過程也很復(fù)雜,標(biāo)注的形式也很單一,不能添加標(biāo)注標(biāo)簽的關(guān)系等方面的信息。標(biāo)注效率也是一個(gè)工具的重要評(píng)價(jià)指標(biāo),現(xiàn)存的工具對(duì)智能標(biāo)注的發(fā)展也是相對(duì)有限的,加入深度學(xué)習(xí)模型可以在很大程度上進(jìn)行自動(dòng)化標(biāo)注、提高準(zhǔn)確性、進(jìn)行多模態(tài)融合、加強(qiáng)實(shí)時(shí)性與適應(yīng)性。
8、不同的文件內(nèi)容,如文本和圖片在進(jìn)行標(biāo)注時(shí)要求完全不同,標(biāo)注模型需要針對(duì)不同的內(nèi)容進(jìn)行專門的訓(xùn)練?;诖爽F(xiàn)狀,本發(fā)明提供一種基于深度學(xué)習(xí)的多模態(tài)標(biāo)注方法,能直接在多種形式的數(shù)據(jù)上進(jìn)行多模態(tài)信息標(biāo)注,訓(xùn)練模型,優(yōu)化模型,對(duì)標(biāo)注的信息進(jìn)行實(shí)時(shí)回顯。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述問題,本發(fā)明提供一種基于深度學(xué)習(xí)的多模態(tài)標(biāo)注方法。本發(fā)明利用深度學(xué)習(xí)技術(shù),針對(duì)包含圖像、文本等多種模態(tài)的數(shù)據(jù)進(jìn)行高效準(zhǔn)確的標(biāo)注。
2、本發(fā)明的技術(shù)方案為:
3、一種基于深度學(xué)習(xí)的多模態(tài)標(biāo)注方法,其步驟包括:
4、1)利用多模態(tài)標(biāo)注模塊進(jìn)行數(shù)據(jù)內(nèi)容的標(biāo)注:
5、11)標(biāo)注任務(wù)定義,明確定義標(biāo)注任務(wù)的具體內(nèi)容和標(biāo)準(zhǔn),確定需要標(biāo)注的數(shù)據(jù)類型、標(biāo)簽體系等,確保標(biāo)注人員理解標(biāo)注任務(wù)的要求;
6、12)標(biāo)注形式選擇,選擇合適的多模態(tài)標(biāo)注形式,確保標(biāo)注的形式能夠滿足標(biāo)注任務(wù)的需求。
7、13)標(biāo)注結(jié)果整合,將標(biāo)注結(jié)果整合到統(tǒng)一的數(shù)據(jù)集中,確保數(shù)據(jù)的組織和格式符合后續(xù)任務(wù)的需求。
8、2)利用深度學(xué)習(xí)模型對(duì)標(biāo)注出的內(nèi)容進(jìn)行學(xué)習(xí):
9、21)收集標(biāo)注好的數(shù)據(jù)集,包括輸入數(shù)據(jù)和對(duì)應(yīng)的標(biāo)注信息。確保數(shù)據(jù)集的質(zhì)量和標(biāo)注準(zhǔn)確性對(duì)于深度學(xué)習(xí)模型的訓(xùn)練至關(guān)重要;
10、22)選擇合適的深度學(xué)習(xí)模型,根據(jù)公開數(shù)據(jù)集arxiv?dataset的特點(diǎn)和標(biāo)注任務(wù)的復(fù)雜性來確定模型的結(jié)構(gòu)和參數(shù),arxiv?dataset數(shù)據(jù)集是一個(gè)包含170萬篇文章的資料庫,其中包含文章標(biāo)題、作者、類別、摘要、pdf全文等相關(guān)特征,數(shù)據(jù)以json格式存儲(chǔ);
11、23)使用準(zhǔn)備好的數(shù)據(jù)集對(duì)深度學(xué)習(xí)模型進(jìn)行訓(xùn)練。在訓(xùn)練過程中,通過反向傳播算法和優(yōu)化器來調(diào)整模型的權(quán)重和參數(shù),使模型逐漸學(xué)習(xí)到標(biāo)注內(nèi)容的特征和規(guī)律,為了提高模型在處理多模態(tài)數(shù)據(jù)時(shí)對(duì)標(biāo)注內(nèi)容的學(xué)習(xí)能力,對(duì)損失函數(shù)進(jìn)行改進(jìn),使其能夠更好地捕捉各模態(tài)之間的關(guān)系和特征,本發(fā)明使用了加權(quán)融合的多模態(tài)損失函數(shù):
12、l=α·ltext+β·limg+γ·lfusion
13、其中,ltext是針對(duì)文本模態(tài)的損失,limg是圖像數(shù)據(jù)的損失,lfusion是模態(tài)融合的損失,α、β、γ是不同的權(quán)重系數(shù)。
14、24)利用驗(yàn)證數(shù)據(jù)集對(duì)訓(xùn)練好的模型進(jìn)行驗(yàn)證,評(píng)估模型的性能和泛化能力,根據(jù)驗(yàn)證結(jié)果進(jìn)行模型的調(diào)優(yōu),以提高模型的性能;
15、25)將訓(xùn)練好的深度學(xué)習(xí)模型應(yīng)用于新的未標(biāo)注數(shù)據(jù),進(jìn)行推理和預(yù)測(cè)。模型會(huì)根據(jù)輸入數(shù)據(jù)自動(dòng)進(jìn)行標(biāo)注或分類,生成相應(yīng)的輸出結(jié)果。
16、進(jìn)一步的,對(duì)于多模態(tài)數(shù)據(jù)形式的標(biāo)注,提供不同的標(biāo)注方式,如文本、圖像、音頻等,用不同的標(biāo)注方式進(jìn)行標(biāo)注,以人工標(biāo)注的方式構(gòu)建標(biāo)注數(shù)據(jù)集。
17、進(jìn)一步的,需要選擇適合的標(biāo)注工具,以本系統(tǒng)為標(biāo)注工具,進(jìn)行數(shù)據(jù)標(biāo)注,本系統(tǒng)提供了不同數(shù)據(jù)的標(biāo)注方法,如圖片類型,可以進(jìn)行目標(biāo)識(shí)別和分類、關(guān)鍵點(diǎn)標(biāo)注、圖像描述、區(qū)域標(biāo)注、屬性標(biāo)注。
18、進(jìn)一步的,深度學(xué)習(xí)模塊,對(duì)標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練、預(yù)測(cè)和評(píng)估,以及根據(jù)標(biāo)注人員對(duì)智能標(biāo)注識(shí)別的信息進(jìn)行修改所得更新數(shù)據(jù),對(duì)所述深度學(xué)習(xí)模型進(jìn)行增量訓(xùn)練。
19、進(jìn)一步的,收集標(biāo)注后的數(shù)據(jù)進(jìn)行存儲(chǔ),存儲(chǔ)到指定數(shù)據(jù)庫,用于下一步進(jìn)行模型的訓(xùn)練,存儲(chǔ)數(shù)據(jù)庫使用非關(guān)系型數(shù)據(jù)庫。
20、進(jìn)一步的,在收集好的數(shù)據(jù)集上使用yolo算法進(jìn)行預(yù)訓(xùn)練深度學(xué)習(xí)模型,對(duì)模型參數(shù)進(jìn)行訓(xùn)練和調(diào)優(yōu),使用yolo算法結(jié)合手動(dòng)標(biāo)注的標(biāo)簽相結(jié)合,以訓(xùn)練模型檢測(cè)圖像中的對(duì)象并識(shí)別它們的類別和屬性。
21、進(jìn)一步的,應(yīng)用訓(xùn)練完成的深度學(xué)習(xí)模型,整合yolo和標(biāo)注模型,融合yolo目標(biāo)檢測(cè)和標(biāo)注模型的多模態(tài)框架,將yolo和智能標(biāo)注模型整合到一個(gè)多模態(tài)標(biāo)注框架中,該框架可以用于對(duì)新的未標(biāo)注文件進(jìn)行多模態(tài)標(biāo)注,具有使用yolo模型檢測(cè)圖像中的對(duì)象、提取每個(gè)檢測(cè)到的對(duì)象的特征、使用文本標(biāo)注模型預(yù)測(cè)每個(gè)對(duì)象的類別和屬性等功能。框架使用yolo算法進(jìn)行圖片模態(tài)目標(biāo)檢測(cè)識(shí)別,識(shí)別結(jié)果為json格式傳輸?shù)綌?shù)據(jù)庫,標(biāo)注模型進(jìn)行在前端的顯示;文本模態(tài)直接通過深度學(xué)習(xí)模型進(jìn)行抽取標(biāo)注實(shí)體,同樣保存json格式數(shù)據(jù)。
22、一種服務(wù)器,其特征在于,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被配置為由所述處理器執(zhí)行,所述計(jì)算機(jī)程序包括用于執(zhí)行上述方法中各步驟的指令。
23、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。
24、本發(fā)明分為四個(gè)模塊,多模態(tài)標(biāo)注模塊、模型訓(xùn)練模塊、智能標(biāo)注模塊和標(biāo)注回顯模塊。附圖1展示了多模態(tài)標(biāo)注方法的模塊。
25、多模態(tài)標(biāo)注模塊是使用各種標(biāo)注方法對(duì)內(nèi)容進(jìn)行標(biāo)注,對(duì)文字、表格和圖片等進(jìn)行標(biāo)注,定位其位置和信息,并對(duì)標(biāo)注信息進(jìn)行數(shù)據(jù)存儲(chǔ)。模型訓(xùn)練模塊是根據(jù)數(shù)據(jù)庫標(biāo)注的數(shù)據(jù)進(jìn)行模型的訓(xùn)練,對(duì)模型的參數(shù)進(jìn)行學(xué)習(xí)和調(diào)優(yōu)。智能標(biāo)注模塊是應(yīng)用已訓(xùn)練好的模型對(duì)未標(biāo)注的文件進(jìn)行自動(dòng)標(biāo)注,把標(biāo)注結(jié)果存儲(chǔ)到數(shù)據(jù)庫中。標(biāo)注回顯模塊基于模型輸出結(jié)果在文檔相應(yīng)位置顯示標(biāo)注結(jié)果。
26、下面對(duì)本發(fā)明的四個(gè)模塊進(jìn)行詳細(xì)的說明。
27、一、多模態(tài)標(biāo)注模塊
28、多模態(tài)標(biāo)注模塊需要完成對(duì)文檔中各種數(shù)據(jù)格式的標(biāo)注,對(duì)于不同的數(shù)據(jù)類型應(yīng)進(jìn)行區(qū)分。首先進(jìn)行數(shù)據(jù)收集,對(duì)文檔內(nèi)容應(yīng)標(biāo)注的部分進(jìn)行詳細(xì)的說明。
29、定義標(biāo)注方案,確定標(biāo)注的類型和格式,文本標(biāo)注類型包括:分類,將文本分配到預(yù)定義的類別中。實(shí)體識(shí)別:識(shí)別文本中特定類型的實(shí)體,例如人名、地點(diǎn)或組織。關(guān)系抽?。鹤R(shí)別文本中實(shí)體之間的關(guān)系。然后使用標(biāo)注模塊對(duì)文本進(jìn)行標(biāo)注。對(duì)圖片以及其他形式的數(shù)據(jù),標(biāo)注方案是類似的,但標(biāo)注的形式要相應(yīng)改變,圖片作為一種包含數(shù)字化數(shù)據(jù)的視覺媒介,并不能直接使用文字直觀表達(dá)出來。我們規(guī)定多模態(tài)標(biāo)注模塊使用坐標(biāo)選擇的方式進(jìn)行標(biāo)注,并可進(jìn)行與關(guān)系聯(lián)系起來。
30、分類標(biāo)注,是一種文本數(shù)據(jù)的標(biāo)注技術(shù),是將文本數(shù)據(jù)分為不同的類別或標(biāo)簽,并為每個(gè)類別分配一個(gè)標(biāo)簽的過程。為每個(gè)文本數(shù)據(jù)分配相應(yīng)的類別標(biāo)簽,標(biāo)注者需要根據(jù)預(yù)先定義好的分類體系對(duì)文本進(jìn)行分類。分類標(biāo)注的保存通常相對(duì)簡(jiǎn)單,只需存儲(chǔ)文本內(nèi)容和文本標(biāo)簽,其他根據(jù)實(shí)際場(chǎng)景進(jìn)行增加。
31、邊界框標(biāo)注,是一種圖片標(biāo)注技術(shù),涉及為圖片中的對(duì)象繪制矩形框,并指定對(duì)象的類別標(biāo)簽。是計(jì)算機(jī)視覺中最常用的標(biāo)注類型之一,用于訓(xùn)練對(duì)象檢測(cè)和識(shí)別模型。使用標(biāo)注模塊中的選擇工具在圖片上繪制邊界框,為每個(gè)邊界框分配一個(gè)類別標(biāo)簽,表示對(duì)象所屬的類別。類別標(biāo)簽可以是預(yù)定義的,也可以是自定義的。將標(biāo)注保存為所需格式。
32、邊界框通常表示為一個(gè)四元組(x,y,w,h),
33、其中:
34、x和y是邊界框左上角的坐標(biāo);
35、w和h是邊界框的寬度和高度。
36、多邊形標(biāo)注,是一種圖片標(biāo)注技術(shù),涉及使用多邊形形狀來勾勒出圖片中對(duì)象或區(qū)域的輪廓。它比邊界框標(biāo)注更精細(xì),可以更準(zhǔn)確地表示對(duì)象的形狀。使用標(biāo)注模塊中的多邊形繪制工具在圖片上繪制邊界框,為每個(gè)邊界框分配一個(gè)類別標(biāo)簽,表示對(duì)象所屬的類別。多邊形可以用一組有序頂點(diǎn)來表示:
37、p=[(x1,y1),(x2,y2),...,(xn,yn)],
38、其中:
39、(xi,yi)是第i個(gè)頂點(diǎn)的坐標(biāo);
40、n是多邊形的頂點(diǎn)數(shù)。
41、如上所述的各類數(shù)據(jù)的標(biāo)注,對(duì)原始數(shù)據(jù)文檔進(jìn)行標(biāo)注后,標(biāo)注數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中。數(shù)據(jù)庫負(fù)責(zé)管理和處理數(shù)據(jù),包括存儲(chǔ)、檢索、更新和刪除等操作。數(shù)據(jù)庫自發(fā)的組織和索引數(shù)據(jù),以實(shí)現(xiàn)快速高效的訪問。標(biāo)注數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫采用非關(guān)系型數(shù)據(jù)庫進(jìn)行存儲(chǔ),每條數(shù)據(jù)采用json格式進(jìn)行存儲(chǔ)到數(shù)據(jù)庫中。json數(shù)據(jù)為鍵值對(duì)格式的數(shù)據(jù),存儲(chǔ)到非關(guān)系型數(shù)據(jù)庫中會(huì)非常方便。同時(shí),取出數(shù)據(jù)時(shí)轉(zhuǎn)化為json格式更方便下游模塊進(jìn)行使用和分析,對(duì)于模型的訓(xùn)練速度也有很大的提升。
42、附圖2展示了多模態(tài)標(biāo)注模塊的架構(gòu)。
43、二、模型訓(xùn)練模塊
44、為了處理圖像和文本數(shù)據(jù)的多模態(tài)輸入,我們可以設(shè)計(jì)一個(gè)聯(lián)合的深度學(xué)習(xí)模型,其中包含兩個(gè)分支:圖像處理分支和文本處理分支。這兩個(gè)分支分別負(fù)責(zé)處理圖像和文本數(shù)據(jù),并在后續(xù)的層中將它們的特征進(jìn)行融合,以實(shí)現(xiàn)聯(lián)合的多模態(tài)處理。
45、1.圖像處理分支
46、圖像特征提取器:使用卷積神經(jīng)網(wǎng)絡(luò)作為圖像處理分支的基礎(chǔ)模型,用于提取圖像數(shù)據(jù)的特征。池化層:將卷積層輸出的特征圖進(jìn)行池化操作,減少特征維度并提高模型的魯棒性。全連接層:將池化層的輸出連接到一個(gè)或多個(gè)全連接層,用于學(xué)習(xí)更高級(jí)別的圖像特征表示。
47、2.文本處理分支
48、詞嵌入層:將文本數(shù)據(jù)表示為詞嵌入向量,使用預(yù)訓(xùn)練的詞嵌入模型或通過訓(xùn)練自己的詞嵌入模型。循環(huán)神經(jīng)網(wǎng)絡(luò):使用循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)詞嵌入向量序列進(jìn)行處理,捕捉文本數(shù)據(jù)的語義信息。池化層或全局平均池化:對(duì)循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出進(jìn)行池化操作,得到文本數(shù)據(jù)的固定長(zhǎng)度的表示。
49、3.多模態(tài)融合
50、特征融合層:將圖像處理分支和文本處理分支的特征進(jìn)行融合,使用拼接、相加、加權(quán)平均等方式。全連接層:將融合后的特征輸入到全連接層,用于學(xué)習(xí)多模態(tài)特征的聯(lián)合表示。
51、模型訓(xùn)練與優(yōu)化方式,使用帶有圖像和文本數(shù)據(jù)標(biāo)注的訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,采用損失函數(shù)和優(yōu)化器進(jìn)行參數(shù)優(yōu)化。通過驗(yàn)證集對(duì)模型進(jìn)行驗(yàn)證和調(diào)優(yōu),防止過擬合并提高模型的泛化能力。此模型可以同時(shí)處理圖像和文本數(shù)據(jù),并將它們的特征進(jìn)行有效融合,從而實(shí)現(xiàn)多模態(tài)輸入的處理和聯(lián)合學(xué)習(xí)。
52、附圖3為模型訓(xùn)練模塊的整體架構(gòu)。
53、三、智能標(biāo)注模塊
54、智能標(biāo)注模塊對(duì)需要標(biāo)注的文檔中的文字、圖片等信息進(jìn)行智能標(biāo)注,在結(jié)合多模態(tài)標(biāo)注模塊的基礎(chǔ)上,使用訓(xùn)練完成的智能模型進(jìn)行自動(dòng)化標(biāo)注。智能標(biāo)注的質(zhì)量取決于模型的準(zhǔn)確率,在標(biāo)注結(jié)束后,可以人工進(jìn)行查看標(biāo)注結(jié)果,并對(duì)其進(jìn)行修改。
55、根據(jù)模型進(jìn)行多模態(tài)標(biāo)注,標(biāo)注得到的實(shí)體信息和關(guān)系信息使用統(tǒng)一的格式放入數(shù)據(jù)庫中并在文檔進(jìn)行顯示,并根據(jù)預(yù)先定義的知識(shí)本體進(jìn)行標(biāo)注篩選,以實(shí)現(xiàn)方便使用者使用的自動(dòng)標(biāo)注工具。
56、此模塊可以自動(dòng)創(chuàng)建標(biāo)注實(shí)體和關(guān)系信息,也可通過人工進(jìn)行對(duì)模塊處理后缺乏的實(shí)體和關(guān)系信息進(jìn)行添加,對(duì)于標(biāo)注完成后未使用的標(biāo)注實(shí)體和關(guān)系信息,可以通過人工的方式進(jìn)行刪除。
57、文本信息標(biāo)注,使用word2vec模型對(duì)定義的實(shí)體名和關(guān)系名向量化,基于向量的余弦相似度計(jì)算每一個(gè)名稱(包括實(shí)體名和關(guān)系名)對(duì)應(yīng)的智能標(biāo)注模型中標(biāo)出的實(shí)體和關(guān)系類別。選擇的實(shí)體和關(guān)系名稱進(jìn)行智能標(biāo)注模型輸出篩選。智能標(biāo)注模塊模型的輸出結(jié)果為實(shí)體字典和關(guān)系字典,根據(jù)字典中的類別名稱篩選出標(biāo)注項(xiàng)目需要的類別。生成標(biāo)注,將文本內(nèi)容的標(biāo)注或描述輸出給用戶,以輔助用戶理解文本內(nèi)容或進(jìn)行相關(guān)應(yīng)用。
58、多媒體信息標(biāo)注,涉及圖像、視頻、音頻、文本等不同類型的數(shù)據(jù),使用常見的多媒體信息轉(zhuǎn)換模型。首先將圖像轉(zhuǎn)換為文本,使用圖像到文本的轉(zhuǎn)換模型將圖像中的內(nèi)容轉(zhuǎn)換成文字描述用于輔助圖片內(nèi)容識(shí)別,其次使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合,使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,將圖像輸入網(wǎng)絡(luò)中,將圖像轉(zhuǎn)化為數(shù)字特征,提取圖像的隱含特征。將卷積神經(jīng)網(wǎng)絡(luò)提取的圖像特征作為循環(huán)神經(jīng)網(wǎng)絡(luò)的初始隱藏狀態(tài),然后通過循環(huán)神經(jīng)網(wǎng)絡(luò)逐步生成文本序列。
59、附圖4為智能標(biāo)注模塊的整體架構(gòu)。
60、四、標(biāo)注回顯模塊
61、根據(jù)模型得到的實(shí)體信息和實(shí)體關(guān)系信息使用統(tǒng)一的格式放入數(shù)據(jù)庫中并在文檔上進(jìn)行回顯,并根據(jù)預(yù)先定義的知識(shí)本體進(jìn)行標(biāo)注篩選,實(shí)現(xiàn)方便使用者使用自動(dòng)標(biāo)注工具。此模塊在標(biāo)注過程中起到了及時(shí)反饋和確認(rèn)標(biāo)注結(jié)果的作用,以直觀的方式展示標(biāo)注結(jié)果,如在圖像上繪制邊界框、在文本中顯示標(biāo)注部分等,使用戶能夠清晰地看到標(biāo)注的內(nèi)容。
62、1.用戶在標(biāo)注工具中建立標(biāo)注項(xiàng)目本體和關(guān)系,包含標(biāo)注項(xiàng)目中需要標(biāo)注的實(shí)體類別和實(shí)體間的關(guān)系類別。
63、2.使用word2vec模型對(duì)用戶定義的實(shí)體名和關(guān)系名向量化,基于向量的余弦相似度計(jì)算每一個(gè)名稱對(duì)應(yīng)的智能標(biāo)注模型中標(biāo)出的實(shí)體和關(guān)系類別。
64、3.根據(jù)步驟2中選擇的實(shí)體和關(guān)系名稱進(jìn)行智能標(biāo)注模型輸出篩選。智能標(biāo)注模塊模型的輸出結(jié)果為實(shí)體字典和關(guān)系字典,根據(jù)字典中的類別名稱篩選出標(biāo)注項(xiàng)目需要的類別。
65、4.根據(jù)文檔的文字和文字坐標(biāo)信息字典進(jìn)行定位,將篩選出的實(shí)體和關(guān)系定位到文檔上的坐標(biāo)。
66、5.在原始文檔上建立一個(gè)智能標(biāo)注層,根據(jù)坐標(biāo)構(gòu)建標(biāo)注框,標(biāo)注出實(shí)體類別和關(guān)系類別。
67、附圖5為標(biāo)注回顯模塊的整體架構(gòu)。
68、與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:
69、本發(fā)明通過深度學(xué)習(xí)技術(shù)實(shí)現(xiàn)了自動(dòng)化標(biāo)注,相比于傳統(tǒng)的標(biāo)注方法,本發(fā)明的系統(tǒng)和方法具有標(biāo)注效率高、準(zhǔn)確性高的優(yōu)點(diǎn),可以廣泛應(yīng)用于文本標(biāo)注、圖像標(biāo)注、知識(shí)圖譜構(gòu)建等領(lǐng)域,為多模態(tài)數(shù)據(jù)的標(biāo)注提供了一種高效可靠的解決方案。