一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法

文檔序號(hào)：9922108閱讀：542來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及多媒體檢索領(lǐng)域，具體涉及一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法。
【背景技術(shù)】
[0002] 近年來(lái)，互聯(lián)網(wǎng)上的多媒體數(shù)據(jù)(如圖像、視頻、文本、音頻等)總量飛速增長(zhǎng)，已經(jīng) 成為大數(shù)據(jù)的主要內(nèi)容。面對(duì)快速增長(zhǎng)的媒體數(shù)量和豐富多樣的媒體種類(lèi)，用戶對(duì)多媒體數(shù)據(jù)的檢索需求越來(lái)越強(qiáng)烈。然而，現(xiàn)有的搜索引擎系統(tǒng)（如百度等)仍然主要基于文本關(guān) 鍵詞，通過(guò)對(duì)用戶輸入文本進(jìn)行匹配來(lái)實(shí)現(xiàn)檢索。另一方面，基于內(nèi)容的多媒體檢索能夠根據(jù)內(nèi)容的相似性進(jìn)行檢索，但局限在單媒體檢索上，即返回的檢索結(jié)果媒體類(lèi)型與用戶輸入的媒體類(lèi)型必須一致，從而限制了檢索的靈活性和全面性?？缑襟w檢索是指用戶以任意一種媒體類(lèi)型作為輸入，系統(tǒng)經(jīng)過(guò)檢索后返回所有媒體類(lèi)型的結(jié)果。如用戶輸入一幅圖片，不僅能夠返回內(nèi)容相關(guān)的圖片，還能夠得到相關(guān)文本、音頻、視頻等數(shù)據(jù)。
[0003] 相比較單媒體檢索，跨媒體檢索具有兩方面的優(yōu)勢(shì)：一方面能夠返回所有媒體的相關(guān)數(shù)據(jù)，增加了檢索的靈活性；另一方面多種媒體相互促進(jìn)，起到了降低噪聲的修正作用。
[0004] 現(xiàn)有的最常見(jiàn)的跨媒體檢索方法是基于統(tǒng)計(jì)分析的映射學(xué)習(xí)方法。其代表為典型相關(guān)分析(Canonical Correlation Analysis，簡(jiǎn)稱CCA) <XCA通過(guò)統(tǒng)計(jì)分析，學(xué)習(xí)得到能夠最大化兩組異構(gòu)數(shù)據(jù)關(guān)聯(lián)性的子空間，從而將兩種媒體的特征向量映射到統(tǒng)一空間中。CCA 被廣泛應(yīng)用于如視頻音源定位、視頻說(shuō)話人檢測(cè)等研究中。另一種相關(guān)方法是跨模態(tài)因子分析（Cross-modal Factor Analysis，簡(jiǎn)稱CFA)，由Li等人在文獻(xiàn)"Multimedia content processing through cross-modal association"中提出。該方法直接在映射后的空間中最小化兩組數(shù)據(jù)間的弗羅貝尼烏斯范數(shù)(Frobenius Norm)，也取得了較好的效果。
[0005] 為了利用已知的數(shù)據(jù)標(biāo)注信息，Rasiwasia等人在其文獻(xiàn)"A New Approach to Cross-Modal Multimedia Retrieval"中提出了高層語(yǔ)義映射方法:先對(duì)不同媒體數(shù)據(jù)進(jìn) 行CCA學(xué)習(xí)關(guān)聯(lián)，再在統(tǒng)一空間中使用邏輯回歸得到高層語(yǔ)義表示(相同維度的語(yǔ)義概念向量）。該方法在CCA的基礎(chǔ)上取得了一定的效果提升，但只利用了有標(biāo)注的信息，且無(wú)法同時(shí) 建模兩種以上媒體。另外，關(guān)聯(lián)學(xué)習(xí)和高層語(yǔ)義表示是兩個(gè)獨(dú)立的步驟，無(wú)法同時(shí)考慮。針對(duì)這些問(wèn)題，Zhai等人在文南犬"Learning Cross-Media Joint Representation with Sparse and Semi-Supervised Regularization"中提出了一種基于稀疏和半監(jiān)督規(guī)約的跨媒體檢索方法，同時(shí)進(jìn)行關(guān)聯(lián)學(xué)習(xí)和語(yǔ)義抽象。該方法在一個(gè)統(tǒng)一的框架中對(duì)不同媒體的數(shù)據(jù)使用半監(jiān)督圖規(guī)約方法，且加入稀疏規(guī)約項(xiàng)，從而能夠利用無(wú)監(jiān)督的數(shù)據(jù)取得更好的效果。另外，該方法也能夠同時(shí)建模兩種以上媒體。但是，它對(duì)于不同媒體分別建圖，不能同時(shí)有效考慮所有媒體的關(guān)聯(lián)信息，從而在信息的全面性上有所欠缺。

【發(fā)明內(nèi)容】

[0006] 針對(duì)現(xiàn)有技術(shù)的不足，本發(fā)明提出了一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法，能夠在映射后的統(tǒng)一空間中，同時(shí)將所有媒體建模在同一個(gè)超圖中，從而使得模型具有全面分析跨媒體關(guān)聯(lián)的能力。該方法同時(shí)學(xué)習(xí)不同媒體的統(tǒng)一特征表示映射矩陣，且利用超圖表達(dá)復(fù)雜關(guān)聯(lián)的能力，使得模型的信息更加完整，提高了跨媒體檢索的準(zhǔn)確率。
[0007] 為達(dá)到以上目的，本發(fā)明采用的技術(shù)方案如下：
[0008] 一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法，用于同時(shí)學(xué)習(xí)不同媒體的統(tǒng)一空間映射，進(jìn)而得到不同媒體的統(tǒng)一特征表示，實(shí)現(xiàn)跨媒體檢索，包括以下步驟：
[0009] (1)建立包含多種媒體類(lèi)型的跨媒體數(shù)據(jù)集，提取每種媒體類(lèi)型數(shù)據(jù)的特征向量；
[0010] (2)通過(guò)跨媒體數(shù)據(jù)集，同時(shí)為所有媒體類(lèi)型學(xué)習(xí)得到統(tǒng)一特征表示映射矩陣；
[0011] (3)根據(jù)映射矩陣，將不同媒體類(lèi)型映射到統(tǒng)一空間，在統(tǒng)一空間中計(jì)算媒體數(shù)據(jù) 間的相似性；
[0012] (4)進(jìn)行跨媒體檢索時(shí)，以任意一種媒體類(lèi)型作為查詢，按照步驟(3)計(jì)算其與作為查詢目標(biāo)的媒體類(lèi)型數(shù)據(jù)的相似性，并根據(jù)相似性從大到小排序，最終輸出檢索結(jié)果。
[0013] 進(jìn)一步，上述一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法，所述步驟（1)中的多媒體類(lèi)型為五種媒體類(lèi)型，包括:文本、圖像、視頻、音頻和3D模型。
[0014] 進(jìn)一步，上述一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法，所述步驟（1)中的特征向量具體為:文本數(shù)據(jù)是提取隱狄雷克雷分布特征向量;圖像數(shù)據(jù)是提取詞袋特征向量；視頻數(shù)據(jù)是提取關(guān)鍵幀后，對(duì)關(guān)鍵幀提取詞袋特征向量;音頻數(shù)據(jù)是提取其梅爾頻率倒譜系數(shù)特征向量;3D數(shù)據(jù)是提取其光場(chǎng)特征向量。
[0015] 進(jìn)一步，上述一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法，所述步驟(2)中的映射矩陣學(xué)習(xí)過(guò)程，通過(guò)在一個(gè)關(guān)聯(lián)超圖中建模所有媒體的數(shù)據(jù)(包括標(biāo)注數(shù)據(jù)和未標(biāo)注數(shù) 據(jù)），能夠同時(shí)考慮所有媒體之間的關(guān)聯(lián)關(guān)系，使得學(xué)習(xí)得到的映射矩陣能夠全面地利用媒體類(lèi)型之間、媒體類(lèi)型內(nèi)部的數(shù)據(jù)關(guān)聯(lián)關(guān)系。另外，該方法考慮到了映射矩陣的稀疏性，對(duì) 數(shù)據(jù)噪聲有抑制作用。
[0016] 進(jìn)一步，上述一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法，所述步驟(3)的相似性定義為兩個(gè)媒體數(shù)據(jù)屬于同一語(yǔ)義類(lèi)別的概率。
[0017] 進(jìn)一步，上述一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法，所述步驟(4)的跨媒體檢索是指，使用一種媒體類(lèi)型的數(shù)據(jù)作為查詢，返回另一種媒體類(lèi)型的相關(guān)結(jié)果。步驟 (2)中的學(xué)習(xí)過(guò)程同時(shí)學(xué)習(xí)對(duì)于所有媒體的映射矩陣，但一次檢索只在兩種媒體間進(jìn)行。該步驟計(jì)算得到所述相似性后，根據(jù)相似性從大到小排序，最終輸出檢索結(jié)果。
[0018] 本發(fā)明的效果在于:與現(xiàn)有方法相比，本方法能夠通過(guò)構(gòu)建跨媒體統(tǒng)一關(guān)聯(lián)超圖，充分考慮了媒體類(lèi)型之間、媒體類(lèi)型內(nèi)部的關(guān)聯(lián)關(guān)系，同時(shí)學(xué)習(xí)所有媒體的統(tǒng)一特征表示映射矩陣，進(jìn)而得到多種媒體類(lèi)型的更加精確的統(tǒng)一特征表示。通過(guò)綜合考慮不同媒體的信息及其關(guān)聯(lián)，兼顧統(tǒng)一特征表示的稀疏性，進(jìn)一步提高了統(tǒng)一特征表示的有效性，提高了跨媒體檢索的準(zhǔn)確率。
[0019]本方法之所以具有上述發(fā)明效果，其原因在于:在建模過(guò)程中以跨媒體統(tǒng)一關(guān)聯(lián) 超圖為中心。一方面，將所有媒體類(lèi)型數(shù)據(jù)統(tǒng)一建模在一張超圖中（而不是對(duì)不同媒體類(lèi)型分別建圖），大大提高了建模的統(tǒng)一性與模型信息的全面性。另一方面，相比起普通圖，超圖表達(dá)復(fù)雜關(guān)聯(lián)結(jié)構(gòu)的能力更強(qiáng)，能夠起到更好地描述跨媒體關(guān)聯(lián)的作用，進(jìn)一步提高了該方法關(guān)聯(lián)學(xué)習(xí)及語(yǔ)義抽象的能力。通過(guò)上述一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法學(xué)習(xí)得到的統(tǒng)一特征表示，具有更高的有效性，從而提高了跨媒體檢索的準(zhǔn)確率。
【附圖說(shuō)明】
[0020] 圖1是本發(fā)明的基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法的流程示意圖。
[0021] 圖2是本發(fā)明的超圖構(gòu)建過(guò)程、統(tǒng)一特征表示學(xué)習(xí)過(guò)程的示意圖。
【具體實(shí)施方式】
[0022]下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述。
[0023] 本發(fā)明的一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法，其流程如圖1所示，包含以下步驟：
[0024] (1)建立包含多種媒體類(lèi)型的跨媒體數(shù)據(jù)集，并將所述數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集，提

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：彭宇新;黃鑫;
技術(shù)所有人：北京大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于統(tǒng)一關(guān)聯(lián)超圖規(guī)約的跨媒體檢索方法