一種基于群智感知的多模態(tài)數(shù)據(jù)融合方法
【技術(shù)領(lǐng)域】:
[0001] 本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,涉及一種將異構(gòu)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合的方法,具體 涉及一種基于群智感知的多模態(tài)數(shù)據(jù)融合方法。 技術(shù)背景:
[0002] 隨著計(jì)算機(jī)及數(shù)碼電子產(chǎn)品的普及,以及互聯(lián)網(wǎng)的迅速發(fā)展,人們每天都可以接 觸到海量的多媒體信息。這些多媒體信息鋪天蓋地,不僅數(shù)量大而且冗余,哪些信息是人們 所需要的呢?是否可以采取相關(guān)技術(shù),從海量數(shù)據(jù)中挖掘出人們感興趣的相關(guān)信息?是否 可以使計(jì)算機(jī)如人的大腦一樣,通過(guò)觀察及學(xué)習(xí)來(lái)自動(dòng)識(shí)別,實(shí)現(xiàn)對(duì)多模態(tài)數(shù)據(jù)的語(yǔ)義理 解?類似需求已成為多媒體研究中急需要解決的問(wèn)題。
[0003] 在這些問(wèn)題中,由于多媒體語(yǔ)義可以從視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)等綜合角度表達(dá),但這些 多模態(tài)數(shù)據(jù)的維度、屬性、表現(xiàn)形式各不相同,如何建立模態(tài)間的對(duì)應(yīng)關(guān)系及關(guān)聯(lián)性成為 了核心難點(diǎn)之一。因此需要研究一種新的檢索方法,使得用戶可以提交某種單一模態(tài)樣例 (如可以是圖像、音頻、視頻、文本等多媒體文檔),在對(duì)其進(jìn)行分析并挖掘出其他模態(tài)的相 關(guān)信息后,返回其它模態(tài)的相關(guān)數(shù)據(jù),從而實(shí)現(xiàn)跨模態(tài)檢索。例如:用戶提交一幅老虎的圖 像,系統(tǒng)不僅可以返回與該圖像相似的老虎圖像,還可以返回該老虎的叫聲。這種檢索算 法可以實(shí)現(xiàn)模態(tài)間的靈活跨越,從而避免單純倚重一種模態(tài)而造成結(jié)果的局限性和不確定 性,擴(kuò)大了人們的檢索范圍和檢索方式。"這種可以實(shí)現(xiàn)不同類型的多媒體數(shù)據(jù)之間靈活跨 越的檢索方式稱為跨模態(tài)(跨媒體)檢索"。
[0004] 跨模態(tài)檢索這一問(wèn)題的提出,正是伴隨著多媒體技術(shù)的快速發(fā)展,媒體數(shù)據(jù)研究 類型已由單一的文檔模態(tài)發(fā)展到包含圖像、音頻、視頻等非結(jié)構(gòu)化或者半結(jié)構(gòu)化的多模態(tài) 表達(dá)方式。為了更好地表示不同類型的多媒體數(shù)據(jù)所包含的多媒體語(yǔ)義信息,因此需要采 用類似于人腦處理信息的方式,先把各種信息整合起來(lái),綜合分析而不是單純地倚重一種 模態(tài)信息,從而讓不同的信息相輔相成,提高結(jié)果的準(zhǔn)確性。
【發(fā)明內(nèi)容】
:
[0005] 針對(duì)以上問(wèn)題,本發(fā)明基于PLSA模型,提出了一種基于群智感知的多模態(tài)數(shù)據(jù)融 合方法。
[0006] 本發(fā)明所采用的技術(shù)方案是:一種基于群智感知的多模態(tài)數(shù)據(jù)融合方法,本方法 將獲取到的包括圖像數(shù)據(jù)和音頻數(shù)據(jù)的異構(gòu)數(shù)據(jù)視為文檔,圖像特征視為文檔中的視覺(jué)單 詞,音頻特征視為文檔中的聽(tīng)覺(jué)單詞;其特征在于,包括以下步驟:
[0007] 步驟1 :對(duì)異構(gòu)數(shù)據(jù)進(jìn)行預(yù)處理,其具體實(shí)現(xiàn)包括以下子步驟:
[0008] 步驟1. 1 :對(duì)圖像數(shù)據(jù)進(jìn)行預(yù)處理,生成視覺(jué)單詞;
[0009] 步驟1. 2 :對(duì)音頻數(shù)據(jù)進(jìn)行預(yù)處理,生成聽(tīng)覺(jué)單詞;
[0010] 步驟2 :對(duì)異構(gòu)數(shù)據(jù)進(jìn)行分類并根據(jù)來(lái)源位置與時(shí)間特征進(jìn)行關(guān)聯(lián);
[0011] 步驟3 :PLSA建模,挖掘文檔與視覺(jué)單詞、聽(tīng)覺(jué)單詞與關(guān)聯(lián)文檔之間不可見(jiàn)主題關(guān) 系,主題關(guān)系即是單詞元素(包括視覺(jué)單詞、聽(tīng)覺(jué)單詞)按照一定的主題來(lái)關(guān)聯(lián)文檔,解決 了文檔"一詞多義、一義多詞"的問(wèn)題;
[0012] 步驟4 :基于PLSA模型的異構(gòu)數(shù)據(jù)信息融合,采用不對(duì)稱學(xué)習(xí)方法和folding-in 方法來(lái)融合、學(xué)習(xí)視覺(jué)單詞和聽(tīng)覺(jué)單詞的語(yǔ)義信息,通過(guò)模型學(xué)習(xí)得到相應(yīng)的主題概率分 布后,求得圖像-音頻的相關(guān)度。
[0013] 作為優(yōu)選,步驟1. 1中所述的視覺(jué)單詞的生成方法是先提取圖像的視覺(jué)特征(如 Blobs、HS、SIFT等),然后采用K-means聚類算法量化圖像的視覺(jué)特征,進(jìn)而從聚類中心生 成視覺(jué)單詞。
[0014] 作為優(yōu)選,所述的聚類中心是從標(biāo)準(zhǔn)圖像庫(kù)中選取需要的圖片作為特征樣本數(shù) 據(jù),再?gòu)倪@些特征樣本數(shù)據(jù)中任意選擇K個(gè)特征樣本向量作為初始聚類中心,接著根據(jù)特 征樣本向量與聚類中心的歐式距離尋找特征樣本向量所屬的聚類中心,每一個(gè)聚類中心相 當(dāng)于一個(gè)離散的視覺(jué)單詞包。
[0015] 作為優(yōu)選,步驟1. 2中所述的聽(tīng)覺(jué)單詞的生成方法是提取音頻數(shù)據(jù)的MFCC特征, 并采用K-means聚類算法量化音頻的聽(tīng)覺(jué)特征,進(jìn)而從聚類中心生成聽(tīng)覺(jué)單詞。
[0016] 作為優(yōu)選,步驟2中所述的將獲取到的多模態(tài)數(shù)據(jù)進(jìn)行分類并根據(jù)來(lái)源位置與時(shí) 間特征進(jìn)行關(guān)聯(lián),其具體實(shí)現(xiàn)過(guò)程包括:
[0017] 步驟2. 1 :對(duì)多模態(tài)數(shù)據(jù)編號(hào),每個(gè)數(shù)據(jù)集擁有唯一編號(hào);
[0018] 步驟2. 2 :提取多模態(tài)數(shù)據(jù)的時(shí)間和位置特征;
[0019] 步驟2. 3 :將時(shí)間和位置特征打包形成標(biāo)簽,并和與之相關(guān)聯(lián)的多模態(tài)數(shù)據(jù)的編 號(hào)綁定,寫(xiě)入數(shù)據(jù)庫(kù),完成多模態(tài)數(shù)據(jù)關(guān)聯(lián)。
[0020] 作為優(yōu)選,步驟3中所述的PLSA建模涉及到三個(gè)概念:文檔document,單詞word, 主題topic,其中文檔和單詞是可見(jiàn)的,而主題則是引入用來(lái)關(guān)聯(lián)文檔和單詞的不可見(jiàn)變 量,文檔中的每個(gè)單詞元素xi是按照某一主題&來(lái)關(guān)聯(lián)某一文檔di的。
[0021] 本發(fā)明的有益效果為:
[0022] 1.可以避免特征在量化過(guò)程中丟失信息;
[0023] 2.避免了模型在訓(xùn)練過(guò)程中參數(shù)隨著訓(xùn)練文檔數(shù)目的增加而線性遞增,導(dǎo)致模型 過(guò)于龐大;
[0024] 3.緩解了高維特征數(shù)據(jù)帶來(lái)的空間復(fù)雜度過(guò)高的問(wèn)題。
【附圖說(shuō)明】:
[0025] 圖1 :本發(fā)明實(shí)施的流程圖;
[0026] 圖2 :本發(fā)明實(shí)施的PLSA模型示意圖;
[0027] 圖3 :本發(fā)明實(shí)施的新對(duì)象推導(dǎo)示意圖。
【具體實(shí)施方式】
[0028] 為了便于本領(lǐng)域普通技術(shù)人員理解和實(shí)施本發(fā)明,下面結(jié)合附圖及實(shí)施例對(duì)本發(fā) 明作進(jìn)一步的詳細(xì)描述,應(yīng)當(dāng)理解,此處所描述的實(shí)施示例僅用于說(shuō)明和解釋本發(fā)明,并不 用于限定本發(fā)明。
[0029] 本方法將獲取到的包括圖像數(shù)據(jù)和音頻數(shù)據(jù)的異構(gòu)數(shù)據(jù)視為文檔,圖像特征視為 文檔中的視覺(jué)單詞,音頻特征視為文檔中的聽(tīng)覺(jué)單詞。
[0030] 請(qǐng)見(jiàn)圖1,本發(fā)明提供的一種基于群智感知的多模態(tài)數(shù)據(jù)融合方法,包括以下步 驟:
[0031] 步驟1 :對(duì)異構(gòu)數(shù)據(jù)進(jìn)行預(yù)處理,其具體實(shí)現(xiàn)包括以下子步驟:
[0032] 步驟1. 1 :對(duì)圖像數(shù)據(jù)進(jìn)行預(yù)處理,生成視覺(jué)單詞;
[0033] -幅圖像的常用表示方法是在利用文檔作標(biāo)注的基礎(chǔ)上,采用視覺(jué)單詞來(lái)描述對(duì) 圖像內(nèi)容進(jìn)行刻畫(huà)。視覺(jué)單詞的生成一般是先提取圖像的視覺(jué)特征(如Blobs、HS、SIFT 等),然后采用K-means等聚類算法量化圖像的視覺(jué)特征,進(jìn)而從聚類中心生成視覺(jué)單詞。 其中聚類中心是從標(biāo)準(zhǔn)圖像庫(kù)中選取需要的圖片作為特征樣本數(shù)據(jù),再?gòu)倪@些特征樣本數(shù) 據(jù)中任意選擇個(gè)K個(gè)Xj維的特征樣本向量作為初始聚類中心{Cj|j= 1,…,K};例如可選 開(kāi)始的K個(gè)特征樣本向量作為初始聚類中心,接著根據(jù)特征向量與聚類中心的歐式距離尋 找特征向量所屬的聚類中心,每一個(gè)聚類中心相當(dāng)于一個(gè)離散的視覺(jué)單詞包。
[0034] 假設(shè)量化后的視覺(jué)特征向量個(gè)數(shù)為隊(duì)(視覺(jué)特征聚類中心個(gè)數(shù)),則圖像山被表示 成維數(shù)為隊(duì)維數(shù)值的集合,如式壹所示,其中n(di,sj)表示圖像di中視覺(jué)特征向量sj的 個(gè)數(shù),即每幅圖像都是由一系列屬于各個(gè)聚類中心特征向量的個(gè)數(shù)所組成的向量,即SWl):
[0035] S(di)= {n(di,sl),…,n(di,sj),…,n(di,sNj)}(式壹);
[0036] 步驟1. 2 :對(duì)音頻數(shù)據(jù)進(jìn)行預(yù)處理,生成聽(tīng)覺(jué)單詞;
[0037] 聽(tīng)覺(jué)單詞的生成方法是提取音頻數(shù)據(jù)的MFCC特征,并采用K-means聚類算法量化 音頻的聽(tīng)覺(jué)特征,進(jìn)而從聚類中心生成聽(tīng)覺(jué)單詞。
[0038] 聚類中心是從標(biāo)準(zhǔn)圖像庫(kù)中選取需要的圖片作為特征樣本數(shù)據(jù),再?gòu)倪@些特征樣 本數(shù)據(jù)中任意選擇K個(gè)特征樣本向量作為初始聚類中心,接著根據(jù)特征樣本向量與聚類中 心的歐式距離尋找特征樣本向量所屬的聚類中心,每一個(gè)聚類中心相當(dāng)于一個(gè)離散的視覺(jué) 單詞包。
[0039] 量化后的聽(tīng)覺(jué)特征向量個(gè)數(shù)為凡(聽(tīng)覺(jué)特征聚類中心個(gè)數(shù)),則音頻d,被表示成維 數(shù)為NA維數(shù)值的集合,如式威所示,其中n(di,mk)表示圖像di中視覺(jué)特征向量叫的個(gè)數(shù), 即每幅圖像都是由一系列屬于各個(gè)聚類中心特征向量的個(gè)數(shù)所組成的向量,即SWl)。