一種基于選擇單元的主題建模方法
【專利摘要】本發(fā)明公開(kāi)了一種基于選擇單元的主題建模方法,包括如下步驟:根據(jù)查詢請(qǐng)求提取數(shù)據(jù)庫(kù)中的搜索結(jié)果包含的單詞、片段結(jié)構(gòu)和單詞特征;確定建模采用的主題數(shù);隨機(jī)分配產(chǎn)生各個(gè)片段結(jié)構(gòu)主題、單詞主題及二元選擇子;通過(guò)Gibbs采樣過(guò)程迭代地確定上述變量;根據(jù)上述變量的最終分配結(jié)果向用戶反饋各個(gè)主題中的顯著文檔和單詞,以及具有各種特征的單詞表達(dá)其所在片段結(jié)構(gòu)的主題的能力。本發(fā)明具有的有益效果有:可同時(shí)在多種模態(tài)數(shù)據(jù)上進(jìn)行主題建模;充分利用了數(shù)據(jù)隱含的結(jié)構(gòu)信息,并消除了結(jié)構(gòu)限制過(guò)強(qiáng)的不利效果;可提供文檔中單詞特征與片段結(jié)構(gòu)限制之間的關(guān)聯(lián)度等信息,為用戶在理解數(shù)據(jù)上提供幫助;具有良好的可擴(kuò)展性,可作為多種應(yīng)用的算法基礎(chǔ)。
【專利說(shuō)明】一種基于選擇單元的主題建模方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及多媒體檢索,尤其涉及一種基于選擇單元的主題建模方法。
【背景技術(shù)】
[0002]目前,隨著互聯(lián)網(wǎng)架構(gòu)、存儲(chǔ)科技及其他有關(guān)技術(shù)的發(fā)展,各種各樣模態(tài)的多媒體數(shù)據(jù),如新聞,圖片,以及聲音和視頻等越來(lái)越多。飛速增長(zhǎng)的多媒體數(shù)據(jù)除了給互聯(lián)網(wǎng)用戶更好的瀏覽體驗(yàn)和為多媒體檢索應(yīng)用提供了更多的樣本以外,也帶來(lái)了如何對(duì)大規(guī)模數(shù)據(jù)進(jìn)行自動(dòng)文檔聚類的挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn),許多多媒體檢索及整合應(yīng)用在其核心算法中使用了非監(jiān)督層次化貝葉斯模型(或稱主題模型),如LDA (隱狄利克雷分配,一種廣泛的傳統(tǒng)主題模型)及其擴(kuò)展等。從2003年被提出直至今日,LDA及其衍生模型已經(jīng)作為多種主題建模應(yīng)用的核心算法,被用于解決文檔摘要、跨數(shù)據(jù)集建模和文檔主題演化追蹤等多種問(wèn)題和挑戰(zhàn),并且在實(shí)際使用中發(fā)揮了良好的效果。和傳統(tǒng)的基于統(tǒng)計(jì)的一些文本歸納方法相比,主題模型在可觀測(cè)的文檔層和單詞層間增加了一個(gè)隱含的主題層,并認(rèn)為文檔是包含有一個(gè)或多個(gè)主題,而每個(gè)主題又是不同比例詞的組合。新增加的主題這一隱含層能使用戶更好地理解一篇文檔所涵蓋的內(nèi)容(相當(dāng)于為文檔加上了諸如“體育”、“社會(huì)”等一個(gè)或多個(gè)類別標(biāo)簽,而不是提供詞的頻數(shù)統(tǒng)計(jì)),而且在應(yīng)用處理海量數(shù)據(jù)時(shí)起到了降維的效果。主題模型最初被用于處理文本數(shù)據(jù),新聞報(bào)道和科學(xué)論文等;由于圖像數(shù)據(jù)和文本數(shù)據(jù)具有某種程度上的同質(zhì)性,因此在將圖像中的特征點(diǎn)處理為視覺(jué)單詞后,也可以使用主題建模方法對(duì)圖像數(shù)據(jù)進(jìn)行歸納整合,主題模型及以其作為核心算法的各類應(yīng)用也因此具有處理多種模態(tài)數(shù)據(jù)的能力。
[0003]LDA等經(jīng)典主題模型的一個(gè)核心假設(shè)是對(duì)文檔的BoW表達(dá)(詞袋表達(dá))。這種表達(dá)方式假設(shè)每篇文檔中詞與詞之間沒(méi)有關(guān)聯(lián),并且相互之間的位置可互換。BoW假設(shè)在數(shù)學(xué)上易于推導(dǎo),為主題模型帶來(lái)了計(jì)算上的方便和處理數(shù)據(jù)時(shí)的快捷。然而,這樣的假設(shè)實(shí)際上是過(guò)于簡(jiǎn)單的,因?yàn)槲臋n中的一些單詞(或圖片中的視覺(jué)單詞)受其外部的片段結(jié)構(gòu)(如文本中的句子或段落,以及圖片中的區(qū)域等)限制,是不能與所屬片段結(jié)構(gòu)之外的單詞相互交換的。作為對(duì)傳統(tǒng)主題建模方法的改進(jìn),一些應(yīng)用轉(zhuǎn)而采用較新提出的模型,如LDCC及Spatial-LTM等,開(kāi)始在對(duì)文本、圖像等離散型數(shù)據(jù)的歸納整合中將文檔與詞之間的片段結(jié)構(gòu)(如前文所述的語(yǔ)句或圖像區(qū)域等)作為對(duì)詞分配主題時(shí)的結(jié)構(gòu)限制而納入建模過(guò)程。然而,這些模型一般對(duì)(視覺(jué))單詞施加過(guò)強(qiáng)的結(jié)構(gòu)限制,認(rèn)為其必須服從于所屬片段結(jié)構(gòu)的主題,而不考慮該單詞表達(dá)其他主題或是噪聲的可能性。因此,根據(jù)(視覺(jué))單詞本身的特征對(duì)其選擇性地施加結(jié)構(gòu)限制,從而使整體算法以及采用算法的應(yīng)用能夠更加適應(yīng)現(xiàn)實(shí)中的多媒體數(shù)據(jù)是主題建模領(lǐng)域研究的新方向。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于選擇單元的主題建模方法。
[0005]基于選擇單元的主題建模方法包括如下步驟:[0006]1.根據(jù)用戶的查詢請(qǐng)求以及是要查詢文本數(shù)據(jù)或圖像數(shù)據(jù)提取多媒體數(shù)據(jù)庫(kù)中的搜索結(jié)果;
[0007]2.如果查詢請(qǐng)求是針對(duì)文本數(shù)據(jù)的,提取搜索到的文本數(shù)據(jù)中的單詞、片段結(jié)構(gòu)和單詞特征,如果查詢請(qǐng)求是針對(duì)圖像數(shù)據(jù)的,提取搜索到的圖像數(shù)據(jù)中的視覺(jué)單詞、片段結(jié)構(gòu)和視覺(jué)單詞特征;[0008]3.根據(jù)系統(tǒng)自動(dòng)設(shè)定或用戶指定的參數(shù),確定建模采用的主題數(shù)T ;
[0009]4.對(duì)于數(shù)據(jù)集包含的每個(gè)片段結(jié)構(gòu),隨機(jī)地分配T個(gè)主題中的一個(gè)作為片段結(jié)構(gòu)的主題;
[0010]5.對(duì)于數(shù)據(jù)集包含的每個(gè)單詞,隨機(jī)地分配T個(gè)主題中的一個(gè)作為單詞主題;
[0011]6.對(duì)于數(shù)據(jù)集包含的每個(gè)單詞,隨機(jī)地分配一個(gè)0-1 二元選擇子,選擇子用于指定每個(gè)單詞被分配到其所屬的片段結(jié)構(gòu)的主題或是其自身的主題上;
[0012]7.通過(guò)Gibbs采樣過(guò)程迭代地確定所有片段結(jié)構(gòu)主題、單詞主題以及選擇子;
[0013]8.根據(jù)片段結(jié)構(gòu)主題和單詞主題最終分配結(jié)果向用戶反饋各個(gè)主題最顯著的文檔或圖片以及最有代表性的單詞信息;
[0014]9.根據(jù)選擇子最終分配結(jié)果向用戶反饋具有各種特征的單詞表達(dá)它們所在片段結(jié)構(gòu)的主題的能力。
[0015]所述的提取文本數(shù)據(jù)中單詞、片段結(jié)構(gòu)和單詞特征的步驟如下:
[0016]1.采用自然語(yǔ)言處理工具對(duì)文檔進(jìn)行分句,以得到的語(yǔ)句作為文本數(shù)據(jù)的片段結(jié)構(gòu);
[0017]2.采用自然語(yǔ)言處理工具標(biāo)注每個(gè)詞的詞性,以得到的詞性標(biāo)注結(jié)構(gòu)作為各單詞的特征;
[0018]3.去除其中無(wú)用的高頻詞以及頻數(shù)過(guò)低的生僻詞;
[0019]4.統(tǒng)計(jì)處理后文本中所有出現(xiàn)過(guò)的詞,組成詞匯表。
[0020]所述的提取圖片數(shù)據(jù)中視覺(jué)單詞、片段結(jié)構(gòu)和視覺(jué)單詞特征的步驟如下:
[0021]1.使用OpenSIFT提取所有圖片的SIFT特征,構(gòu)成一個(gè)128維特征點(diǎn)的集合;
[0022]2.將特征點(diǎn)集合用K-means聚類得到一組視覺(jué)詞典,并將所有SIFT點(diǎn)按聚類結(jié)果替換為詞典中的視覺(jué)單詞;
[0023]3.采用圖像分割和人工標(biāo)注手段提取圖片中的物體邊界、顏色直方圖等屬性,并以物體邊界作為圖像中的片段結(jié)構(gòu);
[0024]4.對(duì)物體進(jìn)行聚類得到各視覺(jué)單詞所屬的類別標(biāo)簽,并以該類別標(biāo)簽作為視覺(jué)單詞的特征。
[0025]所述的通過(guò)Gibbs采樣過(guò)程迭代地確定所有片段結(jié)構(gòu)主題、單詞主題以及選擇子的步驟如下:
[0026]1.由系統(tǒng)自動(dòng)設(shè)定,或者由用戶指定Dirihlet分布的參數(shù)α與β,以及Beta分布參數(shù)Y,并且設(shè)定好迭代次數(shù)、收斂條件等參數(shù);
[0027]2.對(duì)于每個(gè)文檔d,統(tǒng)計(jì)各個(gè)主題k上的單詞主題數(shù)ndk與片段結(jié)構(gòu)主題數(shù)Idk ;
[0028]3.對(duì)于每個(gè)主題k,統(tǒng)計(jì)所有單詞中實(shí)際分配到其上的頻數(shù)nkv ;
[0029]4.對(duì)于帶有特征t的單詞,統(tǒng)計(jì)其對(duì)應(yīng)的二元選擇子為O或?yàn)镮的頻數(shù)Ctc^P Ctl ;
[0030]5.對(duì)于每個(gè)文檔d中的每個(gè)片段結(jié)構(gòu)1,統(tǒng)計(jì)其中各相同單詞V的集合中對(duì)應(yīng)二元選擇子的值為I的詞的數(shù)量Rdlv,以及它們之和Rdl ;
[0031]6.令所有單詞構(gòu)成向量W,所有單詞主題構(gòu)成向量z,所有片段結(jié)構(gòu)主題構(gòu)成向量s,所有二元選擇子構(gòu)成向量π,所有單詞特征構(gòu)成向量t,記上述向量合并為Φ,記α、β和Y合并為Ψ,并設(shè)ak、@v、Yb分別為α、β和Y的第k、V、b個(gè)分量,采樣文檔d的片段結(jié)構(gòu)I中第i個(gè)單詞主題Zdli,其所有可能值的概率如下:
【權(quán)利要求】
1.一種基于選擇單元的主題建模方法,其特征在于包括如下步驟: 1)根據(jù)用戶的查詢請(qǐng)求以及是要查詢文本數(shù)據(jù)或圖像數(shù)據(jù)提取多媒體數(shù)據(jù)庫(kù)中的搜索結(jié)果; 2)如果查詢請(qǐng)求是針對(duì)文本數(shù)據(jù)的,提取搜索到的文本數(shù)據(jù)中的單詞、片段結(jié)構(gòu)和單詞特征,如果查詢請(qǐng)求是針對(duì)圖像數(shù)據(jù)的,提取搜索到的圖像數(shù)據(jù)中的視覺(jué)單詞、片段結(jié)構(gòu)和視覺(jué)單詞特征; 3)根據(jù)系統(tǒng)自動(dòng)設(shè)定或用戶指定的參數(shù),確定建模采用的主題數(shù)T; 4)對(duì)于數(shù)據(jù)集包含的每個(gè)片段結(jié)構(gòu),隨機(jī)地分配T個(gè)主題中的一個(gè)作為片段結(jié)構(gòu)的主題; 5)對(duì)于數(shù)據(jù)集包含的每個(gè)單詞,隨機(jī)地分配T個(gè)主題中的一個(gè)作為單詞主題; 6)對(duì)于數(shù)據(jù)集包含的每個(gè)單詞,隨機(jī)地分配一個(gè)0-1二元選擇子,選擇子用于指定每個(gè)單詞被分配到其所屬的片段結(jié)構(gòu)的主題或是其自身的主題上; 7)通過(guò)Gibbs采樣過(guò)程迭代地確定所有片段結(jié)構(gòu)主題、單詞主題以及選擇子; 8)根據(jù)片段結(jié)構(gòu)主題和單詞主題最終分配結(jié)果向用戶反饋各個(gè)主題最顯著的文檔或圖片以及最有代表性的單詞信息; 9)根據(jù)選擇子最終分配結(jié)果向用戶反饋具有各種特征的單詞表達(dá)它們所在片段結(jié)構(gòu)的主題的能力。
2.根據(jù)權(quán)利要求1所述的`一種基于選擇單元的主題建模方法,其特征在于所述的提取搜索到的文本數(shù)據(jù)中的單詞、片段結(jié)構(gòu)和單詞特征的步驟如下: 1)采用自然語(yǔ)言處理工具對(duì)文檔進(jìn)行分句,以得到的語(yǔ)句作為文本數(shù)據(jù)的片段結(jié)構(gòu); 2)采用自然語(yǔ)言處理工具標(biāo)注每個(gè)詞的詞性,以得到的詞性標(biāo)注結(jié)構(gòu)作為各單詞的特征; 3)去除其中無(wú)用的高頻詞以及頻數(shù)過(guò)低的生僻詞; 4)統(tǒng)計(jì)處理后文本中所有出現(xiàn)過(guò)的詞,組成詞匯表。
3.根據(jù)權(quán)利要求1所述的一種基于選擇單元的主題建模方法,其特征在于所述的提取搜索到的圖像數(shù)據(jù)中的視覺(jué)單詞、片段結(jié)構(gòu)和視覺(jué)單詞特征的步驟如下: 1)使用OpenSIFT提取所有圖片的SIFT特征,構(gòu)成一個(gè)128維特征點(diǎn)的集合; 2)將特征點(diǎn)集合用K-means聚類得到一組視覺(jué)詞典,并將所有SIFT點(diǎn)按聚類結(jié)果替換為詞典中的視覺(jué)單詞; 3)采用圖像分割和人工標(biāo)注手段提取圖片中的物體邊界、顏色直方圖等屬性,并以物體邊界作為圖像中的片段結(jié)構(gòu); 4)對(duì)物體進(jìn)行聚類得到各視覺(jué)單詞所屬的類別標(biāo)簽,并以該類別標(biāo)簽作為視覺(jué)單詞的特征。
4.根據(jù)權(quán)利要求1所述的一種基于選擇單元的主題建模方法,其特征在于所述的通過(guò)Gibbs采樣過(guò)程迭代地確定所有片段結(jié)構(gòu)主題、單詞主題以及選擇子的步驟如下: 1)由系統(tǒng)自動(dòng)設(shè)定,或者由用戶指定Dirihlet分布的參數(shù)α與β,以及Beta分布參數(shù)Y,并且設(shè)定好迭代次數(shù)、收斂條件等參數(shù); 2)對(duì)于每個(gè)文檔d,統(tǒng)計(jì)各個(gè)主題k上的單詞主題數(shù)ndk與片段結(jié)構(gòu)主題數(shù)Idk; 3)對(duì)于每個(gè)主題k,統(tǒng)計(jì)所有單詞中實(shí)際分配到其上的頻數(shù)nkv;4)對(duì)于帶有特征t的單詞,統(tǒng)計(jì)其對(duì)應(yīng)的二元選擇子為O或?yàn)镮的頻數(shù)Cttl和Ctl; 5)對(duì)于每個(gè)文檔d中的每個(gè)片段結(jié)構(gòu)1,統(tǒng)計(jì)其中各相同單詞V的集合中對(duì)應(yīng)二元選擇子的值為I的詞的數(shù)量Rdlv,以及它們之和Rdl ; 6)令所有單詞構(gòu)成向量W,所有單詞主題構(gòu)成向量z,所有片段結(jié)構(gòu)主題構(gòu)成向量S,所有二元選擇子構(gòu)成向量π,所有單詞特征構(gòu)成向量t,記上述向量合并為Φ,記α、β和Y合并為Ψ,并設(shè)a k、β v、Yb分別為α、β和Y的第k、V、b個(gè)分量,采樣文檔d的片段結(jié)構(gòu)I中第i個(gè)單詞主題Zdli,其所有可能值的概率如下:
5.根據(jù)權(quán)利要求1所述的一種基于選擇單元的主題建模方法,其特征在于所述的根據(jù)片段結(jié)構(gòu)主題和單詞主題最終分配結(jié)果向用戶反饋各個(gè)主題最顯著的文檔或圖片以及最有代表性的單詞信息的步驟如下: 1)設(shè)各個(gè)主題在文檔d中的比例為多項(xiàng)分布Θd,詞匯表中的各個(gè)單詞在主題k中的比例為多項(xiàng)分布Φ,,根據(jù)所有主題分配結(jié)果估計(jì)各多項(xiàng)分布參數(shù)的分量Gdl^P Φ,ν的公式如下:
6.根據(jù)權(quán)利要求1所述的一種基于選擇單元的主題建模方法,其特征在于所述的根據(jù)選擇子最終分配結(jié)果向用戶反饋具有各種特征的單詞表達(dá)它們所在片段結(jié)構(gòu)的主題的能力的步驟如下: 1)設(shè)值為O和I的二元選擇子對(duì)應(yīng)具有特征t的單詞時(shí)所占的比例為二項(xiàng)分布λt,根據(jù)所有選擇子分配結(jié)果估計(jì)各二項(xiàng)分布參數(shù)的分量λω和Xtl的公式如下:
【文檔編號(hào)】G06F17/27GK103559193SQ201310410816
【公開(kāi)日】2014年2月5日 申請(qǐng)日期:2013年9月10日 優(yōu)先權(quán)日:2013年9月10日
【發(fā)明者】湯斯亮, 張寅 , 王翰琪, 魯偉明, 吳飛, 莊越挺 申請(qǐng)人:浙江大學(xué)