一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法【
技術(shù)領(lǐng)域:
】[0001]本發(fā)明涉及一種主題標(biāo)簽賦予方法,尤其涉及一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法,能夠高效地實(shí)現(xiàn)主題標(biāo)簽的自動(dòng)賦予,屬于文本挖掘
技術(shù)領(lǐng)域:
?!?br>背景技術(shù):
】[0002]隨著互聯(lián)網(wǎng)的高速發(fā)展,網(wǎng)絡(luò)中的數(shù)據(jù)和信息越來(lái)越多,"大數(shù)據(jù)"時(shí)代已經(jīng)來(lái)臨。近年來(lái),主題模型成為一種流行并且有效的文本挖掘方法,有著廣泛的應(yīng)用。對(duì)海量文本數(shù)據(jù)進(jìn)行主題建模,能夠給人們提供一種便捷的渠道來(lái)獲取重要信息。主題模型將主題表示成一個(gè)在詞表上的概率分布,不易于常人理解。對(duì)此問題,最初的技術(shù)是通過挑選概率最高的幾個(gè)詞或者人為地挑選詞語(yǔ)作為主題的標(biāo)簽,來(lái)解釋主題。然而,這種方式存在效率低和過于主觀的問題。主題標(biāo)簽自動(dòng)賦予的技術(shù)應(yīng)運(yùn)而生,它的作用在于自動(dòng)地給主題賦予可理解有意義的標(biāo)簽。[0003]傳統(tǒng)的主題標(biāo)簽自動(dòng)賦予方法,首先通過自然語(yǔ)言處理技術(shù)從文檔集合中抽取候選標(biāo)簽,然后對(duì)候選標(biāo)簽排序獲得最終標(biāo)簽。然而,其中用到的自然語(yǔ)言處理技術(shù)通常耗時(shí)較高,無(wú)法應(yīng)用到大數(shù)據(jù)中。此外,大多數(shù)的方法依賴于諸如維基百科、谷歌網(wǎng)頁(yè)目錄等外部知識(shí),無(wú)法應(yīng)用在新出現(xiàn)的主題上。因此,能夠高效地為新出現(xiàn)的主題賦予正確有效的標(biāo)簽,成為了大數(shù)據(jù)背景下的迫切需求?!?br/>發(fā)明內(nèi)容】[0004]本發(fā)明的目的是為解決上述主題標(biāo)簽自動(dòng)賦予耗時(shí)高且不能處理新出現(xiàn)主題的問題,將此任務(wù)轉(zhuǎn)換成求K近鄰的問題,提出了一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法。這種方法能夠快速準(zhǔn)確為文本賦予標(biāo)簽,適用于海量文本和流文本在進(jìn)行主題建模之后的后處理。[0005]本發(fā)明提供的主題標(biāo)簽快速賦予方法包括離線部分和在線部分,技術(shù)方案的主要思想是首先通過離線部分構(gòu)建一個(gè)"主題-標(biāo)簽"庫(kù),當(dāng)新主題出現(xiàn)時(shí),再去庫(kù)中查詢最相似的主題,并將庫(kù)中相似主題的標(biāo)簽作為新出現(xiàn)主題的標(biāo)簽。[0006]本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:[0007]-種基于局部敏感哈希的主題標(biāo)簽快速賦予方法,包括離線數(shù)據(jù)庫(kù)構(gòu)建和在線查詢兩部分內(nèi)容;[0008]所述離線數(shù)據(jù)庫(kù)構(gòu)建,通過將帶標(biāo)簽的網(wǎng)絡(luò)數(shù)據(jù)通過標(biāo)簽主題模型LabeledLDA(參照Ramage等人在EMNLP2009中發(fā)表的文章《LabeledLDA:Asupervisedtopicmodelforcreditattributioninmulti-labeledcorpora》)進(jìn)行處理,得到"主題-標(biāo)簽"數(shù)據(jù)庫(kù),庫(kù)中的每一條記錄包含一個(gè)標(biāo)簽及其對(duì)應(yīng)的主題,同一個(gè)標(biāo)簽可以對(duì)應(yīng)多個(gè)不同的主題,此處的主題指的是一個(gè)在詞表上的概率分布,其中的每一維表示該維對(duì)應(yīng)詞語(yǔ)出現(xiàn)的概率;[0009]所述在線查詢,是本方法的核心,它接受需要賦予標(biāo)簽的主題作為輸入,在"主題-標(biāo)簽"數(shù)據(jù)庫(kù)中完成K近鄰點(diǎn)(主題)的查詢,即查詢距離最相近的K個(gè)點(diǎn);然后將前Κ個(gè)主題對(duì)應(yīng)的標(biāo)簽作為待查詢主題的標(biāo)簽。[0010]作為優(yōu)選,在完成待查主題的標(biāo)簽賦予之后將該主題與已賦標(biāo)簽作為新的記錄插入到"主題-標(biāo)簽"數(shù)據(jù)庫(kù)中,擴(kuò)充現(xiàn)有數(shù)據(jù)。[0011]作為優(yōu)選,通過以下步驟完成κ近鄰點(diǎn)(主題)的查詢:[0012]步驟一、局部敏感哈希值計(jì)算:對(duì)"主題-標(biāo)簽"庫(kù)中的每一條記錄,將概率分布作為概率向量空間中的一個(gè)數(shù)據(jù)點(diǎn),計(jì)算局部敏感哈希值,從而得到哈希表;[0013]步驟二、相似主題查詢:首先對(duì)于輸入的待查詢主題,根據(jù)其概率分布,采用與步驟一同樣的方式計(jì)算局部敏感哈希值(當(dāng)前哈希值);然后遍歷哈希表,計(jì)算當(dāng)前哈希值與表中哈希值的距離;最后,根據(jù)距離大小排序,得到初始結(jié)果列表sinit;[0014]作為優(yōu)選,采用多種哈希方法進(jìn)行互補(bǔ)融合完成K近鄰點(diǎn)(主題)的查詢:[0015]步驟一、采用多種哈希方法進(jìn)行局部敏感哈希值計(jì)算:對(duì)"主題-標(biāo)簽"庫(kù)中的每一條記錄,將概率分布作為概率向量空間中的一個(gè)數(shù)據(jù)點(diǎn),計(jì)算局部敏感哈希值,從而得到多個(gè)哈希表;[0016]步驟二、相似主題查詢:首先對(duì)于輸入的待查詢主題,根據(jù)其概率分布,采用與步驟一同樣的方法計(jì)算局部敏感哈希值(當(dāng)前哈希值);然后分別遍歷多個(gè)"主題-標(biāo)簽"哈希表,計(jì)算當(dāng)前哈希值與表中哈希值的距離;最后,根據(jù)距離大小排序,得到多個(gè)初始結(jié)果列表SinitpSinit2......Sinitn,其中η表示哈希方法的個(gè)數(shù);[0017]步驟三、分別對(duì)SinitnSinit2……Sinitn的前R項(xiàng)初始結(jié)果根據(jù)重合度重排序:對(duì)于步驟二中得到的SinitnSinit2......Sinitn的前R個(gè)主題分別進(jìn)行以下操作:首先,根據(jù)待查主題的概率分布,挑選出概率值最高的前N個(gè)詞語(yǔ),放入集合Sq;其次,分別對(duì)于SinitnSinit2......Sinitn的前R個(gè)主題的每一個(gè)主題,同樣挑選出概率值最高的前N個(gè)詞語(yǔ),放入集合St;然后,計(jì)算S,與Sq的交集大小,作為二者的重合度;最后,根據(jù)重合度重新對(duì)前R項(xiàng)初始結(jié)果進(jìn)行排序,重合度高的排在前面,由此分別得到兩個(gè)重排后的結(jié)果列表SsecondnSsecond2......Ssecondn;[0018]步驟四、序列融合優(yōu)化結(jié)果:根據(jù)SsecondpSseconc^......Ssecondn,采用信息檢索技術(shù)中常用的交叉排列方法,融合多個(gè)列表,結(jié)合各哈希方法的長(zhǎng)處,得到一個(gè)新的更優(yōu)的列表r作為最終結(jié)果,輸出S$中的主題標(biāo)簽作為待查主題的標(biāo)簽。[0019]作為優(yōu)選,所述多種哈希方法為2種。[0020]作為優(yōu)選,所述2種哈希方法分別為SimHash和P-stable。[0021]有益效果[0022]與普通的主題標(biāo)簽自動(dòng)賦予技術(shù)相比,本發(fā)明通過離線部分構(gòu)建"主題-標(biāo)簽"庫(kù)以及利用局部敏感哈希加速K近鄰點(diǎn)(主題)的查詢,能夠?qū)崿F(xiàn)快速地為主題賦予正確的標(biāo)簽,克服了基于自然語(yǔ)言處理技術(shù)的方法所產(chǎn)生的效率問題;同時(shí),本發(fā)明可以不斷擴(kuò)充現(xiàn)有的"主題-標(biāo)簽"庫(kù),對(duì)于新出現(xiàn)的主題也能賦予準(zhǔn)確的標(biāo)簽,克服了普通方法需要依賴外部知識(shí),無(wú)法處理新主題的問題。【附圖說(shuō)明】[0023]圖1位本發(fā)明方法的框架及流程示意圖?!揪唧w實(shí)施方式】[0024]在介紹實(shí)施例之前,首先做如下定義:[0025]主題是指與其對(duì)應(yīng)的一個(gè)概率分布。此概率分布的維度大小等于語(yǔ)料庫(kù)中包含的不同詞語(yǔ)的個(gè)數(shù),其中的每一維對(duì)應(yīng)某個(gè)詞語(yǔ)出現(xiàn)在當(dāng)前主題的概率。主題標(biāo)簽指的是能夠解釋當(dāng)前主題的一個(gè)詞語(yǔ)或者詞組。[0026]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步說(shuō)明。[0027]本實(shí)施例首先介紹實(shí)驗(yàn)語(yǔ)料以及離線部分中"主題-標(biāo)簽"庫(kù)的構(gòu)建方法,然后介紹在線部分中給定一個(gè)新出現(xiàn)主題如何在庫(kù)中查詢以獲得正確的新主題標(biāo)簽的方法。[0028]本實(shí)施例選取Twitter數(shù)據(jù)集作為實(shí)驗(yàn)語(yǔ)料。此語(yǔ)料是從互聯(lián)網(wǎng)上爬取的Twitter數(shù)據(jù),大小為2.1GB,其中包含Twitter從2009年6月至2009年12月的部分推文數(shù)據(jù)。本實(shí)施例將數(shù)據(jù)集中推文的hashtag作為標(biāo)簽,每一條推文作為一條數(shù)據(jù)。[0029]-、離線部分"主題-標(biāo)簽"庫(kù)的構(gòu)建方法如下:[0030]采用【
發(fā)明內(nèi)容】中所述方法構(gòu)建"主題-標(biāo)簽"庫(kù),這里可以將帶標(biāo)簽的網(wǎng)絡(luò)數(shù)據(jù)直接采用LabeledLDA模型一起學(xué)習(xí),也可以將之劃分為多個(gè)子數(shù)據(jù)集分別學(xué)習(xí)并將結(jié)果進(jìn)行合并以獲得更好的效果。本實(shí)施例中采用后種方式,下面進(jìn)行詳細(xì)介紹:[0031]首先,將上述數(shù)據(jù)進(jìn)行劃分,每個(gè)月的數(shù)據(jù)一分為四,得到24個(gè)子數(shù)據(jù)集;然后,對(duì)于每個(gè)子數(shù)據(jù)集,使用LabeledLDA進(jìn)行學(xué)習(xí),分別得到各個(gè)子數(shù)據(jù)集的"主題-標(biāo)簽"庫(kù),其中每一條記錄包含一個(gè)標(biāo)簽及其對(duì)應(yīng)的主題;最后,將各個(gè)子數(shù)據(jù)集的"主題-標(biāo)簽"庫(kù)合并,得到一個(gè)最終的"主題-標(biāo)簽"庫(kù)。由于來(lái)自不同子數(shù)據(jù)集的記錄其標(biāo)簽可能相同,合并后的"主題-標(biāo)簽"庫(kù)中,一個(gè)標(biāo)簽可以對(duì)應(yīng)一個(gè)或者多個(gè)主題,這些主題分別來(lái)自不同的子數(shù)據(jù)集。我們將這個(gè)最終的"主題-標(biāo)簽"庫(kù)作為初始的庫(kù)。[0032]二、新出現(xiàn)主題正確標(biāo)簽的查詢[0033]本發(fā)明方法是以主題作為輸入,將查詢結(jié)果作為輸出為輸入的主題賦予標(biāo)簽。而對(duì)于新出現(xiàn)的沒有標(biāo)簽的文本,可以通過常見的主題模型,例如LDA,進(jìn)行學(xué)習(xí)得到一些沒有賦予標(biāo)簽的主題。[0034]本實(shí)施例首先通過步驟一(局部敏感哈希值計(jì)算)和步驟二(相似主題查詢)計(jì)算已有"主題-標(biāo)簽"庫(kù)中與待查主題最相近記錄,并將其標(biāo)簽作為待查主題的標(biāo)簽賦予待查主題。本發(fā)明采用的最近鄰查找方法其基本思想就是先計(jì)算待查主題與初始庫(kù)中已有主題的相似度,然后根據(jù)相似度比較進(jìn)行查詢。[0035]傳統(tǒng)的計(jì)算相似度的方法是直接在主題,也就是概率分布上進(jìn)行的。然而,一般來(lái)說(shuō),概率分布的維度會(huì)比較大,這樣的計(jì)算方式非常耗時(shí)。所以,本實(shí)施例采用的方法是,首先將高維度的概率分布先轉(zhuǎn)換成低維的局部敏感哈希值,然后以局部敏感哈希值的距離作為相似度的評(píng)判標(biāo)準(zhǔn)。哈希值相同或者相近的項(xiàng)意味著與待查主題更相似,將排在列表的前面。此外,由于哈希值的位數(shù)固定,并且哈希值都存儲(chǔ)在內(nèi)存中,即使遍歷所有哈希值計(jì)算距離,時(shí)間開銷也會(huì)相對(duì)較低,同時(shí)采用二分查找將進(jìn)一步提高效率。進(jìn)一步的,在初始庫(kù)形成以后即在空閑時(shí)段將所有主題的哈希值都計(jì)算并存儲(chǔ)起來(lái),當(dāng)此處需要計(jì)算待查主題與庫(kù)中主題的相似度時(shí),只需直接將庫(kù)中主題的哈希值提取出來(lái)即可,這樣可以進(jìn)一步提高效率、降低資源消耗。[0036]所述局部敏感哈??梢圆捎矛F(xiàn)有的任意一種哈希算法,如基于P-stable分布的E2LSH、基于沖突計(jì)數(shù)的局部敏感哈希(FBLSH)、屬于cos距離哈希族的SimHash等等。[0037]為使標(biāo)簽賦予的準(zhǔn)確性更高,可以采用多種局部敏感哈希值進(jìn)行相似度查詢,然后將查詢結(jié)果進(jìn)行融合優(yōu)化。出于準(zhǔn)確性和效率的綜合考慮。本實(shí)施例采用2種哈希進(jìn)行相似度查詢,下面以屬于cos距離哈希族的SimHash和屬于歐式距離哈希族的p-stable為例介紹如何進(jìn)行相似度查詢以及對(duì)查詢結(jié)果融合優(yōu)化。[0038]首先分別就這兩種哈希算法如何實(shí)現(xiàn)步驟一和步驟二進(jìn)行具體描述:[0039](1)SimHash[0040]哈希值的計(jì)算:[0041]SimHash的當(dāng)前第1頁(yè)1 2