一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法

文檔序號(hào)：9597902閱讀：437來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法【
技術(shù)領(lǐng)域：
】[0001]本發(fā)明涉及一種主題標(biāo)簽賦予方法，尤其涉及一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法，能夠高效地實(shí)現(xiàn)主題標(biāo)簽的自動(dòng)賦予，屬于文本挖掘
技術(shù)領(lǐng)域：
?！?br>背景技術(shù)：
】[0002]隨著互聯(lián)網(wǎng)的高速發(fā)展，網(wǎng)絡(luò)中的數(shù)據(jù)和信息越來(lái)越多，"大數(shù)據(jù)"時(shí)代已經(jīng)來(lái)臨。近年來(lái)，主題模型成為一種流行并且有效的文本挖掘方法，有著廣泛的應(yīng)用。對(duì)海量文本數(shù)據(jù)進(jìn)行主題建模，能夠給人們提供一種便捷的渠道來(lái)獲取重要信息。主題模型將主題表示成一個(gè)在詞表上的概率分布，不易于常人理解。對(duì)此問題，最初的技術(shù)是通過挑選概率最高的幾個(gè)詞或者人為地挑選詞語(yǔ)作為主題的標(biāo)簽，來(lái)解釋主題。然而，這種方式存在效率低和過于主觀的問題。主題標(biāo)簽自動(dòng)賦予的技術(shù)應(yīng)運(yùn)而生，它的作用在于自動(dòng)地給主題賦予可理解有意義的標(biāo)簽。[0003]傳統(tǒng)的主題標(biāo)簽自動(dòng)賦予方法，首先通過自然語(yǔ)言處理技術(shù)從文檔集合中抽取候選標(biāo)簽，然后對(duì)候選標(biāo)簽排序獲得最終標(biāo)簽。然而，其中用到的自然語(yǔ)言處理技術(shù)通常耗時(shí)較高，無(wú)法應(yīng)用到大數(shù)據(jù)中。此外，大多數(shù)的方法依賴于諸如維基百科、谷歌網(wǎng)頁(yè)目錄等外部知識(shí)，無(wú)法應(yīng)用在新出現(xiàn)的主題上。因此，能夠高效地為新出現(xiàn)的主題賦予正確有效的標(biāo)簽，成為了大數(shù)據(jù)背景下的迫切需求?！?br/>發(fā)明內(nèi)容】[0004]本發(fā)明的目的是為解決上述主題標(biāo)簽自動(dòng)賦予耗時(shí)高且不能處理新出現(xiàn)主題的問題，將此任務(wù)轉(zhuǎn)換成求K近鄰的問題，提出了一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法。這種方法能夠快速準(zhǔn)確為文本賦予標(biāo)簽，適用于海量文本和流文本在進(jìn)行主題建模之后的后處理。[0005]本發(fā)明提供的主題標(biāo)簽快速賦予方法包括離線部分和在線部分，技術(shù)方案的主要思想是首先通過離線部分構(gòu)建一個(gè)"主題-標(biāo)簽"庫(kù)，當(dāng)新主題出現(xiàn)時(shí)，再去庫(kù)中查詢最相似的主題，并將庫(kù)中相似主題的標(biāo)簽作為新出現(xiàn)主題的標(biāo)簽。[0006]本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的：[0007]-種基于局部敏感哈希的主題標(biāo)簽快速賦予方法，包括離線數(shù)據(jù)庫(kù)構(gòu)建和在線查詢兩部分內(nèi)容；[0008]所述離線數(shù)據(jù)庫(kù)構(gòu)建，通過將帶標(biāo)簽的網(wǎng)絡(luò)數(shù)據(jù)通過標(biāo)簽主題模型LabeledLDA(參照Ramage等人在EMNLP2009中發(fā)表的文章《LabeledLDA:Asupervisedtopicmodelforcreditattributioninmulti-labeledcorpora》）進(jìn)行處理，得到"主題-標(biāo)簽"數(shù)據(jù)庫(kù)，庫(kù)中的每一條記錄包含一個(gè)標(biāo)簽及其對(duì)應(yīng)的主題，同一個(gè)標(biāo)簽可以對(duì)應(yīng)多個(gè)不同的主題，此處的主題指的是一個(gè)在詞表上的概率分布，其中的每一維表示該維對(duì)應(yīng)詞語(yǔ)出現(xiàn)的概率；[0009]所述在線查詢，是本方法的核心，它接受需要賦予標(biāo)簽的主題作為輸入，在"主題-標(biāo)簽"數(shù)據(jù)庫(kù)中完成K近鄰點(diǎn)（主題）的查詢，即查詢距離最相近的K個(gè)點(diǎn)；然后將前Κ個(gè)主題對(duì)應(yīng)的標(biāo)簽作為待查詢主題的標(biāo)簽。[0010]作為優(yōu)選，在完成待查主題的標(biāo)簽賦予之后將該主題與已賦標(biāo)簽作為新的記錄插入到"主題-標(biāo)簽"數(shù)據(jù)庫(kù)中，擴(kuò)充現(xiàn)有數(shù)據(jù)。[0011]作為優(yōu)選，通過以下步驟完成κ近鄰點(diǎn)（主題）的查詢：[0012]步驟一、局部敏感哈希值計(jì)算：對(duì)"主題-標(biāo)簽"庫(kù)中的每一條記錄，將概率分布作為概率向量空間中的一個(gè)數(shù)據(jù)點(diǎn)，計(jì)算局部敏感哈希值，從而得到哈希表；[0013]步驟二、相似主題查詢：首先對(duì)于輸入的待查詢主題，根據(jù)其概率分布，采用與步驟一同樣的方式計(jì)算局部敏感哈希值（當(dāng)前哈希值）；然后遍歷哈希表，計(jì)算當(dāng)前哈希值與表中哈希值的距離；最后，根據(jù)距離大小排序，得到初始結(jié)果列表sinit;[0014]作為優(yōu)選，采用多種哈希方法進(jìn)行互補(bǔ)融合完成K近鄰點(diǎn)（主題）的查詢：[0015]步驟一、采用多種哈希方法進(jìn)行局部敏感哈希值計(jì)算：對(duì)"主題-標(biāo)簽"庫(kù)中的每一條記錄，將概率分布作為概率向量空間中的一個(gè)數(shù)據(jù)點(diǎn)，計(jì)算局部敏感哈希值，從而得到多個(gè)哈希表；[0016]步驟二、相似主題查詢：首先對(duì)于輸入的待查詢主題，根據(jù)其概率分布，采用與步驟一同樣的方法計(jì)算局部敏感哈希值（當(dāng)前哈希值）；然后分別遍歷多個(gè)"主題-標(biāo)簽"哈希表，計(jì)算當(dāng)前哈希值與表中哈希值的距離；最后，根據(jù)距離大小排序，得到多個(gè)初始結(jié)果列表SinitpSinit2......Sinitn，其中η表示哈希方法的個(gè)數(shù)；[0017]步驟三、分別對(duì)SinitnSinit2……Sinitn的前R項(xiàng)初始結(jié)果根據(jù)重合度重排序：對(duì)于步驟二中得到的SinitnSinit2......Sinitn的前R個(gè)主題分別進(jìn)行以下操作：首先，根據(jù)待查主題的概率分布，挑選出概率值最高的前N個(gè)詞語(yǔ)，放入集合Sq;其次，分別對(duì)于SinitnSinit2......Sinitn的前R個(gè)主題的每一個(gè)主題，同樣挑選出概率值最高的前N個(gè)詞語(yǔ)，放入集合St;然后，計(jì)算S,與Sq的交集大小，作為二者的重合度；最后，根據(jù)重合度重新對(duì)前R項(xiàng)初始結(jié)果進(jìn)行排序，重合度高的排在前面，由此分別得到兩個(gè)重排后的結(jié)果列表SsecondnSsecond2......Ssecondn；[0018]步驟四、序列融合優(yōu)化結(jié)果：根據(jù)SsecondpSseconc^......Ssecondn，采用信息檢索技術(shù)中常用的交叉排列方法，融合多個(gè)列表，結(jié)合各哈希方法的長(zhǎng)處，得到一個(gè)新的更優(yōu)的列表r作為最終結(jié)果，輸出S$中的主題標(biāo)簽作為待查主題的標(biāo)簽。[0019]作為優(yōu)選，所述多種哈希方法為2種。[0020]作為優(yōu)選，所述2種哈希方法分別為SimHash和P-stable。[0021]有益效果[0022]與普通的主題標(biāo)簽自動(dòng)賦予技術(shù)相比，本發(fā)明通過離線部分構(gòu)建"主題-標(biāo)簽"庫(kù)以及利用局部敏感哈希加速K近鄰點(diǎn)（主題）的查詢，能夠?qū)崿F(xiàn)快速地為主題賦予正確的標(biāo)簽，克服了基于自然語(yǔ)言處理技術(shù)的方法所產(chǎn)生的效率問題；同時(shí)，本發(fā)明可以不斷擴(kuò)充現(xiàn)有的"主題-標(biāo)簽"庫(kù)，對(duì)于新出現(xiàn)的主題也能賦予準(zhǔn)確的標(biāo)簽，克服了普通方法需要依賴外部知識(shí)，無(wú)法處理新主題的問題。【附圖說(shuō)明】[0023]圖1位本發(fā)明方法的框架及流程示意圖?！揪唧w實(shí)施方式】[0024]在介紹實(shí)施例之前，首先做如下定義：[0025]主題是指與其對(duì)應(yīng)的一個(gè)概率分布。此概率分布的維度大小等于語(yǔ)料庫(kù)中包含的不同詞語(yǔ)的個(gè)數(shù)，其中的每一維對(duì)應(yīng)某個(gè)詞語(yǔ)出現(xiàn)在當(dāng)前主題的概率。主題標(biāo)簽指的是能夠解釋當(dāng)前主題的一個(gè)詞語(yǔ)或者詞組。[0026]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做進(jìn)一步說(shuō)明。[0027]本實(shí)施例首先介紹實(shí)驗(yàn)語(yǔ)料以及離線部分中"主題-標(biāo)簽"庫(kù)的構(gòu)建方法，然后介紹在線部分中給定一個(gè)新出現(xiàn)主題如何在庫(kù)中查詢以獲得正確的新主題標(biāo)簽的方法。[0028]本實(shí)施例選取Twitter數(shù)據(jù)集作為實(shí)驗(yàn)語(yǔ)料。此語(yǔ)料是從互聯(lián)網(wǎng)上爬取的Twitter數(shù)據(jù)，大小為2.1GB，其中包含Twitter從2009年6月至2009年12月的部分推文數(shù)據(jù)。本實(shí)施例將數(shù)據(jù)集中推文的hashtag作為標(biāo)簽，每一條推文作為一條數(shù)據(jù)。[0029]-、離線部分"主題-標(biāo)簽"庫(kù)的構(gòu)建方法如下：[0030]采用【
發(fā)明內(nèi)容】中所述方法構(gòu)建"主題-標(biāo)簽"庫(kù)，這里可以將帶標(biāo)簽的網(wǎng)絡(luò)數(shù)據(jù)直接采用LabeledLDA模型一起學(xué)習(xí)，也可以將之劃分為多個(gè)子數(shù)據(jù)集分別學(xué)習(xí)并將結(jié)果進(jìn)行合并以獲得更好的效果。本實(shí)施例中采用后種方式，下面進(jìn)行詳細(xì)介紹：[0031]首先，將上述數(shù)據(jù)進(jìn)行劃分，每個(gè)月的數(shù)據(jù)一分為四，得到24個(gè)子數(shù)據(jù)集；然后，對(duì)于每個(gè)子數(shù)據(jù)集，使用LabeledLDA進(jìn)行學(xué)習(xí)，分別得到各個(gè)子數(shù)據(jù)集的"主題-標(biāo)簽"庫(kù)，其中每一條記錄包含一個(gè)標(biāo)簽及其對(duì)應(yīng)的主題；最后，將各個(gè)子數(shù)據(jù)集的"主題-標(biāo)簽"庫(kù)合并，得到一個(gè)最終的"主題-標(biāo)簽"庫(kù)。由于來(lái)自不同子數(shù)據(jù)集的記錄其標(biāo)簽可能相同，合并后的"主題-標(biāo)簽"庫(kù)中，一個(gè)標(biāo)簽可以對(duì)應(yīng)一個(gè)或者多個(gè)主題，這些主題分別來(lái)自不同的子數(shù)據(jù)集。我們將這個(gè)最終的"主題-標(biāo)簽"庫(kù)作為初始的庫(kù)。[0032]二、新出現(xiàn)主題正確標(biāo)簽的查詢[0033]本發(fā)明方法是以主題作為輸入，將查詢結(jié)果作為輸出為輸入的主題賦予標(biāo)簽。而對(duì)于新出現(xiàn)的沒有標(biāo)簽的文本，可以通過常見的主題模型，例如LDA，進(jìn)行學(xué)習(xí)得到一些沒有賦予標(biāo)簽的主題。[0034]本實(shí)施例首先通過步驟一（局部敏感哈希值計(jì)算）和步驟二（相似主題查詢）計(jì)算已有"主題-標(biāo)簽"庫(kù)中與待查主題最相近記錄，并將其標(biāo)簽作為待查主題的標(biāo)簽賦予待查主題。本發(fā)明采用的最近鄰查找方法其基本思想就是先計(jì)算待查主題與初始庫(kù)中已有主題的相似度，然后根據(jù)相似度比較進(jìn)行查詢。[0035]傳統(tǒng)的計(jì)算相似度的方法是直接在主題，也就是概率分布上進(jìn)行的。然而，一般來(lái)說(shuō)，概率分布的維度會(huì)比較大，這樣的計(jì)算方式非常耗時(shí)。所以，本實(shí)施例采用的方法是，首先將高維度的概率分布先轉(zhuǎn)換成低維的局部敏感哈希值，然后以局部敏感哈希值的距離作為相似度的評(píng)判標(biāo)準(zhǔn)。哈希值相同或者相近的項(xiàng)意味著與待查主題更相似，將排在列表的前面。此外，由于哈希值的位數(shù)固定，并且哈希值都存儲(chǔ)在內(nèi)存中，即使遍歷所有哈希值計(jì)算距離，時(shí)間開銷也會(huì)相對(duì)較低，同時(shí)采用二分查找將進(jìn)一步提高效率。進(jìn)一步的，在初始庫(kù)形成以后即在空閑時(shí)段將所有主題的哈希值都計(jì)算并存儲(chǔ)起來(lái)，當(dāng)此處需要計(jì)算待查主題與庫(kù)中主題的相似度時(shí)，只需直接將庫(kù)中主題的哈希值提取出來(lái)即可，這樣可以進(jìn)一步提高效率、降低資源消耗。[0036]所述局部敏感哈?？梢圆捎矛F(xiàn)有的任意一種哈希算法，如基于P-stable分布的E2LSH、基于沖突計(jì)數(shù)的局部敏感哈希（FBLSH)、屬于cos距離哈希族的SimHash等等。[0037]為使標(biāo)簽賦予的準(zhǔn)確性更高，可以采用多種局部敏感哈希值進(jìn)行相似度查詢，然后將查詢結(jié)果進(jìn)行融合優(yōu)化。出于準(zhǔn)確性和效率的綜合考慮。本實(shí)施例采用2種哈希進(jìn)行相似度查詢，下面以屬于cos距離哈希族的SimHash和屬于歐式距離哈希族的p-stable為例介紹如何進(jìn)行相似度查詢以及對(duì)查詢結(jié)果融合優(yōu)化。[0038]首先分別就這兩種哈希算法如何實(shí)現(xiàn)步驟一和步驟二進(jìn)行具體描述：[0039](1)SimHash[0040]哈希值的計(jì)算：[0041]SimHash的當(dāng)前第1頁(yè)1 2

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃河燕;毛先領(lǐng);周強(qiáng);任金偉;
技術(shù)所有人：華建宇通科技(北京)有限責(zé)任公司;北京理工大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

局部敏感哈希相關(guān)技術(shù)

局部敏感哈希算法相關(guān)技術(shù)

lsh局部敏感哈希相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于局部敏感哈希的主題標(biāo)簽快速賦予方法