欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種面向跨領(lǐng)域知識(shí)發(fā)現(xiàn)的主題挖掘方法

文檔序號(hào):9417371閱讀:396來源:國(guó)知局
一種面向跨領(lǐng)域知識(shí)發(fā)現(xiàn)的主題挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計(jì)算機(jī)文本挖掘技術(shù)領(lǐng)域,涉及主題模型技術(shù),具體涉及一種面向跨領(lǐng)域知識(shí)發(fā)現(xiàn)的主題挖掘方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展,越來越多的網(wǎng)絡(luò)平臺(tái)的出現(xiàn)使文本資源成爆炸式的增長(zhǎng),而龐大的數(shù)據(jù)量和復(fù)雜的分析過程往往使用戶獲取所需要知識(shí)的過程變得很困難。例如,當(dāng)人們想要在社交網(wǎng)絡(luò)中尋找當(dāng)?shù)赜袃r(jià)值的新聞事件或者熱門話題,人們只能通過關(guān)鍵詞的搜索來幫助自己找到想要獲得的信息,但是,往往這樣的檢索方式是效率非常低下的,人們常常會(huì)嘗試大量的搜索關(guān)鍵詞,或者,瀏覽大量的搜索結(jié)果才有可能找到自己想要的信息。為了有效地提升用戶獲取信息的效率,出現(xiàn)了文本挖掘技術(shù),來幫助人們組織和管理文本信息。目前主要的文本挖掘技術(shù)有傳統(tǒng)的主題模型技術(shù),有監(jiān)督的主題模型技術(shù)和跨領(lǐng)域的主題模型技術(shù)等。
[0003]這些技術(shù)各自存在優(yōu)缺點(diǎn),現(xiàn)總結(jié)如下:
[0004]1.傳統(tǒng)的主題挖掘技術(shù)基于概率統(tǒng)計(jì)的混合模型,對(duì)文本信息進(jìn)行建模,使得模型能夠自動(dòng)挖掘出文本中潛在的語義信息,使用戶能夠快速的了解文本中所涉及的內(nèi)容。通過主題模型,不僅能夠獲得文本集合中主要涉及的信息,而且能夠獲得每篇文檔中的內(nèi)容信息。常見的主題模型有概率潛在語義分析(Probabilistic Latent SemanticAnalysis, PLSA)模型[I]和潛在狄利克雷分配(Latent Dirichlet Allocat1n, LDA)模型
[2]。但該類技術(shù)僅考慮文本集合中的文本信息,其他有用的信息,如文本的類別信息等,無法被利用起來。
[0005]2.有監(jiān)督的主題挖掘技術(shù)在傳統(tǒng)的主題挖掘技術(shù)上,將文本的類別信息融合到主題挖掘的過程中,使具有相同特征的文本盡量涵蓋相同的主題,進(jìn)而提高主題挖掘的能力。這些具有先驗(yàn)知識(shí)的主題模型將先驗(yàn)知識(shí)通過不同的方法融合到無監(jiān)督的主題挖掘中。在文檔層面的先驗(yàn)知識(shí)融入到主題模型中的工作有Blei提出的有監(jiān)督的潛在狄利克雷分配(supervised Latent Dirichlet Allocat1n, sLDA)模型[3],該模型利用文本的類標(biāo),作為相應(yīng)變量融入到主題模型中,并通過一般線性模型進(jìn)行建模。其引入的文本類標(biāo)信息提升了文本的主題特征表示,進(jìn)而更好地服務(wù)于分類和回歸問題。Ramage提出了有標(biāo)簽的潛在狄利克雷分配(labeled Latent Dirichlet Allocat1n, 1LDA)模型[4],該模型在潛在主題與文檔類標(biāo)之間直接建立--對(duì)應(yīng)的映射關(guān)系,有效地解決了多標(biāo)簽文本集合中存在的歸屬問題。但這類主題挖掘方法對(duì)文本數(shù)據(jù)有較高的要求,有時(shí)甚至需要更多的人力資源來提供所需的有監(jiān)督的信息。
[0006]3.跨領(lǐng)域的文本挖掘技術(shù)主要解決自動(dòng)抽取不同領(lǐng)域的文本潛在語義信息中相似性與差異性的問題。主要工作有Zhai提出的跨領(lǐng)域混合模型(Cross-Collect1nMixture Model, CCMix) [5],該模型能夠挖掘出在不同領(lǐng)域下,所共同出現(xiàn)的主題信息,同時(shí),針對(duì)這些共同出現(xiàn)的主題信息,找出這些信息中的公共部分和每個(gè)領(lǐng)域所特殊的部分。Paul在這個(gè)工作的基礎(chǔ)上,提出了跨領(lǐng)域潛在狄利克雷分配(cross-collect1n LatentDirichlet Allocat1n, ccLDA)模型[6],將ccMix從PLSA的框架下轉(zhuǎn)換到LDA的框架下,這使得模型具有了 LDA的優(yōu)越性,即能夠?qū)π碌絹淼奈谋具M(jìn)行推斷。另外,該模型還減少了ccMix中的參數(shù)數(shù)量,使得,模型參數(shù)不會(huì)隨著文本數(shù)據(jù)的增加而增加,模型能夠更好地根據(jù)文本固有的特征進(jìn)行文本挖掘。但是跨領(lǐng)域主題模型無法利用不同領(lǐng)域的信息幫助用戶篩選出所需要的信息。
[0007]參考文獻(xiàn)
[0008][I]Hofmann T.Probabilistic latent semantic indexing.Proceedings of the22nd annual internat1nal ACM SIGIR conference on Research and development ininformat1n retrieval.ACM, 1999:50_57o
[0009][2]Blei D Mj Ng A Yj Jordan M 1.Latent dirichlet allocat1n.The Journalof machine Learning research,2003,3:993_1022o
[0010][3]Mcauliffe J Dj Blei D M.Supervised topic models.Advances in neuralinformat1n processing systems.2008:121-1280
[0011][4]Ramage Dj Hall D,Nallapati R,et al.Labeled LDA:A supervised topicmodel for credit attribut1n in mult1-labeled corpora.Proceedings of the2009Conference on Empirical Methods in Natural Language Processing:Volume1-Volume 1.Associat1n for Computat1nal Linguistics,2009:248_2560
[0012][5]Zhai C Xj Velivelli A,Yu B.A cross-collect1n mixture model forcomparative text mining.Proceedings of the tenth ACM SIGKDD internat1nalconference on Knowledge discovery and data mining.ACM, 2004:743-7480
[0013][6]Paul M.Cross-collect1n topic models:AutomaticalIy comparing andcontrasting text.Urbanaj2009,51:618010

【發(fā)明內(nèi)容】

[0014]本發(fā)明旨在至少解決上述技術(shù)問題之一。
[0015]為此,本發(fā)明的目的在于提出一種面向跨領(lǐng)域知識(shí)發(fā)現(xiàn)的主題挖掘方法。
[0016]為了實(shí)現(xiàn)上述目的,本發(fā)明一方面的實(shí)施例公開了一種面向跨領(lǐng)域知識(shí)發(fā)現(xiàn)的主題挖掘方法,包括以下步驟:A:對(duì)于給定的有類標(biāo)的文本數(shù)據(jù)集,構(gòu)建源領(lǐng)域文本集合;對(duì)于給定的沒有類標(biāo)的文本數(shù)據(jù)集,構(gòu)建目標(biāo)領(lǐng)域集合:從所述源領(lǐng)域文本集合抽取每個(gè)類別下文本的潛在類別特征信息,將所述潛在類別特征信息建模在風(fēng)格潛在組件中;從所述源領(lǐng)域文本集合抽取文本中潛在語義信息,建模在主題潛在組件中;C:從所述目標(biāo)領(lǐng)域集合抽取出所有文本的潛在特征信息和潛在語義信息;D:根據(jù)所述風(fēng)格潛在組件和從所述目標(biāo)領(lǐng)域集合抽取的潛在特征信息,將所述目標(biāo)領(lǐng)域集合中的所述文本自動(dòng)聚合在所述風(fēng)格潛在組件中;根據(jù)所述主題潛在組件和從所述目標(biāo)領(lǐng)域集合中抽取的所述潛在特征信息,將所述目標(biāo)領(lǐng)域集合的語義信息建模在所述主題潛在組件中;以及E:建模所述目標(biāo)領(lǐng)域集合的語義信息的主題潛在組件。
[0017]根據(jù)本發(fā)明實(shí)施例的一種面向跨領(lǐng)域知識(shí)發(fā)現(xiàn)的主題挖掘方法,自動(dòng)挖掘源領(lǐng)域文本特征,這些特征可以用于目標(biāo)領(lǐng)域中文本的識(shí)別和分類;將源領(lǐng)域的文本特征信息有效地迀移到目標(biāo)領(lǐng)域的文本聚類之中,使得聚類的過程更準(zhǔn)確;自動(dòng)過濾掉目標(biāo)文本中的與源文本相似的內(nèi)容,能夠?qū)υ搭I(lǐng)域文本和目標(biāo)領(lǐng)域文本的內(nèi)容進(jìn)行建模,并對(duì)內(nèi)容的相似性和不同性進(jìn)行判別,從而找出目標(biāo)領(lǐng)域中與源領(lǐng)域不同文本內(nèi)容。
[0018]另外,根據(jù)本發(fā)明上述實(shí)施例的一種面向跨領(lǐng)域知識(shí)發(fā)現(xiàn)的主題挖掘方法,還可以具有如下附加的技術(shù)特征:
[0019]進(jìn)一步地,在步驟A和步驟B之間還包括:AB:對(duì)所述源領(lǐng)域文本集合和所述目標(biāo)領(lǐng)域集合中的文本數(shù)據(jù)進(jìn)行預(yù)處理。
[0020]進(jìn)一步地,所述預(yù)處理包括停用詞處理和文本去詞根化處理。
[0021]進(jìn)一步地,在步驟D中
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
河西区| 宜黄县| 梧州市| 海原县| 石河子市| 红原县| 黑龙江省| 繁峙县| 长汀县| 巴塘县| 黑山县| 陆河县| 白城市| 彩票| 成都市| 吉林省| 巍山| 岑巩县| 天津市| 定兴县| 吴堡县| 游戏| 米泉市| 平安县| 岳池县| 吴忠市| 蒙阴县| 本溪市| 庆阳市| 黔江区| 宜阳县| 芜湖市| 中江县| 阿拉善盟| 和平县| 庄浪县| 连云港市| 连州市| 休宁县| 斗六市| 阳东县|