一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法
【專利摘要】本發(fā)明涉及一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法,包括:1、按話題采集微博,形成多個以話題為單位的微博集合;對微博進行預(yù)處理,去除噪聲,形成詞的集合的形式;2、從微博中識別出話題的關(guān)鍵詞:計算每個詞對于相應(yīng)話題的權(quán)重,然后所有詞根據(jù)權(quán)重的大小進行排序,將各話題中排序結(jié)果的前K個詞作為相應(yīng)話題的關(guān)鍵詞;3、基于圖模型探測微博中針對話題的主流觀點:構(gòu)建每條微博的特征向量,然后利用微博用戶、微博和關(guān)鍵詞之間的關(guān)系,以微博用戶、微博、關(guān)鍵詞為節(jié)點構(gòu)建出微博圖,再通過隨機游走算法計算微博圖中各節(jié)點的得分,最終得到針對各話題的微博的排序列表。該方法探測速度快、準(zhǔn)確度高,通用性強,適用范圍廣。
【專利說明】一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及觀點挖掘【技術(shù)領(lǐng)域】,更具體地,涉及一種基于異質(zhì)圖隨機游走的中文 微博客觀點探測方法,能應(yīng)用于多話題主流觀點的發(fā)現(xiàn)和排序,適用于中文微博客,包括新 浪微博、騰訊微博、網(wǎng)易微博等。
【背景技術(shù)】
[0002] 在現(xiàn)有技術(shù)中,有很多技術(shù)方法可用于網(wǎng)民群體觀點探測。傳統(tǒng)的觀點挖掘方法 通過文本的傾向性分析進行觀點挖掘,這些方法包括觀點識別、觀點檢索、觀點要素抽取、 垃圾評論識別等。對這些方法進一步分類,大致包括兩個方面。一方面采用基于觀點詞表 的簡單統(tǒng)計模型、基于機器學(xué)習(xí)的方法和基于自然語言處理的觀點挖掘模型等方法來挖掘 網(wǎng)民觀點,這些方法主要利用了觀點詞表、上下文信息、句子級信息、詞位置鄰近關(guān)系、詞背 景知識等文本信息。另一方面借助當(dāng)前信息檢索和文本挖掘領(lǐng)域的最新模型提出了基于一 體化模型的觀點檢索算法檢索網(wǎng)民對特定話題的觀點看法,典型的有:基于詞典的產(chǎn)生式 傾向性檢索模型、基于觀點詞查詢擴展的觀點相關(guān)模型、基于主題-觀點混合的主題模型、 基于外部數(shù)據(jù)集的產(chǎn)生式語言模型等?;谝惑w化模型的觀點挖掘由于具有堅實的統(tǒng)計理 論基礎(chǔ)、更容易解釋,在觀點挖掘相關(guān)研究工作中被廣泛研究。
[0003] 然而,這些方法主要從文本內(nèi)容角度出發(fā)分析挖掘網(wǎng)民群體觀點,缺乏考慮"網(wǎng) 民"的信譽度、影響力等用戶關(guān)系對觀點度量的影響。并且,社會媒介的數(shù)據(jù)蘊含非常豐富 可以利用的數(shù)據(jù)特征:網(wǎng)頁之間的鏈接關(guān)系、用戶之間的好友關(guān)系、網(wǎng)頁內(nèi)容的轉(zhuǎn)載關(guān)系、 用戶之間的隱性交互關(guān)系等。
[0004] 在現(xiàn)有技術(shù)中,存在著一些基于圖模型的方法被廣泛應(yīng)用于對社會媒介數(shù)據(jù)的挖 掘。它擅長針對對象之間的各種聯(lián)系建立模型,并根據(jù)模型對社會媒介中的對象進行排序。 如何基于對象之間的相互關(guān)系構(gòu)建適應(yīng)各種任務(wù)需求的網(wǎng)絡(luò)圖是基于圖模型方法的基礎(chǔ)。 典型的方法有基于網(wǎng)頁的出、入鏈構(gòu)建網(wǎng)頁鏈接圖對網(wǎng)頁進行排序;搜索引擎的PageRank 算法;HITS算法;LexRank算法;個性化PageRank算法;流形學(xué)習(xí)模型等。這些方法通過定 義網(wǎng)絡(luò)圖空間中對象之間的度數(shù)、距離長短等,采用隨機游走算法或流形學(xué)習(xí)模型挖掘?qū)?象的信譽度或影響力。
[0005] 然而,這些基于圖模型的方法并沒有充分地被使用在觀點探測中。
[0006] 現(xiàn)有的觀點探測方法沒有充分考慮新型短文本媒體的社會化特征。隨著近年來微 博客這類社交媒介消息的不斷產(chǎn)生,產(chǎn)生了大量的富含網(wǎng)民觀點的數(shù)據(jù)資源,并需要通過 數(shù)據(jù)挖掘技術(shù)來發(fā)現(xiàn)其中的熱點話題、意見領(lǐng)袖等信息,這就對觀點探測技術(shù)提出了一個 挑戰(zhàn):如何構(gòu)建一個統(tǒng)一有效的觀點探測系統(tǒng)來滿足針對微博客進行觀點挖掘的需要。因 此,迫切需要有一種高效準(zhǔn)確的觀點探測方法,該方法應(yīng)能夠在具有多個話題的微博數(shù)據(jù) 中發(fā)現(xiàn)話題關(guān)鍵詞、構(gòu)建出微博關(guān)系圖,探測每個話題的主流觀點,同時能夠在不同的微博 類網(wǎng)站、不同領(lǐng)域方便地使用。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于提供一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法,該 方法探測速度快、準(zhǔn)確度高,通用性強,適用范圍廣。
[0008] 為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于異質(zhì)圖隨機游走的中文微博客 觀點探測方法,包括以下步驟: 步驟1 :按話題采集微博帖子,形成多個以話題為單位的微博集合;對按話題采集到的 微博帖子進行預(yù)處理,去除噪聲,形成詞的集合的形式; 步驟2 :從微博中識別出話題的關(guān)鍵詞:計算微博中每個詞對于相應(yīng)話題的權(quán)重,然 后所有詞根據(jù)權(quán)重的大小進行排序,將各話題中排序結(jié)果的前K個詞作為相應(yīng)話題的關(guān)鍵 詞; 步驟3 :基于圖模型探測微博中針對話題的主流觀點:構(gòu)建每條微博帖子的特征向量, 然后利用微博用戶、微博帖子和關(guān)鍵詞之間的關(guān)系,以微博用戶、微博帖子、關(guān)鍵詞為節(jié)點 構(gòu)建出微博圖,再通過隨機游走算法計算微博圖中各節(jié)點的得分,最終得到針對各話題的 微博帖子的排序列表。
[0009] 進一步的,在步驟1中,所述去除噪聲的規(guī)則為去除微博中的以下內(nèi)容: a) 網(wǎng)頁鏈接; b) 特殊字符; c) 廣告相關(guān)的特殊字符; d) 表達情感的擬聲詞。
[0010] 進一步的,在步驟2中,采用類TF*IDF計算每個詞對于相應(yīng)話題的權(quán)重方法如 下:
【權(quán)利要求】
1. 一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法,其特征在于,包括以下步 驟: 步驟1:按話題采集微博帖子,形成多個以話題為單位的微博集合;對按話題采集到的 微博帖子進行預(yù)處理,去除噪聲,形成詞的集合的形式; 步驟2 :從微博中識別出話題的關(guān)鍵詞:計算微博中每個詞對于相應(yīng)話題的權(quán)重,然 后所有詞根據(jù)權(quán)重的大小進行排序,將各話題中排序結(jié)果的前K個詞作為相應(yīng)話題的關(guān)鍵 詞; 步驟3 :基于圖模型探測微博中針對話題的主流觀點:構(gòu)建每條微博帖子的特征向量, 然后利用微博用戶、微博帖子和關(guān)鍵詞之間的關(guān)系,以微博用戶、微博帖子、關(guān)鍵詞為節(jié)點 構(gòu)建出微博圖,再通過隨機游走算法計算微博圖中各節(jié)點的得分,最終得到針對各話題的 微博帖子的排序列表。
2. 根據(jù)權(quán)利要求1所述的一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法,其特 征在于,在步驟1中,所述去除噪聲的規(guī)則為去除微博中的以下內(nèi)容: a) 網(wǎng)頁鏈接; b) 特殊字符; c) 廣告相關(guān)的特殊字符; d) 表達情感的擬聲詞。
3. 根據(jù)權(quán)利要求1所述的一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法,其特 征在于,在步驟2中,采用類TF*IDF計算每個詞對于相應(yīng)話題的權(quán)重方法如下:
其中,(表示微博集合中按話題劃分的子集,表示第i個詞在第j個話題的微 博集合中出現(xiàn)的頻次,/代表話題的個數(shù); 然后按照值的大小來描述第i個詞對于第j個話題的重要性,選取排 名靠前的詞得到話題相關(guān)的關(guān)鍵詞集合。
4. 根據(jù)權(quán)利要求1所述的一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法,其特 征在于,在步驟3中,所述微博帖子的特征向量由兩部分構(gòu)成: a) 微博帖子中包含的關(guān)鍵詞; b) 按小時劃分的時間戳信息。
5. 根據(jù)權(quán)利要求1所述的一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法,其特 征在于,在步驟3中,所述微博圖的構(gòu)建方法,包括以下步驟: 步驟al;分別以微博用戶、微博帖子、關(guān)鍵詞為節(jié)點,根據(jù)微博用戶之間的關(guān)注與被關(guān) 注關(guān)系,將微博用戶節(jié)點相連;根據(jù)微博用戶與微博帖子之間的發(fā)布關(guān)系,將微博用戶節(jié)點 與微博帖子節(jié)點相連;根據(jù)微博用戶發(fā)布的微博帖子與關(guān)鍵詞之間的包含關(guān)系,將微博用 戶節(jié)點與關(guān)鍵詞節(jié)點相連; 步驟a2 :根據(jù)微博帖子之間的相似度關(guān)系,將余弦相似度大于O的微博帖子節(jié)點相連; 根據(jù)微博帖子與關(guān)鍵詞之間的包含關(guān)系將微博帖子節(jié)點與關(guān)鍵詞節(jié)點相連; 步驟a3 :根據(jù)關(guān)鍵詞在同一微博帖子的共現(xiàn)關(guān)系,將關(guān)鍵詞節(jié)點相連。
6.根據(jù)權(quán)利要求1所述的一種基于異質(zhì)圖隨機游走的中文微博客觀點探測方法,其特 征在于,在步驟3中,所述微博圖中各節(jié)點的得分的計算方法為:
【文檔編號】G06F17/30GK104268230SQ201410504376
【公開日】2015年1月7日 申請日期:2014年9月28日 優(yōu)先權(quán)日:2014年9月28日
【發(fā)明者】陳國龍, 廖祥文, 黃弈超 申請人:福州大學(xué)