種基于微博的用戶年齡分類方法的流程圖;
[0045] 圖2為本發(fā)明實(shí)施例提供的一種基于微博的用戶年齡分類方法中獲取預(yù)設(shè)數(shù)量 的訓(xùn)練用戶的流程圖;
[0046] 圖3為本發(fā)明實(shí)施例提供的一種基于微博的用戶年齡分類系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0047] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于 本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0048] 請(qǐng)參閱圖1,其示出了本發(fā)明實(shí)施例提供的一種基于微博的用戶年齡分類方法的 流程圖,可以包括以下步驟:
[0049] S11 :獲取待測(cè)用戶,待測(cè)用戶為未提供年齡信息的微博用戶。
[0050] 需要說(shuō)明的是,微博中設(shè)置有個(gè)人資料,個(gè)人資料就包括年齡信息;微博用戶可根 據(jù)需要選擇是否將自己的相關(guān)資料填入個(gè)人資料中。
[0051] S12:獲取待測(cè)用戶的微博文本。
[0052] 微博文本即可以為該待測(cè)用戶在其微博主頁(yè)發(fā)表過(guò)的文本。
[0053] S13 :對(duì)待測(cè)用戶的微博文本進(jìn)行分詞處理,得到待測(cè)文本詞組,并按照預(yù)設(shè)規(guī)則 對(duì)待測(cè)文本詞組進(jìn)行轉(zhuǎn)換,得到待測(cè)特征向量。
[0054] 本申請(qǐng)中對(duì)微博文本進(jìn)行分詞處理,均可以采用分詞軟件FuDanNLP來(lái)實(shí)現(xiàn)。另 外,預(yù)設(shè)規(guī)則可以由工作人員根據(jù)實(shí)際需要進(jìn)行確定,也可以根據(jù)預(yù)先建立的最大熵分類 器進(jìn)行確定。
[0055] S14:將待測(cè)特征向量作為預(yù)先建立的最大熵分類器的輸入值,得到測(cè)試結(jié)果。
[0056] S15:利用測(cè)試結(jié)果確定待測(cè)用戶的用戶年齡類型。
[0057] 本申請(qǐng)通過(guò)獲取待測(cè)用戶的微博文本,對(duì)其進(jìn)行相關(guān)處理后利用最大熵分類器獲 取測(cè)試結(jié)果,以根據(jù)該測(cè)試結(jié)果確定其用戶年齡類型,由此,將待測(cè)用戶自身所發(fā)表的微博 文本作為依據(jù),利用最大熵分類器進(jìn)行測(cè)試,能夠使得所確定的待測(cè)用戶的用戶年齡類型 更加準(zhǔn)確,且,能夠?qū)崿F(xiàn)通用性。
[0058] 最大摘分類器作為機(jī)器學(xué)習(xí)分類方法中的一種,其是基于最大摘信息理論的一種 分類器。最大熵分類器的基本思想是:為所有已知的因素建立模型,而把所有未知的因素排 除在外。也就是說(shuō),要找到一種概率分布,滿足所有已知的事實(shí),但是讓未知的因素最隨機(jī) 化。相對(duì)于樸素貝葉斯方法,該方法最大的特點(diǎn)就是不需要滿足特征與特征之間的條件獨(dú) 立。因此,該方法適合融合各種不一樣的特征,而無(wú)需考慮它們之間的影響。
[0059] 在最大熵模型下,假設(shè)p (y | X)代表樣本X屬于類別y的概率,最大熵模型要求 P(y IX)滿足一定約束條件,同時(shí)必須使依據(jù)以下公式計(jì)算得到的熵取得最大值:
【主權(quán)項(xiàng)】
1. 一種基于微博的用戶年齡分類方法,其特征在于,包括: 獲取待測(cè)用戶,所述待測(cè)用戶為未提供年齡信息的微博用戶; 獲取所述待測(cè)用戶的微博文本; 對(duì)所述待測(cè)用戶的微博文本進(jìn)行分詞處理,得到待測(cè)文本詞組,并按照預(yù)設(shè)規(guī)則對(duì)所 述待測(cè)文本詞組進(jìn)行轉(zhuǎn)換,得到待測(cè)特征向量; 將所述待測(cè)特征向量作為預(yù)先建立的最大熵分類器的輸入值,得到測(cè)試結(jié)果; 利用所述測(cè)試結(jié)果確定所述待測(cè)用戶的用戶年齡類型。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用所述測(cè)試結(jié)果確定所述待測(cè)用 戶的用戶年齡類型,包括: 所述測(cè)試結(jié)果包括第一概率、第二概率及第三概率,所述第一概率對(duì)應(yīng)的用戶年齡類 型為第一類,所述第二概率對(duì)應(yīng)的用戶年齡類型為第二類,所述第三概率對(duì)應(yīng)的用戶年齡 類型為第三類; 對(duì)所述第一概率、所述第二概率及所述第三概率進(jìn)行加權(quán)計(jì)算,得到計(jì)算結(jié)果,根據(jù)所 述計(jì)算結(jié)果確定所述待測(cè)用戶的用戶年齡類型。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述最大熵分類器的預(yù)先建立過(guò)程包括: 獲取預(yù)設(shè)數(shù)量的訓(xùn)練用戶,所述訓(xùn)練用戶為已經(jīng)提供年齡信息的微博用戶; 獲取每個(gè)訓(xùn)練用戶的年齡信息和微博文本; 依據(jù)所述每個(gè)訓(xùn)練用戶的年齡信息對(duì)所述訓(xùn)練用戶進(jìn)行分類,利用分類后得到的結(jié)果 確定所述每個(gè)訓(xùn)練用戶的用戶年齡類型; 將所述每個(gè)訓(xùn)練用戶的微博文本分別進(jìn)行分詞處理,得到分別與所述每個(gè)訓(xùn)練用戶的 微博文本對(duì)應(yīng)的訓(xùn)練文本詞組,并利用所述訓(xùn)練文本詞組構(gòu)成分別與所述每個(gè)訓(xùn)練用戶的 微博文本對(duì)應(yīng)的訓(xùn)練特征向量; 利用所述用戶年齡類型及所述訓(xùn)練特征向量構(gòu)建最大熵分類器。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述獲取預(yù)設(shè)數(shù)量的訓(xùn)練用戶,包括: 步驟1 :任意選取一個(gè)微博用戶作為當(dāng)前確定的訓(xùn)練用戶; 步驟2:獲取該當(dāng)前確定的訓(xùn)練用戶的關(guān)注微博用戶及粉絲微博用戶,并確定所述關(guān) 注微博用戶及粉絲微博用戶均為訓(xùn)練用戶; 步驟3 :由所述關(guān)注微博用戶及粉絲微博用戶中任意選取一個(gè)微博用戶作為當(dāng)前確定 的訓(xùn)練用戶,返回執(zhí)行步驟2,直至所述訓(xùn)練用戶的數(shù)量達(dá)到預(yù)設(shè)數(shù)量為止。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括: 構(gòu)建一個(gè)訓(xùn)練用戶列表,并將其初始化為空; 每獲得一個(gè)訓(xùn)練用戶,則將該訓(xùn)練用戶添加至所述訓(xùn)練用戶列表中,以供查詢。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,獲取每個(gè)訓(xùn)練用戶的年齡信息和微博文 本,包括: 通過(guò)微博提供的API獲取每個(gè)訓(xùn)練用戶的年齡信息和微博文本。
7. -種基于微博的用戶年齡分類系統(tǒng),其特征在于,包括待測(cè)用戶獲取裝置、待測(cè)特征 向量獲取裝置、測(cè)試裝置及用戶年齡類型確定裝置,其中: 所述待測(cè)用戶獲取裝置,用于獲取待測(cè)用戶,及所述待測(cè)用戶的微博文本,所述待測(cè)用 戶為未提供年齡信息的微博用戶; 所述待測(cè)特征向量獲取裝置,用于對(duì)所述待測(cè)用戶的微博文本進(jìn)行分詞處理,得到待 測(cè)文本詞組,并按照預(yù)設(shè)規(guī)則對(duì)所述待測(cè)文本詞組進(jìn)行轉(zhuǎn)換,得到待測(cè)特征向量; 測(cè)試裝置,用于將所述待測(cè)特征向量作為預(yù)先建立的最大熵分類器的輸入值,得到測(cè) 試結(jié)果; 用戶年齡類型確定裝置,用于利用所述測(cè)試結(jié)果確定所述待測(cè)用戶的用戶年齡類型。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述測(cè)試裝置包括:訓(xùn)練用戶獲取模塊、 用戶年齡類型確定模塊、訓(xùn)練特征向量獲取模塊及分類器構(gòu)建模塊,其中: 所述訓(xùn)練用戶獲取模塊,用于獲取預(yù)設(shè)數(shù)量的訓(xùn)練用戶,以及每個(gè)訓(xùn)練用戶的年齡信 息和微博文本,所述訓(xùn)練用戶為已經(jīng)提供年齡信息的微博用戶; 用戶年齡類型確定模塊,依據(jù)所述每個(gè)訓(xùn)練用戶的年齡信息對(duì)所述訓(xùn)練用戶進(jìn)行分 類,利用分類后得到的結(jié)果確定所述每個(gè)訓(xùn)練用戶的用戶年齡類型; 所述訓(xùn)練特征向量獲取模塊,用于將所述每個(gè)訓(xùn)練用戶的微博文本分別進(jìn)行分詞處 理,得到分別與所述每個(gè)訓(xùn)練用戶的微博文本對(duì)應(yīng)的訓(xùn)練文本詞組,并利用所述訓(xùn)練文本 詞組構(gòu)成分別與所述每個(gè)訓(xùn)練用戶的微博文本對(duì)應(yīng)的訓(xùn)練特征向量; 所述分類器構(gòu)建模塊,用于利用所述用戶年齡類型及所述訓(xùn)練特征向量構(gòu)建最大熵分 類器。
【專利摘要】本發(fā)明提供的一種基于微博的用戶年齡分類方法及系統(tǒng),包括:獲取待測(cè)用戶,待測(cè)用戶為未提供年齡信息的微博用戶;獲取待測(cè)用戶的微博文本;對(duì)待測(cè)用戶的微博文本進(jìn)行分詞處理,得到待測(cè)文本詞組,并按照預(yù)設(shè)規(guī)則對(duì)待測(cè)文本詞組進(jìn)行轉(zhuǎn)換,得到待測(cè)特征向量;將待測(cè)特征向量作為預(yù)先建立的最大熵分類器的輸入值,得到測(cè)試結(jié)果;利用測(cè)試結(jié)果確定待測(cè)用戶的用戶年齡類型。本申請(qǐng)通過(guò)獲取待測(cè)用戶的微博文本,對(duì)其進(jìn)行相關(guān)處理后利用最大熵分類器獲取測(cè)試結(jié)果,以根據(jù)該測(cè)試結(jié)果確定其用戶年齡類型,由此,將待測(cè)用戶自身所發(fā)表的微博文本作為依據(jù),利用最大熵分類器進(jìn)行測(cè)試,能夠使得所確定的待測(cè)用戶的用戶年齡類型更加準(zhǔn)確,且,能夠?qū)崿F(xiàn)通用性。
【IPC分類】G06F17-30
【公開(kāi)號(hào)】CN104809236
【申請(qǐng)?zhí)枴緾N201510237163
【發(fā)明人】李壽山, 戴斌, 周國(guó)棟
【申請(qǐng)人】蘇州大學(xué)
【公開(kāi)日】2015年7月29日
【申請(qǐng)日】2015年5月11日