在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0036] 微博不僅僅給單個用戶發(fā)表自己的感悟和建議提供了一個好的平臺,而且利用某 些交互機制讓其用戶之間可以進(jìn)行交互溝通。因此利用兩個微博用戶之間的交互文本對用 戶交互式性別進(jìn)行分類是一項具有重要意義的任務(wù)。具體來講,該任務(wù)將微博用戶之間的 交互劃分為四種類別,分別為:女對女(ff)、女對男(fm)、男對女(mf)和男對男(mm)。值 得注意的是,該任務(wù)不僅能預(yù)測用戶的性別,而且能幫助社會學(xué)研宄人與人之間的交流,并 且在使人機交互更人性化方面有一定的價值。
[0037] 參見圖1示出了本發(fā)明一種微博用戶交互式性別識別方法的一個實施例的流程 示意圖。
[0038] 由圖1可知,在本實施例中,該方法包括:
[0039] 101 :獲取微博用戶的個人資料信息和用戶之間的交互文本信息。
[0040] 可選的,在本實施例中,微博用戶的個人資料信息和用戶信息可通過微博提供的 API接口進(jìn)行抓取。
[0041] 具體的抓取過程為:構(gòu)建一個用戶隊列;從用戶隊列取出一個用戶作為種子用 戶,抓取種子用戶的個人資料信息和種子用戶與其他用戶之間的交互文本信息。其中,所述 用戶個人資料信息包括用戶名、用戶ID、性別、及關(guān)注用戶和粉絲用戶,并將關(guān)注用戶和粉 絲用戶加入到用戶隊列中。
[0042] 進(jìn)而,反復(fù)抓取多個種子用戶,直到抓取的種子用戶數(shù)目達(dá)到設(shè)定數(shù)值。
[0043] 102 :根據(jù)所述個人資料信息,對用戶之間的交互文本信息對交互式性別類別進(jìn)行 標(biāo)注,其中所述交互式性別類別包括:女對女、女對男、男對女和男對男。
[0044] 通過步驟101中抓取的用戶個人資料中的性別信息,用戶之間的額交互文本信息 進(jìn)行交互式性別類別標(biāo)注。該性別類別標(biāo)注具體以下四種,女對女(ff)、女對男(fm)、男對 女(mf)和男對男(mm)。需要說明的是,在抓取時需要保證每兩個交互的用戶之間的微博評 論數(shù)不少于十條,以保證抓取的可靠性。參見表1示出了本發(fā)明所抓取的多個用戶樣本。
[0045]
【主權(quán)項】
1. 一種微博用戶交互式性別識別方法,其特征在于,包括: 獲取微博用戶的個人資料信息和用戶之間的交互文本信息; 根據(jù)所述個人資料信息,對用戶之間的交互文本信息對交互式性別類別進(jìn)行標(biāo)注,其 中所述交互式性別類別包括;女對女、女對男、男對女和男對男; 將已經(jīng)標(biāo)注的所述交互文本信息作為訓(xùn)練樣本,并利用所述訓(xùn)練樣本建立最大滴分類 器; 利用所述最大滴分類器對測試樣本的交互文本信息進(jìn)行交互式性別類別,W對測試樣 本性別進(jìn)行識別。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取微博用戶的個人資料信息和用 戶之間的交互文本信息,包括: 構(gòu)建一個用戶隊列; 從用戶隊列取出一個種子用戶,抓取種子用戶個人資料信息和種子用戶與其他用戶之 間的交互文本信息,其中所述用戶個人資料信息包括用戶名、用戶ID、性別、及關(guān)注用戶和 粉絲用戶,并將關(guān)注用戶和粉絲用戶加入到用戶隊列中; 反復(fù)抓取多個種子用戶,直到抓取的種子用戶數(shù)目達(dá)到設(shè)定數(shù)值。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述個人資料信息,對用戶之間 的交互文本信息對交互式性別類別進(jìn)行標(biāo)注,包括: 根據(jù)所述個人資料信息中的性別信息對用戶之間的交互文本信息進(jìn)行交互時性別類 別進(jìn)行標(biāo)注。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將進(jìn)行標(biāo)注的所述交互文本信息作 為訓(xùn)練樣本,并利用所述訓(xùn)練樣本建立最大滴分類器,包括: 利用所述訓(xùn)練樣本及Mallet提供的最大滴工具包構(gòu)建最大滴分類器。
5. -種微博用戶交互式性別識別裝置,其特征在于,包括: 信息采集模塊,用于獲取微博用戶的個人資料信息和用戶之間的交互文本信息; 交互式性別類別標(biāo)注模塊,用于根據(jù)所述個人資料信息,對用戶之間的交互文本信息 對交互式性別類別進(jìn)行標(biāo)注,其中所述交互式性別類別包括;女對女、女對男、男對女和男 對男; 分類器構(gòu)建模塊,用于將已經(jīng)標(biāo)注的所述交互文本信息作為訓(xùn)練樣本,并利用所述訓(xùn) 練樣本建立最大滴分類器; 測試樣本性別識別模塊,用于利用所述最大滴分類器對測試樣本的交互文本信息進(jìn)行 交互式性別類別,W對測試樣本性別進(jìn)行識別。
6. 根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述信息采集模塊包括: 用戶列隊構(gòu)建單元,用于構(gòu)建一個用戶隊列; 種子用戶選定單元,用于從用戶隊列取出一個用戶,抓取種子用戶個人資料信息和種 子用戶與其他用戶之間的交互文本信息,其中所述用戶個人資料信息包括用戶名、用戶ID、 性別、及關(guān)注用戶和粉絲用等,并將關(guān)注用戶和粉絲用戶加入到用戶隊列中;反復(fù)抓取多個 種子用戶,直到抓取的種子用戶數(shù)目達(dá)到設(shè)定數(shù)值。
7. 根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述交互式性別類別標(biāo)注模塊包括: 類別標(biāo)注子模塊,用于根據(jù)所述個人資料信息中的性別信息對用戶之間的交互文本信 息進(jìn)行交互式性別類別進(jìn)行標(biāo)注。
8.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述分類器構(gòu)建模塊包括: 分類器構(gòu)建子模塊,用于利用所述訓(xùn)練樣本及Mallet提供的最大滴工具包構(gòu)建最大 滴分類器。
【專利摘要】本方案公開了一種微博用戶交互式性別識別方法及裝置。該方法首先獲取微博用戶的個人資料信息和用戶之間的交互微博文本,并利用交互用戶個人資料中的性別信息對交互文本的交互式性別類別進(jìn)行標(biāo)注;然后利用標(biāo)注好的用戶之間的交互文本作為訓(xùn)練樣本,并利用訓(xùn)練樣本訓(xùn)練最大熵分類器;最后,對某測試交互用戶集進(jìn)行分類。綜合來看,本發(fā)明可以利用交互文本對微博中的兩個交互用戶的交互式性別進(jìn)行識別,且在訓(xùn)練樣本數(shù)量有限的情況下,達(dá)到較高的準(zhǔn)確率。
【IPC分類】G06F17-30
【公開號】CN104598648
【申請?zhí)枴緾N201510087855
【發(fā)明人】李壽山, 王晶晶, 段湘煜, 周國棟
【申請人】蘇州大學(xué)
【公開日】2015年5月6日
【申請日】2015年2月26日