欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于微博的用戶年齡分類方法及系統(tǒng)的制作方法

文檔序號:8487901閱讀:586來源:國知局
一種基于微博的用戶年齡分類方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理和社交網(wǎng)絡(luò)技術(shù)領(lǐng)域,更具體地說,涉及一種基于微博 的用戶年齡分類方法及系統(tǒng)。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)的開放性、虛擬性與共享性,使其漸漸成為人們表達(dá)觀點、態(tài)度、感覺、 情緒等的公共平臺;同時,產(chǎn)生了大量基于互聯(lián)網(wǎng)的社交網(wǎng)站,其中就包括微型博客 (Microblog),即微博。越來越多的研宄工作開始關(guān)注微博,其中重要的一類研宄就是微博 用戶特征分析。
[0003] 所謂微博用戶特征分析,就是通過對微博用戶的信息和關(guān)系數(shù)據(jù)進(jìn)行決策樹分 析、相關(guān)性分析和關(guān)聯(lián)規(guī)則來挖掘用戶特征,并根據(jù)這些用戶特征進(jìn)行用戶分類、用戶挖掘 及影響力探測等。其中,微博用戶年齡是微博用戶特征分析的一項基本內(nèi)容,具體來講,其 主要為根據(jù)用戶年齡劃分特定類別,比如將用戶年齡劃分為70后、80后及90后,或者劃分 為成年和未成年。其中,出生年在1970到1979之間的用戶為70后,出生年在1980到1989 之間的用戶為80后,出生年在1990到1999之間的用戶為90后。
[0004] 現(xiàn)有技術(shù)中關(guān)于用戶年齡類型分類的技術(shù)方案主要是針對Twitter等外文網(wǎng)站, 其具體為:獲取一未提供年齡信息的待測用戶,該待測用戶存在具有一定聯(lián)系的并已經(jīng)提 供年齡信息的關(guān)聯(lián)用戶,通過獲取關(guān)聯(lián)用戶的年齡信息確定關(guān)聯(lián)用戶的年齡類型,進(jìn)而根 據(jù)其關(guān)聯(lián)用戶的年齡類型判斷該待測用戶的年齡類型。比如:關(guān)聯(lián)用戶中有百分之六十的 用戶為90后,則確定該待測用戶為90后。但是,現(xiàn)今的微博用戶大多數(shù)交友較廣泛,經(jīng)常 出現(xiàn)其大部分的關(guān)聯(lián)用戶與該待測用戶的年齡類型并不相同的情況,因此,用上述的技術(shù) 方案所確定待測用戶的年齡類型并不準(zhǔn)確,且不具備通用性。
[0005] 因此,現(xiàn)有技術(shù)中存在所確定的待測用戶的年齡類型不準(zhǔn)確,且不具有通用性的 缺點。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的是提供一種基于微博的用戶年齡分類方法及系統(tǒng),以解決現(xiàn)有技術(shù) 中存在的所確定的待測用戶的年齡類型不準(zhǔn)確,且不具有通用性的缺點。
[0007] 為了實現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
[0008] 一種基于微博的用戶年齡分類方法,包括:
[0009] 獲取待測用戶,所述待測用戶為未提供年齡信息的微博用戶;
[0010] 獲取所述待測用戶的微博文本;
[0011] 對所述待測用戶的微博文本進(jìn)行分詞處理,得到待測文本詞組,并按照預(yù)設(shè)規(guī)則 對所述待測文本詞組進(jìn)行轉(zhuǎn)換,得到待測特征向量;
[0012] 將所述待測特征向量作為預(yù)先建立的最大熵分類器的輸入值,得到測試結(jié)果;
[0013]利用所述測試結(jié)果確定所述待測用戶的用戶年齡類型。
[0014] 優(yōu)選的,所述利用所述測試結(jié)果確定所述待測用戶的用戶年齡類型,包括:
[0015] 所述測試結(jié)果包括第一概率、第二概率及第三概率,所述第一概率對應(yīng)的用戶年 齡類型為第一類,所述第二概率對應(yīng)的用戶年齡類型為第二類,所述第三概率對應(yīng)的用戶 年齡類型為第三類;
[0016] 對所述第一概率、所述第二概率及所述第三概率進(jìn)行加權(quán)計算,得到計算結(jié)果,根 據(jù)所述計算結(jié)果確定所述待測用戶的用戶年齡類型。
[0017] 優(yōu)選的,所述最大熵分類器的預(yù)先建立過程包括:
[0018] 獲取預(yù)設(shè)數(shù)量的訓(xùn)練用戶,所述訓(xùn)練用戶為已經(jīng)提供年齡信息的微博用戶;
[0019] 獲取每個訓(xùn)練用戶的年齡信息和微博文本;
[0020] 依據(jù)所述每個訓(xùn)練用戶的年齡信息對所述訓(xùn)練用戶進(jìn)行分類,利用分類后得到的 結(jié)果確定所述每個訓(xùn)練用戶的用戶年齡類型;
[0021] 將所述每個訓(xùn)練用戶的微博文本分別進(jìn)行分詞處理,得到分別與所述每個訓(xùn)練用 戶的微博文本對應(yīng)的訓(xùn)練文本詞組,并利用所述訓(xùn)練文本詞組構(gòu)成分別與所述每個訓(xùn)練用 戶的微博文本對應(yīng)的訓(xùn)練特征向量;
[0022] 利用所述用戶年齡類型及所述訓(xùn)練特征向量構(gòu)建最大熵分類器。
[0023] 優(yōu)選的,所述獲取預(yù)設(shè)數(shù)量的訓(xùn)練用戶,包括:
[0024] 步驟1 :任意選取一個微博用戶作為當(dāng)前確定的訓(xùn)練用戶;
[0025] 步驟2 :獲取該當(dāng)前確定的訓(xùn)練用戶的關(guān)注微博用戶及粉絲微博用戶,并確定所 述關(guān)注微博用戶及粉絲微博用戶均為訓(xùn)練用戶;
[0026] 步驟3 :由所述關(guān)注微博用戶及粉絲微博用戶中任意選取一個微博用戶作為當(dāng)前 確定的訓(xùn)練用戶,返回執(zhí)行步驟2,直至所述訓(xùn)練用戶的數(shù)量達(dá)到預(yù)設(shè)數(shù)量為止。
[0027] 優(yōu)選的,所述方法還包括:
[0028] 構(gòu)建一個訓(xùn)練用戶列表,并將其初始化為空;
[0029] 每獲得一個訓(xùn)練用戶,則將該訓(xùn)練用戶添加至所述訓(xùn)練用戶列表中,以供查詢。
[0030] 優(yōu)選的,獲取每個訓(xùn)練用戶的年齡信息和微博文本,包括:
[0031] 通過微博提供的API獲取每個訓(xùn)練用戶的年齡信息和微博文本。
[0032] 一種基于微博的用戶年齡分類系統(tǒng),包括待測用戶獲取裝置、待測特征向量獲取 裝置、測試裝置及用戶年齡類型確定裝置,其中:
[0033] 所述待測用戶獲取裝置,用于獲取待測用戶,及所述待測用戶的微博文本,所述待 測用戶為未提供年齡信息的微博用戶;
[0034] 所述待測特征向量獲取裝置,用于對所述待測用戶的微博文本進(jìn)行分詞處理,得 到待測文本詞組,并按照預(yù)設(shè)規(guī)則對所述待測文本詞組進(jìn)行轉(zhuǎn)換,得到待測特征向量;
[0035] 測試裝置,用于將所述待測特征向量作為預(yù)先建立的最大熵分類器的輸入值,得 到測試結(jié)果;
[0036] 用戶年齡類型確定裝置,用于利用所述測試結(jié)果確定所述待測用戶的用戶年齡類 型。
[0037] 優(yōu)選的,所述測試裝置包括:訓(xùn)練用戶獲取模塊、用戶年齡類型確定模塊、訓(xùn)練特 征向量獲取模塊及分類器構(gòu)建模塊,其中:
[0038] 所述訓(xùn)練用戶獲取模塊,用于獲取預(yù)設(shè)數(shù)量的訓(xùn)練用戶,以及每個訓(xùn)練用戶的年 齡信息和微博文本,所述訓(xùn)練用戶為已經(jīng)提供年齡信息的微博用戶;
[0039] 用戶年齡類型確定模塊,依據(jù)所述每個訓(xùn)練用戶的年齡信息對所述訓(xùn)練用戶進(jìn)行 分類,利用分類后得到的結(jié)果確定所述每個訓(xùn)練用戶的用戶年齡類型;
[0040] 所述訓(xùn)練特征向量獲取模塊,用于將所述每個訓(xùn)練用戶的微博文本分別進(jìn)行分詞 處理,得到分別與所述每個訓(xùn)練用戶的微博文本對應(yīng)的訓(xùn)練文本詞組,并利用所述訓(xùn)練文 本詞組構(gòu)成分別與所述每個訓(xùn)練用戶的微博文本對應(yīng)的訓(xùn)練特征向量;
[0041] 所述分類器構(gòu)建模塊,用于利用所述用戶年齡類型及所述訓(xùn)練特征向量構(gòu)建最大 摘分類器。
[0042] 本發(fā)明提供的一種基于微博的用戶年齡分類方法及系統(tǒng),包括:獲取待測用戶,所 述待測用戶為未提供年齡信息的微博用戶;獲取所述待測用戶的微博文本;對所述待測用 戶的微博文本進(jìn)行分詞處理,得到待測文本詞組,并按照預(yù)設(shè)規(guī)則對所述待測文本詞組進(jìn) 行轉(zhuǎn)換,得到待測特征向量;將所述待測特征向量作為預(yù)先建立的最大熵分類器的輸入值, 得到測試結(jié)果;利用所述測試結(jié)果確定所述待測用戶的用戶年齡類型。與現(xiàn)有技術(shù)相比, 本申請通過獲取待測用戶的微博文本,對其進(jìn)行相關(guān)處理后利用最大熵分類器獲取測試結(jié) 果,以根據(jù)該測試結(jié)果確定其用戶年齡類型,由此,將待測用戶自身所發(fā)表的微博文本作為 依據(jù),利用最大熵分類器進(jìn)行測試,能夠使得所確定的待測用戶的用戶年齡類型更加準(zhǔn)確, 且,能夠?qū)崿F(xiàn)通用性。
【附圖說明】
[0043] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0044]圖1為本發(fā)明實施例提供的一
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
宝丰县| 汨罗市| 务川| 梧州市| 黄大仙区| 炉霍县| 岐山县| 墨脱县| 和静县| 墨竹工卡县| 墨竹工卡县| 泰和县| 馆陶县| 安平县| 杭锦后旗| 抚松县| 雅江县| 漾濞| 海门市| 中山市| 马关县| 定西市| 皋兰县| 岳普湖县| 齐齐哈尔市| 泽库县| 鄱阳县| 星子县| 唐海县| 龙江县| 正阳县| 汝州市| 扎兰屯市| 海阳市| 珠海市| 甘肃省| 新干县| 商南县| 抚州市| 潼关县| 建昌县|