一種基于微博用戶行為的人格預(yù)測(cè)方法
【專利摘要】本申請(qǐng)?zhí)峁┮环N基于微博用戶行為的人格預(yù)測(cè)方法,包括:步驟1,獲取微博活躍用戶的id列表,根據(jù)活躍用戶的id列表,通過微博的“對(duì)他說”功能,獲取被試用戶在線填寫的人格問卷;步驟2,根據(jù)填寫人格問卷的被試名單,下載該用戶的微博數(shù)據(jù),根據(jù)建立的微博網(wǎng)絡(luò)行為體系,從微博數(shù)據(jù)中提取相應(yīng)的靜態(tài)行為特征以及動(dòng)態(tài)的行為特征;步驟3,利用時(shí)間序列分析方法,對(duì)提取的用戶動(dòng)態(tài)行為特征進(jìn)行數(shù)值化,形成完整的微博特征集;步驟4,根據(jù)逐步回歸算法,從微博特征集中,提取最大的顯著特征集合,完成特征選取;對(duì)選取出來的特征,利用建立的人格預(yù)測(cè)回歸模型,預(yù)測(cè)用戶的人格心理指標(biāo)。
【專利說明】一種基于微博用戶行為的人格預(yù)測(cè)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及人格預(yù)測(cè)技術(shù),更具體地,涉及基于微博用戶行為的人格預(yù)測(cè)方法。
【背景技術(shù)】
[0002]人格是一種穩(wěn)定的心理變量,它能夠預(yù)測(cè)多種有價(jià)值的結(jié)果變量,比如:個(gè)體變量(工作績(jī)效,心理健康)、人際變量(親密關(guān)系)、社會(huì)變量(犯罪行為,社會(huì)意識(shí)形態(tài))。因此人格是心理學(xué)研究的一個(gè)重要課題。
[0003]目前傳統(tǒng)的人格預(yù)測(cè)的主要手段分為:自陳人格調(diào)查表和投射技術(shù)。自陳人格調(diào)查表的原型是伍德沃斯個(gè)人資料調(diào)查表(Woodworth Personal Data Sheet),通過有目的總結(jié)、收集用戶的日常行為,然后對(duì)收集的行為進(jìn)行選擇、分組,從而形成可以供用戶紙筆填寫的自測(cè)量表,并通過后期的用戶實(shí)驗(yàn),對(duì)量表進(jìn)行修正。在量表的編制、收集、選擇和分組產(chǎn)生了多種方法,主要的方法有內(nèi)容關(guān)聯(lián)、經(jīng)驗(yàn)準(zhǔn)則確定、因素分析和人格理論等。
[0004]投射技術(shù)是指通過給測(cè)試者指定一個(gè)相對(duì)非結(jié)構(gòu)的任務(wù),即這個(gè)任務(wù)允許做出幾乎無限可能的反應(yīng),通過分析用戶對(duì)這個(gè)任務(wù)的反應(yīng),從而來預(yù)測(cè)用戶的整體人格狀況。投射技術(shù)源自于臨床,由針對(duì)精神病人的治療方法(比如藝術(shù)療法)演化而來。一般來說,投射工具是經(jīng)過掩飾的測(cè)試方法,使被測(cè)試者難以覺察對(duì)他們的反應(yīng)所做的心理學(xué)解釋。在投射技術(shù)發(fā)展的過程中,已經(jīng)形成了大量的成型技術(shù):墨跡技術(shù)、圖片技術(shù)、言語技術(shù)、自傳體記憶和表演技術(shù)等。
[0005]然而,在實(shí)際應(yīng)用中這兩種方法都有自己的不足:自陳人格調(diào)查表是一種自測(cè)量表,相比較投射技術(shù),很難隱藏自己的測(cè)量意圖,這會(huì)或多或少的激起被試的防御心理,對(duì)自測(cè)的結(jié)果產(chǎn)生影響。投射技術(shù)的缺陷是常模資料的缺失,很多投射技術(shù)還是依賴臨床醫(yī)生的“一般臨床經(jīng)驗(yàn)”解釋投射實(shí)驗(yàn)的成績(jī)。另外,不管是自陳人格調(diào)查表還是投射技術(shù),都需要被測(cè)試者的直接參與。這樣,在進(jìn)行大規(guī)模團(tuán)體實(shí)驗(yàn),實(shí)驗(yàn)的代價(jià)、成本以及周期都比較高昂。在對(duì)時(shí)效性比較高的需求下,這兩種方法都難以勝任。
[0006]另一方面,隨著互聯(lián)網(wǎng)的迅速發(fā)展,以及用戶網(wǎng)絡(luò)的數(shù)據(jù)獲取的方便性,一些學(xué)者開始嘗試?yán)糜脩舻脑诰€行為來預(yù)測(cè)用戶的人格。學(xué)者利用數(shù)據(jù)挖掘的知識(shí),通過對(duì)用戶繁雜的網(wǎng)絡(luò)數(shù)據(jù)與用戶人格的關(guān)聯(lián)研究,試圖找到不同人格表現(xiàn)出來的不同的網(wǎng)絡(luò)行為,從而達(dá)到用網(wǎng)絡(luò)行為對(duì)用戶的人格進(jìn)行他評(píng)預(yù)測(cè),克服傳統(tǒng)的心理學(xué)問卷依賴用戶主觀意識(shí),存在用戶實(shí)驗(yàn)周期長(zhǎng)、代價(jià)大的缺點(diǎn)。但是這種研究的鋪開面廣,雖然得到一些與人格相關(guān)的網(wǎng)絡(luò)行為,但是由于互諒網(wǎng)的復(fù)雜性以及實(shí)效性,建立一個(gè)普適的網(wǎng)絡(luò)行為人格預(yù)測(cè)模型技術(shù)上比較困難,而且需要長(zhǎng)時(shí)間的積累。
【發(fā)明內(nèi)容】
[0007]為克服現(xiàn)有技術(shù)的上述缺陷,本發(fā)明提出一種基于微博用戶行為的人格預(yù)測(cè)方法。
[0008]根據(jù)本發(fā)明的一個(gè)方面,提出了基于微博用戶行為的人格預(yù)測(cè)方法,包括:步驟I,獲取微博活躍用戶的id列表,根據(jù)活躍用戶的id列表,通過微博的“對(duì)他說”功能,邀請(qǐng)被試用戶在線填寫人格問卷;步驟2,根據(jù)填寫人格問卷的被試名單,下載該用戶的微博數(shù)據(jù),根據(jù)建立的微博網(wǎng)絡(luò)行為體系,從微博數(shù)據(jù)中提取相應(yīng)的靜態(tài)行為特征以及動(dòng)態(tài)的行為特征;步驟3,利用時(shí)間序列分析方法,對(duì)提取的用戶動(dòng)態(tài)行為特征進(jìn)行數(shù)值化,形成完整的微博特征集;步驟4,根據(jù)逐步回歸算法,從微博特征集中,提取最大的顯著特征集合,完成特征選取;對(duì)選取出來的特征,利用建立的人格預(yù)測(cè)回歸模型,預(yù)測(cè)用戶的人格心理指標(biāo)。
[0009]本發(fā)明通過在線人格預(yù)測(cè),結(jié)合用戶的微博數(shù)據(jù),能實(shí)時(shí)、準(zhǔn)確地預(yù)測(cè)用戶的人格狀況。通過這種方式,在個(gè)體用戶的人格研究領(lǐng)域,提供了一個(gè)人格測(cè)量的新工具,能大大提高人格實(shí)驗(yàn)的代價(jià)、難度與實(shí)驗(yàn)周期。另外,在針對(duì)群體用戶的人格研究中,本發(fā)明提供的方法將對(duì)群體用戶的人格進(jìn)行實(shí)時(shí)監(jiān)測(cè)和統(tǒng)計(jì)變?yōu)楝F(xiàn)實(shí),能實(shí)時(shí)、準(zhǔn)確地給出群體用戶的整體心理狀況。進(jìn)一步的,通過本方法提供的思路,可以把這種在線他測(cè)的方式應(yīng)用到其他的心理特征,能結(jié)合社會(huì)預(yù)警的知識(shí),形成一個(gè)在線預(yù)警系統(tǒng)。
【專利附圖】
【附圖說明】
[0010]圖1為微博網(wǎng)絡(luò)行為半自動(dòng)構(gòu)建構(gòu)建流程;
[0011]圖2為微博動(dòng)態(tài)行為特征分析方法;
[0012]圖3為活躍用戶抓取流程。
[0013]如圖所示,為了能明確實(shí)現(xiàn)本發(fā)明的實(shí)施例的結(jié)構(gòu),在圖中標(biāo)注了特定的結(jié)構(gòu)和器件,但這僅為示意需要,并非意圖將本發(fā)明限定在該特定結(jié)構(gòu)、器件和環(huán)境中,根據(jù)具體需要,本領(lǐng)域的普通技術(shù)人員可以將這些器件和環(huán)境進(jìn)行調(diào)整或者修改,所進(jìn)行的調(diào)整或者修改仍然包括在后附的權(quán)利要求的范圍中。
【具體實(shí)施方式】
[0014]下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明提供的一種基于微博用戶行為的人格預(yù)測(cè)方法進(jìn)行詳細(xì)描述。
[0015]在以下的描述中,將描述本發(fā)明的多個(gè)不同的方面,然而,對(duì)于本領(lǐng)域內(nèi)的普通技術(shù)人員而言,可以僅僅利用本發(fā)明的一些或者全部結(jié)構(gòu)或者流程來實(shí)施本發(fā)明。為了解釋的明確性而言,闡述了特定的數(shù)目、配置和順序,但是很明顯,在沒有這些特定細(xì)節(jié)的情況下也可以實(shí)施本發(fā)明。在其他情況下,為了不混淆本發(fā)明,對(duì)于一些眾所周知的特征將不再進(jìn)行詳細(xì)闡述。
[0016]本發(fā)明提供一個(gè)通過用戶的微博數(shù)據(jù)預(yù)測(cè)用戶人格狀況的方法,該方法包括:
[0017]獲取微博(例如新浪、搜狐或者騰訊微博)活躍用戶的id列表;根據(jù)用戶的活躍用戶的id列表,通過微博的“對(duì)他說”功能(@功能),邀請(qǐng)被試用戶在線填寫人格問卷;根據(jù)填寫人格問卷的被試名單,下載用戶的微博數(shù)據(jù);得到下載的用戶數(shù)據(jù),根據(jù)建立的微博網(wǎng)絡(luò)行為體系,從微博數(shù)據(jù)中提取相應(yīng)的靜態(tài)行為特征以及動(dòng)態(tài)的行為特征;利用時(shí)間序列分析方法,對(duì)提取的用戶動(dòng)態(tài)行為特征進(jìn)行數(shù)值化,從而形成一個(gè)完整的微博特征集;根據(jù)逐步回歸算法,從微博特征集中,提取最大的顯著特征集合,完成特征選??;對(duì)選取出來的特征,利用建立的人格預(yù)測(cè)回歸模型,預(yù)測(cè)用戶的人格心理指標(biāo)。[0018]具體地,本發(fā)明首先提出了微博網(wǎng)絡(luò)動(dòng)態(tài)行為的構(gòu)建方法(如圖1所示),首先將一個(gè)網(wǎng)絡(luò)行為分為四個(gè)部分:主體,客體、功能/內(nèi)容以及操作路徑。一個(gè)網(wǎng)絡(luò)行為的一般形式表達(dá)式可以表達(dá)為:某種主體通過具體的功能/內(nèi)容作用于某類客體,并根據(jù)自己的人格特質(zhì)選擇某種作用路徑。拿微博平臺(tái)舉例來說明,用戶發(fā)送一條微博并@好友可以抽象成如下網(wǎng)絡(luò)行為:
[0019]行為:觀察用戶(主體)對(duì)好友(客體)使用微博的社交功能(功能)
[0020]路徑:使用@功能。
[0021]通過上述的半自動(dòng)微博網(wǎng)絡(luò)行為構(gòu)建方法,結(jié)合微博應(yīng)用平臺(tái)的數(shù)據(jù)類型(用戶的個(gè)人信息、用戶的關(guān)系網(wǎng)、用戶的話題列表、用戶的標(biāo)簽列表),生成了四十大類的微博網(wǎng)絡(luò)行為。部分行為如下表所示:
[0022]
[0023]
【權(quán)利要求】
1.基于微博用戶行為的人格預(yù)測(cè)方法,包括: 步驟1,獲取微博活躍用戶的id列表,根據(jù)活躍用戶的id列表,通過微博的“對(duì)他說”功能,獲取被試用戶在線填寫的人格問卷; 步驟2,根據(jù)填寫人格問卷的被試名單,下載該用戶的微博數(shù)據(jù),根據(jù)建立的微博網(wǎng)絡(luò)行為體系,從微博數(shù)據(jù)中提取相應(yīng)的靜態(tài)行為特征以及動(dòng)態(tài)行為特征; 步驟3,利用時(shí)間序列分析方法,對(duì)提取的用戶動(dòng)態(tài)行為特征進(jìn)行數(shù)值化,形成完整的微博特征集; 步驟4,根據(jù)逐步回歸算法,從微博特征集中提取最大的顯著特征集合,完成特征選??;對(duì)選取出來的特征,利用建立的人格預(yù)測(cè)回歸模型,預(yù)測(cè)用戶的人格心理指標(biāo)。
2.根據(jù)權(quán)利要求1所述的方法,其中,步驟3包括: 將列舉出來的動(dòng)態(tài)特征進(jìn)行矩陣化,該矩陣的行表示行為發(fā)生所在的小時(shí),矩陣的列表示行為發(fā)生所在的天的序號(hào),矩陣的元素表示行為的數(shù)值特征,得到N個(gè)動(dòng)態(tài)特征的時(shí)間特征矩陣; 從每個(gè)時(shí)間矩陣中提取M個(gè)時(shí)間序列,獲得N*M個(gè)用戶行為的時(shí)間序列特征; 對(duì)每個(gè)時(shí)間序列分別進(jìn)行L種統(tǒng)計(jì)學(xué)處理,獲得M*N*L個(gè)動(dòng)態(tài)特征,其中N、M和L為自然數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其中,步驟1中,獲取微博活躍用戶的id列表包括: 以多個(gè)用戶為種子用戶,采取寬度搜索的方式,利用微博爬蟲抓取用戶的關(guān)系網(wǎng),對(duì)所有的關(guān)系網(wǎng)的id去重; 從獲得的用戶id中,挑選出粉絲數(shù)在1000-3300的用戶,抓取他們的關(guān)系網(wǎng)全局;抓取所挑選的用戶,獲得其關(guān)系網(wǎng),對(duì)所有的關(guān)系網(wǎng)去重,獲得無重復(fù)的用戶id作為活躍用戶。
4.根據(jù)權(quán)利要求3所述的方法,其中,步驟I中的邀請(qǐng)被試用戶在線填寫人格問卷步驟還包括: 從活躍用戶中隨機(jī)挑選一定量的用戶,利用微博的“對(duì)他說”功能,使用機(jī)器微博賬戶,向這一定量微博用戶發(fā)出用戶實(shí)驗(yàn)的邀請(qǐng),收集有效用戶的人格問卷數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的方法,其中,步驟2包括: 從用戶的行為出發(fā),提取用戶微博中涉及用戶行為的特征; 通過對(duì)涉及用戶行為的特征進(jìn)行分析,將用戶行為分為靜態(tài)行為和微博動(dòng)態(tài)行為。
6.根據(jù)權(quán)利要求5所述的方法,其中,靜態(tài)特征包括用戶的自然屬性、用戶的設(shè)置信息、用戶的對(duì)熱門事件的偏好和用戶的關(guān)系網(wǎng)絡(luò)分析;微博動(dòng)態(tài)行為是指從用戶發(fā)送的微博列表中提取出來的行為特征。
7.根據(jù)權(quán)利要求5所述的方法,其中,步驟4還包括: 特征選取,采用逐步選擇的方式,以R方最優(yōu)為原則,逐步將特征放入到回歸模型,從整個(gè)特征集選出最優(yōu)的特征組合; 預(yù)測(cè)模型的選取及訓(xùn)練,通過Weka程序進(jìn)行模型的訓(xùn)練和驗(yàn)證,使用M5P算法來建立預(yù)測(cè)模型。
8.根據(jù)權(quán)利要求6所述的方法,其中,動(dòng)態(tài)行為特征的提取包括: 確定行為的主體和客體特征;窮舉微博上的功能特征; 窮舉微博上的路徑方式; 將主體、客體、功能和路徑組合在一起,形成一系列特征,主體對(duì)客體通過某種路徑作用某種功能; 根據(jù)約束條件對(duì)所有的行為進(jìn)行刪選。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述約束條件包括:關(guān)注目的/超越目的,順從/逆反,控制/同情以及自我中心 /他人取向。
【文檔編號(hào)】G06F17/30GK103902566SQ201210576951
【公開日】2014年7月2日 申請(qǐng)日期:2012年12月26日 優(yōu)先權(quán)日:2012年12月26日
【發(fā)明者】朱廷劭, 李琳, 李昂, 高銳 申請(qǐng)人:中國(guó)科學(xué)院心理研究所