用戶喜好標(biāo)簽挖掘方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,特別是涉及一種用戶喜好標(biāo)簽挖掘方法和裝置。
【背景技術(shù)】
[0002]常見的用戶標(biāo)簽為可反映用戶特征的字、詞、短語或短句。用戶喜好標(biāo)簽則為可反映用戶喜好或情感傾向的一種用戶標(biāo)簽。
[0003]現(xiàn)有的互聯(lián)網(wǎng)應(yīng)用多注重個(gè)性化服務(wù),為用戶量身推薦適合用戶的產(chǎn)品和社交信息等,以提高信息推送命中率以及用戶粘性。如何挖掘出用戶興趣點(diǎn),分析用戶情感傾向,從而生成用戶喜好標(biāo)簽是很多互聯(lián)網(wǎng)應(yīng)用希望解決的問題。
[0004]傳統(tǒng)技術(shù)一般通過社交網(wǎng)絡(luò)中其它用戶給某一用戶定義的關(guān)鍵詞生成該用戶的喜好標(biāo)簽,但是由于個(gè)人主觀因素的存在,生成的用戶喜好標(biāo)簽不一定能真實(shí)地反映用戶的喜好及情感傾向。
【發(fā)明內(nèi)容】
[0005]基于此,有必要提供一種可挖掘出準(zhǔn)確反映用戶真實(shí)喜好的標(biāo)簽的用戶喜好標(biāo)簽挖掘方法和裝置。
[0006]一種用戶喜好標(biāo)簽挖掘方法,包括以下步驟:
[0007]獲取待分析的文本以及文本對應(yīng)的面部視頻和/或音頻;
[0008]對所述文本進(jìn)行分詞,得到組成所述文本的詞序列;
[0009]提取所述詞序列中的作為情感主體和情感對象的詞;
[0010]根據(jù)所述文本提取出表征所述情感主體對所述情感對象的情感傾向的文本特征向量;
[0011]根據(jù)所述面部視頻提取出表征所述情感主體對所述情感對象的情感傾向的視頻特征向量,以及/或者,根據(jù)所述音頻提取出表征所述情感主體對所述情感對象的情感傾向的音頻特征向量;
[0012]根據(jù)所述文本特征向量、以及所述視頻特征向量和/或音頻特征向量,采用已訓(xùn)練的情感傾向判別模型,判斷出所述情感主體對所述情感對象的情感傾向;
[0013]根據(jù)得到的所述情感傾向生成所述情感主體對所述情感對象的喜好標(biāo)簽。
[0014]一種用戶喜好標(biāo)簽挖掘裝置,包括:
[0015]原始數(shù)據(jù)獲取模塊,用于獲取待分析的文本以及文本對應(yīng)的音頻和/或面部視頻;
[0016]分詞模塊,用于對所述文本進(jìn)行分詞,得到組成所述文本的詞序列;
[0017]主體及對象提取模塊,用于提取所述詞序列中的作為情感主體和情感對象的詞;
[0018]文本特征提取模塊,用于根據(jù)所述文本提取出表征所述情感主體對所述情感對象的情感傾向的文本特征向量;
[0019]音視頻特征提取模塊,用于根據(jù)所述音頻提取出表征所述情感主體對所述情感對象的情感傾向的音頻特征向量,以及/或者,根據(jù)所述面部視頻提取出表征所述情感主體對所述情感對象的情感傾向的視頻特征向量;
[0020]情感傾向判斷模塊,用于根據(jù)所述文本特征向量、以及所述視頻特征向量和/或音頻特征向量,采用已訓(xùn)練的情感傾向判別模型,判斷出所述情感主體對所述情感對象的情感傾向;
[0021 ] 標(biāo)簽生成模塊,用于根據(jù)得到的所述情感傾向生成所述情感主體對所述情感對象的喜好標(biāo)簽。
[0022]上述用戶喜好標(biāo)簽挖掘方法和裝置,從文本中提取情感主體和情感對象,并提取出可表征情感主體對情感對象的情感傾向的文本特征向量、以及視頻特征向量和/或音頻特征向量,根據(jù)該文本特征向量、以及視頻特征向量和/或音頻特征向量,采用已訓(xùn)練的情感傾向判別模型,判斷出情感主體對情感對象的情感傾向,并進(jìn)一步根據(jù)得到的情感傾向生成情感主體對情感對象的喜好標(biāo)簽;上述用戶喜好標(biāo)簽挖掘方法和裝置,一方面能自動(dòng)提取出情感主體和情感對象,另一方面結(jié)合文本特征向量以及視頻特征向量和/或音頻特征向量獲得情感主體對情感對象的情感傾向,可以獲取更加準(zhǔn)確的情感傾向,因此,不但可以更加智能挖掘出用戶喜好標(biāo)簽,而且能挖掘出可更加準(zhǔn)確反映用戶真實(shí)喜好的用戶喜好標(biāo)簽。
【附圖說明】
[0023]圖1為一個(gè)實(shí)施例中可運(yùn)行本申請所述的用戶喜好標(biāo)簽挖掘方法的設(shè)備的部分結(jié)構(gòu)框圖;
[0024]圖2為一個(gè)實(shí)施例中的用戶喜好標(biāo)簽挖掘方法的流程示意圖;
[0025]圖3A為一個(gè)實(shí)施例中圖2的步驟S208的流程示意圖;
[0026]圖3B為一個(gè)實(shí)施例中提取文本的情感詞特征步驟的流程示意圖;
[0027]圖4為一個(gè)實(shí)施例中圖2的步驟S210的流程示意圖;
[0028]圖5為一個(gè)實(shí)施例中圖2的步驟S212的流程示意圖;
[0029]圖6為一個(gè)實(shí)施例中的用戶喜好標(biāo)簽挖掘裝置的結(jié)構(gòu)示意圖;
[0030]圖7為一個(gè)實(shí)施例中的用戶喜好標(biāo)簽挖掘裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0031]為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0032]圖1為一個(gè)實(shí)施例中可運(yùn)行本申請所述的用戶喜好標(biāo)簽挖掘方法的設(shè)備的部分結(jié)構(gòu)框圖。如圖1所示,在一個(gè)實(shí)施例中,該設(shè)備包括通過系統(tǒng)總線連接的處理器、存儲(chǔ)介質(zhì)、內(nèi)存和網(wǎng)絡(luò)接口。其中,網(wǎng)絡(luò)接口用于網(wǎng)絡(luò)通信;存儲(chǔ)介質(zhì)中存儲(chǔ)有操作系統(tǒng)、數(shù)據(jù)庫以及用于實(shí)現(xiàn)本申請所述的用戶喜好標(biāo)簽挖掘方法的軟件指令,數(shù)據(jù)庫用于存儲(chǔ)本申請所述的待分析的文本及對應(yīng)的面部視頻和/或音頻、以及本申請的用戶喜好標(biāo)簽挖掘方法執(zhí)行過程中的產(chǎn)生的以及用到的其它數(shù)據(jù)等;內(nèi)存用于緩存數(shù)據(jù);處理器協(xié)調(diào)各個(gè)部件之間的工作并執(zhí)行上述的軟件指令以實(shí)現(xiàn)本申請所述的用戶喜好標(biāo)簽挖掘方法。圖1中示出的結(jié)構(gòu),僅僅是與本申請方案相關(guān)的部分結(jié)構(gòu)的框圖,并不構(gòu)成對本申請方案所應(yīng)用于其上的設(shè)備的限定,具體的設(shè)備可以包括比圖中所示更多或更少的部件,或者組合某些部件,或者具有不同的部件布置。
[0033]如圖2所示,在一個(gè)實(shí)施例中,一種用戶喜好標(biāo)簽挖掘方法,包括以下步驟:
[0034]步驟S202,獲取待分析的文本以及文本對應(yīng)的音頻和面部視頻。
[0035]本申請文件中,文本對應(yīng)的音頻為錄制文本對應(yīng)的語音得到的音頻,文本對應(yīng)的語音即為可表示文本語文的語音;文本對應(yīng)的面部視頻為連續(xù)攝取發(fā)聲動(dòng)作的面部圖像得到的視頻,該發(fā)聲動(dòng)作形成該文本對應(yīng)的語音。文本對應(yīng)的音頻和文本對應(yīng)的面部視頻根據(jù)同一發(fā)聲動(dòng)作同步錄制得到。在下文的部分內(nèi)容中,也稱該音頻與該面部視頻相對應(yīng)。
[0036]在一個(gè)實(shí)施例中,可接收軟件通信客戶端向另一軟件通信客戶端發(fā)送的用戶社交活動(dòng)過程中錄取到的交互數(shù)據(jù)(包括文本、音頻和視頻等),從該交互數(shù)據(jù)中提取音頻和對應(yīng)的面部視頻,并進(jìn)一步的通過語音識(shí)別技術(shù)識(shí)別出該音頻對應(yīng)的文本作為待分析的文本。軟件通信客戶端向另一軟件通信客戶端發(fā)送的交互數(shù)據(jù)通過服務(wù)器中轉(zhuǎn),本申請所述的用戶喜好標(biāo)簽挖掘方法可由服務(wù)器執(zhí)行,從而服務(wù)器在接收到軟件通信客戶端發(fā)送的交互數(shù)據(jù)時(shí),可根據(jù)該交互數(shù)據(jù)執(zhí)行步驟S202。
[0037]步驟S204,對文本進(jìn)行分詞,得到組成文本的詞序列。
[0038]在一個(gè)實(shí)施例中,可采用現(xiàn)有的分詞工具對文本進(jìn)行分詞,得到多個(gè)詞,并將該多個(gè)詞按照其在文本中的位置依次排列構(gòu)成詞序列。
[0039]步驟S206,提取詞序列中的作為情感主體和情感對象的詞。
[0040]在一個(gè)實(shí)施例中,可采用已訓(xùn)練的情感主體和情感對象判別模型提取出詞序列中的作為情感主體的詞以及作為情感對象的詞。該情感主體和情感對象判別模型根據(jù)大量的已經(jīng)標(biāo)注了情感主體和情感對象的詞序列語料訓(xùn)練得到。
[0041]在一個(gè)實(shí)施例中,可采用現(xiàn)有的詞性標(biāo)注工具對詞序列中的詞進(jìn)行詞性標(biāo)注,進(jìn)一步的,可采用已訓(xùn)練的條件隨機(jī)場模型(CRFs,Condit1nal Random Fields)將從標(biāo)注了詞性的詞序列中提取出作為情感主體和情感對象的詞。該條件隨機(jī)場模型可根據(jù)大量的已經(jīng)標(biāo)注了詞的詞性以及情感主體和情感對象的詞序列語料訓(xùn)練得到。
[0042]步驟S208,根據(jù)文本提取出表征情感主體對情感對象的情感傾向的文本特征向量。
[0043]在一個(gè)實(shí)施例中,用于表征情感主體對情感對象的情感傾向的文本特征向量包括以下特征分量:文本的情感詞特征,以及以下特征中的零至多個(gè)特征:情感對象的詞向量、文本中的標(biāo)點(diǎn)符號(hào)特征、文本中的連接詞的詞向量。
[0044]如圖3A所示,步驟S208可包括以下步驟:
[0045]步驟S320,提取文本的情感詞特征,以及獲取以下特征中的零至多個(gè)特征:情感對象的詞向量、文本中的標(biāo)點(diǎn)符號(hào)特征、文本中的連接詞的詞向量。
[0046]在一個(gè)實(shí)施例中,文本的情感詞特征包括文本的情感詞的詞性、文本的情感詞的詞向量、文本的情感詞之前的程度詞的詞向量均值、文本的情感詞之前的否定詞數(shù)量。
[0047]其中,文本的情感詞之前的程度詞的詞向量均值為:文本中的情感詞之前的所有程度詞的詞向量的均值。詞的詞向量為可表征詞的語義的向量,兩個(gè)詞的詞向量的距離(例如cosine相似度、歐氏距離等)可用于表征該兩個(gè)詞語義上的相似度。
[0048]如圖3B所示,在一個(gè)實(shí)施例中,提取文本的情感詞特征的步驟包括以下步驟:
[0049]步驟S322,將組成文本的詞序列中的詞與預(yù)設(shè)的情感詞表進(jìn)行匹配,得到詞序列中的情感詞、以及在詞序列中的位置位于該情感詞之前的程度詞和否定詞。
[0050]程度詞為表示程度的詞,例如“很”、“一點(diǎn)”、“十分”等;否定詞則為表示否定的詞,例如“不”、“非”等。
[0051]上述預(yù)設(shè)的情感詞表可以是Hownet (知網(wǎng))情感詞表等情感詞表。該預(yù)設(shè)的情感詞表中包含被標(biāo)注為情感詞的詞、被標(biāo)注為程度詞的詞以及被標(biāo)注為