欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

產(chǎn)品問題的識別方法及系統(tǒng)與流程

文檔序號:11691435閱讀:320來源:國知局
產(chǎn)品問題的識別方法及系統(tǒng)與流程

本申請涉及機(jī)器學(xué)習(xí)領(lǐng)域,尤其涉及一種應(yīng)用機(jī)器學(xué)習(xí)解決客服中產(chǎn)品問題的識別的方法及系統(tǒng)。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,服務(wù)商可以為用戶提供多種產(chǎn)品應(yīng)用。一站式服務(wù)可以給用戶提供便利,因而,服務(wù)商通常將多種產(chǎn)品應(yīng)用整合在一個服務(wù)平臺上完成服務(wù)以提供良好的用戶體驗(yàn)。

當(dāng)用戶在使用產(chǎn)品應(yīng)用的發(fā)生問題的時候,可以通過服務(wù)平臺提供的客服端口進(jìn)行咨詢、投訴等。

在實(shí)現(xiàn)現(xiàn)有技術(shù)過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:

隨著服務(wù)平臺上整合的產(chǎn)品應(yīng)用的數(shù)量的增加,勢必要維持越來越大的客服團(tuán)隊(duì)來解決產(chǎn)品應(yīng)用使用過程中產(chǎn)生的客訴??头藛T通??梢越o予解決特定問題針對性的指導(dǎo),也可以提供產(chǎn)品應(yīng)用的質(zhì)量反饋。然而,除非將客服團(tuán)隊(duì)收集到的所有信息匯總分析,否則,難以發(fā)現(xiàn)服務(wù)平臺整合的各產(chǎn)品應(yīng)用的問題的輕重緩急。而且,客服團(tuán)隊(duì)反饋的產(chǎn)品應(yīng)用問題的過程中可能存在信息流失的問題。

因此,需要提供一種智能化的產(chǎn)品問題的識別方法及系統(tǒng)以解決產(chǎn)品問題的識別占用資源大、識別效率低、準(zhǔn)確性差的技術(shù)問題。



技術(shù)實(shí)現(xiàn)要素:

本申請實(shí)施例提供一種占用資源小、識別效率高、準(zhǔn)確性好的產(chǎn)品問題的識別方法。

具體的,一種產(chǎn)品問題的識別方法,包括:

導(dǎo)入文檔集合,所述文檔集合包含對產(chǎn)品存在問題的描述;

切分文檔集合形成若干切分詞;

劃分切分詞為產(chǎn)品詞和問題詞,所述問題詞為對產(chǎn)品存在的問題進(jìn)行描述的詞;

建立產(chǎn)品詞和問題詞之間多對多的映射關(guān)系,拼接產(chǎn)品詞和問題詞生成包含產(chǎn)品詞和問題詞的主題。

本申請實(shí)施例還提供一種產(chǎn)品問題的識別系統(tǒng),包括:

導(dǎo)入模塊,用于導(dǎo)入文檔集合,所述文檔集合包含對產(chǎn)品存在問題的描述;

切詞模塊,用于切分文檔集合形成若干切分詞;

分類模塊,用于劃分切分詞為產(chǎn)品詞和問題詞,所述問題詞為對產(chǎn)品存在的問題進(jìn)行描述的詞;

拼詞模塊,用于建立產(chǎn)品詞和問題詞之間多對多的映射關(guān)系,拼接產(chǎn)品詞和問題詞生成包含產(chǎn)品詞和問題詞的主題。

本申請實(shí)施例提供的產(chǎn)品問題的識別方法和系統(tǒng),至少具有如下有益效果:

在本申請?zhí)峁┑膶?shí)施例中,切分詞可以分為產(chǎn)品詞和問題詞。而主題由產(chǎn)品詞和問題詞構(gòu)成。這樣,由于產(chǎn)品詞、問題詞共同作為主題的組成部分,則計(jì)算機(jī)處理文檔集合時,形成的主題必然包括產(chǎn)品(詞)問題的描述。從而可以解決產(chǎn)品問題的識別占用資源大、識別效率低、準(zhǔn)確性差的技術(shù)問題。

附圖說明

此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實(shí)施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:

圖1為本申請實(shí)施例提供的產(chǎn)品問題的識別方法流程圖。

圖2為本申請實(shí)施例提供的lda圖模型。

圖3為圖2的細(xì)化圖模型。

圖4為本申請實(shí)施例提供的產(chǎn)品問題的識別系統(tǒng)的流程圖。

具體實(shí)施方式

為使本申請的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本申請具體實(shí)施例及相應(yīng)的附圖對本申請技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅是本申請一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本申請保護(hù)的范圍。

文本主題的挖掘可以用于發(fā)現(xiàn)文本中的重要信息。文本主題的挖掘的主要步驟大致可以分為將文本切分為若干切分詞、將切分詞拼接形成主題摘要。當(dāng)然,為了提高提取信息的準(zhǔn)確程度,還可以針對文本切分過程以及切分詞的拼接過程進(jìn)行優(yōu)化。

請參照圖1,計(jì)算機(jī)進(jìn)行產(chǎn)品問題的識別時,可以按照以下步驟進(jìn)行:

s100:導(dǎo)入文檔集合。

文檔集合是由單個客服人員,或者整個客服團(tuán)隊(duì)為用戶服務(wù)形成的記錄的集合。這些記錄的集合,可以存儲為文檔集合,也就是,一份由若干客服文檔形成的文本。

s200:切分文檔集合形成若干切分詞。

進(jìn)一步的,在本申請?zhí)峁┑囊环N實(shí)施例中,切分文檔集合形成若干切分詞,具體包括:

根據(jù)分詞模板,切分客服文檔集合的字符串為若干切分詞。

分詞模板可以定制,也可以根據(jù)字符與字符之間組合的頻度,動態(tài)調(diào)整形成分詞模板。具體的,例如,可以將“網(wǎng)絡(luò)技術(shù)有限公司”根據(jù)字符與字符之間組合的頻度,切分為“網(wǎng)絡(luò)”、“技術(shù)”“有限公司”。根據(jù)分詞模板切分字符串為若干切分詞,可以提高字符串切分的準(zhǔn)確性,從而獲得更為準(zhǔn)確的主題。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,在切分文檔集合形成若干切分詞之前,所述方法還包括:

對文檔集合進(jìn)行排除自動回復(fù)字符串、網(wǎng)頁標(biāo)簽字符串,或后綴字符串的預(yù)處理。

文檔集合中可能包含無意義的自動回復(fù)、網(wǎng)頁標(biāo)簽、通用后綴等內(nèi)容,將客戶文檔集合中這些無意義的詞語進(jìn)行剔除,可以獲得更為準(zhǔn)確的主題摘要以及更快的運(yùn)算速度。具體的,例如,排除文檔集合中的“[自動回復(fù)]用戶暫時不在,稍后回復(fù)”、“http://”“.txt”等內(nèi)容。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,在切分文檔集合形成若干切分詞之前,所述方法還包括:

對文檔集合進(jìn)行排除停用詞的預(yù)處理。

停用詞可以包含功能詞。這些功能詞極其普遍,與其他詞相比,功能詞沒有什么實(shí)際含義,比如“the”“is”“at”“which”“on”“我”“這”“一些”等。排除詞語中的停用詞,可以節(jié)省存儲空間和提高處理效率。

s300:劃分切分詞為產(chǎn)品詞和問題詞。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,所述方法還包括:

提供預(yù)設(shè)產(chǎn)品詞,將產(chǎn)品詞之外的切分詞歸類為問題詞。

具體的,可以由產(chǎn)品問題的識別方法的提供方,在應(yīng)用程序中直接預(yù)置產(chǎn)品詞。則,除預(yù)置產(chǎn)品詞之外的其他切分詞,可以作為問題詞。

另外,也可以由產(chǎn)品問題的識別方法在具體的應(yīng)用中自定義產(chǎn)品詞。除預(yù)置產(chǎn)品詞之外的其他切分詞,可以作為問題詞。

s400:建立產(chǎn)品詞和問題詞之間多對多的映射關(guān)系,拼接產(chǎn)品詞和問題詞生成包含產(chǎn)品詞和問題詞的主題。

具體的,例如,建立產(chǎn)品詞和問題詞的二維概率矩陣。文檔集合中,有a%的內(nèi)容反映甲產(chǎn)品的問題的,有b%的內(nèi)容反映乙產(chǎn)品的問題。其中,在反映甲產(chǎn)品問題的a%的內(nèi)容中,a%反映的是登錄方面的問題,b%反映的是 安全方面的問題;在反映乙產(chǎn)品問題的b%的內(nèi)容中,c%反映的是付款方面的問題,d%反映的是轉(zhuǎn)賬方面的問題。

在本申請?zhí)峁┑膶?shí)施例中,切分詞可以分為產(chǎn)品詞和問題詞。而主題由產(chǎn)品詞和問題詞構(gòu)成。這樣,由于產(chǎn)品詞、問題詞共同作為主題的組成部分,則計(jì)算機(jī)處理文檔集合時,形成的主題必然包括產(chǎn)品(詞)問題的描述。從而可以解決產(chǎn)品問題的識別占用資源大、識別效率低、準(zhǔn)確性差的技術(shù)問題。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,建立產(chǎn)品詞和問題詞之間多對多的映射關(guān)系,拼接產(chǎn)品詞和問題詞生成包含產(chǎn)品詞和問題詞的主題,具體包括:

建立第一概率正比于第二概率的模型,所述第一概率為文檔集合出現(xiàn)切分詞的概率,所述第二概率為文檔集合出現(xiàn)主題概率、主題出現(xiàn)產(chǎn)品詞概率、主題出現(xiàn)問題詞概率的乘積;

求解使得第二概率最大的模型參數(shù);

根據(jù)獲得的模型參數(shù),計(jì)算得到文檔集出現(xiàn)主題概率、主題出現(xiàn)產(chǎn)品詞概率、主題出現(xiàn)問題詞概率;

拼接產(chǎn)品詞和問題詞,生成產(chǎn)品詞與問題詞共同出現(xiàn)的概率描述。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,建立第一概率正比于第二概率的模型具體如下:

其中,p(zi=k|z-i,wp,wq)表示文檔集出現(xiàn)切分詞的概率;

表示主題中出現(xiàn)問題詞的概率;

表示主題中出現(xiàn)產(chǎn)品詞的概率;

表示文檔中出現(xiàn)主題的概率。

應(yīng)當(dāng)指出的是,從切分文檔集合形成切分詞到拼接切分詞形成主題是按順序進(jìn)行的,然而,對于計(jì)算機(jī)而言,從文檔集合到文檔,從文檔再到主題,再從主題到切分詞才是符合邏輯的從大到小的集合。從靜態(tài)的角度來看,一篇文檔出現(xiàn)主題、主題出現(xiàn)切分詞是符合統(tǒng)計(jì)學(xué)概率分布的。從動態(tài)的角度來看,文檔依一定概率生成主題、主題依一定概率生成切分詞。

為了使得動態(tài)的切分詞生成過程的數(shù)學(xué)模型容易理解,下面作一個形象化的舉例。假設(shè),有兩壇子骰子。第一壇子裝的是文本-主題骰子,即一個文本對應(yīng)多個主題的骰子。第二個壇子裝的是主題-詞語骰子,即一個主題對應(yīng)多個詞語的骰子。這里的“文本”可以理解為上述“文檔集合”的一個具體例子。

隨機(jī)地從第二個壇子中獨(dú)立地抽取k個主題-詞語骰子,編號為從1到k。

將文檔集合中每一篇文檔切分為切分詞的過程可以看作是:

一、從第一個壇子中隨機(jī)抽取一個文本-主題骰子。

二、重復(fù)如下過程生成文檔中的詞語:

投擲文本-主題骰子,得到一個編號z;

選擇k個主題-詞語骰子中編號為z的那個骰子,投擲該骰子,得到一個詞語。

隨著文檔中每一個詞語的確定,文檔的內(nèi)容隨之確定。

其中,可以認(rèn)為選定骰子(文本-主題骰子,主題-詞語骰子)滿足先驗(yàn)概率,也就是服從狄利克雷分布。

圖2所示為隱含狄利克雷(latentdirichletallocation,lda)圖模型。lda圖模型可以通過如下公式描述:

根據(jù)lda處理文本生成詞語的具體過程如下:

α→θ→z,這個過程對應(yīng):

先從第一個壇子中抽取了一個文本-主題骰子,然后投擲該文本-主題骰子, 生成了主題編號z。

β→w,這個過程對應(yīng):選擇編號為z的主題-詞語骰子,投擲該骰子得到一個詞語。

文檔中每一個詞語確定,也就意味著由詞語構(gòu)成的文檔被確定。

其中,α是dirichlet分布參數(shù)。θ=(θ_1,θ_2,…,θ_k)是產(chǎn)生主題的多項(xiàng)式分布參數(shù)。θ_k表示第k個主題被選擇的概率。根據(jù)θ可以生成一個主題z,即z~multinormial(theta)。β表示k個主題、v個詞語構(gòu)成的k×v矩陣。β_ij表示由主題z_i生成詞語w_j的概率。

根據(jù)上面的描述,圖2中的過程可以細(xì)化如圖3所示。

進(jìn)一步的,上圖中,β是先驗(yàn)dirichlet概率。先驗(yàn)概率(priorprobability)是指根據(jù)以往經(jīng)驗(yàn)和分析得到的概率,它往往作為“由因求果”問題中的“因”出現(xiàn)的概率。后驗(yàn)概率是指通過調(diào)查或其它方式獲取新的附加信息,利用貝葉斯公式對先驗(yàn)概率進(jìn)行修正,而后得到的概率。本申請實(shí)施例可以增加β的后驗(yàn)dirichlet概率

具體的:

對于α→θ_m→zm,n,這個過程可以物理化的表達(dá)為:對于第m篇文檔,先從第一個壇子中抽取了一個文本-主題骰子θ_m,然后投擲該文本-主題骰子θ_m,生成了文檔中第n個詞語的編號為zm,n的主題。

對于這個過程可以物理化的表達(dá)為:生成第m篇文檔的第n個詞。首先,在k個文本-主題骰子中中,挑選編號為k=zm,n的骰子進(jìn)行投擲,然后生成詞語wm,n。

綜上,正如lda貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)中所描述的,在lda模型中處理一篇文檔生成切分詞的方式如下:

從狄利克雷分布α中取樣生成文檔m的主題分布θ_m;

從主題的多項(xiàng)式分布θ_m中取樣生成文檔m第n個詞的主題zm,n;

從狄利克雷分布β中取樣生成主題zm,n的詞語分布

從詞語的多項(xiàng)式分布中采樣最終生成詞語wm,n。

狄利克雷分布作為多項(xiàng)式分布的共軛先驗(yàn)概率分布,因此整個模型中所有可見變量以及隱藏變量的聯(lián)合概率分布公式是:

最終一篇文檔的詞語分布的最大似然估計(jì)可以通過將上式的θ_m以及進(jìn)行積分和對zm進(jìn)行求和得到:

lda模型的最終目標(biāo)是對于一個新的文本,能夠計(jì)算出這個文本的主題分布。為了實(shí)現(xiàn)這個目標(biāo),需要事先基于給定的文本訓(xùn)練模型參數(shù)α和β。訓(xùn)練樣本(z,w)由吉布斯采樣給出。

p(wm|α,β)的最大似然估計(jì),最終可以通過吉布斯采樣(gibbssampling)等方法估計(jì)出模型中的參數(shù)α,β。

吉布斯采樣的原理是:t時刻,固定其余坐標(biāo),只在一個坐標(biāo)軸上采樣。這里具體的是指詞語t。

具體過程如下:

(1)首先對所有文檔中的所有詞語遍歷一遍,為其都隨機(jī)分配一個主題,即zm,n=k~multinormial(1/k),其中m表示第m篇文檔,n表示文檔中的第n個詞語,k表示主題,k表示主題的總數(shù),之后將對應(yīng)的nm+1,nk+1,他們分別表示在m文檔中k主題出現(xiàn)的次數(shù),m文檔中主題數(shù)量的和,k主題對應(yīng)的t詞的次數(shù),k主題對應(yīng)的總詞語數(shù)。

(2)之后對下述操作進(jìn)行重復(fù)迭代:

對所有文檔中的所有詞語進(jìn)行遍歷,假如當(dāng)前文檔m的詞t對應(yīng)主題為k,則nm-1,nk-1,即先拿出當(dāng)前詞,之后根據(jù)lda中主題樣本的概率分布抽樣獲取新的主題,在對應(yīng)的nm,nk上分別+1。

(3)迭代完成后輸出主題-詞語矩陣和文本-主題矩陣θ

表示主題k中詞語t的概率分布;

表示文檔m中主題k的概率分布。

在本申請?zhí)峁┑囊环N可實(shí)現(xiàn)的方式中,詞語t進(jìn)一步細(xì)分為產(chǎn)品詞和問題詞。其中,

表示主題k中問題詞q的概率分布;

表示主題k中產(chǎn)品詞p的概率分布;

表示文檔m中主題k的概率分布;

對應(yīng)的切分詞分布的概率正比于文檔集合出現(xiàn)主題概率*主題出現(xiàn)產(chǎn)品詞概率*主題出現(xiàn)問題詞概率的隱含狄利克雷模型為:

基于吉布斯采樣,可以計(jì)算出使得主題出現(xiàn)問題詞的概率*主題出現(xiàn)產(chǎn)品詞的概率*文檔出現(xiàn)主題的概率最大的隱含狄利克雷參數(shù)。

即p(zi=k|z-i,wp,wq)的最大似然估計(jì),最終可以通過吉布斯采樣(gibbssampling)等方法估計(jì)出模型中的參數(shù)αk和βt。

根據(jù)估計(jì)出的參數(shù)αk和βt,可以計(jì)算得到主題k、產(chǎn)品詞p、問題詞q的概率矩陣。其中,主題k由產(chǎn)品詞p和問題詞q構(gòu)成。

具體的,例如,對某客服文檔處理的結(jié)果為:該文檔有70%在說“認(rèn)證”相關(guān)的主題、30%在說“花唄”相關(guān)的主題。主題“認(rèn)證”由產(chǎn)品詞“實(shí)名認(rèn)證”(3/4概率)、“認(rèn)證”(1/4概率);問題詞“申請”(1/4概率)、“身份證” (2/4概率)、“證件”(1/4概率)構(gòu)成。主題“花唄”由產(chǎn)品詞“花唄”(1/3概率)、“花唄付款”(2/3概率)構(gòu)成;問題詞由“開通”(2/3概率)、“入口”(1/6)、“開啟”(1/6)構(gòu)成。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,求解使得第二概率最大的模型參數(shù),具體包括:

采用吉布斯采樣方法,根據(jù)p(zi=k|z-i,wp,wq)的最大似然估計(jì),估計(jì)出模型中的參數(shù)αk和βt,其中,αk是文檔中出現(xiàn)主題的先驗(yàn)狄利克雷參數(shù),βt是主題中出現(xiàn)切分詞的先驗(yàn)狄利克雷參數(shù)。

在本申請?zhí)峁┑挠忠粚?shí)施例中,可以提供預(yù)設(shè)產(chǎn)品詞,將產(chǎn)品詞之外的切分詞歸類為問題詞。提供預(yù)設(shè)產(chǎn)品詞的方式可以是,產(chǎn)品問題的識別方法的提供方基于提供服務(wù)的內(nèi)容,在建立詞語分布的概率公式時提供預(yù)設(shè)產(chǎn)品詞。另外一種提供預(yù)設(shè)產(chǎn)品詞的方式可以是,產(chǎn)品問題的識別方法的用戶在使用時,根據(jù)產(chǎn)品問題的識別方法的提供方提供的設(shè)定功能,設(shè)定產(chǎn)品詞。

以上是本申請實(shí)施例提供的產(chǎn)品問題的識別方法,基于同樣的思路,請參照圖4,本申請還提供一種產(chǎn)品問題的識別方法系統(tǒng)1,包括:

導(dǎo)入模塊11,用于導(dǎo)入文檔集合,所述文檔集合包含對產(chǎn)品存在問題的描述;;

切詞模塊12,用于切分文檔集合形成若干切分詞;

分類模塊13,用于劃分切分詞為產(chǎn)品詞和問題詞,所述問題詞為對產(chǎn)品存在的問題進(jìn)行描述的詞;

拼詞模塊14,用于建立產(chǎn)品詞和問題詞之間多對多的映射關(guān)系,拼接產(chǎn)品詞和問題詞生成包含產(chǎn)品詞和問題詞的主題。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,所述切詞模塊12用于:

根據(jù)分詞模板,切分客服文檔集合的字符串為若干切分詞。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,所述系統(tǒng)還包括預(yù)處理模塊15;

所述預(yù)處理模塊15用于:

在切分文檔集合形成若干切分詞之前,對文檔集合進(jìn)行排除自動回復(fù)字符串、網(wǎng)頁標(biāo)簽字符串,或后綴字符串的預(yù)處理。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,所述系統(tǒng)還包括預(yù)處理模塊15;

所述預(yù)處理模塊15用于:

在切分文檔集合形成若干切分詞之前,對文檔集合進(jìn)行排除停用詞的預(yù)處理。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,所述系統(tǒng)還包括設(shè)置模塊16;

所述設(shè)置模塊16用于:

提供預(yù)設(shè)產(chǎn)品詞,將產(chǎn)品詞之外的切分詞歸類為問題詞。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,所述拼詞模塊14用于:

建立第一概率正比于第二概率的模型,所述第一概率為文檔集合出現(xiàn)切分詞的概率,所述第二概率為文檔集合出現(xiàn)主題概率、主題出現(xiàn)產(chǎn)品詞概率、主題出現(xiàn)問題詞概率的乘積;

求解使得文檔集出現(xiàn)主題概率*主題出現(xiàn)產(chǎn)品詞概率*主題出現(xiàn)問題詞概率最大的模型參數(shù);

根據(jù)獲得的模型參數(shù),計(jì)算得到文檔集出現(xiàn)主題概率、主題出現(xiàn)產(chǎn)品詞概率、主題出現(xiàn)問題詞概率;

拼接產(chǎn)品詞和問題詞,生成產(chǎn)品詞與問題詞共同出現(xiàn)的概率描述。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,所述拼詞模塊用于:

建立第一概率正比于第二概率的模型具體如下:

其中,p(zi=k|z-i,wp,wq)表示文檔集出現(xiàn)切分詞的概率;

表示主題中出現(xiàn)問題詞的概率;

表示主題中出現(xiàn)產(chǎn)品詞的概率;

表示文檔中出現(xiàn)主題的概率。

進(jìn)一步的,在本申請?zhí)峁┑挠忠粚?shí)施例中,所述拼詞模塊14用于:

采用吉布斯采樣方法,根據(jù)p(zi=k|z-i,wp,wq)的最大似然估計(jì),估計(jì)出模型中的參數(shù)αk和βt,其中,αk是文檔中出現(xiàn)主題的先驗(yàn)狄利克雷參數(shù),βt是主題中出現(xiàn)切分詞的先驗(yàn)狄利克雷參數(shù)。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)值處理設(shè)備的處理器以產(chǎn)生一個機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)值處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)值處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲器中,使得存儲在該計(jì)算機(jī)可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)值處理設(shè)備上,使 得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

在一個典型的配置中,計(jì)算設(shè)備包括一個或多個處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。

內(nèi)存可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲器(rom)或閃存(flashram)。內(nèi)存是計(jì)算機(jī)可讀介質(zhì)的示例。

計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實(shí)現(xiàn)信息存儲。信息可以是計(jì)算機(jī)可讀指令、數(shù)值結(jié)構(gòu)、程序的模塊或其他數(shù)值。計(jì)算機(jī)的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲器(sram)、動態(tài)隨機(jī)存取存儲器(dram)、其他類型的隨機(jī)存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計(jì)算設(shè)備訪問的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)值信號和載波。

還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。

本領(lǐng)域技術(shù)人員應(yīng)明白,本申請的實(shí)施例可提供為方法、系統(tǒng)或計(jì)算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實(shí)施例、完全軟件實(shí)施例或結(jié)合軟件和 硬件方面的實(shí)施例的形式。而且,本申請可采用在一個或多個其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

以上所述僅為本申請的實(shí)施例而已,并不用于限制本申請。對于本領(lǐng)域技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請的權(quán)利要求范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
丰宁| 兰西县| 司法| 油尖旺区| 山西省| 淮滨县| 桓仁| 合肥市| 额济纳旗| 山丹县| 宁夏| 东城区| 嘉定区| 青神县| 新龙县| 米泉市| 民县| 安达市| 苏尼特左旗| 桦甸市| 丹巴县| 常德市| 沙洋县| 太白县| 兴城市| 沙坪坝区| 惠州市| 兴化市| 邛崃市| 吉木萨尔县| 德清县| 嘉鱼县| 屯昌县| 礼泉县| 布拖县| 曲沃县| 拉萨市| 开封县| 于都县| 小金县| 凤冈县|