數(shù)據(jù)語義處理方法
【專利摘要】本發(fā)明提供一種數(shù)據(jù)語義處理方法,能夠自動(dòng)獲取語義分類信息,形成動(dòng)態(tài)分析處理模式,實(shí)現(xiàn)基于語義信息的面向自由文本轉(zhuǎn)換格式命令的語句自動(dòng)分類處理。該方法包括:將獲取的文本分割為語句,并對(duì)分割得到的語句進(jìn)行編號(hào);根據(jù)分割得到的語建立LDA模型;應(yīng)用Gibbs算法求解獲得LDA模型中語句的主題分布和主題的詞匯分布;計(jì)算語句的主題隸屬度值;根據(jù)語句的主題隸屬度值確定語句所屬的類別,并將類別結(jié)果按照對(duì)應(yīng)的語句序號(hào)輸出。
【專利說明】數(shù)據(jù)語義處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語句處理領(lǐng)域,尤其涉及一種數(shù)據(jù)語義處理方法。
【背景技術(shù)】
[0002]軍事模擬訓(xùn)練具有多方面的特殊優(yōu)勢,是軍事現(xiàn)代化的重要標(biāo)志之一,各國軍方已經(jīng)重點(diǎn)研究和發(fā)展。隨著軍事模擬訓(xùn)練技術(shù)的發(fā)展,各種裝備的智能化水平不斷提升。語義的表達(dá)、分析和處理作為軍事模擬訓(xùn)練智能化處理的基礎(chǔ)也越來越受到重視。如何對(duì)于軍事模擬訓(xùn)練涉及的語義進(jìn)行提取、表達(dá)、分析和處理則是各種軍事模擬訓(xùn)練智能化的基礎(chǔ)。鑒于人在各種軍事模擬訓(xùn)練中的重要作用,這里特別需要側(cè)重人機(jī)交互的語義分析理解處理。特別是在模擬訓(xùn)練中的虛擬部分需要對(duì)文本語義內(nèi)容作出智能化的反映,從而提升軍事模擬訓(xùn)練的效能。
[0003]在傳統(tǒng)的實(shí)兵訓(xùn)練中,參加訓(xùn)練的人員根據(jù)訓(xùn)練命令進(jìn)行組織和實(shí)施。通過各級(jí)指揮員和參訓(xùn)人員對(duì)于命令的理解,利用各種高效的傳輸模式進(jìn)行通訊交流指揮實(shí)施。而在軍事模擬訓(xùn)練中需要利用計(jì)算形成模擬虛兵,為了使虛兵在軍事模擬訓(xùn)練中能夠智能化模擬實(shí)兵對(duì)于各種訓(xùn)練任務(wù)的理解,并作出適當(dāng)?shù)姆磻?yīng),完成人機(jī)虛實(shí)交互,需要將相應(yīng)的作戰(zhàn)文書轉(zhuǎn)換成對(duì)應(yīng)的命令結(jié)構(gòu)格式,進(jìn)行通訊交流。這里需要將自然語言文本文字內(nèi)容中包含的作戰(zhàn)指揮關(guān)鍵信息進(jìn)行抽取和重組。實(shí)現(xiàn)這一抽取和重組最準(zhǔn)確的方法是組織人類專家進(jìn)行手工轉(zhuǎn)換,完成這一信息處理過程。
[0004]顯然這種模式無法適應(yīng)虛實(shí)結(jié)合的訓(xùn)練演習(xí)需要,因此如何自動(dòng)獲取語義分類信息,形成動(dòng)態(tài)分析處理模式,實(shí)現(xiàn)基于語義信息的面向自由文本轉(zhuǎn)換格式命令的語句自動(dòng)分類處理,是當(dāng)前需要解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0005](一)要解決的技術(shù)問題
[0006]本發(fā)明提供一種數(shù)據(jù)語義處理方法,能夠自動(dòng)獲取語義分類信息,形成動(dòng)態(tài)分析處理模式,實(shí)現(xiàn)基于語義信息的面向自由文本轉(zhuǎn)換格式命令的語句自動(dòng)分類處理。
[0007](二)技術(shù)方案
[0008]一種數(shù)據(jù)語義處理方法,包括:
[0009]將獲取的文本分割為語句,并對(duì)分割得到的語句進(jìn)行編號(hào);
[0010]根據(jù)分割得到的語建立LDA模型;
[0011]應(yīng)用Gibbs算法求解獲得LDA模型中語句的主題分布和主題的詞匯分布;
[0012]計(jì)算語句的主題隸屬度值;
[0013]根據(jù)語句的主題隸屬度值確定語句所屬的類別,并將類別結(jié)果按照對(duì)應(yīng)的語句序號(hào)輸出。
[0014]可選的,所述根據(jù)分割得到的語建立LDA模型之前還包括:輸入潛在狄利克雷分配LDA模型的數(shù)據(jù);具體地:[0015]對(duì)語句進(jìn)行詞語切分,應(yīng)用軍語詞典和通用詞典對(duì)分詞進(jìn)行處理,如果遇到軍語詞典和通用詞典的切分歧義,軍語詞典優(yōu)先;兩類詞典中都包括非漢語詞匯;
[0016]對(duì)于切分結(jié)果過濾掉固定停用詞,固定停用詞為漢語單字詞;
[0017]對(duì)于完成上述切分處理和過濾處理的整個(gè)文本集合進(jìn)行詞語頻度和詞語出現(xiàn)語句的文檔頻次統(tǒng)計(jì);
[0018]過濾掉文本集合中的動(dòng)態(tài)停用詞,將文檔頻次低于預(yù)設(shè)次數(shù)的詞語設(shè)定為動(dòng)態(tài)停用詞。
[0019]可選的,所述計(jì)算語句的主題隸屬度值之前還包括:LDA模型參數(shù)設(shè)置;具體地:
[0020]對(duì)超參數(shù)α和β的各個(gè)分量統(tǒng)一取值,采用對(duì)稱的Dirichlet參數(shù),并根據(jù)主題數(shù)目取α = 5/Κ,所有的β取固定的經(jīng)驗(yàn)值β = 0.01 ;
[0021]確定混亂度,混亂度的計(jì)算方法是計(jì)算文檔集中所包含的各句群的似然值,似然值的幾何均值的倒數(shù)作為混亂度;
[0022]LDA處理模型混亂度隨著句群似然值的增加而單調(diào)遞減;具體計(jì)算公式如下:
[0023]
【權(quán)利要求】
1.一種數(shù)據(jù)語義處理方法,其特征在于,包括: 將獲取的文本分割為語句,并對(duì)分割得到的語句進(jìn)行編號(hào); 根據(jù)分割得到的語建立LDA模型; 應(yīng)用Gibbs算法求解獲得LDA模型中語句的主題分布和主題的詞匯分布; 計(jì)算語句的主題隸屬度值; 根據(jù)語句的主題隸屬度值確定語句所屬的類別,并將類別結(jié)果按照對(duì)應(yīng)的語句序號(hào)輸出。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)分割得到的語建立LDA模型之前還包括:輸入潛在狄利克雷分配LDA模型的數(shù)據(jù);具體地: 對(duì)語句進(jìn)行詞語切分,應(yīng)用軍語詞典和通用詞典對(duì)分詞進(jìn)行處理,如果遇到軍語詞典和通用詞典的切分歧義,軍語詞典優(yōu)先;兩類詞典中都包括非漢語詞匯; 對(duì)于切分結(jié)果過濾掉固定停用詞,固定停用詞為漢語單字詞; 對(duì)于完成上述切分處理和過濾處理的整個(gè)文本集合進(jìn)行詞語頻度和詞語出現(xiàn)語句的文檔頻次統(tǒng)計(jì); 過濾掉文本集合中的動(dòng)態(tài)停用詞,將文檔頻次低于預(yù)設(shè)次數(shù)的詞語設(shè)定為動(dòng)態(tài)停用
ο
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算語句的主題隸屬度值之前還包括:LDA模型參數(shù)設(shè)置;具體地: 對(duì)超參數(shù)α和β的各個(gè)分量統(tǒng)一取值,采用對(duì)稱的Dirichlet參數(shù),并根據(jù)主題數(shù)目取α = 5/Κ,所有的β取固定的經(jīng)驗(yàn)值β = 0.01 ; 確定混亂度,混亂度的計(jì)算方法是計(jì)算文檔集中所包含的各句群的似然值,似然值的幾何均值的倒數(shù)作為混亂度; LDA處理模型混亂度隨著句群似然值的增加而單調(diào)遞減;具體計(jì)算公式如下:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將獲取的文本分割為語句包括: 獲取預(yù)存的文本; 去掉文本內(nèi)容中的非連續(xù)語句后,進(jìn)行文本分割,并控制切分得到的語句的字?jǐn)?shù)。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)分割得到的語建立LDA模型包括: 在LDA模型中,將語句集合表示為由M個(gè)語句構(gòu)成,記作D = W1,…,dM},其中語句dm是長度為(N)的詞語序列,可以寫成W= (W1,…,w(N)),其中Wn表示序列中的第η個(gè)詞語。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述應(yīng)用Gibbs算法求解獲得LDA模型中語句的主題分布和主題的詞匯分布包括: 在任一語句m中,對(duì)于給定的詞語wn,利用Gibbs抽樣取得詞語在主題z上的后驗(yàn)概率P(WnIz)估計(jì)值;在其他詞語上的主題分配(z_n)確定的情況下,估計(jì)該當(dāng)前詞語Wn分配主題j的概率P (Zn=j);邊緣化Φ k和Θ 間接求得φ k和θ Π的值。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,還包括: 利用Gibbs抽樣方法估計(jì)LDA模型中的參數(shù),為詞語特征在[Ρ..Κ]主題中隨機(jī)分配一個(gè)主題,構(gòu)成初始的Markov鏈,對(duì)于文本中的所有詞語特征根據(jù)上面的公式分配主題,獲取Markov鏈的下一個(gè)狀態(tài),經(jīng)過多次迭代,Markov鏈就可以達(dá)到穩(wěn)定狀態(tài); 抽樣算法估計(jì)每個(gè)詞語與主題z的Φ和Θ的值,公式如下:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算語句的主題隸屬度值包括: 利用Gibbs抽樣算法進(jìn)行參數(shù)估計(jì),得到語句在主題上的分布以及主題在詞匯上的分布I# ?用這兩個(gè)分布,可以形成計(jì)算語句類別屬性的計(jì)算方法; 對(duì)于任一類別集c中任一語句s的隸屬度表示為P(Slc),根據(jù)貝葉斯公式,P(SlC)示為:
【文檔編號(hào)】G06F17/27GK103914445SQ201410079684
【公開日】2014年7月9日 申請(qǐng)日期:2014年3月5日 優(yōu)先權(quán)日:2014年3月5日
【發(fā)明者】李穎, 張全, 孫巖, 袁毅, 王青海, 何國良, 吳迪, 韋向峰 申請(qǐng)人:中國人民解放軍裝甲兵工程學(xué)院