(Construction method of Chinese sentential semantic structure〉〉中提出的句義結(jié) 構(gòu)分析方法。
[0027] 步驟2,構(gòu)建知識(shí)庫(kù),具體方法為:針對(duì)句子的句義結(jié)構(gòu),分別提取其中詞語(yǔ),進(jìn)行 主題模型(Latent Dirichlet Allocation,LDA)分析,得到主題-詞語(yǔ)的分布,該分布即為 知識(shí)庫(kù)。
[0028] 步驟2.1,構(gòu)建基本項(xiàng)知識(shí)庫(kù),具體方法為:針對(duì)句子的句義結(jié)構(gòu),提取其中作為基 本項(xiàng)的詞語(yǔ)構(gòu)成文本-基本項(xiàng)詞語(yǔ)矩陣,進(jìn)行主題模型分析,得到主題-基本項(xiàng)詞語(yǔ)分布,即 為基本項(xiàng)知識(shí)庫(kù)。
[0029] 步驟2.2,構(gòu)建一般項(xiàng)知識(shí)庫(kù),具體方法為:針對(duì)句子的句義結(jié)構(gòu),提取其中作為一 般項(xiàng)的詞語(yǔ)構(gòu)成文本-一般項(xiàng)詞語(yǔ)矩陣,進(jìn)行主題模型分析,得到主題-一般項(xiàng)詞語(yǔ)分布,即 為一般項(xiàng)知識(shí)庫(kù)
[0030] 步驟3,在步驟1得到句子句義結(jié)構(gòu)和步驟2得到知識(shí)庫(kù)的基礎(chǔ)上,對(duì)句子中詞語(yǔ)進(jìn) 行擴(kuò)充。
[0031] 步驟3.1,對(duì)話題下詞語(yǔ)進(jìn)行擴(kuò)充,具體方法為:針對(duì)句子的句義結(jié)構(gòu),提取其中話 題下的詞語(yǔ),這些詞語(yǔ)中的基本項(xiàng)詞語(yǔ),使用基本項(xiàng)知識(shí)庫(kù)進(jìn)行擴(kuò)充,一般項(xiàng)詞語(yǔ)使用一般 項(xiàng)知識(shí)庫(kù)進(jìn)行擴(kuò)充。
[0032] 步驟3.2,對(duì)述題下詞語(yǔ)進(jìn)行擴(kuò)充,具體方法為:針對(duì)句子的句義結(jié)構(gòu),提取其中話 題下的詞語(yǔ),這些詞語(yǔ)中的基本項(xiàng)詞語(yǔ),使用基本項(xiàng)知識(shí)庫(kù)進(jìn)行擴(kuò)充,一般項(xiàng)詞語(yǔ)使用一般 項(xiàng)知識(shí)庫(kù)進(jìn)行擴(kuò)充。
[0033] 步驟3.1和步驟3.2的詞語(yǔ)擴(kuò)充規(guī)則如下:
[0034]
[0035]向量中每個(gè)維度計(jì)算公式如下:
[0037] 步驟4,在步驟3對(duì)句子中詞語(yǔ)進(jìn)行擴(kuò)充的基礎(chǔ)上,合并已擴(kuò)充的話題下詞語(yǔ)和述 題下詞語(yǔ),構(gòu)建句子表示向量,得到句子表示結(jié)果,最終句子表示結(jié)果的向量計(jì)算如公式2 所示。
[0039] 公式2中,%表示話題擴(kuò)充后得到的向量,表示述題擴(kuò)充后得到的向量。
[0040] 將句子表示結(jié)果用于句子分類實(shí)驗(yàn),采用精確度計(jì)算結(jié)果進(jìn)行評(píng)價(jià),定義分類正 確句子數(shù)為Xr,分類總句子數(shù)為Xt,精確度計(jì)算公式如下:
[0042]得到分類精確度結(jié)果為0.7766。
【主權(quán)項(xiàng)】
1. 基于漢語(yǔ)句義結(jié)構(gòu)模型和主題模型的句子表示方法,所述方法包括以下步驟: 步驟1,對(duì)句子進(jìn)行句義結(jié)構(gòu)分析,獲取句子中基本項(xiàng)詞語(yǔ)、一般項(xiàng)詞語(yǔ)、話題詞語(yǔ)和述 題詞語(yǔ); 在上述步驟中,基本項(xiàng)詞語(yǔ)是指在句子的句義結(jié)構(gòu)中,該詞語(yǔ)作為基本項(xiàng);一般項(xiàng)詞語(yǔ) 是指在句子的句義結(jié)構(gòu)中,該詞語(yǔ)作為一般項(xiàng);話題詞語(yǔ)是指在句子的句義結(jié)構(gòu)中,該詞語(yǔ) 隸屬于話題;述題詞語(yǔ)是指在句子的句義結(jié)構(gòu)中,該詞語(yǔ)隸屬于述題; 步驟2,在步驟1的基礎(chǔ)上,構(gòu)建知識(shí)庫(kù),具體方法為:針對(duì)句子的句義結(jié)構(gòu),分別提取其 中詞語(yǔ),進(jìn)行主題模型分析,得到主題-詞語(yǔ)的分布,該分布即為知識(shí)庫(kù); 步驟2.1,以步驟1得到句義結(jié)構(gòu)的基本項(xiàng)為輸入,構(gòu)建基本項(xiàng)知識(shí)庫(kù),具體方法為:依 據(jù)句子的句義結(jié)構(gòu),提取其中作為基本項(xiàng)的詞語(yǔ)構(gòu)成文本-基本項(xiàng)詞語(yǔ)矩陣,進(jìn)行主題模型 分析,得到主題-基本項(xiàng)詞語(yǔ)分布,即為基本項(xiàng)知識(shí)庫(kù); 步驟2.2,以步驟1得到句義結(jié)構(gòu)的一般項(xiàng)為輸入,構(gòu)建一般項(xiàng)知識(shí)庫(kù),具體方法為:依 據(jù)句子的句義結(jié)構(gòu),提取其中作為一般項(xiàng)的詞語(yǔ)構(gòu)成文本-一般項(xiàng)詞語(yǔ)矩陣,進(jìn)行主題模型 分析,得到主題-一般項(xiàng)詞語(yǔ)分布,即為一般項(xiàng)知識(shí)庫(kù) 步驟3,在步驟1得到句子句義結(jié)構(gòu)和步驟2得到知識(shí)庫(kù)的基礎(chǔ)上,對(duì)句子中詞語(yǔ)進(jìn)行擴(kuò) 充; 步驟3.1,以步驟1得到的話題下詞語(yǔ)和步驟2得到的基本項(xiàng)和一般項(xiàng)知識(shí)庫(kù)為輸入,對(duì) 話題下詞語(yǔ)進(jìn)行擴(kuò)充,具體方法為:依據(jù)句子的句義結(jié)構(gòu),提取其中話題下的詞語(yǔ),這些詞 語(yǔ)中的基本項(xiàng)詞語(yǔ),使用基本項(xiàng)知識(shí)庫(kù)進(jìn)行擴(kuò)充,一般項(xiàng)詞語(yǔ)使用一般項(xiàng)知識(shí)庫(kù)進(jìn)行擴(kuò)充, 得到話題表示向量; 步驟3.2,以步驟1得到的述題下詞語(yǔ)和步驟2得到的基本項(xiàng)和一般項(xiàng)知識(shí)庫(kù)為輸入,對(duì) 述題下詞語(yǔ)進(jìn)行擴(kuò)充,具體方法為:依據(jù)句子的句義結(jié)構(gòu),提取其中話題下的詞語(yǔ),這些詞 語(yǔ)中的基本項(xiàng)詞語(yǔ),使用基本項(xiàng)知識(shí)庫(kù)進(jìn)行擴(kuò)充,一般項(xiàng)詞語(yǔ)使用一般項(xiàng)知識(shí)庫(kù)進(jìn)行擴(kuò)充, 得到述題表示向量; 步驟4,在步驟3對(duì)句子中詞語(yǔ)進(jìn)行擴(kuò)充的基礎(chǔ)上,合并已擴(kuò)充的話題和述題表示向量, 構(gòu)建句子表示向量,得到句子表示結(jié)果。2. 根據(jù)權(quán)利要求1所述方法,其特征在于:步驟2中,知識(shí)庫(kù)構(gòu)建過(guò)程將句子中詞語(yǔ)分為 基本項(xiàng)詞語(yǔ)和一般項(xiàng)詞語(yǔ),分別構(gòu)建文本-基本項(xiàng)詞語(yǔ)和文本-一般項(xiàng)詞語(yǔ)兩個(gè)矩陣,矩陣 中行表示句子、列表示詞語(yǔ),使用主題模型方法構(gòu)建基本項(xiàng)和一般項(xiàng)知識(shí)庫(kù)。3. 根據(jù)權(quán)利要求1所述方法,其特征在于:步驟3中,對(duì)句子中詞語(yǔ)進(jìn)行擴(kuò)充時(shí),使用步 驟2得到的知識(shí)庫(kù)針對(duì)步驟1得到的話題和述題下詞語(yǔ)分別按照規(guī)則方法進(jìn)行擴(kuò)充,分別得 到話題和述題表示向量。4. 根據(jù)權(quán)利要求1所述方法、其特征在于:步驟4中,將步驟3得到的話題和述題表示向 量合并,得到最終句子的表示向量。
【專利摘要】本發(fā)明涉及一種基于漢語(yǔ)句義結(jié)構(gòu)模型和主題模型的句子表示方法,屬于計(jì)算機(jī)科學(xué)與自然語(yǔ)言處理中文分析技術(shù)領(lǐng)域。本發(fā)明首先對(duì)句子進(jìn)行句義結(jié)構(gòu)分析,得到句子的句義結(jié)構(gòu);進(jìn)而提取句子中的基本項(xiàng)詞語(yǔ)和一般項(xiàng)詞語(yǔ),使用主題模型分析得到基本項(xiàng)知識(shí)庫(kù)和一般項(xiàng)知識(shí)庫(kù);最終根據(jù)句義結(jié)構(gòu)中話題和述題下詞語(yǔ),使用上一步分析得到的知識(shí)庫(kù)對(duì)句子內(nèi)容進(jìn)行擴(kuò)充,得到句子表示結(jié)果。本發(fā)明為為解決句子表示的特征稀疏問(wèn)題提供了新的思路,并有效提升了句子的分類效果,具有重要的理論價(jià)值和實(shí)踐作用。
【IPC分類】G06F17/27
【公開號(hào)】CN105573985
【申請(qǐng)?zhí)枴緾N201610124099
【發(fā)明人】羅森林, 韓磊, 潘麗敏, 尚海
【申請(qǐng)人】北京理工大學(xué)
【公開日】2016年5月11日
【申請(qǐng)日】2016年3月4日