基于漢語(yǔ)句義結(jié)構(gòu)模型和主題模型的句子表示方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于漢語(yǔ)句義結(jié)構(gòu)模型和主題模型的句子表示方法,屬于計(jì)算機(jī) 科學(xué)與自然語(yǔ)言處理的中文分析技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 句子表示的目的是將句子中的內(nèi)容表示成計(jì)算機(jī)可處理的數(shù)據(jù)形式,用于分類(lèi)、 聚類(lèi)或句子生成。作為自然語(yǔ)言處理的基礎(chǔ)性研究,在自動(dòng)問(wèn)答和自動(dòng)摘要等系統(tǒng)中有著 廣泛的應(yīng)用。
[0003] 詞袋模型和η格模型由于其簡(jiǎn)單高效的特性,是目前使用最為普遍的長(zhǎng)文本表示 方法。然而,當(dāng)分析處理句子等短文本時(shí),這些傳統(tǒng)方法由于文本中數(shù)據(jù)內(nèi)容較少會(huì)造成表 示特征的稀疏問(wèn)題。為了解決該問(wèn)題,目前有三種主要的方法:基于語(yǔ)法的方法、基于語(yǔ)義 的方法和基于分布式語(yǔ)義的方法。
[0004] 基于語(yǔ)法的方法使用語(yǔ)法信息來(lái)表示句子。Lee和Chang等人提出利用語(yǔ)法信息的 方法用于計(jì)算句子之間的相似程度。Stef anescu和Ban jade使用語(yǔ)法中的塊信息來(lái)表示句 子?;谡Z(yǔ)義的方法基本上是使用本體論的概念,使用類(lèi)似于WordNet等語(yǔ)義知識(shí)庫(kù)來(lái)計(jì)算 詞語(yǔ)之間的相似程度,進(jìn)而計(jì)算句子之間的相似度?;诜植际秸Z(yǔ)義方法將句子轉(zhuǎn)換成一 個(gè)確定長(zhǎng)度的向量來(lái)表示句子。Le和Mikolov提出了一個(gè)半監(jiān)督的學(xué)習(xí)確定長(zhǎng)度向量來(lái)表 示句子的方法。該算法基于詞向量構(gòu)建句子以及段落的向量,詞向量通過(guò)對(duì)文本的學(xué)習(xí)獲 得。
[0005] 基于語(yǔ)法和語(yǔ)義混合的方法在文本相似度計(jì)算任務(wù)中表現(xiàn)良好。然而,構(gòu)建詞語(yǔ) 知識(shí)庫(kù)需要花費(fèi)大量的人力物力。同時(shí),人工構(gòu)建的知識(shí)庫(kù)通常是領(lǐng)域獨(dú)立的。除此之外, 基于語(yǔ)法的方法、基于語(yǔ)義的方法以及這二者的混合方法經(jīng)常用于計(jì)算句子之間的相似程 度而非對(duì)句子的表示。
[0006] 綜上,為了解決句子表示時(shí)的特征稀疏問(wèn)題,實(shí)現(xiàn)句子表示,借助于近幾年提出的 句義結(jié)構(gòu)模型(羅森林等),提出基于漢語(yǔ)句義結(jié)構(gòu)模型和主題模型的句子表示方法。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的是:為解決自然語(yǔ)言處理中句子表示時(shí)的特征稀疏問(wèn)題,提出一種 基于漢語(yǔ)句義結(jié)構(gòu)模型和主題模型的句子表示方法。
[0008] 本發(fā)明的設(shè)計(jì)原理為:針對(duì)漢語(yǔ)句子,得到其表示結(jié)果:1.對(duì)原始句子進(jìn)行句義結(jié) 構(gòu)分析,得到句子的句義結(jié)構(gòu);2 .在得到句子句義結(jié)構(gòu)的基礎(chǔ)上,使用句義結(jié)構(gòu)中基本項(xiàng)和 一般項(xiàng)詞語(yǔ)分別進(jìn)行主題模型分析,得到基本項(xiàng)知識(shí)庫(kù)和一般項(xiàng)知識(shí)庫(kù);3.在以上兩步的 基礎(chǔ)上,利用第1步句義結(jié)構(gòu)識(shí)別結(jié)果,利用其中的話(huà)題詞語(yǔ)和述題詞語(yǔ),結(jié)合第二步的知 識(shí)庫(kù),生成句子的表示向量。
[0009] 本發(fā)明的技術(shù)方案是通過(guò)如下步驟實(shí)現(xiàn)的:
[0010] 步驟1,為獲取句子中基本項(xiàng)詞語(yǔ)、一般項(xiàng)詞語(yǔ)、話(huà)題詞語(yǔ)和述題詞語(yǔ),需要先對(duì)句 子進(jìn)行句義結(jié)構(gòu)分析,得到句子的句義結(jié)構(gòu)。
[0011] 在上述步驟中,基本項(xiàng)詞語(yǔ)是指在句子的句義結(jié)構(gòu)中,該詞語(yǔ)作為基本項(xiàng);一般項(xiàng) 詞語(yǔ)是指在句子的句義結(jié)構(gòu)中,該詞語(yǔ)作為一般項(xiàng);話(huà)題詞語(yǔ)是指在句子的句義結(jié)構(gòu)中,該 詞語(yǔ)在話(huà)題下面;述題詞語(yǔ)是指在句子的句義結(jié)構(gòu)中,該詞語(yǔ)在述題下面。
[0012] 步驟2,構(gòu)建知識(shí)庫(kù),具體方法為:針對(duì)句子的句義結(jié)構(gòu),分別提取其中詞語(yǔ),進(jìn)行 主題模型分析,得到主題-詞語(yǔ)的分布,該分布即為知識(shí)庫(kù)。
[0013] 步驟2.1,構(gòu)建基本項(xiàng)知識(shí)庫(kù),具體方法為:針對(duì)句子的句義結(jié)構(gòu),提取其中作為基 本項(xiàng)的詞語(yǔ)構(gòu)成文本-基本項(xiàng)詞語(yǔ)矩陣,進(jìn)行主題模型分析,得到主題-基本項(xiàng)詞語(yǔ)分布,即 為基本項(xiàng)知識(shí)庫(kù)。
[0014]步驟2.2,構(gòu)建一般項(xiàng)知識(shí)庫(kù),具體方法為:針對(duì)句子的句義結(jié)構(gòu),提取其中作為一 般項(xiàng)的詞語(yǔ)構(gòu)成文本-一般項(xiàng)詞語(yǔ)矩陣,進(jìn)行主題模型分析,得到主題-一般項(xiàng)詞語(yǔ)分布,即 為一般項(xiàng)知識(shí)庫(kù)
[0015] 步驟3,在步驟1得到句子句義結(jié)構(gòu)和步驟2得到知識(shí)庫(kù)的基礎(chǔ)上,對(duì)句子中詞語(yǔ)進(jìn) 行擴(kuò)充。
[0016] 步驟3.1,對(duì)話(huà)題下詞語(yǔ)進(jìn)行擴(kuò)充,具體方法為:針對(duì)句子的句義結(jié)構(gòu),提取其中話(huà) 題下的詞語(yǔ),這些詞語(yǔ)中的基本項(xiàng)詞語(yǔ),使用基本項(xiàng)知識(shí)庫(kù)進(jìn)行擴(kuò)充,一般項(xiàng)詞語(yǔ)使用一般 項(xiàng)知識(shí)庫(kù)進(jìn)行擴(kuò)充,得到話(huà)題的表示向量。
[0017] 步驟3.2,對(duì)述題下詞語(yǔ)進(jìn)行擴(kuò)充,具體方法為:針對(duì)句子的句義結(jié)構(gòu),提取其中話(huà) 題下的詞語(yǔ),這些詞語(yǔ)中的基本項(xiàng)詞語(yǔ),使用基本項(xiàng)知識(shí)庫(kù)進(jìn)行擴(kuò)充,一般項(xiàng)詞語(yǔ)使用一般 項(xiàng)知識(shí)庫(kù)進(jìn)行擴(kuò)充,得到述題的表示向量。
[0018] 步驟4,在步驟3對(duì)句子中詞語(yǔ)進(jìn)行擴(kuò)充的基礎(chǔ)上,合并已擴(kuò)充的話(huà)題和述題表示 向量,構(gòu)建句子表示向量,得到句子表示結(jié)果。
[0019] 有益效果
[0020] 為解決句子表示的特征稀疏問(wèn)題提供了新的思路,并有效提升了句子的分類(lèi)效 果。
【附圖說(shuō)明】
[0021] 圖1為本發(fā)明的基于漢語(yǔ)句義結(jié)構(gòu)模型和主題模型的句子表示方法原理圖;
【具體實(shí)施方式】
[0022] 為了更好的說(shuō)明本發(fā)明的目的和優(yōu)點(diǎn),下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明方法的實(shí) 施方式做進(jìn)一步詳細(xì)說(shuō)明。
[0023] 以sogou文本分類(lèi)語(yǔ)料庫(kù)中隨機(jī)挑選的車(chē)輛、金融和健康三個(gè)類(lèi)別的文本,每個(gè)類(lèi) 另IJ200篇共14357條句子為數(shù)據(jù),采用十折交叉法進(jìn)行句子分類(lèi)測(cè)試。
[0024] 步驟1,為獲取句子中基本項(xiàng)詞語(yǔ)、一般項(xiàng)詞語(yǔ)、話(huà)題詞語(yǔ)和述題詞語(yǔ),需要先對(duì)句 子進(jìn)行句義結(jié)構(gòu)分析,得到句子的句義結(jié)構(gòu)。
[0025] 在上述步驟中,基本項(xiàng)詞語(yǔ)是指在句子的句義結(jié)構(gòu)中,該詞語(yǔ)作為基本項(xiàng);一般項(xiàng) 詞語(yǔ)是指在句子的句義結(jié)構(gòu)中,該詞語(yǔ)作為一般項(xiàng);話(huà)題詞語(yǔ)是指在句子的句義結(jié)構(gòu)中,該 詞語(yǔ)在話(huà)題下面;述題詞語(yǔ)是指在句子的句義結(jié)構(gòu)中,該詞語(yǔ)在述題下面。
[0026] 在上述步驟中,對(duì)普通漢語(yǔ)句子進(jìn)行句義結(jié)構(gòu)分析的方法使用羅森林等在文獻(xiàn) (