本發(fā)明涉及利用句義結(jié)構(gòu)特征的句子相似度計(jì)算方法,屬于計(jì)算機(jī)科學(xué)及自然語言處理領(lǐng)域。
背景技術(shù):
句子相似度計(jì)算用于衡量兩個(gè)文本內(nèi)容的語義相似程度,是自然語言處理中信息檢索、自動摘要等任務(wù)的基礎(chǔ)環(huán)節(jié)。伴隨社交網(wǎng)站的快速發(fā)展,以微博為代表的社交短文本大量涌現(xiàn),其篇幅短小、表示方式多樣化,由于缺失長文檔的結(jié)構(gòu)化信息造成傳統(tǒng)的句子相似度計(jì)算方法無法直接適用于此類短文本的句子相似度計(jì)算。
目前,根據(jù)對句子語義分析的深度不同,針對社交短文本中句子的相似度計(jì)算方法主要包括基于詞特征、基于詞義特征和基于句法分析特征三類。
基于詞特征的方法是早期的句子相似度計(jì)算方法,該方法主要是將句子視為詞的線性組合,采用統(tǒng)計(jì)的手段計(jì)算句子的詞頻、詞性、句長、詞序等詞語表層信息,典型方法包括Jaccard Similarity Coefficient字符串匹配,其通過統(tǒng)計(jì)兩個(gè)句子中包含的相同詞數(shù)目作為句子的相似度、TF-IDF詞頻統(tǒng)計(jì)方法將句子表征為向量,計(jì)算余弦距離作為相似度結(jié)果。
基于詞義特征的方法從語義分析的角度,通過借助語義知識資源捕捉詞語的語義信息。根據(jù)利用的資源不同,分為基于語義詞典的方法和基于語料庫的方法?;谡Z義詞典的方法主要是借助WordNet、HowNet等基于詞義組織詞匯信息的詞匯數(shù)據(jù)庫,結(jié)合詞義消歧的技術(shù)挖掘句子中詞語在給定的上下文語境下所表達(dá)的涵義,從而提高整個(gè)句子的語義分辨率。基于語料庫的方法主要通過引入語言模型框架,以兩個(gè)詞共同出現(xiàn)的概率大小來推斷其相似性,常用的技術(shù)是利用潛在語言分析(Latent Semantic Analysis,LSA)方法將詞-文檔矩陣進(jìn)行奇異值分解實(shí)現(xiàn)高維特征表示到低維潛在語義空間表示的空間映射。
基于句法分析特征的方法通過對句子進(jìn)行整體的結(jié)構(gòu)分析判斷句子的相似性,該方法主張句子中核心動詞是支配其它成分的關(guān)鍵,核心動詞本身不受任何成分的支配,而其他句子成分受到核心動詞的支配,通過分析詞語之間的依存關(guān)系來挖掘句子的語義信息,實(shí)際應(yīng)用中通常只計(jì)算動詞、名詞和形容詞等有效詞以及直接依附于有效詞所組成的搭配對之間的相似性來估算句子的相似度,以此避免增加噪音數(shù)據(jù)對結(jié)果帶來的偏差。
上述各類方法雖然從不同的分析層面計(jì)算句子的相似度,但社交短文本的實(shí)詞較少,不加任何句法結(jié)構(gòu)分析和對句子語義信息的挖掘,僅靠對詞頻、詞形等表層信息的統(tǒng)計(jì)無法辨別詞語的深層信息?;谠~義特征的方法雖然考慮了詞語的語義信息,但該方法受限于外部語義資源,社交短文本包含大量的未登錄詞、內(nèi)容時(shí)效性強(qiáng),由于字典的不全面和特征稀疏的影響往往造成語義信息不明確的問題?;诰浞ㄌ卣鞯姆椒ㄊ墚?dāng)前句法分析技術(shù)不成熟的限制,沒有考慮句子上下文信息和深層語義信息,信息的缺失對相似度計(jì)算結(jié)果的準(zhǔn)確性帶來無法預(yù)估的影響。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為解決社交短文本句子相似度計(jì)算的特征稀疏和沒有考慮深層語義信息的問題,提出利用句義結(jié)構(gòu)特征的句子相似度計(jì)算方法。在綜合考慮句子的語義信息和上下文信息的前提下,將多元信息加權(quán)融合,使句子信息更加全面,通過深度挖掘句子語義信息,使句子相似度計(jì)算結(jié)果不受表述方式的影響,更加全面、準(zhǔn)確地計(jì)算句子語義的關(guān)聯(lián)程度。
本發(fā)明的設(shè)計(jì)原理為:1)基于句義結(jié)構(gòu)模型(Chinese Semantic Structure Model,CSM)分析句子語義,提取句義成分,利用Latent Dirichlet Allocation(LDA)主題模型挖掘潛在的主題知識,根據(jù)知識庫擴(kuò)充句義成分對應(yīng)維度的特征1112,得到基于句子本身語義信息的句子向量;2)引入Paragraph Vector(PV)深度學(xué)習(xí)模型自適應(yīng)地學(xué)習(xí)文本特征,得到基于句子上下文信息的句子向量;3)利用兩種句子向量分別計(jì)算得到句子間的相似度,并進(jìn)行線性加權(quán),通過網(wǎng)格法調(diào)節(jié)優(yōu)化系數(shù),使句子相似度計(jì)算結(jié)果更加準(zhǔn)確。
具體步驟如下:
步驟1,對社交短文本集進(jìn)行預(yù)處理,先進(jìn)行分句,然后進(jìn)行分詞和詞性標(biāo)注,去停用詞。
步驟2,基于利用CSM對每條句子的句義結(jié)構(gòu)分析結(jié)果和利用LDA主題模型對短文本集進(jìn)行分析得到的主題和詞語分布,對句子進(jìn)行特征擴(kuò)充,并計(jì)算句子相似度。
步驟2.1,在步驟1的基礎(chǔ)上,對每條句子進(jìn)行句義結(jié)構(gòu)分析,提取句子的話題、述題、基本項(xiàng)、一般項(xiàng)。CSM將整個(gè)句義的語義表示為結(jié)構(gòu)樹的形式,具體表示為句型層、描述層、對象層和細(xì)節(jié)層四個(gè)層次。句型層指明句子的句義類型,包括簡單句義、復(fù)雜句義、復(fù)合句義、多重句義四中類型;描述層中包含話題和述題,話題和述題是對句義的初步劃分,是句義結(jié)構(gòu)中的基本句義成分,話題定義為句義中的被描述對象,述題定義為句義中的話題的描述內(nèi)容;對象層中包含謂詞、基本項(xiàng)、一般項(xiàng)、語義格,語義格是對詞語的語義標(biāo)注,包括7種基本格和12種一般格,基本項(xiàng)定義為句義中與謂詞具有直接聯(lián)系的成分,構(gòu)成一個(gè)句子語義的主干,其對應(yīng)的語義格為基本格,一般項(xiàng)定義為句義中的修飾成分,其對應(yīng)的語義格為一般格;細(xì)節(jié)層中包含句子的引申含義。
步驟2.2,利用LDA主題模型對短文本集進(jìn)行分析,挖掘文本中的潛在主題知識,提取文本中的主題和主題下的詞語分布,得到文本-主題矩陣和主題-詞語矩陣。LDA主題模型可以獲取文本中的主題,可以用來對文本中的詞語進(jìn)行劃分,同一主題下的詞語具有相同或相似的語義。
步驟2.3,根據(jù)話題對句子進(jìn)行特征擴(kuò)充,得到基于話題的句子向量。如果兩個(gè)相同的詞語在句子中分別充當(dāng)話題和述題的一部分,則認(rèn)為這兩個(gè)詞語具有不同的語義,定義這兩個(gè)詞語為不同的詞語,根據(jù)此定義,對句子進(jìn)行特征擴(kuò)充時(shí),應(yīng)分別根據(jù)話題和述題部分對句子進(jìn)行特征擴(kuò)充。句子的話題部分的特征擴(kuò)充具體方法為:首先提取話題下的基本項(xiàng)和一般項(xiàng)對應(yīng)的詞語,然后根據(jù)步驟2.2中得到的主題-詞語矩陣,比較詞語在不同主題下的概率,選取概率最高的主題,將該主題下的其它詞語補(bǔ)充到句子中,作為句子的一部分,最后使用句子的所有詞語作為特征,構(gòu)建特征向量表示句子,其中句中原有詞語所對應(yīng)的維度上的取值為詞語的在句中的出現(xiàn)次數(shù),而擴(kuò)充的詞語所對應(yīng)的維度上的取值按公式(1)進(jìn)行計(jì)算,
V=n*w (1)
V是擴(kuò)充詞語對應(yīng)維度上的取值,n是擴(kuò)充詞語在句子中出現(xiàn)的次數(shù),w為擴(kuò)充詞語在對應(yīng)主題下的概率值。
步驟2.4,按步驟2.3的方法,根據(jù)述題對句子進(jìn)行特征擴(kuò)充,得到基于述題的句子向量。
步驟2.5,分別基于步驟2.3和2.4得到的兩種句子向量計(jì)算句子相似度,對兩個(gè)相似度值進(jìn)行加權(quán),得到句子間的最終相似度值,具體計(jì)算公式如下,
其中,SA和SB代表任意兩個(gè)句子,sim1(SA,SB)表示兩個(gè)句子的相似度值,和分別表示句子SA和SB的基于話題的句子向量,和分別表示句子SA和SB的表示基于述題的句子向量,ω為可調(diào)參數(shù),取值范圍為[0,1],用來調(diào)整兩種相似度的加權(quán)系數(shù)。
步驟3,將經(jīng)過步驟1預(yù)處理后的所有句子輸入到PV深度學(xué)習(xí)模型,利用PV模型學(xué)習(xí)文本特征,得到句子向量,并基于該句子向量計(jì)算句子間的余弦距離作為句子間的相似度,計(jì)算公式如下,
其中,SA和SB代表任意兩個(gè)句子,sim2(SA,SB)表示兩個(gè)句子的相似度值,和分別表示用PV模型學(xué)習(xí)得到的句子向量。PV模型是一種非監(jiān)督的學(xué)習(xí)方式,輸入是任意長度的文本(這里文本可以是文章、段落、句子等任意形式,統(tǒng)稱為文本),輸出則是對應(yīng)文本的連續(xù)分布式向量表示,同word2vec詞向量的原理類似,在保留語義和詞序信息的基礎(chǔ)上通過對特征學(xué)習(xí)得到有效的句子或者篇章的向量表示,PV模型能有效解決詞袋模型沒有考慮詞義和詞序的問題,生成的向量維度稠密,也可有效克服短文本的句子表示的特征稀疏問題。
步驟4,將步驟2和步驟3得到的句子間的相似度值進(jìn)行線性加權(quán),通過網(wǎng)格法調(diào)節(jié)參數(shù),找到一組最優(yōu)的參數(shù)取值,輸出最終的句子對之間的相似度值,計(jì)算公式如下,
sim(SA,SB)=θ*sim1(SA,SB)+(1-θ)*sim2(SA,SB) (4)
其中,SA和SB代表任意兩個(gè)句子,sim(SA,SB)表示兩個(gè)句子的相似度值,θ為可調(diào)參數(shù),取值范圍為[0,1],sim1(SA,SB)和sim2(SA,SB)分別按公式(2)和(3)計(jì)算得到。根據(jù)公式(4),結(jié)合公式(2)和(3),完整的句子相似度計(jì)算公式為:
ω和θ都是可調(diào)參數(shù),取值范圍都是[0,1],利用網(wǎng)格法根據(jù)句子相似度的計(jì)算或應(yīng)用結(jié)果對參數(shù)進(jìn)行調(diào)優(yōu),取最優(yōu)參數(shù)值。
有益效果
本發(fā)明的句子相似度計(jì)算方法有效地減少了語義信息的丟失,更加全面、準(zhǔn)確地刻畫了句子之間的內(nèi)在聯(lián)系,通過深度挖掘句子的上下文和內(nèi)在語義結(jié)構(gòu)特征使句子相似度計(jì)算不直接依賴于句子的表述方式,提高了計(jì)算結(jié)果的準(zhǔn)確率。
具體實(shí)施方式
為了更好的說明本發(fā)明的目的和優(yōu)點(diǎn),下面結(jié)合具體實(shí)例對本發(fā)明方法的實(shí)施方式做進(jìn)一步詳細(xì)說明。
實(shí)驗(yàn)采用NLP&&CC會議2013年的面向中文微博觀點(diǎn)要素抽取評測任務(wù)所公開的語料。從中隨機(jī)挑選了5個(gè)話題,共10896個(gè)句子作為短文集,采用將句子相似度計(jì)算應(yīng)用到短文本聚類并評價(jià)聚類效果的方式,對句子相似度計(jì)算的效果進(jìn)行評價(jià)。對于聚類效果的評價(jià),采用輪廓系數(shù)(Silhouette Coefficient)指標(biāo)來衡量,輪廓系數(shù)這一概念最早由Peter J.Pousseeuw在1986年提出,它結(jié)合內(nèi)聚度和分離度兩種因素來判斷聚類效果。
輪廓系數(shù)的計(jì)算步驟如下:
(1)對于第i個(gè)對象,計(jì)算其到所屬簇中其他對象的平均距離,記為ai。
(2)對于第i個(gè)對象,計(jì)算該對象到到不包含該對象的任意簇中所有對象的平均距離,找出每個(gè)簇中的最小值記為bi。
(3)對于第i個(gè)對象,輪廓系數(shù)記為si,計(jì)算方法如公式(6)所示。
輪廓系數(shù)取值范圍為[-1,1],從公式(6)可以看出,如果si<0,表明第i個(gè)對象和同一個(gè)簇內(nèi)部的元素之間的平均距離小于其他的簇,聚類效果不準(zhǔn)確。如果ai的值趨于0,或者bi足夠大,那么si取值越接近于1,說明聚類后簇內(nèi)數(shù)據(jù)越緊密、簇間越分離差異明顯,聚類效果越好。
具體實(shí)施步驟為:
步驟1,對社交短文本集進(jìn)行分句,然后對每一條句子利用ICTCLAS2015進(jìn)行分詞和詞性標(biāo)注,根據(jù)從Internet下載的停用詞表,去除文本中的停用詞。
步驟2,利用CSM對短文本集中的每條句子進(jìn)行句義結(jié)構(gòu)分析,并利用LDA主題模型對短文本集進(jìn)行分析,獲取短文本的主題和詞語分布,對句子進(jìn)行特征豐富,并計(jì)算句子相似度。
步驟2.1,在步驟1的基礎(chǔ)上,對每條句子進(jìn)行句義結(jié)構(gòu)分析,提取句子的話題、述題、基本項(xiàng)、一般項(xiàng)。
步驟2.2,利用LDA主題模型對短文本集進(jìn)行分析,提取文本中的主題和主題下的詞語分布,得到主題-詞語矩陣。
步驟2.3,根據(jù)話題對句子進(jìn)行特征擴(kuò)充,得到基于話題的句子向量。具體方法為:首先提取話題下的基本項(xiàng)和一般項(xiàng)對應(yīng)的詞語,然后根據(jù)步驟2.2中得到的主題-詞語矩陣,比較詞語在不同主題下的概率,選取概率最高的主題,將該主題下的其它詞語補(bǔ)充到句子中,作為句子的一部分,最后使用句子的所有詞語作為特征,構(gòu)建特征向量表示句子,其中句中原有詞語所對應(yīng)的維度上的取值為詞語的在句中的出現(xiàn)次數(shù),而擴(kuò)充的詞語所對應(yīng)的維度上的取值按公式(1)進(jìn)行計(jì)算,
步驟2.4,按步驟2.3的方法,根據(jù)述題對句子進(jìn)行特征擴(kuò)充,得到基于述題的句子向量。
步驟2.5,分別基于步驟2.3和2.4得到的兩種句子向量計(jì)算句子相似度,對兩個(gè)相似度值進(jìn)行加權(quán),按公式(2)得到句子間的最終相似度值。
步驟3,將經(jīng)過步驟1預(yù)處理后的所有句子輸入到PV深度學(xué)習(xí)模型,利用PV模型學(xué)習(xí)文本特征,得到句子向量,并基于該句子向量計(jì)算句子間的余弦距離作為句子間的相似度,其中PV模型里的參數(shù)均采用工具中的默認(rèn)值。
步驟4,將步驟2和步驟3得到的句子間的相似度值進(jìn)行線性加權(quán),通過網(wǎng)格法調(diào)節(jié)參數(shù)ω和θ,選擇最優(yōu)的一組參數(shù)。
對5個(gè)話題的聚類效果,在PV模型中的向量長度size=100,窗口長度window=5,ω取0.33時(shí),θ取0.25,輪廓系數(shù)達(dá)到最優(yōu)效果0.45;當(dāng)θ取0時(shí),即只考慮基于CSM句義結(jié)構(gòu)分析得到的相似度計(jì)算結(jié)果,輪廓系數(shù)達(dá)到0.42;當(dāng)θ取1時(shí),即只考慮依賴PV分析得到的句子相似度結(jié)果,輪廓系數(shù)達(dá)到0.31。實(shí)驗(yàn)結(jié)果表明利用CSM得到的句子向量能夠包含更深層次的句子內(nèi)部語義信息,PV模型使句子向量能夠獲取豐富的上下文信息,既考慮自身語義信息同時(shí)還包含上下文信息的句子相似度計(jì)算方法更能準(zhǔn)確衡量句子間的相似程度。