本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,尤其涉及一種文本語義相似度的確定方法及裝置。
背景技術(shù):
在移動互聯(lián)時代的背景下,信息的產(chǎn)生和流通是朝著更加智能化,更加海量化去發(fā)展,在這些龐大的信息海洋中,有很大一部分是文本信息。在日常生活中,我們每天都會從門戶網(wǎng)站、社交網(wǎng)站接觸到大量的新文本內(nèi)容,如何將這些文本信息進行合理的歸類并將其推送給合適的人群,就成為了人工智能領(lǐng)域的一重大課題。在對這些龐大的文本信息進行歸類處理時,通常用到的技術(shù)是對文本的聚類。文本聚類是將一些有共同屬性的文本聚合到一塊,并形成一個類簇。目前,關(guān)于聚類的方法已經(jīng)有很多種,不同的聚類方法在不同的場景中表現(xiàn)能力也是各有長短。然而,所有的聚類算法的一個共性就是需要比較樣本之間的相似度,而這個相似度在文本聚類過程中顯得尤為重要。
在具體實施的過程中,由于文本在計算機內(nèi)部是以字符串形式來表示的,而相似度則是通過數(shù)值之間的關(guān)系來計算的。因此,在計算文本之間的相似度之前,必須要將文本進行向量化處理,然后將文本之間的相似度計算轉(zhuǎn)換為兩個向量之間的相似度計算。
目前對于文本向量化的方法主要有兩種:一種是用詞表詞頻的方式來對文本進行向量化處理,具體是將文本中的每一個不重復(fù)的詞的身份標識作為文本對應(yīng)的向量的一個維度,并將每個詞出現(xiàn)的次數(shù)作為對應(yīng)該維度的值,該種文本向量化的方式在計算的過程中會產(chǎn)生由于向量的維度過大而影響計算的效率,而且每個維度之間是相互獨立的,無法體現(xiàn)詞與詞之間的語義關(guān)系,因此無法從整體上實現(xiàn)文本語義的相似度計算。另一種是基于詞表權(quán)重選取方法的向量化處理,具體是通過計算文本中每個詞在該文本中的權(quán)重,然后按照權(quán)重由大到小的順序挑選出TOP N的詞以及對應(yīng)的權(quán)重作為該文本的向量,權(quán)重的計算方法目前比較流行的是一種加權(quán)技術(shù)(term frequency–inverse document frequency,TF-IDF)算法,這種向量化處理方法雖然在一定程度上能夠過濾掉一些對文本貢獻很小的詞,但也不能表示詞與詞之間的語義關(guān)聯(lián)性,因此,也無法在整體上實現(xiàn)文本語義的相似度計算。
技術(shù)實現(xiàn)要素:
鑒于上述問題,本發(fā)明提供一種文本語義相似度的確定方法及裝置,用以解決現(xiàn)有的文本相似度計算方法無法實現(xiàn)文本語義上的相似度的計算問題。
為解決上述技術(shù)問題,第一方面,本發(fā)明提供了一種文本語義相似度的確定方法,所述方法包括:
獲取第一文本以及第二文本,所述第一文本和所述第二文本是需要進行語義相似度計算的任意兩個文本;
根據(jù)預(yù)設(shè)標簽主題Label LDA模型將所述第一文本以及所述第二文本分別轉(zhuǎn)換為第一主題標簽向量和第二主題標簽向量,所述第一主題標簽向量和所述第二主題標簽向量中每個維度對應(yīng)一個預(yù)設(shè)主題標簽,每個維度對應(yīng)的維度值表示每個預(yù)設(shè)主題標簽的權(quán)重值,所述預(yù)設(shè)主題標簽為表示文本語義的單個主題詞;
根據(jù)向量相似度算法對所述第一主題標簽向量和所述第二主題標簽向量進行相似度計算,得到所述第一文本與所述第二文本之間的語義相似度值。
第二方面,本發(fā)明提供了一種文本語義相似度的確定裝置,所述裝置包括:
文本獲取單元,用于獲取第一文本以及第二文本,所述第一文本和所述第二文本是需要進行語義相似度計算的任意兩個文本;
轉(zhuǎn)換單元,用于根據(jù)預(yù)設(shè)標簽主題Label LDA模型將所述第一文本以及所述第二文本分別轉(zhuǎn)換為第一主題標簽向量和第二主題標簽向量,所述第一主題標簽向量和所述第二主題標簽向量中每個維度對應(yīng)一個預(yù)設(shè)主題標簽,每個維度對應(yīng)的維度值表示每個預(yù)設(shè)主題標簽的權(quán)重值,所述預(yù)設(shè)主題標簽為表示文本語義的單個主題詞;
計算單元,用于根據(jù)向量相似度算法對所述第一主題標簽向量和所述第二主題標簽向量進行相似度計算,得到所述第一文本與所述第二文本之間的語義相似度值。
借由上述技術(shù)方案,本發(fā)明提供的文本語義相似度的確定方法及裝置,與現(xiàn)有技術(shù)相比,第一文本以及第二文本轉(zhuǎn)換為的第一主題標簽向量以及第二主題標簽向量中的維度是能夠表示文本語義的主題詞(預(yù)設(shè)主題標簽),因此,對第一文本和第二文本的向量化是基于文本語義層面進行的,進而將第一主題標簽向量以及第二主題標簽向量進行相似度計算得到的文本之間的相似度值為能夠在語義層面體現(xiàn)的相似度。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
附圖說明
通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了本發(fā)明實施例提供的一種文本語義相似度的確定方法的流程圖;
圖2示出了本發(fā)明實施例提供的另一種文本語義相似度的確定方法的流程圖;
圖3示出了本發(fā)明實施例提供的一種文本語義相似度的確定裝置的組成框圖;
圖4示出了本發(fā)明實施例提供的另一種文本語義相似度的確定裝置的組成框圖。
具體實施方式
下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
為解決文本相似度計算方法無法實現(xiàn)文本語義上的相似度的計算的問題,本發(fā)明實施例提供了一種文本語義相似度的確定方法,如圖1所示,該方法包括:
101、獲取第一文本以及第二文本。
其中第一文本和第二文本是需要進行文本語義相似度計算的任意兩個文本。需要說明的是第一文本和第二文本的方式和來源不作限定,可以是從直接從線下的文本語料庫中的獲取到的文本,也可以是從互聯(lián)網(wǎng)中通過爬蟲等工具爬取到的文本等。具體的第一文本和第二文本的獲取的來源和方式根據(jù)實際的需求確定。
102、根據(jù)預(yù)設(shè)標簽主題Label LDA模型將第一文本以及第二文本分別轉(zhuǎn)換為第一主題標簽向量和第二主題標簽向量。
第一主題標簽向量和第二主題標簽向量中每個維度對應(yīng)一個預(yù)設(shè)主題標簽,每個維度對應(yīng)的維度值表示每個預(yù)設(shè)主題標簽的權(quán)重值,預(yù)設(shè)主題標簽為表示文本語義的單個主題詞。
通常直接獲取到的第一文本和第二文本在根據(jù)預(yù)設(shè)標簽主題(Label latent dirichlet allocation,Label LDA)模型轉(zhuǎn)換為主題標簽向量之前,需要進行文本的預(yù)處理。具體的預(yù)處理過程包括:首先,將第一文本和第二文本進行分詞處理,得到一個個單獨的詞。分詞的方式可以是基于字符串匹配的分詞方法、基于理解的分詞方法以及基于統(tǒng)計的分詞方法等。然后,對第一文本和第二文本分詞后得到的分詞結(jié)果進行停用詞過濾,停用詞主要包括沒有實際功能意義的詞,比如語氣助詞、介詞等。
將預(yù)處理后的第一文本和第二文本中的詞分別輸入到預(yù)設(shè)標簽主題Label LDA模型中,分別得到對應(yīng)的第一主題標簽向量和第二主題標簽向量,其中第一主題標簽向量和第二主題標簽向量中每個維度對應(yīng)一個預(yù)設(shè)主題標簽,第一主題標簽向量和第二主題標簽向量的維度數(shù)等于預(yù)設(shè)主題標簽的個數(shù),第一主題標簽向量和第二主題標簽向量中每個維度上的維度值表示每個預(yù)設(shè)主題標簽的權(quán)重值。第一主題標簽向量中所有的維度對應(yīng)的維度值的和為1,同樣第二主題標簽向量中所有的維度對應(yīng)的維度值的和為1。需要說明的是預(yù)設(shè)標簽主題Label LDA模型是根據(jù)大量的訓(xùn)練樣本訓(xùn)練生成的模型,預(yù)設(shè)標簽主題Label LDA模型是將經(jīng)過預(yù)處理的文本轉(zhuǎn)換為能夠反映文本語義的預(yù)設(shè)主題標簽所組成向量,其中預(yù)設(shè)主題標簽是提前設(shè)置好的,包括能夠反映常用的所有不同主題類型文本的所能涉及到的主題詞。比如預(yù)設(shè)主題標簽可以為:新聞、資訊、體育、賽事、娛樂、八卦、天氣、心理測試等等。
103、根據(jù)向量相似度算法對第一主題標簽向量和第二主題標簽向量進行相似度計算,得到第一文本與第二文本之間的語義相似度值。
其中,向量相似度算法可以為任意一種可以計算向量之間相似度值的算法,比如歐式距離相似度計算、余弦相似度計算等等。本實施例對具體的向量相似度算法不作限定,具體在實際應(yīng)用中可以根據(jù)實際的需求選擇合適的算法。
本發(fā)明實施例提供的文本語義相似度的確定方法,與現(xiàn)有技術(shù)相比,第一文本以及第二文本轉(zhuǎn)換為的第一主題標簽向量以及第二主題標簽向量中的維度是能夠表示文本語義的主題詞(預(yù)設(shè)主題標簽),因此,對第一文本和第二文本的向量化是基于文本語義層面進行的,進而將第一主題標簽向量以及第二主題標簽向量進行相似度計算得到的文本之間的相似度值為能夠在語義層面體現(xiàn)的相似度。
對圖1所示方法的細化及擴展,本實施例還提供了一種文本語義相似度的確定方法,如圖2所示:
201、根據(jù)訓(xùn)練樣本以及訓(xùn)練樣本對應(yīng)的預(yù)設(shè)主題標簽訓(xùn)練得到預(yù)設(shè)標簽主題Label LDA模型。
具體的得到標簽主題Label LDA模型的過程包括:
首先,獲取訓(xùn)練樣本。
訓(xùn)練樣本包括不同類型的文本數(shù)據(jù)。訓(xùn)練樣本的獲取是根據(jù)不同的需求通過不同的途徑獲取的,比如對于網(wǎng)站推送文本的需求,通常是從互聯(lián)網(wǎng)中抓取文本數(shù)據(jù),具體從互聯(lián)網(wǎng)中抓取文本數(shù)據(jù)可以通過網(wǎng)絡(luò)爬蟲爬取。具體的,不同類型的文本數(shù)據(jù)包括新聞類、體育類、娛樂類、戲曲類等等。在獲取訓(xùn)練樣本時,獲取的訓(xùn)練樣本的類型可以根據(jù)實際的需求只獲取需要的文本類型。
其次,根據(jù)預(yù)設(shè)主題標簽對訓(xùn)練樣本進行標注。
具體的是根據(jù)訓(xùn)練樣本中具體的內(nèi)容進行標注。預(yù)設(shè)主題標簽是用戶提前設(shè)置好的,對訓(xùn)練樣本進行標注即為訓(xùn)練樣本中的每個文本數(shù)據(jù)選擇對應(yīng)的預(yù)設(shè)主題標簽。本實施例中通過人工閱覽的方式為訓(xùn)練樣本進行標注,人工標注的方式更加的準確。在實際的應(yīng)用中,也可以使用自動化的方式進行標注。
第三,對訓(xùn)練樣本中的每一個文本數(shù)據(jù)進行預(yù)處理,包括分詞處理和停用詞過濾。具體的對訓(xùn)練樣本中的文本數(shù)據(jù)進行預(yù)處理的方式與圖1步驟102中對第一文本和第二文本進行預(yù)處理的方式相同,此處不再贅述。
第四、將預(yù)處理后的訓(xùn)練樣本以及訓(xùn)練樣本中文本數(shù)據(jù)對應(yīng)的預(yù)設(shè)主題標簽進行訓(xùn)練得到預(yù)設(shè)標簽主題Label LDA模型。該預(yù)設(shè)標簽主題Label LDA模型是學習到詞與預(yù)設(shè)主題標簽之間的關(guān)系。因此,將訓(xùn)練樣本文本數(shù)據(jù)分詞后得到的所有詞作為預(yù)設(shè)標簽主題Label LDA模型訓(xùn)練的輸入,由預(yù)設(shè)主題標簽對應(yīng)的維度組成的主題標簽向量作為期望輸出進行訓(xùn)練,最終得到預(yù)設(shè)標簽主題Label LDA模型。最后得到的預(yù)設(shè)標簽主題Label LDA模型的輸入為文本中的詞,輸出為文本對應(yīng)的主題標簽向量。主題標簽向量中的維度與預(yù)設(shè)主題標簽一一對應(yīng)。主題標簽向量中每個維度對應(yīng)的值表示該維度對應(yīng)的預(yù)設(shè)主題標簽的權(quán)重值。
202、獲取第一文本以及第二文本。
該步驟的實現(xiàn)方式與圖1步驟101中的實現(xiàn)方式相同,此處不再贅述。
203、根據(jù)預(yù)設(shè)標簽主題Label LDA模型將第一文本以及第二文本分別轉(zhuǎn)換為第一主題標簽向量和第二主題標簽向量。
該步驟的實現(xiàn)方式與圖1步驟102中的實現(xiàn)方式相同,此處不再贅述。
204、根據(jù)截取閾值分別對第一主題標簽向量和第二主題標簽向量進行截取。
現(xiàn)有技術(shù)中,通常在得到第一文本和第二文本對應(yīng)的向量之后就可以直接對得到的向量進行相似度計算。但是在實際應(yīng)用中,通常一篇文本并不能夠在所有預(yù)設(shè)標簽主題上都存在實際的意義,也就是說在得到的主題標簽向量中,有一部分維度并不能反映文本真實的語義內(nèi)容。如果在向量相似計算過程中使用所有的維度對應(yīng)的維度值參與運算,這樣導(dǎo)致的結(jié)果就會放大那些無實際意義的維度對相似度結(jié)果的影響。所以,為了克服無意義的預(yù)設(shè)標簽主題對相似度結(jié)果的影響,我們采用向量截取方法,將得到的第一主題標簽向量和第二主題標簽向量中相對無實際意義的維度刪除,保留對反映文本真實語義有實際意義的維度。
對第一主題標簽向量和第二主題標簽向量進行截取的過程如下:
首先,在對第一主題標簽向量和第二主題標簽向量進行截取之前,需要計算截取閾值,其中截取閾值按照下述公式進行計算:
θ=1/K,其中θ為截取閾值,K為預(yù)設(shè)主題標簽的個數(shù)。
然后,刪除第一主題標簽向量以及第二主題標簽向量中維度值小于等于截取閾值的維度值對應(yīng)的維度,得到截取后的第一主題標簽向量以及截取后的第二主題標簽向量。具體的進行刪除的過程可以根據(jù)下述公式進行:
其中ti表示第一主題標簽向量或者第二主題標簽向量中第i個維度對應(yīng)的維度值,當ti大于截取閾值時,對應(yīng)ti保持不變,當ti小于等于截取閾值時,對應(yīng)ti變?yōu)榱悖缓髮⒆優(yōu)?的ti以及ti對應(yīng)的維度刪除。其中,Ti為ti經(jīng)過上述公式變換后的值。
205、對截取后的第一主題標簽向量和截取后的第二主題標簽向量分別進行歸一化處理,得到第一有效主題標簽向量以及第二有效主題標簽向量。
由于第一主題標簽向量以及第二主題標簽向量中所有的維度值的和為1,在經(jīng)過步驟204進行截取后,刪除了一些維度值,因此為了繼續(xù)保證第一主題標簽向量以及第二主題標簽向量中所有的維度值的和為1,則需要對截取后的第一主題標簽向量和截取后的第二主題標簽向量分別進行歸一化處理,得到第一有效主題標簽向量和第二有效主題標簽向量。歸一化處理是為了將第一主題標簽向量和第一主題標簽向量截取后保留下來的預(yù)設(shè)主題標簽對應(yīng)的權(quán)重值按比例進行重新調(diào)整。
通過具體的示例對截取后的第一主題標簽向量進行歸一化處理進行說明:假設(shè)第一主題標簽向量經(jīng)過步驟204中公式變換后保留下來的維度對應(yīng)的維度值分別為T1、T2、T3、T4、T5、T6,則對應(yīng)的歸一化處理后對應(yīng)的維度值分別為NT1、NT2、NT3、NT4、NT5、NT6。NT1、NT2、NT3、NT4、NT5、NT6組成第一有效主題標簽向量。具體的歸一化處理的計算公式如下所示:
需要說明的是,對截取后的第二主題標簽向量進行歸一化處理的方式與對截取后的第一主題標簽向量進行歸一化處理的方式是相同的。
第一有效主題標簽向量中的維度值對應(yīng)的預(yù)設(shè)主題標簽即對表示第一文本語義有意義的詞;同樣第二有效主題標簽向量中的維度值對應(yīng)的預(yù)設(shè)主題標簽即對表示第二文本語義有意義的詞。第一有效主題標簽向量中的維度值以及第二有效主題標簽向量中的維度值為該維度對應(yīng)的預(yù)設(shè)主題標簽的權(quán)重值。
206、根據(jù)最大標簽相似度算法計算第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值,得到第一文本與第二文本之間的語義相似度值。
具體的,計算第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值的過程如下:
首先,根據(jù)余弦相似度算法計算第一有效主題標簽向量對應(yīng)的每一個預(yù)設(shè)主題標簽分別與第二有效主題標簽向量對應(yīng)的每一個預(yù)設(shè)主題標簽之間的主題標簽相似度值。
具體的按照下述公式計算第一有效主題標簽向量對應(yīng)的每一個預(yù)設(shè)主題標簽分別與第二有效主題標簽向量對應(yīng)的每一個預(yù)設(shè)主題標簽之間的主題標簽相似度值P:
其中L1i表示第一有效主題標簽向量對應(yīng)的第i個預(yù)設(shè)主題標簽,L2j表示第二有效主題標簽向量對應(yīng)的第j個預(yù)設(shè)主題標簽。表示L1i對應(yīng)的詞向量,表示L2j對應(yīng)的詞向量。
需要說明的是以及是將對應(yīng)的L1i以及L2j所表示的預(yù)設(shè)主題標簽通過詞向量轉(zhuǎn)換工具word2vec轉(zhuǎn)換得到的詞向量,通過word2vec得到的詞向量是語義層面的詞向量,也進一步體現(xiàn)了最終得到的文本之間的語義層面的相似度。
其次,根據(jù)最大標簽相似度算法計算第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值。
具體的,按照下述公式,計算第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值:
其中,SIM為第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值,Ki為第一有效主題標簽向量的維度數(shù),Kj為第二有效主題標簽向量的維度數(shù),NTi為第一有效主題標簽向量中第i個維度對應(yīng)的維度值,NTj為第二有效主題標簽向量中第j個維度對應(yīng)的維度值;P(L1i,L2j)為第一有效主題標簽向量中第i個維度值對應(yīng)的預(yù)設(shè)主題標簽與第二有效主題標簽向量中第j個維度值對應(yīng)的預(yù)設(shè)主題標簽之間的主題標簽相似度值。
計算得到的第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值即為第一文本與第二文本之間的語義相似度值。
從上述計算第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值的公式可以看出,在計算相似度時不僅依據(jù)兩個向量本身的對應(yīng)的維度值,而且還將兩個向量中每個維度對應(yīng)的預(yù)設(shè)主題標簽之間的相似度加以考慮。這種相似度計算方法充分考慮了向量相似度計算時維度之間的相關(guān)性(即文本轉(zhuǎn)換為的有效主題標簽向量中預(yù)設(shè)主題標簽之間的相關(guān)性),克服了現(xiàn)有的文本對應(yīng)的向量相似度計算過程中不考慮維度對應(yīng)的實際的詞之間的語義相關(guān)性的缺失。
進一步的,作為對上述各實施例的實現(xiàn),本發(fā)明實施例的另一實施例還提供了一種文本語義相似度的確定裝置,用于實現(xiàn)上述圖1以及圖2所述的方法。如圖3所示,該裝置包括:文本獲取單元31、轉(zhuǎn)換單元32以及計算單元33。
文本獲取單元31,用于獲取第一文本以及第二文本,第一文本和第二文本是需要進行語義相似度計算的任意兩個文本;
其中第一文本和第二文本是需要進行文本語義相似度計算的任意兩個文本。需要說明的是第一文本和第二文本的方式和來源不作限定,可以是從直接從線下的文本語料庫中的獲取到的文本,也可以是從互聯(lián)網(wǎng)中通過爬蟲等工具爬取到的文本等。具體的第一文本和第二文本的獲取的來源和方式根據(jù)實際的需求確定。
轉(zhuǎn)換單元32,用于根據(jù)預(yù)設(shè)標簽主題Label LDA模型將第一文本以及第二文本分別轉(zhuǎn)換為第一主題標簽向量和第二主題標簽向量,第一主題標簽向量和第二主題標簽向量中每個維度對應(yīng)一個預(yù)設(shè)主題標簽,每個維度對應(yīng)的維度值表示每個預(yù)設(shè)主題標簽的權(quán)重值,預(yù)設(shè)主題標簽為表示文本語義的單個主題詞;
通常直接獲取到的第一文本和第二文本在根據(jù)預(yù)設(shè)標簽主題(Label latent dirichlet allocation,Label LDA)模型轉(zhuǎn)換為主題標簽向量之前,需要進行文本的預(yù)處理。具體的預(yù)處理過程包括:首先,將第一文本和第二文本進行分詞處理,得到一個個單獨的詞。分詞的方式可以是基于字符串匹配的分詞方法、基于理解的分詞方法以及基于統(tǒng)計的分詞方法等。然后,對第一文本和第二文本分詞后得到的分詞結(jié)果進行停用詞過濾,停用詞主要包括沒有實際功能意義的詞,比如語氣助詞、介詞等。
將預(yù)處理后的第一文本和第二文本中的詞分別輸入到預(yù)設(shè)標簽主題Label LDA模型中,分別得到對應(yīng)的第一主題標簽向量和第二主題標簽向量,其中第一主題標簽向量和第二主題標簽向量中每個維度對應(yīng)一個預(yù)設(shè)主題標簽,第一主題標簽向量和第二主題標簽向量的維度數(shù)等于預(yù)設(shè)主題標簽的個數(shù),第一主題標簽向量和第二主題標簽向量中每個維度上的維度值表示每個預(yù)設(shè)主題標簽的權(quán)重值。第一主題標簽向量中所有的維度對應(yīng)的維度值的和為1,同樣第二主題標簽向量中所有的維度對應(yīng)的維度值的和為1。需要說明的是預(yù)設(shè)標簽主題Label LDA模型是根據(jù)大量的訓(xùn)練樣本訓(xùn)練生成的模型,預(yù)設(shè)標簽主題Label LDA模型是將經(jīng)過預(yù)處理的文本轉(zhuǎn)換為能夠反映文本語義的預(yù)設(shè)主題標簽所組成向量,其中預(yù)設(shè)主題標簽是提前設(shè)置好的,包括能夠反映常用的所有不同主題類型文本的所能涉及到的主題詞。比如預(yù)設(shè)主題標簽可以為:新聞、資訊、體育、賽事、娛樂、八卦、天氣、心理測試等等。
計算單元33,用于根據(jù)向量相似度算法對第一主題標簽向量和第二主題標簽向量進行相似度計算,得到第一文本與第二文本之間的語義相似度值。
其中,向量相似度算法可以為任意一種可以計算向量之間相似度值的算法,比如歐式距離相似度計算、余弦相似度計算等等。本實施例對具體的向量相似度算法不作限定,具體在實際應(yīng)用中可以根據(jù)實際的需求選擇合適的算法。
如圖4所示,裝置還包括:
樣本獲取單元34,用于獲取訓(xùn)練樣本,訓(xùn)練樣本包含大量的不同類型的文本數(shù)據(jù);
訓(xùn)練樣本包括不同類型的文本數(shù)據(jù)。訓(xùn)練樣本的獲取是根據(jù)不同的需求通過不同的途徑獲取的,比如對于網(wǎng)站推送文本的需求,通常是從互聯(lián)網(wǎng)中抓取文本數(shù)據(jù),具體從互聯(lián)網(wǎng)中抓取文本數(shù)據(jù)可以通過網(wǎng)絡(luò)爬蟲爬取。具體的,不同類型的文本數(shù)據(jù)包括新聞類、體育類、娛樂類、戲曲類等等。在獲取訓(xùn)練樣本時,獲取的訓(xùn)練樣本的類型可以根據(jù)實際的需求只獲取需要的文本類型。
標注單元35,用于根據(jù)預(yù)設(shè)主題標簽對訓(xùn)練樣本進行標注,訓(xùn)練樣本中的每個文本至少對應(yīng)一個預(yù)設(shè)主題標簽;
具體的是根據(jù)訓(xùn)練樣本中具體的內(nèi)容進行標注。預(yù)設(shè)主題標簽是用戶提前設(shè)置好的,對訓(xùn)練樣本進行標注即為訓(xùn)練樣本中的每個文本數(shù)據(jù)選擇對應(yīng)的預(yù)設(shè)主題標簽。本實施例中通過人工閱覽的方式為訓(xùn)練樣本進行標注,人工標注的方式更加的準確。在實際的應(yīng)用中,也可以使用自動化的方式進行標注。
訓(xùn)練單元36,用于根據(jù)標簽主題Label LDA算法對訓(xùn)練樣本以及訓(xùn)練樣本對應(yīng)的預(yù)設(shè)主題標簽進行訓(xùn)練,得到預(yù)設(shè)標簽主題Label LDA模型。
首先,對訓(xùn)練樣本中的每一個文本數(shù)據(jù)進行預(yù)處理,包括分詞處理和停用詞過濾。具體的對訓(xùn)練樣本中的文本數(shù)據(jù)進行預(yù)處理的方式與轉(zhuǎn)換單元32中對第一文本和第二文本進行預(yù)處理的方式相同,此處不再贅述。
其次,將預(yù)處理后的訓(xùn)練樣本以及訓(xùn)練樣本中文本數(shù)據(jù)對應(yīng)的預(yù)設(shè)主題標簽進行訓(xùn)練得到預(yù)設(shè)標簽主題Label LDA模型。該預(yù)設(shè)標簽主題Label LDA模型是學習到詞與預(yù)設(shè)主題標簽之間的關(guān)系。因此,將訓(xùn)練樣本文本數(shù)據(jù)分詞后得到的所有詞作為預(yù)設(shè)標簽主題Label LDA模型訓(xùn)練的輸入,由預(yù)設(shè)主題標簽對應(yīng)的維度組成的主題標簽向量作為期望輸出進行訓(xùn)練,最終得到預(yù)設(shè)標簽主題Label LDA模型。最后得到的預(yù)設(shè)標簽主題Label LDA模型的輸入為文本中的詞,輸出為文本對應(yīng)的主題標簽向量。主題標簽向量中的維度與預(yù)設(shè)主題標簽一一對應(yīng)。主題標簽向量中每個維度對應(yīng)的值表示該維度對應(yīng)的預(yù)設(shè)主題標簽的權(quán)重值。
如圖4所示,計算單元33包括:
截取模塊331,用于分別對第一主題標簽向量和第二主題標簽向量進行截取,保留第一主題標簽向量和第二主題標簽向量中小于等于截取閾值的維度值以及小于等于截取閾值的維度值對應(yīng)的維度,截取閾值為預(yù)設(shè)主題標簽的倒數(shù);
現(xiàn)有技術(shù)中,通常在得到第一文本和第二文本對應(yīng)的向量之后就可以直接對得到的向量進行相似度計算。但是在實際應(yīng)用中,通常一篇文本并不能夠在所有預(yù)設(shè)標簽主題上都存在實際的意義,也就是說在得到的主題標簽向量中,有一部分維度并不能反映文本真實的語義內(nèi)容。如果在向量相似計算過程中使用所有的維度對應(yīng)的維度值參與運算,這樣導(dǎo)致的結(jié)果就會放大那些無實際意義的維度對相似度結(jié)果的影響。所以,為了克服無意義的預(yù)設(shè)標簽主題對相似度結(jié)果的影響,我們采用向量截取方法,將得到的第一主題標簽向量和第二主題標簽向量中相對無實際意義的維度刪除,保留對反映文本真實語義有實際意義的維度。
對第一主題標簽向量和第二主題標簽向量進行截取的過程如下:
首先,在對第一主題標簽向量和第二主題標簽向量進行截取之前,需要計算截取閾值,其中截取閾值按照下述公式進行計算:
θ=1/K,其中θ為截取閾值,K為預(yù)設(shè)主題標簽的個數(shù)。
然后,刪除第一主題標簽向量以及第二主題標簽向量中維度值小于等于截取閾值的維度值對應(yīng)的維度,得到截取后的第一主題標簽向量以及截取后的第二主題標簽向量。具體的進行刪除的過程可以根據(jù)下述公式進行:
其中ti表示第一主題標簽向量或者第二主題標簽向量中第i個維度對應(yīng)的維度值,當ti大于截取閾值時,對應(yīng)ti保持不變,當ti小于等于截取閾值時,對應(yīng)ti變?yōu)榱?,然后將變?yōu)?的ti以及ti對應(yīng)的維度刪除。其中,Ti為ti經(jīng)過上述公式變換后的值。
歸一化模塊332,用于對截取后的第一主題標簽向量和截取后的第二主題標簽向量分別進行歸一化處理,得到第一有效主題標簽向量和第二有效主題標簽向量;
由于第一主題標簽向量以及第二主題標簽向量中所有的維度值的和為1,在經(jīng)過截取模塊331進行截取后,刪除了一些維度值,因此為了繼續(xù)保證第一主題標簽向量以及第二主題標簽向量中所有的維度值的和為1,則需要對截取后的第一主題標簽向量和截取后的第二主題標簽向量分別進行歸一化處理,得到第一有效主題標簽向量和第二有效主題標簽向量。歸一化處理是為了將第一主題標簽向量和第一主題標簽向量截取后保留下來的預(yù)設(shè)主題標簽對應(yīng)的權(quán)重值按比例進行重新調(diào)整。
通過具體的示例對截取后的第一主題標簽向量進行歸一化處理進行說明:假設(shè)第一主題標簽向量經(jīng)過截取模塊331中公式變換后保留下來的維度對應(yīng)的維度值分別為T1、T2、T3、T4、T5、T6,則對應(yīng)的歸一化處理后對應(yīng)的的維度值分別為NT1、NT2、NT3、NT4、NT5、NT6。NT1、NT2、NT3、NT4、NT5、NT6組成第一有效主題標簽向量。具體的歸一化處理的計算公式如下所示:
需要說明的是,對截取后的第二主題標簽向量進行歸一化處理的方式與對截取后的第一主題標簽向量進行歸一化處理的方式是相同的。
第一有效主題標簽向量中的維度值對應(yīng)的預(yù)設(shè)主題標簽即對表示第一文本語義有意義的詞;同樣第二有效主題標簽向量中的維度值對應(yīng)的預(yù)設(shè)主題標簽即對表示第二文本語義有意義的詞。第一有效主題標簽向量中的維度值以及第二有效主題標簽向量中的維度值為該維度對應(yīng)的預(yù)設(shè)主題標簽的權(quán)重值。
計算模塊333,用于根據(jù)最大標簽相似度算法計算第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值。
計算模塊333,用于:
根據(jù)余弦相似度算法計算第一有效主題標簽向量對應(yīng)的每一個預(yù)設(shè)主題標簽分別與第二有效主題標簽向量對應(yīng)的每一個預(yù)設(shè)主題標簽之間的主題標簽相似度值;
具體的按照下述公式計算第一有效主題標簽向量對應(yīng)的每一個預(yù)設(shè)主題標簽分別與第二有效主題標簽向量對應(yīng)的每一個預(yù)設(shè)主題標簽之間的主題標簽相似度值P:
其中L1i表示第一有效主題標簽向量對應(yīng)的第i個預(yù)設(shè)主題標簽,L2j表示第二有效主題標簽向量對應(yīng)的第j個預(yù)設(shè)主題標簽。表示L1i對應(yīng)的詞向量,表示L2j對應(yīng)的詞向量。
需要說明的是以及是將對應(yīng)的L1i以及L2j所表示的預(yù)設(shè)主題標簽通過詞向量轉(zhuǎn)換工具word2vec轉(zhuǎn)換得到的詞向量,通過word2vec得到的詞向量是語義層面的詞向量,也進一步體現(xiàn)了最終得到的文本之間的語義層面的相似度。
按照下述公式,計算第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值:
其中,SIM為第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值,Ki為第一有效主題標簽向量的維度數(shù),Kj為第二有效主題標簽向量的維度數(shù),NTi為第一有效主題標簽向量中第i個維度對應(yīng)的維度值,NTj為第二有效主題標簽向量中第j個維度對應(yīng)的維度值;P(L1i,L2j)為第一有效主題標簽向量中第i個維度值對應(yīng)的預(yù)設(shè)主題標簽與第二有效主題標簽向量中第j個維度值對應(yīng)的預(yù)設(shè)主題標簽之間的主題標簽相似度值。
計算得到的第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值即為第一文本與第二文本之間的語義相似度值。
從上述計算第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值的公式可以看出,在計算相似度時不僅依據(jù)兩個向量本身的對應(yīng)的維度值,而且還將兩個向量中每個維度對應(yīng)的預(yù)設(shè)主題標簽之間的相似度加以考慮。這種相似度計算方法充分考慮了向量相似度計算時維度之間的相關(guān)性(即文本轉(zhuǎn)換為的有效主題標簽向量中預(yù)設(shè)主題標簽之間的相關(guān)性),克服了現(xiàn)有的文本對應(yīng)的向量相似度計算過程中不考慮維度對應(yīng)的實際的詞之間的語義相關(guān)性的缺失。
文本獲取單元31用于:
從互聯(lián)網(wǎng)中爬取第一文本以及第二文本。
本發(fā)明實施例提供的文本語義相似度的確定裝置,與現(xiàn)有技術(shù)相比,第一文本以及第二文本轉(zhuǎn)換為的第一主題標簽向量以及第二主題標簽向量中的維度是能夠表示文本語義的主題詞(預(yù)設(shè)主題標簽),因此,對第一文本和第二文本的向量化是基于文本語義層面進行的,進而將第一主題標簽向量以及第二主題標簽向量進行相似度計算得到的文本之間的相似度值為能夠在語義層面體現(xiàn)的相似度。
在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。
可以理解的是,上述方法及裝置中的相關(guān)特征可以相互參考。另外,上述實施例中的“第一”、“第二”等是用于區(qū)分各實施例,而并不代表各實施例的優(yōu)劣。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
在此提供的算法和顯示不與任何特定計算機、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
類似地,應(yīng)當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進行自適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在下面的權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的發(fā)明名稱(如文本語義相似度的確定裝置)中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。