欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文本語義相似度的確定方法及裝置與流程

文檔序號:12464545閱讀:來源:國知局

技術(shù)特征:

1.一種文本語義相似度的確定方法,其特征在于,所述方法包括:

獲取第一文本以及第二文本,所述第一文本和所述第二文本是需要進行語義相似度計算的任意兩個文本;

根據(jù)預設(shè)標簽主題Label LDA模型將所述第一文本以及所述第二文本分別轉(zhuǎn)換為第一主題標簽向量和第二主題標簽向量,所述第一主題標簽向量和所述第二主題標簽向量中每個維度對應(yīng)一個預設(shè)主題標簽,每個維度對應(yīng)的維度值表示每個預設(shè)主題標簽的權(quán)重值,所述預設(shè)主題標簽為表示文本語義的單個主題詞;

根據(jù)向量相似度算法對所述第一主題標簽向量和所述第二主題標簽向量進行相似度計算,得到所述第一文本與所述第二文本之間的語義相似度值。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括:

獲取訓練樣本,所述訓練樣本包含大量的不同類型的文本數(shù)據(jù);

根據(jù)預設(shè)主題標簽對所述訓練樣本進行標注,訓練樣本中的每個文本至少對應(yīng)一個預設(shè)主題標簽;

根據(jù)標簽主題Label LDA算法對所述訓練樣本以及所述訓練樣本對應(yīng)的預設(shè)主題標簽進行訓練,得到所述預設(shè)標簽主題Label LDA模型。

3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)向量相似度算法對所述第一主題標簽向量和所述第二主題標簽向量進行相似度計算,包括:

分別對所述第一主題標簽向量和所述第二主題標簽向量進行截取,保留所述第一主題標簽向量和所述第二主題標簽向量中小于等于截取閾值的維度值以及小于等于所述截取閾值的維度值對應(yīng)的維度,所述截取閾值為預設(shè)主題標簽的倒數(shù);

對截取后的第一主題標簽向量和截取后的第二主題標簽向量分別進行歸一化處理,得到第一有效主題標簽向量和第二有效主題標簽向量;

根據(jù)最大標簽相似度算法計算所述第一有效主題標簽向量和所述第二有效主題標簽向量之間的相似度值。

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)最大標簽相似度算法計算第一有效主題標簽向量和第二有效主題標簽向量之間的相似度值,包括:

根據(jù)余弦相似度算法計算所述第一有效主題標簽向量對應(yīng)的每一個預設(shè)主題標簽分別與所述第二有效主題標簽向量對應(yīng)的每一個預設(shè)主題標簽之間的主題標簽相似度值;

按照下述公式,計算所述第一有效主題標簽向量和所述第二有效主題標簽向量之間的相似度值:

<mrow> <mi>S</mi> <mi>I</mi> <mi>M</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> </msubsup> <msub> <mi>NT</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>max</mi> <mo>(</mo> <mrow> <msubsup> <mi>p</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>K</mi> <mi>j</mi> </msub> </msubsup> <mrow> <mo>(</mo> <mrow> <mi>L</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mo>,</mo> <mi>L</mi> <msub> <mn>2</mn> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <msubsup> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>K</mi> <mi>j</mi> </mrow> </msubsup> <msub> <mi>NT</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>max</mi> <mo>(</mo> <mrow> <msubsup> <mi>p</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> </msubsup> <mrow> <mo>(</mo> <mrow> <mi>L</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mo>,</mo> <mi>L</mi> <msub> <mn>2</mn> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mn>2</mn> </mfrac> </mrow>

其中,SIM為所述第一有效主題標簽向量和所述第二有效主題標簽向量之間的相似度值,Ki為所述第一有效主題標簽向量的維度數(shù),Kj為第二有效主題標簽向量的維度數(shù),NTi為第一有效主題標簽向量中第i個維度對應(yīng)的維度值,NTj為第二有效主題標簽向量中第j個維度對應(yīng)的維度值;P(L1i,L2j)為第一有效主題標簽向量中第i個維度值對應(yīng)的預設(shè)主題標簽與第二有效主題標簽向量中第j個維度值對應(yīng)的預設(shè)主題標簽之間的主題標簽相似度值。

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述獲取第一文本以及第二文本,包括:

從互聯(lián)網(wǎng)中爬取所述第一文本以及所述第二文本。

6.一種文本語義相似度的確定裝置,其特征在于,所述裝置包括:

文本獲取單元,用于獲取第一文本以及第二文本,所述第一文本和所述第二文本是需要進行語義相似度計算的任意兩個文本;

轉(zhuǎn)換單元,用于根據(jù)預設(shè)標簽主題Label LDA模型將所述第一文本以及所述第二文本分別轉(zhuǎn)換為第一主題標簽向量和第二主題標簽向量,所述第一主題標簽向量和所述第二主題標簽向量中每個維度對應(yīng)一個預設(shè)主題標簽,每個維度對應(yīng)的維度值表示每個預設(shè)主題標簽的權(quán)重值,所述預設(shè)主題標簽為表示文本語義的單個主題詞;

計算單元,用于根據(jù)向量相似度算法對所述第一主題標簽向量和所述第二主題標簽向量進行相似度計算,得到所述第一文本與所述第二文本之間的語義相似度值。

7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括:

樣本獲取單元,用于獲取訓練樣本,所述訓練樣本包含大量的不同類型的文本數(shù)據(jù);

標注單元,用于根據(jù)預設(shè)主題標簽對所述訓練樣本進行標注,訓練樣本中的每個文本至少對應(yīng)一個預設(shè)主題標簽;

訓練單元,用于根據(jù)標簽主題Label LDA算法對所述訓練樣本以及所述訓練樣本對應(yīng)的預設(shè)主題標簽進行訓練,得到所述預設(shè)標簽主題Label LDA模型。

8.根據(jù)權(quán)利要求6或7所述的裝置,其特征在于,所述計算單元包括:

截取模塊,用于分別對所述第一主題標簽向量和所述第二主題標簽向量進行截取,保留所述第一主題標簽向量和所述第二主題標簽向量中小于等于截取閾值的維度值以及小于等于所述截取閾值的維度值對應(yīng)的維度,所述截取閾值為預設(shè)主題標簽的倒數(shù);

歸一化模塊,用于對截取后的第一主題標簽向量和截取后的第二主題標簽向量分別進行歸一化處理,得到第一有效主題標簽向量和第二有效主題標簽向量;

計算模塊,用于根據(jù)最大標簽相似度算法計算所述第一有效主題標簽向量和所述第二有效主題標簽向量之間的相似度值。

9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述計算模塊,用于:

根據(jù)余弦相似度算法計算所述第一有效主題標簽向量對應(yīng)的每一個預設(shè)主題標簽分別與所述第二有效主題標簽向量對應(yīng)的每一個預設(shè)主題標簽之間的主題標簽相似度值;

按照下述公式,計算所述第一有效主題標簽向量和所述第二有效主題標簽向量之間的相似度值:

<mrow> <mi>S</mi> <mi>I</mi> <mi>M</mi> <mo>=</mo> <mfrac> <mrow> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> </msubsup> <msub> <mi>NT</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>(</mo> <msubsup> <mi>p</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>K</mi> <mi>j</mi> </msub> </msubsup> <mo>(</mo> <mi>L</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mo>,</mo> <mi>L</mi> <msub> <mn>2</mn> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> <mo>)</mo> <mo>+</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mrow> <mi>K</mi> <mi>j</mi> </mrow> </msubsup> <msub> <mi>NT</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mo>(</mo> <msubsup> <mi>p</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <msub> <mi>K</mi> <mi>i</mi> </msub> </msubsup> <mo>(</mo> <mi>L</mi> <msub> <mn>1</mn> <mi>i</mi> </msub> <mo>,</mo> <mi>L</mi> <msub> <mn>2</mn> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </mfrac> </mrow>

其中,SIM為所述第一有效主題標簽向量和所述第二有效主題標簽向量之間的相似度值,Ki為所述第一有效主題標簽向量的維度數(shù),Kj為第二有效主題標簽向量的維度數(shù),NTi為第一有效主題標簽向量中第i個維度對應(yīng)的維度值,NTj為第二有效主題標簽向量中第j個維度對應(yīng)的維度值;P(L1i,L2j)為第一有效主題標簽向量中第i個維度值對應(yīng)的預設(shè)主題標簽與第二有效主題標簽向量中第j個維度值對應(yīng)的預設(shè)主題標簽之間的主題標簽相似度值。

10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述文本獲取單元用于:

從互聯(lián)網(wǎng)中爬取所述第一文本以及所述第二文本。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
奇台县| 曲靖市| 新乐市| 巴彦淖尔市| 顺平县| 永登县| 应城市| 酒泉市| 南安市| 巴青县| 晋州市| 贞丰县| 商城县| 股票| 南丰县| 汉中市| 汾西县| 柳河县| 木里| 筠连县| 龙山县| 昌乐县| 陈巴尔虎旗| 昌平区| 晋宁县| 昭苏县| 象山县| 额敏县| 博客| 吉木乃县| 樟树市| 景德镇市| 阳西县| 新津县| 饶平县| 三门峡市| 四平市| 喀什市| 合川市| 黔西| 通州市|