欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

利用句義結(jié)構(gòu)特征的句子相似度計(jì)算方法與流程

文檔序號(hào):12271307閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.利用句義結(jié)構(gòu)特征的句子相似度計(jì)算方法,所述方法包括以下步驟:

步驟1,對(duì)短文本集進(jìn)行預(yù)處理,先進(jìn)行分句,然后進(jìn)行分詞和詞性標(biāo)注,去停用詞;

步驟2,結(jié)合句義結(jié)構(gòu)特征和主題-詞語(yǔ)分布特征,對(duì)句子進(jìn)行特征擴(kuò)充,并計(jì)算句子相似度;

步驟2.1,在步驟1的基礎(chǔ)上,對(duì)每條句子進(jìn)行句義結(jié)構(gòu)分析,提取句子的話題、述題、基本項(xiàng)、一般項(xiàng);

步驟2.2,利用LDA(Latent Dirichlet Allocation)主題模型對(duì)短文本集進(jìn)行分析,提取文本中的主題和主題下的詞語(yǔ)分布,得到主題-詞語(yǔ)矩陣;

步驟2.3,根據(jù)話題對(duì)句子進(jìn)行特征擴(kuò)充,得到基于話題的句子向量;

步驟2.4,根據(jù)述題對(duì)句子進(jìn)行特征擴(kuò)充,得到基于述題的句子向量;

步驟2.5,分別基于步驟2.3和2.4得到的兩種句子向量計(jì)算句子相似度,對(duì)兩個(gè)相似度值進(jìn)行加權(quán),得到句子間的最終相似度值,具體計(jì)算公式如下,

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mn>1</mn> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>A</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>B</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>&omega;</mi> <mo>*</mo> <mfrac> <mrow> <mover> <msub> <mi>S</mi> <mrow> <mi>A</mi> <mi>t</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>&CenterDot;</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>B</mi> <mi>t</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>A</mi> <mi>t</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>B</mi> <mi>t</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&omega;</mi> <mo>)</mo> </mrow> <mo>*</mo> <mfrac> <mrow> <mover> <msub> <mi>S</mi> <mrow> <mi>A</mi> <mi>c</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>&CenterDot;</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>B</mi> <mi>c</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>A</mi> <mi>c</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>B</mi> <mi>c</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> </mrow>

其中,SA和SB代表任意兩個(gè)句子,sim1(SA,SB)表示兩個(gè)句子的相似度值,分別表示句子SA和SB的基于話題的句子向量,分別表示句子SA和SB的表示基于述題的句子向量,ω為可調(diào)參數(shù),取值范圍為[0,1];

步驟3,將經(jīng)過(guò)步驟1預(yù)處理后的所有句子輸入到PV(Paragraph Vector)深度學(xué)習(xí)模型,利用PV模型學(xué)習(xí)文本特征,得到句子向量,并基于該句子向量計(jì)算句子間的余弦距離作為句子間的相似度,計(jì)算公式如下,

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mn>2</mn> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>A</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>B</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mover> <msub> <mi>S</mi> <mrow> <mi>A</mi> <mi>p</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>&CenterDot;</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>B</mi> <mi>p</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>A</mi> <mi>p</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>B</mi> <mi>p</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> </mrow>

其中,SA和SB代表任意兩個(gè)句子,sim2(SA,SB)表示兩個(gè)句子的相似度值,分別表示用PV模型學(xué)習(xí)得到的句子向量;

步驟4,將步驟2和步驟3得到的句子間的相似度值進(jìn)行線性加權(quán),通過(guò)網(wǎng)格法調(diào)節(jié)參數(shù),找到一組最優(yōu)的參數(shù)取值,輸出最終的句子對(duì)之間的相似度值。

2.根據(jù)權(quán)利要求1所述的利用句義結(jié)構(gòu)特征的句子相似度計(jì)算方法,其特征在于,步驟2.3中基于話題對(duì)句子進(jìn)行特征擴(kuò)充具體方法為:首先提取話題下的基本項(xiàng)和一般項(xiàng)對(duì)應(yīng)的詞語(yǔ),然后根據(jù)LDA分析短文集得到的主題-詞語(yǔ)矩陣,比較詞語(yǔ)在不同主題下的概率,選取概率最高的主題,將該主題下的其它詞語(yǔ)補(bǔ)充到句子中,作為句子的一部分,最后,使用句子的所有詞語(yǔ)作為特征,構(gòu)建特征向量表示句子,其中句中原有詞語(yǔ)所對(duì)應(yīng)的維度上的取值為詞語(yǔ)的在句中的出現(xiàn)次數(shù),而擴(kuò)充的詞語(yǔ)所對(duì)應(yīng)的維度上的取值按如下公式進(jìn)行計(jì)算,

V=n*w

V是擴(kuò)充詞語(yǔ)對(duì)應(yīng)維度上的取值,n是擴(kuò)充詞語(yǔ)在句子中出現(xiàn)的次數(shù),w為擴(kuò)充詞語(yǔ)在對(duì)應(yīng)主題下的概率值;

步驟2.4中基于述題對(duì)句子進(jìn)行特征擴(kuò)充的方法類似于基于話題對(duì)句子進(jìn)行擴(kuò)充的方法。

3.根據(jù)權(quán)利要求1所述的利用句義結(jié)構(gòu)特征的句子相似度計(jì)算方法,其特征在于,步驟4中將基于CSM得到的相似度和基于PV得到的相似度加權(quán)融合,具體計(jì)算公式為:

sim(SA,SB)=θ*sim1(SA,SB)+(1-θ)*sim2(SA,SB)

其中,SA和SB代表任意兩個(gè)句子,sim(SA,SB)表示兩個(gè)句子的相似度值,θ為可調(diào)參數(shù),取值范圍為[0,1],結(jié)合權(quán)利要求1中的步驟2.5和步驟3中的公式,完整的句子相似度計(jì)算公式為:

<mrow> <mi>s</mi> <mi>i</mi> <mi>m</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>S</mi> <mi>A</mi> </msub> <mo>,</mo> <msub> <mi>S</mi> <mi>B</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mi>&theta;</mi> <mo>*</mo> <mrow> <mo>&lsqb;</mo> <mrow> <mi>&omega;</mi> <mo>*</mo> <mfrac> <mrow> <mover> <msub> <mi>S</mi> <mrow> <mi>A</mi> <mi>t</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>&CenterDot;</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>B</mi> <mi>t</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>A</mi> <mi>t</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>B</mi> <mi>t</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>&omega;</mi> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <mfrac> <mrow> <mover> <msub> <mi>S</mi> <mrow> <mi>A</mi> <mi>c</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>&CenterDot;</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>B</mi> <mi>c</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>A</mi> <mi>c</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>B</mi> <mi>c</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> </mrow> <mo>&rsqb;</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mrow> <mn>1</mn> <mo>-</mo> <mi>&theta;</mi> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <mfrac> <mrow> <mover> <msub> <mi>S</mi> <mrow> <mi>A</mi> <mi>p</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>&CenterDot;</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>B</mi> <mi>p</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> </mrow> <mrow> <mo>|</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>A</mi> <mi>p</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> <mo>|</mo> <mover> <msub> <mi>S</mi> <mrow> <mi>B</mi> <mi>p</mi> </mrow> </msub> <mo>&RightArrow;</mo> </mover> <mo>|</mo> </mrow> </mfrac> </mrow>

ω和θ都是可調(diào)參數(shù),取值范圍都是[0,1]。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
界首市| 石林| 渭南市| 惠东县| 孙吴县| 云和县| 抚远县| 即墨市| 江永县| 林州市| 东方市| 大连市| 循化| 东宁县| 江源县| 青田县| 炉霍县| 竹溪县| 资讯 | 浠水县| 建宁县| 西乌| 通化县| 陆川县| 鄂尔多斯市| 鹿泉市| 宿州市| 桐庐县| 安溪县| 盐山县| 广河县| 武定县| 习水县| 新沂市| 永寿县| 新田县| 黔江区| 阳朔县| 休宁县| 柏乡县| 北川|