本發(fā)明涉及問答文本檢索,尤其涉及一種利用刻畫因果依賴關系和時序影響機制增強答案質量排序方法。
背景技術:
:問答檢索是具有現實意義的重要
技術領域:
,而依據問答文本的語義關聯性對其進行排序是這一領域中的一項重要技術。這項技術在檢索過程中,對問題與其每一個候選答案的關聯性高低進行排序,并將排序結果展現給用戶,在答案質量排序應用中有巨大的價值。傳統(tǒng)的答案質量排序方法,一般先為問答數據學習一個語義空間,再將問題與答案分別映射在該語義空間中,形成相應的特征向量。之后使用一個人工指定的關聯性度量函數或者機器學習的方法計算問題和每一個候選答案間的關聯性,最后再依照關聯性高低對答案質量進行排序。這種方法將語義空間中的特征向量作為問答數據的表示,僅考慮問題答案之間的語義關聯性(即本文中所說的“因果依賴關系”),而忽略了同一問題下候選答案之間的時序影響,因此難以挖掘答案之間原本存在的復雜影響機制。利用刻畫因果依賴關系和時序影響機制增強答案質量排序方法能夠有效彌補上述傳統(tǒng)方法中的不足。本方法在傳統(tǒng)的長短時記憶模型中引入了問答數據中常見的問題與答案之間的因果依賴關系以及答案與答案之間的時序影響機制。相比一般的答案質量評判方法,本發(fā)明不僅局限于問題和答案之間的語義關聯度,還進一步發(fā)掘答案之間基于時序的相互影響,揭示高質量答案的形成規(guī)律。技術實現要素:本發(fā)明的目的在于解決現有技術中存在的問題,并提供一種利用刻畫因果依賴關系和時序影響機制增強答案質量排序的評判方法。本發(fā)明所采用的具體技術方案如下:利用刻畫因果依賴關系和時序影響機制增強答案質量排序的評判方法,包括如下步驟:1)構建排序用的問答訓練數據集:將每個問題及其按照時間先后順序排序的答案作為訓練數據集;2)對訓練樣本進行分詞操作并去除訓練樣本中的噪音,使用paragraph2vec模型對處理后的問答數據進行無監(jiān)督學習,得到文本表達模型,并利用文本表達模型分別構建問題與答案在語義空間中的隱性表達;3)基于問題和答案在語義空間中的隱性表達,將問題與答案之間的因果依賴關系和答案與答案之間的時序影響機制引入長短時記憶模型進行學習,得到問答排序模型;4)使用學習后所得到的問答排序模型對新問題下的候選答案進行排序:基于問題和答案在語義空間中的隱性表達,使用問答排序模型對問題與每一個答案的關聯性進行評分,根據關聯性評分的高低對問題的候選答案進行分數排序,最后輸出答案質量排序結果。上述步驟可具體采用如下實現方式:所述的步驟1)包括:1)對于任意問題qi∈q,i∈{1,2,…n},其中n為問題集q中問題的數量,從答案集a中得到其候選答案ai,1,ai,2,ai,3…ai,k分別對應的發(fā)布時間ti,1,ti,2,ti,3…ti,k,其中k為問題qi下候選答案的數量;2)按照時間先后順序對ti,1,ti,2,ti,3…ti,k進行排序,得到時間序列t1,t2,t3…tk,同時根據時間ti,1,ti,2,ti,3…ti,k的先后順序對答案進行排序,發(fā)表時間較早的答案排在靠前的位置;3)每個問題與其候選答案構成一個數據樣本,表示為的多元組。所述的步驟2)包括:1)使用分詞工具對所得到的問答數據進行分詞處理,對分詞結果中不同詞{w1,w2,w3…wn}的出現頻率{f1,f2,f3…fn}進行統(tǒng)計;2)針對統(tǒng)計結果,設定最高閾值fl與最低閾值fu,對于wi∈{w1,w2,w3…wn},如果fi<fl或者fi>fu,則從數據中刪除單詞wi;3)若wi為停止詞,則從數據中刪除單詞wi;4)使用paragraph2vec對訓練集中的所有問答數據進行無監(jiān)督學習,得到問題和答案的特征表達向量,問題和答案分別被表示為vq∈rd和va∈rd,其中d為文本在語義特征空間的維數。所述的步驟3)包括:1)基于傳統(tǒng)長短時記憶模型,使模型的結構單元接收當前時間節(jié)點t前所有時間節(jié)點的隱輸出h(i),其中1≤i≤t-1;模型的結構單元再通過設置權重系數αi,將所接收的隱輸出加權求和,得到新的向量m(t),其定義如下:其中αi∈[0,1]并且α1預先進行初始化,其他的αi進而初始化為(1-α1)/(t-2);m(t)將作為當前時間節(jié)點的隱輸入,參與當前時間節(jié)點結構單元中各個門的計算;2)在模型訓練過程中,模型在第一個時間節(jié)點讀入一個訓練樣本中的問題向量vqi,將該節(jié)點作為問題節(jié)點,問題節(jié)點產生其對應的隱輸出h(1);模型在之后的每一個時間節(jié)點都讀入該訓練樣本中的一個答案向量這些節(jié)點作為答案節(jié)點,答案節(jié)點產生其對應的隱輸出h(t),t≥2;對于每一個答案節(jié)點,其接收的信息來源分為以下三種:第一種為答案向量第二種為問題節(jié)點的隱輸出h(1);第三種為當前答案節(jié)點之前的所有答案節(jié)點的隱輸出h(2),h(3)…h(huán)(t-1);其中,模型通過接收隱輸出h(1)保留問題與答案之間的因果依賴關系,接收隱輸出h(2),h(3)…h(huán)(t-1)得到答案與答案之間的時序影響機制;3)模型訓練過程中,α1保持初始值不變,對于其他的αi,在訓練的過程中按照如下公式進行更新:其中h(t)tmp為當前答案節(jié)點在所有αi(2≤i≤t-1)更新前的隱輸出;4)構建關聯度匹配函數s(q,a):s(q,a)=σ(qtma)其中m為問題與答案的關聯性度量矩陣,q為問題節(jié)點的隱輸出,a為答案節(jié)點的隱輸出,σ(·)為sigmoid函數;在關聯度匹配函數基礎上,定義損失函數l(t)如下:l(t)=max{0,γ-s(q,abest)+s(q,a′)}其中,abest為問題q的最佳答案,a′為其他的候選答案,γ為超參數;使用隨機梯度下降算法求解損失函數,得到模型的參數,該優(yōu)化等價于如下無約束優(yōu)化問題:其中,θ為模型中所有參數,λ為正則項的超參數。所述的步驟4)包括:1)給定一個問題與該問題下按照時序發(fā)表的答案,將問題與答案按序讀入模型;2)根據評分結構對答案進行排序,其結果即為答案質量排序結果。相比一般的答案質量評判方法,本發(fā)明進一步發(fā)掘答案與答案之間基于時序的相互影響,揭示高質量答案的形成規(guī)律。本發(fā)明在答案質量排序中所取得的性能較傳統(tǒng)的基于文本和語義關聯度的評判方法更好。附圖說明圖1是基于因果依賴關系和時序影響機制的長短時記憶模型的神經單元結構圖;圖2是基于因果依賴關系和時序影響機制的長短時記憶模型答案節(jié)點權重α更新示意圖;圖3是利用刻畫因果依賴關系和時序影響機制增強答案質量排序方法示意圖。具體實施方式下面結合附圖和具體實施方式對本發(fā)明做進一步闡述和說明。如圖3所示,利用刻畫因果依賴關系和時序影響機制增強答案質量排序的評判方法,包括如下步驟:1)構建排序用的問答訓練數據集:將每個問題及其按照時間先后順序排序的答案作為訓練數據集。具體通過如下子步驟實現:1.1)對于任意問題qi∈q,i∈{1,2,…n},其中n為問題集q中問題的數量,從答案集a中得到其候選答案ai,1,ai,2,ai,3…ai,k分別對應的發(fā)布時間ti,1,ti,2,ti,3…ti,k,其中k為問題qi下候選答案的數量;1.2)按照時間先后順序對ti,1,ti,2,ti,3…ti,k進行排序,得到時間序列t1,t2,t3…tk,同時根據時間ti,1,ti,2,ti,3…ti,k的先后順序對答案進行排序,發(fā)表時間較早的答案排在靠前的位置;1.3)每個問題與其候選答案構成一個數據樣本,表示為的多元組。2)對訓練樣本進行分詞操作并去除訓練樣本中的噪音,使用paragraph2vec模型對處理后的問答數據進行無監(jiān)督學習,得到文本表達模型,并利用文本表達模型分別構建問題與答案在語義空間中的隱性表達。具體通過如下子步驟實現:2.1)使用分詞工具對所得到的問答數據進行分詞處理,對分詞結果中不同詞{w1,w2,w3…wn}的出現頻率{f1,f2,f3…fn}進行統(tǒng)計;2.2)針對統(tǒng)計結果,設定最高閾值fl與最低閾值fu,對于wi∈{w1,w2,w3…wn},如果fi<fl或者fi>fu,則從數據中刪除單詞wi;2.3)若wi為停止詞,則從數據中刪除單詞wi;2.4)使用paragraph2vec對訓練集中的所有問答數據進行無監(jiān)督學習,得到問題和答案的特征表達向量,問題和答案分別被表示為vq∈rd和va∈rd,其中d為文本在語義特征空間的維數。3)改造傳統(tǒng)的長短時記憶模型的結構,得到基于因果依賴關系和時序影響機制的長短記憶模型,基于問題和答案在語義空間中的隱性表達,將問題與答案之間的因果依賴關系和答案與答案之間的時序影響機制引入長短時記憶模型進行學習,得到問答排序模型。具體通過如下子步驟實現:3.1)為了在問答排序系統(tǒng)中引入因果依賴關系和時序影響機制,在傳統(tǒng)長短時記憶模型的結構上進行修改,得到基于因果依賴關系和時序影響機制的長短時記憶模型,該模型的神經單元結構圖如圖1所示:其中,x(t)為當前時間節(jié)點的輸入,{h(1),h(2),h(3)…h(huán)(t-1)}為前t-1個時間節(jié)點的隱輸出,×與+分別為兩個向量相應元素相乘和相加的操作,σ(·)為sigmoid函數,其定義為:tanh為tanh函數,其定義為:i(t),o(t),c(t),f(t),s(t)與h(t)定義如下:i(t)=σ[wixx(t)+wimm(t)+bi]o(t)=σ[woxx(t)+womm(t)+bo]c(t)=σ[wcxx(t)+wcmm(t)+bc]f(t)=σ[wfxx(t)+wfmm(t)+bf]s(t)=c(t)·i(t)+s(t-1)·f(t)h(t)=o(t)·tanh(s(t))其中w*x,w*m為參數矩陣,b*為偏移向量。不同于傳統(tǒng)長短時記憶模型,本模型的結構單元會接收當前時間節(jié)點前所有時間節(jié)點的隱輸出h(i),其中1≤i≤t-1。模型的結構單元會通過設置權重系數αi,將所接收的隱輸出加權求和,得到新的向量m(t),定義如下:其中αi∈[0,1]并且初始化α1和其他α的過程不相同:α1為手工初始化,即人為設定α1的初始值;其他的α初始化為(1-α1)/(t-2)。m(t)將作為當前時間節(jié)點的隱輸入,參與當前時間節(jié)點結構單元中各個門的計算。3.2)在模型訓練過程中,模型在第一個時間節(jié)點讀入一個訓練樣本中的問題向量vqi,稱該節(jié)點為問題節(jié)點,問題節(jié)點產生其對應的隱輸出h(1);模型在之后的每一個時間節(jié)點都會讀入該訓練樣本中的一個答案向量這些節(jié)點被稱為答案節(jié)點,答案節(jié)點產生其對應的隱輸出h(t),t≥2。對于每一個答案節(jié)點,其接收的信息來源分為以下三種:a.答案向量b.問題節(jié)點的隱輸出h(1);c.當前答案節(jié)點之前的所有答案節(jié)點的隱輸出h(2),h(3)…h(huán)(t-1);其中,模型接收隱輸出h(1)可以保留問題與答案之間的因果依賴關系,接收隱輸出h(2),h(3)…h(huán)(t-1)可以得到答案與答案之間的時序影響機制;3.3)模型訓練過程中,α1始終保持初始值不變。由于α1反映出問題與答案之間因果依賴關系的重要程度,為了探索其重要性,α1的初始值會按照0.01的步長從0.01到0.99進行調整,直到在評測指標上得到最好的結果。對于其他的αi,其反映了發(fā)表時間較早的答案對當前答案的時序影響程度,它們在訓練的過程中會按照如下公式進行更新:其中h(t)tmp為當前答案節(jié)點再所有αi(2≤i≤t-1)更新前的隱輸出。對于所有的答案節(jié)點,其α更新的過程如圖2所示:其中(a)、(b)分別為α更新前和更新后,答案節(jié)點的計算過程。3.4)構建關聯度匹配函數s(q,a):s(q,a)=σ(qtma)其中m為問題與答案的關聯性度量矩陣,q為問題節(jié)點的隱輸出,a為答案節(jié)點的隱輸出,σ(·)為sigmoid函數;在關聯度匹配函數基礎上,定義損失函數l(t)如下:l(t)=max{0,γ-s(q,abest)+s(q,a′)}其中,abest為問題q的最佳答案,a′為其他的候選答案,γ為超參數;使用隨機梯度下降算法求解損失函數,得到模型的參數,該優(yōu)化等價于如下無約束優(yōu)化問題:其中,θ為模型中所有參數,λ為正則項的超參數。4)使用學習后所得到的問答排序模型對新問題下的候選答案進行排序:基于問題和答案在語義空間中的隱性表達,使用問答排序模型對問題與每一個答案的關聯性進行評分,根據關聯性評分的高低對問題的候選答案進行分數排序,最后輸出答案質量排序結果。具體通過如下子步驟實現:1)給定一個問題與該問題下按照時序發(fā)表的答案,將問題與答案按序讀入模型;2)根據評分結構對答案進行排序,其結果即為答案質量排序結果。下面將上述方法應用于下列實施例中,以體現本發(fā)明的技術效果,實施例中具體步驟不再贅述。實施例本發(fā)明在百度知道中文數據集上進行答案質量排序實驗。該數據集包含了100398個問題和308725個答案。每個問題只有一個最佳答案。每個問題的候選答案都有發(fā)表時間和被點贊數的標注。每一個問題或者答案被表達為300維的特征向量。為了客觀地評價本發(fā)明的算法的性能,使用ndcg(normalizeddiscountedcumulativegain),p@1(precision@1),accuracy和mrr(meanreciprocalrank)對本發(fā)明進行評價。按照具體實施方式中描述的步驟,所得的實驗結果如下:ndcgp@1accuracymrr0.92330.71570.80040.8155當前第1頁12