融合多視圖和半監(jiān)督學(xué)習(xí)的搜索引擎用戶信息需求滿意度評估方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域,尤其設(shè)及融合多視圖和半監(jiān)督學(xué)習(xí)的捜索引擎 用戶信息需求滿意度評估方法。
【背景技術(shù)】
[0002] 隨著知識經(jīng)濟與信息化建設(shè)的高速發(fā)展,網(wǎng)絡(luò)信息數(shù)據(jù)規(guī)模急速膨脹,海量信息 資源在豐富人們信息來源的同時,也給人們獲取信息造成了困擾,而捜索引擎憑借日趨精 準化、人性化的信息檢索服務(wù)成為用戶訪問萬維網(wǎng)查找和獲取資源信息的主要工具之一。 同時,捜索引擎需要不斷地進行算法改進和系統(tǒng)優(yōu)化來滿足用戶日益增長的信息需求和高 效方便獲取信息資源的要求。因此,如何向用戶提供優(yōu)質(zhì)的捜索服務(wù),幫助用戶快速準確地 定位所需的信息資源,從而吸引更多用戶使用,一直是商用捜索引擎公司所關(guān)注的重點。
[0003] 傳統(tǒng)的捜索引擎質(zhì)量評價指標(biāo)如前η位準確率(Precision at η,P@n)、平均準確 率(Mean Average Precision,MAP)、標(biāo)準化折扣累計回報(normalize Discounted Cumulative Gain,nDCG)等需要使用大量的人工標(biāo)注數(shù)據(jù)評價捜索引擎的性能,但是運種 人工標(biāo)注需要消耗大量的人力和時間資源,難W大規(guī)模地實時開展。半監(jiān)督學(xué)習(xí)能夠使評 價方法自動對大量未標(biāo)注數(shù)據(jù)進行利用W輔助少量標(biāo)注數(shù)據(jù)學(xué)習(xí),然而傳統(tǒng)的半監(jiān)督學(xué)習(xí) 方法大多是基于單視圖的,即簡單地把數(shù)據(jù)中所有的子屬性集組合成一個單一的屬性集, 忽略了每個子屬性所擁有的獨特的統(tǒng)計學(xué)上的性質(zhì),而且在訓(xùn)練數(shù)據(jù)極其稀少的情況下容 易陷入局部最優(yōu)。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明為克服上述的不足之處,目的在于提供融合多視圖和半監(jiān)督學(xué)習(xí)的捜索引 擎用戶信息需求滿意度評估方法,該方法包括數(shù)據(jù)預(yù)處理、訓(xùn)練子視圖滿意度模型、對未標(biāo) 注數(shù)據(jù)分配偽標(biāo)簽、訓(xùn)練基于多視圖和半監(jiān)督學(xué)習(xí)的用戶滿意度模型和評估等部分,本方 法可W在少量的標(biāo)注數(shù)據(jù)的情況下,有效地評估捜索引擎用戶信息需求滿意度;可W通過 使用少量標(biāo)注數(shù)據(jù)和大量未標(biāo)注數(shù)據(jù)來提高用戶滿意度模型評估性能。
[0005] 本發(fā)明通過W下技術(shù)方案達到上述目的:融合多視圖和半監(jiān)督學(xué)習(xí)的捜索引擎用 戶信息需求滿意度評估方法,包括如下步驟:
[0006] (1)將捜索引擎日志數(shù)據(jù)分為行為視圖數(shù)據(jù)與時間視圖數(shù)據(jù),其中捜索引擎日志 數(shù)據(jù)包括標(biāo)注數(shù)據(jù)與未標(biāo)注數(shù)據(jù)兩類,并對行為視圖數(shù)據(jù)與時間視圖數(shù)據(jù)作預(yù)處理;
[0007] (2)對預(yù)處理后的數(shù)據(jù)訓(xùn)練得到基于行為視圖的滿意度模型與基于時間視圖的滿 意度模型;
[000引(3)利用基于行為視圖的滿意度模型與基于時間視圖的滿意度模型對未標(biāo)注數(shù)據(jù) 分配偽標(biāo)簽;
[0009] (4)利用基于行為視圖的滿意度模型與基于時間視圖的滿意度模型,結(jié)合帶有偽 標(biāo)簽的未標(biāo)注數(shù)據(jù)訓(xùn)練基于多視圖和半監(jiān)督學(xué)習(xí)的用戶滿意度模型;
[0010] (5)通過基于多視圖和半監(jiān)督學(xué)習(xí)的用戶滿意度模型計算得到信息需求的生成概 率,輸出概率最大的類作為輸出的最終分類結(jié)果。
[0011] 作為優(yōu)選,所述步驟(1)對視圖數(shù)據(jù)與時間視圖數(shù)據(jù)作預(yù)處理包括:對捜索引擎日 志數(shù)據(jù)內(nèi)的標(biāo)注數(shù)據(jù)所分出的行為視圖數(shù)據(jù)與時間視圖數(shù)據(jù)按照滿意度標(biāo)簽分為滿意行 為視圖數(shù)據(jù)和不滿意行為視圖數(shù)據(jù),滿意時間視圖數(shù)據(jù)和不滿意時間視圖數(shù)據(jù)兩部分;對 捜索引擎日志數(shù)據(jù)內(nèi)的未標(biāo)注數(shù)據(jù)所分出的行為視圖數(shù)據(jù)與時間視圖數(shù)據(jù)處理得到評估 數(shù)據(jù)。
[0012] 作為優(yōu)選,所述步驟(2)的基于行為視圖的滿意度模型包括基于行為視圖的滿意 模型與基于行為視圖的不滿意模型,訓(xùn)練基于行為視圖的滿意模型與訓(xùn)練基于行為視圖的 不滿意模型的方法類似,其中,訓(xùn)練基于行為視圖的滿意模型的方法步驟如下:
[0013] 1)W-個信息需求為單位讀取經(jīng)過標(biāo)注數(shù)據(jù)預(yù)處理的滿意行為視圖數(shù)據(jù);如果所 讀數(shù)據(jù)是一個完整的信息需求,則進入步驟2);如果所讀數(shù)據(jù)不是一個完整的信息需求,貝U 繼續(xù)讀取下一個數(shù)據(jù);
[0014] 2)統(tǒng)計已讀信息需求出現(xiàn)的行為的類型曰1及該類型行為出現(xiàn)的次數(shù)統(tǒng)計已 讀信息需求出現(xiàn)的行為轉(zhuǎn)移的類型(ai,aj)及該行為轉(zhuǎn)移出現(xiàn)的次數(shù)
[0015] 3)利用最大似然估計計算兩個行為曰1和aj之間的轉(zhuǎn)移概率;用拉普拉斯平滑處理 由于數(shù)據(jù)稀疏而產(chǎn)生的零概率問題,處理公式如下:
[0016]
[0017] 其中,α>〇是平滑參數(shù),I VI是用戶在使用捜索引擎過程中可能出現(xiàn)的行為類型數(shù) 量;
[0018] 4)輸出滿意模型的用戶行為轉(zhuǎn)移概率矩陣。
[0019] 作為優(yōu)選,所述步驟(2)的基于時間視圖的滿意度模型包括基于時間視圖的滿意 模型與基于時間視圖的不滿意模型,訓(xùn)練基于時間視圖的滿意模型與訓(xùn)練基于時間視圖的 不滿意模型的方法類似,其中,訓(xùn)練基于時間視圖的滿意模型的方法步驟如下:
[0020] (i)W-個信息需求為單位讀取經(jīng)過標(biāo)注數(shù)據(jù)預(yù)處理的滿意時間視圖數(shù)據(jù);如果 所讀數(shù)據(jù)是一個完整的信息需求,則進入步驟(ii);如果所讀數(shù)據(jù)不是一個完整的信息需 求,則繼續(xù)讀取下一個數(shù)據(jù);
[0021 ] (i i)統(tǒng)計每個行為轉(zhuǎn)移的停留時間;
[0022] (iii)利用Gamma分布對行為轉(zhuǎn)移的停留時間建立概率模型:
[0023]
[0024] 其中,k是尺度參數(shù),Θ是形狀參數(shù),X是一個行為轉(zhuǎn)移,且X,k,Θ > 0;
[0025] (iv)輸出每個行為轉(zhuǎn)移的尺度參數(shù)和形狀參數(shù)。
[0026] 作為優(yōu)選,所述步驟(3)利用基于行為視圖的滿意度模型對未標(biāo)注數(shù)據(jù)分配偽標(biāo) 簽的步驟如下:
[0027] (A)讀取兩個基于行為視圖的用戶滿意度模型的行為轉(zhuǎn)移概率矩陣;
[0028] (B)W -個信息需求為單位讀取預(yù)處理后的未標(biāo)注數(shù)據(jù)產(chǎn)生的行為視圖數(shù)據(jù);如 果所讀數(shù)據(jù)是一個完整的信息需求,則進入步驟(C);如果所讀數(shù)據(jù)不是一個完整的信息需 求,則繼續(xù)讀取下一個數(shù)據(jù);
[0029] (C)對于一個包含η個行為的信息需求S = <ai,…,日1-1,日1,-',日?!担Y(jié)合行為轉(zhuǎn)移概 率矩陣計算得到從模型中生成此信息需求S的概率為:
[0030]
[0031] 其中,Co表示不滿意的類,Cl表示滿意的類;
[0032] 計算得到最大似然估計為:
[0033]
[0034] 其中,P(C)表示類C的先驗概率;
[0035] (D)計算并獲取似然估計值最大的類作為當(dāng)前信息需求的偽分類結(jié)果,同時給當(dāng) 前信息需求分配偽標(biāo)簽,其中計算公式如下所示:
[0036]
[0037] 作為優(yōu)選,所述步驟(3)利用基于時間視圖的滿意度模型對未標(biāo)注數(shù)據(jù)分配偽標(biāo) 簽的方法與利用基于行為視圖的滿意度模型對未標(biāo)注數(shù)據(jù)分配偽標(biāo)簽的方法類似。
[0038] 作為優(yōu)選,所述步驟(4)訓(xùn)練基于多視圖和半監(jiān)督學(xué)習(xí)的用戶滿意度模型的步驟 如下:
[0039] (I)W-個信息需求為單位讀取預(yù)處理后標(biāo)注數(shù)據(jù)的行為視圖數(shù)據(jù);
[0040] (II)基于步驟(1)的行為視圖數(shù)據(jù)訓(xùn)練基于行為視圖的滿意模型和不滿意模型;
[0041] (III)利用基于行為視圖的滿意模型和不滿意模型對預(yù)處理后的未標(biāo)注數(shù)據(jù)分配 偽標(biāo)簽;并將帶有偽標(biāo)簽的未標(biāo)注數(shù)據(jù)與原始的標(biāo)注數(shù)據(jù)整合成新標(biāo)注數(shù)據(jù)集;
[0042] (IV)對得到的新標(biāo)注數(shù)據(jù)集作標(biāo)注數(shù)據(jù)預(yù)處理,并W-個信息需求為單位讀取預(yù) 處理后標(biāo)注數(shù)據(jù)集中的時間視圖數(shù)據(jù);
[0043] (V)基于步驟(IV)得到的時間視圖數(shù)據(jù)訓(xùn)練基于時間視圖的滿意模型和不滿意模 型;
[0044]