專(zhuān)利名稱(chēng):一種基于日志挖掘的搜索引擎用戶(hù)個(gè)性化需求提供方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域,尤其涉及一種基于日志挖掘的搜索引擎用戶(hù)個(gè)性化需求提供方法。
背景技術(shù):
隨著互聯(lián)網(wǎng)信息的迅速膨脹,搜索引擎成為引導(dǎo)用戶(hù)獲得信息的主要途徑,盡管以百度、Google為代表的搜索引擎取得了巨大的成功,但其仍然無(wú)法滿(mǎn)足日益增長(zhǎng)的用戶(hù)信息需求和高效方便獲取信息資源的要求。如何向網(wǎng)絡(luò)用戶(hù)提供優(yōu)質(zhì)的檢索服務(wù),如何從用戶(hù)的角度出發(fā)給出用戶(hù)滿(mǎn)意的結(jié)果,從而吸引更多客戶(hù)使用,一直是商用搜索引擎所關(guān)注的重點(diǎn)。傳統(tǒng)的搜索引擎質(zhì)量評(píng)價(jià)方法一般僅考慮單個(gè)查詢(xún)返回結(jié)果頁(yè)面的質(zhì)量,如相關(guān)性、準(zhǔn)確性、時(shí)效性、權(quán)威性、滿(mǎn)意度等,其中滿(mǎn)意度給出的是主觀(guān)的綜合評(píng)價(jià)。然而,用戶(hù)使用搜索引擎時(shí)的信息需求有時(shí)會(huì)是復(fù)雜和模糊的,搜索過(guò)程中可能出現(xiàn)關(guān)鍵詞的修改和重查詢(xún)。因此,單個(gè)查詢(xún)返回結(jié)果頁(yè)面的質(zhì)量并不能代表用戶(hù)信息需求的滿(mǎn)意程度,以單個(gè)查詢(xún)返回結(jié)果頁(yè)面的質(zhì)量作為評(píng)價(jià)搜索引擎質(zhì)量的指標(biāo)也不能很好的促進(jìn)搜索引擎的性能優(yōu)化。
發(fā)明內(nèi)容
為了解決上述問(wèn)題,本發(fā)明使用用戶(hù)滿(mǎn)意度作為搜索引擎的評(píng)價(jià)指標(biāo),即用戶(hù)信息需求滿(mǎn)意度,本發(fā)明采用馬爾可夫模型來(lái)對(duì)用戶(hù)的搜索行為進(jìn)行建模,包括表示用戶(hù)滿(mǎn)意和不滿(mǎn)意的行為模型;用最大似然估計(jì)來(lái)計(jì)算用戶(hù)的搜索行為分別從滿(mǎn)意和不滿(mǎn)意行為模型中生成的最大似然估計(jì);最后用最大似然估計(jì)比來(lái)評(píng)估用戶(hù)的滿(mǎn)意程度,在復(fù)雜、模糊的搜索引擎用戶(hù)行為信息日志中來(lái)評(píng)估用戶(hù)滿(mǎn)意度,分析出用戶(hù)的個(gè)性化需求,并通過(guò)搜索引擎提供給用戶(hù)個(gè)性化需求的結(jié)果。本發(fā)明是通過(guò)以下技術(shù)方案達(dá)到上述目的一種基于日志挖掘的搜索引擎用戶(hù)個(gè)性化需求提供方法,包括數(shù)據(jù)預(yù)處理階段、訓(xùn)練階段和評(píng)估階段,數(shù)據(jù)預(yù)處理階段包括以下步驟I)基于搜索引擎日志數(shù)據(jù)分析將用戶(hù)行為數(shù)據(jù)按類(lèi)型歸類(lèi)為查詢(xún)、搜索結(jié)果列表翻頁(yè)、相關(guān)搜索點(diǎn)擊、快捷方式點(diǎn)擊、拼寫(xiě)建議點(diǎn)擊、算法搜索點(diǎn)擊、算法搜索分享點(diǎn)擊、算法搜索預(yù)覽點(diǎn)擊、其他類(lèi)型的點(diǎn)擊和信息需求的結(jié)束;2)將歸類(lèi)的用戶(hù)行為數(shù)據(jù)選取一部分作為訓(xùn)練樣本數(shù)據(jù),按照人工標(biāo)注的結(jié)果分為滿(mǎn)意樣本數(shù)據(jù)和不滿(mǎn)意樣本數(shù)據(jù)兩部分,并包括用戶(hù)、信息需求、用戶(hù)滿(mǎn)意度、用戶(hù)搜索類(lèi)型和用戶(hù)點(diǎn)擊類(lèi)型五類(lèi)信息。3)將上述訓(xùn)練樣本數(shù)據(jù)規(guī)范化處理為包括用戶(hù)、信息需求和用戶(hù)行為類(lèi)型三類(lèi)信息;訓(xùn)練階段包括訓(xùn)練滿(mǎn)意行為模型和訓(xùn)練不滿(mǎn)意行為模型兩個(gè)子階段,訓(xùn)練滿(mǎn)意行為模型包括以下步驟I)讀取經(jīng)過(guò)數(shù)據(jù)預(yù)處理的滿(mǎn)意用戶(hù)行為訓(xùn)練樣本數(shù)據(jù);2)統(tǒng)計(jì)已讀滿(mǎn)意用戶(hù)行為訓(xùn)練樣本數(shù)據(jù)出現(xiàn)的行為的類(lèi)型及該類(lèi)型行為出現(xiàn)的次數(shù);3)統(tǒng)計(jì)已讀數(shù)據(jù)出現(xiàn)的行為轉(zhuǎn)移的類(lèi)型及該行為轉(zhuǎn)移出現(xiàn)的次數(shù);4)根據(jù)馬爾可夫模型,用最大似然估計(jì)來(lái)計(jì)算滿(mǎn)意行為模型的概率轉(zhuǎn)移矩陣;訓(xùn)練不滿(mǎn)意行為模型包括以下步驟I)讀取經(jīng)過(guò)數(shù)據(jù)預(yù)處理的不滿(mǎn)意用戶(hù)行為訓(xùn)練樣本數(shù)據(jù);2)統(tǒng)計(jì)已讀滿(mǎn)意用戶(hù)行為訓(xùn)練樣本數(shù)據(jù)出現(xiàn)的行為的類(lèi)型及該類(lèi)型行為出現(xiàn)的次數(shù);3)統(tǒng)計(jì)已讀數(shù)據(jù)出現(xiàn)的行為轉(zhuǎn)移的類(lèi)型及該行為轉(zhuǎn)移出現(xiàn)的次數(shù);4)根據(jù)馬爾可夫模型,用最大似然估計(jì)來(lái)計(jì)算不滿(mǎn)意行為模型的概率轉(zhuǎn)移矩陣;評(píng)估階段包括以下步驟I)輸入用戶(hù)行為數(shù)據(jù)并將其經(jīng)規(guī)范化處理為包括用戶(hù)、信息需求和用戶(hù)行為類(lèi)型三類(lèi)信息的用戶(hù)規(guī)范化行為數(shù)據(jù);2)輸入從上述訓(xùn)練階段得到的滿(mǎn)意和不滿(mǎn)意行為模型的概率轉(zhuǎn)移矩陣;3)以一個(gè)信息需求為單位計(jì)算當(dāng)前的用戶(hù)規(guī)范化行為數(shù)據(jù)從滿(mǎn)意和不滿(mǎn)意行為模型中生成的最大似然估計(jì);4)計(jì)算從滿(mǎn)意和不滿(mǎn)意行為模型中生成的最大似然估計(jì)的比值,將比值與設(shè)定的閾值比較判斷用戶(hù)行為的滿(mǎn)意度;5)根據(jù)判斷得出用戶(hù)行為的滿(mǎn)意度分析出用戶(hù)的個(gè)性化需求,并通過(guò)搜索引擎提供給用戶(hù)個(gè)性化需求的結(jié)果。本發(fā)明的有益效果在于本發(fā)明針對(duì)傳統(tǒng)的搜索引擎質(zhì)量評(píng)價(jià)方法不能完整描述用戶(hù)復(fù)雜、模糊信息需求的缺陷,提出了基于行為日志的搜索引擎用戶(hù)信息需求滿(mǎn)意度評(píng)估方法,以用戶(hù)信息需求為單位,通過(guò)分析搜索引擎日志中用戶(hù)的搜索行為來(lái)評(píng)估用戶(hù)滿(mǎn)意度,分析出用戶(hù)的個(gè)性化需求,并通過(guò)搜索引擎提供給用戶(hù)個(gè)性化需求的結(jié)果,從而促進(jìn)搜索引擎技術(shù)的發(fā)展、提高搜索引擎的服務(wù)質(zhì)量。
圖1 :基于行為日志數(shù)據(jù)挖掘的搜索引擎用戶(hù)個(gè)性化需求提供方法流程圖;圖2 :訓(xùn)練樣本數(shù)據(jù)分類(lèi)圖;圖3 :數(shù)據(jù)規(guī)范化流程圖;圖4 :訓(xùn)練用戶(hù)滿(mǎn)意度模型流程圖;圖5 評(píng)估用戶(hù)滿(mǎn)意度流程圖。
具體實(shí)施例方式下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步描述,但本發(fā)明的保護(hù)范圍并不僅限于此一種基于日志挖掘的搜索引擎用戶(hù)個(gè)性化需求提供方法,流程圖如圖1所示,該方法分為數(shù)據(jù)預(yù)處理、訓(xùn)練和評(píng)估三個(gè)階段;數(shù)據(jù)預(yù)處理階段的主要步驟包括步驟1,基于搜索引擎日志數(shù)據(jù)分析用戶(hù)在使用搜索引擎過(guò)程中可能出現(xiàn)的行為a)查詢(xún)表示用戶(hù)向搜索引擎提交查詢(xún)關(guān)鍵詞(一次查詢(xún)可能會(huì)提交多個(gè)關(guān)鍵詞)的行為;包括各種類(lèi)型引導(dǎo)區(qū)內(nèi)的點(diǎn)擊查詢(xún)、查詢(xún)關(guān)鍵詞推薦、搜索框改詞、查詢(xún)關(guān)鍵詞來(lái)源篩選等;b)搜索結(jié)果列表翻頁(yè)表示用戶(hù)對(duì)提交的查詢(xún)返回的結(jié)果列表做翻頁(yè)的行為;包括翻頁(yè)-上一頁(yè)、翻頁(yè)-下一頁(yè)、翻頁(yè)-點(diǎn)擊某個(gè)頁(yè)號(hào)等;c)相關(guān)搜索點(diǎn)擊表示用戶(hù)對(duì)與自己信息需求接近的搜索目標(biāo)推薦進(jìn)行點(diǎn)擊的行為;d)快捷方式點(diǎn)擊快捷方式點(diǎn)擊能使用戶(hù)快速的得到所需信息,當(dāng)其與用戶(hù)的搜索相關(guān)時(shí)會(huì)自動(dòng)出現(xiàn);e)拼寫(xiě)建議點(diǎn)擊表示對(duì)用戶(hù)提交查詢(xún)?cè)~可能出現(xiàn)的錯(cuò)誤進(jìn)行糾錯(cuò)的點(diǎn)擊建議,包括對(duì)常用名詞、專(zhuān)用術(shù)語(yǔ)、特殊網(wǎng)址等所有類(lèi)型的查詢(xún)?cè)~的糾錯(cuò);f)算法搜索點(diǎn)擊表示對(duì)返回結(jié)果列表中某個(gè)結(jié)果的點(diǎn)擊;g)算法搜索分享點(diǎn)擊表示對(duì)返回結(jié)果列表中某個(gè)結(jié)果進(jìn)行分享型的點(diǎn)擊;h)算法搜索預(yù)覽點(diǎn)擊表示對(duì)返回結(jié)果列表中某個(gè)結(jié)果進(jìn)行預(yù)覽型的點(diǎn)擊;i)其他類(lèi)型的點(diǎn)擊除以上八種行為外的其他行為類(lèi)型;j)表不用戶(hù)一個(gè)信息需求的結(jié)束為了更詳細(xì)的描述用戶(hù)行為以及更準(zhǔn)確的搭建用戶(hù)滿(mǎn)意度模型,用一個(gè)特殊的行為“END”來(lái)標(biāo)記用戶(hù)一個(gè)信息需求的結(jié)束;步驟2,如圖2所示,將歸類(lèi)的用戶(hù)行為數(shù)據(jù)選取一部分作為訓(xùn)練樣本數(shù)據(jù),訓(xùn)練樣本數(shù)據(jù)包括用戶(hù)WD、信息需求GID、用戶(hù)滿(mǎn)意度GS、用戶(hù)搜索類(lèi)型SF和用戶(hù)點(diǎn)擊類(lèi)型CF五列數(shù)據(jù);按照人工標(biāo)注的結(jié)果分為滿(mǎn)意樣本數(shù)據(jù)和不滿(mǎn)意樣本數(shù)據(jù)兩部分,滿(mǎn)意用戶(hù)行為數(shù)據(jù)用來(lái)訓(xùn)練滿(mǎn)意行為模型,不滿(mǎn)意用戶(hù)行為數(shù)據(jù)用來(lái)訓(xùn)練不滿(mǎn)意行為模型;步驟3,數(shù)據(jù)規(guī)范化。將不規(guī)則的搜索引擎日志數(shù)據(jù)轉(zhuǎn)化成規(guī)范的可用于訓(xùn)練搜索引擎用戶(hù)滿(mǎn)意度模型的數(shù)據(jù),流程如圖3所示a)讀取搜索引擎日志數(shù)據(jù);b)判斷用戶(hù)搜索類(lèi)型SF是否為空,如果SF為空,則用戶(hù)點(diǎn)擊類(lèi)型CF必不為空,說(shuō)明用戶(hù)的行為是點(diǎn)擊類(lèi)型的行為;如果SF不為空,則用戶(hù)點(diǎn)擊類(lèi)型CF必為空,說(shuō)明用戶(hù)的行為是搜索類(lèi)型的行為;
c)用戶(hù)搜索類(lèi)型SF不為空,則在步驟I中找到符合當(dāng)前用戶(hù)點(diǎn)擊類(lèi)型CF的行為作為規(guī)范行為來(lái)替換CF,并把CF移動(dòng)到SF列;d)用戶(hù)搜索類(lèi)型SF為空,則在步驟I中找到符合當(dāng)前用戶(hù)搜索類(lèi)型SF的行為作為規(guī)范行為來(lái)替換SF ;e)在每個(gè)信息需求的結(jié)束部分多添加一個(gè)“END”行來(lái)標(biāo)志用戶(hù)當(dāng)前信息需求的結(jié)束;經(jīng)過(guò)數(shù)據(jù)規(guī)范化后得到的數(shù)據(jù)包括用戶(hù)WD、信息需求GID和用戶(hù)行為SF/CF/END二列;訓(xùn)練階段包括訓(xùn)練滿(mǎn)意行為模型和訓(xùn)練不滿(mǎn)意行為模型兩個(gè)子階段訓(xùn)練滿(mǎn)意行為模型的流程圖如圖4所示,主要步驟包括 步驟1,讀取經(jīng)過(guò)數(shù)據(jù)預(yù)處理的滿(mǎn)意用戶(hù)行為數(shù)據(jù);步驟2,以一個(gè)信息需求為單位來(lái)讀取數(shù)據(jù)。如果所讀數(shù)據(jù)是一個(gè)完整的信息需求,則繼續(xù)下一步;如果所讀數(shù)據(jù)不是一個(gè)完整的信息需求,則繼續(xù)讀取數(shù)據(jù);步驟3,統(tǒng)計(jì)已讀數(shù)據(jù)出現(xiàn)的行為的類(lèi)型Si及該類(lèi)型行為出現(xiàn)的次數(shù)#;步驟4,統(tǒng)計(jì)已讀數(shù)據(jù)出現(xiàn)的行為轉(zhuǎn)移的類(lèi)型(Si,Sj)及該行為轉(zhuǎn)移出現(xiàn)的次數(shù)N ;步驟5,計(jì)算轉(zhuǎn)移概率矩陣。每個(gè)行為序列都可以表示成一個(gè)圖中的鏈或路徑,那
么一個(gè)信息需求就可以簡(jiǎn)單的表示成一個(gè)基于用戶(hù)行為的馬爾可夫模型;馬爾可夫模型的
狀態(tài)空間是用戶(hù)在搜索過(guò)程中可能出現(xiàn)的多種行為的集合;用最大似然估計(jì)來(lái)計(jì)算兩個(gè)行
為Si和Sj之間的轉(zhuǎn)移概率
權(quán)利要求
1.一種基于日志挖掘的搜索引擎用戶(hù)個(gè)性化需求提供方法,其特征在于包括數(shù)據(jù)預(yù)處理階段、訓(xùn)練階段和評(píng)估階段;數(shù)據(jù)預(yù)處理階段包括以下步驟 1)基于搜索引擎日志數(shù)據(jù)分析將用戶(hù)行為數(shù)據(jù)按類(lèi)型歸類(lèi); 2)將歸類(lèi)的用戶(hù)行為數(shù)據(jù)選取一部分作為訓(xùn)練樣本數(shù)據(jù),按照人工標(biāo)注的結(jié)果分為滿(mǎn)意樣本數(shù)據(jù)和不滿(mǎn)意樣本數(shù)據(jù)兩部分,并包括用戶(hù)、信息需求、用戶(hù)滿(mǎn)意度、用戶(hù)搜索類(lèi)型和用戶(hù)點(diǎn)擊類(lèi)型五類(lèi)信息; 3)將上述將訓(xùn)練樣本數(shù)據(jù)規(guī)范化處理為包括用戶(hù)、信息需求和用戶(hù)行為類(lèi)型三類(lèi)信息;訓(xùn)練階段包括訓(xùn)練滿(mǎn)意行為模型和訓(xùn)練不滿(mǎn)意行為模型兩個(gè)子階段,訓(xùn)練滿(mǎn)意行為模型包括以下步驟 1)讀取經(jīng)過(guò)數(shù)據(jù)預(yù)處理的滿(mǎn)意用戶(hù)行為訓(xùn)練樣本數(shù)據(jù); 2)統(tǒng)計(jì)已讀滿(mǎn)意用戶(hù)行為訓(xùn)練樣本數(shù)據(jù)出現(xiàn)的行為的類(lèi)型及該類(lèi)型行為出現(xiàn)的次數(shù); 3)統(tǒng)計(jì)已讀數(shù)據(jù)出現(xiàn)的行為轉(zhuǎn)移的類(lèi)型及該行為轉(zhuǎn)移出現(xiàn)的次數(shù); 4)根據(jù)馬爾可夫模型,用最大似然估計(jì)來(lái)計(jì)算滿(mǎn)意行為模型的概率轉(zhuǎn)移矩陣; 訓(xùn)練不滿(mǎn)意行為模型包括以下步驟 1)讀取經(jīng)過(guò)數(shù)據(jù)預(yù)處理的不滿(mǎn)意用戶(hù)行為訓(xùn)練樣本數(shù)據(jù); 2)統(tǒng)計(jì)已讀滿(mǎn)意用戶(hù)行為訓(xùn)練樣本數(shù)據(jù)出現(xiàn)的行為的類(lèi)型及該類(lèi)型行為出現(xiàn)的次數(shù); 3)統(tǒng)計(jì)已讀數(shù)據(jù)出現(xiàn)的行為轉(zhuǎn)移的類(lèi)型及該行為轉(zhuǎn)移出現(xiàn)的次數(shù); 4)根據(jù)馬爾可夫模型,用最大似然估計(jì)來(lái)計(jì)算不滿(mǎn)意行為模型的概率轉(zhuǎn)移矩陣; 評(píng)估階段包括以下步驟 1)輸入用戶(hù)行為數(shù)據(jù)并將其經(jīng)規(guī)范化處理為包括用戶(hù)、信息需求和用戶(hù)行為類(lèi)型三類(lèi)信息的用戶(hù)規(guī)范化行為數(shù)據(jù); 2)輸入從上述訓(xùn)練階段得到的滿(mǎn)意和不滿(mǎn)意行為模型的概率轉(zhuǎn)移矩陣; 3)以一個(gè)信息需求為單位計(jì)算當(dāng)前的用戶(hù)規(guī)范化行為數(shù)據(jù)從滿(mǎn)意和不滿(mǎn)意行為模型中生成的最大似然估計(jì); 4)計(jì)算從滿(mǎn)意和不滿(mǎn)意行為模型中生成的最大似然估計(jì)的比值,將比值與設(shè)定的閾值比較判斷用戶(hù)行為的滿(mǎn)意度; 5)根據(jù)判斷得出用戶(hù)行為的滿(mǎn)意度分析出用戶(hù)的個(gè)性化需求,并通過(guò)搜索引擎提供給用戶(hù)個(gè)性化需求的結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于日志挖掘的搜索引擎用戶(hù)個(gè)性化需求提供方法,其特征在于,數(shù)據(jù)預(yù)處理階段步驟I)所述的基于搜索引擎日志數(shù)據(jù)分析將用戶(hù)行為數(shù)據(jù)按類(lèi)型歸類(lèi)為查詢(xún)、搜索結(jié)果列表翻頁(yè)、相關(guān)搜索點(diǎn)擊、快捷方式點(diǎn)擊、拼寫(xiě)建議點(diǎn)擊、算法搜索點(diǎn)擊、算法搜索分享點(diǎn)擊、算法搜索預(yù)覽點(diǎn)擊、其他類(lèi)型的點(diǎn)擊和信息需求的結(jié)束。
全文摘要
本發(fā)明涉及互聯(lián)網(wǎng)信息技術(shù)領(lǐng)域,尤其涉及一種基于日志挖掘的搜索引擎用戶(hù)個(gè)性化需求提供方法,該方法采用馬爾可夫模型來(lái)對(duì)用戶(hù)的搜索行為進(jìn)行建模,包括表示用戶(hù)滿(mǎn)意和不滿(mǎn)意的行為模型;用最大似然估計(jì)來(lái)計(jì)算用戶(hù)的搜索行為分別從滿(mǎn)意和不滿(mǎn)意行為模型中生成的最大似然估計(jì);最后用最大似然估計(jì)比來(lái)評(píng)估用戶(hù)的滿(mǎn)意程度,在復(fù)雜、模糊的搜索引擎用戶(hù)行為信息日志中來(lái)評(píng)估用戶(hù)滿(mǎn)意度,分析出用戶(hù)的個(gè)性化需求,并通過(guò)搜索引擎提供給用戶(hù)個(gè)性化需求的結(jié)果,從而促進(jìn)搜索引擎技術(shù)的發(fā)展、提高搜索引擎的服務(wù)質(zhì)量。
文檔編號(hào)G06F17/30GK103020289SQ20121058302
公開(kāi)日2013年4月3日 申請(qǐng)日期2012年12月25日 優(yōu)先權(quán)日2012年12月25日
發(fā)明者陳益, 解正宇, 陳嶺, 劉榮游 申請(qǐng)人:浙江鴻程計(jì)算機(jī)系統(tǒng)有限公司