欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

利用多維數據預測用戶興趣的方法

文檔序號:9787489閱讀:1257來源:國知局
利用多維數據預測用戶興趣的方法
【技術領域】
[0001] 本發(fā)明涉及大數據,特別涉及一種利用多維數據預測用戶興趣的方法。
【背景技術】
[0002] 隨著移動互聯網的發(fā)展,網絡內容給用戶提供了豐富的信息資源和服務然而網絡 上信息質量卻是參差不齊,大量的信息被復制、轉載,各種推廣信息廣告檢索結果,已經影 響了用戶體驗;如果對于所有用戶相同的檢索詞輸入返回一樣的檢索結果恐怕已經不是用 戶希望的。只采用檢索詞匹配的方式,而忽略獨立用戶的真正需求,也就是不結合用戶行為 (包括用戶興趣、用戶偏好、用戶查詢記錄)和檢索詞而對用戶本次查詢意圖做出準確的判 斷,將無法給出符合用戶需求的結果?,F有的技術方案是通過用戶的注視歷史或個人描述 信息為用戶建立興趣特征向量,再利用該向量對檢索返回的檢索結果進行相似度的計算, 這往往將一些用戶真正需要的卻沒有在向量內的信息排除在外。

【發(fā)明內容】

[0003] 為解決上述現有技術所存在的問題,本發(fā)明提出了一種利用多維數據預測用戶興 趣的方法,包括:
[0004] 接收用戶所輸入的檢索詞和用戶特征信息,根據所述用戶特征信息對檢索詞進行 優(yōu)化調整,將優(yōu)化調整后的檢索詞作為參數形成檢索結果列表,返回給用戶端。
[0005] 優(yōu)選地,所述接收用戶所輸入的檢索詞和用戶特征信息,進一步包括:
[0006] 對用戶在界面輸入的內容進行檢索詞分析提取,通過分詞器對用戶檢索內容進行 分詞處理;每個詞對應一個Term,最后得到一個檢索向量V(q) = (termi,term〗,term3~ termn)其中η>1,其中檢索向量的每個維度都帶有一個數值,表示檢索詞對應的權值,用來 標識檢索詞的重要程度;
[0007] 根據用戶注視行為判別興趣對象,再通過興趣對象進行分析構建興趣模型;具體 估計公式為:
[0008] Ip = aXTb+PXU〇
[0009] 其中:
[0011] U0 = a X Cc〇py+b X Ssave+G X RrepIy
[0012] 其中Ip表示檢索結果興趣度分值,α和β是調整系數,即檢索結果注視時間和檢索 結果交互操作在公式中占的比重,其中a+i3=l;T b是用戶在檢索結果停留的時間維度,通過 正態(tài)分布來計算,反映用戶的注視檢索結果時間;注視時間At與參考時間t的接近程度反 映興趣度,t是根據文檔長度決定的參考時間,t和檢索結果長度成正比關系;Uo是用戶在檢 索結果上的交互操作,C_ y表示用戶是否在檢索結果進行復制操作,是則值為1,否值為0; Ssave3表示用戶是否進行檢索結果保存操作,是則值為1,否值為0 ;Rre3ply表示對于檢索結果是 否進行反饋相關操作,是則值為I,否值為〇;a、b和c是Uo的調整系數,根據不同的操作對是 否是興趣對象評判的重要程度,分別對系數設置不同的值。
[0013] 優(yōu)選地,基于ODP分類構建興趣樹結構,樹結構的每個節(jié)點對應一個興趣檢索詞, 具有興趣節(jié)點類型標識符,根據興趣節(jié)點在興趣樹結構中的不同層次具有不同的權值;在 興趣確定過程中設定閾值,只有達到該閾值的特征詞才能被判別為興趣,并在之后的興趣 更新階段進行權值增加,或者權值減少;在檢索結果特征詞的提取上進行過濾,檢索結果進 行分詞并取消停用詞之后,采用低頻閾值來篩選檢索結果特征詞;在原檢索結果特征詞提 取規(guī)則上設置高頻上限,即詞條頻率超過了高頻閾值的詞條不能被判別為檢索結果特征 詞,在特征詞確定的同時記錄該詞的詞頻和出現的位置信息,用于確定為興趣特征詞之后 的權值計算。
[0014] 本發(fā)明相比現有技術,具有以下優(yōu)點:
[0015] 本發(fā)明提出了一種利用多維數據預測用戶興趣的方法,有效提高互聯網用戶特征 的識別準確率,充分考慮到檢索結果與用戶查詢內容的相關度,應用廣泛,實現方便。
【附圖說明】
[0016] 圖1是根據本發(fā)明實施例的利用多維數據預測用戶興趣的方法的流程圖。
【具體實施方式】
[0017] 下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細描 述。結合這樣的實施例描述本發(fā)明,但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權利 要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節(jié)以 便提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細節(jié),并且無這些具體細節(jié)中的 一些或者所有細節(jié)也可以根據權利要求書實現本發(fā)明。
[0018] 本發(fā)明的一方面提供了一種利用多維數據預測用戶興趣的方法。圖1是根據本發(fā) 明實施例的利用多維數據預測用戶興趣的方法流程圖。本發(fā)明的方案在原通用檢索架構基 礎上增加用戶興趣模塊,采用查詢改進與權值設置結合方式。用戶輸入檢索詞后由興趣向 量調整查詢信息,并根據用戶興趣設定不同的權值初始值,在返回結果列表中調整排列順 序。
[0019] 在檢索架構中,信息采集模塊負責收集用戶數據,包括用戶檢索詞,注視行為,網 頁注視時間等能夠反映用戶特征的信息,為構建用戶興趣模型作準備。然后興趣模塊根據 本次查詢內容結合用戶興趣,優(yōu)化調整用戶檢索檢索詞,同時將興趣向量和調整后的查詢 詞作為參數傳遞到排序公式中,最后把經過優(yōu)化過濾的檢索結果列表返回給用戶端瀏覽 器。
[0020] 信息采集模塊包括檢索詞提取和用戶相關操作兩部分:1)檢索詞提取,是對用戶 在檢索界面輸入的內容進行檢索詞分析提取,通過分詞器對用戶查詢內容進行分詞處理。 每個詞對應一個Term,最后得到一個查詢向量V(q) = (termi,terim,temr"termn)其中n> I,其中查詢向量的每個維度都帶有一個數值,表示檢索詞對應的權值,用來標識檢索詞的 重要程度。2)獲取用戶相關操作信息。用戶在注視結果列表的過程中,可能只是因為標題吸 引而點擊了排名靠前的檢索結果,但是檢索結果內容并不符合用戶需求。所以首先要根據 用戶注視行為判別興趣對象,再通過興趣對象進行分析構建興趣模型。
[0021] 注視時間長度、在注視檢索結果的時候是否進行內容復制,收藏等交互操作均表 征興趣對象的關系。綜上考慮對用戶注視檢索結果進行估計從而得出檢索結果是否為用戶 的興趣對象,用作構建興趣模型的參考內容。具體估計公式如:
[0022] Ip = aXTb+PXU〇
[0023] 其中:
[0025] U0 = a X Cc〇py+b X SsaVe+G X RrepIy
[0026] Ip表示檢索結果興趣度分值,α和β是調整系數,通過不同的值反映檢索結果注視 時間和檢索結果交互操作在估計公式中占的比重,其中α+β = 1 Jb是用戶在檢索結果停留 的時間維度,通過正態(tài)分布來計算,反映出用戶的注視檢索結果時間。注視時間At與參考 時間t的接近程度反映興趣度,注視時間過長或者過短都會降低興趣在檢索結果注視時間 上的分值,t是根據文檔長度決定的,t和檢索結果長度成正比關系。Uo是用戶在檢索結果上 的交互操作,C rapy表示用戶是否在檢索結果進行復制操作,是則值為1,否值為0 ; Ssare表示用 戶是否進行檢索結果保存操作,是則值為1,否值為〇;Rre3ply表示對于檢索結果是否進行反饋 相關操作,是則值為1,否值為(Ka、b和c是Uo的調整系數,根據不同的操作對是否是興趣對 象評判的重要程度,分別對系數設置不同的值。
[0027] 本發(fā)明將用戶興趣分成普遍興趣和特定興趣,這里的普遍興趣不屬于任何一個用 戶,它是脫離用戶獨立存在的,可以看作特征詞構成的樹結構。而特定興趣則是上述樹結構 的節(jié)點集合,具有普遍興趣的興趣節(jié)點類型標識符,根據興趣節(jié)點在興趣樹結構中的不同 層次具有不同的權值。使得興趣模型是脫離用戶依賴,在索引階段或者是離線階段興趣模 型不受到限制的使用。本發(fā)明興趣模型基于ODP分類構建的,樹結構的每個節(jié)點對應一個興 趣檢索詞,為擴展興趣模型的覆蓋面以
當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
故城县| 南江县| 莱州市| 北辰区| 肇庆市| 梓潼县| 汝阳县| 云梦县| 民县| 慈利县| 伊春市| 石河子市| 靖西县| 金山区| 织金县| 平谷区| 龙山县| 钟山县| 韶关市| 资兴市| 中阳县| 烟台市| 康定县| 京山县| 天长市| 行唐县| 夹江县| 宁德市| 开鲁县| 金门县| 宜君县| 鄂州市| 达州市| 龙游县| 苍梧县| 镇远县| 谢通门县| 汽车| 海淀区| 炎陵县| 抚顺市|