欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種移動(dòng)場景下的搜索結(jié)果過濾方法

文檔序號(hào):6355123閱讀:185來源:國知局
專利名稱:一種移動(dòng)場景下的搜索結(jié)果過濾方法
技術(shù)領(lǐng)域
本發(fā)明屬于信息檢索領(lǐng)域,具體涉及一種移動(dòng)場景下的搜索結(jié)果過濾方法,該方法適用于移動(dòng)場景下的個(gè)性化搜索。
背景技術(shù)
過去的十幾年里,搜索引擎技術(shù)取得了飛速發(fā)展,傳統(tǒng)的互聯(lián)網(wǎng)搜索從技術(shù)實(shí)現(xiàn)到商業(yè)模式都已經(jīng)發(fā)展的相當(dāng)成熟,并取得了巨大成功。近年來,以移動(dòng)互聯(lián)網(wǎng)為代表的新興技術(shù)和應(yīng)用不斷涌現(xiàn),移動(dòng)搜索便是移動(dòng)互聯(lián)網(wǎng)重要應(yīng)用之一。移動(dòng)搜索由于移動(dòng)終端移動(dòng)性,便攜性,以及屏幕尺寸、處理能力和可用帶寬等局限性,使得其不能直接照搬現(xiàn)有互聯(lián)網(wǎng)搜索的實(shí)現(xiàn)方案,主要原因有以下兩點(diǎn)(1)傳統(tǒng)的互聯(lián)網(wǎng)搜索引擎通常返回給用戶大量的結(jié)果,實(shí)際上大多數(shù)情況下這些結(jié)果對(duì)用戶而言, 有一半以上是不相關(guān)的。其中一個(gè)主要的原因搜索引擎在只是對(duì)搜索關(guān)鍵字進(jìn)行了簡單了匹配,沒有考慮其他信息(如用戶上下文信息,個(gè)人偏好等),加上互聯(lián)網(wǎng)上信息的激增,導(dǎo)致了很多“垃圾結(jié)果”的產(chǎn)生,用戶不得不在搜索結(jié)果中自己篩選,這大大加重了用戶的負(fù)擔(dān)。在移動(dòng)場景下,由于移動(dòng)終端屏幕鍵盤尺寸、處理能力和可用帶寬等局限性,上述情形是用戶不能容忍的,一是大量垃圾結(jié)果浪費(fèi)寶貴流量,二是用戶在移動(dòng)終端上對(duì)搜索結(jié)果進(jìn)行翻頁篩選是很不方便的,這決定了移動(dòng)搜索必須是精準(zhǔn)的搜索,要返回給用戶盡量少的,精準(zhǔn)的結(jié)果;( 對(duì)同一個(gè)搜索關(guān)鍵字,統(tǒng)的互聯(lián)網(wǎng)搜索引擎對(duì)所有的用戶返回的是千篇一律的結(jié)果,然而不同用戶由于其背景知識(shí)不同,興趣愛好不同,信息需求是不同的,同一個(gè)關(guān)鍵字對(duì)不同的人,在不同的領(lǐng)域,不同的時(shí)間和地點(diǎn)都可能表達(dá)不同的意思,用戶需要的往往只是所有搜索結(jié)果里面一個(gè)很小的子集。移動(dòng)終端的移動(dòng)性,便攜性和私人性,使得用戶可以隨時(shí)隨地的獲取所需信息,使得個(gè)性化搜索需求更加強(qiáng)烈,這決定了移動(dòng)搜索是一種與用戶個(gè)人特征(如興趣等)和用戶上下文(如時(shí)間,地點(diǎn),天氣等因素)相關(guān)的個(gè)性化的搜索。因此,移動(dòng)搜索需要實(shí)現(xiàn)的是個(gè)性化的精準(zhǔn)搜索。目前,國內(nèi)移動(dòng)搜索研究尚處于起步階段,實(shí)現(xiàn)技術(shù)較現(xiàn)有互聯(lián)網(wǎng)搜索技術(shù)都尚不成熟,較早的技術(shù)有垂直搜索技術(shù),如手機(jī)音樂搜索,小說搜索等,目前采用較多的實(shí)現(xiàn)方案是結(jié)合現(xiàn)有互聯(lián)網(wǎng)搜索技術(shù)和相關(guān)輔助技術(shù),如信息過濾技術(shù),先對(duì)用戶進(jìn)行特征建模,然后以此模型對(duì)搜索結(jié)果進(jìn)行個(gè)性化過濾,過濾掉不相關(guān)結(jié)果,實(shí)現(xiàn)個(gè)性化精準(zhǔn)搜索。用戶特征建模常用技術(shù)有向量空間模型和本體模型,向量空間模型因其原理簡單,實(shí)現(xiàn)容易,應(yīng)用相對(duì)廣泛。信息過濾技術(shù)常用的有基于內(nèi)容的過濾技術(shù)和協(xié)同過濾技術(shù),基于內(nèi)容的過濾技術(shù)是對(duì)結(jié)果進(jìn)行特征提取,計(jì)算結(jié)果和過濾模板(用戶模型)的相似度,按設(shè)定閾值過濾, 因?yàn)槭且越Y(jié)果內(nèi)容進(jìn)行分析,通常能達(dá)到較好的過濾效果,但計(jì)算量較大。協(xié)同過濾技術(shù)則根據(jù)相同類型的人通常有著相同興趣偏好這一思想,通過與當(dāng)前用戶興趣相似的用戶來對(duì)用戶的搜索結(jié)果進(jìn)行協(xié)同過濾,這一技術(shù)已在電子商務(wù)領(lǐng)域取得了很好的發(fā)展和應(yīng)用。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種移動(dòng)場景下的搜索結(jié)果過濾方法,該方法通過挖掘用戶數(shù)據(jù)(用戶歷史位置信息,歷史通話記錄等)建立用戶特征模型和用戶社交網(wǎng)絡(luò),并依據(jù)用戶特征模型和用戶社交網(wǎng)絡(luò)對(duì)搜索結(jié)果分別進(jìn)行基于內(nèi)容的過濾和協(xié)同過濾,過濾掉不相關(guān)的搜索結(jié)果,實(shí)現(xiàn)移動(dòng)場景下的個(gè)性化的精準(zhǔn)搜索,這對(duì)提高移動(dòng)搜索用戶體驗(yàn)和用戶粘性是很有價(jià)值的。本發(fā)明提供的一種移動(dòng)場景下的搜索結(jié)果過濾方法,該方法包括下述步驟第1步對(duì)用戶Ui, i = 1,2,. . .,N的待過濾初始結(jié)果集&,&,...,Rz,利用d維向量空間對(duì)待過濾結(jié)果建立特征向量,Rr的特征向量表示為= Kq1,V1),(q2,V2),..., ( ,VdM,Va代表各個(gè)維上的權(quán)值;利用詞頻/逆文檔頻率TF/IDF模型計(jì)算,在每一維上的權(quán)值Va,對(duì)qi,q2,. . . qd中的每一個(gè)詞qa,如果其沒有出現(xiàn)在Rr,中,則其權(quán)值為0,否則為其TF/IDF值,TF為其在艮中出現(xiàn)的次數(shù),IDF即逆文檔頻率,統(tǒng)計(jì)那些包含該詞的結(jié)果個(gè)數(shù)ζ ;其中,IDF值即log (Ζ/ζ),Z是待過濾初始結(jié)果的個(gè)數(shù),TF/IDF值為TF與IDF的乘積,r = 1,2,…,Z, a = 1,2,…,d ;第2步尋找當(dāng)前用戶Ui,的相似用戶,從下述兩個(gè)用戶集合中選取,一是用戶所屬的群體 ,g為用戶所屬的群體的序號(hào),其取值范圍為1至m,二是用戶社交網(wǎng)絡(luò)里的用戶的集合,將這兩個(gè)集合進(jìn)行合并得到集合S,記該集合中的用戶為Uis,利用式I所示的向量余弦夾角公式計(jì)算用戶Ui與集合S中的每一個(gè)用戶Uis之間的相似度,如式II所示,向量夾角越小,余弦值越大,相似度越大,反之亦然;i表示用戶的序號(hào),N表示用戶的數(shù)量,i = 1, 2,...,N,fm和fms分別代表Ui和Uis的特征向量,Ψ (Ui, UJ代表Ui與Uis之間的關(guān)系程度,若Uis在Ui的社交網(wǎng)絡(luò)中,則Ψ (Ui, Uis)取相應(yīng)的值,否則取零值;按相似度從高到低選取前n個(gè)用戶Uil,ui2,...,Uin,若不足Ii個(gè),則選取s中的所有用戶;Ii為預(yù)先設(shè)定值;
權(quán)利要求
1. 一種移動(dòng)場景下的搜索結(jié)果過濾方法,該方法包括下述步驟第1步對(duì)用戶Ui, i = 1,2,...,N的待過濾初始結(jié)果集R1, R2,...,Rz,利用d維向量空間對(duì)待過濾結(jié)果建立特征向量,Rr的特征向量表示為fEr = Iq1, V1),(q2,V2),... , (qd, vd)}, va代表各個(gè)維上的權(quán)值;利用詞頻/逆文檔頻率TF/IDF模型計(jì)算&,在每一維上的權(quán)值va, 對(duì)qi;q2, ... qd中的每一個(gè)詞qa,如果其沒有出現(xiàn)在艮,中,則其權(quán)值為0,否則為其TF/IDF 值,TF為其在艮中出現(xiàn)的次數(shù),IDF即逆文檔頻率,統(tǒng)計(jì)那些包含該詞的結(jié)果個(gè)數(shù)ζ ;其中,IDF值即log (Ζ/ζ),Z是待過濾初始結(jié)果的個(gè)數(shù),TF/IDF值為TF與IDF的乘積,Il 1. f 2 f · · · j Zj a =丄 9 2 9 · · · j d 5第2步尋找當(dāng)前用戶Ui,的相似用戶,從下述兩個(gè)用戶集合中選取,一是用戶所屬的群體Gg,g為用戶所屬的群體的序號(hào),其取值范圍為1至m,二是用戶社交網(wǎng)絡(luò)里的用戶的集合,將這兩個(gè)集合進(jìn)行合并得到集合S,記該集合中的用戶為Uis,利用式I所示的向量余弦夾角公式計(jì)算用戶Ui與集合S中的每一個(gè)用戶Uis之間的相似度,如式II所示,向量夾角越小,余弦值越大,相似度越大,反之亦然;i表示用戶的序號(hào),N表示用戶的數(shù)量,i = 1, 2,...,N,fm和fms分別代表Ui和Uis的特征向量,Ψ (Ui, UJ代表Ui與Uis之間的關(guān)系程度,若Uis在Ui的社交網(wǎng)絡(luò)中,則Ψ (Ui, Uis)取相應(yīng)的值,否則取零值;按相似度從高到低選取前n個(gè)用戶Uil,ui2,...,Uin,若不足Ii個(gè),則選取s中的所有用戶;Ii為預(yù)先設(shè)定值;
2.根據(jù)權(quán)利要求1所述的移動(dòng)場景下的搜索結(jié)果過濾方法,其特征在于第1步中的初始結(jié)果集按照下述方式得到對(duì)于用戶Ui提交一次搜索Q,搜索請(qǐng)求首先由現(xiàn)有互聯(lián)網(wǎng)搜索引擎來處理,現(xiàn)有互聯(lián)網(wǎng)搜索引擎對(duì)搜索Q返回一個(gè)初始結(jié)果集,選取該結(jié)果集里的前Φ條結(jié)果來進(jìn)行過濾,若不足Φ條,則選取全部初始結(jié)果集,作為待過濾結(jié)果集R1, R2, ... , Rz, Φ由系統(tǒng)預(yù)先設(shè)定,Z 為待過濾結(jié)果的個(gè)數(shù)。
3.根據(jù)權(quán)利要求1所述的移動(dòng)場景下的搜索結(jié)果過濾方法,其特征在于第1步按照下述方式得到待過濾結(jié)果的特征向量統(tǒng)計(jì)所有用戶Δ T時(shí)間內(nèi)的所有歷史查詢記錄,統(tǒng)計(jì)得到d個(gè)互異的詞Ql,q2,. . .,qd, 作為向量空間的d個(gè)維,用戶的特征向量表示為fm = (Q15V1), (q2,v2),...,(qd,Vd)},i = 1,2,...,N, va,a= 1,2,...,d 代表各個(gè)維的權(quán)值。
4.根據(jù)權(quán)利要求1所述的移動(dòng)場景下的搜索結(jié)果過濾方法,其特征在于第2步,按照下述方式得到最相似用戶第4. 1步尋找當(dāng)前用戶Ui,的相似用戶,將用戶所屬的群體(^和用戶社交網(wǎng)絡(luò)里的用戶的集合進(jìn)行合并,得到集合S,g為用戶所屬的群體的序號(hào),其取值范圍為1至m,m表示群體的個(gè)數(shù);第4. 2步采用式VI計(jì)算Ui與集合S中的每一個(gè)用戶Uis之間的相似度Sim(UyUis),fm 和fUis分別代表Ui和Uis的特征向量,Ψ (Ui,Uis)代表Ui與Uis之間的關(guān)系程度,若Uis在Ui 的社交網(wǎng)絡(luò)中,則Ψ (UijUis)取相應(yīng)的值,否則取零值;按相似度從高到低選取前η個(gè)用戶 Uil,Ui2,...,Uin,若不足η個(gè),則選取S中的所有用戶;η為預(yù)先設(shè)定的值;
5.根據(jù)權(quán)利要求4所述的移動(dòng)場景下的搜索結(jié)果過濾方法,其特征在于第4.1步中, 用戶所屬的群體按照下述方式獲取第5. 1步根據(jù)用戶的歷史位置變化頻率對(duì)用戶進(jìn)行劃分,用戶的歷史位置信息記錄了用戶歷史位置信息L和相應(yīng)時(shí)間信息T,歷史位置信息L以經(jīng)緯度的形式記錄在數(shù)據(jù)集里, 時(shí)間信息T以時(shí)間點(diǎn)的形式記錄,已知用戶相鄰兩次歷史位置的經(jīng)緯度,采用經(jīng)緯度距離公式計(jì)算出其距離;對(duì)每一個(gè)用戶Ui,,按照式VII計(jì)算其最近一段時(shí)間ΔΤ內(nèi)的歷史位置累計(jì)變化頻率
6.根據(jù)權(quán)利要求5所述的移動(dòng)場景下的搜索結(jié)果過濾方法,其特征在于第5.3步采用k均值聚類算法對(duì)每一個(gè)Ω ^里的用戶進(jìn)行聚類,步驟如下(bl)首先計(jì)算出每一個(gè)用戶仏在最近一段時(shí)間Δ T內(nèi)的歷史位置的中心位置Oi,根據(jù)中心位置Oi對(duì)用戶進(jìn)行聚類;i表示用戶的序號(hào);(b2)從Ω」中隨機(jī)選取k個(gè)用戶,每個(gè)用戶 ,代表一個(gè)初始的用戶簇C,,其中心位置 O,代表用戶簇的初始中心,q 1,2, ... ,k;(b3)對(duì)Ω ρ中剩余的每個(gè)用戶,計(jì)算其與每個(gè)用戶簇Ctl中心位置Otl的距離,將其指派給距離最近的用戶簇;(b4)然后重新計(jì)算每個(gè)用戶簇的新的中心位置0,,,替換舊的中心值;按式VIII計(jì)算準(zhǔn)則函數(shù)&的值,若&的值收斂則聚類過程結(jié)束,否則,轉(zhuǎn)步驟b3 ;
7.根據(jù)權(quán)利要求4所述的移動(dòng)場景下的搜索結(jié)果過濾方法,其特征在于第4.1步中, 用戶社交網(wǎng)絡(luò)按照下述方式構(gòu)建第7. 1步采用詞頻/逆文檔頻率TF/IDF模型,對(duì)每一個(gè)用戶Ui計(jì)算其特征向量每一維的權(quán)值;對(duì)qi,q2,. . .,qd中的每一個(gè)詞qa,,如果其沒有出現(xiàn)在用戶的歷史查詢記錄中,則其相應(yīng)權(quán)值Va為0,否則為其TF/IDF值,TF即詞頻,IDF即逆文檔頻率,統(tǒng)計(jì)那些歷史查詢記錄中出現(xiàn)過該詞的用戶的個(gè)數(shù)D,IDF值即log (N/D),N是所有用戶數(shù),TF/IDF值為TF與 IDF的乘積;第7. 2步對(duì)每一個(gè)用戶Ui分析其最近一段時(shí)間Δ T時(shí)間內(nèi)的通話記錄,對(duì)與其有通話記錄的每一個(gè)用戶Ux分析其與Ui在Δ T內(nèi)的總通話次數(shù)α,總通話時(shí)長β,通話規(guī)律Y, 利用式IX計(jì)算Ui與Ux之間的關(guān)系程度Fix ;
全文摘要
本發(fā)明公開了一種移動(dòng)場景下的搜索結(jié)果過濾方法,根據(jù)用戶歷史位置信息特征將用戶細(xì)分成不同的群體;再根據(jù)用戶的歷史查詢記錄對(duì)用戶進(jìn)行特征建模;分析用戶歷史通話記錄,構(gòu)建用戶社交關(guān)系網(wǎng)絡(luò),計(jì)算出用戶之間的關(guān)系重要程度;搜索時(shí)先利用建立的用戶特征模型對(duì)搜索結(jié)果進(jìn)行基于內(nèi)容的過濾,再采用細(xì)分得到的用戶群體信息和挖掘的用戶社交網(wǎng)絡(luò)信息對(duì)搜索結(jié)果進(jìn)行協(xié)同過濾,最終返回給用戶。本發(fā)明通過挖掘用戶特征和信息過濾的方法,能較好地對(duì)搜索結(jié)果進(jìn)行個(gè)性化的過濾,去掉大量不相關(guān)的搜索結(jié)果,精簡結(jié)果集,實(shí)現(xiàn)移動(dòng)場景下的個(gè)性化的精準(zhǔn)搜索。
文檔編號(hào)G06F17/30GK102591966SQ20111045815
公開日2012年7月18日 申請(qǐng)日期2011年12月31日 優(yōu)先權(quán)日2011年12月31日
發(fā)明者嚴(yán)奉偉, 方飛, 袁平鵬, 謝海洋, 趙峰, 金海 申請(qǐng)人:華中科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
辉县市| 三亚市| 时尚| 北流市| 德格县| 收藏| 涿鹿县| 宜宾县| 青田县| 大埔区| 兰溪市| 新乡县| 鄂伦春自治旗| 阜阳市| 六盘水市| 鄂托克前旗| 五家渠市| 德保县| 衢州市| 格尔木市| 泌阳县| 延安市| 乐清市| 祁门县| 鱼台县| 山西省| 浏阳市| 台中县| 龙胜| 汕尾市| 雷山县| 九江县| 井研县| 彰化市| 林周县| 金湖县| 六安市| 安远县| 宜兴市| 五寨县| 喀什市|