本發(fā)明涉及內(nèi)容推薦領(lǐng)域,尤其涉及一種基于用戶搜索內(nèi)容的多媒體推薦方法及系統(tǒng)。
背景技術(shù):
:個(gè)性化推薦系統(tǒng)目前已廣泛用于書(shū)籍、論文、音樂(lè)和電影等商品及內(nèi)容的推薦上,而且個(gè)性化推薦系統(tǒng)的內(nèi)部結(jié)構(gòu)也發(fā)生了巨大變化。隨著推薦內(nèi)容的多元化發(fā)展,原始的推薦技術(shù)也在與時(shí)俱進(jìn)地快速發(fā)展,例如協(xié)同過(guò)濾、基于內(nèi)容信息和遷移學(xué)習(xí)等推薦技術(shù)在這樣的大環(huán)境下應(yīng)運(yùn)而生。個(gè)性化推薦系統(tǒng)根據(jù)推薦內(nèi)容的不同可分為三種類型:第一類推薦系統(tǒng)應(yīng)用于電子商務(wù)網(wǎng)站上,其向用戶推薦符合自身喜好的商品,這類推薦系統(tǒng)稱為電子商務(wù)個(gè)性化推薦系統(tǒng)或電商推薦系統(tǒng),亞馬遜、淘寶和京東等大型電商網(wǎng)站均使用這類推薦系統(tǒng);第二類推薦系統(tǒng)應(yīng)用于當(dāng)今流行的社交網(wǎng)絡(luò)上,其向用戶推薦其相關(guān)的社會(huì)關(guān)系或興趣圈子中可能會(huì)感興趣的用戶、群組和新聞等相關(guān)信息,如Facebook、新浪微博和人人網(wǎng)等社交網(wǎng)絡(luò)門(mén)戶均使用這類推薦系統(tǒng);第三類推薦系統(tǒng)應(yīng)用于垂直分享類門(mén)戶網(wǎng)站中,其向用戶推薦用戶可能感興趣的類目及內(nèi)容,如Netflix、時(shí)光網(wǎng)和豆瓣網(wǎng)等多媒體消費(fèi)類垂直門(mén)戶均使用這類推薦系統(tǒng)。協(xié)同過(guò)濾推薦算法主要分為基于用戶(User-based)的協(xié)同過(guò)濾和基于項(xiàng)目(Item-based)的協(xié)同過(guò)濾兩種,兩者的最大區(qū)別在于目標(biāo)鄰近集合的選取范圍恰好相反?;谟脩?User-based)的協(xié)同過(guò)濾算法是通過(guò)計(jì)算用戶間的相似度以獲得目標(biāo)用戶的最鄰近用戶集,并根據(jù)最鄰近用戶集的評(píng)分來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)未知項(xiàng)目的評(píng)分,然后把預(yù)測(cè)評(píng)分較高的項(xiàng)目作為推薦項(xiàng)目反饋給目標(biāo)用戶;而基于項(xiàng)目的協(xié)同過(guò)濾算法則是通過(guò)計(jì)算不同項(xiàng)目間的相似性,然后選擇與目標(biāo)用戶喜歡的項(xiàng)目具有較高相似性的項(xiàng)目作為推薦內(nèi)容反饋給目標(biāo)用戶。傳統(tǒng)的協(xié)同過(guò)濾推薦系統(tǒng)算法雖然在一定程度上完成了推薦功能,但也存在著以下問(wèn)題:1、基于用戶評(píng)估矩陣的相似性計(jì)算過(guò)程中,特征稀疏和冷啟動(dòng)問(wèn)題比較突出;2、目前絕大部分個(gè)性化推薦系統(tǒng)主要是針對(duì)用戶的顯式輸入數(shù)據(jù)如性別、年齡、住址、愛(ài)好標(biāo)簽等進(jìn)行相似度的相關(guān)計(jì)算,而未考慮用戶的隱式輸入數(shù)據(jù)對(duì)相似度計(jì)算的影響;3、協(xié)同過(guò)濾算法自身不具備自適應(yīng)性,用戶評(píng)價(jià)項(xiàng)中的零值不能通過(guò)算法自身的調(diào)整來(lái)實(shí)現(xiàn)權(quán)值重賦,導(dǎo)致推薦精度的下降甚至無(wú)法推薦等問(wèn)題。因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。技術(shù)實(shí)現(xiàn)要素:鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種基于用戶搜索內(nèi)容的多媒體推薦方法及系統(tǒng),旨在解決現(xiàn)有推薦方法存在冷啟動(dòng)、特征稀疏以及精度不足的問(wèn)題。本發(fā)明的技術(shù)方案如下:一種基于用戶搜索內(nèi)容的多媒體推薦方法,其中,包括:步驟A、收集用戶的搜索關(guān)鍵字記錄和打分記錄,并根據(jù)搜索關(guān)鍵字記錄生成用戶查詢向量集,以及根據(jù)打分記錄生成用戶評(píng)分矩陣;步驟B、建立多媒體分類標(biāo)簽詞典,根據(jù)多媒體分類標(biāo)簽詞典將用戶查詢向量集轉(zhuǎn)換為查詢-多媒體分類矩陣,然后根據(jù)所述查詢-多媒體分類矩陣對(duì)用戶評(píng)分矩陣的特征項(xiàng)進(jìn)行賦權(quán),得到改進(jìn)后的用戶評(píng)分矩陣;步驟C、遍歷用戶查詢向量集中的每個(gè)用戶查詢向量,計(jì)算得到基于用戶查詢向量的用戶相似性;并根據(jù)改進(jìn)后的用戶評(píng)分矩陣計(jì)算得到基于用戶評(píng)分矩陣的用戶相似性;步驟D、根據(jù)所述基于用戶查詢向量的用戶相似性以及基于用戶評(píng)分矩陣的用戶相似性計(jì)算得到用戶總體相似性,并依據(jù)用戶總體相似性選取與目標(biāo)用戶相似度最大的若干個(gè)用戶作為目標(biāo)用戶的近鄰用戶集;步驟E、根據(jù)近鄰用戶集中的用戶對(duì)目標(biāo)用戶未評(píng)價(jià)項(xiàng)目的評(píng)價(jià),預(yù)測(cè)目標(biāo)用戶對(duì)其未評(píng)價(jià)項(xiàng)目的評(píng)價(jià),并按照評(píng)分從高到低排序,挑選排名靠前的若干多媒體內(nèi)容作為推薦結(jié)果推送給目標(biāo)用戶。所述的基于用戶搜索內(nèi)容的多媒體推薦方法,其中,所述步驟B具體包括:B1、定義多媒體類別;B2、建立多媒體分類標(biāo)簽詞典;B3、根據(jù)多媒體分類標(biāo)簽詞典將用戶查詢向量集轉(zhuǎn)換為查詢-多媒體分類矩陣;B4、根據(jù)所述查詢-多媒體分類矩陣中的分類查詢信息計(jì)算出用戶對(duì)不同類別多媒體的偏好程度;B5、根據(jù)所述偏好程度對(duì)用戶評(píng)分矩陣的特征項(xiàng)進(jìn)行賦權(quán)得到改進(jìn)后的用戶評(píng)分矩陣。所述的基于用戶搜索內(nèi)容的多媒體推薦方法,其中,所述步驟C中,計(jì)算得到基于用戶查詢向量的用戶相似性的步驟具體包括:C1、將用戶查詢向量集中的各用戶查詢向量中的詞語(yǔ)元素表示為8位編碼形式;C2、遍歷每個(gè)用戶查詢向量的所有詞語(yǔ)元素,記錄每個(gè)詞語(yǔ)元素所在分支節(jié)點(diǎn)層的節(jié)點(diǎn)總數(shù)和其所在段落行的同義詞項(xiàng)數(shù);C3、根據(jù)所述節(jié)點(diǎn)總數(shù)和同義詞項(xiàng)數(shù),計(jì)算兩個(gè)詞語(yǔ)元素的義項(xiàng)之間的相似度;C4、根據(jù)所述義項(xiàng)的相似度,計(jì)算相應(yīng)詞語(yǔ)元素之間的相似度;C5、遍歷全部的用戶查詢向量,記錄每個(gè)用戶查詢向量的同義詞集合以及該同義詞集合中各同義詞出現(xiàn)的數(shù)目,結(jié)合詞語(yǔ)元素之間的相似度,計(jì)算任意兩個(gè)用戶查詢向量之間的相似度,并作為基于用戶查詢向量的用戶相似性Sims(U1,U2)。所述的基于用戶搜索內(nèi)容的多媒體推薦方法,其中,所述步驟C中,基于用戶評(píng)分矩陣的用戶相似性按如下公式計(jì)算:SimE(U1,U2)=Σk=1m(r1k-r1‾)*(r2k-r2‾)Σk=1m(r1k-r1‾)2*Σk=1m(r2k-r2‾)2]]>其中,(r11,r12,r13,..,r1m)為用戶U1的評(píng)分向量,(r21,r22,r23,..,r2m)為用戶U2的評(píng)分向量,分別表示用戶U1、U2對(duì)多媒體各項(xiàng)目的平均評(píng)分值。所述的基于用戶搜索內(nèi)容的多媒體推薦方法,其中,所述步驟D中,用戶總體相似性計(jì)算公式如下:Simuser(U1,U2)=ω×SimE(U1,U2)+(1-ω)×Sims(U1,U2),ω是調(diào)節(jié)系數(shù),且ω<0.5。所述的基于用戶搜索內(nèi)容的多媒體推薦方法,其中,所述步驟E中,目標(biāo)用戶i對(duì)項(xiàng)目j的預(yù)測(cè)評(píng)分rij按照以下公式計(jì)算:其中,表示目標(biāo)用戶i對(duì)多媒體各項(xiàng)目給出的評(píng)分期望值,Simi,α表示目標(biāo)用戶i與近鄰用戶集中的用戶α之間的相似度,rαj表示用戶α對(duì)項(xiàng)目j的評(píng)分,表示用戶α對(duì)多媒體各項(xiàng)目給出的評(píng)分期望值。一種基于用戶搜索內(nèi)容的多媒體推薦系統(tǒng),其中,包括:初始化模塊,用于收集用戶的搜索關(guān)鍵字記錄和打分記錄,并根據(jù)搜索關(guān)鍵字記錄生成用戶查詢向量集,以及根據(jù)打分記錄生成用戶評(píng)分矩陣;矩陣改進(jìn)模塊,用于建立多媒體分類標(biāo)簽詞典,根據(jù)多媒體分類標(biāo)簽詞典將用戶查詢向量集轉(zhuǎn)換為查詢-多媒體分類矩陣,然后根據(jù)所述查詢-多媒體分類矩陣對(duì)用戶評(píng)分矩陣的特征項(xiàng)進(jìn)行賦權(quán),得到改進(jìn)后的用戶評(píng)分矩陣;相似性計(jì)算模塊,用于遍歷用戶查詢向量集中的每個(gè)用戶查詢向量,計(jì)算得到基于用戶查詢向量的用戶相似性;并根據(jù)改進(jìn)后的用戶評(píng)分矩陣計(jì)算得到基于用戶評(píng)分矩陣的用戶相似性;近鄰用戶集選取模塊,用于根據(jù)所述基于用戶查詢向量的用戶相似性以及基于用戶評(píng)分矩陣的用戶相似性計(jì)算得到用戶總體相似性,并依據(jù)用戶總體相似性選取與目標(biāo)用戶相似度最大的若干個(gè)用戶作為目標(biāo)用戶的近鄰用戶集;推薦模塊,用于根據(jù)近鄰用戶集中的用戶對(duì)目標(biāo)用戶未評(píng)價(jià)項(xiàng)目的評(píng)價(jià),預(yù)測(cè)目標(biāo)用戶對(duì)其未評(píng)價(jià)項(xiàng)目的評(píng)價(jià),并按照評(píng)分從高到低排序,挑選排名靠前的若干多媒體內(nèi)容作為推薦結(jié)果推送給目標(biāo)用戶。所述的基于用戶搜索內(nèi)容的多媒體推薦系統(tǒng),其中,所述矩陣改進(jìn)模塊具體包括:定義單元,用于定義多媒體類別;分類標(biāo)簽詞典建立單元,用于建立多媒體分類標(biāo)簽詞典;矩陣轉(zhuǎn)換單元,用于根據(jù)多媒體分類標(biāo)簽詞典將用戶查詢向量集轉(zhuǎn)換為查詢-多媒體分類矩陣;偏好程度計(jì)算單元,用于根據(jù)所述查詢-多媒體分類矩陣中的分類查詢信息計(jì)算出用戶對(duì)不同類別多媒體的偏好程度;矩陣改進(jìn)單元,用于根據(jù)所述偏好程度對(duì)用戶評(píng)分矩陣的特征項(xiàng)進(jìn)行賦權(quán)得到改進(jìn)后的用戶評(píng)分矩陣。所述的基于用戶搜索內(nèi)容的多媒體推薦系統(tǒng),其中,所述相似性計(jì)算模塊具體包括:編碼表示單元,用于將用戶查詢向量集中的各用戶查詢向量中的詞語(yǔ)元素表示為8位編碼形式;記錄單元,用于遍歷每個(gè)用戶查詢向量的所有詞語(yǔ)元素,記錄每個(gè)詞語(yǔ)元素所在分支節(jié)點(diǎn)層的節(jié)點(diǎn)總數(shù)和其所在段落行的同義詞項(xiàng)數(shù);義項(xiàng)計(jì)算單元,用于根據(jù)所述節(jié)點(diǎn)總數(shù)和同義詞項(xiàng)數(shù),計(jì)算兩個(gè)詞語(yǔ)元素的義項(xiàng)之間的相似度;詞語(yǔ)計(jì)算單元,用于根據(jù)所述義項(xiàng)的相似度,計(jì)算相應(yīng)詞語(yǔ)元素之間的相似度;相似性計(jì)算單元,用于遍歷全部的用戶查詢向量,記錄每個(gè)用戶查詢向量的同義詞集合以及該同義詞集合中各同義詞出現(xiàn)的數(shù)目,結(jié)合詞語(yǔ)元素之間的相似度,計(jì)算任意兩個(gè)用戶查詢向量之間的相似度,并作為基于用戶查詢向量的用戶相似性Sims(U1,U2)。所述的基于用戶搜索內(nèi)容的多媒體推薦系統(tǒng),其中,所述相似性計(jì)算模塊中,基于用戶評(píng)分矩陣的用戶相似性按如下公式計(jì)算:SimE(U1,U2)=Σk=1m(r1k-r1‾)*(r2k-r2‾)Σk=1m(r1k-r1‾)2*Σk=1m(r2k-r2‾)2]]>其中,(r11,r12,r13,..,r1m)為用戶U1的評(píng)分向量,(r21,r22,r23,..,r2m)為用戶U2的評(píng)分向量,分別表示用戶U1、U2對(duì)多媒體各項(xiàng)目的平均評(píng)分值。有益效果:本發(fā)明通過(guò)提取并量化用戶搜索關(guān)鍵字記錄中蘊(yùn)含的用戶對(duì)特定多媒體類型的喜好程度信息,引入用戶查詢向量集,并作為目標(biāo)用戶對(duì)多媒體項(xiàng)目的初始評(píng)分,從而在解決了傳統(tǒng)協(xié)同過(guò)濾算法的冷啟動(dòng)和特征稀疏的問(wèn)題。另外本發(fā)明將用戶查詢向量的用戶相似性以及基于用戶評(píng)分矩陣的用戶相似性相結(jié)合,計(jì)算得到用戶總體相似性,解決了傳統(tǒng)協(xié)同過(guò)濾算法的推薦精度不足的問(wèn)題。附圖說(shuō)明圖1為本發(fā)明一種基于用戶搜索內(nèi)容的多媒體推薦方法較佳實(shí)施例的流程圖。圖2為本發(fā)明中一個(gè)用戶評(píng)分矩陣的示例。圖3為本發(fā)明中一個(gè)用戶搜索記錄的示例。圖4為本發(fā)明中一個(gè)用戶查詢向量集的示例。圖5為本發(fā)明中一個(gè)電影分類標(biāo)簽詞典的節(jié)選示例。圖6為本發(fā)明中一個(gè)查詢-電影分類矩陣的示例。圖7為本發(fā)明中一個(gè)用戶評(píng)分矩陣改進(jìn)前的示例。圖8為本發(fā)明中一個(gè)用戶評(píng)分矩陣改進(jìn)后的示例。圖9為本發(fā)明中編碼規(guī)則表的示例。圖10為本發(fā)明一種基于用戶搜索內(nèi)容的多媒體推薦系統(tǒng)較佳實(shí)施例的結(jié)構(gòu)框圖。具體實(shí)施方式本發(fā)明提供一種基于用戶搜索內(nèi)容的多媒體推薦方法及系統(tǒng),為使本發(fā)明的目的、技術(shù)方案及效果更加清楚、明確,以下對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。請(qǐng)參閱圖1,圖1為本發(fā)明一種基于用戶搜索內(nèi)容的多媒體推薦方法較佳實(shí)施例的流程圖,如圖所示,其包括:步驟S1、收集用戶的搜索關(guān)鍵字記錄和打分記錄,并根據(jù)搜索關(guān)鍵字記錄生成用戶查詢向量集,以及根據(jù)打分記錄生成用戶評(píng)分矩陣;步驟S2、建立多媒體分類標(biāo)簽詞典,根據(jù)多媒體分類標(biāo)簽詞典將用戶查詢向量集轉(zhuǎn)換為查詢-多媒體分類矩陣,然后根據(jù)所述查詢-多媒體分類矩陣對(duì)用戶評(píng)分矩陣的特征項(xiàng)進(jìn)行賦權(quán),得到改進(jìn)后的用戶評(píng)分矩陣;步驟S3、遍歷用戶查詢向量集中的每個(gè)用戶查詢向量,計(jì)算得到基于用戶查詢向量的用戶相似性;并根據(jù)改進(jìn)后的用戶評(píng)分矩陣計(jì)算得到基于用戶評(píng)分矩陣的用戶相似性;步驟S4、根據(jù)所述基于用戶查詢向量的用戶相似性以及基于用戶評(píng)分矩陣的用戶相似性計(jì)算得到用戶總體相似性,并依據(jù)用戶總體相似性選取與目標(biāo)用戶相似度最大的若干個(gè)用戶作為目標(biāo)用戶的近鄰用戶集;步驟S5、根據(jù)近鄰用戶集中的用戶對(duì)目標(biāo)用戶未評(píng)價(jià)項(xiàng)目的評(píng)價(jià),預(yù)測(cè)目標(biāo)用戶對(duì)其未評(píng)價(jià)項(xiàng)目的評(píng)價(jià),并按照評(píng)分從高到低排序,挑選排名靠前的若干多媒體內(nèi)容作為推薦結(jié)果推送給目標(biāo)用戶。在所述步驟S1中,收集用戶的搜索關(guān)鍵字記錄和打分記錄,其中的打分記錄是指用戶對(duì)多媒體內(nèi)容的打分,其屬于顯式輸入。本發(fā)明中后續(xù)實(shí)施例均以電影為例進(jìn)行說(shuō)明,顯然,對(duì)于其他例如音樂(lè)、圖片等多媒體內(nèi)容也可通過(guò)本發(fā)明的方式實(shí)施。根據(jù)用戶的打分記錄生成用戶評(píng)分矩陣,一個(gè)用戶評(píng)分矩陣的示例如圖2所示。其中,用戶集合U={u1,u2,…,uN},電影集合I={I1,I2,…,IM},rij代表用戶ui對(duì)電影Ij的滿意度評(píng)分,整個(gè)用戶評(píng)分矩陣表示為一個(gè)n*m的矩陣。其中,rij的分?jǐn)?shù)取值限制在特定的整數(shù)區(qū)間內(nèi),例如可以把rij設(shè)置為0到5的整數(shù),其中0代表喜愛(ài)程度未知,1代表最不喜歡,5代表最喜歡,其他分值的喜愛(ài)程度在1至5之間即可。除了收集上述顯式輸入的信息之外,本發(fā)明還收集用戶隱式輸入的信息,隱式輸入信息是指從用戶登入系統(tǒng)到完成整個(gè)操作過(guò)程所留下的痕跡信息,例如搜索關(guān)鍵字記錄、ip地址所在地、瀏覽記錄和關(guān)注收藏記錄等。這類輸入信息間接反映了用戶對(duì)于整個(gè)網(wǎng)站信息的關(guān)注偏好,同時(shí)也間接反映用戶的自身信息。隱式輸入信息對(duì)于用戶是透明的。由于隱性輸入的評(píng)價(jià)信息通常呈現(xiàn)非線性,傳統(tǒng)協(xié)同過(guò)濾推薦系統(tǒng)不能直接處理,因此需要額外的跨領(lǐng)域技術(shù)對(duì)這類間接信息進(jìn)行數(shù)據(jù)分析和提取,其過(guò)程復(fù)雜且時(shí)間開(kāi)銷(xiāo)較大,這是目前隱式輸入信息普遍不被采用的直接原因。本發(fā)明所采用的方式則與傳統(tǒng)方式有所不同,本發(fā)明是提取用戶搜索記錄,基于提取到的用戶搜索記錄來(lái)生成用戶查詢向量集,利用所述用戶查詢向量集作為參考,解決傳統(tǒng)協(xié)同過(guò)濾算法的冷啟動(dòng)和特征稀疏的問(wèn)題。具體來(lái)說(shuō),所述用戶搜索記錄是指用戶在瀏覽網(wǎng)站或使用互聯(lián)網(wǎng)電視時(shí)在網(wǎng)站或智能電視提供的搜索引擎中鍵入的關(guān)鍵字集合。圖3為一份典型的電影個(gè)性化推薦系統(tǒng)的用戶搜索記錄示例。假設(shè)用戶集合是U={u1,u2,…,uN},其每個(gè)用戶對(duì)應(yīng)的用戶查詢向量Qx={Q1,Q2,…,Qy},,其中對(duì)于每一個(gè)ux,其對(duì)應(yīng)的用戶查詢向量Qx的維度是不一樣的,某電影推薦系統(tǒng)一段時(shí)間內(nèi)的一個(gè)用戶查詢向量集如圖4所示。每個(gè)用戶搜索向量維度并不相同,甚至有的用戶查詢向量為空。一方面用戶查詢記錄與電影類目并無(wú)直接的數(shù)值關(guān)系,這對(duì)計(jì)算查詢記錄與項(xiàng)目類別之間的相關(guān)程度帶來(lái)了挑戰(zhàn)。另一方面不能采用傳統(tǒng)協(xié)同過(guò)濾算法的用戶相似性計(jì)算方法進(jìn)行用戶喜好相似性的計(jì)算。所以本發(fā)明在后續(xù)步驟中結(jié)合基于用戶評(píng)分矩陣和用戶查詢向量的用戶相似性進(jìn)行計(jì)算,可提高推薦準(zhǔn)確性,具體在后文詳述。進(jìn)一步,所述步驟S2具體包括:S21、定義多媒體類別;以電影為例,根據(jù)MoviesLens數(shù)據(jù)集的電影分類規(guī)則,把電影分為18種,分別是Action(動(dòng)作)、Adventure(冒險(xiǎn))、Animation(動(dòng)畫(huà))、Children's(兒童)、Comedy(戲劇)、Crime(犯罪)、Documentary(記錄)、Drama(戲劇)、Fantasy(魔幻)、Film-Noir(黑色)、Horror(恐怖)、Musical(音樂(lè))、Mystery(懸疑)、Romance(浪漫)、Sci-Fi(科幻)、Thriller(驚悚)、War(戰(zhàn)爭(zhēng))和Western(西方)。S22、建立多媒體分類標(biāo)簽詞典;在此步驟中,先爬取網(wǎng)絡(luò)上的電影搜索標(biāo)簽;電影搜索標(biāo)簽的來(lái)源主要是豆瓣網(wǎng)和時(shí)光網(wǎng)的電影搜索版塊,其中豆瓣網(wǎng)的熱門(mén)標(biāo)簽每隔一個(gè)月更新一次,而時(shí)光網(wǎng)的熱門(mén)標(biāo)簽則會(huì)每隔20天更新一次。然后對(duì)電影搜索標(biāo)簽進(jìn)行去重、分類處理;具體可選取近1年在豆瓣網(wǎng)和時(shí)光網(wǎng)熱門(mén)標(biāo)簽欄出現(xiàn)過(guò)的標(biāo)簽,剔除其中重復(fù)的部分,余下大約有2000條標(biāo)簽記錄,然后對(duì)這些標(biāo)簽進(jìn)行去重和分類處理,最終留下18類電影搜索標(biāo)簽約1000個(gè)。最后根據(jù)《同義詞詞林?jǐn)U展版》對(duì)電影搜索標(biāo)簽進(jìn)行同義詞擴(kuò)充,形成最終版本的電影分類標(biāo)簽詞典,包含約1400個(gè)標(biāo)簽,電影分類標(biāo)簽詞典節(jié)選如圖5所示。其中,《同義詞詞林?jǐn)U展版》(后續(xù)可簡(jiǎn)稱詞林或同義詞詞林)是哈工大信息檢索實(shí)驗(yàn)室根據(jù)人民日?qǐng)?bào)語(yǔ)料庫(kù)中關(guān)于通用詞語(yǔ)的詞頻統(tǒng)計(jì),收錄將近七萬(wàn)條詞項(xiàng)。它將所有詞語(yǔ)按照樹(shù)狀層次結(jié)構(gòu)組織在一起,分為三大層。其中大類14個(gè),中類97個(gè),小類1400個(gè)。每個(gè)小類中又按照語(yǔ)義相關(guān)性分為多個(gè)群落,每個(gè)群落中又有若干行詞匯。S23、根據(jù)多媒體分類標(biāo)簽詞典將用戶查詢向量集轉(zhuǎn)換為查詢-多媒體分類矩陣;例如,根據(jù)電影分類標(biāo)簽詞典統(tǒng)計(jì)用戶查詢向量中出現(xiàn)的電影標(biāo)簽頻數(shù),從而將用戶查詢向量集轉(zhuǎn)換為查詢-電影分類矩陣。例如一個(gè)用戶查詢向量是(宗教,犯罪,人性,愛(ài)情,法國(guó),恐怖片,夢(mèng)工廠,吳宇森,冒險(xiǎn)),則其查詢關(guān)鍵字分屬于Action、Fantasy、Horror、Romance和War類型的標(biāo)簽數(shù)值(這里只從18種類型標(biāo)簽中節(jié)選中其中5個(gè)類型)分別是2、1、2、2和3。一個(gè)查詢-電影分類矩陣的示例如圖6所示。S24、根據(jù)所述查詢-多媒體分類矩陣中的分類查詢信息計(jì)算出用戶對(duì)不同類多媒體的偏好程度;例如,根據(jù)查詢-分類矩陣中用戶的分類查詢信息就可以計(jì)算出用戶對(duì)18類電影的偏好程度。假設(shè)查詢-分類矩陣為T(mén)={T1,T2,…,Tp},18類電影分類集合是M,則用戶ui對(duì)電影類型MTj的偏好程度L(ui,MTj)即特征權(quán)重值可由以下公式計(jì)算得出:其中:rij是用戶Ui的用戶查詢向量Ti中包含電影類型MTj的標(biāo)簽頻數(shù),|M|是指電影分類集合中的類別個(gè)數(shù);其中L(ui,MTj)的值被限制在【0,5】之間,增量單位為0.5;λ為調(diào)節(jié)系數(shù),通常的取值為0.5。S25、根據(jù)所述偏好程度對(duì)用戶評(píng)分矩陣的特征項(xiàng)進(jìn)行賦權(quán)得到改進(jìn)后的用戶評(píng)分矩陣。將前述計(jì)算的偏好程度作為原始用戶評(píng)分矩陣中用戶對(duì)未評(píng)分電影項(xiàng)的打分,即對(duì)原來(lái)是零值的特征項(xiàng)重新賦權(quán),得到改進(jìn)后的用戶評(píng)分矩陣。以圖7的用戶評(píng)分矩陣為例,其中這10個(gè)用戶評(píng)價(jià)的電影集合由10部電影組成,分別是《異形》、《蝙蝠俠前傳2黑夜騎士》、《無(wú)間道》、《警察故事》、《當(dāng)幸福來(lái)敲門(mén)》、《無(wú)人區(qū)》、《羅馬假日》、《拯救大兵》、《千與千尋》以及《那些年我們一起追過(guò)的女孩》,其原始的用戶評(píng)分矩陣十分稀疏。結(jié)合電影分類標(biāo)簽詞典和公式1計(jì)算出用戶查詢向量所反映的用戶偏好,將原來(lái)的評(píng)分項(xiàng)重新賦予特征權(quán)重,得到改進(jìn)后的用戶評(píng)分矩陣,如圖8所示。在所述步驟S3中,計(jì)算兩種用戶相似性,一個(gè)是基于用戶查詢向量的用戶相似性;另一個(gè)是基于用戶評(píng)分矩陣的用戶相似性。對(duì)于基于用戶評(píng)分矩陣的用戶相似性SimE(U1,U2),其計(jì)算公式如下:在上述公式2中,(r11,r12,r13,..,r1m)為用戶U1的評(píng)分向量,(r21,r22,r23,..,r2m)為用戶U2的評(píng)分向量,分別表示用戶U1、U2對(duì)多媒體各項(xiàng)目的平均評(píng)分值。以圖2中的電影為例,表示用戶U1對(duì)電影I1、I2、I3…Im的平均評(píng)分值。對(duì)于基于用戶查詢向量的用戶相似性計(jì)算方法,具體包括:S31、將用戶查詢向量集中的各用戶查詢向量中的詞語(yǔ)元素表示為8位編碼形式;根據(jù)《同義詞詞林?jǐn)U展版》,將用戶查詢向量中的元素全部表示為8位編碼形式,而未在《同義詞詞林?jǐn)U展版》中出現(xiàn)的元素則將其從所屬向量中移除?!锻x詞詞林?jǐn)U展版》中每個(gè)群落行的詞匯均采用8位編碼表示。編碼規(guī)則表如圖9所示,大類表示為一位大寫(xiě)字母,中類表示為一位小寫(xiě)字母,小類是兩位十進(jìn)制數(shù),小類中的群落表示為一位大寫(xiě)字母,段落中的一行表示為兩位十進(jìn)制數(shù)。至于第八位則采用三種不同的符號(hào)表示段落行中詞語(yǔ)的相關(guān)度,“=”表示行中詞匯語(yǔ)義相等或同義;“#”代表行中詞匯是同類,即相關(guān)詞匯;“@”表示行中詞匯既沒(méi)有相關(guān)詞又沒(méi)有同義詞,是孤立詞。例如“Ee29C01”編碼表示的就是“輕浮浮漂浮輕飄輕狂張狂輕舉妄動(dòng)心浮虛浮”這一行段落詞匯行。由于同義詞詞林中詞語(yǔ)的組織方式是層次樹(shù)狀結(jié)構(gòu),所以兩個(gè)詞語(yǔ)元素的相似度可以用兩個(gè)詞語(yǔ)節(jié)點(diǎn)的距離來(lái)表示,而詞語(yǔ)節(jié)點(diǎn)的距離可以用詞語(yǔ)的8位編碼來(lái)描述。通過(guò)判斷8位詞語(yǔ)編碼來(lái)判斷兩個(gè)詞語(yǔ)是否在同一層分支中,從第一層開(kāi)始依次從詞語(yǔ)編碼中判斷兩個(gè)詞語(yǔ)的所屬層次關(guān)系,例如“Ga01A04=”和“Ga01A05=”兩個(gè)編碼就同屬于詞林的第五個(gè)分支S32、遍歷每個(gè)用戶查詢向量的所有詞語(yǔ)元素,記錄每個(gè)詞語(yǔ)元素所在分支節(jié)點(diǎn)層的節(jié)點(diǎn)總數(shù)n和其所在段落行的同義詞項(xiàng)數(shù)m;S33、根據(jù)所述節(jié)點(diǎn)總數(shù)n和同義詞項(xiàng)數(shù)m,計(jì)算兩個(gè)詞語(yǔ)元素的義項(xiàng)之間的相似度;在同義詞詞林中,由于一個(gè)詞語(yǔ)元素往往會(huì)存在多個(gè)意思,所以一個(gè)詞語(yǔ)元素可能會(huì)存在多個(gè)編碼項(xiàng),即義項(xiàng)。顯然,通過(guò)義項(xiàng)的相似性可以得到詞語(yǔ)的相似性。假設(shè)兩個(gè)義項(xiàng)分別是w1和w2,其相似度是Simsense(w1,w2),基于同義詞詞林的義項(xiàng)相似性計(jì)算公式如下:(1)如果兩個(gè)義項(xiàng)不在同一棵樹(shù)上,則Simsense(w1,w2)=f(2)如果兩個(gè)義項(xiàng)同在第一層分支,則Simsense(w1,w2)=a×cosπn1180×1n1]]>(3)如果兩個(gè)義項(xiàng)同在第二層分支,則Simsense(w1,w2)=1×b×cosπ(n1+n2)180×1n2]]>(4)如果兩個(gè)義項(xiàng)同在第三層分支,則Simsense(w1,w2)=1×1×c×cosπ(n1+n2+n3)180×1n3]]>(5)如果兩個(gè)義項(xiàng)同在第四層分支,則Simsense(w1,w2)=1×1×1×d×cosπ(n1+n2+n3+n4)180×1n4]]>(6)如果兩個(gè)義項(xiàng)同在第五層分支,則Simsense(w1,w2)=1×1×1×1×e×cosπ(n1+n2+n3+n4+n5)180×1n5×1m×0.5]]>上述公式中,a,b,c,d,e,f分別是相似性調(diào)節(jié)系數(shù),經(jīng)驗(yàn)取值如下:a=0.5,b=0.75,c=0.82,d=0.90,e=0.96,f=0.05。n1~n5是各分支層的節(jié)點(diǎn)總數(shù),m是詞語(yǔ)元素所在段落行的同義詞項(xiàng)數(shù);分別用于計(jì)算同一樹(shù)節(jié)點(diǎn)的節(jié)點(diǎn)密度,用于計(jì)算同一段落行的義項(xiàng)密度。S34、根據(jù)所述義項(xiàng)的相似度,計(jì)算相應(yīng)詞語(yǔ)元素之間的相似度;兩個(gè)詞語(yǔ)元素的相似性是其各自義項(xiàng)間相似度的數(shù)學(xué)平均。假設(shè)兩個(gè)詞語(yǔ)元素分別為W1和W2,W1的義項(xiàng)集合表示為W2的義項(xiàng)集合表示為和和分別表示相應(yīng)集合的項(xiàng)目數(shù),則基于同義詞詞林的詞語(yǔ)元素相似性計(jì)算公式如下:Simword(W1,W2)=Σi∈{n∈NW1},j∈{n∈NW2}Simsense(wi,wj)|NW1|×|NW2|]]>S35、遍歷全部的用戶查詢向量,記錄每個(gè)用戶查詢向量的同義詞集合以及該同義詞集合中各同義詞出現(xiàn)的數(shù)目,結(jié)合詞語(yǔ)元素之間的相似度,計(jì)算任意兩個(gè)用戶查詢向量之間的相似度,并作為基于用戶查詢向量的用戶相似性Sims(U1,U2)。具體來(lái)說(shuō),遍歷全部用戶查詢向量,記錄每個(gè)用戶查詢向量的同義詞集合以及該集合中各同義詞出現(xiàn)的數(shù)目計(jì)算任意兩個(gè)用戶查詢向量之間的相似度當(dāng)兩個(gè)用戶查詢向量之間存在同義詞時(shí),用戶查詢向量之間的相似度與兩個(gè)向量中同時(shí)存在的同義詞數(shù)量呈正比;當(dāng)兩個(gè)用戶查詢向量之間不存在同義詞時(shí),用戶查詢向量之間的相似度與兩個(gè)向量中各自存在的同義詞數(shù)量呈反比。兩個(gè)用戶查詢向量和其維度分別為n和m,相似度的計(jì)算公式如下:(1)當(dāng)存在相同的同義詞時(shí):Simsearch(U1→,U2→)=Σi∈{n∈U1→},j∈{n∈U2→}Simword(Wi,Wj)n×m×ΣWk∈{W|W∈Syn(U1→,U2→)}nWk|Syn(U1→,U2→)|+α]]>(2)當(dāng)不存在相同的同義詞時(shí):Simsearch(U1→,U2→)=Σi∈{n∈U1→},j∈{n∈U2→}Simword(Wi,Wj)n×m×|Syn(U1→)|×|Syn(U2→)|+β(ΣWk∈{W|W∈Syn(U1→)}nWk)×(ΠWl∈{W|W∈Sym(U1→)}nWl)]]>是指共同存在的同義詞集合;和分別指中數(shù)量大于1的同義詞集合;是指該同義詞集合包含的詞語(yǔ)元素?cái)?shù)量;是指該同義詞集合中各個(gè)詞語(yǔ)元素出現(xiàn)的次數(shù);∝,β是相應(yīng)的調(diào)節(jié)參數(shù),通常取值均為0.5。在步驟S4中,基于用戶評(píng)分矩陣計(jì)算得到的用戶相似性為SimE(U1,U2),基于用戶查詢向量計(jì)算得到的用戶相似性為SimS(U1,U2),則用戶總體相似性Simuser(U1,U2)計(jì)算公式如下:Simuser(U1,U2)=ω×SimE(U1,U2)+(1-ω)×SimS(U1,U2)ω是調(diào)節(jié)系數(shù),通常取小于0.5的數(shù)值,即,ω<0.5,這里取ω=0.35。然后依據(jù)用戶總體相似性Simuser(U1,U2)選取與目標(biāo)用戶相似度最大的若干個(gè)用戶作為目標(biāo)用戶的近鄰用戶集;在步驟S5中,得到目標(biāo)用戶的近鄰用戶集之后,就可以根據(jù)近鄰用戶集中的用戶對(duì)目標(biāo)用戶未評(píng)價(jià)項(xiàng)目的評(píng)價(jià),預(yù)測(cè)目標(biāo)用戶對(duì)其未評(píng)價(jià)項(xiàng)目的評(píng)價(jià)打分,按照評(píng)分分值從高到低排序,挑選出前若干個(gè)電影作為推薦結(jié)果推送給用戶。例如,目標(biāo)用戶i的近鄰用戶集為Un={u1,u2,…,uk},目標(biāo)用戶i對(duì)項(xiàng)目j的預(yù)測(cè)評(píng)分按照以下公式計(jì)算:其中,表示目標(biāo)用戶i對(duì)多媒體各項(xiàng)目(如所有電影)給出的評(píng)分期望值,Simi,α表示目標(biāo)用戶i與近鄰用戶集中的用戶α之間的相似度,rαj表示用戶α對(duì)項(xiàng)目j(即電影j)的評(píng)分,表示用戶α對(duì)多媒體各項(xiàng)目給出的評(píng)分期望值?;谏鲜龇椒ǎ景l(fā)明還提供一種基于用戶搜索內(nèi)容的多媒體推薦系統(tǒng)較佳實(shí)施例,如圖10所示,其包括:初始化模塊100,用于收集用戶的搜索關(guān)鍵字記錄和打分記錄,并根據(jù)搜索關(guān)鍵字記錄生成用戶查詢向量集,以及根據(jù)打分記錄生成用戶評(píng)分矩陣;矩陣改進(jìn)模塊200,用于建立多媒體分類標(biāo)簽詞典,根據(jù)多媒體分類標(biāo)簽詞典將用戶查詢向量集轉(zhuǎn)換為查詢-多媒體分類矩陣,然后根據(jù)所述查詢-多媒體分類矩陣對(duì)用戶評(píng)分矩陣的特征項(xiàng)進(jìn)行賦權(quán),得到改進(jìn)后的用戶評(píng)分矩陣;相似性計(jì)算模塊300,用于遍歷用戶查詢向量集中的每個(gè)用戶查詢向量,計(jì)算得到基于用戶查詢向量的用戶相似性;并根據(jù)改進(jìn)后的用戶評(píng)分矩陣計(jì)算得到基于用戶評(píng)分矩陣的用戶相似性;近鄰用戶集選取模塊400,用于根據(jù)所述基于用戶查詢向量的用戶相似性以及基于用戶評(píng)分矩陣的用戶相似性計(jì)算得到用戶總體相似性,并依據(jù)用戶總體相似性選取與目標(biāo)用戶相似度最大的若干個(gè)用戶作為目標(biāo)用戶的近鄰用戶集;推薦模塊500,用于根據(jù)近鄰用戶集中的用戶對(duì)目標(biāo)用戶未評(píng)價(jià)項(xiàng)目的評(píng)價(jià),預(yù)測(cè)目標(biāo)用戶對(duì)其未評(píng)價(jià)項(xiàng)目的評(píng)價(jià),并按照評(píng)分從高到低排序,挑選排名靠前的若干多媒體內(nèi)容作為推薦結(jié)果推送給目標(biāo)用戶。進(jìn)一步,所述矩陣改進(jìn)模塊200具體包括:定義單元,用于定義多媒體類別;分類標(biāo)簽詞典建立單元,用于建立多媒體分類標(biāo)簽詞典;矩陣轉(zhuǎn)換單元,用于根據(jù)多媒體分類標(biāo)簽詞典將用戶查詢向量集轉(zhuǎn)換為查詢-多媒體分類矩陣;偏好程度計(jì)算單元,用于根據(jù)所述查詢-多媒體分類矩陣中的分類查詢信息計(jì)算出用戶對(duì)不同類別多媒體的偏好程度;矩陣改進(jìn)單元,用于根據(jù)所述偏好程度對(duì)用戶評(píng)分矩陣的特征項(xiàng)進(jìn)行賦權(quán)得到改進(jìn)后的用戶評(píng)分矩陣。進(jìn)一步,所述相似性計(jì)算模塊300具體包括:編碼表示單元,用于將用戶查詢向量集中的各用戶查詢向量中的詞語(yǔ)元素表示為8位編碼形式;記錄單元,用于遍歷每個(gè)用戶查詢向量的所有詞語(yǔ)元素,記錄每個(gè)詞語(yǔ)元素所在分支節(jié)點(diǎn)層的節(jié)點(diǎn)總數(shù)和其所在段落行的同義詞項(xiàng)數(shù);義項(xiàng)計(jì)算單元,用于根據(jù)所述節(jié)點(diǎn)總數(shù)和同義詞項(xiàng)數(shù),計(jì)算兩個(gè)詞語(yǔ)元素的義項(xiàng)之間的相似度;詞語(yǔ)計(jì)算單元,用于根據(jù)所述義項(xiàng)的相似度,計(jì)算相應(yīng)詞語(yǔ)元素之間的相似度;相似性計(jì)算單元,用于遍歷全部的用戶查詢向量,記錄每個(gè)用戶查詢向量的同義詞集合以及該同義詞集合中各同義詞出現(xiàn)的數(shù)目,結(jié)合詞語(yǔ)元素之間的相似度,計(jì)算任意兩個(gè)用戶查詢向量之間的相似度,并作為基于用戶查詢向量的用戶相似性SimS(U1,U2)。進(jìn)一步,所述相似性計(jì)算模塊300中,基于用戶評(píng)分矩陣的用戶相似性按如下公式計(jì)算:SimE(U1,U2)=Σk=1m(r1k-r1‾)*(r2k-r2‾)Σk=1m(r1k-r1‾)2*Σk=1m(r2k-r2‾)2]]>其中,(r11,r12,r13,..,r1m)為用戶U1的評(píng)分向量,(r21,r22,r23,..,r2m)為用戶U2的評(píng)分向量,分別表示用戶U1、U2對(duì)多媒體各項(xiàng)目的平均評(píng)分值。關(guān)于上述模塊單元的技術(shù)細(xì)節(jié)在前面的方法中已有詳述,故不再贅述。綜上所述,本發(fā)明通過(guò)提取并量化用戶搜索關(guān)鍵字記錄中蘊(yùn)含的用戶對(duì)特定多媒體類型的喜好程度信息,引入用戶查詢向量集,并作為目標(biāo)用戶對(duì)多媒體項(xiàng)目的初始評(píng)分,從而在解決了傳統(tǒng)協(xié)同過(guò)濾算法的冷啟動(dòng)和特征稀疏的問(wèn)題。另外本發(fā)明將用戶查詢向量的用戶相似性以及基于用戶評(píng)分矩陣的用戶相似性相結(jié)合,計(jì)算得到用戶總體相似性,解決了傳統(tǒng)協(xié)同過(guò)濾算法的推薦精度不足的問(wèn)題。應(yīng)當(dāng)理解的是,本發(fā)明的應(yīng)用不限于上述的舉例,對(duì)本領(lǐng)域普通技術(shù)人員來(lái)說(shuō),可以根據(jù)上述說(shuō)明加以改進(jìn)或變換,所有這些改進(jìn)和變換都應(yīng)屬于本發(fā)明所附權(quán)利要求的保護(hù)范圍。當(dāng)前第1頁(yè)1 2 3