專利名稱:檢索系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通過(guò)搜索系統(tǒng)的自動(dòng)事件檢索。
背景技術(shù):
正在發(fā)展的電子商務(wù)系統(tǒng)和其它搜索系統(tǒng)的一個(gè)關(guān)鍵要求是盡快地執(zhí)行檢索以找出對(duì)于用戶的目標(biāo)事件。
近年來(lái),已經(jīng)開(kāi)發(fā)了會(huì)話式推薦系統(tǒng),用于響應(yīng)于用戶反饋來(lái)重復(fù)地檢索事件。該反饋常常是基于偏好的,其中用戶指出在特定循環(huán)所檢索的k個(gè)事件中優(yōu)選的一個(gè)。用戶也可以使用除簡(jiǎn)單偏愛(ài)之外的其它反饋形式。例如,用戶可以對(duì)檢索的事件進(jìn)行排序或者分類,或者用戶可以指出特定事件特征的優(yōu)選值(例如,價(jià)格=$1000),或者評(píng)論/調(diào)節(jié)(critique/tweak)一個(gè)特征(例如,價(jià)格<$1000)。
以前,檢索操作的主要基礎(chǔ)是搜索類似于用戶請(qǐng)求的事件。但是,最近,已經(jīng)看出,這種處理常常不是令人滿意的,并且在大量的事件彼此非常相似的情況下,可能使用戶感到失望。實(shí)際的例子是用戶根據(jù)特定標(biāo)準(zhǔn)來(lái)搜索休假選項(xiàng)的情況,并且推薦系統(tǒng)在同一區(qū)域的三個(gè)公寓住宅中搜索休假選項(xiàng)。該問(wèn)題引起了差異性檢索操作的發(fā)展,在差異性檢索操作中,推薦系統(tǒng)確保具有對(duì)于用戶請(qǐng)求的相似性以及檢索事件之間的差異性。
這種方法通常減少了到達(dá)目標(biāo)事件的循環(huán)數(shù),但是,仍然存在改進(jìn)的余地,特別是在有許多產(chǎn)品選項(xiàng)和/或大的產(chǎn)品空間被搜索的情況下。
發(fā)明內(nèi)容
根據(jù)本發(fā)明,提供一種檢索方法,該方法通過(guò)會(huì)話式推薦系統(tǒng)來(lái)執(zhí)行,該會(huì)話式推薦系統(tǒng)在檢索循環(huán)中利用用戶反饋來(lái)操作,以從數(shù)據(jù)庫(kù)中檢索事件,其中,在檢索會(huì)話的至少一個(gè)檢索循環(huán)中,該系統(tǒng)動(dòng)態(tài)地選擇一個(gè)選擇機(jī)制。
在一個(gè)實(shí)施例中,根據(jù)在相關(guān)循環(huán)中的用戶反饋進(jìn)行所述動(dòng)態(tài)選擇。
在另一個(gè)實(shí)施例中,根據(jù)是否從前一個(gè)循環(huán)中得到了偏愛(ài)事件來(lái)進(jìn)行所述選擇,并且用戶在當(dāng)前循環(huán)中再次優(yōu)先選擇同一事件。
在另一個(gè)實(shí)施例中,如果指出了不同的偏愛(ài),則該系統(tǒng)選擇精細(xì)選擇機(jī)制;如果指出了相同的偏愛(ài),則該系統(tǒng)選擇用于實(shí)現(xiàn)差異性的重新聚焦選擇機(jī)制。
在另一個(gè)實(shí)施例中,該精細(xì)機(jī)制基于相似性檢索,而不是差異性。
在另一個(gè)實(shí)施例中,該重新聚焦機(jī)制基于增強(qiáng)差異性的相似性檢索。
在另一個(gè)實(shí)施例中,該系統(tǒng)根據(jù)基于事件的推理來(lái)執(zhí)行檢索。
在另一個(gè)實(shí)施例中,該系統(tǒng)要求用戶通過(guò)指定期望的搜索特征值來(lái)提供反饋。
在另一個(gè)實(shí)施例中,該系統(tǒng)要求用戶通過(guò)其中對(duì)于搜索特征指出值范圍的評(píng)論來(lái)間接地指出一個(gè)優(yōu)選事件。
在另一個(gè)實(shí)施例中,該系統(tǒng)動(dòng)態(tài)地在每個(gè)會(huì)話循環(huán)產(chǎn)生用于用戶反饋的新的反饋結(jié)構(gòu)。
在另一個(gè)實(shí)施例中,該系統(tǒng)檢查保留在會(huì)話檢索空間中的事件,并且識(shí)別多組特征以及值范圍,以及自動(dòng)地將選項(xiàng)呈現(xiàn)給用戶,以指出這些特征和值范圍對(duì)于組合評(píng)論反饋的適合性。
在另一個(gè)實(shí)施例中,該系統(tǒng)通過(guò)表征遞歸特征和范圍作為關(guān)聯(lián)規(guī)則A->B來(lái)動(dòng)態(tài)地選擇所述特征和值范圍,其中根據(jù)特征和值范圍A的存在,它可以推出其它特征和值范圍B的存在。
在另一個(gè)實(shí)施例中,通過(guò)根據(jù)規(guī)則的支持度和置信度測(cè)量該規(guī)則重要性的處理來(lái)執(zhí)行轉(zhuǎn)換。
在另一個(gè)實(shí)施例中,該系統(tǒng)產(chǎn)生多個(gè)候選組合評(píng)論,對(duì)它們進(jìn)行分級(jí),以及僅僅將具有較高等級(jí)的組合評(píng)論呈現(xiàn)給用戶。
在另一個(gè)實(shí)施例中,根據(jù)對(duì)于用戶的適用性標(biāo)準(zhǔn)以及減少搜索空間的能力標(biāo)準(zhǔn)來(lái)對(duì)所述候選組合評(píng)論進(jìn)行分級(jí)。
在另一個(gè)實(shí)施例中,該系統(tǒng)產(chǎn)生對(duì)于呈現(xiàn)給用戶的每個(gè)組合評(píng)論的解釋。
在另一個(gè)實(shí)施例中,將用于選擇組合評(píng)論或者請(qǐng)求解釋的選項(xiàng)呈現(xiàn)給用戶。
本發(fā)明也提供一種推薦系統(tǒng),用于實(shí)現(xiàn)上面定義的方法的推薦系統(tǒng)操作。
通過(guò)以下借助于僅僅參考附圖的實(shí)例給出的本發(fā)明的一些實(shí)施例的描述,本發(fā)明將變得更加易于理解,其中,圖1是本發(fā)明的檢索方法的流程圖;圖2和3是樣品屏幕截圖(screenshot);圖4到圖7是表示本發(fā)明的檢索方法的效率的若干組曲線。
具體實(shí)施例方式
參考圖1,本發(fā)明的推薦系統(tǒng)實(shí)現(xiàn)檢索方法1,用于從事件庫(kù)中檢索事件。在步驟2中,用戶輸入具有搜索標(biāo)準(zhǔn)的請(qǐng)求。系統(tǒng)根據(jù)相似性方法在步驟3推薦k個(gè)事件。在步驟4,用戶檢查這些事件,并且通過(guò)指出多個(gè)返回事件中的哪個(gè)是優(yōu)選的或者通過(guò)指出已經(jīng)找出了目標(biāo)事件來(lái)提供反饋。
正如確定步驟5指出的,如果反饋指出找出了目標(biāo)事件,則方法在步驟6停止。但是,否則,在確定步驟7,系統(tǒng)檢查是否用戶優(yōu)選的事件是與在前一循環(huán)中指出的相同的一個(gè)事件(很明顯,對(duì)于第一循環(huán)不存在這種情況),例如,得到以及重新選擇了偏愛(ài)了嗎?系統(tǒng)通過(guò)對(duì)在步驟4提供的特征值與事件庫(kù)進(jìn)行比較來(lái)確定是否得到了偏愛(ài)。如果得到了偏愛(ài),則系統(tǒng)在步驟8利用增強(qiáng)差異性的相似性方法(差異性)重新聚焦來(lái)執(zhí)行下一個(gè)檢索。如果沒(méi)有得到偏愛(ài),則系統(tǒng)對(duì)于下一個(gè)檢索僅僅利用相似性方法進(jìn)行精細(xì)化。這種選擇機(jī)制的動(dòng)態(tài)選擇被稱為“自適應(yīng)選擇”或者“AS”。然后,系統(tǒng)執(zhí)行在步驟3的檢索,以開(kāi)始下一循環(huán)。
這樣,在第一次之后的每一個(gè)循環(huán),存在根據(jù)用戶偏愛(ài)的最佳檢索技術(shù)的自適應(yīng)選擇。正如以下詳細(xì)說(shuō)明的,這實(shí)現(xiàn)了效率上很大的改進(jìn)。本發(fā)明主要的優(yōu)點(diǎn)在于按照非常簡(jiǎn)單的方式實(shí)現(xiàn)了該動(dòng)態(tài)改進(jìn)。檢索工具和機(jī)制是現(xiàn)有檢索系統(tǒng)中已經(jīng)可利用的,并且不要求另外的用戶輸入。本發(fā)明可以利用例如基于事件推理(CBR)的任何合適檢索技術(shù)或者任何其它技術(shù)來(lái)執(zhí)行,其中,相似性和增強(qiáng)差異性的相似性技術(shù)可以應(yīng)用到上述檢索技術(shù)中。
自適應(yīng)選擇實(shí)現(xiàn)了更高級(jí)的推薦策略,它能夠在每個(gè)會(huì)話推薦循環(huán)中調(diào)整相似性和差異性的平衡。它通過(guò)確定是否最近的推薦代表了對(duì)上一循環(huán)所作的推薦的改進(jìn),來(lái)確定是否正確地聚焦了會(huì)話。這通過(guò)對(duì)現(xiàn)有的基于比較的自動(dòng)推薦技術(shù)進(jìn)行兩方面的修改來(lái)實(shí)現(xiàn),其中在現(xiàn)有的基于比較的自動(dòng)推薦技術(shù)中,在每個(gè)推薦循環(huán),固定數(shù)量(例如,k個(gè))事件被呈現(xiàn)給用戶,以及請(qǐng)求用戶提供這些建議如何與它們的要求相關(guān)的反饋。第一,代替在每個(gè)新的循環(huán)作k個(gè)新的推薦,當(dāng)前偏愛(ài)的事件被添加到k-1個(gè)新的推薦。我們將這個(gè)稱為得到偏愛(ài)(“CP”)。這種修改本身引入了冗余,因?yàn)樵谝粋€(gè)或者多個(gè)未來(lái)的循環(huán)中,重復(fù)以前看到的事件。但是,包括以前的偏愛(ài)可以使得避免當(dāng)沒(méi)有最新的推薦事件與用戶相關(guān)時(shí)通常發(fā)生的問(wèn)題。確定是否已經(jīng)得到了偏愛(ài)事件的步驟不涉及附加的用戶輸入。用戶正如以前一樣通過(guò)指定對(duì)于目標(biāo)事件特征值的特定偏愛(ài),指出值的優(yōu)選范圍(評(píng)論反饋),以及通過(guò)指出優(yōu)選地事件(基于偏愛(ài)的反饋),或者對(duì)結(jié)果進(jìn)行分類,來(lái)提供反饋。
同樣,得到偏愛(ài)允許系統(tǒng)自動(dòng)地判斷推薦的聚焦。如果用戶情愿與得到的偏愛(ài)不同的事件,則它肯定是,因?yàn)樗嗄繕?biāo)更近,以及進(jìn)行肯定的進(jìn)程。在這種情況中,在下一個(gè)推薦循環(huán),沒(méi)有保證差異性,并且重點(diǎn)應(yīng)該在相似性上。但是,如果用戶情愿得到的偏愛(ài)事件,則它表示其它k-1個(gè)事件比得到的事件較少相關(guān),并且這樣,推薦系統(tǒng)沒(méi)有對(duì)目標(biāo)進(jìn)行肯定的進(jìn)程。在這種情況下,發(fā)生兩件事,第一,差異性被引入下一個(gè)推薦循環(huán)。以及第二,在下一個(gè)推薦循環(huán)的新事件選擇期間,考慮這些候選事件與拒絕事件的相異性。系統(tǒng)優(yōu)先選擇不僅與查詢相似的并且與拒絕事件不相似的事件。這通過(guò)使用以下等式1給出的公式來(lái)實(shí)現(xiàn),其中c是候選事件,Cp是當(dāng)前優(yōu)選事件,以及C’是一組k-1個(gè)拒絕事件。
SimDissim(c,cp,C′)=Sim(c,cp)+Σ∀a∈C(1-Sim(c,ci))K---(1)]]>下面闡述用于實(shí)現(xiàn)方法1的步驟3、7、8和9的算法。
1、定義ItemRecommend(q,CB,k,ip,ip-1)2、開(kāi)始3、如果(ip!=null)&&(ip==ip-1)4、R’←ReFocus(q,CB,k-1)5、否則6、R’←ReFine(q,CB,k-1)7、R←R’+ip8、返回R9、結(jié)束10、定義ReFine(q,CB,k)11、開(kāi)始12、CB’←sort CB in decreasing order of their sim to q13、R←top k items in CB’14、返回R15、結(jié)束16、定義ReFocus(q,CB,k,ip,ip-1)17、開(kāi)始18、α=0.5CB’←sort CB in decreasing order acc to Equation 220、返回BounderGreedySelection(q,CB,k,b,α)21、結(jié)束該算法中的分量利用基于偏愛(ài)的反饋在基于比較的推薦中實(shí)現(xiàn)自適應(yīng)選擇。ItemRecommend函數(shù)首先必須檢查是否用戶已經(jīng)選擇得到的偏愛(ài)事件(ip-1)作為它們的偏愛(ài)(例如,ip-1=ip),如果是,則Refocus函數(shù)被調(diào)用來(lái)在下一個(gè)循環(huán)中選擇一組k-1個(gè)不同的事件(步驟8);它們?cè)谙乱粋€(gè)循環(huán)中被添加到偏愛(ài)事件,以構(gòu)成k個(gè)事件。另一方面,如果沒(méi)有選擇得到的偏愛(ài)(例如,ip-1≠ip),則Refine函數(shù)被調(diào)用(步驟9),以幫助推薦系統(tǒng)位于最近偏愛(ài)的區(qū)域,來(lái)希望該區(qū)域被理想的目標(biāo)事件所占有。
限定貪婪(bounded greedy)技術(shù)涉及兩個(gè)基本的階段。第一,選擇對(duì)于查詢的bk個(gè)最相似的項(xiàng)(其中b通常為2到5之間的整數(shù))。在第二階段,遞增地構(gòu)建一組(R)選擇項(xiàng)。在該構(gòu)建的每個(gè)步驟,根據(jù)它們的品質(zhì),對(duì)bk項(xiàng)的剩余項(xiàng)進(jìn)行排序,以及最高品質(zhì)項(xiàng)被添加到R。項(xiàng)i的品質(zhì)與i和當(dāng)前查詢q之間的相似性成正比,以及與相對(duì)于迄今所選擇那些項(xiàng)的I的差異性成正比,R=[r1,...,rm];見(jiàn)等式2&3。
Quality(q,i,R)=α*SIM(q,i)+(1-α)*Div(i,R)(2)Div(i,R)=lifR={};]]> 根據(jù)在步驟4中用戶提供反饋,上面的描述簡(jiǎn)要地提及了“評(píng)論”。這是這樣一種反饋形式,它表示可能被稱為特定項(xiàng)特征上的方向反饋。每個(gè)評(píng)論或者調(diào)節(jié)是對(duì)特定特征的值空間的限定。例如,用戶可能指出他們正在尋找便宜的餐館或者更正式的環(huán)境。存在兩個(gè)單獨(dú)的調(diào)節(jié)前者是在價(jià)格特征上以及后者是在環(huán)境特征上。評(píng)論的優(yōu)點(diǎn)是用戶不需要提供對(duì)于特征的特定值信息,同時(shí)幫助推薦系統(tǒng)極大地縮小它的搜索聚焦。
動(dòng)態(tài)組合評(píng)論每個(gè)推薦會(huì)話由如步驟2的初始用戶查詢啟動(dòng),并且這將導(dǎo)致在第一推薦循環(huán)中可利用的最相似事件的檢索。用戶將有機(jī)會(huì)接受該事件,由此在步驟6結(jié)束該推薦會(huì)話,或者評(píng)論該事件。當(dāng)他們?cè)u(píng)論該事件時(shí),討論中的評(píng)論用作對(duì)剩余事件的過(guò)濾器,并且在下一個(gè)循環(huán)所選擇的偏愛(ài)事件是與該評(píng)論相匹配并且與前一個(gè)推薦事件最大相似的事件。
為了評(píng)論事件,用戶將被呈現(xiàn)具有一反饋結(jié)構(gòu),包括單個(gè)特征(單元)評(píng)論范圍加上因?yàn)樗鼈兡軌蚓?xì)選擇剩余事件而選擇的一組組合評(píng)論。我們將我們的方法稱作動(dòng)態(tài)評(píng)論。單元評(píng)論允許用戶指定單個(gè)特征的范圍(例如攝像機(jī)的分辨率范圍)。組合評(píng)論是在一個(gè)單元中兩個(gè)或者多個(gè)特征的組合,并且提供用戶選擇組合評(píng)論的機(jī)會(huì)。一個(gè)例子是“更小的內(nèi)存和更低的分辨率和更便宜是/否”。
這允許會(huì)話式推薦系統(tǒng)按照動(dòng)態(tài)方式產(chǎn)生用于用戶反饋的新的機(jī)會(huì)?;旧希诿總€(gè)循環(huán)期間,系統(tǒng)察看保持和識(shí)別有特征組的事件,它們被分組在一起,并且被呈現(xiàn)給用戶,作為最佳反饋形式。它通過(guò)執(zhí)行數(shù)據(jù)挖掘處理發(fā)現(xiàn)這些特征組。
評(píng)論模式讓我們假設(shè)推薦系統(tǒng)當(dāng)前正用于與用戶的推薦會(huì)話,以及新的事件已經(jīng)被返回作為當(dāng)前循環(huán)的一部分??梢詫⒈4嬖谑录?kù)中每個(gè)事件與該新的事件進(jìn)行比較,以產(chǎn)生評(píng)論模式。該模式基本上根據(jù)單元評(píng)論改變(recast)事件庫(kù)中的每個(gè)事件,其中當(dāng)與當(dāng)前事件進(jìn)行比較時(shí),所述單元評(píng)論應(yīng)用于它的特征的每一個(gè)。
下面的表1借助于實(shí)例描述了這個(gè)。它顯示了已經(jīng)被選擇用于推薦給用戶作為當(dāng)前循環(huán)的一部分的當(dāng)前事件,并且該當(dāng)前事件也是來(lái)自事件庫(kù)的事件。當(dāng)前事件描述了一個(gè)1.4GHz的臺(tái)式PC,具有512Mb的RAM,12”顯示器以及30Gb硬盤,價(jià)格為3000歐。產(chǎn)生的評(píng)論模式根據(jù)各個(gè)特征評(píng)論反映了這兩個(gè)事件之間的差別。例如,所示的評(píng)論模式包括用于處理器速度的“<”評(píng)論-我們稱這為[速度<]-因?yàn)楸容^事件具有比當(dāng)前推薦的時(shí)間更低的處理器。類似地,該模式包括評(píng)論[價(jià)格>],因?yàn)楸容^事件比當(dāng)前事件更貴。這樣,在搜尋處理之前,以及在當(dāng)前循環(huán)選擇事件之后,必須相對(duì)于當(dāng)前事件對(duì)于事件庫(kù)中的每個(gè)事件產(chǎn)生評(píng)論模式。這種模式用作組合評(píng)論的源。
表1
搜尋組合評(píng)論系統(tǒng)通過(guò)識(shí)別在評(píng)論模式的潛在大集合(模式庫(kù))中的有用的重復(fù)評(píng)論子組來(lái)利用組合評(píng)論。特定子組趨向于在整個(gè)模式庫(kù)上重復(fù)。例如,50%的剩余事件可以具有比當(dāng)前事件較小的屏幕尺寸,但是較大的硬盤尺寸,即50%評(píng)論模式包含子模式[顯示器<]和[硬盤>]。如果該評(píng)論應(yīng)用于用戶-如果它們實(shí)際上正在尋找較小的屏幕和較大的硬盤,則它的應(yīng)用將馬上過(guò)濾掉剩余事件的一半,這樣,在下一循環(huán)期間,更好地聚焦用于合適事件的搜索。大概,構(gòu)成該組合評(píng)論的單個(gè)評(píng)論都沒(méi)有對(duì)它們自己運(yùn)用相同的識(shí)別能力。
系統(tǒng)找到頻繁地一起發(fā)生的一組評(píng)論。這是一個(gè)挑戰(zhàn)性的任務(wù),主要是因?yàn)樯婕暗慕M合典型的超級(jí)市場(chǎng)將具有幾千個(gè)不同的產(chǎn)品,這在多個(gè)可能的重現(xiàn)項(xiàng)組中可以導(dǎo)致組合爆炸。在上述評(píng)論情景下這個(gè)問(wèn)題不是如此尖銳,因?yàn)閮H僅存在有限數(shù)量的可能的評(píng)論。例如,每個(gè)數(shù)量特征可以具有<或者>的評(píng)論,以及每個(gè)名詞特征可以具有=或者!=的評(píng)論特征,這樣在由n個(gè)單個(gè)特征構(gòu)成的事件庫(kù)中僅僅具有2n個(gè)可能的評(píng)論。為了處理更復(fù)雜的情況,系統(tǒng)對(duì)于待檢查的可能的組合評(píng)論執(zhí)行有效算法。一個(gè)如此算法是Apriori算法,其表征這些重復(fù)項(xiàng)子組作為形式A→B的關(guān)聯(lián)規(guī)則-從特定評(píng)論子組的存在,它能夠推出某些其它評(píng)論的存在。例如,一個(gè)人可能知道,從評(píng)論[顯示器<],我們能夠以高的幾率推出[硬盤>]的存在;換句話說(shuō),模式[顯示器<],[硬盤>]是平常的。
Apriori根據(jù)規(guī)則的支持度和置信度來(lái)測(cè)量規(guī)則的重要性。規(guī)則A→B的支持度是規(guī)則正確的模式的百分比,即,包含A和B的模式數(shù)量除以模式總數(shù)。另一方面,置信度是規(guī)則是正確的模式數(shù)量相對(duì)于規(guī)則是可適用的模式數(shù)量的度量,即包含A和B的模式的數(shù)量除以包含A的模式的數(shù)量。例如,我們將發(fā)現(xiàn)如果存在總共100個(gè)評(píng)論模式但是僅僅它們中的10個(gè)包含模式[顯示器<]和[硬盤>],則規(guī)則[顯示器<]→[硬盤>]具有0.1的支持度。類似地,如果評(píng)論模式中的25個(gè)包含僅僅[顯示器<],則該規(guī)則的置信度將為0.4。Apriori是一個(gè)多過(guò)程算法,其中,在第k個(gè)過(guò)程中,計(jì)算基數(shù)k的所有大的項(xiàng)組。開(kāi)始,確定頻繁的項(xiàng)組。這些是具有較少預(yù)定最小支持度的項(xiàng)組。然后,在每個(gè)新的過(guò)程中,擴(kuò)展超出最小支持度閾值的那些項(xiàng)組。
在步驟3的每個(gè)推薦循環(huán)期間,系統(tǒng)使用Apriori來(lái)產(chǎn)生組合評(píng)論集(在模式庫(kù)上的頻繁的項(xiàng)組),用于步驟4的用戶反饋。然后,它選擇這些組合評(píng)論的一個(gè)子組,使得它們可以呈現(xiàn)給用戶作為評(píng)論選項(xiàng)。
對(duì)組合評(píng)論進(jìn)行分級(jí)在任何特定的循環(huán),可以搜尋各種尺寸的大量組合評(píng)論。但是,將它們中的所有都呈現(xiàn)給用戶是不可行的,于是系統(tǒng)選擇一個(gè)選擇的子組。它所選擇那個(gè)子組可能在組合評(píng)論可以證明在較少會(huì)話長(zhǎng)度上是成功的程度上具有大的意義。在這方面,存在兩個(gè)主要的標(biāo)準(zhǔn)。
它呈現(xiàn)可能適用于用戶的組合評(píng)論,使得它們可能在它們的目標(biāo)事件方向上限制剩余事件。按照這種方式,存在這些組合評(píng)論將被在任何單元評(píng)論上選擇的好機(jī)會(huì)。
它呈現(xiàn)將過(guò)濾掉大量事件(減少搜索空間)的組合評(píng)論,使得存在目標(biāo)事件在下一循環(huán)被檢索的更大機(jī)會(huì)。
關(guān)于這些標(biāo)準(zhǔn)的第一個(gè),可能的是,目標(biāo)事件的某些特征可以從前一個(gè)循環(huán)提供的反饋中推斷出來(lái)。例如,如果用戶可靠地查詢較便宜的PC,則包括[價(jià)格<]可能是好的選擇。第二標(biāo)準(zhǔn)對(duì)于地址是較直率的。組合的評(píng)論的支持度是用于過(guò)濾幾個(gè)或者許多事件的能力的直接度量。具有較低支持度值的組合評(píng)論意味著它按照小比例的評(píng)論模式存在,這樣,它僅僅適用于幾個(gè)剩余事件。如果使用,則因此評(píng)論可以將許多事件從考慮中刪除。
存在支持度作為用于組合評(píng)論的分級(jí)度量的使用與它影響上述標(biāo)準(zhǔn)的方式之間的沖突(tension)。雖然低支持度的評(píng)論將消除許多事件,但是這些評(píng)論大概很少可能導(dǎo)致目標(biāo)事件,所有的事情都是平等的。優(yōu)選高支持度的評(píng)論將增加該評(píng)論導(dǎo)致目標(biāo)事件的機(jī)會(huì),但是這些評(píng)論不會(huì)將許多事件從考慮中去除。
參考圖2和圖3,利用用于從在線數(shù)字?jǐn)z像機(jī)商店購(gòu)買數(shù)字?jǐn)z像機(jī)的兩個(gè)屏幕截圖系列來(lái)描述動(dòng)態(tài)評(píng)論。屏幕截圖表示了一序列推薦循環(huán),以及,在每一個(gè)中,我們看到當(dāng)前偏愛(ài)的事件,一組八個(gè)評(píng)論加上一組三個(gè)組合評(píng)論以及它們相關(guān)聯(lián)的解釋。每個(gè)組合評(píng)論被翻譯成英語(yǔ)解釋,并且直接被選擇(經(jīng)由“挑選(pick)”選項(xiàng))或者被進(jìn)一步解釋(經(jīng)由“解釋(explain)”選項(xiàng))。
在用戶提供了一些初始信息之后,他們被呈現(xiàn)具有995歐的高清攝像機(jī),具有512Mb的內(nèi)存以及x7光學(xué)變焦。用戶可以通過(guò)選擇在被顯示用于當(dāng)前攝像機(jī)的特征值字段任意一側(cè)上的合適評(píng)論圖標(biāo)來(lái)評(píng)論任何單個(gè)特征,例如制造商、光學(xué)變焦、或者內(nèi)存。向上箭頭表示一個(gè)較大的評(píng)論,向下箭頭表示較小的評(píng)論,以及叉號(hào)表示不等于評(píng)論。另外,僅僅在這些特征下面,顯示三個(gè)組合評(píng)論,并且用戶可以選擇直接應(yīng)用的三個(gè)中的一個(gè)(“pick”選項(xiàng))或者它們可以經(jīng)由“explain”選項(xiàng)來(lái)請(qǐng)求更詳細(xì)的解釋。在特征值右側(cè)的板上呈現(xiàn)該解釋,并且缺省是第一組合評(píng)論的解釋。
例如,在圖3中,用戶要求對(duì)第三組合評(píng)論的進(jìn)一步解釋(“不同的制造商、較低的分辨率和較便宜”)。產(chǎn)生解釋告訴用戶存在滿足該評(píng)論的87個(gè)剩余攝像機(jī),即與當(dāng)前推薦的攝像據(jù)相比,有87個(gè)攝像機(jī)更便宜,具有較低的分辨率以及由不同的制造商制造。另外,該解釋提供關(guān)于這些評(píng)論特征的值范圍的信息。例如,用戶被告訴這87個(gè)攝像機(jī)由指定的制造商制造,它們具有從1.4到4.8百萬(wàn)像素的分辨率,以及它們的價(jià)格范圍為125到399歐。組合評(píng)論對(duì)于進(jìn)行解釋扮演了很有價(jià)值的角色。組合評(píng)論通過(guò)幫助用戶理解特征之間的共同相互作用來(lái)幫助用戶更好的理解超出當(dāng)前循環(huán)的推薦機(jī)會(huì)。我們相信,在許多推薦域中,其中用于可能具有關(guān)于特征空間的更精細(xì)細(xì)節(jié)的不完全知識(shí),組合評(píng)論將幫助有效地映射這個(gè)空間,為此,我們相信,用戶將真正地發(fā)現(xiàn)與單位評(píng)論相比,利用組合評(píng)論及其相關(guān)聯(lián)的解釋很容易工作,以及例如,這可以幫助用于犯較少的評(píng)論錯(cuò)誤。例如,利用在數(shù)字?jǐn)z像機(jī)域中的標(biāo)準(zhǔn)評(píng)論,用戶可能天真地以錯(cuò)誤的信念來(lái)選擇[價(jià)格<]的單位評(píng)論。但是,按照這種方式減少價(jià)格可能導(dǎo)致用戶發(fā)現(xiàn)不可能的分辨率減少,以及因此,他們將不得不返回。如果提供組合評(píng)論{[價(jià)格<],[分辨率<]\},則該問(wèn)題很少可能發(fā)生,因?yàn)橛脩魧⒗斫庠谶x擇任何評(píng)論之前價(jià)格下降的含義。
實(shí)驗(yàn)設(shè)置算法。我們希望測(cè)試三個(gè)基本的會(huì)話型推薦策略(1)SIM-用作基準(zhǔn)的純粹的基于相似性的推薦系統(tǒng);(2)DIV-采用上述相同增強(qiáng)差異性技術(shù)的推薦系統(tǒng);以及(3)AS-采用圖1的自適應(yīng)選擇技術(shù)的等效推薦系統(tǒng)。另外,我們希望使用兩種不同類型的用戶反饋測(cè)試這些推薦系統(tǒng)基于偏愛(ài)的反饋和評(píng)論。這給出了六種不同的待測(cè)試推薦系統(tǒng)-利用基于偏愛(ài)的反饋的SIM、DIV和AS以及利用評(píng)論的SIM、DIV和AS,每個(gè)使用基于比較的推薦構(gòu)架來(lái)實(shí)現(xiàn)。
數(shù)據(jù)組旅行事件庫(kù)包括了1024個(gè)事件,每個(gè)描述了根據(jù)例如位置、時(shí)間段、住宿、價(jià)格等特征的特定休假。一個(gè)威士忌事件庫(kù)包括一組552個(gè)事件,每個(gè)描述了根據(jù)例如釀酒廠、年齡、防偽、甜度、香味、完成等特征的蘇格蘭威士忌。
方法使用留一(leave-one-out)法,按照兩種方式暫時(shí)移走和使用事件庫(kù)中的每個(gè)事件。首先,它用作通過(guò)隨機(jī)提取項(xiàng)特征子組構(gòu)造的一組查詢的基礎(chǔ)。這里,對(duì)于不同的查詢,提取不同數(shù)量的特征,以及通常,具有較多特征的查詢比具有較少特征的查詢更容易得到結(jié)果。第二,我們選擇與原始庫(kù)最相似的事件。這些事件用作實(shí)驗(yàn)的推薦目標(biāo)。這樣,庫(kù)代表了用戶的理想查詢,所產(chǎn)生的查詢是用戶提供給推薦系統(tǒng)的初始查詢,并且目標(biāo)是基于用戶理想的對(duì)于用戶最可利用的事件,以及在每個(gè)推薦循環(huán),用戶的偏愛(ài)被假設(shè)為與已知目標(biāo)事件最相似的事件。根據(jù)適當(dāng)情況,基于偏愛(ài)或者評(píng)論被在每個(gè)循環(huán)用于優(yōu)選的事件。最后,在我們的評(píng)估中,我們?cè)O(shè)置推薦窗戶尺寸k為3,是期望購(gòu)物者在之間決定的最合適的項(xiàng)數(shù)。
測(cè)試查詢對(duì)于每個(gè)數(shù)據(jù)組,產(chǎn)生三個(gè)不同的查詢組,具有不同的難度(容易、中等、困難)。困難是基于SIM利用基于偏愛(ài)的反饋所要求的循環(huán)數(shù)。
推薦效率也許,會(huì)話型推薦系統(tǒng)最基本的測(cè)試涉及它的推薦效率;即,用于常用查詢的推薦對(duì)象的長(zhǎng)度。根據(jù)會(huì)話期間循環(huán)的數(shù)量或者所提供的唯一事件的數(shù)量來(lái)度量會(huì)話長(zhǎng)度。這樣,為了測(cè)試推薦效率,從對(duì)于三個(gè)推薦系統(tǒng)的數(shù)據(jù)組和循環(huán)的平均數(shù)量,上述留一法被用于每個(gè)查詢,以及測(cè)量呈現(xiàn)給用戶的唯一項(xiàng)。
結(jié)果。對(duì)于旅行和威士忌的結(jié)果分別被概括在圖4和5中。在每個(gè)事件中,圖(a)和(b)與基于偏愛(ài)的反饋有關(guān),而(c)和(d)與評(píng)論有關(guān)。圖(b)和(d)根據(jù)唯一事件測(cè)量效率-因?yàn)榭臻g原因省略循環(huán)數(shù)據(jù)-但是圖(a)和(c)包括根據(jù)DIV和AS方法相對(duì)于SIM基準(zhǔn)所享用的百分比利益的唯一事件和循環(huán)信息。
分析通過(guò)這些結(jié)構(gòu)來(lái)澄清多個(gè)問(wèn)題。首先,與SIM比較,對(duì)于兩種反饋類型,在所有查詢類型上,在兩個(gè)數(shù)據(jù)組中,DIV和AS具有很大的效率好處。例如,在旅行中使用基于偏愛(ài)的反饋,對(duì)于適中查詢,SIM方法在找到目標(biāo)之前將平均大約100個(gè)唯一事件呈現(xiàn)給用戶。相比較,DIV方法要求大約53個(gè)事件以及AS方法要求僅僅24個(gè)事件。使用在旅行中的評(píng)論,對(duì)于SIM、DIV和AS等效的結(jié)果分別是40、35和19。圖4顯示了對(duì)于利用DIV的旅行的相應(yīng)的相對(duì)好處,相對(duì)于SIM,體驗(yàn)了利用基于偏愛(ài)的反饋的47%的唯一事件減少,而對(duì)于評(píng)論減少了13%。但是,相對(duì)于SIM,AS體驗(yàn)了相應(yīng)的76%和53%的減少;根據(jù)循環(huán)減少,提供類似的好處。對(duì)于威士忌數(shù)據(jù)組,比較結(jié)果也被呈現(xiàn)在圖4(a-c)中。
這些結(jié)果描述引入差異性到會(huì)話型推薦系統(tǒng)中的好處,但是它們也顯示了與AS相比較,直接的DIV方法是次優(yōu)選的。的確,在兩個(gè)數(shù)據(jù)組中,當(dāng)使用DIV方法時(shí),采用評(píng)論的推薦系統(tǒng)僅僅享受到有限的效率改進(jìn)(<26%)。相比較,本發(fā)明的AS方法顯示了更大的效率優(yōu)勢(shì),實(shí)現(xiàn)了對(duì)于基于偏愛(ài)反饋在兩個(gè)數(shù)據(jù)組中超過(guò)75%(根據(jù)唯一事件)的最大效率改進(jìn),以及對(duì)于評(píng)論在兩個(gè)數(shù)據(jù)中達(dá)到60%。應(yīng)當(dāng)注意,在兩個(gè)數(shù)據(jù)組中以及使用兩類反饋,相對(duì)于SIM,由DIV和AS所具有的效率好處通常如何隨著查詢難度增加。
偏愛(ài)容差上述評(píng)估假設(shè)當(dāng)用戶選擇了預(yù)先確定的事件時(shí)推薦會(huì)話結(jié)束。這與用戶找到一個(gè)非常特定的事件類似。在實(shí)際中,用戶在他們的接受標(biāo)準(zhǔn)上可能較靈活,常常容忍靠近但不是與他們的理想目標(biāo)精確匹配的事件。為了測(cè)試這個(gè),我們重復(fù)上述實(shí)驗(yàn),但是當(dāng)找到理想目標(biāo)時(shí)沒(méi)有終止推薦會(huì)話,但是一旦發(fā)現(xiàn)一個(gè)事件在目標(biāo)的特定類似性閾值內(nèi),結(jié)束它。我們測(cè)量相似性閾值在從60%到100%。100%對(duì)應(yīng)于會(huì)話利用最佳目標(biāo)事件而結(jié)束的上一個(gè)設(shè)置。
結(jié)果對(duì)于旅行和威士忌的結(jié)果分別被概括在圖6和7中,在每個(gè)圖中,曲線(a)和(b)與基于偏愛(ài)的反饋有關(guān),而(c)和(d)與評(píng)論相關(guān)。同樣,曲線僅僅提供了用于中等難度查詢的結(jié)果,用于簡(jiǎn)單和高級(jí)查詢的結(jié)果十分類似而被省略,同樣是為了節(jié)省空間的原因。
分析結(jié)果是清楚的。在較少嚴(yán)格的成功條件下,再次找到了DIV和AS相對(duì)于SIM所享有的性能優(yōu)勢(shì)。例如,在利用基于偏愛(ài)的反饋的旅行中,對(duì)于中等查詢,我們發(fā)現(xiàn)平均上,SIM期望用戶在60%相似閾值處找到大約61個(gè)唯一事件(相比較在100%閾值處大約100個(gè)事件)。相比較,在同樣條件下,DIV和AS分別要求用戶檢查僅僅31和18個(gè)事件(見(jiàn)圖6(a),代表了相對(duì)于SIM,對(duì)于DIV大約49%的減少和對(duì)于AS大約71%的減少。隨著相似性閾值的增加,用戶在找到滿意的一個(gè)之前必須檢查的唯一事件數(shù)目也增加,有趣的是,雖然由DIV享有的相對(duì)好處對(duì)于變化的相似閾值保持相對(duì)恒定,但我們發(fā)現(xiàn),AS好處隨著相似性閾值而增加。換句話說(shuō),用于改進(jìn)SIM(或者甚至DIV)效率的AS能力隨著成功標(biāo)準(zhǔn)變得更嚴(yán)格而增加。通過(guò)對(duì)于利用評(píng)論的旅行的等效結(jié)果,反映了利用基于偏愛(ài)的反饋的旅行這些結(jié)果(圖6(a-d)類似地,威士忌結(jié)果顯示了相似的模式(圖7(a-d)。
可以理解,本發(fā)明通過(guò)自動(dòng)確定增加選擇差異性的最好時(shí)間以及聚焦查詢相似性的最好時(shí)間來(lái)更有效地利用相似性和差異性。并且,我們已經(jīng)顯示了這種方法與現(xiàn)有的基于相似性的推薦系統(tǒng)以及同樣現(xiàn)有的增強(qiáng)差異性技術(shù)相比享有極大的性能改進(jìn)。例如,自適應(yīng)選擇可以將減少用戶必須檢查的唯一事件的數(shù)目,在基于偏愛(ài)的反饋的情況下達(dá)80%以及在評(píng)論的情況下達(dá)60%。
本發(fā)明并不局限于所描述的實(shí)施例,而是可以在結(jié)構(gòu)和細(xì)節(jié)上作出改變。
權(quán)利要求
1.一種檢索方法,該方法通過(guò)會(huì)話式推薦系統(tǒng)來(lái)執(zhí)行,該會(huì)話式推薦系統(tǒng)在檢索循環(huán)(3-9)中利用用戶反饋(4)來(lái)操作,以從數(shù)據(jù)庫(kù)中檢索事件,其中,在檢索會(huì)話的至少一個(gè)檢索循環(huán)中,該系統(tǒng)動(dòng)態(tài)地選擇(7)一個(gè)選擇機(jī)制(8,9)。
2.根據(jù)權(quán)利要求1的方法,其中,根據(jù)在相關(guān)循環(huán)中的用戶反饋(4)進(jìn)行所述動(dòng)態(tài)選擇(7)。
3.根據(jù)權(quán)利要求2的方法,其中,根據(jù)是否從前一個(gè)循環(huán)中得到了偏愛(ài)事件來(lái)進(jìn)行(7)所述選擇,并且用戶在當(dāng)前循環(huán)中再次優(yōu)先選擇同一事件。
4.根據(jù)權(quán)利要求3的方法,其中,如果指出了不同的偏愛(ài),則該系統(tǒng)選擇精細(xì)選擇機(jī)制(9);如果指出了相同的偏愛(ài),則該系統(tǒng)選擇用于實(shí)現(xiàn)差異性的重新聚焦選擇機(jī)制(8)。
5.根據(jù)權(quán)利要求4的方法,其中,該精細(xì)機(jī)制(9)基于相似性檢索,而不是差異性。
6.根據(jù)權(quán)利要求4或5的方法,其中,該重新聚焦機(jī)制(8)基于增強(qiáng)差異性的相似性檢索。
7.根據(jù)上述任意一個(gè)權(quán)利要求的方法,其中,該系統(tǒng)根據(jù)基于事件的推理來(lái)執(zhí)行檢索(3)。
8.根據(jù)權(quán)利要求3到7任意一個(gè)的方法,其中,該系統(tǒng)要求用戶通過(guò)指定期望的搜索特征值來(lái)提供反饋。
9.根據(jù)權(quán)利要求3到7任意一個(gè)的方法,其中,該系統(tǒng)要求用戶通過(guò)其中對(duì)于搜索特征指出值范圍的評(píng)論來(lái)間接地指出一個(gè)優(yōu)選事件。
10.根據(jù)權(quán)利要求9的方法,其中,該系統(tǒng)動(dòng)態(tài)地在每個(gè)會(huì)話循環(huán)產(chǎn)生用于用戶反饋的新的反饋結(jié)構(gòu)。
11.根據(jù)權(quán)利要求10的方法,該系統(tǒng)檢查保留在會(huì)話檢索空間中的事件,并且識(shí)別多組特征以及值范圍,以及自動(dòng)地將選項(xiàng)呈現(xiàn)給用戶,以指出這些特征和值范圍對(duì)于組合評(píng)論反饋的適合性。
12.根據(jù)權(quán)利要求11的方法,其中,該系統(tǒng)通過(guò)表征遞歸特征和范圍作為關(guān)聯(lián)規(guī)則A->B來(lái)動(dòng)態(tài)地選擇所述特征和值范圍,其中根據(jù)特征和值范圍A的存在,它可以推出其它特征和值范圍B的存在。
13.根據(jù)權(quán)利要求12的方法,其中,通過(guò)根據(jù)規(guī)則的支持度和置信度測(cè)量該規(guī)則重要性的處理來(lái)執(zhí)行轉(zhuǎn)換。
14.根據(jù)權(quán)利要求12或13的方法,其中,該系統(tǒng)產(chǎn)生多個(gè)候選組合評(píng)論,對(duì)它們進(jìn)行分級(jí),以及僅僅將具有較高等級(jí)的組合評(píng)論呈現(xiàn)給用戶。
15.根據(jù)權(quán)利要求14的方法,其中,根據(jù)對(duì)于用戶的適用性標(biāo)準(zhǔn)以及減少搜索空間的能力標(biāo)準(zhǔn)來(lái)對(duì)所述候選組合評(píng)論進(jìn)行分級(jí)。
16.根據(jù)權(quán)利要求11到15任意一個(gè)的方法,其中,該系統(tǒng)產(chǎn)生對(duì)于呈現(xiàn)給用戶的每個(gè)組合評(píng)論的解釋。
17.根據(jù)權(quán)利要求16的方法,其中,將用于選擇組合評(píng)論或者請(qǐng)求解釋的選項(xiàng)呈現(xiàn)給用戶。
18.一種推薦系統(tǒng),包括用于實(shí)現(xiàn)上述任意一個(gè)權(quán)利要求的方法的推薦系統(tǒng)操作的裝置。
19.一種計(jì)算機(jī)程序,包括指令,當(dāng)所述指令在數(shù)據(jù)處理系統(tǒng)上執(zhí)行時(shí),它們使得數(shù)據(jù)處理系統(tǒng)實(shí)施權(quán)利要求1到17任意一個(gè)的方法的推薦系統(tǒng)操作。
全文摘要
會(huì)話型推薦系統(tǒng)檢索k個(gè)事件(3)并且產(chǎn)生用于用戶反饋的結(jié)構(gòu)(4)。該結(jié)構(gòu)包括一列評(píng)論單元,對(duì)于每個(gè)評(píng)論單元,用戶指定值范圍。它也產(chǎn)生組合評(píng)論,每個(gè)是一起呈現(xiàn)的特征和值范圍的組合。響應(yīng)于用戶請(qǐng)求,可以產(chǎn)生組合評(píng)論的解釋。從一個(gè)會(huì)話循環(huán)到另一個(gè),系統(tǒng)確定(7)是否得到了偏愛(ài)。如果是,則在下一個(gè)循環(huán)中,實(shí)現(xiàn)差異性的重新聚焦功能被用于檢索。如果否,在會(huì)話的下一個(gè)循環(huán)中,實(shí)現(xiàn)基于相似性檢索的細(xì)化功能被使用。
文檔編號(hào)G06F17/30GK1839387SQ200480024232
公開(kāi)日2006年9月27日 申請(qǐng)日期2004年6月23日 優(yōu)先權(quán)日2003年6月23日
發(fā)明者巴里·史密斯, 洛蘭·麥金蒂 申請(qǐng)人:愛(ài)爾蘭都柏林國(guó)立大學(xué)-都柏林大學(xué)