本發(fā)明涉及個(gè)性化推薦技術(shù)領(lǐng)域,具體地,涉及一種基于共享賬戶乘客預(yù)測(cè)的機(jī)票個(gè)性化推薦方法。
背景技術(shù):
在當(dāng)今信息爆炸的時(shí)代,個(gè)性化推薦技術(shù)的主要目的是根據(jù)用戶的行為提取用戶的偏好,準(zhǔn)確高效地為用戶提供在獲取信息上的建議。個(gè)性化推薦能夠有效預(yù)見用戶的需求,減少用戶為獲取信息的成本開銷,使得交互過程更有效率并提升用戶體驗(yàn)。因此在包括電子商務(wù)、新聞門戶、多媒體等各種服務(wù)網(wǎng)站都有廣泛的應(yīng)用。每年還會(huì)有重大的推薦技術(shù)競(jìng)賽、學(xué)術(shù)會(huì)議等。個(gè)性化推薦已經(jīng)是互聯(lián)網(wǎng)時(shí)代不可缺少的技術(shù)。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展以及用戶信息的不斷完善,可以預(yù)見個(gè)性化推薦技術(shù)將有更加廣泛的應(yīng)用。
相比于電影、書籍等物品,機(jī)票具有更加結(jié)構(gòu)化與多變的特性,購票的主要形象因素包括航司、艙位等級(jí)、機(jī)型等。除此之外,機(jī)票的價(jià)格具有很強(qiáng)的時(shí)間敏感性,并且價(jià)格是影響用戶購票行為的重要因素。當(dāng)用在線訂購機(jī)票時(shí),往往可以取得數(shù)十至上百個(gè)候選結(jié)果,如果能夠?yàn)槊课挥脩敉扑]符合其偏好的機(jī)票,則能夠降低用戶的選擇成本,提升用戶體驗(yàn),同時(shí)有助于提升轉(zhuǎn)化率。為了有效獲取用戶偏好,最直接的途徑就是對(duì)用戶的歷史訂單進(jìn)行統(tǒng)計(jì)與分析。根據(jù)機(jī)票在線訂購流程,用戶需要選擇出行日期、出發(fā)地、目的地;并從候選結(jié)果列表中選定機(jī)票,最后再填寫出行身份信息。因此,購票賬戶與實(shí)際乘機(jī)人并非都是一對(duì)一的關(guān)系??赡軙?huì)存在乘機(jī)人共享的賬戶情況,即該賬戶會(huì)為幾名乘客購買機(jī)票,而這些乘客之間的偏好可能會(huì)有差異。如果能夠在用戶選定機(jī)票之前就預(yù)測(cè)出本次出行的乘機(jī)人,就可以細(xì)化推薦粒度,做出更具針對(duì)性的推薦。
技術(shù)實(shí)現(xiàn)要素:
針對(duì)現(xiàn)有技術(shù)中的缺陷,本發(fā)明的目的是提供一種基于共享賬戶乘客預(yù)測(cè)的機(jī)票個(gè)性化推薦方法。
根據(jù)本發(fā)明提供的基于共享賬戶乘客預(yù)測(cè)的機(jī)票個(gè)性化推薦方法,包括如下步驟:
步驟1:統(tǒng)計(jì)每個(gè)賬戶下的所有訂單,分析用戶在不同機(jī)票屬性上的偏好;并根據(jù)用戶歷史訂單計(jì)算用戶關(guān)于每個(gè)屬性所對(duì)應(yīng)的權(quán)重;
步驟2:根據(jù)賬戶歷史行為及當(dāng)次會(huì)話的上下文計(jì)算本次該賬戶下所有乘機(jī)人的概率分布;
步驟3:根據(jù)搜索結(jié)果與結(jié)合乘客預(yù)測(cè)的偏好模型的相似度按照從高到低進(jìn)行排序,將前K條結(jié)果推薦給用戶,K為正整數(shù)。
優(yōu)選地,所述步驟1包括:
步驟1.1:機(jī)票屬性離散化,根據(jù)業(yè)務(wù)經(jīng)驗(yàn)將機(jī)票的連續(xù)屬性變量劃分為離散的區(qū)間,其中:機(jī)票連續(xù)變量屬性包括:機(jī)票價(jià)格、起飛時(shí)間;機(jī)票的離散屬性包括:航司、艙等、機(jī)型、退改簽政策、出發(fā),到達(dá)機(jī)場(chǎng);一共8個(gè)屬性。
步驟1.2:根據(jù)歷史訂單統(tǒng)計(jì)用戶在機(jī)票各屬性上的偏好,每個(gè)屬性用一個(gè)向量表示,該向量對(duì)應(yīng)步驟1.1中離散化的結(jié)果,向量的值代表用戶選擇落在這個(gè)區(qū)間內(nèi)的頻數(shù);
步驟1.3:根據(jù)用戶的歷史行為獲取每位用戶相對(duì)于每個(gè)機(jī)票屬性對(duì)應(yīng)的權(quán)重值,不同屬性權(quán)重值的計(jì)算公式如下:
式中:H(X)表示每個(gè)屬性的信息熵,其中P(xi)代表對(duì)應(yīng)第i個(gè)離散區(qū)間的頻數(shù)占總數(shù)的比例,n表示總的區(qū)間數(shù),b取2;每個(gè)屬性計(jì)算出信息熵后,所有屬性的信息熵之和記為H,則每個(gè)屬性的權(quán)重W(X)的計(jì)算公式如下:
W(X)=[1-H(X)]/(N-H)
式中:N為屬性數(shù)量。具體地,本發(fā)明中N的值統(tǒng)一為8。
優(yōu)選地,所述步驟2包括:
步驟2.1:將每個(gè)賬戶下的所有訂單的歷史數(shù)據(jù)作為一份語料庫,其中,每條訂單對(duì)應(yīng)一篇文檔,訂單中機(jī)票的屬性特征對(duì)應(yīng)每個(gè)詞匯,乘機(jī)人對(duì)應(yīng)文檔的作者,訓(xùn)練作者主題模型;
步驟2.2:據(jù)用戶當(dāng)前會(huì)話中的上下文信息,利用作者主題模型計(jì)算每位乘機(jī)人的分布概率,根據(jù)分布概率對(duì)每位乘客的偏好進(jìn)行加權(quán)組合,得到針對(duì)性的推薦結(jié)果。
優(yōu)選地,作者主題模型[1]是LDA[2]模型的擴(kuò)展,把作者信息納入到文檔分析中去,從而能同時(shí)分析文檔結(jié)構(gòu)和作者的興趣程度。其主要思想是假定每個(gè)單詞屬于一個(gè)主題的同時(shí),也有一定概率屬于某個(gè)作者。
現(xiàn)有參考文獻(xiàn)如下:
[1]Mark,S.,Padhraic,S.,Michal,R.,Thomas,G.:Probabilistic Author topic Models for Information Discovery.In:Proceedings of ACM SigKDD conference knowledge discovery and data mining,306-315(2004)
[2]David,M.Blei.,Ng,Andrew.,Michael,I.Jordan.:Latent Dirichlet Allocation.In:Journal of Machine Learning Research,993–1022(2003)
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下的有益效果:
1、本發(fā)明中的方法充分考慮了在個(gè)性化推薦系統(tǒng)中普遍存在的用戶共享賬戶的情況,以及用戶之間的偏好的差異,提出一種在可獲得用戶身份信息的情景下,基于共享賬戶用戶預(yù)測(cè)的推薦方法;該推薦方法以乘機(jī)人的概率分布為基礎(chǔ),得到更具針對(duì)性的推薦結(jié)果。
2、本發(fā)明中的方法適用范圍廣,通用性強(qiáng),如需遷移到新的領(lǐng)域只需結(jié)合領(lǐng)域知識(shí)重新定義屬性特征,構(gòu)建基于用戶概率分布的復(fù)合偏好模型,就可以有效提升推薦效果。
附圖說明
通過閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
圖1為本發(fā)明提供的基于共享賬戶乘客預(yù)測(cè)的機(jī)票個(gè)性化推薦方法的流程示意圖。
具體實(shí)施方式
下面結(jié)合具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。以下實(shí)施例將有助于本領(lǐng)域的技術(shù)人員進(jìn)一步理解本發(fā)明,但不以任何形式限制本發(fā)明。應(yīng)當(dāng)指出的是,對(duì)本領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明構(gòu)思的前提下,還可以做出若干變化和改進(jìn)。這些都屬于本發(fā)明的保護(hù)范圍。
根據(jù)本發(fā)明提供的基于共享賬戶乘客預(yù)測(cè)的機(jī)票個(gè)性化推薦方法,包括如下步驟:
步驟1:統(tǒng)計(jì)每個(gè)賬戶下的所有訂單,分析用戶在不同機(jī)票屬性上的偏好;并根據(jù)用戶歷史訂單計(jì)算用戶關(guān)于每個(gè)屬性所對(duì)應(yīng)的權(quán)重;
步驟2:根據(jù)賬戶歷史行為及當(dāng)次會(huì)話的上下文計(jì)算本次該賬戶下所有乘機(jī)人的概率分布;
步驟3:根據(jù)搜索結(jié)果與結(jié)合乘客預(yù)測(cè)的偏好模型的相似度按照從高到低進(jìn)行排序,將前K條結(jié)果推薦給用戶,K為正整數(shù)。
所述步驟1包括:
步驟1.1:機(jī)票屬性離散化,根據(jù)業(yè)務(wù)經(jīng)驗(yàn)將機(jī)票的連續(xù)屬性變量劃分為離散的區(qū)間,其中:機(jī)票連續(xù)變量屬性包括:機(jī)票價(jià)格、起飛時(shí)間;機(jī)票的離散屬性包括:航司、艙等、機(jī)型、退改簽政策、出發(fā),到達(dá)機(jī)場(chǎng)。共8個(gè)屬性;
步驟1.2:根據(jù)歷史訂單統(tǒng)計(jì)用戶在機(jī)票各屬性上的偏好,每個(gè)屬性用一個(gè)向量表示,該向量對(duì)應(yīng)步驟1.1中離散化的結(jié)果,向量的值代表用戶選擇落在這個(gè)區(qū)間內(nèi)的頻數(shù);
步驟1.3:根據(jù)用戶的歷史行為獲取每位用戶相對(duì)于每個(gè)機(jī)票屬性對(duì)應(yīng)的權(quán)重值,不同屬性權(quán)重值的計(jì)算公式如下:
H(X)計(jì)算了每個(gè)屬性的信息熵,其中P(xi)代表該區(qū)間的頻數(shù)占總數(shù)的比例,b一般取2;每個(gè)屬性計(jì)算出信息熵后,所有屬性的信息熵之和記為H,則每個(gè)屬性的權(quán)重為:
W(X)=[1-H(X)]/(N-H)
其中N是屬性數(shù)量,本案件中統(tǒng)一為8
所述步驟2包括:
步驟2.1:將每個(gè)賬戶下的所有訂單的歷史數(shù)據(jù)作為一份語料庫,其中,每條訂單對(duì)應(yīng)一篇文檔,訂單中機(jī)票的屬性特征對(duì)應(yīng)每個(gè)詞匯,乘機(jī)人對(duì)應(yīng)文檔的作者,訓(xùn)練作者主題模型;
步驟2.2:據(jù)用戶當(dāng)前會(huì)話中的上下文信息,利用作者主題模型計(jì)算每位乘機(jī)人的分布概率,根據(jù)分布概率對(duì)每位乘客的偏好進(jìn)行加權(quán)組合,得到針對(duì)性的推薦結(jié)果。
作者主題模型[1]是LDA[2]模型的擴(kuò)展,把作者信息納入到文檔分析中去,從而能同時(shí)分析文檔結(jié)構(gòu)和作者的興趣程度。其主要思想是假定每個(gè)單詞屬于一個(gè)主題的同時(shí),也有一定概率屬于某個(gè)作者。
下面結(jié)合具體實(shí)施例對(duì)本發(fā)明的技術(shù)方案做詳細(xì)的說明。
如表1所示,列出了訂單數(shù)據(jù)包含的主要信息。第一行代表出行信息,主要包括出發(fā)地、目的地、以及出發(fā)日期等因素,這些因素在用戶進(jìn)行搜索操作時(shí)才能提供。對(duì)于擁有超過一個(gè)機(jī)場(chǎng)的城市,用戶還可能選擇目標(biāo)機(jī)場(chǎng)。第二行代表當(dāng)前會(huì)話的上下文信息,記錄當(dāng)次會(huì)話的登錄時(shí)間、登錄IP、地理位置信息以及用戶的搜索、篩選、點(diǎn)擊等行為。這些信息主要用于預(yù)測(cè)乘客概率分布。第三行代表用戶身份信息,包括賬戶信息和乘機(jī)人信息,這些信息用于標(biāo)識(shí)獨(dú)立用戶及每張訂單的實(shí)際乘機(jī)人??捎糜诔丝皖A(yù)測(cè)模型的訓(xùn)練。最后一行包括訂單信息,主要包括乘客偏好的屬性,用于偏好提取及乘客預(yù)測(cè)模型的訓(xùn)練。
表1機(jī)票訂單信息
如圖1所示,首先需要統(tǒng)計(jì)與分析用戶歷史訂單。首先闡述一般的機(jī)票個(gè)性化推薦方法。第一步根據(jù)用戶歷史數(shù)據(jù)構(gòu)建用戶偏好模型,偏好模型包括表1中出發(fā)時(shí)間、航司、價(jià)格等級(jí)、艙位、機(jī)型、退改簽政策等特征。此外,對(duì)于不同的用戶,這些屬性可能有不同的優(yōu)先級(jí)。這里計(jì)算用戶在每個(gè)屬性所做選擇的信息熵,信息熵表示信息的混亂程度,熵值越小代表用戶在這個(gè)屬性上的行為越一致,因此具有更加明顯的偏好。對(duì)于信息熵越小的屬性,我們賦予它越大的權(quán)重。偏好模型建立完成后,使用候選機(jī)票與模型進(jìn)行比較,相似度越高的條目越符合用戶的偏好,相似度的比較可以根據(jù)余弦值得出。最后將相似度最高的幾個(gè)條目推薦給用戶即可。
訂單數(shù)據(jù)還可以獲取乘客預(yù)測(cè)模型必須的語料(選擇的屬性特征)、作者(乘機(jī)人)??梢允褂媒鉀Q方案中提到的方法,根據(jù)既有信息訓(xùn)練出該賬戶的乘客預(yù)測(cè)模型。當(dāng)用戶進(jìn)行購票行為時(shí),不僅產(chǎn)出候選列表,還可以行為上下文信息。利用這些行為信息可以預(yù)測(cè)本次登錄的乘客概率分布,并以分布概率為權(quán)重調(diào)整偏好模型。調(diào)整后的模型同樣使用上述提到的方法進(jìn)行機(jī)票推薦。由于模型更具針對(duì)性,推薦效果得到一定程度上的改善。該方法同樣適用于具有相似業(yè)務(wù)流程的其他領(lǐng)域。
以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變化或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。在不沖突的情況下,本申請(qǐng)的實(shí)施例和實(shí)施例中的特征可以任意相互組合。