背景技術(shù):
1、本說(shuō)明書(shū)涉及處理例如在交換平臺(tái)上對(duì)信息的用戶(hù)查詢(xún),并且具體地涉及使用機(jī)器學(xué)習(xí)模型沿著計(jì)算圖形處理用戶(hù)查詢(xún)。
2、示例交換平臺(tái)使能最終用戶(hù)和提供方之間的商品、內(nèi)容和服務(wù)的交換。提供方可以在交換平臺(tái)上列出或提供他們的商品、內(nèi)容和服務(wù),并且最終用戶(hù)經(jīng)由交換平臺(tái)從提供方處獲得商品、內(nèi)容和服務(wù)。
3、強(qiáng)化學(xué)習(xí)系統(tǒng)可以部署在這樣的平臺(tái)中,以促進(jìn)平臺(tái)的各種操作,包括例如搜索和檢索信息,例如與平臺(tái)上提供的項(xiàng)目相關(guān)的信息。在強(qiáng)化學(xué)習(xí)系統(tǒng)中,代理通常通過(guò)執(zhí)行由強(qiáng)化學(xué)習(xí)系統(tǒng)響應(yīng)于接收表征環(huán)境當(dāng)前狀態(tài)的觀察而選擇的動(dòng)作來(lái)與環(huán)境交互。一些強(qiáng)化學(xué)習(xí)系統(tǒng)根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出,響應(yīng)于接收到給定的觀察,選擇將由代理執(zhí)行的動(dòng)作。
技術(shù)實(shí)現(xiàn)思路
1、本說(shuō)明書(shū)涉及使用機(jī)器學(xué)習(xí)模型在計(jì)算平臺(tái)上處理用戶(hù)查詢(xún)。更詳細(xì)地,本文描述的一些實(shí)現(xiàn)涉及在由強(qiáng)化學(xué)習(xí)技術(shù)輔助的計(jì)算圖形框架中的用戶(hù)查詢(xún)處理。這包括訓(xùn)練和使用強(qiáng)化模型來(lái)生成輸出數(shù)據(jù),該輸出數(shù)據(jù)包括對(duì)用戶(hù)輸入(例如,用戶(hù)查詢(xún))的一個(gè)或多個(gè)預(yù)測(cè)。例如,在交換平臺(tái)的上下文中,預(yù)測(cè)可以包括對(duì)應(yīng)于用戶(hù)查詢(xún)的項(xiàng)目列表。此外,本文描述的實(shí)施例之一部署基于隱式用戶(hù)反饋信息制定的隨機(jī)游走(random?walk)采樣技術(shù),并且在表示查詢(xún)-列表關(guān)系的計(jì)算圖形上執(zhí)行隨機(jī)游走采樣,以生成連接查詢(xún)節(jié)點(diǎn)(或初始節(jié)點(diǎn))和列表節(jié)點(diǎn)(或端節(jié)點(diǎn))的多個(gè)候選軌跡。
2、本說(shuō)明書(shū)中描述的主題的特定實(shí)施例可以被實(shí)現(xiàn)以獲得以下優(yōu)點(diǎn)中的一個(gè)或多個(gè)。例如,本說(shuō)明書(shū)中描述的創(chuàng)新提高了用于處理用戶(hù)查詢(xún)的準(zhǔn)確性。使用強(qiáng)化學(xué)習(xí)模型,當(dāng)使用計(jì)算圖形處理用戶(hù)查詢(xún)時(shí),系統(tǒng)可以將歷史數(shù)據(jù)作為上下文注入。此外,系統(tǒng)可以基于消極交互來(lái)偏置用于有向邊的權(quán)重值,與僅考慮積極交互的技術(shù)相比,這進(jìn)一步提高了準(zhǔn)確性。在本文檔中,積極交互包括點(diǎn)擊、添加到購(gòu)物車(chē)(cart)、購(gòu)買(mǎi)列表中的項(xiàng)目或表達(dá)對(duì)項(xiàng)目感興趣的任何其他交互,而消極交互包括滾動(dòng)通過(guò)或指示對(duì)項(xiàng)目的列表缺乏興趣。系統(tǒng)還包括用于采樣隨機(jī)游走的評(píng)分函數(shù),其中該評(píng)分函數(shù)是基于相鄰節(jié)點(diǎn)之間的類(lèi)似性度量來(lái)確定的。在強(qiáng)化學(xué)習(xí)技術(shù)的上下文內(nèi),從更準(zhǔn)確的評(píng)分函數(shù)獲得的分?jǐn)?shù)可以提高訓(xùn)練對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)模型的效率和準(zhǔn)確性。這樣,系統(tǒng)可以減少或避免計(jì)算圖形中不同節(jié)點(diǎn)群的不準(zhǔn)確預(yù)測(cè)。
3、此外,本說(shuō)明書(shū)中描述的技術(shù)可以提高處理用戶(hù)查詢(xún)的效率。執(zhí)行所訓(xùn)練的強(qiáng)化學(xué)習(xí)模型的操作通常在計(jì)算上是有效的。與具有大量模型參數(shù)和/或用于在推理操作期間預(yù)測(cè)動(dòng)作的非線性操作的強(qiáng)化學(xué)習(xí)模型的訓(xùn)練策略函數(shù)相比,使用轉(zhuǎn)移矩陣來(lái)預(yù)測(cè)沿著對(duì)應(yīng)邊的節(jié)點(diǎn)間轉(zhuǎn)移可以顯著降低計(jì)算成本。
4、在一些實(shí)現(xiàn)中,本文描述的技術(shù)可以利用蒙特卡羅值函數(shù)來(lái)生成從初始節(jié)點(diǎn)到端節(jié)點(diǎn)的軌跡,所述軌跡比由現(xiàn)有技術(shù)生成的軌跡相對(duì)更短。以這種方式,本文描述的技術(shù)通過(guò)執(zhí)行更少的計(jì)算步驟來(lái)促進(jìn)響應(yīng)于用戶(hù)查詢(xún)而提供與端節(jié)點(diǎn)相關(guān)聯(lián)的數(shù)據(jù)。
5、此外,如下面結(jié)合一個(gè)實(shí)施例所描述的,通過(guò)使用隱式用戶(hù)反饋(例如,用戶(hù)對(duì)對(duì)應(yīng)于先前查詢(xún)的先前生成的輸出列表的反應(yīng))部署特定的隨機(jī)游走采樣算法,所描述的技術(shù)進(jìn)一步增強(qiáng)了訓(xùn)練和使用訓(xùn)練模型來(lái)處理用戶(hù)查詢(xún)的效率。通常,本文描述的系統(tǒng)可以通過(guò)將特定的項(xiàng)目列表與有向計(jì)算圖形中的諸如商店和標(biāo)簽之類(lèi)的形成屬性聯(lián)系來(lái)緩解在一般采樣技術(shù)中常見(jiàn)的冷啟動(dòng)問(wèn)題。此外,系統(tǒng)可以通過(guò)將隱式用戶(hù)反饋結(jié)合到有向計(jì)算圖形的初始邊權(quán)重(以及最終從多個(gè)潛在邊隨機(jī)游走采樣的初始概率分布)中來(lái)進(jìn)一步幫助冷啟動(dòng)問(wèn)題。此外,可以在訓(xùn)練過(guò)程期間使用強(qiáng)化訓(xùn)練技術(shù)來(lái)更新初始邊權(quán)重,并且更新的邊權(quán)重可以離線存儲(chǔ)在存儲(chǔ)器中。所訓(xùn)練的隨機(jī)采樣權(quán)重用于生成用于處理用戶(hù)查詢(xún)的隨機(jī)游走樣本。這樣,系統(tǒng)可以在諸如圖形神經(jīng)網(wǎng)絡(luò)之類(lèi)的傳統(tǒng)技術(shù)的一部分中使用所描述的技術(shù)來(lái)訓(xùn)練或執(zhí)行針對(duì)輸入用戶(hù)查詢(xún)的推理操作,并且對(duì)于數(shù)十億個(gè)節(jié)點(diǎn)和數(shù)百億條邊的計(jì)算圖形來(lái)說(shuō)是可縮放的和高效的。
6、本說(shuō)明書(shū)中描述的主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在附圖和以下描述中闡述。根據(jù)說(shuō)明書(shū)、附圖和權(quán)利要求書(shū),本主題的其他特征、方面和優(yōu)點(diǎn)將變得顯而易見(jiàn)。
1.一種用于訓(xùn)練強(qiáng)化學(xué)習(xí)模型的方法,包括:
2.如權(quán)利要求1所述的方法,其中,基于所確定的價(jià)值函數(shù)來(lái)處理用戶(hù)查詢(xún)包括:
3.如權(quán)利要求1所述的方法,其中,更新對(duì)于該節(jié)點(diǎn)的所述強(qiáng)化學(xué)習(xí)模型的所述價(jià)值函數(shù)還包括:
4.如權(quán)利要求1所述的方法,還包括確定從該節(jié)點(diǎn)開(kāi)始并連接后續(xù)節(jié)點(diǎn)的所述相應(yīng)有向邊,其中所述確定包括:
5.如權(quán)利要求4所述的方法,其中,更新對(duì)于該節(jié)點(diǎn)的所述強(qiáng)化學(xué)習(xí)模型的所述價(jià)值函數(shù)還包括:
6.如權(quán)利要求5所述的方法,其中,所述評(píng)分函數(shù)基于與所采樣的隨機(jī)游走相關(guān)聯(lián)的所述相應(yīng)后續(xù)節(jié)點(diǎn)和該節(jié)點(diǎn)之間的類(lèi)似性度量。
7.如權(quán)利要求2所述的方法,其中,確定所述特定軌跡包括確定所述特定軌跡中有向邊的序列,其中所述序列中的每個(gè)有向邊由操作來(lái)確定,所述操作包括:對(duì)于不是所述特定軌跡中的所述端節(jié)點(diǎn)的每個(gè)節(jié)點(diǎn):
8.一種系統(tǒng),包括:
9.如權(quán)利要求8所述的系統(tǒng),其中,基于所確定的價(jià)值函數(shù)來(lái)處理用戶(hù)查詢(xún)包括:
10.如權(quán)利要求8所述的系統(tǒng),其中,更新對(duì)于該節(jié)點(diǎn)的所述強(qiáng)化學(xué)習(xí)模型的所述價(jià)值函數(shù)還包括:
11.如權(quán)利要求8所述的系統(tǒng),其中,所述操作還包括:確定從該節(jié)點(diǎn)開(kāi)始并連接后續(xù)節(jié)點(diǎn)的所述相應(yīng)有向邊,其中所述確定包括:
12.如權(quán)利要求11所述的系統(tǒng),其中,更新對(duì)于該節(jié)點(diǎn)的所述強(qiáng)化學(xué)習(xí)模型的所述價(jià)值函數(shù)還包括:
13.如權(quán)利要求12所述的系統(tǒng),其中,所述評(píng)分函數(shù)基于與所采樣的隨機(jī)游走相關(guān)聯(lián)的所述相應(yīng)后續(xù)節(jié)點(diǎn)和該節(jié)點(diǎn)之間的類(lèi)似性度量。
14.如權(quán)利要求9所述的系統(tǒng),其中,確定所述特定軌跡包括確定所述特定軌跡中有向邊的序列,其中所述序列中的每個(gè)有向邊由操作來(lái)確定,所述操作包括:對(duì)于不是所述特定軌跡中的所述端節(jié)點(diǎn)的每個(gè)節(jié)點(diǎn):
15.一種存儲(chǔ)指令的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),所述指令當(dāng)被一個(gè)或多個(gè)數(shù)據(jù)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)數(shù)據(jù)處理設(shè)備執(zhí)行操作,所述操作包括:
16.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,基于所確定的價(jià)值函數(shù)來(lái)處理用戶(hù)查詢(xún)包括:
17.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,更新對(duì)于該節(jié)點(diǎn)的所述強(qiáng)化學(xué)習(xí)模型的所述價(jià)值函數(shù)還包括:
18.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,所述操作還包括:確定從該節(jié)點(diǎn)開(kāi)始并連接后續(xù)節(jié)點(diǎn)的所述相應(yīng)有向邊,其中所述確定包括:
19.如權(quán)利要求18所述的計(jì)算機(jī)可讀介質(zhì),其中,更新對(duì)于該節(jié)點(diǎn)的所述強(qiáng)化學(xué)習(xí)模型的所述價(jià)值函數(shù)還包括:
20.如權(quán)利要求16所述的計(jì)算機(jī)可讀介質(zhì),其中,確定所述特定軌跡包括確定所述特定軌跡中有向邊的序列,其中所述序列中的每個(gè)有向邊由操作來(lái)確定,所述操作包括:對(duì)于不是所述特定軌跡中的所述端節(jié)點(diǎn)的每個(gè)節(jié)點(diǎn):
21.一種用于處理用戶(hù)查詢(xún)的方法,包括:
22.如權(quán)利要求21所述的方法,其中,處理所述特定用戶(hù)查詢(xún)包括:
23.如權(quán)利要求21所述的方法,其中,使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練所述特定馬爾可夫鏈蒙特卡羅算法包括:
24.如權(quán)利要求23所述的方法,其中,基于所述用戶(hù)反饋信息確定對(duì)于所述多個(gè)有向邊的初始權(quán)重包括:
25.如權(quán)利要求23所述的方法,其中,更新所述價(jià)值函數(shù)包括:
26.如權(quán)利要求25所述的方法,其中,更新對(duì)于該節(jié)點(diǎn)的所述價(jià)值函數(shù)還包括:
27.如權(quán)利要求21所述的方法,其中,所述馬爾可夫鏈蒙特卡羅算法是梅特羅波利斯-黑斯廷斯算法。
28.一種系統(tǒng),包括:
29.如權(quán)利要求28所述的系統(tǒng),其中,處理所述特定用戶(hù)查詢(xún)包括:
30.如權(quán)利要求28所述的系統(tǒng),其中,使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練所述特定馬爾可夫鏈蒙特卡羅算法包括:
31.如權(quán)利要求30所述的系統(tǒng),其中,基于所述用戶(hù)反饋信息確定對(duì)于所述多個(gè)有向邊的初始權(quán)重包括:
32.如權(quán)利要求30所述的系統(tǒng),其中,更新所述價(jià)值函數(shù)包括:
33.如權(quán)利要求32所述的系統(tǒng),其中,更新對(duì)于該節(jié)點(diǎn)的所述價(jià)值函數(shù)還包括:
34.權(quán)利要求28的系統(tǒng),其中,所述馬爾可夫鏈蒙特卡羅算法是梅特羅波利斯-黑斯廷斯算法。
35.一種存儲(chǔ)指令的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),所述指令當(dāng)被一個(gè)或多個(gè)數(shù)據(jù)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)數(shù)據(jù)處理設(shè)備執(zhí)行操作,所述操作包括:
36.如權(quán)利要求35所述的計(jì)算機(jī)可讀介質(zhì),其中,處理所述特定用戶(hù)查詢(xún)包括:
37.如權(quán)利要求35所述的計(jì)算機(jī)可讀介質(zhì),其中,使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練所述特定馬爾可夫鏈蒙特卡羅算法包括:
38.如權(quán)利要求37所述的計(jì)算機(jī)可讀介質(zhì),其中,基于所述用戶(hù)反饋信息確定對(duì)于所述多個(gè)有向邊的初始權(quán)重包括:
39.如權(quán)利要求37所述的計(jì)算機(jī)可讀介質(zhì),其中,更新所述價(jià)值函數(shù)包括:
40.如權(quán)利要求39所述的計(jì)算機(jī)可讀介質(zhì),其中,更新對(duì)于該節(jié)點(diǎn)的所述價(jià)值函數(shù)還包括:
41.如權(quán)利要求35所述的計(jì)算機(jī)可讀介質(zhì),其中,所述馬爾可夫鏈蒙特卡羅算法是梅特羅波利斯-黑斯廷斯算法。