欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

用于計(jì)算圖形的強(qiáng)化學(xué)習(xí)的制作方法

文檔序號(hào):40461162發(fā)布日期:2024-12-27 09:26閱讀:8來(lái)源:國(guó)知局
用于計(jì)算圖形的強(qiáng)化學(xué)習(xí)的制作方法


背景技術(shù):

1、本說(shuō)明書(shū)涉及處理例如在交換平臺(tái)上對(duì)信息的用戶(hù)查詢(xún),并且具體地涉及使用機(jī)器學(xué)習(xí)模型沿著計(jì)算圖形處理用戶(hù)查詢(xún)。

2、示例交換平臺(tái)使能最終用戶(hù)和提供方之間的商品、內(nèi)容和服務(wù)的交換。提供方可以在交換平臺(tái)上列出或提供他們的商品、內(nèi)容和服務(wù),并且最終用戶(hù)經(jīng)由交換平臺(tái)從提供方處獲得商品、內(nèi)容和服務(wù)。

3、強(qiáng)化學(xué)習(xí)系統(tǒng)可以部署在這樣的平臺(tái)中,以促進(jìn)平臺(tái)的各種操作,包括例如搜索和檢索信息,例如與平臺(tái)上提供的項(xiàng)目相關(guān)的信息。在強(qiáng)化學(xué)習(xí)系統(tǒng)中,代理通常通過(guò)執(zhí)行由強(qiáng)化學(xué)習(xí)系統(tǒng)響應(yīng)于接收表征環(huán)境當(dāng)前狀態(tài)的觀察而選擇的動(dòng)作來(lái)與環(huán)境交互。一些強(qiáng)化學(xué)習(xí)系統(tǒng)根據(jù)神經(jīng)網(wǎng)絡(luò)的輸出,響應(yīng)于接收到給定的觀察,選擇將由代理執(zhí)行的動(dòng)作。


技術(shù)實(shí)現(xiàn)思路

1、本說(shuō)明書(shū)涉及使用機(jī)器學(xué)習(xí)模型在計(jì)算平臺(tái)上處理用戶(hù)查詢(xún)。更詳細(xì)地,本文描述的一些實(shí)現(xiàn)涉及在由強(qiáng)化學(xué)習(xí)技術(shù)輔助的計(jì)算圖形框架中的用戶(hù)查詢(xún)處理。這包括訓(xùn)練和使用強(qiáng)化模型來(lái)生成輸出數(shù)據(jù),該輸出數(shù)據(jù)包括對(duì)用戶(hù)輸入(例如,用戶(hù)查詢(xún))的一個(gè)或多個(gè)預(yù)測(cè)。例如,在交換平臺(tái)的上下文中,預(yù)測(cè)可以包括對(duì)應(yīng)于用戶(hù)查詢(xún)的項(xiàng)目列表。此外,本文描述的實(shí)施例之一部署基于隱式用戶(hù)反饋信息制定的隨機(jī)游走(random?walk)采樣技術(shù),并且在表示查詢(xún)-列表關(guān)系的計(jì)算圖形上執(zhí)行隨機(jī)游走采樣,以生成連接查詢(xún)節(jié)點(diǎn)(或初始節(jié)點(diǎn))和列表節(jié)點(diǎn)(或端節(jié)點(diǎn))的多個(gè)候選軌跡。

2、本說(shuō)明書(shū)中描述的主題的特定實(shí)施例可以被實(shí)現(xiàn)以獲得以下優(yōu)點(diǎn)中的一個(gè)或多個(gè)。例如,本說(shuō)明書(shū)中描述的創(chuàng)新提高了用于處理用戶(hù)查詢(xún)的準(zhǔn)確性。使用強(qiáng)化學(xué)習(xí)模型,當(dāng)使用計(jì)算圖形處理用戶(hù)查詢(xún)時(shí),系統(tǒng)可以將歷史數(shù)據(jù)作為上下文注入。此外,系統(tǒng)可以基于消極交互來(lái)偏置用于有向邊的權(quán)重值,與僅考慮積極交互的技術(shù)相比,這進(jìn)一步提高了準(zhǔn)確性。在本文檔中,積極交互包括點(diǎn)擊、添加到購(gòu)物車(chē)(cart)、購(gòu)買(mǎi)列表中的項(xiàng)目或表達(dá)對(duì)項(xiàng)目感興趣的任何其他交互,而消極交互包括滾動(dòng)通過(guò)或指示對(duì)項(xiàng)目的列表缺乏興趣。系統(tǒng)還包括用于采樣隨機(jī)游走的評(píng)分函數(shù),其中該評(píng)分函數(shù)是基于相鄰節(jié)點(diǎn)之間的類(lèi)似性度量來(lái)確定的。在強(qiáng)化學(xué)習(xí)技術(shù)的上下文內(nèi),從更準(zhǔn)確的評(píng)分函數(shù)獲得的分?jǐn)?shù)可以提高訓(xùn)練對(duì)應(yīng)的強(qiáng)化學(xué)習(xí)模型的效率和準(zhǔn)確性。這樣,系統(tǒng)可以減少或避免計(jì)算圖形中不同節(jié)點(diǎn)群的不準(zhǔn)確預(yù)測(cè)。

3、此外,本說(shuō)明書(shū)中描述的技術(shù)可以提高處理用戶(hù)查詢(xún)的效率。執(zhí)行所訓(xùn)練的強(qiáng)化學(xué)習(xí)模型的操作通常在計(jì)算上是有效的。與具有大量模型參數(shù)和/或用于在推理操作期間預(yù)測(cè)動(dòng)作的非線性操作的強(qiáng)化學(xué)習(xí)模型的訓(xùn)練策略函數(shù)相比,使用轉(zhuǎn)移矩陣來(lái)預(yù)測(cè)沿著對(duì)應(yīng)邊的節(jié)點(diǎn)間轉(zhuǎn)移可以顯著降低計(jì)算成本。

4、在一些實(shí)現(xiàn)中,本文描述的技術(shù)可以利用蒙特卡羅值函數(shù)來(lái)生成從初始節(jié)點(diǎn)到端節(jié)點(diǎn)的軌跡,所述軌跡比由現(xiàn)有技術(shù)生成的軌跡相對(duì)更短。以這種方式,本文描述的技術(shù)通過(guò)執(zhí)行更少的計(jì)算步驟來(lái)促進(jìn)響應(yīng)于用戶(hù)查詢(xún)而提供與端節(jié)點(diǎn)相關(guān)聯(lián)的數(shù)據(jù)。

5、此外,如下面結(jié)合一個(gè)實(shí)施例所描述的,通過(guò)使用隱式用戶(hù)反饋(例如,用戶(hù)對(duì)對(duì)應(yīng)于先前查詢(xún)的先前生成的輸出列表的反應(yīng))部署特定的隨機(jī)游走采樣算法,所描述的技術(shù)進(jìn)一步增強(qiáng)了訓(xùn)練和使用訓(xùn)練模型來(lái)處理用戶(hù)查詢(xún)的效率。通常,本文描述的系統(tǒng)可以通過(guò)將特定的項(xiàng)目列表與有向計(jì)算圖形中的諸如商店和標(biāo)簽之類(lèi)的形成屬性聯(lián)系來(lái)緩解在一般采樣技術(shù)中常見(jiàn)的冷啟動(dòng)問(wèn)題。此外,系統(tǒng)可以通過(guò)將隱式用戶(hù)反饋結(jié)合到有向計(jì)算圖形的初始邊權(quán)重(以及最終從多個(gè)潛在邊隨機(jī)游走采樣的初始概率分布)中來(lái)進(jìn)一步幫助冷啟動(dòng)問(wèn)題。此外,可以在訓(xùn)練過(guò)程期間使用強(qiáng)化訓(xùn)練技術(shù)來(lái)更新初始邊權(quán)重,并且更新的邊權(quán)重可以離線存儲(chǔ)在存儲(chǔ)器中。所訓(xùn)練的隨機(jī)采樣權(quán)重用于生成用于處理用戶(hù)查詢(xún)的隨機(jī)游走樣本。這樣,系統(tǒng)可以在諸如圖形神經(jīng)網(wǎng)絡(luò)之類(lèi)的傳統(tǒng)技術(shù)的一部分中使用所描述的技術(shù)來(lái)訓(xùn)練或執(zhí)行針對(duì)輸入用戶(hù)查詢(xún)的推理操作,并且對(duì)于數(shù)十億個(gè)節(jié)點(diǎn)和數(shù)百億條邊的計(jì)算圖形來(lái)說(shuō)是可縮放的和高效的。

6、本說(shuō)明書(shū)中描述的主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)在附圖和以下描述中闡述。根據(jù)說(shuō)明書(shū)、附圖和權(quán)利要求書(shū),本主題的其他特征、方面和優(yōu)點(diǎn)將變得顯而易見(jiàn)。



技術(shù)特征:

1.一種用于訓(xùn)練強(qiáng)化學(xué)習(xí)模型的方法,包括:

2.如權(quán)利要求1所述的方法,其中,基于所確定的價(jià)值函數(shù)來(lái)處理用戶(hù)查詢(xún)包括:

3.如權(quán)利要求1所述的方法,其中,更新對(duì)于該節(jié)點(diǎn)的所述強(qiáng)化學(xué)習(xí)模型的所述價(jià)值函數(shù)還包括:

4.如權(quán)利要求1所述的方法,還包括確定從該節(jié)點(diǎn)開(kāi)始并連接后續(xù)節(jié)點(diǎn)的所述相應(yīng)有向邊,其中所述確定包括:

5.如權(quán)利要求4所述的方法,其中,更新對(duì)于該節(jié)點(diǎn)的所述強(qiáng)化學(xué)習(xí)模型的所述價(jià)值函數(shù)還包括:

6.如權(quán)利要求5所述的方法,其中,所述評(píng)分函數(shù)基于與所采樣的隨機(jī)游走相關(guān)聯(lián)的所述相應(yīng)后續(xù)節(jié)點(diǎn)和該節(jié)點(diǎn)之間的類(lèi)似性度量。

7.如權(quán)利要求2所述的方法,其中,確定所述特定軌跡包括確定所述特定軌跡中有向邊的序列,其中所述序列中的每個(gè)有向邊由操作來(lái)確定,所述操作包括:對(duì)于不是所述特定軌跡中的所述端節(jié)點(diǎn)的每個(gè)節(jié)點(diǎn):

8.一種系統(tǒng),包括:

9.如權(quán)利要求8所述的系統(tǒng),其中,基于所確定的價(jià)值函數(shù)來(lái)處理用戶(hù)查詢(xún)包括:

10.如權(quán)利要求8所述的系統(tǒng),其中,更新對(duì)于該節(jié)點(diǎn)的所述強(qiáng)化學(xué)習(xí)模型的所述價(jià)值函數(shù)還包括:

11.如權(quán)利要求8所述的系統(tǒng),其中,所述操作還包括:確定從該節(jié)點(diǎn)開(kāi)始并連接后續(xù)節(jié)點(diǎn)的所述相應(yīng)有向邊,其中所述確定包括:

12.如權(quán)利要求11所述的系統(tǒng),其中,更新對(duì)于該節(jié)點(diǎn)的所述強(qiáng)化學(xué)習(xí)模型的所述價(jià)值函數(shù)還包括:

13.如權(quán)利要求12所述的系統(tǒng),其中,所述評(píng)分函數(shù)基于與所采樣的隨機(jī)游走相關(guān)聯(lián)的所述相應(yīng)后續(xù)節(jié)點(diǎn)和該節(jié)點(diǎn)之間的類(lèi)似性度量。

14.如權(quán)利要求9所述的系統(tǒng),其中,確定所述特定軌跡包括確定所述特定軌跡中有向邊的序列,其中所述序列中的每個(gè)有向邊由操作來(lái)確定,所述操作包括:對(duì)于不是所述特定軌跡中的所述端節(jié)點(diǎn)的每個(gè)節(jié)點(diǎn):

15.一種存儲(chǔ)指令的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),所述指令當(dāng)被一個(gè)或多個(gè)數(shù)據(jù)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)數(shù)據(jù)處理設(shè)備執(zhí)行操作,所述操作包括:

16.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,基于所確定的價(jià)值函數(shù)來(lái)處理用戶(hù)查詢(xún)包括:

17.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,更新對(duì)于該節(jié)點(diǎn)的所述強(qiáng)化學(xué)習(xí)模型的所述價(jià)值函數(shù)還包括:

18.如權(quán)利要求15所述的計(jì)算機(jī)可讀介質(zhì),其中,所述操作還包括:確定從該節(jié)點(diǎn)開(kāi)始并連接后續(xù)節(jié)點(diǎn)的所述相應(yīng)有向邊,其中所述確定包括:

19.如權(quán)利要求18所述的計(jì)算機(jī)可讀介質(zhì),其中,更新對(duì)于該節(jié)點(diǎn)的所述強(qiáng)化學(xué)習(xí)模型的所述價(jià)值函數(shù)還包括:

20.如權(quán)利要求16所述的計(jì)算機(jī)可讀介質(zhì),其中,確定所述特定軌跡包括確定所述特定軌跡中有向邊的序列,其中所述序列中的每個(gè)有向邊由操作來(lái)確定,所述操作包括:對(duì)于不是所述特定軌跡中的所述端節(jié)點(diǎn)的每個(gè)節(jié)點(diǎn):

21.一種用于處理用戶(hù)查詢(xún)的方法,包括:

22.如權(quán)利要求21所述的方法,其中,處理所述特定用戶(hù)查詢(xún)包括:

23.如權(quán)利要求21所述的方法,其中,使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練所述特定馬爾可夫鏈蒙特卡羅算法包括:

24.如權(quán)利要求23所述的方法,其中,基于所述用戶(hù)反饋信息確定對(duì)于所述多個(gè)有向邊的初始權(quán)重包括:

25.如權(quán)利要求23所述的方法,其中,更新所述價(jià)值函數(shù)包括:

26.如權(quán)利要求25所述的方法,其中,更新對(duì)于該節(jié)點(diǎn)的所述價(jià)值函數(shù)還包括:

27.如權(quán)利要求21所述的方法,其中,所述馬爾可夫鏈蒙特卡羅算法是梅特羅波利斯-黑斯廷斯算法。

28.一種系統(tǒng),包括:

29.如權(quán)利要求28所述的系統(tǒng),其中,處理所述特定用戶(hù)查詢(xún)包括:

30.如權(quán)利要求28所述的系統(tǒng),其中,使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練所述特定馬爾可夫鏈蒙特卡羅算法包括:

31.如權(quán)利要求30所述的系統(tǒng),其中,基于所述用戶(hù)反饋信息確定對(duì)于所述多個(gè)有向邊的初始權(quán)重包括:

32.如權(quán)利要求30所述的系統(tǒng),其中,更新所述價(jià)值函數(shù)包括:

33.如權(quán)利要求32所述的系統(tǒng),其中,更新對(duì)于該節(jié)點(diǎn)的所述價(jià)值函數(shù)還包括:

34.權(quán)利要求28的系統(tǒng),其中,所述馬爾可夫鏈蒙特卡羅算法是梅特羅波利斯-黑斯廷斯算法。

35.一種存儲(chǔ)指令的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),所述指令當(dāng)被一個(gè)或多個(gè)數(shù)據(jù)處理設(shè)備執(zhí)行時(shí),使得所述一個(gè)或多個(gè)數(shù)據(jù)處理設(shè)備執(zhí)行操作,所述操作包括:

36.如權(quán)利要求35所述的計(jì)算機(jī)可讀介質(zhì),其中,處理所述特定用戶(hù)查詢(xún)包括:

37.如權(quán)利要求35所述的計(jì)算機(jī)可讀介質(zhì),其中,使用強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練所述特定馬爾可夫鏈蒙特卡羅算法包括:

38.如權(quán)利要求37所述的計(jì)算機(jī)可讀介質(zhì),其中,基于所述用戶(hù)反饋信息確定對(duì)于所述多個(gè)有向邊的初始權(quán)重包括:

39.如權(quán)利要求37所述的計(jì)算機(jī)可讀介質(zhì),其中,更新所述價(jià)值函數(shù)包括:

40.如權(quán)利要求39所述的計(jì)算機(jī)可讀介質(zhì),其中,更新對(duì)于該節(jié)點(diǎn)的所述價(jià)值函數(shù)還包括:

41.如權(quán)利要求35所述的計(jì)算機(jī)可讀介質(zhì),其中,所述馬爾可夫鏈蒙特卡羅算法是梅特羅波利斯-黑斯廷斯算法。


技術(shù)總結(jié)
一種方法、系統(tǒng)和裝置,包括編碼在計(jì)算機(jī)存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序,其接收代表包括多個(gè)節(jié)點(diǎn)和單向連接兩個(gè)相鄰節(jié)點(diǎn)的有向邊的計(jì)算圖形的數(shù)據(jù),并接收包括用于強(qiáng)化學(xué)習(xí)模型的獎(jiǎng)勵(lì)函數(shù)的訓(xùn)練數(shù)據(jù)。強(qiáng)化學(xué)習(xí)模型的價(jià)值函數(shù)被初始化。對(duì)于不是多個(gè)節(jié)點(diǎn)中的端節(jié)點(diǎn)的每個(gè)節(jié)點(diǎn),確定強(qiáng)化學(xué)習(xí)模型的價(jià)值函數(shù)。該確定包括:基于(i)從該節(jié)點(diǎn)開(kāi)始并連接后續(xù)節(jié)點(diǎn)的相應(yīng)有向邊和(ii)所述獎(jiǎng)勵(lì)函數(shù)來(lái)更新價(jià)值函數(shù);確定所更新的價(jià)值函數(shù)收斂,并且作為響應(yīng),提供所更新的價(jià)值函數(shù)作為價(jià)值函數(shù)。用于處理用戶(hù)查詢(xún)的價(jià)值函數(shù)被存儲(chǔ)并用于處理用戶(hù)查詢(xún)。

技術(shù)研發(fā)人員:A·斯坦頓,A·馬西耶維奇,S·巴洛格
受保護(hù)的技術(shù)使用者:伊緹斯公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/26
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
政和县| 达拉特旗| 南开区| 克拉玛依市| 津市市| 北宁市| 抚松县| 易门县| 罗城| 周口市| 新竹市| 芜湖市| 衡阳市| 垣曲县| 元朗区| 当阳市| 胶南市| 孟津县| 高淳县| 井冈山市| 宝应县| 高邮市| 隆安县| 高淳县| 社旗县| 马公市| 株洲市| 当涂县| 项城市| 河南省| 清水河县| 三亚市| 万盛区| 屯留县| 肃北| 山东省| 鄄城县| 玉树县| 承德市| 连江县| 乡宁县|