本公開總體涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,具體而言,涉及一種廣告競(jìng)價(jià)方法、裝置、電子裝置及計(jì)算機(jī)可讀介質(zhì)。
背景技術(shù):
需求方平臺(tái)(demand-sideplatform,簡(jiǎn)稱dsp)是一種服務(wù)于廣告主的廣告投放平臺(tái),接受廣告主在多個(gè)廣告交易平臺(tái)(adexchange,簡(jiǎn)稱adx)投放廣告的請(qǐng)求,參與實(shí)時(shí)的廣告競(jìng)價(jià),購(gòu)買目標(biāo)受眾。同付費(fèi)搜索相似,dsp允許廣告主基于關(guān)鍵績(jī)效指標(biāo)(performanceindicator,簡(jiǎn)稱kpi)優(yōu)化廣告投放策略,比如千次點(diǎn)擊花費(fèi)(effectivecostperclick,簡(jiǎn)稱ecpc)等。實(shí)時(shí)競(jìng)價(jià)(real-timebidding,簡(jiǎn)稱rtb)是一種以單次展現(xiàn)為單位,買賣廣告庫(kù)存(媒體廣告位)的程序化競(jìng)價(jià)方式。
以常見的應(yīng)用場(chǎng)景為例,廣告投放平臺(tái)購(gòu)買媒體的展現(xiàn)機(jī)會(huì),贏得本次競(jìng)價(jià)后,廣告會(huì)展現(xiàn)在媒體的廣告位,用戶點(diǎn)擊廣告鏈接,帶來流量,媒體對(duì)廣告投放平臺(tái)計(jì)費(fèi);用戶點(diǎn)擊廣告主投放的廣告并達(dá)到計(jì)費(fèi)標(biāo)準(zhǔn)后,系統(tǒng)對(duì)廣告主計(jì)費(fèi)。因此,對(duì)于每次展現(xiàn)機(jī)會(huì)的出價(jià)策略,決定了廣告主的投資回報(bào)率以及平臺(tái)的盈利能力。
基于上述,現(xiàn)有技術(shù)方案中至少存在如下問題:
由于有各項(xiàng)人工干預(yù)系數(shù),出價(jià)模型的優(yōu)化目標(biāo)與競(jìng)價(jià)系統(tǒng)的目標(biāo)并不一致,系統(tǒng)效果需要大量人工調(diào)整參數(shù)才能實(shí)現(xiàn)最優(yōu)。因此,現(xiàn)有技術(shù)中的技術(shù)方案還存在有待改進(jìn)之處。
在所述背景技術(shù)部分公開的上述信息僅用于加強(qiáng)對(duì)本公開的背景的理解,因此它可以包括不構(gòu)成對(duì)本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實(shí)現(xiàn)要素:
本公開提供一種廣告競(jìng)價(jià)方法、裝置、電子裝置及計(jì)算機(jī)可讀介質(zhì),解決上述技術(shù)問題。
本公開的其他特性和優(yōu)點(diǎn)將通過下面的詳細(xì)描述變得顯然,或部分地通過本公開的實(shí)踐而習(xí)得。
根據(jù)本公開的一方面,提供一種競(jìng)價(jià)方法,包括:
基于增強(qiáng)學(xué)習(xí)算法進(jìn)行建模,得到競(jìng)價(jià)請(qǐng)求、出價(jià)與收益之間關(guān)系的競(jìng)價(jià)模型;
對(duì)所述競(jìng)價(jià)模型進(jìn)行優(yōu)化,得到優(yōu)化的出價(jià)策略;
對(duì)于實(shí)時(shí)的競(jìng)價(jià)請(qǐng)求通過所述競(jìng)價(jià)模型以及所述優(yōu)化的出價(jià)策略,給出與所述實(shí)時(shí)的競(jìng)價(jià)請(qǐng)求相對(duì)應(yīng)的出價(jià)。
在本公開的一個(gè)實(shí)施例中,所述基于增強(qiáng)學(xué)習(xí)算法進(jìn)行建模包括:
響應(yīng)所述競(jìng)價(jià)請(qǐng)求進(jìn)行競(jìng)價(jià),得到所述出價(jià);
對(duì)所述出價(jià)進(jìn)行離散化處理,得到多個(gè)出價(jià)離散值;
如果競(jìng)價(jià)成功則根據(jù)所述多個(gè)出價(jià)離散值分別計(jì)算得到所述收益,其中所述收益為需求方平臺(tái)對(duì)廣告主的計(jì)費(fèi)與廣告交易平臺(tái)對(duì)所述需求方平臺(tái)的計(jì)費(fèi)之差。
在本公開的一個(gè)實(shí)施例中,響應(yīng)所述競(jìng)價(jià)請(qǐng)求之前,還包括:
將所述競(jìng)價(jià)請(qǐng)求變換為自然語(yǔ)言。
在本公開的一個(gè)實(shí)施例中,得到多個(gè)出價(jià)離散值之后,還包括:
當(dāng)每一個(gè)所述出價(jià)離散值高于實(shí)際價(jià)格時(shí),復(fù)制一次實(shí)時(shí)數(shù)據(jù)流;
所述實(shí)時(shí)數(shù)據(jù)流為(x,b,r,p),其中x為所述競(jìng)價(jià)請(qǐng)求,b為所述出價(jià),r為所述收益,p為所述實(shí)際價(jià)格。
在本公開的一個(gè)實(shí)施例中,在建模過程中,對(duì)曝光數(shù)據(jù)、點(diǎn)擊日志以及計(jì)費(fèi)日志按照時(shí)間順序進(jìn)行實(shí)時(shí)拼接,得到所述實(shí)時(shí)數(shù)據(jù)流,其中所述曝光數(shù)據(jù)為針對(duì)所述競(jìng)價(jià)請(qǐng)求競(jìng)價(jià)成功展現(xiàn)給用戶的數(shù)據(jù),所述點(diǎn)擊日志為用戶點(diǎn)擊媒體廣告位時(shí)生成的日志數(shù)據(jù),所述計(jì)費(fèi)日志為所述用戶點(diǎn)擊所述媒體廣告位時(shí)需求方平臺(tái)對(duì)廣告主的計(jì)費(fèi)以及廣告交易平臺(tái)對(duì)所述需求方平臺(tái)的計(jì)費(fèi)的日志數(shù)據(jù)。
在本公開的一個(gè)實(shí)施例中,所述競(jìng)價(jià)模型建模之前還包括:
基于已有的競(jìng)價(jià)信息優(yōu)化得到初始出價(jià)策略。
根據(jù)本公開的再一方面,提供一種廣告競(jìng)價(jià)裝置,包括:
建模模塊,用于基于增強(qiáng)學(xué)習(xí)算法進(jìn)行建模,得到競(jìng)價(jià)請(qǐng)求、出價(jià)與收益之間關(guān)系的競(jìng)價(jià)模型;
優(yōu)化模塊,用于對(duì)所述競(jìng)價(jià)模型進(jìn)行優(yōu)化,得到優(yōu)化的出價(jià)策略;
出價(jià)模塊,用于對(duì)于實(shí)時(shí)的競(jìng)價(jià)請(qǐng)求通過所述競(jìng)價(jià)模型以及所述優(yōu)化的出價(jià)策略,給出與所述實(shí)時(shí)的競(jìng)價(jià)請(qǐng)求相對(duì)應(yīng)的出價(jià)。
在本公開的一個(gè)實(shí)施例中,所述建模模塊包括:
響應(yīng)子模塊,用于響應(yīng)所述競(jìng)價(jià)請(qǐng)求進(jìn)行競(jìng)價(jià),得到所述出價(jià);
離散子模塊,用于對(duì)所述出價(jià)進(jìn)行離散化處理,得到多個(gè)出價(jià)離散值;
計(jì)算子模塊,用于如果競(jìng)價(jià)成功則根據(jù)所述多個(gè)出價(jià)離散值分別計(jì)算得到所述收益,其中所述收益為需求方平臺(tái)對(duì)廣告主的計(jì)費(fèi)與廣告交易平臺(tái)對(duì)所述需求方平臺(tái)的計(jì)費(fèi)之差。
根據(jù)本公開的又一方面,提供一種電子裝置,包括處理器;存儲(chǔ)器,存儲(chǔ)用于所述處理器控制如上所述的操作的指令。
根據(jù)本公開的另一方面,提供一種計(jì)算機(jī)可讀介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,其特征在于,所述可執(zhí)行指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的廣告競(jìng)價(jià)方法。
根據(jù)本公開實(shí)施例提供的廣告競(jìng)價(jià)方法、裝置、電子裝置及計(jì)算機(jī)可讀介質(zhì),其中廣告競(jìng)價(jià)方法基于增強(qiáng)學(xué)習(xí)算法進(jìn)行建模,得到競(jìng)價(jià)請(qǐng)求、收益與出價(jià)之間的關(guān)系,無需進(jìn)行大量的人工參數(shù)調(diào)整,降低復(fù)雜度。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性的,并不能限制本公開。
附圖說明
通過參照附圖詳細(xì)描述其示例實(shí)施例,本公開的上述和其它目標(biāo)、特征及優(yōu)點(diǎn)將變得更加顯而易見。
圖1示出本公開一實(shí)施例中提供的一種廣告競(jìng)價(jià)方法的步驟流程圖。
圖2示出本公開一實(shí)施例中步驟s10的步驟流程圖。
圖3示出本公開實(shí)施例中競(jìng)價(jià)過程請(qǐng)求轉(zhuǎn)移示意圖。
圖4示出本公開實(shí)施例中完成廣告競(jìng)價(jià)的架構(gòu)圖。
圖5示出本公開實(shí)施例中用戶與廣告交易平臺(tái)和需求方平臺(tái)交互的示意圖。
圖6示出本公開實(shí)施例中競(jìng)價(jià)模型和競(jìng)價(jià)環(huán)境逐步優(yōu)化的過程示意圖。
圖7示出本公開另一實(shí)施例中提供的一種廣告競(jìng)價(jià)裝置的示意圖。
圖8示出本公開一實(shí)施例提供的適于用來實(shí)現(xiàn)本申請(qǐng)實(shí)施例的電子裝置的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
現(xiàn)在將參考附圖更全面地描述示例實(shí)施方式。然而,示例實(shí)施方式能夠以多種形式實(shí)施,且不應(yīng)被理解為限于在此闡述的范例;相反,提供這些實(shí)施方式使得本公開將更加全面和完整,并將示例實(shí)施方式的構(gòu)思全面地傳達(dá)給本領(lǐng)域的技術(shù)人員。附圖僅為本公開的示意性圖解,并非一定是按比例繪制。圖中相同的附圖標(biāo)記表示相同或類似的部分,因而將省略對(duì)它們的重復(fù)描述。
此外,所描述的特征、結(jié)構(gòu)或特性可以以任何合適的方式結(jié)合在一個(gè)或更多實(shí)施方式中。在下面的描述中,提供許多具體細(xì)節(jié)從而給出對(duì)本公開的實(shí)施方式的充分理解。然而,本領(lǐng)域技術(shù)人員將意識(shí)到,可以實(shí)踐本公開的技術(shù)方案而省略所述特定細(xì)節(jié)中的一個(gè)或更多,或者可以采用其它的方法、組元、裝置、步驟等。在其它情況下,不詳細(xì)示出或描述公知結(jié)構(gòu)、方法、裝置、實(shí)現(xiàn)、材料或者操作以避免喧賓奪主而使得本公開的各方面變得模糊。
附圖中所示的一些方框圖是功能實(shí)體,不一定必須與物理或邏輯上獨(dú)立的實(shí)體相對(duì)應(yīng)??梢圆捎密浖问絹韺?shí)現(xiàn)這些功能實(shí)體,或在一個(gè)或多個(gè)硬件模塊或集成電路中實(shí)現(xiàn)這些功能實(shí)體,或在不同網(wǎng)絡(luò)和/或處理器裝置和/或微控制器裝置中實(shí)現(xiàn)這些功能實(shí)體。
以廣告競(jìng)價(jià)為例,使用商品的平均每千次展現(xiàn)所需要的花費(fèi)(effectivecostpermille,簡(jiǎn)稱ecpm)作為出價(jià)。ecpm=pctr*ecpc,其中ecpc是商品的平均千次點(diǎn)擊所帶來的花費(fèi)或預(yù)估花費(fèi),pctr是商品在請(qǐng)求目標(biāo)廣告位的點(diǎn)擊率預(yù)估值。在實(shí)際應(yīng)用中,系統(tǒng)出價(jià)還會(huì)有其他人工干預(yù)可調(diào)節(jié)的系數(shù),控制出價(jià)。使用增強(qiáng)學(xué)習(xí)預(yù)估目標(biāo)商品在某一次請(qǐng)求的出價(jià),例如ss-mdp(sponsoredsearchmdp,搜索引擎馬爾科夫決策過程,微軟提出的一種將搜索引擎賬戶優(yōu)化抽象為mdp的方式)或rlb(reinforcementtobid,一種基于增強(qiáng)學(xué)習(xí)的賬戶優(yōu)化方法),但是現(xiàn)有的增強(qiáng)學(xué)習(xí)方案,均用于賬戶出價(jià)優(yōu)化,在已知用戶對(duì)于當(dāng)前廣告請(qǐng)求的出價(jià)策略或用戶余額預(yù)算的情況下,預(yù)估某一個(gè)時(shí)刻廣告請(qǐng)求的出價(jià),系統(tǒng)的目標(biāo)往往是最大化點(diǎn)擊率,對(duì)于不能獲取出價(jià)策略或余額預(yù)算的場(chǎng)景并不適用。
這樣會(huì)帶來如下缺陷:
1.在現(xiàn)有最大化ecpm方案中,因?yàn)橛懈黜?xiàng)人工干預(yù)系數(shù),出價(jià)模型的優(yōu)化目標(biāo)與競(jìng)價(jià)系統(tǒng)的目標(biāo)并不一致,不能保證當(dāng)前的出價(jià)策略最優(yōu),系統(tǒng)效果需要大量人工調(diào)參才能實(shí)現(xiàn)最優(yōu)。其次,人工干預(yù)系數(shù)相對(duì)主觀,很難找到最優(yōu)值,實(shí)現(xiàn)最好的效果。另外,當(dāng)數(shù)據(jù)分布發(fā)生改變,參數(shù)需要重新調(diào)整。
2.現(xiàn)有增強(qiáng)學(xué)習(xí)的方案,通過減少出價(jià)的空間,來解決在某些出價(jià)數(shù)據(jù)稀疏的問題,導(dǎo)致出價(jià)的行為空間相對(duì)較小。因此對(duì)于競(jìng)價(jià)成功的廣告,系統(tǒng)出價(jià)往往集中在某些小區(qū)間,而對(duì)于大量的出價(jià)行為,可以利用的數(shù)據(jù)并不多,這會(huì)引起增強(qiáng)學(xué)習(xí)模型的欠擬合問題。
3.ss-mdp方法,預(yù)估值與請(qǐng)求上下文信息無關(guān),不能充分應(yīng)用用戶、媒體以及商品信息等。
4.rlb方法依然需要預(yù)估點(diǎn)擊率,需要同時(shí)構(gòu)建點(diǎn)擊率預(yù)估模型和出價(jià)模型,系統(tǒng)實(shí)現(xiàn)更復(fù)雜,時(shí)間復(fù)雜度增加。
5.現(xiàn)有的技術(shù)方案大多是離線t+1模型,使用前t天的數(shù)據(jù)建模,在t+1天用于出價(jià)預(yù)估,不能實(shí)時(shí)的模擬競(jìng)價(jià)環(huán)境。
基于上述可知,現(xiàn)有增強(qiáng)學(xué)習(xí)模型對(duì)不能直接實(shí)現(xiàn)最優(yōu),而且稀疏性和實(shí)時(shí)性都較差。
圖1示出本公開一實(shí)施例中提供的一種廣告競(jìng)價(jià)方法的步驟流程圖,包括以下步驟:
如圖1所示,在步驟s10中,基于增強(qiáng)學(xué)習(xí)算法進(jìn)行建模,得到競(jìng)價(jià)請(qǐng)求、出價(jià)與收益之間關(guān)系的競(jìng)價(jià)模型。也就是說,本實(shí)施例中是基于dqn(deepq-network,一種由googledeepmind開發(fā)的深度學(xué)習(xí)人工智能算法)來進(jìn)行建模的。
如圖1所示,在步驟s20中,對(duì)競(jìng)價(jià)模型進(jìn)行優(yōu)化,得到優(yōu)化的出價(jià)策略。
如圖1所示,在步驟s30中,對(duì)于實(shí)時(shí)的競(jìng)價(jià)請(qǐng)求通過競(jìng)價(jià)模型以及優(yōu)化的出價(jià)策略,給出與實(shí)時(shí)的競(jìng)價(jià)請(qǐng)求相對(duì)應(yīng)的出價(jià)。
該廣告競(jìng)價(jià)方法基于增強(qiáng)學(xué)習(xí)算法框架重新定義廣告競(jìng)價(jià)問題,使用增強(qiáng)學(xué)習(xí)q-learning算法構(gòu)建出競(jìng)價(jià)請(qǐng)求、出價(jià)與收益之間關(guān)系的競(jìng)價(jià)模型,以競(jìng)價(jià)請(qǐng)求作為輸入,利用競(jìng)價(jià)模型以及優(yōu)化的出價(jià)策略給出當(dāng)前廣告請(qǐng)求出價(jià)的預(yù)估值,以給出最佳的出價(jià)策略,簡(jiǎn)化復(fù)雜度。
圖2示出本實(shí)施例中步驟s10基于增強(qiáng)學(xué)習(xí)算法進(jìn)行建模的步驟流程圖,包括以下步驟:
如圖2所示,在步驟s11中,響應(yīng)競(jìng)價(jià)請(qǐng)求進(jìn)行競(jìng)價(jià),得到出價(jià)。
競(jìng)價(jià)請(qǐng)求中包含參與競(jìng)價(jià)的廣告位、商品以及用戶的信息,需求方平臺(tái)對(duì)于來自廣告交易平臺(tái)的廣告的競(jìng)價(jià)請(qǐng)求x給出出價(jià)b,需要說明的是,本實(shí)施例中將競(jìng)價(jià)請(qǐng)求變換為自然語(yǔ)言,也就是將競(jìng)價(jià)請(qǐng)求處理成特殊格式的自然語(yǔ)言,這樣競(jìng)價(jià)模型能夠直接理解廣告的競(jìng)價(jià)請(qǐng)求,除了以自然語(yǔ)言描述請(qǐng)求外,不需任何特征提取工作。
例如:對(duì)于在上午9點(diǎn)訪問sports.sina.com.cn的用戶王玉,即將展現(xiàn)給用戶的商品是iphone7、ps4和macbook,將這條請(qǐng)求信息轉(zhuǎn)化成如下英文描述:
userwang2yu4isaccessingsinasportsat9:00am,we’lldisplayiphone7,ps4,andmacbooktohim。
接下來描述用戶、網(wǎng)站、商品各自的特點(diǎn),包括但不限于用戶購(gòu)買歷史、用戶瀏覽歷史、用戶年齡、用戶性別、商品價(jià)格、商品好評(píng)數(shù)等數(shù)據(jù)。
如圖2所示,在步驟s12中,對(duì)出價(jià)進(jìn)行離散化處理,得到多個(gè)出價(jià)離散值。
假設(shè)需求方平臺(tái)的出價(jià)的最小單位是b,將系統(tǒng)的出價(jià)離散化成0,b,2b,…,(n-1)b,nb;其中nb是需求方平臺(tái)允許的最大出價(jià)。例如,如果系統(tǒng)出價(jià)上限是50元,可以按照每一毛作為一個(gè)出價(jià),一共離散成0,1,2,…,500一共501個(gè)出價(jià)。
如圖2所示,在步驟s13中,如果競(jìng)價(jià)成功則根據(jù)多個(gè)出價(jià)離散值分別計(jì)算得到收益,其中收益為需求方平臺(tái)對(duì)廣告主的計(jì)費(fèi)與廣告交易平臺(tái)對(duì)需求方平臺(tái)的計(jì)費(fèi)之差。
對(duì)于每次競(jìng)價(jià)請(qǐng)求x,需求方平臺(tái)給出多個(gè)出價(jià),每個(gè)出價(jià)都是b的整數(shù)倍,如果競(jìng)價(jià)成功,就會(huì)產(chǎn)生相應(yīng)的收益r,并且得到廣告位的實(shí)際價(jià)格p,然后下一次請(qǐng)求x+1到達(dá);如果競(jìng)價(jià)沒有成功則收益就是0。
圖3示出競(jìng)價(jià)過程請(qǐng)求轉(zhuǎn)移示意圖,假設(shè)從請(qǐng)求x轉(zhuǎn)移到請(qǐng)求x+1的過程,收益r只與請(qǐng)求x有關(guān),和x之前的請(qǐng)求是相互獨(dú)立的。也就是說,競(jìng)價(jià)過程滿足馬爾科夫?qū)傩?,得到一個(gè)馬爾科夫決策過程(markovdecisionprocesse,簡(jiǎn)稱mdp)。mdp提供了一種用于建模決策過程的數(shù)學(xué)框架,每一次的決策的收益,僅僅和當(dāng)前的決策有關(guān),與之前的狀態(tài)無關(guān),mdp問題可以使用動(dòng)態(tài)規(guī)劃或者增強(qiáng)學(xué)習(xí)來解決。
當(dāng)每一個(gè)出價(jià)離散值高于實(shí)際價(jià)格p時(shí),復(fù)制一次實(shí)時(shí)數(shù)據(jù)流。實(shí)時(shí)數(shù)據(jù)流為(x,b,r,p),其中x為競(jìng)價(jià)請(qǐng)求,b為出價(jià),r為收益,p為實(shí)際價(jià)格。
需要說明的是,本實(shí)施例中使用實(shí)時(shí)數(shù)據(jù)流(x,b,p,r)來作為競(jìng)價(jià)模型的訓(xùn)練數(shù)據(jù)。mdp的時(shí)間順序很重要,因此為了維護(hù)曝光數(shù)據(jù)(也就是競(jìng)價(jià)成功并且展現(xiàn)給用戶的數(shù)據(jù))的時(shí)間順序,本實(shí)施例在建模過程中,對(duì)曝光數(shù)據(jù)、點(diǎn)擊日志以及計(jì)費(fèi)日志按照時(shí)間順序進(jìn)行實(shí)時(shí)拼接,得到實(shí)時(shí)數(shù)據(jù)流,其中曝光數(shù)據(jù)為針對(duì)競(jìng)價(jià)請(qǐng)求競(jìng)價(jià)成功展現(xiàn)給用戶的數(shù)據(jù),點(diǎn)擊日志為用戶點(diǎn)擊媒體廣告位時(shí)生成的日志數(shù)據(jù),計(jì)費(fèi)日志為用戶點(diǎn)擊媒體廣告位時(shí)需求方平臺(tái)對(duì)廣告主的計(jì)費(fèi)以及廣告交易平臺(tái)對(duì)需求方平臺(tái)的計(jì)費(fèi)的日志數(shù)據(jù)。
圖4示出本實(shí)施例中完成廣告競(jìng)價(jià)的架構(gòu)圖,如圖4所示,包括服務(wù)層、模型訓(xùn)練以及數(shù)據(jù)層。其中數(shù)據(jù)層包括廣告請(qǐng)求日志(x,b)、競(jìng)價(jià)成功日志(r,p)以及基于kafka拼接的實(shí)時(shí)數(shù)據(jù)流(x,b,r,p)。服務(wù)層包括廣告的競(jìng)價(jià)請(qǐng)求x、模型加載和出價(jià)b。
圖4中,在服務(wù)層廣告請(qǐng)求dsp進(jìn)行競(jìng)價(jià),由競(jìng)價(jià)模型給出出價(jià),記錄請(qǐng)求日志;adx接收競(jìng)價(jià)請(qǐng)求,如果競(jìng)價(jià)成功,廣告被展現(xiàn)給用戶,用戶點(diǎn)擊媒體廣告位時(shí),adx生成并返回計(jì)費(fèi)等信息,dsp記錄競(jìng)價(jià)成功日志;用戶點(diǎn)擊廣告主投放的廣告時(shí),dsp向廣告主計(jì)費(fèi),此時(shí)生成點(diǎn)擊日志。
圖5示出本公開實(shí)施例中用戶與廣告交易平臺(tái)和需求方平臺(tái)交互的示意圖,交互過程所涉及到廣告競(jìng)價(jià)中的主體,即用戶、媒體廣告位、adx、dsp、廣告主以及廣告主投放的廣告。
如圖5所示,首先,用戶瀏覽媒體,媒體就向adx請(qǐng)求廣告,adx向dsp發(fā)送廣告競(jìng)價(jià)請(qǐng)求x,dsp返回競(jìng)價(jià)b給adx,adx向媒體返回廣告,媒體就向用戶展現(xiàn)廣告。接下來,用戶點(diǎn)擊媒體廣告位,媒體開始計(jì)費(fèi)并發(fā)送給adx,adx記錄媒體的扣費(fèi)信息也就是實(shí)際價(jià)格p。之后,如果用戶點(diǎn)擊廣告主投放的廣告,dsp就向廣告主計(jì)費(fèi)。
由于訓(xùn)練數(shù)據(jù)分別存在于不同日志中,基于kafka對(duì)曝光、點(diǎn)擊以及計(jì)費(fèi)日志數(shù)據(jù)流,做實(shí)時(shí)拼接。曝光數(shù)據(jù)、點(diǎn)擊數(shù)據(jù)和計(jì)費(fèi)數(shù)據(jù)之間存在時(shí)間差,因此,在拼接生成實(shí)時(shí)數(shù)據(jù)流(x,b,r,p)進(jìn)行訓(xùn)練時(shí),曝光數(shù)據(jù)需要等待點(diǎn)擊數(shù)據(jù)與計(jì)費(fèi)數(shù)據(jù)生成,因此,出價(jià)b與能觀察到的反饋(r,p)之間有一定的延遲,數(shù)據(jù)流只能做到準(zhǔn)實(shí)時(shí)。現(xiàn)有技術(shù)方案都是離線模型,不能實(shí)時(shí)的反應(yīng)競(jìng)價(jià)環(huán)境的變化,本實(shí)施例使用準(zhǔn)實(shí)時(shí)數(shù)據(jù)(延遲1小時(shí)內(nèi))訓(xùn)練,可以解決實(shí)時(shí)性問題。
通過使用準(zhǔn)實(shí)時(shí)的用戶點(diǎn)擊數(shù)據(jù)等,可以實(shí)時(shí)的感知到盈虧以及點(diǎn)擊率的變化,對(duì)于盈利流量,可以盡快實(shí)現(xiàn)盈利最大化;對(duì)于虧損流量,可以及時(shí)止損,保證平臺(tái)的可持續(xù)性發(fā)展。
在本實(shí)施例圖4中,模型訓(xùn)練一般分為兩個(gè)階段:離線訓(xùn)練階段和線上訓(xùn)練階段。一般來說dqn使用的都是modelfree(不使用其他策略用于出價(jià),僅使用dqn作為出價(jià)模型)實(shí)時(shí)訓(xùn)練的方式。但是,模型的實(shí)時(shí)訓(xùn)練與服務(wù)是同時(shí)進(jìn)行的,為了能在模型初次上線時(shí),就能有比較好的效果,需要在實(shí)時(shí)訓(xùn)練之前,dqn模型基于已有的競(jìng)價(jià)信息(x,b,r,p)優(yōu)化得到初始化策略。實(shí)時(shí)訓(xùn)練階段,模型對(duì)線上請(qǐng)求給出合理的出價(jià)策略,觀察到相應(yīng)的反饋以后,基于實(shí)時(shí)的訓(xùn)練數(shù)據(jù),不斷優(yōu)化出價(jià)策略,直至實(shí)現(xiàn)最優(yōu)。如圖6示出本公開實(shí)施例中競(jìng)價(jià)模型和競(jìng)價(jià)環(huán)境逐步優(yōu)化的過程示意圖,也就是競(jìng)價(jià)模型給出出價(jià)b到競(jìng)價(jià)環(huán)境中,然后再根據(jù)收益r以及實(shí)際價(jià)格p不斷來優(yōu)化競(jìng)價(jià)模型。
這樣,競(jìng)價(jià)模型使用實(shí)時(shí)數(shù)據(jù)流進(jìn)行訓(xùn)練,不斷優(yōu)化當(dāng)前策略,模型訓(xùn)練生成的模型文件實(shí)時(shí)同步至線上,作為競(jìng)價(jià)策略,實(shí)現(xiàn)模型的實(shí)時(shí)更新,從而保證了模型能實(shí)時(shí)的反應(yīng)競(jìng)價(jià)環(huán)境的變化。
由于大量出價(jià)往往集中在某些小區(qū)間或某幾個(gè)出價(jià)上,其余出價(jià)數(shù)據(jù)量稀少,就會(huì)導(dǎo)致數(shù)據(jù)稀疏性問題。為了解決數(shù)據(jù)的稀疏性問題,可以針對(duì)競(jìng)價(jià)成功的競(jìng)價(jià)請(qǐng)求,得到相應(yīng)的實(shí)際價(jià)格,當(dāng)出價(jià)高于實(shí)際價(jià)格時(shí),就能贏得本次競(jìng)價(jià),并且成交價(jià)格不變,盈利不變。因此對(duì)高于成交價(jià)格的每一個(gè)出價(jià),都復(fù)制一次曝光數(shù)據(jù),因此曝光數(shù)據(jù)被復(fù)制(最大出價(jià)-p)次。比如,曝光數(shù)據(jù)(x,b,r,p),復(fù)制以后分別是:(x,int(p)+i,r,p)。其中,int(p)表示對(duì)p取整,并且int(p)+i<p_max,p_max表示允許的最大出價(jià),也就是出價(jià)離散值中的nb。
綜上所述,基于dqn構(gòu)建的競(jìng)價(jià)模型,再基于關(guān)鍵績(jī)效指標(biāo)(keyperformanceindicator,簡(jiǎn)稱kpi)進(jìn)行優(yōu)化,直接建模了收益(r)與出價(jià)(b)之間的關(guān)系。因?yàn)橹挥挟?dāng)用戶點(diǎn)擊后行為達(dá)到計(jì)費(fèi)標(biāo)準(zhǔn),廣告系統(tǒng)才能計(jì)費(fèi)并產(chǎn)生收入,該次請(qǐng)求才能盈利,系統(tǒng)優(yōu)化的目標(biāo)同時(shí)兼顧了系統(tǒng)可持續(xù)性(盈利)以及點(diǎn)擊率等指標(biāo),直接建模出價(jià)與kpi之間的關(guān)系可以更高的消費(fèi)和盈利。其中計(jì)費(fèi)標(biāo)準(zhǔn)是指在互聯(lián)網(wǎng)廣告業(yè)務(wù)里指用戶在廣告上的行為達(dá)成某一標(biāo)準(zhǔn)才能計(jì)費(fèi),如點(diǎn)擊深度為n的點(diǎn)擊計(jì)費(fèi)(一般是1次點(diǎn)擊計(jì)費(fèi)或2次點(diǎn)擊計(jì)費(fèi)),又如轉(zhuǎn)化計(jì)費(fèi)(用戶發(fā)生購(gòu)買/發(fā)出訂單等轉(zhuǎn)化行為才計(jì)費(fèi))。該競(jìng)價(jià)模型以競(jìng)價(jià)請(qǐng)求作為輸入,以最大化收益(收益或者點(diǎn)擊率)為目的,直接給出當(dāng)前廣告請(qǐng)求出價(jià)的預(yù)估值,不僅簡(jiǎn)化了系統(tǒng)復(fù)雜度,還因?yàn)橹苯咏A苏?qǐng)求和出價(jià)的關(guān)系,可以保證當(dāng)前的出價(jià)策略就是最優(yōu)解。
另外,直接建模出價(jià)、請(qǐng)求以及盈利的關(guān)系,省去了ctr(clickthroughrate,點(diǎn)擊通過率,互聯(lián)網(wǎng)廣告術(shù)語(yǔ),等于點(diǎn)擊除以展現(xiàn))預(yù)估以及ecpc預(yù)估等中間步驟,也取消了大量的人工參數(shù),不僅系統(tǒng)實(shí)現(xiàn)更簡(jiǎn)單,而且人工干預(yù)更小。從原理上保證了系統(tǒng)效果的最優(yōu),在存在可以人工調(diào)整的參數(shù)時(shí),很難保證系統(tǒng)達(dá)到最優(yōu)。
圖7示出本公開另一實(shí)施例提供的一種廣告競(jìng)價(jià)裝置的示意圖,如圖7所示,該廣告競(jìng)價(jià)裝置100中包括:建模模塊110、優(yōu)化模塊120和出價(jià)模塊130。
建模模塊110用于基于增強(qiáng)學(xué)習(xí)算法進(jìn)行建模,得到競(jìng)價(jià)請(qǐng)求、出價(jià)與收益之間關(guān)系的競(jìng)價(jià)模型。優(yōu)化模塊120用于對(duì)競(jìng)價(jià)模型進(jìn)行優(yōu)化,得到優(yōu)化的出價(jià)策略。出價(jià)模塊130用于對(duì)于實(shí)時(shí)的競(jìng)價(jià)請(qǐng)求通過競(jìng)價(jià)模型以及優(yōu)化的出價(jià)策略,給出與實(shí)時(shí)的競(jìng)價(jià)請(qǐng)求相對(duì)應(yīng)的出價(jià)。
其中建模模塊110包括:響應(yīng)子模塊、離散子模塊和計(jì)算子模塊,響應(yīng)子模塊用于響應(yīng)競(jìng)價(jià)請(qǐng)求進(jìn)行競(jìng)價(jià),得到出價(jià);離散子模塊用于對(duì)出價(jià)進(jìn)行離散化處理,得到多個(gè)出價(jià)離散值;計(jì)算子模塊用于如果競(jìng)價(jià)成功則根據(jù)多個(gè)出價(jià)離散值分別計(jì)算得到收益,其中收益為需求方平臺(tái)對(duì)廣告主的計(jì)費(fèi)與廣告交易平臺(tái)對(duì)需求方平臺(tái)的計(jì)費(fèi)之差。
該廣告競(jìng)價(jià)裝置可以實(shí)現(xiàn)如上述實(shí)施例提供的廣告競(jìng)價(jià)方法相同的技術(shù)效果,此處不再贅述。
另一方面,本公開還提供了一種電子裝置,包括處理器和存儲(chǔ)器,存儲(chǔ)器存儲(chǔ)用于上述處理器控制以下的操作的指令:
基于增強(qiáng)學(xué)習(xí)算法進(jìn)行建模,得到競(jìng)價(jià)請(qǐng)求、出價(jià)與收益之間關(guān)系的競(jìng)價(jià)模型;對(duì)競(jìng)價(jià)模型進(jìn)行優(yōu)化,得到優(yōu)化的出價(jià)策略;對(duì)于實(shí)時(shí)的競(jìng)價(jià)請(qǐng)求通過競(jìng)價(jià)模型以及優(yōu)化的出價(jià)策略,給出與實(shí)時(shí)的競(jìng)價(jià)請(qǐng)求相對(duì)應(yīng)的出價(jià)。
下面參考圖8,其示出了適于用來實(shí)現(xiàn)本申請(qǐng)實(shí)施例的電子裝置的計(jì)算機(jī)系統(tǒng)800的結(jié)構(gòu)示意圖。圖8示出的電子裝置僅僅是一個(gè)示例,不應(yīng)對(duì)本申請(qǐng)實(shí)施例的功能和使用范圍帶來任何限制。
如圖8所示,計(jì)算機(jī)系統(tǒng)800包括中央處理單元(cpu)801,其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(rom)802中的程序或者從存儲(chǔ)部分808加載到隨機(jī)訪問存儲(chǔ)器(ram)803中的程序而執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。在ram803中,還存儲(chǔ)有系統(tǒng)800操作所需的各種程序和數(shù)據(jù)。cpu801、rom802以及ram803通過總線804彼此相連。輸入/輸出(i/o)接口805也連接至總線804。
以下部件連接至i/o接口805:包括鍵盤、鼠標(biāo)等的輸入部分806;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚(yáng)聲器等的輸出部分807;包括硬盤等的存儲(chǔ)部分808;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分809。通信部分809經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動(dòng)器810也根據(jù)需要連接至i/o接口805??刹鹦督橘|(zhì)811,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等,根據(jù)需要安裝在驅(qū)動(dòng)器810上,以便于從其上讀出的計(jì)算機(jī)程序根據(jù)需要被安裝入存儲(chǔ)部分808。
特別地,根據(jù)本公開的實(shí)施例,上文參考流程圖描述的過程可以被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序。例如,本公開的實(shí)施例包括一種計(jì)算機(jī)程序產(chǎn)品,其包括承載在計(jì)算機(jī)可讀介質(zhì)上的計(jì)算機(jī)程序,該計(jì)算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實(shí)施例中,該計(jì)算機(jī)程序可以通過通信部分809從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)811被安裝。在該計(jì)算機(jī)程序被中央處理單元(cpu)801執(zhí)行時(shí),執(zhí)行本申請(qǐng)的系統(tǒng)中限定的上述功能。
需要說明的是,本申請(qǐng)所示的計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀介質(zhì)或者是上述兩者的任意組合。計(jì)算機(jī)可讀介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀介質(zhì)的更具體的例子可以包括但不限于:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)訪問存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本申請(qǐng)中,計(jì)算機(jī)可讀介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請(qǐng)中,計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本申請(qǐng)各種實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖或流程圖中的每個(gè)方框、以及框圖或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來實(shí)現(xiàn)。
描述于本申請(qǐng)實(shí)施例中所涉及到的單元可以通過軟件的方式實(shí)現(xiàn),也可以通過硬件的方式來實(shí)現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括發(fā)送單元、獲取單元、確定單元和第一處理單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對(duì)該單元本身的限定,例如,發(fā)送單元還可以被描述為“向所連接的服務(wù)端發(fā)送圖片獲取請(qǐng)求的單元”。
另一方面,本公開還提供了一種計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以是上述實(shí)施例中描述的設(shè)備中所包含的;也可以是單獨(dú)存在,而未裝配入該設(shè)備中。上述計(jì)算機(jī)可讀介質(zhì)承載有一個(gè)或者多個(gè)程序,當(dāng)上述一個(gè)或者多個(gè)程序被一個(gè)該設(shè)備執(zhí)行時(shí),使得該設(shè)備包括:基于增強(qiáng)學(xué)習(xí)算法進(jìn)行建模,得到競(jìng)價(jià)請(qǐng)求、出價(jià)與收益之間關(guān)系的競(jìng)價(jià)模型;對(duì)競(jìng)價(jià)模型進(jìn)行優(yōu)化,得到優(yōu)化的出價(jià)策略;對(duì)于實(shí)時(shí)的競(jìng)價(jià)請(qǐng)求通過競(jìng)價(jià)模型以及優(yōu)化的出價(jià)策略,給出與實(shí)時(shí)的競(jìng)價(jià)請(qǐng)求相對(duì)應(yīng)的出價(jià)。
應(yīng)清楚地理解,本公開描述了如何形成和使用特定示例,但本公開的原理不限于這些示例的任何細(xì)節(jié)。相反,基于本公開公開的內(nèi)容的教導(dǎo),這些原理能夠應(yīng)用于許多其它實(shí)施方式。
以上具體地示出和描述了本公開的示例性實(shí)施方式。應(yīng)可理解的是,本公開不限于這里描述的詳細(xì)結(jié)構(gòu)、設(shè)置方式或?qū)崿F(xiàn)方法;相反,本公開意圖涵蓋包含在所附權(quán)利要求的精神和范圍內(nèi)的各種修改和等效設(shè)置。