欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種搭建個性化推薦引擎的人工智能算法模型的制作方法

文檔序號:11276544閱讀:252來源:國知局
本發(fā)明屬于互聯(lián)網(wǎng)
技術(shù)領(lǐng)域
:,尤其涉及一種搭建個性化推薦引擎的人工智能算法模型.
背景技術(shù)
::目前有些渠道廣告位數(shù)量很多,而且其中大部分的廣告位數(shù)據(jù)量很稀疏。對這些長尾的廣告進行模型學(xué)習(xí),實際效果不穩(wěn)定的問題。參考優(yōu)庫渠道的合并廣告位方式,我們可以考慮一種“聚合”廣告位的方式,對于相似廣告位可以聚合統(tǒng)計數(shù)據(jù)和共享模型參數(shù),對于有差異的廣告位又可以區(qū)分?jǐn)?shù)據(jù)進行訓(xùn)練。參考mixturegaussian(混合高斯分布)和topicmodel(主題模型)的一些概念,我們可以構(gòu)建多個邏輯回歸模型,并引入隱變量z服從多項分布,指定樣本隸屬于哪個邏輯回歸模型。技術(shù)實現(xiàn)要素:本發(fā)明的目的在于提供一種搭建個性化推薦引擎的人工智能算法模型,以解決上述
背景技術(shù)
:中提出的問題。本發(fā)明的目的是通過下述技術(shù)方案予以實現(xiàn):一種搭建個性化引擎推薦的人工智能算法模型,所述搭建個性化推薦引擎的人工智能算法模型的邏輯回歸通過線性加權(quán)和sigmoid變換預(yù)估目標(biāo)事件的發(fā)生概率,搭建個性化推薦引擎的人工智能算法模型的特征的聚合方式和訓(xùn)練數(shù)據(jù)的生成方法,包括以下步驟:1)特征的聚合方式特征聚合的方法為基于絕對值的聚合的方法,我們設(shè)定一些絕對值區(qū)間,根據(jù)點擊率或注冊率把特征聚合到相應(yīng)的區(qū)間;考慮到特征的點擊率或注冊率的分布,我們設(shè)定在值較小的區(qū)域;考慮對點擊率或者注冊率作指數(shù)變換也能達到“在值較小的區(qū)域,劃分區(qū)間也較小”的效果,指數(shù)變換描述如下:x_i是特征i的點擊率或者注冊率,y_i是變換結(jié)果,考慮基于排序的方法,設(shè)定y_i為排序比率:rank_i/n;我們計算alpha的值:以10008渠道的數(shù)據(jù)為例,對點擊率特征計算alpha=0.22,對注冊率特征計算alpha=0.5;我們對變換后y_i進行整數(shù)化,實現(xiàn)特征聚合:由于alpha是基于排序估計出來的,y_i在[0,1]之間的分布較為均勻,因此m的設(shè)定也和聚合后的特征數(shù)也比較接近;我們設(shè)定點擊率模型的m=1000,注冊率模型的m=500;2)代碼流程get_alpha.py計算和測試上述的指數(shù)變換參數(shù)alpha,輸入:行分割的0~1之間的浮點數(shù),輸出:輸入數(shù)據(jù)經(jīng)過指數(shù)變換后在100個分桶的計數(shù)分布,以及alpha值,ctr_feature_stat.sh修改analysis_cross_features任務(wù)使用腳本為analysis_cross_features_alpha.py或analysis_cross_features_share_param.py,以及相關(guān)的配置,例如:analysis_ctr.10008.confrun_all.sh/run_rgr_all.sh指定online標(biāo)志位(第二個參數(shù))即進行模型增量更新:ctr_features_stat.sh讀入配置文件ctr_online_features指定的增量訓(xùn)練數(shù)據(jù)(保證負樣本采樣率和原來數(shù)據(jù)一致),并生成新的mappingtablecal_features.sh讀入上述的增量訓(xùn)練數(shù)據(jù),并生成增量訓(xùn)練樣本;train_model.local.sh讀入增量訓(xùn)練樣本和目前的模型參數(shù),并作增量訓(xùn)練,生成新的ctrmappingtable等。進一步的,所述的搭建個性化引擎的智能算法模型的線上樣品特征缺失的處理方式,包括以下幾種:解決方案1:最初使用的方案,通過復(fù)制一定比例的樣品,然后將特征值設(shè)為-1,來作為沒有特征時該特征的參數(shù),可以較好地解決這個問題;解決方案2:在初始化模型時,將模型的常數(shù)項直接取對應(yīng)樣品統(tǒng)計平均值的參數(shù),使得模型的基準(zhǔn)值變?yōu)楦侠淼慕y(tǒng)計平均值,這樣在缺失特征時,模型也就是回歸到統(tǒng)計平均值,同樣可以解決這個問題;解決方案3:使用解決方案2確定常數(shù)項,同時復(fù)制樣品并且隨機拋棄特征或者使用解決方案1設(shè)-1值。本發(fā)明的有益效果是:1、快速統(tǒng)計分析查詢:indexr使用列式存儲,對于超大量數(shù)據(jù)集,它提供高效的索引,通過過濾掉無關(guān)數(shù)據(jù),快速定位有效數(shù)據(jù),減少io。它使用了優(yōu)秀的apachdrill作為上層查詢引擎。特別適合于ad-hoc的olap查詢。2、數(shù)據(jù)實時導(dǎo)入:indexr支持超高速實時導(dǎo)入數(shù)據(jù)。數(shù)據(jù)一到達indexr節(jié)點,立刻可以被查詢到。實時數(shù)據(jù)和歷史數(shù)據(jù)可以一起查,再也不需要考慮所謂t+1架構(gòu)。且區(qū)分于其他有類似功能的系統(tǒng),indexr永遠不會主動丟棄任何數(shù)據(jù)。3、高效硬件利用率:相較于其他系統(tǒng),indexr可以跑在廉價的機器上。不需要昂貴的ssd硬盤,高端cpu,甚至小型機,你就可以獲得非常好的性能,雖然在上面跑會更加快。雖然跑在jvm上,它手動管理幾乎所有的內(nèi)存,使用經(jīng)過高度設(shè)計、緊湊的數(shù)據(jù)結(jié)構(gòu)。4、集群高可用,易擴展,易管理,簡單:分布式系統(tǒng)發(fā)展到現(xiàn)在,高可用和擴展性已經(jīng)是標(biāo)配了。indexr的特點是結(jié)構(gòu)非常簡單可靠,且只有極少的必須配置項。5、與hadoop生態(tài)的深度整合:indexr把數(shù)據(jù)存放于hdfs。這意味著你可以使用mapreduce,或者任何hadoop工具處理這些文件。我們目前提供了hive插件,用于各種etl相關(guān)工作,或者跑離線任務(wù)。對接spark的工作正在進行,將被使用于數(shù)據(jù)挖掘以及機器學(xué)習(xí)。6、高度壓縮的數(shù)據(jù)格式:indexr以列式存儲,并提供超高的壓縮率,可以顯著的減少io以及網(wǎng)絡(luò)開銷。7、方便的數(shù)據(jù)管理:indexr可以方便的導(dǎo)入、刪除數(shù)據(jù),并且支持修改表schema,如對列的添加、刪除、修改等。具體實施方式具體實施例一種搭建個性化推薦引擎的人工智能算法模型,包括:其特征在于,其邏輯回歸通過線性加權(quán)和sigmoid變換預(yù)估目標(biāo)事件的發(fā)生概率:1)模型描述其中,y是目標(biāo)變量取值{0,1},x是特征向量,w是模型參數(shù)。我們引入隱變量z,樣本x對模型z的隸屬度(softmax),以及對應(yīng)的模型參數(shù)w_z:2)模型訓(xùn)練由于引入了隱變量,我們使用em算法來訓(xùn)練模型。對于數(shù)據(jù)集,模型的對數(shù)似然函數(shù)如下:對于em算法的e-step,我們要讓上述最后的不等式的等式狀態(tài)成立,即讓log后面的部分成為一個常數(shù):其中,p(y,z|x;w)的定義如下:p(y,z|x;w)=p(y|x,z;w)p(z|x;w)w={wz,φz}對于em算法的m-step,我們調(diào)整w,最大化似然函數(shù)的下界:3)mixturelogisticregression我們把mixturelogisticregression算法歸納如下,其中m-step的優(yōu)化可以使用隨機梯度下降,甚至可以考慮基于ftrl的隨機梯度下降(修改其中的梯度計算方式):e-srep:foreachi,j:m-step:foreachi,j:反復(fù)執(zhí)行e-step和m-step直到收斂;為了避免同步更新,最好隨機初始化\phi,不然每個邏輯回歸所學(xué)的參數(shù)會是一樣的;由于引入了隱變量,似然函數(shù)可能不是凸函數(shù),這個模型可能會陷入局部最優(yōu),可能需要多次訓(xùn)練模型并作評估。所述的搭建個性化引擎的智能算法模型的特征的聚合方式和訓(xùn)練數(shù)據(jù)的生成方法,包括以下步驟:1)特征聚合原來的特征聚合是基于排序的,即給定父特征,其下的子特征根據(jù)點擊率或注冊率大小排序,再把它們均勻聚合到若干個分桶;這樣聚合的條件是每天都有變動的,因此聚合后的新特征的物理意義也是不同的;然而,增量學(xué)習(xí)在昨天的訓(xùn)練結(jié)果基礎(chǔ)上,加入當(dāng)天的新樣本繼續(xù)進行訓(xùn)練,要求聚合后的特征物理意義不變;我們把特征聚合的方法改為基于絕對值的,我們設(shè)定一些絕對值區(qū)間,根據(jù)點擊率或注冊率把特征聚合到相應(yīng)的區(qū)間;考慮到特征的點擊率或注冊率的分布,我們設(shè)定在值較小的區(qū)域,劃分區(qū)間也較小;經(jīng)過試驗,這種方式對效果沒有明顯影響;考慮對點擊率或者注冊率作指數(shù)變換也能達到“在值較小的區(qū)域,劃分區(qū)間也較小”的效果,指數(shù)變換描述如下:x_i是特征i的點擊率或者注冊率,y_i是變換結(jié)果,考慮基于排序的方法,設(shè)定y_i為排序比率:rank_i/n;我們計算alpha的值:以10008渠道的數(shù)據(jù)為例,對點擊率特征計算alpha=0.22,對注冊率特征計算alpha=0.5;我們對變換后y_i進行整數(shù)化,實現(xiàn)特征聚合:由于alpha是基于排序估計出來的,y_i在[0,1]之間的分布較為均勻,因此m的設(shè)定也和聚合后的特征數(shù)也比較接近;我們設(shè)定點擊率模型的m=1000,注冊率模型的m=500;2)代碼流程get_alpha.py計算和測試上述的指數(shù)變換參數(shù)alpha,輸入:行分割的0~1之間的浮點數(shù),輸出:輸入數(shù)據(jù)經(jīng)過指數(shù)變換后在100個分桶的計數(shù)分布,以及alpha值ctr_feature_stat.sh修改analysis_cross_features任務(wù)使用腳本為analysis_cross_features_alpha.py或analysis_cross_features_share_param.py,以及相關(guān)的配置,例如:analysis_ctr.10008.confrun_all.sh/run_rgr_all.sh指定online標(biāo)志位(第二個參數(shù))即進行模型增量更新:ctr_features_stat.sh讀入配置文件ctr_online_features指定的增量訓(xùn)練數(shù)據(jù)(保證負樣本采樣率和原來數(shù)據(jù)一致),并生成新的mappingtablecal_features.sh讀入上述的增量訓(xùn)練數(shù)據(jù),并生成增量訓(xùn)練樣本train_model.local.sh讀入增量訓(xùn)練樣本和目前的模型參數(shù),并作增量訓(xùn)練,生成新的ctrmappingtable等。在線上使用lr模型的時候預(yù)估點擊注冊率時,由于模型是由歷史數(shù)據(jù)訓(xùn)練的,當(dāng)線上當(dāng)天出現(xiàn)新的特征,如提交一個新的創(chuàng)意包的時候,模型里并不存在對應(yīng)該特征的參數(shù),預(yù)估結(jié)果就會產(chǎn)生偏差。所述的搭建個性化引擎的智能算法模型的線上樣品特征缺失的處理方式,包括以下幾種:解決方案1:最初使用的方案,通過復(fù)制一定比例的樣品,然后將特征值設(shè)為-1,來作為沒有特征時該特征的參數(shù),可以較好地解決這個問題;缺點:需要對樣品進行額外的處理;在特征稀疏時,復(fù)制少量的樣品很容易偏離原來的統(tǒng)計分布;可以在復(fù)制樣品時直接拋棄特征而不需要增加-1值解決方案2:在初始化模型時,將模型的常數(shù)項直接取對應(yīng)樣品統(tǒng)計平均值的參數(shù),使得模型的基準(zhǔn)值變?yōu)楦侠淼慕y(tǒng)計平均值,這樣在缺失特征時,模型也就是回歸到統(tǒng)計平均值,同樣可以解決這個問題;優(yōu)點:相比方案1,可以收斂得到物理意義合理的參數(shù),因為常數(shù)項直接對應(yīng)樣品統(tǒng)計平均;不需要對樣品進行特殊處理缺點:其它特征之間的共顯關(guān)系,依然會使得參數(shù)收斂到不合理的值解決方案3:使用解決方案2確定常數(shù)項,同時復(fù)制樣品并且隨機拋棄特征或者使用解決方案1設(shè)-1值。線上冷啟動目前,對于新活動(特征里是新sweetypackageid)我們使用樣本的特征采樣來解決:對于每個樣本,以一定概率新建一個樣本,但對其中的特征值修改為-1(表示新特征值);在線上系統(tǒng)遇到新活動,查找模型參數(shù)表,發(fā)現(xiàn)沒有這個活動的模型參數(shù),則修改該活動的特征值為-1,使用默認(rèn)特征值對應(yīng)的模型參數(shù)。這樣相當(dāng)于為新特征學(xué)習(xí)一個“平均”的參數(shù),對于新活動我們用整體平均的狀況來預(yù)估它未來一天的表現(xiàn)。對于新廣告位,我們沒有進行默認(rèn)采樣,不予打分。對于線上的在線學(xué)習(xí),新活動在一天內(nèi)收集到一定的數(shù)據(jù),可能在這天剩下時間內(nèi)能給出這個新活動的預(yù)估值,比平均預(yù)估值要好(畢竟活動見的差異是比較大的)。可以參考業(yè)界討論的explore/exploit的方法,用某種方式來平衡對新事物的探測和對舊事物的開發(fā)。業(yè)界把這個考慮為multi-armedbanditproblems:在一定的時間區(qū)間[1,...,t]內(nèi),每個時刻t可以選擇一項行動a,并獲得相應(yīng)的收益r(a,t),目標(biāo)是使得總收益最大。目前較流行的方法是ucb(upperconfidentbound),即每次選擇可能最大收益(可能是預(yù)估值+預(yù)估值方差)的行動。這樣通過犧牲一些短期收益作探測,追求最大的整體收益。具體來說,競價請求來時,我們對估計候選活動的ecpm及其上界,選取最大ecpm上界的活動進行投放(出價可能還是按ecpm出)。新活動來的ecpm上界可能會比較高,能獲得展示機會;當(dāng)獲得的反饋足夠多,它的ecpm的方差減少,上界也會接近ecpm,即按其真實價值獲得展現(xiàn)機會。我們使用的ftrl邏輯回歸,可以通過訓(xùn)練過程的統(tǒng)計量估計方差和上界,方便ucb方法的實現(xiàn)。explore/exploit問題也有對應(yīng)的評估方法,不過要收集一定的隨機數(shù)據(jù)。特征合并merge文件,對于意義相同的特征,需要將它們映射為同一個值,因此ctrmodel里面會使用merge文件(/usr/local/services/dsp_miner_ctr_rgr_model/train/conf/*.merge)特征合并目前主要有三個情況:節(jié)假日:目前會將節(jié)假日映射為一個特征holidays.merge,是節(jié)日則為1相同廣告位:目前優(yōu)酷的資源分為三個渠道(10008、10022、10060),這些渠道里的廣告位id雖然不同,但位置是相同的,因此訓(xùn)練時希望將它們的數(shù)據(jù)合并。目前是在算法參數(shù)配置頁面(參見)進行設(shè)置,在訓(xùn)練模型時將數(shù)據(jù)轉(zhuǎn)化為merge文件創(chuàng)意包合并:不同的創(chuàng)意包可能實際上是相同的創(chuàng)意,所以會對創(chuàng)意包內(nèi)容進行md5,合并映射之后處理成package.merge。目前是在stat_rate項目里定時調(diào)用合并程序,并在凌晨更新這個文件,參看stat_rate項目的bin/group_package.sh。實驗例以給用戶打游戲產(chǎn)品id標(biāo)簽為例子,假設(shè)下述的游戲為頁游游戲。1.先明確打標(biāo)簽的輸出結(jié)果的格式:userid->[gameid1,gameid2,gameid3,...]2.每個頁游游戲都有官網(wǎng),廣告有落地頁,游戲類型(策略型、動作類、傳奇類、美女類等)3.對于用戶,假設(shè)有用戶喜歡的游戲類型(別的團隊產(chǎn)出的數(shù)據(jù))4.此外,我們可以收集這些數(shù)據(jù):在游戲落地頁停留時間:短暫,中等,長久;游戲落地頁瀏覽次數(shù);游戲主題官網(wǎng)主頁訪問次數(shù);游戲注冊/登陸次數(shù),5.每個動作都有發(fā)生時間,分為7個時間窗口:1天以內(nèi),1-3天,3-7天,7-15天,15-30天,30-60天,60-90天,6.把用戶在游戲上的動作、發(fā)生的時間以及用戶喜歡的游戲類型是否跟游戲類型匹配,構(gòu)造成一個特征向量,可得到:userid_game->[feature1,feature2,feature3,...]7.通過查看每個userid隨后一天在每個游戲(官網(wǎng))上的pv以及click得到每個特征向量的目標(biāo)值,即點擊率8.將去掉label、cookie、gameid后的特征向量匯總,將具有相同行為特征的向量進行合并,進而降低訓(xùn)練樣本的數(shù)量。最終得到的訓(xùn)練樣本數(shù)據(jù)格式如下:featurelist(由維度id組成,:分隔)、點擊率(點擊數(shù)/總pv數(shù))9.把訓(xùn)練樣本數(shù)據(jù)輸入到機器學(xué)習(xí)算法,會產(chǎn)出一個算法模型;10.預(yù)測:i.預(yù)測userid對于gameid的ctr(感興趣程度):把userid在gameid上的行為列表構(gòu)造一個跟訓(xùn)練樣本一樣格式的特征向量,把特征輸入模型,模型會算出一個ctr數(shù)值;ii.按ctr從高到底排序,選出topn個gameid,作為用戶感興趣的游戲標(biāo)簽。直觀模型和數(shù)學(xué)解釋簡單考慮只有一個特征的模型,比如性別。模型具有常數(shù)項參數(shù),設(shè)為c;由于性別是離散特征,所以實際上有兩個不會同時出現(xiàn)的特征g1,g2設(shè)不同的性別各有1000個樣品,正例分別47個和17個,對應(yīng)的點擊率為0.047和0.017,對應(yīng)的權(quán)重為-3和-4,那么訓(xùn)練得到的模型參數(shù)應(yīng)該滿足如下關(guān)系c+g1=-3c+g2=-4顯然有無數(shù)個解可以滿足,由于訓(xùn)練的初始值一般設(shè)為0,因此收斂時得到的參數(shù)都相對接近0,比如c=-1,g1=-2,g2=-3當(dāng)性別特征缺失時,只有常數(shù)項c,得到的點擊率為0.268,遠高于實際情況,傾向于接近原始基準(zhǔn)值0.5應(yīng)用解決方案1隨機復(fù)制一部分樣品,將其性別特征設(shè)為g-1,如果復(fù)制的比例足夠大,這部分樣品的分布應(yīng)該跟總體分布一致,點擊率為0.032,對應(yīng)權(quán)重-3.4因此訓(xùn)練之后的模型應(yīng)該滿足c+g-1=-3.4c+g1=-3c+g2=-4此時其實依然有無數(shù)個解可以滿足,但是當(dāng)特征缺失時,取特征為g-1,則可以滿足總體平均分布應(yīng)用解決方案2直接根據(jù)樣品全局分布設(shè)定常數(shù)項c=-3.4,則訓(xùn)練后的模型滿足-3.4+g1=-3-3.4+g2=-4解得g1=0.4,g2=-0.6,此時各個參數(shù)有唯一值,且具有合理的意義,c代表統(tǒng)計樣品的基準(zhǔn)值,g1和g2表示不同的特征在基準(zhǔn)之上的影響依舊存在的問題:當(dāng)具有多個特征時,不完全的組合依舊會影響參數(shù),如增加一個特征f,兩個可能值f1和f2,訓(xùn)練得到的模型需要滿足c+g1+f1=w1c+g1+f2=w2c+g2+f1=w3c+g2+f2=w4此時如果c可以事先確定,依然有唯一解。但在現(xiàn)實情況下,特征g和特征f的全部組合情況未必能全部在樣品里出現(xiàn),則模型依舊沒有唯一解,特征缺失仍然會帶來影響。不過由于樣品的總體分布(常數(shù)項c)已經(jīng)確定,其貢獻是主要的,其余特征是在總體分布上的加權(quán),此時特征缺失影響較小。應(yīng)用解決方案3根據(jù)方案2得到c=-3.4復(fù)制部分樣品,模型滿足c=-3.4或者c+g-1=-3.4c+g1=-3c+g2=-4直接可以得到合理且唯一的參數(shù)解,當(dāng)然對于多特征的情況,最后得到的條件是無解的,這是因為lr本身基于線性假設(shè),對于不滿足線性的數(shù)據(jù),不可能得到完美解答。此外,應(yīng)當(dāng)理解,雖然本說明書按照實施方式加以描述,但并非每個實施方式僅包含一個獨立的技術(shù)方案,說明書的這種敘述方式僅僅是為清楚起見,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說明書作為一個整體,各實施例中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實施方式。當(dāng)前第1頁12當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
衡阳市| 五华县| 宜兴市| 章丘市| 通城县| 栾川县| 吉水县| 靖江市| 兰州市| 夏津县| 尼木县| 建阳市| 青州市| 利川市| 巴彦淖尔市| 宜兴市| 尚义县| 怀安县| 稻城县| 梁河县| 新巴尔虎右旗| 瑞金市| 满城县| 淮滨县| 景东| 稻城县| 昌宁县| 澜沧| 满城县| 柯坪县| 黔东| 温宿县| 孝昌县| 海阳市| 临清市| 灯塔市| 南京市| 呼图壁县| 吴堡县| 吉水县| 唐河县|