一種融合季節(jié)銷售信息與搜索行為信息的煙草銷量預(yù)測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及產(chǎn)品銷量預(yù)測領(lǐng)域,尤其涉及一種融合季節(jié)銷售信息與搜索行為信息 的煙草銷量預(yù)測方法。
【背景技術(shù)】
[0002] 隨著煙草行業(yè)市場化程度的不斷加深,如何準(zhǔn)確預(yù)測煙草銷量,進而把握市場需 求,為整個煙草行業(yè)的經(jīng)營提供真實有效的參考和基礎(chǔ)顯得尤為重要。
[0003] 傳統(tǒng)的煙草銷量預(yù)測方模型采用定性預(yù)測或定量預(yù)測方法。定性預(yù)測主要依靠 從業(yè)人員的經(jīng)驗,將其對事物未來發(fā)展做出的性質(zhì)和程度上的判斷作為預(yù)測未來的主要依 據(jù),具有較大的靈活性,包括業(yè)務(wù)主管人員預(yù)測法、銷售人員綜合意見預(yù)測法、消費者調(diào)查 預(yù)測法、德爾菲法等方法,但定性預(yù)測方法具有很強的主觀局限性,人的經(jīng)驗和主觀判斷能 力會直接影響到預(yù)測結(jié)果的準(zhǔn)確度。定量預(yù)測方法偏重于數(shù)量方面的分析,重視預(yù)測對象 的變化程度,能做出變化程度在數(shù)量上的準(zhǔn)確描述,其利用歷史統(tǒng)計數(shù)據(jù)和客觀實際資料 作為預(yù)測的依據(jù),運用數(shù)學(xué)方法進行處理分析,包括算數(shù)平均法、指數(shù)預(yù)測法、簡單移動平 均法、加權(quán)移動平均法、因果預(yù)測分析法等方法,與定性預(yù)測方法相比,定量預(yù)測方法受主 觀因素的影響較小,但比較機械,缺乏定性預(yù)測方法的靈活性,并且對信息資料的要求較 高。隨著越來越多的人趨向于通過搜索引擎做購買前咨詢,搜索查詢量已經(jīng)稱為預(yù)測銷售 趨勢的重要指標(biāo),但是僅使用搜索查詢量預(yù)測銷售趨勢的方法并沒有充分利用搜索日志中 豐富的用戶行為,也無法模擬復(fù)雜的季節(jié)性銷售趨勢。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明要解決的問題是如何在充分利用搜索日志信息中豐富用戶行為的情況下 預(yù)測煙草季節(jié)性銷售趨勢。為了解決上述問題,本發(fā)明的目的是提供一種融合季節(jié)銷售信 息與搜索行為信息的煙草銷量預(yù)測方法,該方法通過分析搜索日志中的搜索行為信息及季 節(jié)性時間序列,基于回歸建立煙草季節(jié)性銷量預(yù)測模型。
[0005] 本發(fā)明基于商業(yè)搜索引擎的查詢?nèi)罩疽约盁煵蒌N售歷史數(shù)據(jù),首先引入用戶行為 模型,使用商業(yè)搜索引擎查詢?nèi)罩局械狞c擊和查詢再形成信息來對相關(guān)查詢詞進行聚類, 并以月為單位計算這些查詢詞出現(xiàn)的頻率;其次引入基于動態(tài)平滑方法的指數(shù)加權(quán)移平均 模型來度量季節(jié)對煙草銷售的影響;最后使用線性回歸方法融合商業(yè)搜索引擎查詢特征與 煙草銷售季節(jié)性特征進行煙草銷量預(yù)測。
[0006] 為了實現(xiàn)上述的目的,本發(fā)明采用了以下的技術(shù)方案:
[0007] -種融合季節(jié)銷售信息與搜索行為信息的煙草銷量預(yù)測方法,該方法包括以下步 驟:
[0008] -、對煙草銷售相關(guān)查詢的聚類階段:
[0009] 步驟1,讀取搜索引擎日志數(shù)據(jù);
[0010] 步驟2,把網(wǎng)絡(luò)搜索引擎日志劃分為用戶級的會話;
[0011] 步驟3,在搜索引擎日志中選擇m個與煙草銷售及知名煙草品牌相關(guān)的查詢詞; [0012] 步驟4,對于給定的查詢,分別提取出點擊率最高的前k個文檔的集合、查詢再形 成集合、查詢共現(xiàn)集合;
[0013] 步驟5,利用步驟4提取出的數(shù)據(jù)集合構(gòu)建有向圖,該圖是點擊二分圖與查詢流圖 的融合圖,捕捉了用戶的一系列查詢再形成行為;
[0014] 步驟6,通過對有向圖執(zhí)行η階隨機游走,計算出每個查詢結(jié)點的文檔訪問概率分 布向量;
[0015] 步驟7,使用文檔訪問概率分布向量間的余弦相似度來判斷共現(xiàn)查詢之間的相關(guān) 性;
[0016] 步驟8,如果余弦相似度大于閾值Θ并且查詢不在相關(guān)查詢集合內(nèi),則把查詢加 入相關(guān)查詢集合并作為新的查詢中心,重復(fù)步驟4到步驟8,直至完成迭代;
[0017] 步驟9,輸出與煙草銷售相關(guān)的查詢集合;
[0018] 二、特征提取階段,包括提取搜索查詢特征和提取季節(jié)特征兩個子階段:
[0019] 1)提取搜索查詢特征
[0020] 步驟1,統(tǒng)計從對煙草銷售相關(guān)查詢的聚類階段生成的相關(guān)查詢集在歷史時期以 月為單位出現(xiàn)的次數(shù);
[0021] 步驟2,根據(jù)煙草歷史銷售數(shù)據(jù)中出現(xiàn)相關(guān)查詢的次數(shù)對所有相關(guān)查詢排序;
[0022] 步驟3,根據(jù)步驟2的排序結(jié)果,把前k個相關(guān)查詢作為搜索查詢特征;
[0023] 2)提取季節(jié)性特征
[0024] 步驟1,根據(jù)煙草歷史銷售數(shù)據(jù)初始化季節(jié)性調(diào)整銷售數(shù)據(jù);
[0025] 步驟2,根據(jù)煙草歷史銷售數(shù)據(jù)初始化線性趨勢系數(shù);
[0026] 步驟3,根據(jù)煙草歷史銷售數(shù)據(jù)初始化季節(jié)性影響的銷售比例系數(shù);
[0027] 步驟4,用指數(shù)加權(quán)移動平均模型對預(yù)測月進行銷量預(yù)測,其預(yù)測結(jié)果作為季節(jié)性 特征;
[0028] 步驟5,根據(jù)步驟4中每次預(yù)測后的結(jié)果動態(tài)調(diào)整參數(shù)值來平滑季節(jié)性調(diào)整銷售 數(shù)據(jù)、線性趨勢系數(shù)、季節(jié)性影響的銷售比例系數(shù),選擇與最近24個月真實銷量最相關(guān)的 參數(shù)值,并把該值用于下一次預(yù)測;
[0029] 三、建立預(yù)測模型階段:
[0030] 步驟1,提取搜索查詢特征;
[0031] 步驟2,提取季節(jié)性特征;
[0032] 步驟3,用線性回歸模型融合搜索查詢特征與季節(jié)性特征;
[0033] 步驟4,輸出融合模型的預(yù)測結(jié)果。
[0034] 作為進一步改進,所述的煙草銷售相關(guān)查詢的聚類階段包括以下步驟:
[0035] 步驟1,讀取搜索引擎日志數(shù)據(jù);
[0036] 步驟2,把網(wǎng)絡(luò)搜索引擎日志劃分為用戶級的會話,其中每個會話表示用戶在時間 閾值內(nèi)提交給搜索引擎的一個連續(xù)查詢序列;
[0037] 步驟3,在搜索引擎日志中選擇m個與煙草銷售及知名煙草品牌相關(guān)的查詢詞 Qseed 5
[0038] 步驟4,對于給定的查詢q e q_d,分別提取出以下信息:
[0039] a)提取k個點擊率最商的文檔集D (q),其中D (q)表不關(guān)于查詢q的點擊率最商 的前k個文檔集;
[0040] b)提取查詢再形成集合:
[0042] 其中#(q)表示會話
【主權(quán)項】
1. 一種融合季節(jié)銷售信息與搜索行為信息的煙草銷量預(yù)測方法,其特征在于該方法包 括以下步驟: 一、 對煙草銷售相關(guān)查詢的聚類階段: 步驟1,讀取搜索引擎日志數(shù)據(jù); 步驟2,把網(wǎng)絡(luò)搜索引擎日志劃分為用戶級的會話; 步驟3,在搜索引擎日志中選擇m個與煙草銷售及知名煙草品牌相關(guān)的查詢詞; 步驟4,對于給定的查詢,分別提取出點擊率最高的前k個文檔的集合、查詢再形成集 合、查詢共現(xiàn)集合; 步驟5,利用步驟4提取出的數(shù)據(jù)集合構(gòu)建有向圖,該圖是點擊二分圖與查詢流圖的融 合圖,捕捉了用戶的一系列查詢再形成行為; 步驟6,通