本發(fā)明涉及計算機領(lǐng)域,尤其涉及一種構(gòu)建搜索詞庫的方法和裝置。
背景技術(shù):
搜索系統(tǒng)是根據(jù)一定策略、利用特定的計算機程序搜集信息資源,并根據(jù)用戶的輸入向其返回所需信息的系統(tǒng)。隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,搜索系統(tǒng)已成為各互聯(lián)網(wǎng)應(yīng)用領(lǐng)域的核心系統(tǒng)。
在搜索系統(tǒng)中,搜索詞是指與用戶的搜索輸入信息密切相關(guān)、由該搜索輸入信息觸發(fā)供用戶進行選擇的系統(tǒng)預(yù)設(shè)詞。例如,在某搜索系統(tǒng)的輸入框中輸入“茶”,其下拉框即可出現(xiàn)“茶葉”、“茶具”、“茶幾”等詞,輸入框下方位置也可出現(xiàn)“紅茶”、“茉莉花茶”等詞,所述“茶葉”、“茶具”、“茶幾”、“紅茶”、“茉莉花茶”即為由搜索輸入信息“茶”觸發(fā)的搜索詞。在搜索系統(tǒng)中,搜索詞庫用于對搜索詞進行存儲與管理。目前,在通用搜索、專業(yè)文獻檢索等技術(shù)領(lǐng)域,優(yōu)良的搜索詞庫對于提高搜索效率、提升用戶體驗至關(guān)重要。實際應(yīng)用中,搜索詞庫一般通過分析歷史搜索數(shù)據(jù)而建立。
然而,現(xiàn)有的搜索詞庫的構(gòu)建方法至少存在以下問題:
1.搜索詞庫構(gòu)建流程較為復(fù)雜;在初期數(shù)據(jù)源短缺的情況下,缺乏快速構(gòu)建搜索詞庫的能力;
2.在確定搜索詞時,沒有對與新物品對應(yīng)的搜索詞的權(quán)重進行調(diào)整,使得新物品的曝光度較低,影響用戶體驗;
3.現(xiàn)有的搜索詞庫的更新周期一般較為固定,難以根據(jù)數(shù)據(jù)更迭合理變化,系統(tǒng)可用性較差;
4.現(xiàn)有的搜索詞庫的構(gòu)建方法多針對一種特定語言建立,與該種語言耦合度較高,對其它不同語言的適用性較差。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明實施例提供一種構(gòu)建搜索詞庫的方法和裝置,能夠在不同的語言環(huán)境下基于數(shù)據(jù)源快速構(gòu)建搜索詞庫,同時可提高新物品的曝光度,增強用戶體驗。
為實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種構(gòu)建搜索詞庫的方法。
本發(fā)明實施例的構(gòu)建搜索詞庫的方法包括:從數(shù)據(jù)源中確定多個搜索詞、以及所述多個搜索詞中的任一搜索詞對應(yīng)的搜索次數(shù);獲取所述任一搜索詞的初始權(quán)重值,利用所述初始權(quán)重值及該搜索詞對應(yīng)的搜索次數(shù)計算該搜索詞的實際權(quán)重值;選擇實際權(quán)重值符合預(yù)設(shè)權(quán)重條件的搜索詞,構(gòu)建搜索詞庫。
可選地,所述數(shù)據(jù)源包括商品數(shù)據(jù)、和/或日志數(shù)據(jù)。
可選地,所述搜索詞庫為基于一個統(tǒng)計周期的數(shù)據(jù)源構(gòu)建的該統(tǒng)計周期的搜索詞庫。
可選地,所述從數(shù)據(jù)源中確定多個搜索詞、以及所述多個搜索詞中的任一搜索詞對應(yīng)的搜索次數(shù)包括:對所述數(shù)據(jù)源進行分詞處理,獲得兩兩不同的多個搜索詞;對于所述多個搜索詞中的任一搜索詞,統(tǒng)計其在分詞處理后的數(shù)據(jù)源中的出現(xiàn)次數(shù),作為該搜索詞對應(yīng)的搜索次數(shù)。
可選地,所述對所述數(shù)據(jù)源進行分詞處理包括:確定高頻公共詞,利用所述高頻公共詞對所述數(shù)據(jù)源進行分詞處理。
可選地,所述方法進一步包括:在從所述一個統(tǒng)計周期的數(shù)據(jù)源中確定多個搜索詞、以及所述多個搜索詞中的任一搜索詞對應(yīng)的搜索次數(shù)之后,將所述多個搜索詞與上一個統(tǒng)計周期的搜索詞庫中的搜索詞合并。
可選地,所述方法進一步包括:在計算搜索詞的實際權(quán)重值之前,確定該搜索詞的數(shù)據(jù)來源;利用該搜索詞的數(shù)據(jù)來源、初始權(quán)重值及其對應(yīng)的搜索次數(shù)計算該搜索詞的實際權(quán)重值。
可選地,所述獲取所述任一搜索詞的初始權(quán)重值包括:獲取所述任一搜索詞的生命期,利用預(yù)設(shè)的生命期-初始權(quán)重值映射關(guān)系確定該搜索詞的初始權(quán)重值。
可選地,所述方法進一步包括:在構(gòu)建所述一個統(tǒng)計周期的搜索詞庫之后,根據(jù)該統(tǒng)計周期的數(shù)據(jù)源的數(shù)據(jù)量確定下一個統(tǒng)計周期的長度。
為實現(xiàn)上述目的,根據(jù)本發(fā)明的又一方面,提供了一種構(gòu)建搜索詞庫的裝置。
本發(fā)明實施例的構(gòu)建搜索詞庫的裝置包括:搜索詞確定模塊,用于從數(shù)據(jù)源中確定多個搜索詞、以及所述多個搜索詞中的任一搜索詞對應(yīng)的搜索次數(shù);權(quán)重計算模塊,用于獲取所述任一搜索詞的初始權(quán)重值,利用所述初始權(quán)重值及該搜索詞對應(yīng)的搜索次數(shù)計算該搜索詞的實際權(quán)重值;詞庫構(gòu)建模塊,用于選擇實際權(quán)重值符合預(yù)設(shè)權(quán)重條件的搜索詞,構(gòu)建搜索詞庫。
可選地,所述數(shù)據(jù)源包括商品數(shù)據(jù)、和/或日志數(shù)據(jù)。
可選地,所述搜索詞庫為基于一個統(tǒng)計周期的數(shù)據(jù)源構(gòu)建的該統(tǒng)計周期的搜索詞庫。
可選地,所述搜索詞確定模塊用于:在從所述一個統(tǒng)計周期的數(shù)據(jù)源中確定多個搜索詞、以及所述多個搜索詞中的任一搜索詞對應(yīng)的搜索次數(shù)之后,將所述多個搜索詞與上一個統(tǒng)計周期的搜索詞庫中的搜索詞合并。
可選地,所述權(quán)重計算模塊用于:獲取所述任一搜索詞的生命期,利用預(yù)設(shè)的生命期-初始權(quán)重值映射關(guān)系確定該搜索詞的初始權(quán)重值。
可選地,所述裝置還包括:周期計算模塊,用于在構(gòu)建所述一個統(tǒng)計周期的搜索詞庫之后,根據(jù)該統(tǒng)計周期的數(shù)據(jù)源的數(shù)據(jù)量確定下一個統(tǒng)計周期的長度。
為實現(xiàn)上述目的,根據(jù)本發(fā)明的又一方面,提供了一種電子設(shè)備。
本發(fā)明的一種電子設(shè)備包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)本發(fā)明所提供的構(gòu)建搜索詞庫的方法。
為實現(xiàn)上述目的,根據(jù)本發(fā)明的再一方面,提供了一種計算機可讀存儲介質(zhì)。
本發(fā)明的一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)本發(fā)明所提供的構(gòu)建搜索詞庫的方法。
根據(jù)本發(fā)明的技術(shù)方案,上述發(fā)明中的一個實施例具有如下優(yōu)點或有益效果:通過確定搜索詞及其實際權(quán)重值,進而利用實際權(quán)重值選擇一定的搜索詞組成搜索詞庫,實現(xiàn)了搜索詞庫的快速構(gòu)建;在初期數(shù)據(jù)源短缺的情況下,通過確定高頻公共詞并利用高頻公共詞對數(shù)據(jù)源進行分詞,從而增加了初期數(shù)據(jù)量,提高了搜索詞庫的準(zhǔn)確性;通過為新物品對應(yīng)的搜索詞設(shè)置合理的初始權(quán)重值,提升了新物品的曝光度,克服了現(xiàn)有技術(shù)中由于新物品曝光度較低而影響用戶體驗的缺陷;通過對數(shù)據(jù)源數(shù)據(jù)量的判斷,自動調(diào)整搜索詞庫更新周期的長度,從而提升了系統(tǒng)實用性;此外,本發(fā)明實施例所提供的構(gòu)建搜索詞庫的方法語言通用性較強,可在不同語言環(huán)境中、缺乏語言專業(yè)人員的情況下實現(xiàn)搜索詞庫的簡便、快速構(gòu)建。
上述的非慣用的可選方式所具有的進一步效果將在下文中結(jié)合具體實施方式加以說明。
附圖說明
附圖用于更好地理解本發(fā)明,不構(gòu)成對本發(fā)明的不當(dāng)限定。其中:
圖1是根據(jù)本發(fā)明實施例的構(gòu)建搜索詞庫的方法的主要步驟示意圖;
圖2是根據(jù)本發(fā)明實施例的構(gòu)建搜索詞庫的方法的流程示意圖;
圖3是根據(jù)本發(fā)明實施例的構(gòu)建搜索詞庫的裝置的主要部分的示意圖;
圖4是根據(jù)本發(fā)明實施例可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
圖5是用來實現(xiàn)本發(fā)明實施例的構(gòu)建搜索詞庫的方法的電子設(shè)備的結(jié)構(gòu)示意圖。
具體實施方式
以下結(jié)合附圖對本發(fā)明的示范性實施例做出說明,其中包括本發(fā)明實施例的各種細節(jié)以助于理解,應(yīng)當(dāng)將它們認(rèn)為僅僅是示范性的。因此,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)認(rèn)識到,可以對這里描述的實施例做出各種改變和修改,而不會背離本發(fā)明的范圍和精神。同樣,為了清楚和簡明,以下的描述中省略了對公知功能和結(jié)構(gòu)的描述。
本發(fā)明的實施例的技術(shù)方案通過確定搜索詞及其實際權(quán)重值,進而利用實際權(quán)重值選擇一定的搜索詞組成搜索詞庫,實現(xiàn)了搜索詞庫的快速構(gòu)建;在初期數(shù)據(jù)源短缺的情況下,通過確定高頻公共詞并利用高頻公共詞對數(shù)據(jù)源進行分詞,從而增加了初期數(shù)據(jù)量,提高了搜索詞庫的準(zhǔn)確性;通過為新物品對應(yīng)的搜索詞設(shè)置合理的初始權(quán)重值,提升了新物品的曝光度,克服了現(xiàn)有技術(shù)中由于新物品曝光度較低而影響用戶體驗的缺陷;通過對數(shù)據(jù)源數(shù)據(jù)量的判斷,自動調(diào)整搜索詞庫更新周期的長度,從而提升了系統(tǒng)實用性;此外,本發(fā)明實施例所提供的構(gòu)建搜索詞庫的方法語言通用性較強,可在不同語言環(huán)境中、缺乏語言專業(yè)人員的情況下實現(xiàn)搜索詞庫的簡便、快速構(gòu)建。
圖1是根據(jù)本實施例的構(gòu)建搜索詞庫的方法的主要步驟示意圖。
如圖1所示,本發(fā)明實施例的構(gòu)建搜索詞庫的方法主要包括如下步驟:
步驟s101:從數(shù)據(jù)源中確定多個搜索詞以及多個搜索詞中的任一搜索詞對應(yīng)的搜索次數(shù)。
實際應(yīng)用中,所述數(shù)據(jù)源可以是一個統(tǒng)計周期的數(shù)據(jù)源。在本發(fā)明的實施例中,統(tǒng)計周期指的是構(gòu)建搜索詞庫的周期,即搜索詞庫的更新周期。例如:統(tǒng)計周期可以是一天、一小時等。數(shù)據(jù)源可以是與搜索相關(guān)的物品數(shù)據(jù)如商品數(shù)據(jù),可以是日志數(shù)據(jù),也可以同時包含商品數(shù)據(jù)與日志數(shù)據(jù)。一般地,商品數(shù)據(jù)包括商品名稱、商品類目等數(shù)據(jù);日志數(shù)據(jù)包括用于記錄用戶點擊信息的用戶搜索日志、用于記錄用戶搜索框輸入信息的用戶請求日志。實際應(yīng)用中,數(shù)據(jù)源也可以包括工作人員根據(jù)實際需要人工添加的其它數(shù)據(jù)。
具體地,作為一個優(yōu)選方案,步驟s101可按照以下步驟執(zhí)行:
1.對數(shù)據(jù)源進行分詞處理,獲得兩兩不同的多個搜索詞。
實際應(yīng)用中,搜索詞庫構(gòu)建初期往往會遇到數(shù)據(jù)源短缺的不利局面,這給搜索詞庫的快速構(gòu)建帶來困難。在本發(fā)明實施例中,在數(shù)據(jù)處理前期,對數(shù)據(jù)源進行分詞,可增加數(shù)據(jù)量,便于搜索詞庫的快速建立。
具體的,對數(shù)據(jù)源進行分詞的步驟如下:
(1)預(yù)設(shè)一個字?jǐn)?shù)閾值、一個出現(xiàn)次數(shù)閾值及多個用于分詞的窗口長度;對于長度超過該字?jǐn)?shù)閾值的數(shù)據(jù),分別利用每一窗口長度對其進行切分,得到多個詞;
(2)對于切分得到的每一個詞,判斷其出現(xiàn)次數(shù)是否大于出現(xiàn)次數(shù)閾值;若是,將其作為高頻公共詞;
(3)利用高頻公共詞對數(shù)據(jù)源進行分詞,獲得兩兩不同的多個搜索詞。
上述高頻公共詞指的是使用頻繁、詞頻較高、可以用于對數(shù)據(jù)源進行分詞的詞。實際應(yīng)用中,高頻公共詞也可以以其出現(xiàn)次數(shù)結(jié)合與上下文的其它詞組合出現(xiàn)的頻率為標(biāo)準(zhǔn)進行確定。
經(jīng)過上述分詞處理的步驟,即可獲得多個不同的搜索詞。同時,上述分詞方法語言通用性較強,可在不同語言環(huán)境中、缺乏語言專業(yè)人員的情況下實現(xiàn)分詞,為搜索詞庫的構(gòu)建提供數(shù)據(jù)支持。
2.對于多個搜索詞中的任一搜索詞,統(tǒng)計其在分詞處理后的數(shù)據(jù)源中的出現(xiàn)次數(shù),作為該搜索詞對應(yīng)的搜索次數(shù)。
經(jīng)過步驟s101,可以從數(shù)據(jù)源中獲取多個搜索詞及與之對應(yīng)的搜索次數(shù)。之后,可以對上述數(shù)據(jù)執(zhí)行數(shù)據(jù)清洗與數(shù)據(jù)合并的步驟。
在本發(fā)明實施例中,數(shù)據(jù)清洗按照以下步驟執(zhí)行:
1.去除訪問量大于預(yù)設(shè)訪問量閾值的數(shù)據(jù),這種數(shù)據(jù)可視為爬蟲數(shù)據(jù);
2.去除沒有用戶id或無法判定來源的數(shù)據(jù);
3.去除對應(yīng)于黑名單ip的數(shù)據(jù);
4.去除搜索次數(shù)小于預(yù)設(shè)的搜索次數(shù)最小值的數(shù)據(jù)。
實際應(yīng)用中,商品數(shù)據(jù)較為規(guī)范,往往可不執(zhí)行上述數(shù)據(jù)清洗的處理。日志數(shù)據(jù)雜志較多,必須進行數(shù)據(jù)清洗??梢岳斫獾氖?,商品數(shù)據(jù)也可以根據(jù)實際需求選擇進行數(shù)據(jù)清洗。
在本發(fā)明實施例中,數(shù)據(jù)合并可以按照以下步驟執(zhí)行:
1.將從數(shù)據(jù)源得到的搜索詞及其搜索次數(shù)、或者經(jīng)過數(shù)據(jù)清洗的包括搜索詞及其搜索次數(shù)的數(shù)據(jù)與上一個統(tǒng)計周期的搜索詞庫中的數(shù)據(jù)合并。
具體地,上一個統(tǒng)計周期指的是以所述數(shù)據(jù)源對應(yīng)的統(tǒng)計周期為起點,在時間軸上溯得到的最近的一個統(tǒng)計周期。上一個統(tǒng)計周期的搜索詞庫一般包括上一個統(tǒng)計周期的搜索詞及其實際權(quán)重值。較佳地,在進行合并時,可首先將上一個統(tǒng)計周期搜索詞的實際權(quán)重值根據(jù)預(yù)設(shè)換算規(guī)則換算為搜索次數(shù),之后將上述兩個統(tǒng)計周期的搜索詞、搜索次數(shù)進行合并。具體地,對于只出現(xiàn)在一個統(tǒng)計周期的搜索詞,其對應(yīng)的搜索次數(shù)即是合并后的搜索次數(shù);對于出現(xiàn)在兩個統(tǒng)計周期的搜索詞,兩種搜索次數(shù)之和即是該搜索詞合并后的搜索次數(shù)。
經(jīng)過上述處理,在構(gòu)建當(dāng)前的搜索詞庫時,結(jié)合歷史搜索詞庫的數(shù)據(jù),這樣可以豐富構(gòu)建詞庫的數(shù)據(jù),解決構(gòu)建初期數(shù)據(jù)短缺的問題,同時能夠提高搜索詞庫的準(zhǔn)確性。
2.剔除數(shù)據(jù)中的特殊符號如&、#等,將數(shù)據(jù)中的大寫轉(zhuǎn)換為小寫。
3.去除數(shù)據(jù)中的停用詞。
停用詞一般可分為兩類:一類是功能詞如英語中的the、is等;另一類是與搜索關(guān)聯(lián)性較低的詞如英語的want等。
4.提取搜索詞中的詞干。
此步驟包括將搜索詞中的復(fù)數(shù)形式轉(zhuǎn)換為單數(shù)形式。
5.在配置文件中為每一搜索詞標(biāo)記數(shù)據(jù)來源。例如,為來源于商品數(shù)據(jù)的搜索詞增加標(biāo)記a,為來源于日志數(shù)據(jù)的搜索詞增加標(biāo)記b,所述數(shù)據(jù)來源用于后續(xù)的實際權(quán)重值計算。一般地,來源于商品數(shù)據(jù)的搜索詞的可信度較高,因此標(biāo)記a的優(yōu)先級較高。如果一個搜索詞有多個數(shù)據(jù)來源,可只保留優(yōu)先級最高的數(shù)據(jù)來源。
具體應(yīng)用中,搜索詞的數(shù)據(jù)來源可以以鍵值對的形式存儲在配置文件。
經(jīng)過數(shù)據(jù)清洗與數(shù)據(jù)合并后,即可計算搜索詞的實際權(quán)重值,并以實際權(quán)重值為標(biāo)準(zhǔn)確定構(gòu)建搜索詞庫的搜索詞。
步驟s102:獲取任一搜索詞的初始權(quán)重值,利用初始權(quán)重值及該搜索詞對應(yīng)的搜索次數(shù)計算該搜索詞的實際權(quán)重值;
其中,初始權(quán)重值為預(yù)先為每一搜索詞設(shè)置的權(quán)重值,實際權(quán)重值以初始權(quán)重值為基礎(chǔ)進行計算。一般地,搜索詞對應(yīng)的搜索次數(shù)越大,其實際權(quán)重值越高。
在本發(fā)明實施例中,搜索詞的初始權(quán)重值按照以下步驟獲得:
1.建立生命期-初始權(quán)重值映射關(guān)系。
具體地,生命期-初始權(quán)重值映射關(guān)系可以表征搜索詞的生命期與其初始權(quán)重值的一一對應(yīng)關(guān)系。搜索詞的生命期指的是搜索詞或搜索詞對應(yīng)的物品在搜索系統(tǒng)中的存在時間,其單位可以是秒、分、小時、或天等。例如:在通用搜索領(lǐng)域,如果搜索詞“茶”在當(dāng)前構(gòu)建搜索詞庫時為首次出現(xiàn),其生命期為0天。又如:在電子商務(wù)領(lǐng)域,如果搜索詞“電飯煲”在當(dāng)前構(gòu)建搜索詞庫時已存在15天,則其生命期為15天。
現(xiàn)有技術(shù)中,生命期較短的搜索詞往往由于搜索次數(shù)較小,使得其實際權(quán)重值較小,易于被隔離在搜索詞庫之外,導(dǎo)致與該搜索詞或該搜索詞對應(yīng)物品的實際需求不符,影響客戶體驗。因此,在本發(fā)明實施例中,建立生命期-初始權(quán)重值映射關(guān)系,為生命期較短的搜索詞設(shè)置較高的初始權(quán)重值以糾正現(xiàn)有技術(shù)的上述偏頗。所述生命期-初始權(quán)重值映射關(guān)系可設(shè)置為以生命期的自變量,以初始權(quán)重值為函數(shù)值的減函數(shù),即對于不同的搜索詞,初始權(quán)重值隨生命期的增加而減小。
例如:將x作為生命期并以天為單位,y作為初始權(quán)重值,生命期-初始權(quán)重值映射關(guān)系可以是y=100-0.1x。在此映射關(guān)系下,生命期為0天的搜索詞的初始權(quán)重值為100,生命期為100天的搜索詞的初始權(quán)重值為90,生命期為900天的搜索詞的初始權(quán)重值為10。
實際應(yīng)用中,往往將搜索詞的初始權(quán)重值設(shè)置為高于上一個統(tǒng)計周期的搜索詞實際權(quán)重值的平均值,以提升其曝光度。
可以理解的是,上述生命期-初始權(quán)重值映射關(guān)系的設(shè)置只是可選的其中一種方式,并不作為映射關(guān)系設(shè)置的限制。實際應(yīng)用中,工作人員可將生命期-初始權(quán)重值映射關(guān)系靈活設(shè)置為其它各種適用形式。
2.獲取搜索詞的生命期,確定其初始權(quán)重值。
在獲取搜索詞的初始權(quán)重值之后,步驟s102執(zhí)行以下步驟計算搜索詞的實際權(quán)重值:
1.將相似度處于預(yù)設(shè)相似度范圍的詞分為一組,在同一組搜索詞中保留搜索次數(shù)最大的搜索詞,將剩余搜索詞去除。
其中,預(yù)設(shè)相似度范圍可根據(jù)應(yīng)用環(huán)境設(shè)置,如設(shè)置為相似度大于0.8。
2.對數(shù)據(jù)進行切詞處理,進一步增加數(shù)據(jù)量。
3.對數(shù)據(jù)進行平滑處理,將搜索次數(shù)大于預(yù)設(shè)的搜索次數(shù)最大值的搜索詞去除。
實際應(yīng)用中,搜索次數(shù)極大的搜索詞往往與誤操作、惡意操作相關(guān),需將其去除。
4.對數(shù)據(jù)進行無結(jié)果過濾,將不存在對應(yīng)搜索結(jié)果的搜索詞去除。
5.根據(jù)搜索詞的數(shù)據(jù)來源調(diào)整其實際權(quán)重值。具體地,對于配置文件中數(shù)據(jù)來源標(biāo)記優(yōu)先級較高的搜索詞,提高其實際權(quán)重值;對于配置文件中數(shù)據(jù)來源標(biāo)記優(yōu)先級較低的搜索詞,減小其實際權(quán)重值。
6.根據(jù)搜索詞的搜索次數(shù)確定其實際權(quán)重值。一般地,實際權(quán)重值隨搜索次數(shù)的增加而增加,根據(jù)搜索詞對應(yīng)的搜索次數(shù)、以及預(yù)設(shè)的實際權(quán)重值-搜索次數(shù)映射關(guān)系可以確定搜索詞的實際權(quán)重值??梢岳斫獾氖?,在實際權(quán)重值-搜索次數(shù)映射關(guān)系中,一般包含搜索詞的初始權(quán)重值信息,且實際權(quán)重值隨初始權(quán)重值的增加而增加。
例如:實際權(quán)重值-搜索次數(shù)映射關(guān)系可以設(shè)置為
可以理解的是,上述實際權(quán)重值-搜索次數(shù)映射關(guān)系可以根據(jù)需求靈活設(shè)置,上述表達式并不對具體設(shè)置方式進行限制。
需要說明的是,對于確定實際權(quán)重值的上述步驟1-5,可以根據(jù)應(yīng)用環(huán)境選擇其中的一個或多個步驟,也可以均不選擇,直接選擇步驟6進行計算。
例如:可以直接利用步驟6的
又如:執(zhí)行步驟5、6計算實際權(quán)重值。如果來源于商品數(shù)據(jù)的搜索詞的標(biāo)記為a,來源于日志數(shù)據(jù)的搜索詞的標(biāo)記為b,則a大于b。于是實際權(quán)重值-搜索次數(shù)映射關(guān)系需要考慮數(shù)據(jù)來源的不同,可以設(shè)置為:
在獲得搜索詞的實際權(quán)重值之后,可以采用以下一種或多種步驟進行該實際權(quán)重值的進一步調(diào)整:
1.根據(jù)搜索詞與季節(jié)的關(guān)聯(lián)性大小調(diào)整其實際權(quán)重值。
例如:夏季來臨,可在相關(guān)領(lǐng)域調(diào)整“裙子”、“蚊香”等搜索詞的實際權(quán)重值。
2.根據(jù)搜索詞對應(yīng)的商品種類數(shù)量調(diào)整其實際權(quán)重值。
一般地,對應(yīng)的商品種類數(shù)量越多,其實際權(quán)重值越大。
3.根據(jù)實際應(yīng)用環(huán)境對實際權(quán)重值進行人工調(diào)整。例如遇到突發(fā)事件、熱點事件時,對相應(yīng)搜索詞的實際權(quán)重值進行人工調(diào)整。
可以理解的是,工作人員可以根據(jù)實際需求不采用上述調(diào)整步驟的任何一種。
步驟s103:選擇實際權(quán)重值符合預(yù)設(shè)權(quán)重條件的搜索詞,構(gòu)建搜索詞庫。
其中,預(yù)設(shè)權(quán)重條件可以根據(jù)需求設(shè)置,如設(shè)置為大于權(quán)重閾值。
經(jīng)過步驟s101、s102、s103,本發(fā)明實施例的構(gòu)建搜索詞庫的方法可以確定可信度較高的高頻搜索詞,進而快速構(gòu)建準(zhǔn)確性較高的搜索詞庫。同時,可以看到,本發(fā)明實施例的構(gòu)建搜索詞庫的方法語言通用性較強,可在不同語言環(huán)境中、缺乏語言專業(yè)人員的情況下實現(xiàn)搜索詞庫的簡便、快速構(gòu)建。
在構(gòu)建搜索詞庫之后,較佳地,可以根據(jù)當(dāng)前統(tǒng)計周期的數(shù)據(jù)源的數(shù)據(jù)量確定下一個統(tǒng)計周期的長度??梢岳斫獾氖?,下一個統(tǒng)計周期為以當(dāng)前統(tǒng)計周期為起點的下一個統(tǒng)計周期,統(tǒng)計周期的長度指的是統(tǒng)計周期的時間跨度,數(shù)據(jù)源的數(shù)據(jù)量指的是商品數(shù)據(jù)的數(shù)據(jù)量、和/或日志數(shù)據(jù)的數(shù)據(jù)量。一般地,下一個統(tǒng)計周期的長度確定之后,下一次構(gòu)建搜索詞庫時提取商品數(shù)據(jù)與日志數(shù)據(jù)的時間范圍即可確定。
實際應(yīng)用中,搜索系統(tǒng)初期數(shù)據(jù)量較小,不需頻繁更新搜索詞庫,其統(tǒng)計周期長度較大。當(dāng)后期數(shù)據(jù)大量增加時,可縮小統(tǒng)計周期長度以使搜索詞庫與線上的搜索數(shù)據(jù)快速同步,保障業(yè)務(wù)需求。
因此,在本發(fā)明實施例中,可將下一個統(tǒng)計周期的長度設(shè)置為隨當(dāng)前數(shù)據(jù)量的增加而減小。例如:將下一個統(tǒng)計周期的長度與當(dāng)前數(shù)據(jù)量的函數(shù)關(guān)系設(shè)置為反比變化??梢岳斫獾氖?,也可根據(jù)需求將二者的變化關(guān)系設(shè)置為其它形式。
此外,在本發(fā)明實施例中,構(gòu)建搜索詞庫后,可以生成配置文件。該配置文件存儲所述下一個統(tǒng)計周期的長度及每一搜索詞在最近幾次統(tǒng)計周期的實際權(quán)重值變化情況。
通過上述設(shè)置,本發(fā)明的實施例實現(xiàn)了基于當(dāng)前數(shù)據(jù)源數(shù)據(jù)量,自動調(diào)整下一更新周期長度的技術(shù)效果,提升了系統(tǒng)實用性。
圖2是根據(jù)本發(fā)明實施例的構(gòu)建搜索詞庫的方法的流程示意圖。如圖2所示,本發(fā)明實施例的構(gòu)建搜索詞庫的方法執(zhí)行數(shù)據(jù)清洗、數(shù)據(jù)合并、計算權(quán)重、人工干預(yù)、詞庫生成等步驟。其中的優(yōu)質(zhì)詞庫為上一個統(tǒng)計周期的搜索詞庫,配置指的是攜帶有上一個統(tǒng)計周期確定的當(dāng)前統(tǒng)計周期長度的配置文件。整個流程串行循環(huán),數(shù)據(jù)滾動更新,可以依據(jù)上一個周期的數(shù)據(jù)自動調(diào)節(jié)配置,設(shè)定更新周期,最終實現(xiàn)從已有數(shù)據(jù)中提取有效信息,剔除不合格搜索詞,建立包含盡可能多的高頻搜索詞的搜索詞庫,并且可以自動保證后續(xù)更新。
根據(jù)本發(fā)明實施例的構(gòu)建搜索詞庫的方法可以看出,因為采用了確定搜索詞及其實際權(quán)重值,進而利用實際權(quán)重值選擇一定的搜索詞組成搜索詞庫的技術(shù)手段,所以實現(xiàn)了搜索詞庫的快速構(gòu)建;在初期數(shù)據(jù)源短缺的情況下,因為采用了確定高頻公共詞并利用高頻公共詞對數(shù)據(jù)源進行分詞的技術(shù)手段,從而增加了初期數(shù)據(jù)量,提高了搜索詞庫的準(zhǔn)確性;通過為新物品對應(yīng)的搜索詞設(shè)置合理的初始權(quán)重值,提升了新物品的曝光度,克服了現(xiàn)有技術(shù)中由于新物品曝光度較低而影響用戶體驗的缺陷;通過對數(shù)據(jù)源數(shù)據(jù)量的判斷,自動調(diào)整搜索詞庫更新周期的長度,從而提升了系統(tǒng)實用性;此外,本發(fā)明實施例所提供的構(gòu)建搜索詞庫的方法語言通用性較強,可在不同語言環(huán)境中、缺乏語言專業(yè)人員的情況下實現(xiàn)搜索詞庫的簡便、快速構(gòu)建。
圖3示出了本發(fā)明實施例的構(gòu)建搜索詞庫的裝置的主要部分。
如圖3所示,本發(fā)明實施例的構(gòu)建搜索詞庫的裝置300包括搜索詞確定模塊301、權(quán)重計算模塊302以及詞庫構(gòu)建模塊303;
其中:搜索詞確定模塊301可用于從數(shù)據(jù)源中確定多個搜索詞以及所述多個搜索詞中的任一搜索詞對應(yīng)的搜索次數(shù)。
權(quán)重計算模塊302可用于獲取所述任一搜索詞的初始權(quán)重值,利用所述初始權(quán)重值及該搜索詞對應(yīng)的搜索次數(shù)計算該搜索詞的實際權(quán)重值。
詞庫構(gòu)建模塊303可用于選擇實際權(quán)重值符合預(yù)設(shè)權(quán)重條件的搜索詞,構(gòu)建搜索詞庫。
作為一個優(yōu)選方案,所述數(shù)據(jù)源包括商品數(shù)據(jù)、和/或日志數(shù)據(jù),所述搜索詞庫為基于一個統(tǒng)計周期的數(shù)據(jù)源構(gòu)建的該統(tǒng)計周期的搜索詞庫。
實際應(yīng)用中,所述搜索詞確定模塊301可用于對所述數(shù)據(jù)源進行分詞處理,獲得兩兩不同的多個搜索詞;對于所述多個搜索詞中的任一搜索詞,統(tǒng)計其在分詞處理后的數(shù)據(jù)源中的出現(xiàn)次數(shù),作為該搜索詞對應(yīng)的搜索次數(shù)。其中,所述搜索詞確定模塊301對所述數(shù)據(jù)源進行分詞處理可以是:確定高頻公共詞,利用所述高頻公共詞對所述數(shù)據(jù)源進行分詞處理。
在本發(fā)明實施例中,所述搜索詞確定模塊301可用于在從所述一個統(tǒng)計周期的數(shù)據(jù)源中確定多個搜索詞、以及所述多個搜索詞中的任一搜索詞對應(yīng)的搜索次數(shù)之后,將所述多個搜索詞與上一個統(tǒng)計周期的搜索詞庫中的搜索詞合并;還可用于在計算搜索詞的實際權(quán)重值之前,確定該搜索詞的數(shù)據(jù)來源。
較佳地,在本發(fā)明實施例中,權(quán)重計算模塊302可用于獲取任一搜索詞的生命期,利用預(yù)設(shè)的生命期-初始權(quán)重值映射關(guān)系確定該搜索詞的初始權(quán)重值;還可用于利用搜索詞的數(shù)據(jù)來源、初始權(quán)重值及其對應(yīng)的搜索次數(shù)計算該搜索詞的實際權(quán)重值。
此外,本發(fā)明實施例的構(gòu)建搜索詞庫的裝置還包括周期計算模塊,可用于在構(gòu)建所述一個統(tǒng)計周期的搜索詞庫之后,根據(jù)該統(tǒng)計周期的數(shù)據(jù)源的數(shù)據(jù)量確定下一個統(tǒng)計周期的長度。
從以上描述可以看出,因為采用了確定搜索詞及其實際權(quán)重值,進而利用實際權(quán)重值選擇一定的搜索詞組成搜索詞庫的技術(shù)手段,所以實現(xiàn)了搜索詞庫的快速構(gòu)建;在初期數(shù)據(jù)源短缺的情況下,因為采用了確定高頻公共詞并利用高頻公共詞對數(shù)據(jù)源進行分詞的技術(shù)手段,從而增加了初期數(shù)據(jù)量,提高了搜索詞庫的準(zhǔn)確性;通過為新物品對應(yīng)的搜索詞設(shè)置合理的初始權(quán)重值,提升了新物品的曝光度,克服了現(xiàn)有技術(shù)中由于新物品曝光度較低而影響用戶體驗的缺陷;通過對數(shù)據(jù)源數(shù)據(jù)量的判斷,自動調(diào)整搜索詞庫更新周期的長度,從而提升了系統(tǒng)實用性;此外,本發(fā)明實施例所提供的構(gòu)建搜索詞庫的方法語言通用性較強,可在不同語言環(huán)境中、缺乏語言專業(yè)人員的情況下實現(xiàn)搜索詞庫的簡便、快速構(gòu)建。
需要強調(diào)的是,本發(fā)明實施例的構(gòu)建搜索詞庫的方法或構(gòu)建搜索詞庫的裝置能夠適用于各互聯(lián)網(wǎng)技術(shù)領(lǐng)域的搜索詞庫的構(gòu)建,如通用搜索領(lǐng)域、專業(yè)文獻檢索領(lǐng)域、電子商務(wù)領(lǐng)域等。
圖4示出了可以應(yīng)用本發(fā)明實施例的構(gòu)建搜索詞庫的方法或構(gòu)建搜索詞庫的裝置的示例性系統(tǒng)架構(gòu)400。
如圖4所示,系統(tǒng)架構(gòu)400可以包括終端設(shè)備401、402、403,網(wǎng)絡(luò)404和服務(wù)器405(此架構(gòu)僅僅是示例,具體架構(gòu)中包含的組件可以根據(jù)申請具體情況調(diào)整)。網(wǎng)絡(luò)404用以在終端設(shè)備401、402、403和服務(wù)器405之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)404可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
用戶可以使用終端設(shè)備401、402、403通過網(wǎng)絡(luò)404與服務(wù)器405交互,以接收或發(fā)送消息等。終端設(shè)備401、402、403上可以安裝有各種通訊客戶端應(yīng)用,例如購物類應(yīng)用、網(wǎng)頁瀏覽器應(yīng)用、搜索類應(yīng)用、即時通信工具、郵箱客戶端、社交平臺軟件等(僅為示例)。
終端設(shè)備401、402、403可以是具有顯示屏并且支持網(wǎng)頁瀏覽的各種電子設(shè)備,包括但不限于智能手機、平板電腦、膝上型便攜計算機和臺式計算機等等。
服務(wù)器405可以是提供各種服務(wù)的服務(wù)器,例如對用戶利用終端設(shè)備401、402、403所瀏覽的購物類網(wǎng)站提供支持的后臺管理服務(wù)器(僅為示例)。后臺管理服務(wù)器可以對接收到的產(chǎn)品信息查詢請求等數(shù)據(jù)進行分析等處理,并將處理結(jié)果(例如目標(biāo)推送信息、產(chǎn)品信息--僅為示例)反饋給終端設(shè)備。
需要說明的是,本發(fā)明實施例所提供的構(gòu)建搜索詞庫的方法一般由服務(wù)器405執(zhí)行,相應(yīng)地,構(gòu)建搜索詞庫的裝置一般設(shè)置于服務(wù)器405中。
應(yīng)該理解,圖4中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。
本發(fā)明還提供了一種電子設(shè)備。
本發(fā)明實施例的電子設(shè)備包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當(dāng)所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)本發(fā)明所提供的構(gòu)建搜索詞庫的方法。
下面參考圖5,其示出了適于用來實現(xiàn)本發(fā)明實施例的電子設(shè)備的計算機系統(tǒng)500的結(jié)構(gòu)示意圖。圖5示出的電子設(shè)備僅僅是一個示例,不應(yīng)對本發(fā)明實施例的功能和使用范圍帶來任何限制。
如圖5所示,計算機系統(tǒng)500包括中央處理單元(cpu)501,其可以根據(jù)存儲在只讀存儲器(rom)502中的程序或者從存儲部分508加載到隨機訪問存儲器(ram)503中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚?。在ram503中,還存儲有計算機系統(tǒng)500操作所需的各種程序和數(shù)據(jù)。cpu501、rom502以及ram503通過總線504彼此相連。輸入/輸出(i/o)接口505也連接至總線504。
以下部件連接至i/o接口505:包括鍵盤、鼠標(biāo)等的輸入部分506;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分507;包括硬盤等的存儲部分508;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分509。通信部分509經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器510也根據(jù)需要連接至i/o接口505??刹鹦督橘|(zhì)511,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器510上,以便從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分508。
特別地,根據(jù)本發(fā)明公開的實施例,上文的主要步驟圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本發(fā)明實施例包括一種計算機程序產(chǎn)品,其包括承載在計算機可讀介質(zhì)上的計算機程序,該計算機程序包含用于執(zhí)行主要步驟圖所示的方法的程序代碼。在上述實施例中,該計算機程序可以通過通信部分509從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)511被安裝。在該計算機程序被中央處理單元501執(zhí)行時,執(zhí)行本發(fā)明的系統(tǒng)中限定的上述功能。
需要說明的是,本發(fā)明所示的計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導(dǎo)線的電連接、便攜式計算機磁盤、硬盤、隨機訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本發(fā)明中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。在本發(fā)明中,計算機可讀信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述任意合適的組合。計算機可讀信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本發(fā)明各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,上述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這根據(jù)所涉及的功能而定。也要注意的是,框圖或流程圖中的每個方框、以及框圖或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
描述于本發(fā)明實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括搜索詞確定模塊、權(quán)重計算模塊和詞庫構(gòu)建模塊。其中,這些單元的名稱在某種情況下并不構(gòu)成對該單元本身的限定,例如,搜索詞確定模塊還可以被描述為“向權(quán)重計算模塊發(fā)送搜索詞與搜索次數(shù)的單元”。
作為另一方面,本發(fā)明還提供了一種計算機可讀介質(zhì),該計算機可讀介質(zhì)可以是上述實施例中描述的設(shè)備中所包含的;也可以是單獨存在,而未裝配入該設(shè)備中的。上述計算機可讀介質(zhì)承載有一個或者多個程序,當(dāng)上述一個或者多個程序被該設(shè)備執(zhí)行時,使得該設(shè)備執(zhí)行的步驟包括:從數(shù)據(jù)源中確定多個搜索詞、以及所述多個搜索詞中的任一搜索詞對應(yīng)的搜索次數(shù);獲取所述任一搜索詞的初始權(quán)重值,利用所述初始權(quán)重值及該搜索詞對應(yīng)的搜索次數(shù)計算該搜索詞的實際權(quán)重值;選擇實際權(quán)重值符合預(yù)設(shè)權(quán)重條件的搜索詞,構(gòu)建搜索詞庫。
根據(jù)本發(fā)明實施例的技術(shù)方案,通過確定搜索詞及其實際權(quán)重值,進而利用實際權(quán)重值選擇一定的搜索詞組成搜索詞庫,實現(xiàn)了搜索詞庫的快速構(gòu)建;在初期數(shù)據(jù)源短缺的情況下,通過確定高頻公共詞并利用高頻公共詞對數(shù)據(jù)源進行分詞,從而增加了初期數(shù)據(jù)量,提高了搜索詞庫的準(zhǔn)確性;通過為新物品對應(yīng)的搜索詞設(shè)置合理的初始權(quán)重值,提升了新物品的曝光度,克服了現(xiàn)有技術(shù)中由于新物品曝光度較低而影響用戶體驗的缺陷;通過對數(shù)據(jù)源數(shù)據(jù)量的判斷,自動調(diào)整搜索詞庫更新周期的長度,從而提升了系統(tǒng)實用性;此外,本發(fā)明實施例所提供的構(gòu)建搜索詞庫的方法語言通用性較強,可在不同語言環(huán)境中、缺乏語言專業(yè)人員的情況下實現(xiàn)搜索詞庫的簡便、快速構(gòu)建。
上述具體實施方式,并不構(gòu)成對本發(fā)明保護范圍的限制。本領(lǐng)域技術(shù)人員應(yīng)該明白的是,取決于設(shè)計要求和其他因素,可以發(fā)生各種各樣的修改、組合、子組合和替代。任何在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進等,均應(yīng)包含在本發(fā)明保護范圍之內(nèi)。