本公開涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體而言,涉及一種基于電子商務(wù)的數(shù)據(jù)處理方法與裝置。
背景技術(shù):
隨著電商業(yè)務(wù)的發(fā)展,傳統(tǒng)的“千人一面”搜索推薦系統(tǒng)已不能有效的滿足用戶需求,且我國幅員遼闊,各地域在氣候、習(xí)俗、環(huán)境等方面存在較大的差異。
目前電商的搜索系統(tǒng)主要根據(jù)商品與用戶搜索關(guān)鍵詞的文本相關(guān)性、商品本身信息質(zhì)量等維度對商品進行展示排序,不涉及地域特征;商品推薦系統(tǒng)則主要依據(jù)用戶過往行為、平臺促銷活動、人工運營等方式確定推薦商品,也沒有將地域特征納入推薦因子。因此,在現(xiàn)有的數(shù)據(jù)處理模式下,往往存在著搜索結(jié)果不能精準的貼近用戶需求等問題。例如北方空調(diào)大部分需冷暖模式,而在華南地區(qū)大部分只需制冷模式,當(dāng)華南地區(qū)的用戶搜索空調(diào)時很難獲取到精準貼合需求的搜索結(jié)果。此外,不納入地域特征的推薦,也會導(dǎo)致流量轉(zhuǎn)換損失,甚至引起用戶反感,例如某個時期防霧霾口罩在北方熱銷,但推薦系統(tǒng)卻將該類產(chǎn)品推薦給海南等地的用戶。最后,在地方性傳統(tǒng)節(jié)假日期間,地方特產(chǎn)、服飾等具有區(qū)域性的高銷量,不納入地域特征的搜索推薦系統(tǒng)對此“無能為力”。
因此,需要一種能夠?qū)ι唐返牡赜蛱卣鬟M行挖掘的數(shù)據(jù)處理方法。
需要說明的是,在上述背景技術(shù)部分公開的信息僅用于加強對本公開的背景的理解,因此可以包括不構(gòu)成對本領(lǐng)域普通技術(shù)人員已知的現(xiàn)有技術(shù)的信息。
技術(shù)實現(xiàn)要素:
本公開的目的在于提供一種基于電子商務(wù)的數(shù)據(jù)處理方法與裝置,用于從用戶的搜索行為日志以及商品的物流信息中,通過對數(shù)據(jù)進行清理、集成、計算等處理,輸出關(guān)鍵詞的地域特征畫像,給搜索、推薦、廣告系統(tǒng)提供基礎(chǔ)數(shù)據(jù)支撐。
根據(jù)本公開實施例的第一方面,提供一種基于電子商務(wù)的數(shù)據(jù)處理方法,包括:獲取數(shù)據(jù),數(shù)據(jù)包括用戶搜索日志和物流信息;根據(jù)數(shù)據(jù)獲取基于地域的關(guān)鍵詞權(quán)重值降序排名;根據(jù)基于地域的關(guān)鍵詞權(quán)重值降序排名獲取關(guān)鍵詞在各地域的特征值;根據(jù)特征值標(biāo)注關(guān)鍵詞對應(yīng)的熱點地域。
在本公開的一種示例性實施例中,獲取基于地域的關(guān)鍵詞權(quán)重值降序排名包括:根據(jù)搜索日志獲取基于地域的關(guān)鍵詞搜索pv;根據(jù)物流信息獲取基于地域的關(guān)鍵詞商品數(shù);基于地域?qū)㈥P(guān)鍵詞搜索pv與第一系數(shù)的乘積和關(guān)鍵詞商品數(shù)與第二系數(shù)的乘積相加作為關(guān)鍵詞在地域的權(quán)重值;去除權(quán)重值低于閾值的關(guān)鍵詞,基于地域?qū)﹃P(guān)鍵詞按權(quán)重值進行降序排名。
在本公開的一種示例性實施例中,根據(jù)基于地域的關(guān)鍵詞權(quán)重值降序排名獲取關(guān)鍵詞在各地域的特征值包括:獲取地域的總權(quán)重值降序排名;獲取基于全部地域的關(guān)鍵詞權(quán)重值降序排名;對于各地域,獲取權(quán)重值既在地域排名前n又在全部地域排名前xn的關(guān)鍵詞,n為自然數(shù),x為擴展系數(shù);基于每一關(guān)鍵詞以及每一地域計算特征值:(一地域的一關(guān)鍵詞的權(quán)重值/地域的總權(quán)重值)*(總地域數(shù)/關(guān)鍵詞在地域排名前n的地域數(shù))。
在本公開的一種示例性實施例中,標(biāo)注關(guān)鍵詞對應(yīng)的熱點地域包括:獲取一關(guān)鍵詞在各地域的特征值的方差;去除方差小于閾值的地域,獲取剩余地域的方差降序排名;根據(jù)方差降序排名標(biāo)注關(guān)鍵詞對應(yīng)的熱點地域。
在本公開的一種示例性實施例中,獲取數(shù)據(jù)包括去除數(shù)據(jù)中的爬蟲數(shù)據(jù)、黑名單用戶數(shù)據(jù)、黑名單ip數(shù)據(jù)、無法判斷來源的數(shù)據(jù)以及長尾關(guān)鍵詞。
根據(jù)本公開的一個方面,提供一種基于電子商務(wù)的數(shù)據(jù)處理裝置,包括:數(shù)據(jù)清洗模塊,設(shè)置為獲取數(shù)據(jù),數(shù)據(jù)包括用戶搜索日志和物流信息;數(shù)據(jù)集成模塊,設(shè)置為根據(jù)數(shù)據(jù)獲取基于地域的關(guān)鍵詞權(quán)重值降序排名;數(shù)據(jù)計算模塊,設(shè)置為根據(jù)基于地域的關(guān)鍵詞權(quán)重值降序排名獲取關(guān)鍵詞在各地域的特征值;數(shù)據(jù)標(biāo)注模塊,設(shè)置為根據(jù)特征值標(biāo)注關(guān)鍵詞對應(yīng)的熱點地域。
在本公開的一種示例性實施例中,數(shù)據(jù)集成模塊包括:元素獲取單元,設(shè)置為根據(jù)搜索日志獲取基于地域的關(guān)鍵詞搜索pv,以及根據(jù)物流信息獲取基于地域的關(guān)鍵詞商品數(shù);權(quán)重值計算單元,設(shè)置為基于地域?qū)㈥P(guān)鍵詞搜索pv與第一系數(shù)的乘積和關(guān)鍵詞商品數(shù)與第二系數(shù)的乘積相加作為關(guān)鍵詞在地域的權(quán)重值;權(quán)重值排名單元,設(shè)置為去除權(quán)重值低于閾值的關(guān)鍵詞,基于地域?qū)﹃P(guān)鍵詞按權(quán)重值進行降序排名。
在本公開的一種示例性實施例中,數(shù)據(jù)計算模塊包括:第一權(quán)重值計算單元,設(shè)置為獲取地域的總權(quán)重值降序排名;第二權(quán)重值計算單元,設(shè)置為獲取基于全部地域的關(guān)鍵詞權(quán)重值降序排名;關(guān)鍵詞篩選單元,設(shè)置為對于各地域,獲取權(quán)重值既在地域排名前n又在全部地域排名前xn的關(guān)鍵詞,n為自然數(shù),x為擴展系數(shù);計算單元,設(shè)置為基于每一關(guān)鍵詞以及每一地域計算特征值:(一地域的一關(guān)鍵詞的權(quán)重值/地域的總權(quán)重值)*(總地域數(shù)/關(guān)鍵詞在地域排名前n的地域數(shù))。
在本公開的一種示例性實施例中,數(shù)據(jù)標(biāo)注模塊包括:方差計算單元,設(shè)置為獲取一關(guān)鍵詞在各地域的特征值的方差;地域排序單元,設(shè)置為去除方差小于閾值的地域,獲取剩余地域的方差降序排名;地域標(biāo)注單元,設(shè)置為根據(jù)方差降序排名標(biāo)注關(guān)鍵詞對應(yīng)的熱點地域。
在本公開的一種示例性實施例中,數(shù)據(jù)清洗模塊設(shè)置為去除數(shù)據(jù)中的爬蟲數(shù)據(jù)、黑名單用戶數(shù)據(jù)、黑名單ip數(shù)據(jù)、無法判斷來源的數(shù)據(jù)以及長尾關(guān)鍵詞。
根據(jù)本公開的一個方面,提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)上述任意一項的方法步驟。
根據(jù)本公開的一個方面,提供一種電子設(shè)備,包括存儲器;以及耦合到所屬存儲器的處理器,處理器被配置為基于存儲在存儲器中的指令,執(zhí)行如上述任意一項的方法。
本公開提供的數(shù)據(jù)處理方法與裝置通過對搜索行為及物流信息進行數(shù)據(jù)清理、集成、特征值計算、熱點地域標(biāo)注等處理,能夠真實準確的挖掘出關(guān)鍵詞的地域特征,生成關(guān)鍵詞地域特征畫像,并通過數(shù)據(jù)滾動保證所挖掘數(shù)據(jù)的時效性,最終為搜索推薦等業(yè)務(wù)提供數(shù)據(jù)支持,有助于構(gòu)建“千人千面”的個性化搜索推薦系統(tǒng)。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
附圖說明
此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施例,并與說明書一起用于解釋本公開的原理。顯而易見地,下面描述中的附圖僅僅是本公開的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1示意性示出本公開示例性實施例中數(shù)據(jù)處理方法的流程圖。
圖2示意性示出本公開示例性實施例中數(shù)據(jù)處理方法100中步驟s104的子流程圖。
圖3示意性示出本公開示例性實施例中數(shù)據(jù)處理方法100中步驟s106的子流程圖。
圖4示意性示出本公開示例性實施例中數(shù)據(jù)處理方法100中步驟s108的子流程圖。
圖5意性示出本公開一個示例性實施例中一種數(shù)據(jù)處理裝置的方框圖。
圖6意性示出本公開一個示例性實施例中數(shù)據(jù)處理裝置的工作流程示意圖。
圖7意性示出本公開一個示例性實施例中另一種數(shù)據(jù)處理裝置的方框圖。
具體實施方式
現(xiàn)在將參考附圖更全面地描述示例實施方式。然而,示例實施方式能夠以多種形式實施,且不應(yīng)被理解為限于在此闡述的范例。相反,提供這些實施方式使得本公開將更加全面和完整,并將示例實施方式的構(gòu)思全面地傳達給本領(lǐng)域的技術(shù)人員。所描述的特征、結(jié)構(gòu)或特性可以以任何合適的方式結(jié)合在一個或更多實施方式中。在下面的描述中,提供許多具體細節(jié)從而給出對本公開的實施方式的充分理解。然而,本領(lǐng)域技術(shù)人員將意識到,可以實踐本公開的技術(shù)方案而省略特定細節(jié)中的一個或更多,或者可以采用其它的方法、組元、裝置、步驟等。在其它情況下,不詳細示出或描述公知技術(shù)方案以避免喧賓奪主而使得本公開的各方面變得模糊。
此外,附圖僅為本公開的示意性圖解,圖中相同的附圖標(biāo)記表示相同或類似的部分,因而將省略對它們的重復(fù)描述。附圖中所示的一些方框圖是功能實體,不一定必須與物理或邏輯上獨立的實體相對應(yīng)??梢圆捎密浖问絹韺崿F(xiàn)這些功能實體,或在一個或多個硬件模塊或集成電路中實現(xiàn)這些功能實體,或在不同網(wǎng)絡(luò)和/或處理器裝置和/或微控制器裝置中實現(xiàn)這些功能實體。
下面結(jié)合附圖對本公開示例實施方式進行詳細說明。
圖1示意性示出本公開示例性實施例中數(shù)據(jù)處理方法的流程圖。
參考圖1,數(shù)據(jù)處理方法100可以包括:
步驟s102,獲取數(shù)據(jù),數(shù)據(jù)包括用戶搜索日志和物流信息。
步驟s104,根據(jù)數(shù)據(jù)獲取基于地域的關(guān)鍵詞權(quán)重值降序排名。
步驟s104,根據(jù)基于地域的關(guān)鍵詞權(quán)重值降序排名獲取關(guān)鍵詞在各地域的特征值。
步驟s106,根據(jù)特征值標(biāo)注關(guān)鍵詞對應(yīng)的熱點地域。
數(shù)據(jù)處理方法100主要涉及數(shù)據(jù)清洗、數(shù)據(jù)集成、關(guān)鍵詞地域特征值計算、關(guān)鍵詞畫像等流程。整個計算流程全部采用分布式計算框架,從而可以提高海量數(shù)據(jù)處理能力和數(shù)據(jù)計算時效性。
本公開提供的數(shù)據(jù)處理方法與裝置通過對搜索行為及物流信息進行數(shù)據(jù)清理、集成、特征值計算、熱點地域標(biāo)注等處理,能夠真實準確的挖掘出關(guān)鍵詞的地域特征,生成關(guān)鍵詞地域特征畫像,并通過數(shù)據(jù)滾動保證所挖掘數(shù)據(jù)的時效性,最終為搜索推薦等業(yè)務(wù)提供數(shù)據(jù)支持,有助于構(gòu)建“千人千面”的個性化搜索推薦系統(tǒng)。
下面對數(shù)據(jù)處理方法100的各步驟進行詳細說明。
在步驟s102,獲取用戶搜索日志和物流信息數(shù)據(jù)包括從數(shù)據(jù)倉庫中獲取,也包括從系統(tǒng)實時日志流信息和實時物流信息中獲取。步驟s102也可以稱為數(shù)據(jù)清洗步驟,在此步驟中,輸入的數(shù)據(jù)包括用戶搜索日志和物流信息,輸出的數(shù)據(jù)包括合法搜索日志和物流信息。對數(shù)據(jù)進行清洗的流程可以為去除爬蟲數(shù)據(jù)、去除黑名單用戶id的數(shù)據(jù)、去除黑名單ip數(shù)據(jù)、去除無法判斷來源的數(shù)據(jù)以及去除長尾關(guān)鍵詞。其中,長尾關(guān)鍵詞是指搜索頻率低于閾值、搜索量波動較大的關(guān)鍵詞。上述數(shù)據(jù)清洗流程的順序以及內(nèi)容僅為示例性的,本領(lǐng)域相關(guān)技術(shù)人員可以根據(jù)實際情況對數(shù)據(jù)進行清洗以及整理。
圖2示意性示出本公開示例性實施例中數(shù)據(jù)處理方法100中步驟s104的子流程圖。
參考圖2,步驟s104包括:
步驟s1042,根據(jù)搜索日志獲取基于地域的關(guān)鍵詞搜索pv。
步驟s1044,根據(jù)物流信息獲取基于地域的關(guān)鍵詞商品數(shù)。
步驟s1046,基于地域?qū)㈥P(guān)鍵詞搜索pv與第一系數(shù)的乘積和關(guān)鍵詞商品數(shù)與第二系數(shù)的乘積相加作為關(guān)鍵詞在地域的權(quán)重值。
步驟s1048,去除權(quán)重值低于閾值的關(guān)鍵詞,基于地域?qū)﹃P(guān)鍵詞按權(quán)重值進行降序排名。
步驟s104可以被稱為數(shù)據(jù)集成步驟。在此步驟中,輸入數(shù)據(jù)為步驟s104輸出的搜索日志和物流信息數(shù)據(jù),輸出數(shù)據(jù)為基于地域的關(guān)鍵詞權(quán)重值排序,例如格式為關(guān)鍵詞-地域-權(quán)重值-序號的表格。
在步驟s1042中,可以從搜索日志中統(tǒng)計出格式為關(guān)鍵詞-地域-搜索pv的列表,表示為一個地域的一個商品種類的搜索數(shù)量。
搜索pv(pageview,頁面瀏覽量)是用戶使用搜索接口搜索關(guān)鍵詞的次數(shù),用戶每使用一次搜索接口計一個pv。地域是指根據(jù)搜索日志獲取的用戶ip所在地域,其具體可以為國家、地區(qū)、行政省等分類方式,也可以為其他可以用于區(qū)分地域的分類方式,本公開對此不作特殊限定。但是可以理解的是,本公開所提及的“地域”不論遵從哪一種分類方式,均保持為同一種分類方式。
在步驟s1044中,可以從物流信息中統(tǒng)計出格式為關(guān)鍵詞-地域-商品數(shù)的列表,表示為一地域的一個商品種類的實際購買數(shù)量。
在步驟s1046中,可以將步驟s1042與步驟s1044的結(jié)果按比例求并集,基于地域?qū)⒁粋€關(guān)鍵詞的搜索pv與第一系數(shù)的乘積和商品數(shù)與第二系數(shù)的乘積相加作為該關(guān)鍵詞在該地域的權(quán)重值,并輸出格式為關(guān)鍵詞-地域-權(quán)重值的列表。上述第一系數(shù)與第二系數(shù)可以相等也可以為不等,本公開對此不作特殊限定。例如,當(dāng)關(guān)鍵詞“毛巾”在地域“北京”的搜索pv為10000,且發(fā)貨到“北京”的“毛巾”數(shù)量為1000時,設(shè)置第一系數(shù)為0.2,第二系數(shù)為0.8,則關(guān)鍵詞“毛巾”在地域“北京”的權(quán)重為10000*0.2+1000*0.8=2800。設(shè)置第一系數(shù)以及第二系數(shù)的目的是根據(jù)不同商品之間搜索-購買的比例來調(diào)節(jié)商品的權(quán)重值。例如“衣服”的搜索-購買比例往往明顯大于“冰箱”的搜索-購買比例,此時通過設(shè)置系數(shù)對各商品的搜索-購買比例進行調(diào)整可以更真實反映出商品的實際權(quán)重。
在步驟s1048中,首先需要去除權(quán)重值低于閾值的數(shù)據(jù),從而不再對關(guān)注度低的商品進行統(tǒng)計。閾值的數(shù)值可以自由設(shè)置。其次可以根據(jù)步驟s1046輸出的列表按照權(quán)重值降序排序,輸出格式為關(guān)鍵詞-地域-權(quán)重值-序號的列表。
圖3示意性示出本公開示例性實施例中數(shù)據(jù)處理方法100中步驟s106的子流程圖。
參考圖3,步驟s106包括:
步驟s1062,獲取地域的總權(quán)重值降序排名。
步驟s1064,獲取基于全部地域的關(guān)鍵詞權(quán)重值降序排名。
步驟s1066,對于各地域,獲取權(quán)重值既在地域排名前n又在全部地域排名前xn的關(guān)鍵詞,n為自然數(shù),x為擴展系數(shù)。
步驟s1068,基于每一關(guān)鍵詞以及每一地域計算tf-idf值:
(一地域的一關(guān)鍵詞的權(quán)重值/地域的總權(quán)重值)*(總地域數(shù)/關(guān)鍵詞在地域排名前n的地域數(shù))。
步驟s106的輸入數(shù)據(jù)為步驟s104輸出的關(guān)鍵詞-地域-權(quán)重值-序號數(shù)據(jù),輸出數(shù)據(jù)為格式為關(guān)鍵詞-地域-權(quán)重值-tf-idf值的列表。
在步驟s1062中,統(tǒng)計基于全部關(guān)鍵詞的各地域總權(quán)重值,輸出格式為地域-權(quán)重值的列表。
在步驟s1064中,統(tǒng)計基于全部地域的各關(guān)鍵詞總權(quán)重值,并對各關(guān)鍵詞基于總權(quán)重值降序排列,輸出格式為關(guān)鍵詞-權(quán)重值-序號的列表。
在步驟s1066中,首先可以對各地域提取排名前n的關(guān)鍵詞,輸出格式為關(guān)鍵詞-地域-權(quán)重值的列表;然后根據(jù)步驟s1064輸出的列表提取在全部地域排名前xn的關(guān)鍵詞,輸出格式為關(guān)鍵詞-權(quán)重值的列表。其中n是自然數(shù),x為擴展系數(shù),在一些實施例中,x例如可以等于10。獲取以上兩個列表后,對二者取交集,從而對每個地域獲取權(quán)重值既在地域排名前n又在全部地域范圍內(nèi)排名前xn的關(guān)鍵詞,并輸出格式為關(guān)鍵詞-地域-權(quán)重值的列表。
通過進一步篩選,可以對更有地域代表性的關(guān)鍵詞進行統(tǒng)計,提高數(shù)據(jù)處理效率。
在步驟s1066中,根據(jù)步驟s1062~s1064的輸出結(jié)果計算各關(guān)鍵詞在各地域的特征值。
在本公開的一種示例性實施例中,上述特征值可以為tf-idf值。
tf-idf值是指tf*idf。其中,tf(termfrequency,詞頻)表示詞條t在文檔d中出現(xiàn)的頻率。idf(inversedocumentfrequency,逆向文件頻率)表示包含詞條t的文檔越少,詞條t的類別區(qū)分能力越強。
在本公開的一實施例中,計算tf-idf值的公式可以被設(shè)置為:
(一地域的一關(guān)鍵詞的權(quán)重值/該地域的總權(quán)重值)*(總地域數(shù)/該關(guān)鍵詞在地域排名前n的地域數(shù))(1)
上式涉及到的地域和關(guān)鍵詞均為步驟s1064輸出列表中存在的地域和關(guān)鍵詞。其中,一地域的一關(guān)鍵詞的權(quán)重值為根據(jù)步驟s104輸出的關(guān)鍵詞-地域-權(quán)重值-序號列表數(shù)據(jù)獲取的在一個地域內(nèi)一個關(guān)鍵詞的總權(quán)重值;該地域的總權(quán)重值的數(shù)據(jù)來源為步驟s1062輸出的地域-權(quán)重值的列表;總地域數(shù)為根據(jù)據(jù)步驟s104輸出的關(guān)鍵詞-地域-權(quán)重值-序號數(shù)據(jù)獲取的地域數(shù)量,或者根據(jù)系統(tǒng)設(shè)置獲取的地域數(shù)量;該關(guān)鍵詞在地域排名前n的地域數(shù)為根據(jù)步驟s1066獲取的關(guān)鍵詞-地域-權(quán)重值的列表獲取的與該關(guān)鍵詞有關(guān)聯(lián)的地域數(shù)量。
一地域的一關(guān)鍵詞的權(quán)重值與該地域的總權(quán)重值的比值可以表示一關(guān)鍵詞在一地域的出現(xiàn)頻率,該比值越大越說明該關(guān)鍵詞在該地域中出現(xiàn)頻率高;總地域數(shù)與該關(guān)鍵詞在地域排名前n的地域數(shù)的比值可以表示該關(guān)鍵詞的出現(xiàn)頻率是否有地域特殊性,該比值越大越說明該關(guān)鍵詞的出現(xiàn)有地域特殊性。因此由式(1)可以得知:出現(xiàn)頻率越大、地域特殊性越大的關(guān)鍵詞的tf-idf值越高,即對于該地域的地域特征越明顯。
經(jīng)過計算后,步驟s1066輸出格式為關(guān)鍵詞-地域-權(quán)重值-tf-idf值的列表。通過使用tf-idf算法對關(guān)鍵詞的地域特征進行計算,可以有效規(guī)避各區(qū)域絕對數(shù)據(jù)大小的影響,使本方法的計算結(jié)果更加準確。
在本公開的其他示例性實施例中,tf-idf算法也可以由空間向量余弦算法等算法替代,只要使用計算關(guān)鍵詞顯著特征的算法實施本方法的技術(shù)方案皆在本公開保護范圍之內(nèi)。
圖4示意性示出本公開示例性實施例中數(shù)據(jù)處理方法100中步驟s108的子流程圖。
參考圖4,步驟s108包括:
步驟s1082,獲取一關(guān)鍵詞在各地域的特征值的方差。
步驟s1084,去除方差小于閾值的地域,獲取剩余地域的方差降序排名。
步驟s1086,根據(jù)方差降序排名標(biāo)注關(guān)鍵詞對應(yīng)的熱點地域。
步驟s108的輸入數(shù)據(jù)為步驟s1066輸出的關(guān)鍵詞-地域-權(quán)重值-特征值列表,輸出格式為“關(guān)鍵詞-熱點地域1.地域2…地域n”的列表。
在步驟s1082中,統(tǒng)計關(guān)鍵詞在不同地域特征值的方差。此步驟主要目的是統(tǒng)計關(guān)鍵詞在一個地域的地域特征是否與平均值相比有明顯差異。
在步驟s1084中,對各方差進行處理。首先去除方差小于閾值的地域,即剔除地域特征接近平均值的地域。上述閾值的設(shè)置可根據(jù)實際情況調(diào)整。接下來可以將剩余地域按方差降序排序。
在步驟s1086中,根據(jù)方差降序排序?qū)υ撽P(guān)鍵詞標(biāo)注熱點地域,即具有明顯地域特征的地域??梢詫狳c地域的數(shù)量進行限定,也可以標(biāo)記出所有方差在閾值以上的地域,本領(lǐng)域相關(guān)技術(shù)人員可以根據(jù)實際情況自行設(shè)置。
重復(fù)步驟s108,即可對每個關(guān)鍵詞標(biāo)注其對應(yīng)的熱點地域。標(biāo)注的結(jié)果可以以數(shù)據(jù)圖表、地圖等形式展現(xiàn),也可以作為內(nèi)部數(shù)據(jù)為搜索、推薦、廣告系統(tǒng)等提供數(shù)據(jù)支持。
綜上,數(shù)據(jù)處理方法100通過對搜索行為及物流信息進行數(shù)據(jù)清理、集成、特征值計算、熱點地域標(biāo)注等處理,能夠真實準確的挖掘出關(guān)鍵詞的地域特征,生成關(guān)鍵詞地域特征畫像,并通過數(shù)據(jù)滾動保證所挖掘數(shù)據(jù)的時效性,最終為搜索推薦等業(yè)務(wù)提供數(shù)據(jù)支持,有助于構(gòu)建“千人千面”的個性化搜索推薦系統(tǒng)。
對應(yīng)于上述方法實施例,本公開還提供一種數(shù)據(jù)處理裝置,可以用于執(zhí)行上述方法實施例。
圖5意性示出本公開一個示例性實施例中一種數(shù)據(jù)處理裝置的方框圖。
參考圖5,數(shù)據(jù)處理裝置500可以包括:
數(shù)據(jù)清洗模塊502,設(shè)置為獲取數(shù)據(jù),數(shù)據(jù)包括用戶搜索日志和物流信息。
數(shù)據(jù)集成模塊504,設(shè)置為根據(jù)數(shù)據(jù)獲取基于地域的關(guān)鍵詞權(quán)重值降序排名。
數(shù)據(jù)計算模塊506,設(shè)置為根據(jù)基于地域的關(guān)鍵詞權(quán)重值降序排名獲取關(guān)鍵詞在各地域的特征值。
數(shù)據(jù)標(biāo)注模塊508,設(shè)置為根據(jù)特征值標(biāo)注關(guān)鍵詞對應(yīng)的熱點地域。
在本公開的一種示例性實施例中,數(shù)據(jù)清洗模塊502設(shè)置為去除數(shù)據(jù)中的爬蟲數(shù)據(jù)、黑名單用戶數(shù)據(jù)、黑名單ip數(shù)據(jù)、無法判斷來源的數(shù)據(jù)以及長尾關(guān)鍵詞。
在本公開的一種示例性實施例中,數(shù)據(jù)集成模塊504包括:
元素獲取單元5042,設(shè)置為根據(jù)搜索日志獲取基于地域的關(guān)鍵詞搜索pv,以及根據(jù)物流信息獲取基于地域的關(guān)鍵詞商品數(shù)。
權(quán)重值計算單元5044,設(shè)置為基于地域?qū)㈥P(guān)鍵詞搜索pv與第一系數(shù)的乘積和關(guān)鍵詞商品數(shù)與第二系數(shù)的乘積相加作為關(guān)鍵詞在地域的權(quán)重值。
權(quán)重值排名單元5046,設(shè)置為去除權(quán)重值低于閾值的關(guān)鍵詞,基于地域?qū)﹃P(guān)鍵詞按權(quán)重值進行降序排名。
在本公開的一種示例性實施例中,數(shù)據(jù)計算模塊506包括:
第一權(quán)重值計算單元5062,設(shè)置為獲取地域的總權(quán)重值降序排名。
第二權(quán)重值計算單元5064,設(shè)置為獲取基于全部地域的關(guān)鍵詞權(quán)重值降序排名。
關(guān)鍵詞篩選單元5066,設(shè)置為對于各地域,獲取權(quán)重值既在地域排名前n又在全部地域排名前xn的關(guān)鍵詞,n為自然數(shù),x為擴展系數(shù)。
計算單元5068,設(shè)置為基于每一關(guān)鍵詞以及每一地域計算特征值:
(一地域的一關(guān)鍵詞的權(quán)重值/地域的總權(quán)重值)*(總地域數(shù)/關(guān)鍵詞在地域排名前n的地域數(shù))。
在本公開的一種示例性實施例中,數(shù)據(jù)標(biāo)注模塊508包括:
方差計算單元5082,設(shè)置為獲取一關(guān)鍵詞在各地域的特征值的方差。
地域排序單元5084,設(shè)置為去除方差小于閾值的地域,獲取剩余地域的方差降序排名。
地域標(biāo)注單元5086,設(shè)置為根據(jù)方差降序排名標(biāo)注關(guān)鍵詞對應(yīng)的熱點地域。
由于裝置500的各功能已在其對應(yīng)的方法實施例中予以詳細說明,本公開于此不再贅述。
圖6意性示出本公開一個示例性實施例中數(shù)據(jù)處理裝置500的工作流程示意圖。
參考圖6,數(shù)據(jù)清洗模塊502從數(shù)據(jù)倉庫中獲取搜索行為數(shù)據(jù)以及物流信息數(shù)據(jù),并將篩選后的數(shù)據(jù)發(fā)送給數(shù)據(jù)集成模塊504;數(shù)據(jù)集成模塊504將篩選后的搜索行為數(shù)據(jù)以及物流信息數(shù)據(jù)集成為基于地域的關(guān)鍵詞權(quán)重值列表,并將該列表輸出給數(shù)據(jù)計算模塊506;數(shù)據(jù)計算模塊506根據(jù)該列表計算關(guān)鍵詞對應(yīng)于地域的特征值,并將計算結(jié)果輸出給數(shù)據(jù)標(biāo)注模塊508;數(shù)據(jù)標(biāo)注模塊508對數(shù)據(jù)計算模塊506輸出的各關(guān)鍵詞標(biāo)注其對應(yīng)的熱點地域,并將標(biāo)注結(jié)果發(fā)送給搜索系統(tǒng)、推薦系統(tǒng)、廣告系統(tǒng)以及其他系統(tǒng)作為數(shù)據(jù)支持。
根據(jù)本公開的一個方面,提供一種數(shù)據(jù)處理裝置,包括:
存儲器;以及
耦合到所屬存儲器的處理器,處理器被配置為基于存儲在存儲器中的指令,執(zhí)行如上述任意一項的方法。
該實施例中的裝置的處理器執(zhí)行操作的具體方式已經(jīng)在有關(guān)該數(shù)據(jù)處理方法的實施例中執(zhí)行了詳細描述,此處將不做詳細闡述說明。
圖7是根據(jù)一示例性實施例示出的一種裝置700的框圖。裝置700可以是智能手機、平板電腦等移動終端。
參照圖7,裝置700可以包括以下一個或多個組件:處理組件702,存儲器704,電源組件706,多媒體組件708,音頻組件710,傳感器組件714以及通信組件716。
處理組件702通??刂蒲b置700的整體操作,諸如與顯示,電話呼叫,數(shù)據(jù)通信,相機操作以及記錄操作相關(guān)聯(lián)的操作等。處理組件702可以包括一個或多個處理器718來執(zhí)行指令,以完成上述的方法的全部或部分步驟。此外,處理組件702可以包括一個或多個模塊,便于處理組件702和其他組件之間的交互。例如,處理組件702可以包括多媒體模塊,以方便多媒體組件708和處理組件702之間的交互。
存儲器704被配置為存儲各種類型的數(shù)據(jù)以支持在裝置700的操作。這些數(shù)據(jù)的示例包括用于在裝置700上操作的任何應(yīng)用程序或方法的指令。存儲器704可以由任何類型的易失性或非易失性存儲設(shè)備或者它們的組合實現(xiàn),如靜態(tài)隨機存取存儲器(sram),電可擦除可編程只讀存儲器(eeprom),可擦除可編程只讀存儲器(eprom),可編程只讀存儲器(prom),只讀存儲器(rom),磁存儲器,快閃存儲器,磁盤或光盤。存儲器704中還存儲有一個或多個模塊,該一個或多個模塊被配置成由該一個或多個處理器718執(zhí)行,以完成上述任一所示方法中的全部或者部分步驟。
電源組件706為裝置700的各種組件提供電力。電源組件706可以包括電源管理系統(tǒng),一個或多個電源,及其他與為裝置700生成、管理和分配電力相關(guān)聯(lián)的組件。
多媒體組件708包括在裝置700和用戶之間的提供一個輸出接口的屏幕。在一些實施例中,屏幕可以包括液晶顯示器(lcd)和觸摸面板(tp)。如果屏幕包括觸摸面板,屏幕可以被實現(xiàn)為觸摸屏,以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸摸傳感器以感測觸摸、滑動和觸摸面板上的手勢。觸摸傳感器可以不僅感測觸摸或滑動動作的邊界,而且還檢測與觸摸或滑動操作相關(guān)的持續(xù)時間和壓力。
音頻組件710被配置為輸出和/或輸入音頻信號。例如,音頻組件710包括一個麥克風(fēng)(mic),當(dāng)裝置700處于操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風(fēng)被配置為接收外部音頻信號。所接收的音頻信號可以被進一步存儲在存儲器704或經(jīng)由通信組件716發(fā)送。在一些實施例中,音頻組件710還包括一個揚聲器,用于輸出音頻信號。
傳感器組件714包括一個或多個傳感器,用于為裝置700提供各個方面的狀態(tài)評估。例如,傳感器組件714可以檢測到裝置700的打開/關(guān)閉狀態(tài),組件的相對定位,傳感器組件714還可以檢測裝置700或裝置700一個組件的位置改變以及裝置700的溫度變化。在一些實施例中,該傳感器組件714還可以包括磁傳感器,壓力傳感器或溫度傳感器。
通信組件716被配置為便于裝置700和其他設(shè)備之間有線或無線方式的通信。裝置700可以接入基于通信標(biāo)準的無線網(wǎng)絡(luò),如wifi,2g或3g,或它們的組合。在一個示例性實施例中,通信組件716經(jīng)由廣播信道接收來自外部廣播管理系統(tǒng)的廣播信號或廣播相關(guān)信息。在一個示例性實施例中,通信組件716還包括近場通信(nfc)模塊,以促進短程通信。例如,在nfc模塊可基于射頻識別(rfid)技術(shù),紅外數(shù)據(jù)協(xié)會(irda)技術(shù),超寬帶(uwb)技術(shù),藍牙(bt)技術(shù)和其他技術(shù)來實現(xiàn)。
在示例性實施例中,裝置700可以被一個或多個應(yīng)用專用集成電路(asic)、數(shù)字信號處理器(dsp)、數(shù)字信號處理設(shè)備(dspd)、可編程邏輯器件(pld)、現(xiàn)場可編程門陣列(fpga)、控制器、微控制器、微處理器或其他電子元件實現(xiàn),用于執(zhí)行上述方法。
在本公開的一種示例性實施例中,還提供了一種計算機可讀存儲介質(zhì),其上存儲有程序,該程序被處理器執(zhí)行時實現(xiàn)如上述任意一項的數(shù)據(jù)處理方法。該計算機可讀存儲介質(zhì)例如可以為包括指令的臨時性和非臨時性計算機可讀存儲介質(zhì)。
本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本公開的其它實施方案。本申請旨在涵蓋本公開的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本公開的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本公開的真正范圍和構(gòu)思由權(quán)利要求指出。