一種用于購(gòu)物網(wǎng)站的大數(shù)據(jù)分析系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種用于購(gòu)物網(wǎng)站的大數(shù)據(jù)分析系統(tǒng)。
【背景技術(shù)】
[0002]數(shù)據(jù)存貯方面目前同領(lǐng)域基本采用Mysql數(shù)據(jù)庫(kù)的存貯方式,這種存貯結(jié)構(gòu)對(duì)于數(shù)據(jù)量千萬(wàn)級(jí)以下是非常適合的。但是,如果超過(guò)此數(shù)量級(jí)則會(huì)產(chǎn)生嚴(yán)重的數(shù)據(jù)堵塞后果,從而影響系統(tǒng)性能。
【發(fā)明內(nèi)容】
[0003]本發(fā)明的目的旨在至少解決所述技術(shù)缺陷之一。
[0004]為此,本發(fā)明的目的在于提出一種用于購(gòu)物網(wǎng)站的大數(shù)據(jù)分析系統(tǒng),可是實(shí)現(xiàn)集采集、分析、展示于一體,通過(guò)實(shí)時(shí)的數(shù)據(jù)采集,完整的數(shù)據(jù)分析,將數(shù)據(jù)分析結(jié)果展示給客戶。
[0005]為了實(shí)現(xiàn)上述目的,本發(fā)明的實(shí)施例提供一種用于購(gòu)物網(wǎng)站的大數(shù)據(jù)分析系統(tǒng),用于對(duì)購(gòu)物網(wǎng)站的數(shù)據(jù)進(jìn)行采集和分析,所述用于購(gòu)物網(wǎng)站的大數(shù)據(jù)分析系統(tǒng)包括:數(shù)據(jù)采集模塊、數(shù)據(jù)分析模塊和數(shù)據(jù)展現(xiàn)模塊,其中,所述數(shù)據(jù)采集模塊用于采集所述購(gòu)物網(wǎng)站的原始數(shù)據(jù)并存儲(chǔ)至原始數(shù)據(jù)庫(kù)中,其中,所述購(gòu)物網(wǎng)站的原始數(shù)據(jù)包括:全類目數(shù)據(jù)、前后臺(tái)類目關(guān)聯(lián)數(shù)據(jù)、最小類目下的商品信息和店鋪信息;所述數(shù)據(jù)分析模塊用于接收所述原始數(shù)據(jù)庫(kù)中的原始數(shù)據(jù)形成的數(shù)據(jù)分析輸入流,并對(duì)所述數(shù)據(jù)分析輸入流進(jìn)行分析以建立索引和統(tǒng)計(jì),以及對(duì)所述數(shù)據(jù)分析輸入流與所述數(shù)據(jù)采集模塊中的對(duì)應(yīng)數(shù)據(jù)進(jìn)行同步,形成數(shù)據(jù)分析輸出流,并輸出至分析后數(shù)據(jù)庫(kù);所述數(shù)據(jù)展現(xiàn)模塊用于接收所述分析后數(shù)據(jù)庫(kù)中的數(shù)據(jù)分析輸出流的展現(xiàn)數(shù)據(jù),并將所述展現(xiàn)數(shù)據(jù)根據(jù)類型的不同以界面形式展現(xiàn)給用戶查看,以及接收用戶輸入的關(guān)注指令,其中所述關(guān)注指令包括關(guān)注商品的名稱和關(guān)注店鋪的名稱,所述數(shù)據(jù)展現(xiàn)模塊還用于根據(jù)所述關(guān)注指令生成展現(xiàn)系統(tǒng)交互數(shù)據(jù),并將所述展現(xiàn)系統(tǒng)交互數(shù)據(jù)發(fā)送至所述分析后數(shù)據(jù)庫(kù);所述數(shù)據(jù)分析模塊還用于接收所述分析后數(shù)據(jù)庫(kù)中的展現(xiàn)系統(tǒng)交互數(shù)據(jù)形成的展現(xiàn)數(shù)據(jù)反饋輸入流,對(duì)所述展現(xiàn)數(shù)據(jù)反饋輸入流進(jìn)行分析以獲得關(guān)注商品的名稱和關(guān)注店鋪的名稱,對(duì)關(guān)注商品建立索引,以及對(duì)所述關(guān)注商品信息和關(guān)注店鋪信息與所述數(shù)據(jù)展現(xiàn)模塊中的對(duì)應(yīng)數(shù)據(jù)進(jìn)行同步,形成展現(xiàn)數(shù)據(jù)反饋輸出流,將所述成展現(xiàn)數(shù)據(jù)反饋輸出流輸出至所述原始數(shù)據(jù)庫(kù);所述數(shù)據(jù)采集模塊還用于接收所述原始數(shù)據(jù)庫(kù)中的展現(xiàn)數(shù)據(jù)反饋輸出流,并根據(jù)所述展現(xiàn)數(shù)據(jù)反饋輸出流優(yōu)先采集關(guān)注商品和關(guān)注店鋪的信息,并通過(guò)所述數(shù)據(jù)分析模塊和數(shù)據(jù)展現(xiàn)模塊展現(xiàn)給所述用戶查看。
[0006]在本發(fā)明的一個(gè)實(shí)施例中,所述數(shù)據(jù)采集模塊采用Mysql數(shù)據(jù)庫(kù)服務(wù)器,所述數(shù)據(jù)分析模塊和所述數(shù)據(jù)展現(xiàn)模塊采用Mysql數(shù)據(jù)庫(kù)服務(wù)器和Solr數(shù)據(jù)庫(kù)服務(wù)器。
[0007]在本發(fā)明的又一個(gè)實(shí)施例中,所述數(shù)據(jù)采集模塊獲取所述購(gòu)物網(wǎng)站的全類目數(shù)據(jù)包括:所述數(shù)據(jù)采集模塊根據(jù)配置信息進(jìn)行首次運(yùn)行檢測(cè),如果存在類目表,則查詢類目標(biāo)下的一級(jí)類目,否則進(jìn)行全類目查詢;所述數(shù)據(jù)采集模塊調(diào)用所述購(gòu)物網(wǎng)站后臺(tái)類目Api,根據(jù)返回值更新類目表。
[0008]在本發(fā)明的一個(gè)實(shí)施例中,所述數(shù)據(jù)采集模塊獲取所述購(gòu)物網(wǎng)站的前后臺(tái)類目關(guān)聯(lián)數(shù)據(jù)包括:所述數(shù)據(jù)采集模塊根據(jù)更新后的類目表添加一條或多條前臺(tái)一級(jí)類目,根據(jù)所述前臺(tái)一級(jí)類目的前臺(tái)類目ID拼接搜索頁(yè)面;所述數(shù)據(jù)采集模塊根據(jù)頁(yè)面代碼判斷所述前臺(tái)一級(jí)類目是否有下級(jí)目錄,如果有則判斷為父目錄,根據(jù)頁(yè)面獲取下級(jí)目錄信息;如果沒(méi)有下級(jí)目錄,則判斷為子目錄,通過(guò)該目錄下商品獲取對(duì)應(yīng)后臺(tái)類目ID,通過(guò)所述后臺(tái)類目ID獲取相應(yīng)的其他后臺(tái)類屬性。
[0009]在本發(fā)明的又一個(gè)實(shí)施例中,所述數(shù)據(jù)采集模塊獲取所述購(gòu)物網(wǎng)站的最小類目下的商品信息包括:所述數(shù)據(jù)采集模塊根據(jù)需要采集的類目,通過(guò)URL下載頁(yè)面判斷是否存在屬性標(biāo)簽,如果不存在則收集URL地址和屬性信息,如果存在則判斷是否存在子屬性,如果存在子屬性則收集URL地址和子屬性信息,根據(jù)獲得URL地址搜索頁(yè)面,根據(jù)頁(yè)面源碼匹配商品信息。
[0010]在本發(fā)明的再一個(gè)實(shí)施例中,所述數(shù)據(jù)采集模塊獲取所述購(gòu)物網(wǎng)站的最小類目下的店鋪信息和關(guān)注店鋪的信包括:優(yōu)先獲取關(guān)注店鋪的店鋪數(shù)據(jù),然后獲取類目表中的店鋪數(shù)據(jù),判斷是否存在下載店鋪ID拼接的URL頁(yè)面,如果存在,則匹配頁(yè)面并獲取店鋪信息,否則刪除類目表中的相應(yīng)數(shù)據(jù);所述數(shù)據(jù)采集模塊判斷新的店鋪信息是否為空,如果是則添加新店鋪信息,獲取需要新增店鋪的店鋪名,拼接URL地址并判斷是否存在下載頁(yè)面,如果存在,則匹配頁(yè)面獲取店鋪信息。
[0011]在本發(fā)明的一個(gè)實(shí)施例中,所述數(shù)據(jù)采集模塊采集關(guān)注商品信息包括:所述數(shù)據(jù)采集模塊獲取關(guān)注商品ID和關(guān)注店鋪ID,拼接商品詳情頁(yè)URL地址和店鋪搜索頁(yè)URL地址,下載店鋪搜索頁(yè)URL地址,匹配獲取該店鋪下所有商品URL地址,并進(jìn)一步結(jié)合商品詳情頁(yè)URL地址,判斷是否存在商品下載詳情頁(yè)源碼,如果存在則解析出商品信息。
[0012]在本發(fā)明的一個(gè)實(shí)施例中,所述數(shù)據(jù)分析模塊對(duì)所述數(shù)據(jù)分析輸入流和展現(xiàn)數(shù)據(jù)反饋輸入流進(jìn)行分析以建立索引包括:所述數(shù)據(jù)分析模塊首先初始化索引服務(wù),然后初始化所述數(shù)據(jù)分析輸入流和展現(xiàn)數(shù)據(jù)反饋輸入流中商品的所有類目,添加需增加索引的項(xiàng)目,分別為原始商品數(shù)據(jù)和關(guān)注商品添加索引。
[0013]在本發(fā)明的又一個(gè)實(shí)施例中,所述數(shù)據(jù)分析模塊對(duì)數(shù)據(jù)進(jìn)行同步包括:所述數(shù)據(jù)分析模塊加載商品的類目,獲取原始商品數(shù)據(jù)、商品關(guān)注數(shù)據(jù)和店鋪關(guān)注數(shù)據(jù);所述數(shù)據(jù)分析模塊將商品關(guān)注數(shù)據(jù)和店鋪關(guān)注數(shù)據(jù)更新至所述原始數(shù)據(jù)庫(kù);所述數(shù)據(jù)分析模塊對(duì)所述商品數(shù)據(jù)設(shè)置線程,并進(jìn)行數(shù)據(jù)同步和屬性統(tǒng)計(jì)。
[0014]在本發(fā)明的一個(gè)實(shí)施例中,所述數(shù)據(jù)展現(xiàn)模塊展示以下內(nèi)容:登入界面、首頁(yè)界面、行業(yè)分析界面、店鋪分析界面、商品分析界面、賬戶界面和系統(tǒng)管理界面。
[0015]本發(fā)明實(shí)施例的用于購(gòu)物網(wǎng)站的大數(shù)據(jù)分析系統(tǒng)是集采集、分析、展示于一體的綜合性數(shù)據(jù)系統(tǒng),通過(guò)實(shí)時(shí)的數(shù)據(jù)采集,完整的數(shù)據(jù)分析,將數(shù)據(jù)分析結(jié)果展示給客戶。采用全網(wǎng)采集的方式,體現(xiàn)的數(shù)據(jù)量大,被采集對(duì)象更加全面,對(duì)使用對(duì)象分析市場(chǎng)行情、產(chǎn)品研發(fā)有全面的指導(dǎo)作用。本發(fā)明采用Mysql與solr數(shù)據(jù)庫(kù)結(jié)合的方式,以solr非關(guān)系型數(shù)據(jù)庫(kù)做大數(shù)據(jù)量存儲(chǔ),以Mysql做分析統(tǒng)計(jì),兩者結(jié)合可以避免數(shù)據(jù)堵塞,提高系統(tǒng)性會(huì)K。
[0016]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0017]本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0018]圖1為根據(jù)本發(fā)明實(shí)施例的用于購(gòu)物網(wǎng)站的大數(shù)據(jù)分析系統(tǒng)的結(jié)構(gòu)圖;
[0019]圖2為根據(jù)本發(fā)明實(shí)施例的用于購(gòu)物網(wǎng)站的大數(shù)據(jù)分析系統(tǒng)的數(shù)據(jù)交互示意圖;
[0020]圖3為根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)采集模塊的工作流程圖;
[0021]圖4為根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)采集模塊獲取全類目的流程圖;
[0022]圖5為根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)采集模塊獲取前后臺(tái)類目關(guān)聯(lián)的流程圖;
[0023]圖6為根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)采集模塊獲取最小類目下的商品信息的流程圖;
[0024]圖7為根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)采集模塊獲取最小類目下的店鋪信息的流程圖;
[0025]圖8為根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)采集模塊增加店鋪信息的流程圖;
[0026]圖9為根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)采集模塊獲取關(guān)注店鋪下商品及關(guān)注商品的流程圖;
[0027]圖10為根據(jù)本發(fā)明