本發(fā)明涉及信息技術(shù)領(lǐng)域,具體涉及一種基于用戶日志的數(shù)據(jù)處理系統(tǒng)。
背景技術(shù):
日志文件在系統(tǒng)運(yùn)行過程中產(chǎn)生,其能夠記錄系統(tǒng)的運(yùn)行狀況和用戶的操作行為,當(dāng)系統(tǒng)運(yùn)行緩慢或異常時,可以通過查看日志文件,解決系統(tǒng)問題,恢復(fù)正常運(yùn)行。用戶日志也是一種重要的信息來源,在社交網(wǎng)站或者商務(wù)網(wǎng)站中,可以通過對用戶日志的挖掘找出用戶的潛在訪問模式,設(shè)計(jì)出更方便用戶訪問的網(wǎng)頁。
用戶日志應(yīng)用在搜索領(lǐng)域中,基于日志的查詢分為:關(guān)聯(lián)規(guī)則推薦、聚類方法推薦、時間分布推薦。關(guān)聯(lián)規(guī)則的方法中,把查詢短語視為關(guān)聯(lián)規(guī)則的項(xiàng),把查詢?nèi)罩究醋鲿挼募?,從而推薦會話中的高頻詞匯;聚類方法是將查詢串進(jìn)行聚類發(fā)現(xiàn)相關(guān)查詢,該方法需要大量豐富的日志數(shù)據(jù)做支撐;時間分布推薦,需要考慮相似查詢的搜索頻率在時間分布上是相似的,特殊的時間點(diǎn)通常有特殊的查詢和推薦,這類方法可以作為其它方法的補(bǔ)充。
傳統(tǒng)的查詢方式是在用戶查詢時,服務(wù)器才進(jìn)行相關(guān)查詢字段的計(jì)算,無法實(shí)現(xiàn)實(shí)時計(jì)算,計(jì)算量大,相對查詢速度較慢,而且對數(shù)據(jù)庫的要求較高,不再能適應(yīng)現(xiàn)在的檢索系統(tǒng)發(fā)展需求。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的以上問題,提供一種基于用戶日志的數(shù)據(jù)處理系統(tǒng),本發(fā)明的數(shù)據(jù)處理系統(tǒng)是基于用戶日志的方式,實(shí)時計(jì)算,能夠較快速地檢索并獲得查詢結(jié)果。
為實(shí)現(xiàn)上述技術(shù)目的,達(dá)到上述技術(shù)效果,本發(fā)明通過以下技術(shù)方案實(shí)現(xiàn):
一種基于用戶日志的數(shù)據(jù)處理系統(tǒng),其包括收集用戶日志端和數(shù)據(jù)處理端,所述收集用戶日志端實(shí)時收集用戶端的操作日志,并將收集的用戶日志傳輸至所述數(shù)據(jù)處理端,
所述數(shù)據(jù)處理端包括:
選擇模塊,所述選擇模塊對實(shí)時收集的用戶日志進(jìn)行選擇,獲得有效的用戶日志,建立第一數(shù)據(jù)集;
標(biāo)記模塊,所述標(biāo)記模塊對所述第一數(shù)據(jù)集中的用戶日志進(jìn)行標(biāo)記,標(biāo)記后的用戶日志建立第二數(shù)據(jù)集;
預(yù)算模塊,所述預(yù)算模塊在所述第二數(shù)據(jù)集中進(jìn)行實(shí)時預(yù)算,建立動態(tài)預(yù)算數(shù)據(jù)集;
匹配模塊,所述匹配模塊將用戶的查詢字段與所述動態(tài)預(yù)算數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行匹配,匹配成功的數(shù)據(jù)將作為查詢結(jié)果推送給用戶;
提取模塊,所述提取模塊從所述第二數(shù)據(jù)集中提取與用戶查詢字段具有相似度的用戶日志數(shù)據(jù),構(gòu)建第三數(shù)據(jù)集;
分類模塊,所述分類模塊對所述第三數(shù)據(jù)集中的用戶日志數(shù)據(jù)進(jìn)行分類,將相同或相似的查詢字段作為查詢串,或者標(biāo)記符號聚類相同的用戶日志進(jìn)行分類,或者查詢頻率時間相同的用戶日志進(jìn)行分類,所述分類模塊構(gòu)建第四數(shù)據(jù)集;
第一處理模塊,所述第一處理模塊根據(jù)查詢規(guī)則建立線性回歸模型,將與查詢字段匹配的用戶日志放入線性回歸模型中,得到處理后的復(fù)合模型,計(jì)算出每一個查詢字段的關(guān)聯(lián)度;
查詢模塊,所述查詢模塊在所述第四數(shù)據(jù)集中查詢到與用戶輸入的查詢字段相匹配的用戶日志作為查詢集,構(gòu)建第五數(shù)據(jù)集;
第二處理模塊,所述第二處理模塊在所述第五數(shù)據(jù)集中,根據(jù)所述第一數(shù)據(jù)處理模塊得到的關(guān)聯(lián)度進(jìn)行排序處理,最后確定N個結(jié)果作為查詢結(jié)果,推送給用戶。
優(yōu)選地,還包括暫存模塊,所述暫存模塊對收集的所述用戶日志進(jìn)行暫存。
優(yōu)選地,所述收集用戶日志端能夠自定義用戶日志,根據(jù)自定義日志格式、日志類型、日志內(nèi)容、日志關(guān)鍵字符,有選擇地收集用戶日志。
優(yōu)選地,所述標(biāo)記模塊的標(biāo)記符號包括:歷史查詢字段、查詢串、時間、聚類名稱。
優(yōu)選地,所述1≤N≤10,N為整數(shù)。
本發(fā)明的有益效果是:
本發(fā)明的數(shù)據(jù)處理系統(tǒng)是基于用戶日志的方式,實(shí)時計(jì)算,能夠較快地出現(xiàn)檢索推薦結(jié)果,該系統(tǒng)的預(yù)算模塊能夠提前預(yù)算結(jié)果,再通過匹配模塊進(jìn)行匹配,如果匹配成功則直接推送至用戶,提前預(yù)算結(jié)果提高了推送結(jié)果的效率,如果沒有提前預(yù)算到結(jié)果,則進(jìn)行計(jì)算。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,并可依照說明書的內(nèi)容予以實(shí)施,以下以本發(fā)明的較佳實(shí)施例并配合附圖詳細(xì)說明如后。本發(fā)明的具體實(shí)施方式由以下實(shí)施例及其附圖詳細(xì)給出。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例技術(shù)中的技術(shù)方案,下面將對實(shí)施例技術(shù)描述中所需要使用的附圖做簡單的介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
圖1是本發(fā)明的系統(tǒng)原理圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
實(shí)施例
參照圖1所示,本實(shí)施例中一種基于用戶日志的數(shù)據(jù)處理系統(tǒng),其包括收集用戶日志端和數(shù)據(jù)處理端,上述收集用戶日志端實(shí)時收集用戶端的操作日志,并將收集的用戶日志傳輸至上述數(shù)據(jù)處理端。
上述收集用戶日志端能夠自定義用戶日志,根據(jù)自定義日志格式、日志類型、日志內(nèi)容、日志關(guān)鍵字符,有選擇地收集用戶日志。
上述數(shù)據(jù)處理端能夠?qū)?shí)時收集的用戶日志進(jìn)行計(jì)算,提前預(yù)算結(jié)果,能夠較快速地推送查詢結(jié)果,如果提前沒有預(yù)算到,則重新計(jì)算。
具體的,上述數(shù)據(jù)處理端包括:選擇模塊,標(biāo)記模塊,預(yù)算模塊,匹配模塊,提取模塊,分類模塊,第一處理模塊,查詢模塊,第二處理模塊,暫存模塊。
其中,上述選擇模塊對實(shí)時收集的用戶日志進(jìn)行選擇,獲得有效的用戶日志,建立第一數(shù)據(jù)集。
上述標(biāo)記模塊對上述第一數(shù)據(jù)集中的用戶日志進(jìn)行標(biāo)記,標(biāo)記后的用戶日志建立第二數(shù)據(jù)集,上述標(biāo)記模塊的標(biāo)記符號包括:歷史查詢字段、查詢串、時間、聚類名稱。
上述預(yù)算模塊從上述第二數(shù)據(jù)集中進(jìn)行實(shí)時預(yù)算,建立動態(tài)預(yù)算數(shù)據(jù)集。
上述匹配模塊將用戶的查詢字段與上述動態(tài)預(yù)算數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行匹配,匹配成功的將確定的結(jié)果作為查詢結(jié)果推送給用戶。
上述提取模塊從上述第二數(shù)據(jù)集中提取與用戶查詢字段具有相似度的用戶日志數(shù)據(jù),構(gòu)建第三數(shù)據(jù)集。
上述分類模塊對上述第三數(shù)據(jù)集中的用戶日志數(shù)據(jù)進(jìn)行分類,將相同或相似的查詢字段作為查詢串,或者標(biāo)記符號聚類相同的用戶日志進(jìn)行分類,或者查詢頻率時間相同的用戶日志進(jìn)行分類,上述分類模塊構(gòu)建第四數(shù)據(jù)集。
上述第一處理模塊根據(jù)查詢規(guī)則建立線性回歸模型,將與查詢字段匹配的用戶日志放入線性回歸模型中,得到處理后的復(fù)合模型,計(jì)算出每一個查詢字段的關(guān)聯(lián)度。
上述查詢模塊在上述第四數(shù)據(jù)集中查詢到與用戶輸入的查詢字段相匹配的用戶日志作為查詢集,構(gòu)建第五數(shù)據(jù)集。
上述第二處理模塊在上述第五數(shù)據(jù)集中,根據(jù)上述第一數(shù)據(jù)處理模塊得到的關(guān)聯(lián)度進(jìn)行排序處理,最后確定N個結(jié)果作為查詢結(jié)果,推送給用戶,上述1≤N≤10,N為整數(shù)。
上述暫存模塊對收集的上述用戶日志進(jìn)行暫存。
上述系統(tǒng)的預(yù)算模塊能夠提前預(yù)算結(jié)果,再通過匹配模塊進(jìn)行匹配,如果匹配成功則直接推送至用戶,提前預(yù)算結(jié)果提高了推送結(jié)果的效率,如果沒有提前預(yù)算到結(jié)果,則進(jìn)行計(jì)算。
對所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對這些實(shí)施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。