專利名稱:一種日志信息管理方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)站管理技術(shù)領(lǐng)域,尤其涉及一種日志信息管理方法及系統(tǒng)。
背景技術(shù):
互聯(lián)網(wǎng)的快速發(fā)展使人們對網(wǎng)站設(shè)計(jì)和功能提出了更高的要求,這些要求包括 具有智能性、快速、準(zhǔn)確地找到用戶所需信息;能為不同用戶提供不同的服務(wù);能為管理者 提供產(chǎn)品營銷策略信息等等。利用對網(wǎng)站日志的挖掘分析,可以掌握訪問者歷史信息,有目的優(yōu)化站點(diǎn)內(nèi)容和 設(shè)計(jì)、使網(wǎng)站能夠適應(yīng)訪問者的口味和習(xí)慣,從而提高用戶的體驗(yàn)、忠誠度回訪率;通過多 角度的分析,多種格式的報(bào)告,得知網(wǎng)站的運(yùn)營是否健康,從而為管理者提供營銷參考信 息。網(wǎng)站服務(wù)器日志是運(yùn)營商對網(wǎng)站運(yùn)營狀態(tài)分析的有效依據(jù),網(wǎng)站日志記錄著所有用戶 操作的記錄。當(dāng)網(wǎng)站運(yùn)營商需要了解訪問者的訪問狀況或者在受到攻擊時(shí),都需查看日志信息 以進(jìn)行相應(yīng)的分析,其查看的操作是隨機(jī)進(jìn)行的,而由于日志信息的初始格式并不相同,操 作者在獲取日志信息后,都需要從獲取的日志信息中選出網(wǎng)站日志信息,然后將所述網(wǎng)站 日志信息進(jìn)行格式轉(zhuǎn)換,最后才能進(jìn)行網(wǎng)站日志信息的分析,從而產(chǎn)生分析操作延時(shí),進(jìn)而 導(dǎo)致運(yùn)營商無法及時(shí)了解網(wǎng)站的運(yùn)營狀況。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明目的在于提供一種日志信息管理方法及系統(tǒng),有效的解決服務(wù) 器在對日志的分析操作時(shí)的延時(shí)問題,使運(yùn)營商在第一時(shí)間了解網(wǎng)站的運(yùn)營狀況。為了實(shí)現(xiàn)上述目的,本發(fā)明提供了如下技術(shù)方案一種網(wǎng)站日志信息管理系統(tǒng),包括日志信息管理單元、日志信息抽取格式化單 元、數(shù)據(jù)統(tǒng)一集中單元和網(wǎng)站日志信息提供單元,其中所述日志信息管理單元用于配置同一服務(wù)器端的日志信息的格式為預(yù)設(shè)格式, 以及,定時(shí)截取日志信息并保存,從中選出網(wǎng)站日志信息并存儲(chǔ)于預(yù)先建立的日志回收服 務(wù)器中;所述日志信息抽取格式化單元用于格式化日志回收服務(wù)器中存儲(chǔ)的網(wǎng)站日志信 息;所述數(shù)據(jù)統(tǒng)一集中單元用于將經(jīng)過格式化的網(wǎng)站日志信息進(jìn)行分類,形成多個(gè) 數(shù)據(jù)集市并存儲(chǔ);所述網(wǎng)站日志信息提供單元,用于在接收到查看網(wǎng)站日志信息請求時(shí),提供相應(yīng) 的網(wǎng)站日志信息。優(yōu)選的,所述日志回收服務(wù)器包括一級日志回收點(diǎn)和二級日志回收點(diǎn);所述一級日志回收點(diǎn)用于存儲(chǔ)所有網(wǎng)絡(luò)日志信息中選出的帶寬情況良好的網(wǎng)站 日志fn息;
所述二級日志回收點(diǎn)用于存儲(chǔ)除所述一級日志回收點(diǎn)存儲(chǔ)的網(wǎng)站日志信息之外 的網(wǎng)站日志信息。優(yōu)選的,所述一級日志回收點(diǎn)和/或二級日志回收點(diǎn)的存儲(chǔ)方式為RAID6并劃分 虛擬卷方式。優(yōu)選的,所述日志信息抽取格式化單元包括抽取單元,用于抽取網(wǎng)絡(luò)日志信息;轉(zhuǎn)換單元,用于將所述抽取單元抽取的網(wǎng)絡(luò)日志信息轉(zhuǎn)換成預(yù)定格式的網(wǎng)絡(luò)日志 fn息;裝載單元,用于將所述預(yù)定格式的網(wǎng)絡(luò)日志信息進(jìn)行存儲(chǔ)。優(yōu)選的,所述日志信息抽取格式化單元還包括觸發(fā)器,用于產(chǎn)生控制所述抽取單 元、轉(zhuǎn)換單元和裝載單元工作的觸發(fā)信號(hào)。優(yōu)選的,所述觸發(fā)器包括行觸發(fā)器和表觸發(fā)器。優(yōu)選的,所述日志信息抽取格式化單元進(jìn)行處理的網(wǎng)絡(luò)日志信息包括基礎(chǔ)數(shù)據(jù)層 數(shù)據(jù),粒度放大層數(shù)據(jù)和數(shù)據(jù)集市層數(shù)據(jù)。一種網(wǎng)站日志信息管理方法,包括配置同一服務(wù)器日志信息格式;定時(shí)截取日志信息并保存;從所述截獲的日志信息中選取網(wǎng)站日志信息并存儲(chǔ)于預(yù)先建立的日志回收服務(wù) 器中;將所述日志回收服務(wù)器中存儲(chǔ)的網(wǎng)站日志信息格式化處理,轉(zhuǎn)換成符合預(yù)定格式 的網(wǎng)絡(luò)日志信息;將經(jīng)過所述預(yù)定格式的網(wǎng)站日志信息進(jìn)行分類形成多個(gè)數(shù)據(jù)集市,并存儲(chǔ),便于 在接收到查看網(wǎng)站日志信息請求時(shí),提供相應(yīng)的網(wǎng)站日志信息給操作者。優(yōu)選的,將網(wǎng)絡(luò)日志信息存儲(chǔ)于預(yù)先建立的日志回收服務(wù)器包括預(yù)設(shè)一級回收點(diǎn)和二級回收點(diǎn),用以對日志信息進(jìn)行分類回收; 所述一級日志回收點(diǎn)選取存儲(chǔ)所有數(shù)據(jù)中的帶寬情況良好的網(wǎng)站日志信息;所述二級日志回收點(diǎn)存儲(chǔ)除所述一級日志回收點(diǎn)存儲(chǔ)的數(shù)據(jù)之外的數(shù)據(jù)。優(yōu)選的,在將所述網(wǎng)站日志信息進(jìn)行格式化處理前還包括將網(wǎng)絡(luò)日志信息分為基礎(chǔ)數(shù)據(jù)層數(shù)據(jù)、粒度放大層數(shù)據(jù)和數(shù)據(jù)集市層數(shù)據(jù);將上 述每層數(shù)據(jù)再進(jìn)行分層,在每層中把所有數(shù)據(jù)用數(shù)列連接,便于對數(shù)據(jù)的處理。從上述技術(shù)方案可以看出,本發(fā)明通過對服務(wù)器中的日志進(jìn)行統(tǒng)一配置,并預(yù)設(shè) 日志回收服務(wù)器,通過日志回收服務(wù)器定時(shí)存儲(chǔ)網(wǎng)站日志信息,將回收服務(wù)器中的日志信 息進(jìn)行格式化處理,并將處理過的日志信息統(tǒng)一集中存儲(chǔ),以供網(wǎng)站維護(hù)者(或稱為網(wǎng)站 操作者)隨機(jī)獲取、分析。也就是說,在網(wǎng)站維護(hù)者需要了解網(wǎng)站當(dāng)前運(yùn)營情況時(shí),可以直 接獲取經(jīng)過格式化處理后的網(wǎng)站日志信息并進(jìn)行分析,從而減小了處理時(shí)延,進(jìn)而使網(wǎng)站 維護(hù)者能夠及時(shí)了解網(wǎng)站當(dāng)前的運(yùn)營情況。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)
5有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明系統(tǒng)的結(jié)構(gòu)圖;圖2為本發(fā)明方法的流程圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。如圖1所示本發(fā)明公開了一種日志信息管理系統(tǒng),包括日志信息管理單元1、日 志信息抽取格式化單元2、數(shù)據(jù)統(tǒng)一集中單元3和網(wǎng)站日志信息提供單元4。所述日志信息管理單元1根據(jù)互聯(lián)網(wǎng)服務(wù)器的分類,針對服務(wù)器類型的不同 (apache的web服務(wù)器\squid的緩存服務(wù)器\ftp的文件管理服務(wù)器\流媒體的源服務(wù)器 \流媒體的廣播服務(wù)器)配置各自的統(tǒng)一的日志格式,這樣能確保日志的產(chǎn)生時(shí)的格式在 同類服務(wù)器中是完全統(tǒng)一的。日志的配置盡可能采用互聯(lián)網(wǎng)的標(biāo)準(zhǔn)W3C格式,確保日志的 二次處理能最大可能的降低抽取和轉(zhuǎn)換的比例,并且日志的存放要放置在空間較大的存儲(chǔ) 空間。因網(wǎng)站的運(yùn)營使日志處于不斷地更新中,對網(wǎng)站日志進(jìn)行定時(shí)截取,從而保證為運(yùn)營 商提供網(wǎng)站各個(gè)時(shí)段的運(yùn)營情況。服務(wù)器在被訪問時(shí),日志的產(chǎn)生無可避免要有固定的位置,而且是唯一的位置,這 就給日志的回收造成了 一定的麻煩,因?yàn)樾枰诓婚g斷的日志回收系統(tǒng)和不間斷對外提供 服務(wù)的服務(wù)器找一個(gè)互不影響的機(jī)制,因此我們會(huì)在保證不影響服務(wù)器的前提下,創(chuàng)建一 個(gè)獨(dú)立的日志回收體系和通道,在服務(wù)器的物理分布和網(wǎng)路質(zhì)量兩個(gè)維度找一個(gè)平衡的地 點(diǎn),放置日志回收的服務(wù)器,而全網(wǎng)多個(gè)這樣的日志回收服務(wù)器組成了完整的日志回收服 務(wù)器組,再加上我們希望日志的保存要做到冗余,因此我們會(huì)將整個(gè)網(wǎng)絡(luò)分成幾個(gè)大的區(qū) 域,在各區(qū)域之間和之中都放置主從關(guān)系的日志服務(wù)器,即建立一級日志回收點(diǎn),選取所有 數(shù)據(jù)中心中的骨干節(jié)點(diǎn)(帶寬足,到各數(shù)據(jù)中心延時(shí)相對最小),創(chuàng)建二級日志回收點(diǎn),每 一個(gè)日志回收點(diǎn)的存儲(chǔ)空間確保能夠保證收集日志日最大產(chǎn)出量的50倍的空間,并且要 做到每一個(gè)日志回收點(diǎn)的存儲(chǔ)采用RAID6并劃分虛擬卷的技術(shù)來確保存儲(chǔ)的安全性,每一 個(gè)日志回收點(diǎn)需要一個(gè)異地?zé)醾浞?,采用rsync技術(shù)實(shí)時(shí)同步,確保日志回收點(diǎn)的單點(diǎn)不 可訪問的故障對日志的保存不會(huì)造成任何影響。數(shù)據(jù)的抽取格式化單元2進(jìn)一步包括抽取單元,轉(zhuǎn)換單元和裝載單元,對收集上 來的各種日志進(jìn)行抽取,轉(zhuǎn)換和裝載即ETL技術(shù)。抽取單元,用于抽取網(wǎng)絡(luò)日志信息;轉(zhuǎn)換 單元,用于將所述抽取單元抽取的網(wǎng)絡(luò)日志信息轉(zhuǎn)換成預(yù)定格式的網(wǎng)絡(luò)日志信息;裝載單 元,用于將所述預(yù)定格式的網(wǎng)絡(luò)日志信息進(jìn)行存儲(chǔ)。我們將整個(gè)導(dǎo)出的過程分成若干的層次,根據(jù)順序性,跨越性和不可逆性,可 以規(guī)定所有Job只能向下調(diào)用,絕對不允許向上調(diào)用,不過允許向下跨層調(diào)用。這樣在 DataStage這個(gè)ETL工具中,各個(gè)Job根據(jù)其在ETL過程中所處的階段,可分別放入各個(gè)層次,利用層次間的關(guān)系來約束Job的關(guān)系,從而確保各個(gè)Job的調(diào)用關(guān)系得以明確。因此可將ETL對數(shù)據(jù)處理分為三個(gè)層次基礎(chǔ)數(shù)據(jù)層,粒度放大層,數(shù)據(jù)集市層 (即在基礎(chǔ)數(shù)據(jù)層中的Job都完成后才能做粒度放大的Job,在粒度放大后才能做數(shù)據(jù)集市 的Job)每層中又細(xì)分了若干個(gè)小的層次。在每一層中把所有的Job全部都用一個(gè)序列連 接起來,這樣當(dāng)每天運(yùn)行分布在各層的所有Job的時(shí)候,只需要按照從低到高的順序,運(yùn)行 每層中的序列,就可以保證每個(gè)Job運(yùn)行出的數(shù)據(jù)都是一致的,從而避免了因?yàn)镴ob調(diào)用順 序混亂導(dǎo)致數(shù)據(jù)不一致的情況出現(xiàn)。ETL實(shí)現(xiàn)過程中由于處理的是海量的日志信息,而且涉及到多個(gè)系統(tǒng),這些系統(tǒng) 往往都是核心系統(tǒng),在技術(shù)的使用上需要考慮到把對源系統(tǒng)的性能和可靠性的影響降到最 低,因此在實(shí)現(xiàn)過程中會(huì)具體采用了以下幾個(gè)方面的技術(shù)觸發(fā)器是一種特殊類型的存儲(chǔ)過程,主要是通過事件進(jìn)行觸發(fā)而被執(zhí)行的。在日 志的抽取過程中,根據(jù)不同種類的日志格式創(chuàng)建不同的觸發(fā)機(jī)制,而實(shí)現(xiàn)轉(zhuǎn)換為統(tǒng)一格式 化的日志信息。觸發(fā)器可以有行觸發(fā)器和表觸發(fā)器兩種行觸發(fā)器這類觸發(fā)器在觸發(fā)時(shí)僅僅鎖住觸發(fā)的行,而表中其他的行還是可以操 作的,但此類的觸發(fā)器無法在觸發(fā)時(shí)更改表本身。表觸發(fā)器這類觸發(fā)器在觸發(fā)時(shí)會(huì)鎖住表,從而此時(shí)對表除檢索外的所有的操作 將被鎖定,但此類觸發(fā)器無法獲取更新前或更新后的數(shù)據(jù)。因此我們會(huì)在日志的產(chǎn)生的初期就將日志分割截取,確保后面的ETL實(shí)現(xiàn)過程 中,不會(huì)遇到日志信息的更新,而只需要保證日志文件能夠被及時(shí)送達(dá)ETL處就可以了。同時(shí)為了確保ETL的并發(fā)處理,我們選擇了行觸發(fā)器,這樣就讓多個(gè)ETL處理一各 文件變的可能,從而對系統(tǒng)的效率提高的最高。也降低了單臺(tái)ETL的故障對整體ETL實(shí)現(xiàn) 過程的影響可能。為了提高導(dǎo)出的效率,在實(shí)現(xiàn)過程中采用了增量導(dǎo)出方案,為了進(jìn)行增量導(dǎo)出就 要建立增量的起點(diǎn)時(shí)間,有了這個(gè)起點(diǎn)時(shí)間,系統(tǒng)就有了尋找新更改記錄的起點(diǎn),以后每次 只要導(dǎo)出這個(gè)時(shí)間點(diǎn)之后變更的記錄,并在確認(rèn)成功導(dǎo)出后更新這個(gè)時(shí)間點(diǎn)就可以了。為了保證數(shù)據(jù)的質(zhì)量,需要自動(dòng)處理,自動(dòng)處理的原則是在增量成功的時(shí)間點(diǎn) 后,刪除本條記錄,再重新增量導(dǎo)出新的記錄。所述數(shù)據(jù)統(tǒng)一集中單元3將經(jīng)過格式化的網(wǎng)站日志信息進(jìn)行分類,形成多個(gè)數(shù)據(jù) 集市并存儲(chǔ)。ETL為數(shù)據(jù)集市的建立創(chuàng)建了一個(gè)完整的,能反映歷史變化的和結(jié)構(gòu)一致的平臺(tái), 這樣一個(gè)數(shù)據(jù)倉庫平臺(tái)的建立為根據(jù)用戶的需求開發(fā)面向主題的數(shù)據(jù)集市奠定了基礎(chǔ)。所有日志的分析報(bào)表的價(jià)值是通過使用者的設(shè)計(jì)而體現(xiàn)的,使用者是業(yè)務(wù)的專 家,而專家應(yīng)該主動(dòng)站在系統(tǒng)實(shí)現(xiàn)的角度,幫助每一個(gè)查詢報(bào)表的用戶分析出各個(gè)數(shù)據(jù)在 報(bào)表中的角色,然后設(shè)計(jì)出合適的數(shù)據(jù)結(jié)構(gòu),這樣就形成了數(shù)據(jù)集市。通常日志的分析報(bào)表的需求來源主要來自兩個(gè)方面,一個(gè)是行業(yè)專家,一個(gè)是使 用和查詢分析報(bào)表的用戶,不論需求來自哪里,都是對不同數(shù)據(jù)的在不同維度的角色上的 定義,而這些角色的定義就組成了一套數(shù)據(jù)的組合,而根據(jù)對這些數(shù)據(jù)的合理組合,就形成 了一套完整的數(shù)據(jù)集市,只要確保任何一種數(shù)據(jù)在原始日志中可以獲取到,那么就可以將其通過ETL的實(shí)現(xiàn)過程集中到數(shù)據(jù)集市,而ETL的實(shí)現(xiàn)過程是相對獨(dú)立的,這就確保了整體 分析系統(tǒng)的快速擴(kuò)展性。網(wǎng)站日志信息提供單元4,用于在接收到查看網(wǎng)站日志信息請求時(shí),提供相應(yīng)的網(wǎng) 站曰志信息。當(dāng)運(yùn)營商需要對網(wǎng)站進(jìn)行維護(hù)或管理時(shí),需要調(diào)看網(wǎng)站的日志信息,通過對日志 信息的分析對網(wǎng)站作出調(diào)整。運(yùn)營商通過提交查看日志的命令,網(wǎng)站日志信息提供單元接 到命令后,調(diào)取數(shù)據(jù)統(tǒng)一集中單元中存儲(chǔ)的日志信息提供給運(yùn)營商。另外本發(fā)明還公開了一種與上述系統(tǒng)相對應(yīng)的方法,包括以下步驟步驟21,配置同一服務(wù)器日志信息格式。運(yùn)營商分析網(wǎng)站運(yùn)營狀況的數(shù)據(jù)源來自于互聯(lián)網(wǎng)的各種服務(wù)器的訪問日志,因此 日志的設(shè)計(jì)和配置對于日后集中抽取和轉(zhuǎn)換很關(guān)鍵,互聯(lián)網(wǎng)的各種服務(wù)器在設(shè)計(jì)時(shí),就考 慮了業(yè)內(nèi)的日志標(biāo)準(zhǔn),因此讓分析系統(tǒng)的日志源配置的統(tǒng)一工作變的可能。根據(jù)互聯(lián)網(wǎng)服務(wù)器的分類,針對服務(wù)器類型的不同配置各自的統(tǒng)一的日志格式, 這樣能確保日志的產(chǎn)生時(shí)的格式在同類服務(wù)器中是完全統(tǒng)一的。步驟22,定時(shí)截取日志信息,并將截取的日志信息存放在存儲(chǔ)空間里。由于日志不斷地更新,對日志的截取工作非常重要,通過對日志的實(shí)時(shí)截取來獲 取網(wǎng)站當(dāng)時(shí)的運(yùn)營狀況。步驟23,從所述截獲的日志信息選取網(wǎng)站日志信息并存儲(chǔ)于日志回收服務(wù)器中。服務(wù)器在被訪問時(shí),日志的產(chǎn)生無可避免要有固定的位置,而且是唯一的位置,這 就給日志的回收造成了 一定的麻煩,因?yàn)樾枰诓婚g斷的日志回收系統(tǒng)和不間斷對外提供 服務(wù)的服務(wù)器找一個(gè)互不影響的機(jī)制,因此我們會(huì)在保證不影響服務(wù)器的前提下,創(chuàng)建一 個(gè)獨(dú)立的日志回收體系和通道,在服務(wù)器的物理分布和網(wǎng)路質(zhì)量兩個(gè)維度找一個(gè)平衡的地 點(diǎn),放置日志回收的服務(wù)器,而全網(wǎng)多個(gè)這樣的日志回收服務(wù)器組成了完整的日志回收服 務(wù)器組,再加上我們希望日志的保存要做到冗余,因此我們會(huì)將整個(gè)網(wǎng)絡(luò)分成幾個(gè)大的區(qū) 域,在各區(qū)域之間和之中都放置主從關(guān)系的日志服務(wù)器,避免單點(diǎn)故障引發(fā)的日志回收中 斷,同時(shí)為了確保單點(diǎn)日志回收服務(wù)器的存儲(chǔ)安全性,我們采用最新一代的sata硬盤及 raid6上劃分虛擬卷的方式組建存儲(chǔ)架構(gòu)。日志回收體系主要由分布的各區(qū)域的日志回收服務(wù)器和中心日志存儲(chǔ)服務(wù)器組 成,為了保證原始日志的可重復(fù)計(jì)算,我們在各區(qū)域的日志都保存7天,而中心日志存儲(chǔ)服 務(wù)器則是永久存儲(chǔ)。步驟M,將所述日志回收服務(wù)器中存儲(chǔ)的網(wǎng)站日志信息轉(zhuǎn)換成符合預(yù)定格式的網(wǎng)
絡(luò)曰志fe息。日志一旦被送到日志回收服務(wù)器,就要面臨如何拆分、抽取、和轉(zhuǎn)換及裝載入數(shù)據(jù) 倉庫的問題,因?yàn)槿罩痉治鱿到y(tǒng)要求部分分析內(nèi)容,如流量帶寬、訪問者等具有時(shí)效性,因 此這一步的效率尤為重要,因此我們在這個(gè)環(huán)節(jié),會(huì)采用技術(shù)進(jìn)行多級拆分,將所有的日志 先進(jìn)行去重、去錯(cuò)、格式化,這個(gè)環(huán)節(jié)每5分鐘執(zhí)行一次,將中心收集上來的日志打上時(shí)間 戳,然后處理,同時(shí)面對不同類型的日志,我們采用不同的抽取和格式化的標(biāo)準(zhǔn),經(jīng)過一級 的拆分,抽取,我們將不同的類型、不同的區(qū)域、不同的服務(wù)域名分類,然后再針對分類的日 志進(jìn)行二次抽取,將日志的信息按照不同的粒度分類,并進(jìn)行格式化操作,為數(shù)據(jù)集市的運(yùn)算提供盡可能準(zhǔn)確和格式化的數(shù)據(jù)。步驟25,將經(jīng)過所述預(yù)定格式的網(wǎng)站日志信息進(jìn)行分類形成多個(gè)數(shù)據(jù)集市,并存 儲(chǔ),便于在接收到查看網(wǎng)站日志信息請求時(shí),提供相應(yīng)的網(wǎng)站日志信息給操作者。值得注意的是,本領(lǐng)域技術(shù)人員應(yīng)該很容易了解,上述提及的網(wǎng)站維護(hù)者、網(wǎng)站操 作者、網(wǎng)站運(yùn)營商、管理者等皆為同一概念,其都需要對網(wǎng)站日志進(jìn)行處理,具體本文不再 贅述。從上述內(nèi)容可以看出,本發(fā)明實(shí)施例定時(shí)獲取網(wǎng)站日志信息并在進(jìn)行格式化后集 中存儲(chǔ),使得網(wǎng)站維護(hù)者在需要了解網(wǎng)站當(dāng)前運(yùn)營情況時(shí),可以直接獲取經(jīng)過格式化的網(wǎng) 站日志信息并進(jìn)行分析,而無需進(jìn)行格式化操作,從而減小了處理時(shí)延。從而使得網(wǎng)站維護(hù) 者可及時(shí)了解網(wǎng)站當(dāng)前運(yùn)營情況,制定出更有效的運(yùn)營策略。對所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)使用者員能夠?qū)崿F(xiàn)或使用本發(fā) 明。對這些實(shí)施例的多種修改對本領(lǐng)域的專業(yè)技術(shù)使用者員來說將是顯而易見的,本文中 所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因 此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新 穎特點(diǎn)相一致的最寬的范圍。
權(quán)利要求
1.一種日志信息管理系統(tǒng),其特征在于,包括日志信息管理單元、日志信息抽取格式 化單元、數(shù)據(jù)統(tǒng)一集中單元和網(wǎng)站日志信息提供單元,其中所述日志信息管理單元用于配置同一服務(wù)器端的日志信息的格式為預(yù)設(shè)格式,以及, 定時(shí)截取日志信息并保存,從中選出網(wǎng)站日志信息并存儲(chǔ)于預(yù)先建立的日志回收服務(wù)器 中;所述日志信息抽取格式化單元用于格式化日志回收服務(wù)器中存儲(chǔ)的網(wǎng)站日志信息; 所述數(shù)據(jù)統(tǒng)一集中單元用于將經(jīng)過格式化的網(wǎng)站日志信息進(jìn)行分類,形成多個(gè)數(shù)據(jù) 集市并存儲(chǔ);所述網(wǎng)站日志信息提供單元,用于在接收到查看網(wǎng)站日志信息請求時(shí),提供相應(yīng)的網(wǎng) 站曰志信息。
2.根據(jù)權(quán)利要求1所述系統(tǒng),其特征在于,所述日志回收服務(wù)器包括一級日志回收點(diǎn) 和二級日志回收點(diǎn);所述一級日志回收點(diǎn)用于存儲(chǔ)所有網(wǎng)絡(luò)日志信息中選出的帶寬情況良好的網(wǎng)站日志 fn息;所述二級日志回收點(diǎn)用于存儲(chǔ)除所述一級日志回收點(diǎn)存儲(chǔ)的網(wǎng)站日志信息之外的網(wǎng)站曰志信息。
3.根據(jù)權(quán)利要求2所述系統(tǒng),其特征在于,所述一級日志回收點(diǎn)和/或二級日志回收點(diǎn) 的存儲(chǔ)方式為RAID6并劃分虛擬卷方式。
4.根據(jù)權(quán)利要求1所述系統(tǒng),其特征在于,所述日志信息抽取格式化單元包括 抽取單元,用于抽取網(wǎng)絡(luò)日志信息;轉(zhuǎn)換單元,用于將所述抽取單元抽取的網(wǎng)絡(luò)日志信息轉(zhuǎn)換成預(yù)定格式的網(wǎng)絡(luò)日志信息;裝載單元,用于將所述預(yù)定格式的網(wǎng)絡(luò)日志信息進(jìn)行存儲(chǔ)。
5.根據(jù)權(quán)利要求4所述系統(tǒng),其特征在于,所述日志信息抽取格式化單元還包括觸發(fā) 器,用于產(chǎn)生控制所述抽取單元、轉(zhuǎn)換單元和裝載單元工作的觸發(fā)信號(hào)。
6.根據(jù)權(quán)利要求5所述系統(tǒng),其特征在于,所述觸發(fā)器包括行觸發(fā)器和表觸發(fā)器。
7.根據(jù)權(quán)利要求1所述系統(tǒng),其特征在于,所述日志信息抽取格式化單元進(jìn)行處理的 網(wǎng)絡(luò)日志信息包括基礎(chǔ)數(shù)據(jù)層數(shù)據(jù),粒度放大層數(shù)據(jù)和數(shù)據(jù)集市層數(shù)據(jù)。
8.—種日志信息管理方法,其特征在于,包括 配置同一服務(wù)器日志信息格式;定時(shí)截取日志信息并保存;從所述截獲的日志信息中選取網(wǎng)站日志信息并存儲(chǔ)于預(yù)先建立的日志回收服務(wù)器中;將所述日志回收服務(wù)器中存儲(chǔ)的網(wǎng)站日志信息格式化處理,轉(zhuǎn)換成符合預(yù)定格式的網(wǎng) 絡(luò)日志信息;將經(jīng)過所述預(yù)定格式的網(wǎng)站日志信息進(jìn)行分類形成多個(gè)數(shù)據(jù)集市,并存儲(chǔ),便于在接 收到查看網(wǎng)站日志信息請求時(shí),提供相應(yīng)的網(wǎng)站日志信息給操作者。
9.根據(jù)權(quán)利要求8所述方法,其特征在于,將網(wǎng)絡(luò)日志信息存儲(chǔ)于預(yù)先建立的日志回 收服務(wù)器包括預(yù)設(shè)一級回收點(diǎn)和二級回收點(diǎn),用以對日志信息進(jìn)行分類回收; 所述一級日志回收點(diǎn)選取存儲(chǔ)所有數(shù)據(jù)中的帶寬情況良好的網(wǎng)站日志信息; 所述二級日志回收點(diǎn)存儲(chǔ)除所述一級日志回收點(diǎn)存儲(chǔ)的數(shù)據(jù)之外的數(shù)據(jù)。
10.根據(jù)權(quán)利要求8所述方法,其特征在于,在將所述網(wǎng)站日志信息進(jìn)行格式化處理前 還包括將網(wǎng)絡(luò)日志信息分為基礎(chǔ)數(shù)據(jù)層數(shù)據(jù)、粒度放大層數(shù)據(jù)和數(shù)據(jù)集市層數(shù)據(jù);將上述每 層數(shù)據(jù)再進(jìn)行分層,在每層中把所有數(shù)據(jù)用數(shù)列連接,便于對數(shù)據(jù)的處理。
全文摘要
本發(fā)明涉及一種日志信息管理方法及系統(tǒng);其中,該系統(tǒng)包括日志信息管理單元、日志信息抽取格式化單元和數(shù)據(jù)統(tǒng)一集中單元;所述日志信息管理單元用于配置同一服務(wù)器端的日志格式,截取日志信息并保存,在服務(wù)器數(shù)據(jù)中心建立日志回收服務(wù)器;所述日志信息抽取格式化單元對日志回收服務(wù)器收集來的各種日志進(jìn)行抽取,轉(zhuǎn)換和裝載;所述數(shù)據(jù)統(tǒng)一集中單元用于將經(jīng)過抽取、轉(zhuǎn)換處理的日志信息集中并創(chuàng)建數(shù)據(jù)集市。通過將相同服務(wù)器上的日志格式統(tǒng)一,從而能夠最大的降低日志信息抽取格式化過程中抽取和轉(zhuǎn)換的比例,將通過上述處理的數(shù)據(jù)進(jìn)行集中統(tǒng)一的存儲(chǔ),從而使服務(wù)器對日志的分析操作效率提高。
文檔編號(hào)H04L12/24GK102111285SQ200910244009
公開日2011年6月29日 申請日期2009年12月24日 優(yōu)先權(quán)日2009年12月24日
發(fā)明者劉萬年, 郜時(shí)紅, 陳濤, 雷紫東 申請人:北京云快線軟件服務(wù)有限公司