專利名稱::一種基于Web頁面元數(shù)據(jù)的用戶訪問行為形式化描述方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于計(jì)算機(jī)應(yīng)用領(lǐng)域,涉及Web挖掘、網(wǎng)絡(luò)教育,特別涉及一種基于Web頁面元數(shù)據(jù)的用戶訪問行為形式化描述方法?,F(xiàn)有技術(shù)目前,對(duì)用戶Web訪問行為的形式化描述主要以行為建模為主,用戶行為建模以及以此為基礎(chǔ)的行為特征獲取的研究集中在Web日志挖掘(WebUsageMining)領(lǐng)域,其數(shù)據(jù)來源主要是注冊(cè)用戶特征、服務(wù)器的Web日志、頁面間鏈接的拓?fù)浣Y(jié)構(gòu)等,常用研究方法包括①統(tǒng)計(jì)分析,如獲取用戶訪問時(shí)間、頻率;②關(guān)聯(lián)規(guī)則分析,用于獲取用戶訪問頁面間的相關(guān)關(guān)系;③聚類分析,如將具有相似特征的用戶或頁面歸并分組;④分類分析,根據(jù)用戶特征進(jìn)行歸類;⑤序列模式分析,獲取用戶訪問趨勢(shì)。通過上述方法獲得的行為模式可用于解決頁面自動(dòng)導(dǎo)航、Web應(yīng)用系統(tǒng)性能提高、以及頁面重要性評(píng)價(jià)等問題。目前許多成熟的個(gè)性化Web服務(wù)系統(tǒng),如PitKow、WebMiner、SiteHelper等,都是基于Web挖掘進(jìn)行行為建模的。然而,由于現(xiàn)有行為模型建模方法一般都是單純地基于Web日志中的URL請(qǐng)求,而目前Web日志的設(shè)計(jì)主要是面向網(wǎng)站流量、熱點(diǎn)鏈接、錯(cuò)誤鏈接等分析應(yīng)用,在內(nèi)容上未涉及與應(yīng)用系統(tǒng)相關(guān)的語義信息,因此現(xiàn)有行為模型建模方法缺乏描述行為語義的能力,在構(gòu)建智能化的Web應(yīng)用方面還存在很大局限性,只能外在描述用戶在頁面間的隨機(jī)游走(RandomWalks)過程,無法描述用戶行為內(nèi)在的語義信息,即難以描述用戶行為應(yīng)用層面的信息,如用戶注冊(cè)、登錄、檢索等具體行為含義。事實(shí)上,在用戶與Web應(yīng)用系統(tǒng)交互過程中,影響用戶行為取向的關(guān)鍵因素是網(wǎng)頁中蘊(yùn)含的語義信息,而不是頁面間的鏈接關(guān)系。因此,基于Web日志中URL請(qǐng)求分析所得到的行為特征,還難以作為應(yīng)用層面給用戶提供個(gè)性化、自適應(yīng)服務(wù)的依據(jù)。
發(fā)明內(nèi)容本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的不足,提出一種基于Web頁面元數(shù)據(jù)的用戶訪問行為形式化描述方法,首先提出了一種分層的用戶行為結(jié)構(gòu),從“動(dòng)作-活動(dòng)-事務(wù)”三個(gè)層次定義了用戶行為的框架結(jié)構(gòu),結(jié)合此結(jié)構(gòu),進(jìn)一步提出基于頁面元數(shù)據(jù)的Web用戶行為形式化描述方法,并對(duì)其中的頁面元數(shù)據(jù)獲取以及頁面訪問動(dòng)作、訪問行為、訪問事務(wù)之間的轉(zhuǎn)化等問題進(jìn)行了說明,不僅描述了用戶訪問序列信息,還增加了訪問內(nèi)容的局部主題、關(guān)鍵字等信息,得到行為模型有助于加強(qiáng)對(duì)用戶行為的理解,對(duì)個(gè)性化網(wǎng)絡(luò)服務(wù)系統(tǒng)的構(gòu)建提供了更好的支持。本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,構(gòu)造一種三層的行為框架,對(duì)行為從“動(dòng)作”、“活動(dòng)”、“事務(wù)”三個(gè)層面進(jìn)行形式化描述,首先從Web日志文件對(duì)用戶的訪問行為進(jìn)行動(dòng)作分析,提取能描述用戶訪問過程的頁面集作為用戶動(dòng)作序列;其次,對(duì)動(dòng)作序列進(jìn)行活動(dòng)分析,結(jié)合所訪問頁面包含的元數(shù)據(jù)內(nèi)容,構(gòu)造帶行為語義信息的訪問活動(dòng)序列;最后對(duì)用戶訪問活動(dòng)序列進(jìn)行事務(wù)分析,將同一訪問過程中的活動(dòng)子集歸為一次訪問事務(wù),把全部活動(dòng)序列依照訪問時(shí)間先后和時(shí)間間隔大小劃分為多個(gè)訪問事務(wù)。所述的對(duì)用戶“動(dòng)作”進(jìn)行形式化描述,即是構(gòu)造一種7維元組來描述Web頁面訪問動(dòng)作序列(Action)(UserID,RequestID,Time,Delay,Method,URL,StateSet)其中●UserID用于唯一標(biāo)示某個(gè)Web用戶的ID;●RequestID用于唯一標(biāo)示用戶UserID的某個(gè)URL請(qǐng)求;●Time表示當(dāng)前URL請(qǐng)求的時(shí)間;●Delay表示在所請(qǐng)求頁面的瀏覽時(shí)長(zhǎng);●Method表示URL請(qǐng)求所采用的HTTP方法;●URL表示所請(qǐng)求的路徑;●StateSet是一個(gè)由變量、變量值構(gòu)成的二元組集合,用來描述外部環(huán)境狀態(tài)以及當(dāng)前行為對(duì)環(huán)境狀態(tài)的影響。所述的對(duì)用戶“活動(dòng)”進(jìn)行形式化描述,即是構(gòu)造一種6維元組來描述用戶訪問活動(dòng)(Activity)(UserID,ActivityID,ActivityName,Time,Delay,StateSet);其中●UserID用于唯一標(biāo)示某個(gè)Web用戶的ID;●ActivityID用于唯一標(biāo)示某個(gè)活動(dòng)的ID;●ActivityName表示當(dāng)前活動(dòng)的名稱;●Time表示本次活動(dòng)序列的開始時(shí)間;●Delay表示本次活動(dòng)序列持續(xù)時(shí)長(zhǎng);●StateSet包含和當(dāng)前活動(dòng)有關(guān)的局部語義信息變量,包括subject,title,keywords,hyperlinks。所述的對(duì)用戶“事務(wù)”進(jìn)行形式化描述,即是構(gòu)造一種6維元組來描述用戶訪問事務(wù)(Session)(UserID,SessionID,Time,Delay,StateSet,Activities)其中●UserID用于唯一標(biāo)示某個(gè)Web用戶的ID;●SessionID唯一標(biāo)示當(dāng)前事務(wù);●Time表示當(dāng)前事務(wù)的開始時(shí)間;●Delay表示在本次事務(wù)的持續(xù)時(shí)長(zhǎng);●StateSet包含和當(dāng)前事務(wù)有關(guān)的局部語義信息變量●Activities表示本事務(wù)中所包含活動(dòng)序列中各個(gè)活動(dòng)的ID集合。所述的通過動(dòng)作分析提取能描述用戶訪問過程的頁面集作為用戶動(dòng)作序列的步驟是首先提出一種用戶訪問頁面空間距離的計(jì)算方法,即計(jì)算用戶在頁面A通過鏈接導(dǎo)航達(dá)到頁面B的最小步驟作為頁面A到頁面B的空間距離,若頁面A不能通過超鏈到達(dá)頁面B,則頁面A到頁面B的距離為∞;其次,提出基于頁面空間距離和頁面環(huán)境變量的相同用戶判定規(guī)則;最后,對(duì)傳統(tǒng)方法得到的用戶識(shí)別結(jié)果進(jìn)行進(jìn)一步分析,根據(jù)頁面空間距離和頁面環(huán)境變量以及用戶判定規(guī)則識(shí)別出不同用戶的動(dòng)作序列。所述的基于頁面空間距離和頁面環(huán)境變量的相同用戶判定規(guī)則是當(dāng)環(huán)境狀態(tài)不發(fā)生改變時(shí),時(shí)間與相對(duì)距離相近的兩個(gè)URL請(qǐng)求來自同一用戶;當(dāng)環(huán)境狀態(tài)發(fā)生改變時(shí),若其中兩個(gè)URL請(qǐng)求中的頁面具有直接鏈接關(guān)系且發(fā)生改變的環(huán)境變量在前一個(gè)URL對(duì)應(yīng)頁面中是可寫的,則兩個(gè)請(qǐng)求來自同一用戶。所述的對(duì)動(dòng)作序列進(jìn)行活動(dòng)分析,即是結(jié)合所訪問頁面元數(shù)據(jù)內(nèi)容構(gòu)造帶行為語義信息的活動(dòng)序列的步驟是;首先,以網(wǎng)頁標(biāo)題以及狀態(tài)變量構(gòu)成的二元組作為被訪問頁面的描述性元數(shù)據(jù),以訪問頁面中的超鏈集以及對(duì)應(yīng)的標(biāo)題作為被訪問頁面的結(jié)構(gòu)性元數(shù)據(jù),對(duì)頁面元數(shù)據(jù)進(jìn)行抽?。黄浯翁岢鰞蓷l頁面主題判定規(guī)則以及基于頁面主題的頁面間絕對(duì)距離和相對(duì)距離計(jì)算方法;再次根據(jù)頁面相似距離計(jì)算結(jié)果,采用AGNES聚類方法對(duì)頁面進(jìn)行聚類分析;最后根據(jù)頁面聚類劃分結(jié)果對(duì)訪問動(dòng)作序列進(jìn)行活動(dòng)劃分;其中以頁面聚類簇的簇心頁面元數(shù)據(jù)作為此活動(dòng)劃分的元數(shù)據(jù)描述信息,為此次活動(dòng)的環(huán)境變量賦值。所述的兩條頁面主題判定規(guī)則是存在直接或間接鏈接關(guān)系的頁面屬于同一主題;頁面內(nèi)容,特別是標(biāo)題相同或相似的頁面屬于同一主題。所述的基于頁面主題的頁面間絕對(duì)距離和相對(duì)距離的計(jì)算方法是絕對(duì)距離DA(pi,pj)=DR(pi,pj)·DR(pj,pi)/(DR(pi,pj)+DR(pj,pi))相對(duì)距離DS(pi,pj)=DA(pi,pj)·S(pi,pj)這里pj、pi是兩個(gè)不同頁面,S(pi,pj)是根據(jù)標(biāo)題、變量所構(gòu)成的向量空間得到頁面pj與pi的相似度。本發(fā)明所提出的基于Web頁面元數(shù)據(jù)的行為描述及行為序列分析方法,能有效地對(duì)用戶網(wǎng)絡(luò)訪問行為進(jìn)行描述,其帶頁面元數(shù)據(jù)的語義信息有助于對(duì)用戶行為的理解。并且,提出的行為分析方法,可有效提高行為活動(dòng)劃分精度,實(shí)驗(yàn)表明,該方法對(duì)日志進(jìn)行分析后得到的活動(dòng)劃分和人工劃分相對(duì)比,相似度達(dá)86%以上。附圖是本發(fā)明的基于頁面元數(shù)據(jù)的用戶行為形式化描述圖。下面結(jié)合附圖對(duì)本發(fā)明的內(nèi)容作進(jìn)一步詳細(xì)說明。具體實(shí)施例方式參照附圖所示,頁面元數(shù)據(jù)是指描述頁面內(nèi)容與結(jié)構(gòu)的數(shù)據(jù),對(duì)于理解Web用戶行為的語義具有重要作用。針對(duì)現(xiàn)有行為描述方法難以描述行為語義的問題,結(jié)合上述行為分層框架結(jié)構(gòu),提出了一種基于頁面元數(shù)據(jù)的用戶行為形式化描述方法,如圖所示。其基本思想為首先,根據(jù)用戶日志中的客戶端IP地址、瀏覽器類型、操作系統(tǒng)類型以及URL對(duì)應(yīng)頁面中的變量分離出每個(gè)用戶的訪問序列(動(dòng)作序列),并根據(jù)頁面元數(shù)據(jù)中的鏈接關(guān)系填充由于Cache機(jī)制丟失的訪問請(qǐng)求;其次,根據(jù)頁面元數(shù)據(jù)中的標(biāo)題、變量、超鏈接等內(nèi)容對(duì)特定用戶的訪問序列進(jìn)行分析,獲得用戶的活動(dòng)序列。以下首先確定與行為描述相關(guān)的頁面元數(shù)據(jù),在此基礎(chǔ)上,對(duì)行為形式化描述中動(dòng)作分析、活動(dòng)分析以及事務(wù)分析過程進(jìn)行說明。定義1頁面元數(shù)據(jù)網(wǎng)頁元數(shù)據(jù)可分為描述性元數(shù)據(jù)(DescriptiveMetadata)與結(jié)構(gòu)性元數(shù)據(jù)(StructuralMetadata)兩種類型,分別用于描述頁面的內(nèi)容與結(jié)構(gòu)。與用戶訪問行為相關(guān)的描述性元數(shù)據(jù)主要包括網(wǎng)頁標(biāo)題以及狀態(tài)變量構(gòu)成的二元組,其定義如式4,其中第二項(xiàng)為變量與對(duì)應(yīng)讀寫屬性構(gòu)成的二元組集合。DescriptiveMetadata(Title,{(Variable,ReadWrite)})(式4)例如,(’登錄’,{(User,Writable),(Pass,Writable)}),表示當(dāng)前網(wǎng)頁為一個(gè)登錄頁面,頁面中包含用戶與密碼兩個(gè)變量,這兩個(gè)數(shù)據(jù)在當(dāng)前頁中都可修改。與行為形式化描述相關(guān)的結(jié)構(gòu)性元數(shù)據(jù)主要包括頁面中的超鏈接以及對(duì)應(yīng)的標(biāo)題,定義如下StructuralMetadata({URL})(式5)下式是一個(gè)結(jié)構(gòu)性網(wǎng)頁元數(shù)據(jù)的實(shí)例,表示當(dāng)前頁面中包含“l(fā)ogin.jsp?user&pass”與“registration.htm”兩個(gè)超鏈接。({login.jsp?user&pass,/registration.htm,...})(式6)動(dòng)作分析Web日志按訪問時(shí)間順序記錄了所有Web用戶的訪問動(dòng)作序列,是用戶訪問動(dòng)作與Web系統(tǒng)交互過程中,由WebServer記錄下來的。但由于用戶動(dòng)作與應(yīng)用系統(tǒng)的交互一般都是通過匿名方式進(jìn)行的,Web日志中的UserID字段并未起到區(qū)分用戶的作用。此外,代理服務(wù)器以及瀏覽器的Cache機(jī)制使得一些URL訪問請(qǐng)求未能發(fā)送到Web服務(wù)器,也就未能記錄在Web日志中。動(dòng)作分析的作用就是從Web日志中識(shí)別出每個(gè)用戶,并獲得其完整的訪問動(dòng)作序列。在Web挖掘日志中,一般是根據(jù)日志中的客戶端IP地址、瀏覽器類型、操作系統(tǒng)類型等內(nèi)容提出若干區(qū)分用戶的規(guī)則。對(duì)于NAT網(wǎng)關(guān)與代理后面的客戶端,上述三項(xiàng)內(nèi)容完全一致的概率較大,在這種情況下,上述規(guī)則無法區(qū)分用戶的URL請(qǐng)求?,F(xiàn)有Web應(yīng)用系統(tǒng)一般都采用基于環(huán)境變量的動(dòng)態(tài)頁面技術(shù),這類應(yīng)用系統(tǒng)中的頁面導(dǎo)航具有以下兩個(gè)特點(diǎn)一、描述環(huán)境狀態(tài)的環(huán)境變量值在導(dǎo)航過程中具有相對(duì)穩(wěn)定性;二、對(duì)于造成環(huán)境變量改變的頁面,其URL請(qǐng)求的日志不會(huì)由于代理的Cache機(jī)制丟失。結(jié)合這兩個(gè)特點(diǎn),下面給出頁面距離的概念,在此基礎(chǔ)上,再提出兩個(gè)新的用于區(qū)分用戶的規(guī)則以及日志分析方法。需要說明的是兩個(gè)規(guī)則都是針對(duì)客戶端IP地址、瀏覽器類型、操作系統(tǒng)類型均相同的URL請(qǐng)求。定義2.頁面相對(duì)距離頁面pj相對(duì)pi的距離是指pi通過頁面間的導(dǎo)航鏈接到達(dá)pj的所需的最小步驟,記為DR(pi,pj)。特別地,DR(pi,pi)=0;若pi無法通過超鏈接到達(dá)pj,則DR(pi,pj)=∞;若pj∈pi.metadata.url,則DR(pi,pj)=1,即頁面間存在直接鏈接關(guān)系,其中,pi.metadata.url是指頁面pi中超鏈接的集合。規(guī)則1.設(shè)uri為Web日志W(wǎng)L中的一個(gè)URL請(qǐng)求,URWL為與uri時(shí)間間隔小于特定閾值t0且頁面距離小于特定閾值l0的后序URL請(qǐng)求的集合,即UR={ur|1≤DR(uri.url,ur.url<l0∧(|ur.time-uri.time|)<t0∧ur∈WL},對(duì)于任何ur∈UR,若uri.StateSet=ur.StateSet,則uri.UserID=ur.UserID。規(guī)則1的含義是當(dāng)環(huán)境狀態(tài)不發(fā)生改變時(shí),時(shí)間與相對(duì)距離相近的兩個(gè)URL請(qǐng)求來自同一用戶。規(guī)則2.設(shè)uri為Web日志W(wǎng)L中的一個(gè)URL請(qǐng)求,若不存在ur∈UR,使得uri.StateSet=ur.StateSet,則當(dāng)urj滿足以下條件時(shí),等式uri.UserID=urj.UserID成立(1)urj∈UR;(2)DR(uri.url,urj.url)=1;(3)設(shè)ChangeSet=ur.StateSet-uri.StateSet,ChangeSet≠并且構(gòu)成ChangeSet的二元組元素中的變量屬性在頁面uri.url的元數(shù)據(jù)中是可寫的。規(guī)則2的含義是當(dāng)環(huán)境狀態(tài)發(fā)生改變時(shí),若其中兩個(gè)URL請(qǐng)求中的頁面具有直接鏈接關(guān)系且發(fā)生改變的環(huán)境變量在前一個(gè)URL對(duì)應(yīng)頁面中是可寫的,則兩個(gè)請(qǐng)求來自同一用戶?;谝?guī)則1、2,以下提出動(dòng)作分析的方法輸入WebLog輸出SerialSet={Serials1,Serials2,......,Serialsn}過程GroupSet=GroupedBy(IP,Browser,OS,{WebLog})//解釋根據(jù)日志中的客戶端IP地址、瀏覽器類型、操作系統(tǒng)類型對(duì)URL請(qǐng)求進(jìn)行分組,每個(gè)組中的URL請(qǐng)求具有相同的上述三個(gè)屬性。m=|GroupSet|//m為分組的個(gè)數(shù)forI=1tomdo{RoughSerialSeti=Rule1(groupi)//解釋對(duì)每個(gè)分組中的所有符合規(guī)則1的URL請(qǐng)求按照頁面相對(duì)距離從小到大的順序進(jìn)行歸類,直到對(duì)所有符合規(guī)則1的URL請(qǐng)求都進(jìn)行了處理。s=|RoughSerialSeti|forj=1tosdo{RepaireUrl(RoughSerialij)//解釋根據(jù)頁面的鏈接關(guān)系填充丟失的URL請(qǐng)求。SerialSeti=Rule2(RoughSerialSeti)//解釋對(duì)每個(gè)分組中的所有符合規(guī)則2的URL請(qǐng)求進(jìn)行歸類。}}SerialSet=∪SerialSeti最后,每個(gè)分組中的每類URL請(qǐng)求對(duì)應(yīng)于某個(gè)用戶,若該分組中只有一類,則該分組對(duì)應(yīng)于某個(gè)用戶。通過上述算法,可實(shí)現(xiàn)將Web日志的訪問請(qǐng)求按用戶進(jìn)行分組,并生成如式1所示的用戶動(dòng)作序列?;顒?dòng)分析活動(dòng)分析是指將特定用戶的動(dòng)作序列轉(zhuǎn)化為能夠描述行為語義的活動(dòng)序列?;顒?dòng)分析主要依據(jù)頁面的聚類特性,這種特性體現(xiàn)在鏈接關(guān)系與頁面內(nèi)容兩個(gè)方面。根據(jù)這些特性,結(jié)合頁面主題信息采集研究中的Sibling和Pagerank的思想,我們得到以下規(guī)則用于判定頁面是否屬于同一主題。規(guī)則3.存在直接或間接鏈接關(guān)系的頁面可能屬于同一主題;若頁面間相對(duì)距離越小,則屬于同一主題可能性越大;若頁面間互相存在鏈接關(guān)系,則屬于同一主題可能性更大。規(guī)則4.頁面內(nèi)容(特別是標(biāo)題)相同或相似的頁面很可能屬于同一主題。結(jié)合這兩個(gè)規(guī)則,我們提出活動(dòng)分析的基本思路首先,根據(jù)頁面的超鏈接、標(biāo)題以及變量三種元數(shù)據(jù)信息對(duì)頁面進(jìn)行聚類;其次,根據(jù)聚類結(jié)果將用戶所有的動(dòng)作序列劃分為活動(dòng)序列,并為每個(gè)活動(dòng)設(shè)置標(biāo)題。以下首先提出“頁面絕對(duì)距離”與“相似距離”的概念,在此基礎(chǔ)上,對(duì)活動(dòng)分析的方法進(jìn)行說明。定義3.頁面絕對(duì)距離頁面pj與pi(pj≠pi)的絕對(duì)距離DA(pi,pj)定義為DR(pi,pj)·DR(pj,pi)/(DR(pi,pj)+DR(pj,pi))顯然,DA(pi,pj)≤min(DR(pi,pj),DR(pj,pi))。定義4.相似距離設(shè)S(pi,pj)是根據(jù)標(biāo)題、變量所構(gòu)成的向量空間得到頁面pj與pi的相似度。相似距離DS(pi,pj)定義為DA(pi,pj)·S(pi,pj)。由規(guī)則3、4,DS(pi,pj)越小,頁面pj與pi屬于同一主題的可能性越大?;陧撁骈g的相似距離,我們采用AGNES聚類方法對(duì)頁面進(jìn)行聚類。設(shè)動(dòng)作序列中涉及的URL訪問序列為ur1,ur2,..,uri,..,urm,對(duì)應(yīng)的頁面分別為p1,p2,..,pi,..,pm;根據(jù)對(duì)網(wǎng)站內(nèi)所有頁面聚類后的結(jié)果,我們提出如下的活動(dòng)分析方法STEP1尋找滿足如下條件的子序列pj,..,pi(i≥j)(1)pj,..,pi屬于同一類;(2)Pj-1與Pi+1都不屬于該類。若找到,將urj,..,uri合并為一個(gè)活動(dòng)。STEP2尋找pj,..,pi的中心,中心頁面pl應(yīng)滿足對(duì)于任意頁面pk(j≤k≤i),Σx=jiDS(px,pl)≤Σx=jiDS(px,pk).]]>STEP3CurrentActivity.ActivityName=pl.title;CurrentActivity.Delay=uri.time-urj.time;CurrentActivity.StateSet=uri.StateSetSTEP4重復(fù)STEP1、2、3,直到所有的URL訪問行為都被合并到某一個(gè)活動(dòng)中。上述方法根據(jù)Web元數(shù)據(jù)將用戶動(dòng)作序列進(jìn)行分組,并生成如式2所示的活動(dòng)序列,該活動(dòng)序列很好地體現(xiàn)了行為的語義信息,這為獲取行為語義特征奠定了很好的基礎(chǔ)。事務(wù)分析事務(wù)分析是從特定用戶的一次訪問序列中提取出為完成某特定目標(biāo)而進(jìn)行的活動(dòng)序列,然而,通常情況下,用戶的訪問行為往往是隨機(jī)的,有可能不帶任何目標(biāo),也可能有一個(gè)或多個(gè)目標(biāo)且各目標(biāo)的訪問活動(dòng)交叉進(jìn)行。因此,為方便起見,本發(fā)明中將用戶一次訪問序列中的所有活動(dòng)的集合作為一次事務(wù),即通過動(dòng)作分析抽取本用戶的動(dòng)作序列,再依此進(jìn)行活動(dòng)分析,得到該用戶此次訪問行為的所有活動(dòng),構(gòu)成如式3的事務(wù)模型。其中,事務(wù)的ID由此次事務(wù)訪問時(shí)間戳和用戶ID聯(lián)合構(gòu)成。例如此次事務(wù)時(shí)間戳為“20051226120000”,用戶ID為“zhangsan”,則此事務(wù)id為“20051226120000-zhangsan”。實(shí)施例首先,在Web教學(xué)網(wǎng)站中收集一段時(shí)間內(nèi)來自同一代理服務(wù)器的學(xué)習(xí)者的所有日志記錄。其次,根據(jù)網(wǎng)站頁面間的鏈接關(guān)系以及狀態(tài)變量(特別是用戶的登錄名)進(jìn)行動(dòng)作分析,獲得每個(gè)學(xué)習(xí)者的所有訪問動(dòng)作序列,見表1。第三,采用人工對(duì)動(dòng)作行為進(jìn)行標(biāo)記,通過合并行為語義相關(guān)的URL訪問行為生成活動(dòng)序列。第四,采用本發(fā)明提出的活動(dòng)分析方法將動(dòng)作序列轉(zhuǎn)化為活動(dòng)序列。最后,將人工標(biāo)記得到的活動(dòng)序列與活動(dòng)分析方法得到的序列進(jìn)行對(duì)比,對(duì)比結(jié)果見表2。這里,我們采用簡(jiǎn)單匹配系數(shù)來描述兩種方法得到的活動(dòng)序列的相似度?;顒?dòng)序列si,sj的相似度定義如下SD(si,sj)=A(si,sj)+(si,sj)A(si,sj)+B(si,sj)+C(si,sj)+D(si,sj)]]>(式7)其中,A(si,sj)表示“兩個(gè)訪問動(dòng)作所發(fā)的URL訪問請(qǐng)求在兩種活動(dòng)序列中屬于同一活動(dòng)”這一現(xiàn)象的次數(shù);D(si,sj)表示“兩個(gè)動(dòng)作所發(fā)的URL訪問請(qǐng)求在兩種活動(dòng)序列中都不屬于同一活動(dòng)”這一現(xiàn)象的次數(shù);B(si,sj)表示“兩個(gè)動(dòng)作所發(fā)的URL訪問請(qǐng)求屬于活動(dòng)序列si中的某一活動(dòng),但不屬于活動(dòng)序列sj中的對(duì)應(yīng)活動(dòng)”這一現(xiàn)象的次數(shù);C(si,sj)表示“兩個(gè)動(dòng)作所發(fā)的URL訪問請(qǐng)求不屬于活動(dòng)序列si中的某一活動(dòng),但屬于活動(dòng)序列sj中的對(duì)應(yīng)活動(dòng)”這一現(xiàn)象的次數(shù)。表1用戶URL序列解析本試驗(yàn)?zāi)康氖菫榱藢?duì)比人工標(biāo)記的活動(dòng)序列和利用本發(fā)明方法機(jī)器標(biāo)記的相似程度,為方便起見,本次試驗(yàn)中不對(duì)網(wǎng)站全部URL進(jìn)行統(tǒng)一標(biāo)識(shí),只是結(jié)合用戶ID,對(duì)試驗(yàn)涉及到的URL進(jìn)行標(biāo)記區(qū)分,方法為UserID+url序列中的序號(hào),如表1中用戶1,其訪問動(dòng)作請(qǐng)求的URL序列標(biāo)號(hào)為(u1,1,u1,2,...,u1,31)。利用所用方法,設(shè)置頁面判定距離為2,進(jìn)行活動(dòng)劃分,如下表2對(duì)比試驗(yàn)結(jié)果通過與人工標(biāo)記方法得到的活動(dòng)序列進(jìn)行對(duì)比,驗(yàn)證了本發(fā)明所提行為形式化描述方法能很好地生成體現(xiàn)行為語義的活動(dòng)序列。其中,當(dāng)一個(gè)活動(dòng)包含的頁面?zhèn)€數(shù)較多時(shí),所獲得的活動(dòng)序列劃分更加精確,這是因?yàn)楫?dāng)頁面樣本數(shù)越多,對(duì)頁面聚類的結(jié)果精度就越高。權(quán)利要求1.基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于構(gòu)造一種三層的行為框架,對(duì)行為從“動(dòng)作”、“活動(dòng)”、“事務(wù)”三個(gè)層面進(jìn)行形式化描述,首先從Web日志文件對(duì)用戶的訪問行為進(jìn)行動(dòng)作分析,提取能描述用戶訪問過程的頁面集作為用戶動(dòng)作序列;其次,對(duì)動(dòng)作序列進(jìn)行活動(dòng)分析,結(jié)合所訪問頁面包含的元數(shù)據(jù)內(nèi)容,構(gòu)造帶行為語義信息的訪問活動(dòng)序列;最后對(duì)用戶訪問活動(dòng)序列進(jìn)行事務(wù)分析,將同一訪問過程中的活動(dòng)子集歸為一次訪問事務(wù),把全部活動(dòng)序列依照訪問時(shí)間先后和時(shí)間間隔大小劃分為多個(gè)訪問事務(wù)。2.根據(jù)權(quán)利要求1所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的對(duì)用戶“動(dòng)作”進(jìn)行形式化描述,即是構(gòu)造一種7維元組來描述Web頁面訪問動(dòng)作序列(Action)(UserID,RequestID,Time,Delay,Method,URL,StateSet)其中●UserID用于唯一標(biāo)示某個(gè)Web用戶的ID;●RequestID用于唯一標(biāo)示用戶UserID的某個(gè)URL請(qǐng)求;●Time表示當(dāng)前URL請(qǐng)求的時(shí)間;●Delay表示在所請(qǐng)求頁面的瀏覽時(shí)長(zhǎng);●Method表示URL請(qǐng)求所采用的HTTP方法;●URL表示所請(qǐng)求的路徑;●StateSet是一個(gè)由變量、變量值構(gòu)成的二元組集合,用來描述外部環(huán)境狀態(tài)以及當(dāng)前行為對(duì)環(huán)境狀態(tài)的影響。3.根據(jù)權(quán)利要求1所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的對(duì)用戶“活動(dòng)”進(jìn)行形式化描述,即是構(gòu)造一種6維元組來描述用戶訪問活動(dòng)(Activity)(UserID,ActivityID,ActivityName,Time,Delay,StateSet);其中●UserID用于唯一標(biāo)示某個(gè)Web用戶的ID;●ActivityID用于唯一標(biāo)示某個(gè)活動(dòng)的ID;●ActivityName表示當(dāng)前活動(dòng)的名稱;●Time表示本次活動(dòng)序列的開始時(shí)間;●Delay表示本次活動(dòng)序列持續(xù)時(shí)長(zhǎng);●StateSet包含和當(dāng)前活動(dòng)有關(guān)的局部語義信息變量,包括subject,title,keywords,hyperlinks。4.根據(jù)權(quán)利要求1所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的對(duì)用戶“事務(wù)”進(jìn)行形式化描述,即是構(gòu)造一種6維元組來描述用戶訪問事務(wù)(Session)(UserID,SessionID,Time,Delay,StateSet,Activities)其中●UserID用于唯一標(biāo)示某個(gè)Web用戶的ID;●SessionID唯一標(biāo)示當(dāng)前事務(wù);●Time表示當(dāng)前事務(wù)的開始時(shí)間;●Delay表示在本次事務(wù)的持續(xù)時(shí)長(zhǎng);●StateSet包含和當(dāng)前事務(wù)有關(guān)的局部語義信息變量●Activities表示本事務(wù)中所包含活動(dòng)序列中各個(gè)活動(dòng)的ID集合。5.根據(jù)權(quán)利要求1所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的通過動(dòng)作分析提取能描述用戶訪問過程的頁面集作為用戶動(dòng)作序列的步驟是首先提出一種用戶訪問頁面空間距離的計(jì)算方法,即計(jì)算用戶在頁面A通過鏈接導(dǎo)航達(dá)到頁面B的最小步驟作為頁面A到頁面B的空間距離,若頁面A不能通過超鏈到達(dá)頁面B,則頁面A到頁面B的距離為∞;其次,提出基于頁面空間距離和頁面環(huán)境變量的相同用戶判定規(guī)則;最后,對(duì)傳統(tǒng)方法得到的用戶識(shí)別結(jié)果進(jìn)行進(jìn)一步分析,根據(jù)頁面空間距離和頁面環(huán)境變量以及用戶判定規(guī)則識(shí)別出不同用戶的動(dòng)作序列。6.根據(jù)權(quán)利要求1或5所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的基于頁面空間距離和頁面環(huán)境變量的相同用戶判定規(guī)則是當(dāng)環(huán)境狀態(tài)不發(fā)生改變時(shí),時(shí)間與相對(duì)距離相近的兩個(gè)URL請(qǐng)求來自同一用戶;當(dāng)環(huán)境狀態(tài)發(fā)生改變時(shí),若其中兩個(gè)URL請(qǐng)求中的頁面具有直接鏈接關(guān)系且發(fā)生改變的環(huán)境變量在前一個(gè)URL對(duì)應(yīng)頁面中是可寫的,則兩個(gè)請(qǐng)求來自同一用戶。7.根據(jù)權(quán)利要求1所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的對(duì)動(dòng)作序列進(jìn)行活動(dòng)分析,即是結(jié)合所訪問頁面元數(shù)據(jù)內(nèi)容構(gòu)造帶行為語義信息的活動(dòng)序列,其步驟是;首先,以網(wǎng)頁標(biāo)題以及狀態(tài)變量構(gòu)成的二元組作為被訪問頁面的描述性元數(shù)據(jù),以訪問頁面中的超鏈集以及對(duì)應(yīng)的標(biāo)題作為被訪問頁面的結(jié)構(gòu)性元數(shù)據(jù),對(duì)頁面元數(shù)據(jù)進(jìn)行抽??;其次提出兩條頁面主題判定規(guī)則以及基于頁面主題的頁面間絕對(duì)距離和相對(duì)距離計(jì)算方法;再次根據(jù)頁面相似距離計(jì)算結(jié)果,采用AGNES聚類方法對(duì)頁面進(jìn)行聚類分析;最后根據(jù)頁面聚類劃分結(jié)果對(duì)訪問動(dòng)作序列進(jìn)行活動(dòng)劃分;其中以頁面聚類簇的簇心頁面元數(shù)據(jù)作為此活動(dòng)劃分的元數(shù)據(jù)描述信息,為此次活動(dòng)的環(huán)境變量賦值。8.根據(jù)權(quán)利要求1或7所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的兩條頁面主題判定規(guī)則是存在直接或間接鏈接關(guān)系的頁面屬于同一主題;頁面內(nèi)容,特別是標(biāo)題相同或相似的頁面屬于同一主題。9.根據(jù)權(quán)利要求1或7所述的基于Web頁面元數(shù)據(jù)的用戶行為形式化描述方法,其特征在于,所述的基于頁面主題的頁面間絕對(duì)距離和相對(duì)距離的計(jì)算方法是絕對(duì)距離DA(pi,pj)=DR(pi,pj)·DR(pj,pi)/(DR(pi,pj)+DR(pj,pi))相對(duì)距離DS(pi,pj)=DA(pi,pj)·S(pi,pj)這里pj、pi是兩個(gè)不同頁面,S(pi,pj)是根據(jù)標(biāo)題、變量所構(gòu)成的向量空間得到頁面pj與pi的相似度。全文摘要本發(fā)明公開了一種基于Web頁面元數(shù)據(jù)的用戶訪問行為形式化描述方法。本發(fā)明首先提出了一種分層次的用戶行為框架結(jié)構(gòu),從“動(dòng)作一活動(dòng)一事務(wù)”三個(gè)層次對(duì)用戶訪問行為及特征進(jìn)行描述;結(jié)合此行為框架,進(jìn)一步提出基于頁面元數(shù)據(jù)的Web用戶行為形式化描述方法,并對(duì)其中的頁面元數(shù)據(jù)獲取以及動(dòng)作、行為、事務(wù)之間的轉(zhuǎn)化等問題進(jìn)行了說明。我們提出的基于網(wǎng)頁元數(shù)據(jù)的用戶訪問行為形式化描述方法,不僅描述了用戶訪問序列信息,還增加了訪問內(nèi)容的局部主題、關(guān)鍵字等信息。本方法對(duì)用戶行為的形式化表示有助于加強(qiáng)對(duì)用戶行為的理解,對(duì)個(gè)性化網(wǎng)絡(luò)服務(wù)系統(tǒng)的構(gòu)建提供了更好的支持。文檔編號(hào)G06F17/30GK1804844SQ20061004162公開日2006年7月19日申請(qǐng)日期2006年1月10日優(yōu)先權(quán)日2006年1月10日發(fā)明者鄭慶華,杜瑾,劉均,吳茜媛,丁嬌申請(qǐng)人:西安交通大學(xué)