欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種Web挖掘系統(tǒng)的構(gòu)造方法

文檔序號:6441162閱讀:350來源:國知局
專利名稱:一種Web挖掘系統(tǒng)的構(gòu)造方法
技術(shù)領(lǐng)域
本發(fā)明涉及Web挖掘技術(shù),特別涉及基于內(nèi)在機理的知識發(fā)現(xiàn)理論(KDTIM)與特征子空間模型(DFSSM)的Web挖掘系統(tǒng),具體的講是一種Web挖掘系統(tǒng)的構(gòu)造方法。
Web挖掘從數(shù)據(jù)挖掘的角度發(fā)展而來,因此其定義與我們熟知的數(shù)據(jù)挖掘定義相類似。但是,Web挖掘與傳統(tǒng)的數(shù)據(jù)挖掘相比有很多獨特之處。首先,Web挖掘的對象是大量、異質(zhì)、分布的Web文檔。其次,Web在邏輯上是一個由文檔節(jié)點和超鏈接構(gòu)成的圖,因此Web挖掘所得到的模式可能是關(guān)于Web內(nèi)容的,也可能是關(guān)于Web結(jié)構(gòu)的。此外,由于Web文檔本身是半結(jié)構(gòu)化或無結(jié)構(gòu)的,且缺乏機器可理解的語義,而數(shù)據(jù)挖掘的對象局限于數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù),并利用關(guān)系表格等存儲結(jié)構(gòu)來發(fā)現(xiàn)知識,因此有些數(shù)據(jù)挖掘技術(shù)并不適用于Web挖掘,即使可用也需要建立在對Web文檔進(jìn)行預(yù)處理的基礎(chǔ)上。這樣,開發(fā)新的Web挖掘技術(shù),以及對Web文檔進(jìn)行預(yù)處理以得到關(guān)于文檔的特征表示,便成為Web挖掘研究的重點。
從上述Web挖掘的定義看出Web挖掘的處理過程與KDD近似,是一個多步驟的處理過程,主要包括了以下一些處理步驟,如

圖1所示1)數(shù)據(jù)選擇根據(jù)用戶的要求從Web文本、日志及Web結(jié)構(gòu)數(shù)據(jù)源中提取與Web挖掘相關(guān)的數(shù)據(jù),Web挖掘?qū)⒅饕獜倪@些數(shù)據(jù)中進(jìn)行知識提取,在此過程中,會利用一些數(shù)據(jù)庫操作對數(shù)據(jù)進(jìn)行處理,形成文本、日志及結(jié)構(gòu)數(shù)據(jù)庫。
2)數(shù)據(jù)預(yù)處理主要是對步驟1產(chǎn)生的數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對其中的噪音數(shù)據(jù)進(jìn)行處理,對丟失的數(shù)據(jù)可以利用統(tǒng)計方法進(jìn)行填補,形成挖掘數(shù)據(jù)庫。
3)確定Web挖掘的目標(biāo)根據(jù)用戶的要求,確定Web挖掘是發(fā)現(xiàn)何種類型的知識,因為對Web挖掘的不同要求會在具體的知識發(fā)現(xiàn)過程中采用不同的知識發(fā)現(xiàn)算法。
4)確定知識發(fā)現(xiàn)算法根據(jù)步驟3所確定的任務(wù),選擇合適的知識發(fā)現(xiàn)算法,這包括選取合適的模型和參數(shù),并使得知識發(fā)現(xiàn)算法與整個Web挖掘系統(tǒng)的評判標(biāo)準(zhǔn)相一致。
5)聚焦即從挖掘數(shù)據(jù)庫里進(jìn)行Web數(shù)據(jù)源的選擇。指導(dǎo)數(shù)據(jù)聚焦的方式是通過人機交互由專家輸入感興趣的知識,來指導(dǎo)Web數(shù)據(jù)的挖掘方向。
6)產(chǎn)生假設(shè)規(guī)則運用選定的Web挖掘知識發(fā)現(xiàn)算法,從Web數(shù)據(jù)源中提取出用戶所需要的知識,這些知識可以用一種特定的方式表示或使用一些常用的表示方式,如產(chǎn)生式規(guī)則等等。
7)知識評價這一過程主要用于對所獲得的規(guī)則進(jìn)行價值評定以決定所得的規(guī)則是否存入基礎(chǔ)知識庫。主要是通過人機交互界面由專家依靠經(jīng)驗來評價。
從上面的介紹可以看出,Web挖掘是復(fù)雜類型知識發(fā)現(xiàn)系統(tǒng)中的一個重要步驟,它主要是利用某些特定的知識發(fā)現(xiàn)算法,在一定的運算效率的限制內(nèi),從Web數(shù)據(jù)源中發(fā)現(xiàn)出有價值的知識。上述Web挖掘系統(tǒng)全過程的幾個步驟可以進(jìn)一步歸納為三大部分,即Web數(shù)據(jù)挖掘預(yù)處理(Web挖掘前的準(zhǔn)備工作),Web挖掘過程,Web挖掘后處理(Web挖掘后的處理工作)。
目前,Web挖掘就是對文檔的內(nèi)容、可利用資源的使用以及資源之間的關(guān)系進(jìn)行分析,以發(fā)現(xiàn)有效的、新穎的、有潛在價值的、并且最終可理解的模式和規(guī)則。
在邏輯上,我們可以把Web看成是位于物理網(wǎng)絡(luò)之上的一個有向圖G=(P,E),其中節(jié)點集合P對應(yīng)于Web上的所有文檔,而有向邊集E則對應(yīng)于節(jié)點之間的超鏈,對于節(jié)點集作進(jìn)一步的劃分N={N1,Nn1}。所有的非葉子節(jié)點Nn1是HTML文檔,其中除了包含文本以外,還包含了標(biāo)記以指定文檔的屬性和內(nèi)部結(jié)構(gòu),或者嵌入了超鏈以表示文檔間的結(jié)構(gòu)關(guān)系。葉子節(jié)點N1可以是HTML文檔,也可以是其它格式的文檔,例如PostScript等文本文件,以及圖形,音頻和視頻等多媒體文件。
Web上信息的多樣性決定了Web挖掘任務(wù)的多樣性。按照處理對象的不同,我們可以將Web挖掘分為三大類Web內(nèi)容挖掘(Web Content Mining)、Web訪問信息挖掘(Web Usage Mining)和Web結(jié)構(gòu)挖掘(Web StructureMining)。
當(dāng)前研究主要是針對以上三種Web挖掘技術(shù)展開的,即Web內(nèi)容挖掘(WebContent Mining)、Web訪問信息挖掘(Web Usage Mining)和Web結(jié)構(gòu)挖掘(Web Structure Mining)。其分類方式如圖2所示1)Web Content Mining(Web內(nèi)容挖掘)就是從Web頁面內(nèi)容或其描述中進(jìn)行挖掘,進(jìn)而抽取知識的過程。其中內(nèi)容的挖掘從挖掘?qū)ο笊蟻矸钟挚梢苑譃閮深惼湟?,對于文本文檔的挖掘(包括text,HTML等格式)和多媒體文檔(包括Image,audio,video等媒體類型)的挖掘。Web文本挖掘系統(tǒng)可以對Web上大量文檔集合的內(nèi)容進(jìn)行關(guān)聯(lián)分析、總結(jié)、分類、聚類,以及利用Web文檔進(jìn)行趨勢預(yù)測等。Web內(nèi)容挖掘有兩種策略直接挖掘文檔的內(nèi)容,或在其它工具搜索的基礎(chǔ)上進(jìn)行改進(jìn)。采用第一種策略的有針對Web的查詢語言Web Log,WebOQL等,利用啟發(fā)式規(guī)則來尋找個人主頁信息的Ahoy,等等。采用第二種策略的方法主要是對搜索引擎的查詢結(jié)果進(jìn)行進(jìn)一步的處理,得到更為精確和有用的信息。屬于該類的有WebSQL,及對搜索引擎的返回結(jié)果進(jìn)行聚類的技術(shù)等等。
2)Web Usage Mining(Web訪問信息挖掘)就是對用戶訪問Web時在服務(wù)器留下的訪問記錄進(jìn)行挖掘,即對用戶訪問Web站點的存取方式進(jìn)行挖掘,以發(fā)現(xiàn)用戶訪問站點的瀏覽模式,頁面的訪問頻率等信息;挖掘的對象是在服務(wù)器上的包括Server Log Data等日志。挖掘的方式是路徑分析;關(guān)聯(lián)規(guī)則和序列模式的發(fā)現(xiàn);聚類和分類。其挖掘得到的模式可以用來指導(dǎo)站點管理員改進(jìn)Web站點的設(shè)計或提供可以帶來經(jīng)濟效益的信息。
3)Web Structure Mining(Web結(jié)構(gòu)挖掘)就是從WWW的組織結(jié)構(gòu)和鏈接關(guān)系中推導(dǎo)知識。由于文檔之間的互連,WWW能夠提供除文檔內(nèi)容之外的有用信息。利用這些信息,可以對頁面進(jìn)行排序,發(fā)現(xiàn)重要的頁面。這方面的工作的代表有PageRank和CLEVER。此外,在多層次Web數(shù)據(jù)倉庫(MLDB)中也利用了頁面的鏈接結(jié)構(gòu)。
當(dāng)前對于Web挖掘主流技術(shù)的研究已取得了一定的成果,對算法的研究不局限于以往的一些傳統(tǒng)算法,而涉及到了粗糙集、遺傳算法等一些相關(guān)領(lǐng)域。這不僅為Web挖掘系統(tǒng)的整體體系結(jié)構(gòu)研究提供了基礎(chǔ),而且在客觀上也要求為Web挖掘系統(tǒng)提供一個理論上的體系框架,將各種相關(guān)領(lǐng)域的研究統(tǒng)一起來?;诖?,北京科技大學(xué)信息工程學(xué)院的楊炳儒教授(發(fā)明人)于1997年從知識發(fā)現(xiàn)、認(rèn)知科學(xué)與智能系統(tǒng)交叉結(jié)合的角度,首次提出并構(gòu)造了基于內(nèi)在機理研究的知識發(fā)現(xiàn)理論KDTIM(Knowledge Discovery TheoryBased On Inner Mechanism)(原創(chuàng)性理論),從而開辟了知識發(fā)現(xiàn)系統(tǒng)內(nèi)在機理研究的新方向(新分支)。KDTIM所蘊含的三個機制(雙庫協(xié)同機制、雙基融合機制及信息擴張機制)、誘導(dǎo)的新結(jié)構(gòu)模型、派生的新技術(shù)方法與引發(fā)的新型實用智能系統(tǒng)及在知識發(fā)現(xiàn)過程中若干規(guī)律的新發(fā)現(xiàn)與新見解,揭示了知識發(fā)現(xiàn)作為認(rèn)知系統(tǒng)與認(rèn)知過程的潛在本質(zhì)、規(guī)律與復(fù)雜性;并對知識發(fā)現(xiàn)主流發(fā)展起著重要的驅(qū)動作用,對相關(guān)學(xué)科與技術(shù)起著帶動性作用(學(xué)術(shù)價值)。在現(xiàn)有的Web挖掘技術(shù)的基礎(chǔ)上融入知識發(fā)現(xiàn)內(nèi)在機理研究(KDTIM)之一雙庫協(xié)同機制,即構(gòu)建數(shù)據(jù)庫(文本庫、日志庫與結(jié)構(gòu)信息庫)與基礎(chǔ)知識庫的內(nèi)在聯(lián)系“通道”,從而用基礎(chǔ)知識庫去制約與驅(qū)動Web挖掘系統(tǒng)的整個挖掘流程,改變Web挖掘系統(tǒng)固有的運行機制,在結(jié)構(gòu)與功能上形成了相對于Web挖掘系統(tǒng)而言的一個開放的、優(yōu)化的擴體;從而形成了基礎(chǔ)--機理--模型--算法--軟件--應(yīng)用的研究體系。
盡管Web挖掘系統(tǒng)的研究已取得了一些成就,但Web挖掘的發(fā)現(xiàn)過程仍有其固有的矛盾和難題,表現(xiàn)在1)采掘的對象更大型的數(shù)據(jù)庫、更高的維數(shù)和屬性之間更復(fù)雜的關(guān)系。Web挖掘要處理的數(shù)據(jù)量通常是十分巨大的。例如容量達(dá)到GB(109)或者TB(1012)數(shù)量級的海量網(wǎng)頁信息,網(wǎng)站日志信息等等。更多的屬性意味著高維的搜索空間,從而導(dǎo)致組合爆炸。屬性值之間的關(guān)系變得更加復(fù)雜,比如表現(xiàn)為層次結(jié)構(gòu)。這些因素使得搜索知識代價極高。因此,系統(tǒng)地、定向地搜索成為邏輯的必然。
2)多種形式的輸入數(shù)據(jù)目前Web挖掘系統(tǒng)將針對文本、圖形、數(shù)學(xué)公式、圖象或WWW資源等這些半結(jié)構(gòu)、無結(jié)構(gòu)的數(shù)據(jù)形式進(jìn)行挖掘操作。同時對于多媒體數(shù)據(jù)、空間數(shù)據(jù)及時序數(shù)據(jù)的挖掘處理尚在發(fā)展完善中。另外的挑戰(zhàn)是數(shù)據(jù)本身存在缺損或噪聲,特別是在商業(yè)數(shù)據(jù)庫中。
3)用戶參與和領(lǐng)域知識有效的決策過程往往需要多次交互和多次反復(fù)。目前的Web挖掘系統(tǒng)或工具很少能真正做到讓用戶參與到挖掘過程中。用戶的背景知識和指導(dǎo)作用可以加快采掘的進(jìn)程,并且保證發(fā)現(xiàn)的知識的有效性。將相關(guān)領(lǐng)域的知識融入Web挖掘系統(tǒng)中是一個重要但沒有很好解決的問題。因此,用“推拉式”把知識呈現(xiàn)給用戶,用來提高知識發(fā)現(xiàn)的效率和實用性也成為邏輯的必然。
4)知識的維護(hù)和更新新的數(shù)據(jù)積累可能導(dǎo)致以前發(fā)現(xiàn)的知識失效,這些知識需要動態(tài)維護(hù)和及時更新。目前研究采用增量更新的方法來維護(hù)已有的知識,比如D.W.Cheung等提出了維護(hù)關(guān)聯(lián)規(guī)則的增量算法。
5)知識的局限、與其他系統(tǒng)的集成目前的Web挖掘系統(tǒng)尚不能支持多種平臺。一些產(chǎn)品是基于PC的,一些是面向大型主機系統(tǒng)的,還有一些是面向客戶服務(wù)器環(huán)境的。有的系統(tǒng)對于數(shù)據(jù)庫中包含的域或記錄是有限的,例如要求數(shù)據(jù)文件為特定的大小,或者轉(zhuǎn)化為特定的數(shù)據(jù)庫管理系統(tǒng)(DBMS)識別的格式。但是,數(shù)據(jù)重定義的費用可能是十分昂貴的。另外的挑戰(zhàn)是Web挖掘系統(tǒng)和其它決策知識系統(tǒng)的有機集成,特別是和一些用戶已經(jīng)熟悉的系統(tǒng)結(jié)合在一起,這對于系統(tǒng)充分發(fā)揮作用是非常重要的。
Web挖掘的這些局限性,在很大程度上是來源于對復(fù)雜類型數(shù)據(jù)知識發(fā)現(xiàn)系統(tǒng)自身體系結(jié)構(gòu)缺乏研究與認(rèn)識。若將Web挖掘局限于一個封閉的模式中,不可避免的會帶來一系列的問題;而若把復(fù)雜類型數(shù)據(jù)知識發(fā)現(xiàn)及其相關(guān)的一些過程作為一個宏觀的整體來考慮,會在一定程度上解決以上問題。
另外,目前絕大部分Web挖掘系統(tǒng)的算法沒有將Web挖掘系統(tǒng)作為認(rèn)知的復(fù)雜系統(tǒng)對其內(nèi)在的規(guī)律性加以研究,且都沒有考慮知識庫,挖掘出來的許多假設(shè)規(guī)則與知識庫中的已有知識是重復(fù)的和冗余的,甚至是不相容的,并且僅靠人機交互形成聚焦,而沒有體現(xiàn)系統(tǒng)自身的認(rèn)知自主性,因此對Web挖掘系統(tǒng)定義中要求的新穎性和有效性就無法體現(xiàn)出來。
本發(fā)明的技術(shù)方案為一種Web挖掘系統(tǒng)的構(gòu)造方法,包括中央處理器、存儲器組成的數(shù)字計算機,所述的數(shù)字計算機與網(wǎng)絡(luò)聯(lián)接;其特征在于所述的存儲器存儲有真實數(shù)據(jù)庫和基礎(chǔ)知識庫,以及啟發(fā)型協(xié)調(diào)器和維護(hù)型協(xié)調(diào)器;所述的中央處理器對所述的存儲器進(jìn)行控制并執(zhí)行如下步驟步驟1、特征抽取及特征變換,即對Web上采集到的挖掘目標(biāo)樣本進(jìn)行特征預(yù)處理(分詞和詞頻統(tǒng)計處理),然后采用特征子空間模型(DFSSM),將特征抽取、變換及特征子集的選擇融為一體,用模式來表示W(wǎng)eb內(nèi)容挖掘中間表示形式;步驟2、Web內(nèi)容挖掘過程,即對于Web內(nèi)容的中間表示形式采用向量空間的距離測度分類算法(收斂性的知識發(fā)現(xiàn)算法)進(jìn)行分類挖掘處理,也可以結(jié)合聚類和關(guān)聯(lián)挖掘算法,最終得到潛在的模式集;步驟3、模型質(zhì)量評價,即對挖掘得到模式集進(jìn)行評價,將符合一定標(biāo)準(zhǔn)的知識或者模式呈現(xiàn)給用戶;其中使用的客觀評價指標(biāo)主要是查全率(Recall)和查準(zhǔn)率(Precision);步驟4、信息呈現(xiàn)及信息導(dǎo)航,即將反饋的結(jié)果用可視化的方式(樹型結(jié)構(gòu)和圖形結(jié)構(gòu))進(jìn)行顯示,同時對用戶提供信息導(dǎo)航功能,從而在極大的程度上方便用戶有效地瀏覽和獲取信息;步驟5、雙庫協(xié)同機制,即當(dāng)用模式表征了挖掘?qū)ο蠛螅ㄟ^所述的啟發(fā)型協(xié)調(diào)器來搜索知識庫中“知識結(jié)點”的不關(guān)聯(lián)態(tài),以發(fā)現(xiàn)“知識短缺”,產(chǎn)生“創(chuàng)見意象”,從而啟發(fā)與激活真實數(shù)據(jù)庫中相應(yīng)的“數(shù)據(jù)類”,以產(chǎn)生“定向發(fā)掘進(jìn)程”,提高其認(rèn)知自主性及智能化程度;對于分類算法生成的假設(shè)規(guī)則(知識),采用所述的維護(hù)型協(xié)調(diào)器使Web挖掘進(jìn)程產(chǎn)生“中斷”,從而搜索知識庫中對應(yīng)位置有無此生成規(guī)則的重復(fù)、冗余與矛盾(定向搜索進(jìn)程);若有,則取消該生成規(guī)則或相應(yīng)處理后返回Web挖掘的“始端”;若無,則繼續(xù)Web挖掘進(jìn)程,將評價與結(jié)果存入知識庫。
所述的雙庫協(xié)同機制需滿足如下條件在所述的真實數(shù)據(jù)庫上,按數(shù)據(jù)子類結(jié)構(gòu)形式所構(gòu)成的發(fā)掘數(shù)據(jù)庫與基于屬性建庫原則的發(fā)掘知識庫之間根據(jù)泛同倫理論建立了知識節(jié)點與數(shù)據(jù)子類結(jié)構(gòu)層間的一一對應(yīng)關(guān)系;在知識發(fā)現(xiàn)系統(tǒng)聚焦進(jìn)程中,除依據(jù)用戶需求確定聚焦外,通過啟發(fā)協(xié)調(diào)算法可以形成依發(fā)掘知識庫中知識短缺而形成的機器自身提供的聚焦方向,進(jìn)而形成在數(shù)據(jù)庫中的定向發(fā)掘;在獲得假設(shè)規(guī)則到知識評價的過程中產(chǎn)生中斷進(jìn)程,即先不對假設(shè)規(guī)則進(jìn)行評價,而是通過維護(hù)協(xié)調(diào)算法到發(fā)掘知識庫中進(jìn)行定向搜索,以期發(fā)現(xiàn)產(chǎn)生的假設(shè)規(guī)則與知識庫中原有知識是否重復(fù)、冗余和矛盾,并作相應(yīng)處理。
所述的啟發(fā)型協(xié)調(diào)器和維護(hù)型協(xié)調(diào)器的實現(xiàn),需滿足如下條件在大型(基礎(chǔ))知識庫中,根據(jù)各個具體的論域劃分為若干個相關(guān)的知識子庫;同時在真實數(shù)據(jù)庫中,也相應(yīng)地抽取與各個具體論域相關(guān)的數(shù)據(jù)子庫;這樣可建立知識子庫中“知識結(jié)點”與真實數(shù)據(jù)子庫中“數(shù)據(jù)子類(結(jié)構(gòu))的層”之間的一一對應(yīng)關(guān)系,以確??s小搜索空間而使協(xié)調(diào)具有“定向”性;其中還需滿足泛同倫概念的條件和下列的結(jié)構(gòu)對應(yīng)條件,即對于論域X,在相應(yīng)的知識子庫與數(shù)據(jù)子庫中,關(guān)于知識結(jié)點的拓?fù)淇臻g<E,F(xiàn)>與關(guān)于數(shù)據(jù)子類(結(jié)構(gòu))的拓?fù)淇臻g<F,D>是同一泛同倫型的空間。
所述的啟發(fā)型協(xié)調(diào)器是通過啟發(fā)協(xié)調(diào)算法來實現(xiàn)的;所述的啟發(fā)協(xié)調(diào)算法包括通過尋求知識短缺產(chǎn)生創(chuàng)見意向,使系統(tǒng)產(chǎn)生自動聚焦;所述的啟發(fā)協(xié)調(diào)算法的具體步驟為搜索自關(guān)聯(lián)強度大于某一閾值的語言變量,形成節(jié)點集S1;對節(jié)點集S1中的節(jié)點進(jìn)行組合,形成元組集合;搜索現(xiàn)有知識庫,從元組中除去已在知識庫中存在的元組;
對剩余元組按關(guān)聯(lián)強度排序,定出定向搜索的優(yōu)先級;按優(yōu)先級順序逐一掃描各元組,聚焦到數(shù)據(jù)庫中相應(yīng)入口定向發(fā)掘;進(jìn)入KDD進(jìn)程。
所述的維護(hù)型協(xié)調(diào)器是通過維護(hù)協(xié)調(diào)算法來實現(xiàn)的;所述的維護(hù)協(xié)調(diào)算法的具體步驟為設(shè)i=1;判斷知識庫是否結(jié)束;如果知識庫結(jié)束,則關(guān)閉知識庫;如果知識庫未結(jié)束,則查找第i條規(guī)則;判斷不等式Conf>0.5是否成立,如果不成立則i=i+1并返回,如果成立則進(jìn)一步判斷規(guī)則重復(fù)否;如果規(guī)則重復(fù),則i=i+1并返回,如果規(guī)則不重復(fù),則進(jìn)一步判斷規(guī)則冗余否;如果規(guī)則冗余,則i=i+1并返回,如果規(guī)則不冗余,則進(jìn)一步判斷規(guī)則矛盾否;如果規(guī)則矛盾,則i=i+1并返回,如果規(guī)則不矛盾,則將第i條規(guī)則存入知識庫,然后i=i+1并返回。
本發(fā)明所述的方法還包括知識表示方式;所述的知識表示是指語言場與語言值結(jié)構(gòu)表示方式、或模式表示方式;所述的語言場與語言值結(jié)構(gòu)表示方式需滿足如下條件(1)在語言變量相應(yīng)的基礎(chǔ)變量論域中,各個被劃分的交叉區(qū)間的中點連同ε-鄰域(ε通常為允許誤差值)內(nèi)的點,稱為標(biāo)準(zhǔn)樣本(點),其取值鄰域稱為標(biāo)準(zhǔn)值;其余諸點均稱為非標(biāo)準(zhǔn)樣本(點),其取值稱為非標(biāo)準(zhǔn)值;它們分別構(gòu)成標(biāo)準(zhǔn)樣本空間與非標(biāo)準(zhǔn)樣本空間,并統(tǒng)稱為一般樣本空間;(2)C=<D,I,N,≤N>,若滿足下列條件a)D為R上交叉閉區(qū)間的集合(基礎(chǔ)變量論域);b)N≠Φ為語言值的有限集;c)≤N為N上的全序關(guān)系;
d)IN→D為標(biāo)準(zhǔn)值映射,滿足保序性,則稱C為語言場;(3)對于語言場C=<D,I,N,≤N>,稱F=<D,W,K>為C的語言值結(jié)構(gòu),如果滿足以下條件a)C滿足定義2;b)K為自然數(shù);c)WN→Rk滿足n1,n2∈N(n1≤Nn2→W(n1)≤dicW(n2)>,n1,n2∈N(n1≠n2→W(n1) ≠W(n2));其中,≤dic為
k上的字典序,即(a1,....,ak)≤dic(b1,....,bk)當(dāng)且僅當(dāng)存在h,使得當(dāng)0≤j<h時aj=bj,ah≤bh;(4)設(shè)C1,C2為兩個語言場,稱C1是C2的擴張,若存在1-1映射fD1→D2,gN1→N2,使得a)f單調(diào);b)(n1∈N1)(f(I1(n1))=I2(g(n1)));其中,C1=<D1,I1,N1,≤N1>,C2=<D2,I2,N2,≤N2>。
(5)設(shè)C=<D,I,N,≤N>的語言值結(jié)構(gòu)為F1=<C1,W1,K1>,F(xiàn)2=<C2,W2,K2>,若存在1-1映射h
K1→
K2]]>滿足a)h在字典序下嚴(yán)格單調(diào);b)(n∈N)(h(W1(n))=W2(n));c)(∃ϵ∈R)(∀n,n′∈N)(dis1(W1(n),W1(n′))=ϵdis2(W2(n),W2(n′)))]]>其中dis1:
K1×
K1→
,]]>dis2:
K21×
K2→
,]]>則稱F1與F2為(dis1,dis2)一同構(gòu);擴張條件設(shè)C1,C2為兩個語言場,C1是C2的擴張的充要條件是C1與C2是同型語言場(即|N1|=|N2|);同構(gòu)條件設(shè)F為C的語言值結(jié)構(gòu),則F與F的double擴展在加權(quán)Hamming距離下同構(gòu);
針對Fuzzy語言變量,可得到相應(yīng)于上述Fuzzy語言場等條件。
所述的模式表示方式是指模式(Pattern)是知識發(fā)現(xiàn)過程中的一種知識表征方式,是具體或抽象的客觀對象的量化描述,是知識發(fā)現(xiàn)過程中的基本運算單元;模式參與知識的發(fā)現(xiàn)過程并表征所獲得的知識。
本發(fā)明所述的方法還包括知識評價方式;所述的知識評價方式是指基于自認(rèn)知邏輯的因果關(guān)聯(lián)規(guī)則的自動評價方式,其中包括(1a)一致性在客觀世界中,在不確定性推理機制與大量樣本統(tǒng)計下,因果關(guān)聯(lián)規(guī)則在推理上的表征和在統(tǒng)計上的表征是一致的;(1b)適用性認(rèn)證推理模式可適用于與因果關(guān)聯(lián)規(guī)則相關(guān)的推理中;即H⇒EEH]]>其中H為被檢驗的假設(shè),可以視為經(jīng)發(fā)掘后需要評價的因果關(guān)聯(lián)規(guī)則R;E為從H可以推出的一些斷言,可以視為經(jīng)檢驗得到的檢驗結(jié)果;在評價過程中,所進(jìn)行的檢驗是根據(jù)不確定因果歸納推理,檢驗因果數(shù)據(jù)是否滿足一致性原理,即如果數(shù)據(jù)的狀變態(tài)等于由數(shù)據(jù)經(jīng)推理所得的結(jié)果,則表明它滿足一致性原理,否則不滿足一致性原理;(2)根據(jù)正相關(guān)標(biāo)準(zhǔn)E認(rèn)證H,當(dāng)且僅當(dāng)Pr(H/E)>Pr(H)其中,Pr(H)為驗前置信度,Pr(H/E)為驗后置信度;這就是說,E認(rèn)證H當(dāng)且僅當(dāng)H相對于E的驗后置信度大于其驗前置信度;(3)對于評價方法的依據(jù)有將所發(fā)現(xiàn)的因果關(guān)聯(lián)規(guī)則記為R(Ai Sj),對規(guī)則進(jìn)行評價就是判定是否接受此規(guī)則,因此它屬于認(rèn)證邏輯的范疇;對因果關(guān)聯(lián)規(guī)則R(Ai Sj),Ai與Sj兩者同時出現(xiàn)的概率與兩者析取出現(xiàn)的概率之比即Pr(AiSj)/Pr(Ai∨Sj),稱為因果關(guān)聯(lián)強度,記作CR;(即相當(dāng)于Pr(H),可作為驗前置信度)將Pr(E2)/(Pr(E1)+Pr(E2))稱為支持強度,記作SUP;即相當(dāng)于Pr(H/E),可作為驗后置信度。
(4)對于因果關(guān)聯(lián)規(guī)則R(Ai Sj),若SUP>CR,則此因果關(guān)聯(lián)規(guī)則得到認(rèn)證,若SUP≤CR,則此因果關(guān)聯(lián)規(guī)則被否證;(5)評價算法,即評價規(guī)則Ai Sj取原因A和結(jié)果S的數(shù)據(jù),構(gòu)成一個序偶的集合P={<tw,sw>}(w=1,2....N),tw為原因狀(變)態(tài)空間中的數(shù)據(jù)(即因樣本值),sw為與原因數(shù)據(jù)相對應(yīng)的結(jié)果狀(變)態(tài)空間中的數(shù)據(jù)(即果樣本值);N為集合中樣本的個數(shù),設(shè)SUP1=0;其具體步驟包括步驟一、取原因的樣本值tw(w=1,2….N),它屬于一般的樣本空間,并可得到因狀(變)態(tài)輸入向量atw;步驟二、確定因狀(變)態(tài)輸入向量atw所屬因狀(變)態(tài)類型如Ak(k=1,2,3,4,5)即計算atw與各因狀(變)態(tài)標(biāo)準(zhǔn)向量Ai的測度dH,取最小者為atw歸屬的因狀(變)態(tài)類型;隨機抽取一樣本集,可以看作序偶的集合P={<tw,sw>};步驟三、以規(guī)則Ai Sj作為局部大前提,以因狀(變)態(tài)輸入向量at所屬的因狀(變)態(tài)標(biāo)準(zhǔn)向量Ak為小前提,可以在評價知識庫中通過自組織的方式找到與其相匹配的唯一的知識矩陣Mijk,并得到結(jié)果的狀(變)態(tài)向量Sw1;步驟四、聚類;計算Sw1所屬的果狀(變)態(tài)標(biāo)準(zhǔn)向量β,可通過求它與各果狀(變)態(tài)標(biāo)準(zhǔn)向量的測度(如下式)取最小者而獲得聚類;dH=(Sw1,Sj)=Σi=110|μSw(i)-|μSi(i)]]>
其中,μSw1(i)與μSj(i)分別為其各自對應(yīng)的坐標(biāo);步驟五、對于序偶集P={<tw,sw>},取相應(yīng)的結(jié)果的樣本值sw,用模糊聚類的方法可得到它所屬區(qū)間中的果狀(變)態(tài)標(biāo)準(zhǔn)向量γ,如果β=γ,則SUP1=SUP1+1,否則SUP1=SUP1;步驟六、重復(fù)上述過程N次,得到SUP;設(shè)SUP=SUP1/N;取規(guī)則的因果關(guān)聯(lián)強度CR與之比較;若SUP>CR則規(guī)則被接受;SUP≤CR則規(guī)則被拒絕。
本發(fā)明所述的方法還包括Web挖掘算法;所述的Web挖掘算法是指TCDFSSM算法、最大向前路徑算法和挖掘頻繁遍歷路徑算法;其中所述的TCDFSSM算法為TCDFSSM文本分類算法是基于距離測度函數(shù)的分類算法,主要在Hilbert模型表示空間中,考察兩個模式之間的相似程度,從而可以在較短的時間內(nèi)完成分類過程;所述的最大向前路徑算法為遍歷路徑就是在用戶會話中請求頁面所組成的序列;由于用戶會話中既包含請求頁面又包含路徑補充時添加的頁面,所以挖掘頻繁遍歷路徑時,首先在每個用戶會話中找出所有的最大向前路徑(MFP),然后確定其中的公共子路徑;MFP是在用戶會話中的第一頁到回退的前一頁組成的路徑;這樣,挖掘頻繁遍歷路徑問題轉(zhuǎn)化為在所有用戶會話的MFP中發(fā)現(xiàn)頻繁出現(xiàn)的連續(xù)子序列問題;所述的挖掘頻繁遍歷路徑算法為頻繁遍歷路徑是最大向前路徑中滿足一定支持度的連續(xù)頁面序列;包含頻繁遍歷路徑的用戶會話的數(shù)目叫支持度;定義頻繁遍歷路徑的長度為其包含的頁面數(shù);頻繁遍歷路徑的主要評判指標(biāo)就是支持度,也就是訪問此路徑的用戶回話數(shù)目。
本發(fā)明所述的方法可嵌入到應(yīng)用領(lǐng)域的數(shù)據(jù)庫或芯片等裝置中。
本發(fā)明所述的方法可應(yīng)用于基于信息挖掘的智能決策支持系統(tǒng)IDSSIM,以及基于氣象數(shù)據(jù)的信息挖掘新系統(tǒng)MDIMA;以適合在農(nóng)業(yè)、現(xiàn)代遠(yuǎn)程教育網(wǎng)、氣象、智能決策等領(lǐng)域中的應(yīng)用。
本發(fā)明的效果在于1)除根據(jù)用戶需求與人為的興趣去發(fā)掘知識外,提出了根據(jù)基礎(chǔ)知識庫中的“知識短缺”自動地啟發(fā)定向發(fā)掘知識的途徑,即提高“認(rèn)知自主性”(這將是今后相當(dāng)一階段內(nèi)保持的研究基調(diào)),較有效地克服領(lǐng)域?qū)<业淖陨砭窒蓿?)大大減少了在假設(shè)規(guī)則發(fā)掘后的“評價量”;3)根據(jù)前述的“結(jié)構(gòu)對應(yīng)”的機理,可大大縮小搜索空間,提高發(fā)掘效率;4)較有效地解決新舊知識合成后,知識庫的冗余性與一致性問題;5)總體上講,將Web挖掘視為一個開放系統(tǒng),在Web挖掘進(jìn)程與基礎(chǔ)知識庫的廣泛聯(lián)系中,改進(jìn)與優(yōu)化了Web挖掘的結(jié)構(gòu)、過程與運行機制。
2.WebMS*新系統(tǒng)基于的理論內(nèi)核-------雙庫協(xié)同機制2.1語言場與語言值結(jié)構(gòu)定義1C=<D,I,N,≤N>,若滿足下列條件(1)D為R上交叉閉區(qū)間的集合,D+為其對應(yīng)開集;(2)N≠Φ為語言值的有限集;(3)≤N為N上的全序關(guān)系;(4)IN→D為標(biāo)準(zhǔn)值映射,滿足保序性,即n1,n2∈N(n1≠n2n1≤Nn2→I(n1)≤I(n2)),(≤為偏序關(guān)系)則稱C為語言場。
定義2對于語言場C=<D,I,N,≤N>,稱F=<D,W,K>為C的語言值結(jié)構(gòu),如果(1)C滿足定義1;(2)K為自然數(shù);(3)WN→Rk滿足n1,n2∈N(n1≤Nn2→W(n1)≤dicW(n2)),n1,n2∈N(n1≠n2→W(n1)≠W(n2)).
其中,≤dic為
k上的字典序,即(a1....,ak)≤dic(b1,....,bk)當(dāng)且僅當(dāng)存在h,使得當(dāng)0≤j<h時aj=bj,ah≤bh。
2.2雙庫間泛同倫與結(jié)構(gòu)對應(yīng)關(guān)系的建立1)關(guān)于“知識結(jié)點”的討論定義3在相關(guān)于論域X的知識子庫中,稱按如下形成表達(dá)的知識為不確定性規(guī)則型知識(1)P(X)Q(X)(2)-----P(X)⇒Λj=1nQj(X)]]>(3)--------Λi=1nPi(X)⇒Qj(X)]]>(4)-----Λi=1nPi(X)⇒Λj=1mQj(X)]]>其中P(X),Pi(x),Q(X),Qj(X)分別為“屬性詞”(或“狀態(tài)詞”)+程度詞”的形式。
定義4在定義3中,P(X)與Pi(x)稱為知識始結(jié)點,Q(X)與Qj(X)稱為知識終結(jié)點,并分別稱為知識素結(jié)點;Λj=1mQj(X),Λi=1nPi(X),]]>分別稱為知識合結(jié)點;兩者統(tǒng)稱為知識結(jié)點。
顯然,各個知識結(jié)點標(biāo)示的屬性即構(gòu)成語言場,如溫度場,壓力場等;而各狀態(tài)或變態(tài)的程度即構(gòu)成語言值結(jié)構(gòu),如溫度場中的溫度很高、高、中、低、很低等。
定理1在相關(guān)于論域X(含若干語言場)的知識子庫中,全體知識結(jié)點的集合記作E(有限集),其冪集記作ρ(E);則<E,ρ(E)>構(gòu)成一個極大化拓?fù)淇臻g。(證明略)。
2)關(guān)于“數(shù)據(jù)子類(結(jié)構(gòu))”的討論定義5對于論域X,在相應(yīng)于知識子庫的數(shù)據(jù)子庫中,與每個知識素結(jié)點相應(yīng)的結(jié)構(gòu)S=<U,N,I,W>稱為數(shù)據(jù)子類結(jié)構(gòu)。其中,U≠Φ,U=(u1,u2,...},(ui是數(shù)據(jù)集,由下述的I形成),它是在特定的語言場與語言值結(jié)構(gòu)下,表征相應(yīng)于知識素結(jié)點“屬性詞”或“狀態(tài)詞”的數(shù)據(jù)集的類(稱為數(shù)據(jù)子類);N≠Φ為語言值的有限集,它是刻劃相應(yīng)于知識素結(jié)點“程度詞”的語言值的集合;IN→U,它是按語言值將數(shù)據(jù)集的類U進(jìn)行劃分的映射。在數(shù)據(jù)連續(xù)分布時,通常劃分為若干交叉區(qū)間(即i,j(ui∩uj≠Φ));WN→
K(k為正整數(shù))滿足n1,n2∈N(n1≤Nn2→W(n1)≤dicW(n2)) ,n1,n2∈N(n1≠n2→W(n1)≠W(n2)).
其中≤N為N上全序關(guān)系,≤dic為
K上的字典序,W(n)(n∈N)為語言值的標(biāo)準(zhǔn)向量(即樣本取自語言值對應(yīng)區(qū)間中點及其鄰域時所對應(yīng)的向量)。
定義6在數(shù)據(jù)子類結(jié)構(gòu)S=<U,N,I,W>中,稱滿足下列條件的三元組<ui,ni,ri>為S的層(1)ui∈U,ui(i=1,2,3,...,v)為初步劃定的第i個區(qū)間段內(nèi)樣本數(shù)據(jù)集;(2)ni∈N,ni(i=1,2,3,...,v)為依樣本數(shù)據(jù)集所落區(qū)間歸屬的語言值;(3)ri(i=1,2,3,...,v)的確定(i)ui中樣本數(shù)據(jù)落于非交叉區(qū)間時,ri取為標(biāo)準(zhǔn)向量;此時,ri∈W(n)。(ii)ui中樣本數(shù)據(jù)落入交叉區(qū)間內(nèi)時,用插值公式求得 uio(為第i個區(qū)間標(biāo)準(zhǔn)樣本數(shù)據(jù),li為第i個區(qū)間長度,Ai為第i個區(qū)間標(biāo)準(zhǔn)向量,A鄰為依ui落點所定的相鄰區(qū)間標(biāo)準(zhǔn)向量)。
再根據(jù)ri*與ri、ri+1的測度,或ri*與ri、ri-1的測度,決定取ri或ri+1或ri-1,并將此部分?jǐn)?shù)據(jù)保留在第i層或移至第i+1層或移至第i-1層。
顯然,數(shù)據(jù)子類與數(shù)據(jù)子類結(jié)構(gòu)構(gòu)成一一對應(yīng)。
定理2對于論域X,在相應(yīng)于知識子庫的數(shù)據(jù)子庫中,全體數(shù)據(jù)子類(結(jié)構(gòu))的集合記作F(有限集),其冪集記作ρ(F),則<F,ρ(F)>構(gòu)成一個極大化拓?fù)淇臻g。(證明略)。
3)關(guān)于“知識結(jié)點”與“數(shù)據(jù)子類(結(jié)構(gòu))”關(guān)系的討論定義7設(shè)X與Y是任意的拓?fù)淇臻g,稱連續(xù)映射XF×
n→ Y為X到Y(jié)的映射的泛同倫。(通常意義下同倫概念的擴展)。
定義8設(shè)f,g為從拓?fù)淇臻gX到Y(jié)的連續(xù)映射,若存在泛同倫F(x,t)=ft(x),使得對于任意點x∈X均有f(x)=F(x,(0,...,0)),g(x)=F(x,(1,...,1)),則稱g泛同倫于f,并稱F為連續(xù)映射f與映射g的泛同倫,記作f~g。
定義9從拓?fù)淇臻gX到拓?fù)淇臻gY的連續(xù)映射f稱為泛同倫等價,若存在從拓?fù)淇臻gY到拓?fù)淇臻gX的連續(xù)映射g,使得合成映射gof和fog分別是從X和Y到自身的、泛同倫于對應(yīng)空間的恒等映射IX和IY的映射,分別記作gof~I(xiàn)X,fog~I(xiàn)Y;映射g也是泛同倫等價,且稱為等價f的逆等價。
定義10設(shè)給定兩個拓?fù)淇臻g,若至少存在一個空間到另一個空間的一個泛同倫等價的映射,則稱這兩個空間為同一泛同倫型的空間。
定理3(結(jié)構(gòu)對應(yīng)定理)對于論域X,在相應(yīng)的知識子庫與數(shù)據(jù)子庫中,關(guān)于知識結(jié)點的拓?fù)淇臻g<E,ρ(E)>與關(guān)于數(shù)據(jù)子類(結(jié)構(gòu))的拓?fù)淇臻g<F,ρ(E)>是同一泛同倫型的空間。(證明略)。
由上分析可知在把一個空間換成同一個泛同倫型的空間時,泛同倫類集合的結(jié)構(gòu)并無改變, 所以在同倫理論里,可以把同一泛同倫型的空間看做是相同的。故定理3給出了知識子庫中“知識結(jié)點”與相應(yīng)數(shù)據(jù)子庫中“數(shù)據(jù)子類結(jié)構(gòu)”中的層之間的一一對應(yīng)關(guān)系,可用下列對應(yīng)圖(圖5)示之基于上述理論,發(fā)明者設(shè)計開發(fā)了兩個協(xié)調(diào)器,并將其嵌入到Web挖掘系統(tǒng)中去。從而在根本上改變了Web挖掘系統(tǒng)固有的運行機制,在結(jié)構(gòu)與功能上形成了相對于Web挖掘系統(tǒng)而言的一個開放的、優(yōu)化的擴體。
2.3雙庫協(xié)同機制的核心算法及技術(shù)實現(xiàn)通過以上對WebMS*新系統(tǒng)總體結(jié)構(gòu)模型圖及理論基礎(chǔ)的介紹,我們可以看出雙庫協(xié)同機制的技術(shù)實現(xiàn)是要構(gòu)造R(維護(hù))型協(xié)調(diào)器與S(啟發(fā))型協(xié)調(diào)器。R型協(xié)調(diào)器的主要功能是當(dāng)從文本、日志及結(jié)構(gòu)數(shù)據(jù)庫的大量數(shù)據(jù)中經(jīng)聚焦而生成假設(shè)規(guī)則(知識)后,使Web挖掘進(jìn)程產(chǎn)生“中斷”,而去搜索知識庫中對應(yīng)位置有無此生成規(guī)則的重復(fù)、冗余與矛盾(定向搜索進(jìn)程)。若有,則取消該生成規(guī)則或相應(yīng)處理后返回Web挖掘的“始端”;若無,則繼續(xù)Web挖掘進(jìn)程,即評價與結(jié)果入庫。S型協(xié)調(diào)器的主要功能是在以屬性為基礎(chǔ)的知識庫建庫原則下,通過搜索知識庫中“知識結(jié)點”的不關(guān)聯(lián)態(tài),以發(fā)現(xiàn)“知識短缺”,產(chǎn)生“創(chuàng)見意象”,從而啟發(fā)與激活真實數(shù)據(jù)庫中相應(yīng)的“數(shù)據(jù)類”,以產(chǎn)生“定向發(fā)掘進(jìn)程”。
由上可見實現(xiàn)雙庫協(xié)同機制最關(guān)鍵的問題即是實現(xiàn)“定向搜索進(jìn)程”(減小搜索空間)和“定向發(fā)掘進(jìn)程”(減少發(fā)掘空間);而實現(xiàn)該功能的必要條件是構(gòu)建知識庫中“知識結(jié)點”與文本、日志及結(jié)構(gòu)數(shù)據(jù)庫中“數(shù)據(jù)子類(結(jié)構(gòu))”的對應(yīng)關(guān)系。本發(fā)明是以文本、日志及結(jié)構(gòu)數(shù)據(jù)庫與大型知識庫中一類基于語言變量的不確定性規(guī)則型知識為典型進(jìn)行研究開發(fā)。
2.3.1啟發(fā)協(xié)調(diào)算法啟發(fā)型協(xié)調(diào)器的主要目的是為系統(tǒng)的聚焦提供另一個途徑。在經(jīng)典Web挖掘進(jìn)程中,系統(tǒng)的聚焦通常是由用戶提供感興趣方向,Web挖掘沿此方向進(jìn)行挖掘。但如果僅沿此方向進(jìn)行,大量數(shù)據(jù)中的潛在的,也許會對用戶有用的信息往往會被用戶忽略。為幫助Web挖掘盡可能多的搜索到對用戶有用的信息,以彌補用戶或領(lǐng)域?qū)<易陨淼木窒扌?,提高機器的認(rèn)知自主性,我們構(gòu)造了啟發(fā)型協(xié)調(diào)器。
啟發(fā)型協(xié)調(diào)器是通過啟發(fā)協(xié)調(diào)算法來實現(xiàn)的,算法的奠基是我們以上討論的泛同倫理論;算法的流程圖如下圖6給出。本協(xié)調(diào)器的算法實現(xiàn)已于1998年底通過運行測試,采用的數(shù)據(jù)來源是世界某地區(qū)社會調(diào)查結(jié)果的部分?jǐn)?shù)據(jù)資料,真實數(shù)據(jù)庫內(nèi)的屬性包括調(diào)查對象的工作狀況、婚姻狀況、初婚年齡、子女年齡、教育年限、年收入狀況、自我感覺等17個因素。采用的開發(fā)平臺是VC++5.0,數(shù)據(jù)庫是Oracle8.0;在國家自然科學(xué)基金重點項目“基于數(shù)據(jù)庫和知識庫的知識發(fā)現(xiàn)及其農(nóng)業(yè)應(yīng)用系統(tǒng)的研究”(69835001)中實現(xiàn)并運行測試了該算法,所采用的數(shù)據(jù)來源是用于測試挖掘算法的經(jīng)典網(wǎng)絡(luò)數(shù)據(jù)庫中的蘑菇數(shù)據(jù)庫(mushroom database);采用的開發(fā)平臺是Delphi 5.0,數(shù)據(jù)庫是SQL Server 7.0。
2002年在教育部重點科技攻關(guān)項目“現(xiàn)代遠(yuǎn)程教育網(wǎng)中的關(guān)鍵技術(shù)--信息挖掘及智能門戶搜索工具的研究”(教技司 175)中進(jìn)一步的完善并運行測試了該算法,同時于2002年12月13日通過了中國軟件評測中心的正式測評;并計劃將該算法融合到復(fù)雜類型數(shù)據(jù)的挖掘系統(tǒng)中。所使用的平臺是蘭州大學(xué)遠(yuǎn)程教育平臺及北京龍騰創(chuàng)想公司的遠(yuǎn)程教育平臺;采用的開發(fā)平臺是Delphi 6.0,數(shù)據(jù)庫是SQL Server 2000。
2.3.2維護(hù)協(xié)調(diào)算法傳統(tǒng)的知識發(fā)現(xiàn)系統(tǒng),對Web挖掘過程產(chǎn)生的假設(shè)直接進(jìn)行評價,被接受的知識歸并到知識庫時,由知識庫管理系統(tǒng)負(fù)責(zé)對知識庫的一致性、冗余性進(jìn)行檢查,對矛盾和冗余的知識進(jìn)行處理,形成新的知識庫。此方式的缺點是形成許多無意義的假設(shè)評價和由于問題的大量積累而加重一致性、冗余性檢查的負(fù)擔(dān)。
由于維護(hù)型協(xié)調(diào)器對Web挖掘過程的介入,可以實時地、盡早地將重復(fù)、矛盾、冗余的知識淘汰掉,從而作到只對那些有可能成為新知識的假設(shè)進(jìn)行評價,最大限度地減少了評價工作量。在實際的專家系統(tǒng)中,最終成為新知識的假設(shè)占原假設(shè)的比例是很小的(發(fā)現(xiàn)新知識是困難的),大量假設(shè)會是重復(fù)和冗余的,因此維護(hù)型協(xié)調(diào)器的引入將提高KDD的效率。該協(xié)調(diào)器是通過維護(hù)協(xié)調(diào)算法來實現(xiàn)的,圖7將給出算法的流程圖。此程序也已于1998年底通過運行測試,并且至近仍在不斷的完善和改進(jìn)之中。2002年在教育部重點科技攻關(guān)項目“現(xiàn)代遠(yuǎn)程教育網(wǎng)中的關(guān)鍵技術(shù)--信息挖掘及智能門戶搜索工具的研究”(教技司 175)中完善并運行測試了該算法,同時于2002年12月13日通過了中國軟件評測中心的正式測評;并計劃將該算法融合到復(fù)雜類型數(shù)據(jù)的挖掘系統(tǒng)中。所使用的平臺是蘭州大學(xué)遠(yuǎn)程教育平臺及北京龍騰創(chuàng)想公司的遠(yuǎn)程教育平臺;采用的開發(fā)平臺是Delphi 6.0,數(shù)據(jù)庫是SQL Server 2000。
3.WebMS*新系統(tǒng)內(nèi)涵的技術(shù)方法------基于自認(rèn)知邏輯的因果關(guān)聯(lián)規(guī)則的自動評價方法其自動評價算法如下(評價規(guī)則Ai Sj)
取原因A和結(jié)果S的數(shù)據(jù),構(gòu)成一個序偶的集合P={<tw,sw>}(w=1,2....N),tw為原因狀(變)態(tài)空間中的數(shù)據(jù)(即因樣本值),sw為與原因數(shù)據(jù)相對應(yīng)的結(jié)果狀(變)態(tài)空間中的數(shù)據(jù)(即果樣本值)。N為集合中樣本的個數(shù)。設(shè)SUP1=0。
步驟1取原因的樣本值tw(w=1,2....N),它屬于一般的樣本空間,根據(jù)式(1)可得到因狀(變)態(tài)輸入向量atw。
步驟2確定因狀(變)態(tài)輸入向量atw所屬因狀(變)態(tài)類型如Ak(k=1,2,3,4,5)即由式(2)計算atw與各因狀(變)態(tài)標(biāo)準(zhǔn)向量Ai的測度dH,取最小者為atw歸屬的因狀(變)態(tài)類型。隨機抽取一樣本集,可以看作序偶的集合P={<tw,sw>}。
步驟3以規(guī)則Ai Sj作為局部大前提,以因狀(變)態(tài)輸入向量at所屬的因狀(變)態(tài)標(biāo)準(zhǔn)向量Ak為小前提,可以在評價知識庫中通過自組織的方式找到與其相匹配的唯一的知識矩陣Mijk,根據(jù)自動推理模式(3)得到結(jié)果的狀(變)態(tài)向量Sw1。
步驟4聚類。計算Sw1所屬的果狀(變)態(tài)標(biāo)準(zhǔn)向量β,可通過求它與dH(Sw1,Sj)=Σi=110|μSw(i)-μSj(i)|]]>各果狀(變)態(tài)標(biāo)準(zhǔn)向量的測度(如下式)取最小者而獲得聚類。
其中,μSw1(i)與μSj(i)分別為其各自對應(yīng)的坐標(biāo)。
步驟5對于序偶集P={<tw,sw>},取相應(yīng)的結(jié)果的樣本值sw,用模糊聚類的方法可得到它所屬區(qū)間中的果狀(變)態(tài)標(biāo)準(zhǔn)向量γ,如果β=γ,則SUP1=SUP1+1,否則SUP1=SUP1。
步驟6重復(fù)上述過程N次,得到SUP。設(shè)SUP=SUP1/N取規(guī)則的因果關(guān)聯(lián)強度CR與之比較。
若SUP>CR則規(guī)則被接受;SUP≤CR則規(guī)則被拒絕。
4.由WebMS*誘導(dǎo)的新型實用智能系統(tǒng)4.1 IDSSIM(基于信息挖掘的智能決策支持系統(tǒng))如圖8所示.
4.2 MDIM(基于氣象數(shù)據(jù)的信息挖掘新系統(tǒng))天氣系統(tǒng)是一個復(fù)雜大系統(tǒng),其影響因素多,時空狀態(tài)變化大;氣象數(shù)據(jù)中蘊含著復(fù)雜非線性動力學(xué)機制,各個因素之間的關(guān)系十分復(fù)雜,并具有紛雜多變的時空特征。因而,難以建立各要素之間的關(guān)系。采用新的技術(shù)方法進(jìn)行相關(guān)研究具有重要意義,也是應(yīng)用發(fā)展及實際需求的驅(qū)動。我們試圖采用復(fù)雜類型數(shù)據(jù)挖掘技術(shù)來解決此問題。
國內(nèi)外利用知識發(fā)現(xiàn)來進(jìn)行氣象預(yù)報等應(yīng)用研究的文獻(xiàn)報道極少,所采用的方法主要包括神經(jīng)網(wǎng)絡(luò)、分類和聚類。其缺點是無法處理大數(shù)據(jù)量;使用數(shù)據(jù)類型簡單;沒有考慮已有領(lǐng)域知識;沒有考慮系統(tǒng)的復(fù)雜性。
我們從知識發(fā)現(xiàn)、復(fù)雜大系統(tǒng)、認(rèn)知科學(xué)等多學(xué)科交叉的角度,研究了氣象數(shù)據(jù)的結(jié)構(gòu)和特點,構(gòu)建了一個全新的、多層遞階的、智能化氣象數(shù)據(jù)知識發(fā)現(xiàn)系統(tǒng)的體系結(jié)構(gòu),該系統(tǒng)的核心部分是DFSSM結(jié)構(gòu)模型(即WebMS*總體結(jié)構(gòu)模型);同時緊密結(jié)合應(yīng)用背景,提出與實現(xiàn)了一種全新的復(fù)雜數(shù)據(jù)類型的知識信息處理的新機制。
我們在WebMS*結(jié)構(gòu)模型下,采用了小波分析與語言場相結(jié)合的知識表示方法;提出因果關(guān)聯(lián)規(guī)則、相似模式、混沌模式等信息挖掘新算法;特別是針對氣象數(shù)據(jù)提出一種新的將小波分析和混沌理論相結(jié)合進(jìn)行類別知識的挖掘方法;并通過智能化接口引擎鏈接到集成算法庫,通過人機交互進(jìn)行實時控制。這種信息挖掘的思想與方法適用于動態(tài)的時空數(shù)據(jù)庫的挖掘,具有普適性。
該系統(tǒng)從非結(jié)構(gòu)化數(shù)據(jù)信息挖掘的角度構(gòu)建了一個實用的、可擴展的、易操作的氣象科學(xué)研究的應(yīng)用系統(tǒng)。在氣象數(shù)據(jù)處理與提高天氣預(yù)報準(zhǔn)確率的研究方面起到了其它方法與技術(shù)不可替代的作用。同時系統(tǒng)的框架和實現(xiàn)技術(shù)可適用于多媒體等非結(jié)構(gòu)化數(shù)據(jù)的知識發(fā)現(xiàn),有著非常廣闊地應(yīng)用領(lǐng)域和產(chǎn)品化前景。
四.基于KDIM與DFSSM的Web挖掘新系統(tǒng)WebMS*的特征通過以上對于WebMS*新系統(tǒng)的理論基礎(chǔ)、技術(shù)實現(xiàn)及總體結(jié)構(gòu)模型的介紹,我們可以得出該系統(tǒng)區(qū)別于Web挖掘系統(tǒng)的特征如下1)WebMS*有機地溝通與融合了WebMS*新發(fā)現(xiàn)的知識與基礎(chǔ)知識庫中固有的知識,使它們成為一個有機的整體;即實現(xiàn)了“用戶的先驗知識與先前發(fā)現(xiàn)的知識可以耦合到發(fā)現(xiàn)過程中”。
2)在知識發(fā)現(xiàn)過程中,WebMS*對于冗余性的、重復(fù)性的、不相容的信息作出了實時處理,有效地減少了由于過程積累而造成的問題的復(fù)雜性,同時為新舊知識的融合與合成提供了先決條件;實現(xiàn)了“知識與數(shù)據(jù)庫同步進(jìn)化”。
3)WebMS*運用發(fā)現(xiàn)特征子空間模型FDSSM,改變與優(yōu)化了知識發(fā)現(xiàn)的過程與運行機制;實現(xiàn)了“多源頭”聚焦與減少評價量。
4)從認(rèn)知科學(xué)的角度看,WebMS*強化并提供了知識發(fā)現(xiàn)的智能化程度,提高了認(rèn)知自主性(這將是今后相當(dāng)長的一階段內(nèi)保持的研究基調(diào)),較有效地克服領(lǐng)域?qū)<业淖陨砭窒扌裕瑢崿F(xiàn)了“采用領(lǐng)域知識輔助初始發(fā)現(xiàn)的聚焦”。
5)作為WebMS*的核心技術(shù)—雙庫協(xié)同機制的研究,揭示了在一定的建庫原則下,知識子庫與數(shù)據(jù)子類結(jié)構(gòu)之間的對應(yīng)關(guān)系,為實現(xiàn)“限制性的搜索”而減小搜索空間、提高發(fā)掘效率提供了有效的技術(shù)方法。
6)對Web挖掘主流發(fā)展-------構(gòu)造高效可擴展的挖掘算法、知識表示與評價方法等,產(chǎn)生重要影響。
7)進(jìn)一步拓展了實用智能系統(tǒng)的新結(jié)構(gòu)模型(IDSSIM、MDIM等),主要針對復(fù)雜對象信息挖掘(Web挖掘)的算法、結(jié)構(gòu)、機理、體系與應(yīng)用產(chǎn)生重要影響。
本發(fā)明首次提出了基于知識發(fā)現(xiàn)內(nèi)在機理(KDIM)與特征子空間模型(DFSSM)的Web挖掘新系統(tǒng)WebMS*;對WebMS*內(nèi)在機理中雙庫協(xié)同機制的研究,不僅對關(guān)聯(lián)規(guī)則、分類規(guī)則、序貫?zāi)J酵诰蛩惴ň哂兄匾囊饬x,而且對Web挖掘的主流發(fā)展也起到了重要的推動作用,表現(xiàn)如下1.闡明了作為Web挖掘過程中的兩個重要要素,知識庫和數(shù)據(jù)庫之間的關(guān)系,大大縮減了Web挖掘的搜索空間,使傳統(tǒng)的Web挖掘算法的實現(xiàn)效率得以提高。
2.產(chǎn)生了一種知識庫的實時維護(hù)機制,隨著新知識的隨時入庫,知識庫的重復(fù)、冗余、矛盾、從屬、循環(huán)檢查隨時進(jìn)行。
3.充分體現(xiàn)了Web挖掘系統(tǒng)的認(rèn)知自主性,提高了自動化程度。
4.通過這種機制的研究,可以優(yōu)化和改進(jìn)原有的知識發(fā)現(xiàn)算法。(不僅是關(guān)聯(lián)規(guī)則、分類聚類、序貫?zāi)J降耐诰蛩惴?。
5.在哲學(xué)方面帶來了新的思考,反過來也可以指導(dǎo)Web挖掘領(lǐng)域的研究。
該發(fā)明不論是在理論層面上,還是在技術(shù)實現(xiàn)層面上,均具有極大的創(chuàng)新價值,并且能夠產(chǎn)生良好的社會和經(jīng)濟效益。
以上
具體實施例方式
僅用于說明本發(fā)明,而非用于限定本發(fā)明。
參考文獻(xiàn)知識工程與知識發(fā)現(xiàn),冶金工業(yè)出版社,2000年12月S.S.Anand,D.A.Bell,J.G.Hughs,EDMA General Framework for Data Mining Basedon Evidence Theory,Data&Knowledge Eng.,18,189-223(1996).
G.Piatetsky-shapiro,C.J.Matheus,Knowledge Discovery Work-bench forExploring Business Databases,International Journal of Intelligent Systems,7,675-686(1992).
J.P.Yoon,L.Kerschberg,A Framework for Knowledge Discovery and Evolution inDatabases IEEE Trans,on Knowledge and Data Eng.,5,973-979(1993).
Bingru Yang,KD(D&K)and Double-Bases Cooperating Mechanism,Journal ofSystem Engineering and Electronics,Vol.10,No.1,1999.
Bingru Yang,Double-Base Cooperating Mechanism in KDD,InternationalSymposium on Computer,149-152(1998).
基于復(fù)雜類型數(shù)據(jù)的發(fā)現(xiàn)特征子空間模型DFSSM的研究,中國工程科學(xué),Vol.4,No.10,2002年。
Web用戶訪問模式挖掘新結(jié)構(gòu)框架研究,小型微型計算機,No.11,2003年。
基于Web挖掘的智能門戶搜索引擎的研究,計算機工程與應(yīng)用,Vo.38,No.3,2002年。
權(quán)利要求
1.一種Web挖掘系統(tǒng)的構(gòu)造方法,包括中央處理器、存儲器組成的數(shù)字計算機,所述的數(shù)字計算機與網(wǎng)絡(luò)聯(lián)接;其特征在于所述的存儲器存儲有真實數(shù)據(jù)庫和基礎(chǔ)知識庫,以及啟發(fā)型協(xié)調(diào)器和維護(hù)型協(xié)調(diào)器;所述的中央處理器對所述的存儲器進(jìn)行控制并執(zhí)行如下步驟步驟1、特征抽取及特征變換,即對Web上采集到的挖掘目標(biāo)樣本進(jìn)行特征預(yù)處理,然后采用特征子空間模型,將特征抽取、變換及特征子集的選擇融為一體,用模式來表示W(wǎng)eb內(nèi)容挖掘中間表示形式;步驟2、Web內(nèi)容挖掘過程,即對于Web內(nèi)容的中間表示形式采用向量空間的距離測度分類算法進(jìn)行分類挖掘處理,也可以結(jié)合聚類和關(guān)聯(lián)挖掘算法,最終得到潛在的模式集;步驟3、模型質(zhì)量評價,即對挖掘得到模式集進(jìn)行評價,將符合一定標(biāo)準(zhǔn)的知識或者模式呈現(xiàn)給用戶;其中使用的客觀評價指標(biāo)主要是查全率和查準(zhǔn)率;步驟4、信息呈現(xiàn)及信息導(dǎo)航,即將反饋的結(jié)果用可視化的方式進(jìn)行顯示,同時對用戶提供信息導(dǎo)航功能,從而有效地瀏覽和獲取信息;步驟5、雙庫協(xié)同機制,即當(dāng)用模式表征了挖掘?qū)ο蠛?,通過所述的啟發(fā)型協(xié)調(diào)器來搜索知識庫中“知識結(jié)點”的不關(guān)聯(lián)態(tài),以發(fā)現(xiàn)“知識短缺”,產(chǎn)生“創(chuàng)見意象”,從而啟發(fā)與激活真實數(shù)據(jù)庫中相應(yīng)的“數(shù)據(jù)類”,以產(chǎn)生“定向發(fā)掘進(jìn)程”,提高其認(rèn)知自主性及智能化程度;對于分類算法生成的假設(shè)規(guī)則,采用所述的維護(hù)型協(xié)調(diào)器使Web挖掘進(jìn)程產(chǎn)生“中斷”,從而搜索知識庫中對應(yīng)位置有無此生成規(guī)則的重復(fù)、冗余與矛盾;若有,則取消該生成規(guī)則或相應(yīng)處理后返回Web挖掘的“始端”;若無,則繼續(xù)Web挖掘進(jìn)程,將評價與結(jié)果存入知識庫。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的Web內(nèi)容包括Web文本、Web訪問信息挖掘、Web結(jié)構(gòu)挖掘;所述的雙庫協(xié)同機制需滿足如下條件在所述的真實數(shù)據(jù)庫上,按數(shù)據(jù)子類結(jié)構(gòu)形式所構(gòu)成的發(fā)掘數(shù)據(jù)庫與基于屬性建庫原則的發(fā)掘知識庫之間根據(jù)泛同倫理論建立了知識節(jié)點與數(shù)據(jù)子類結(jié)構(gòu)層間的一一對應(yīng)關(guān)系;在知識發(fā)現(xiàn)系統(tǒng)聚焦進(jìn)程中,除依據(jù)用戶需求確定聚焦外,通過啟發(fā)協(xié)調(diào)算法可以形成依發(fā)掘知識庫中知識短缺而形成的機器自身提供的聚焦方向,進(jìn)而形成在數(shù)據(jù)庫中的定向發(fā)掘;在獲得假設(shè)規(guī)則到知識評價的過程中產(chǎn)生中斷進(jìn)程,即先不對假設(shè)規(guī)則進(jìn)行評價,而是通過維護(hù)協(xié)調(diào)算法到發(fā)掘知識庫中進(jìn)行定向搜索,以期發(fā)現(xiàn)產(chǎn)生的假設(shè)規(guī)則與知識庫中原有知識是否重復(fù)、冗余和矛盾,并作相應(yīng)處理。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的啟發(fā)型協(xié)調(diào)器和維護(hù)型協(xié)調(diào)器的實現(xiàn),需滿足如下條件在大型知識庫中,根據(jù)各個具體的論域劃分為若干個相關(guān)的知識子庫;同時在真實數(shù)據(jù)庫中,也相應(yīng)地抽取與各個具體論域相關(guān)的數(shù)據(jù)子庫;這樣可建立知識子庫中“知識結(jié)點”與真實數(shù)據(jù)子庫中“數(shù)據(jù)子類的層”之間的一一對應(yīng)關(guān)系,以確保縮小搜索空間而使協(xié)調(diào)具有“定向”性;其中還需滿足泛同倫概念的條件和下列的結(jié)構(gòu)對應(yīng)條件,即對于論域X,在相應(yīng)的知識子庫與數(shù)據(jù)子庫中,關(guān)于知識結(jié)點的拓?fù)淇臻g<E,F(xiàn)>與關(guān)于數(shù)據(jù)子類的拓?fù)淇臻g<F,D>是同一泛同倫型的空間。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述的啟發(fā)型協(xié)調(diào)器是通過啟發(fā)協(xié)調(diào)算法來實現(xiàn)的;所述的啟發(fā)協(xié)調(diào)算法包括通過尋求知識短缺產(chǎn)生創(chuàng)見意向,使系統(tǒng)產(chǎn)生自動聚焦;所述的啟發(fā)協(xié)調(diào)算法的具體步驟為搜索自關(guān)聯(lián)強度大于某一閾值的語言變量,形成節(jié)點集S1;對節(jié)點集S1中的節(jié)點進(jìn)行組合,形成元組集合;搜索現(xiàn)有知識庫,從元組中除去已在知識庫中存在的元組;對剩余元組按關(guān)聯(lián)強度排序,定出定向搜索的優(yōu)先級;按優(yōu)先級順序逐一掃描各元組,聚焦到數(shù)據(jù)庫中相應(yīng)入口定向發(fā)掘;進(jìn)入KDD進(jìn)程。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述的維護(hù)型協(xié)調(diào)器是通過維護(hù)協(xié)調(diào)算法來實現(xiàn)的;所述的維護(hù)協(xié)調(diào)算法的具體步驟為設(shè)i=1;判斷知識庫是否結(jié)束;如果知識庫結(jié)束,則關(guān)閉知識庫;如果知識庫未結(jié)束,則查找第i條規(guī)則;判斷不等式Conf>0.5是否成立,如果不成立則i=i+1并返回,如果成立則進(jìn)一步判斷規(guī)則重復(fù)否;如果規(guī)則重復(fù),則i=i+1并返回,如果規(guī)則不重復(fù),則進(jìn)一步判斷規(guī)則冗余否;如果規(guī)則冗余,則i=i+1并返回,如果規(guī)則不冗余,則進(jìn)一步判斷規(guī)則矛盾否;如果規(guī)則矛盾,則i=i+1并返回,如果規(guī)則不矛盾,則將第i條規(guī)則存入知識庫,然后i=i+1并返回。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,其還包括知識表示方式;所述的知識表示是指語言場與語言值結(jié)構(gòu)表示方式、或模式表示方式;所述的語言場與語言值結(jié)構(gòu)表示方式需滿足如下條件(1)在語言變量相應(yīng)的基礎(chǔ)變量論域中,各個被劃分的交叉區(qū)間的中點連同ε-鄰域內(nèi)的點,稱為標(biāo)準(zhǔn)樣本,其取值鄰域稱為標(biāo)準(zhǔn)值;其余諸點均稱為非標(biāo)準(zhǔn)樣本,其取值稱為非標(biāo)準(zhǔn)值;它們分別構(gòu)成標(biāo)準(zhǔn)樣本空間與非標(biāo)準(zhǔn)樣本空間,并統(tǒng)稱為一般樣本空間;(2)C=<D,I,N,≤N>,若滿足下列條件a)D為R上交叉閉區(qū)間的集合;b)N≠Φ為語言值的有限集;c)≤N為N上的全序關(guān)系;d)IN→D為標(biāo)準(zhǔn)值映射,滿足保序性,則稱C為語言場;(3)對于語言場C=<D,I,N,≤N>,稱F=<D,W,K>為C的語言值結(jié)構(gòu),如果滿足以下條件a)C滿足定義2;b)K為自然數(shù);c)WN→Rk滿足n1,n2∈N(n1≤Nn2→W(n1)≤dicW(n2)>,n1,n2∈N(n1≠n2→W(n1)≠W(n2));其中,≤dic為
k上的字典序,即(a1,...,ak)≤dic(b1,....,bk)當(dāng)且僅當(dāng)存在h,使得當(dāng)0≤j<h時aj=bj,ah≤bh;(4)設(shè)C1,C2為兩個語言場,稱C1是C2的擴張,若存在1-1映射fD1→D2,gN1→N2,使得a)f單調(diào);b)(n1∈N1)(f(I1(n1))=I2(g(n1)));其中,C1=<D1,I1,N1,≤N1>,C2=<D2,I2,N2,≤N2>。(5)設(shè)C=<D,I,N,≤N>的語言值結(jié)構(gòu)為F1=<C1,W1,K1>,F(xiàn)2=<C2,W2,K2>,若存在1-1映射h
K1→
K2]]>滿足a)h在字典序下嚴(yán)格單調(diào);b)(n∈N)(h(W1(n))=W2(n));c)(∃ϵ∈R)(∀n,n′∈N)(dis1(W1(n),W1(n′))=ϵdis2(W2(n),W2(n′)))]]>其中dis1:
K1×
K1→
,]]>dis2:
K21×
K2→
,]]>則稱F1與F2為(dis1,dis2)一同構(gòu);擴張條件設(shè)C1,C2為兩個語言場,C1是C2的擴張的充要條件是C1與C2是同型語言場,即|N1|=|N2|;同構(gòu)條件設(shè)F為C的語言值結(jié)構(gòu),則F與F的double擴展在加權(quán)Hamming距離下同構(gòu);針對Fuzzy語言變量,可得到相應(yīng)于上述Fuzzy語言場等條件;所述的模式表示方式是指模式是知識發(fā)現(xiàn)過程中的一種知識表征方式,是具體或抽象的客觀對象的量化描述,是知識發(fā)現(xiàn)過程中的基本運算單元;模式參與知識的發(fā)現(xiàn)過程并表征所獲得的知識。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,其還包括知識評價方式;所述的知識評價方式是指基于自認(rèn)知邏輯的因果關(guān)聯(lián)規(guī)則的自動評價方式,其中包括(1a)一致性在客觀世界中,在不確定性推理機制與大量樣本統(tǒng)計下,因果關(guān)聯(lián)規(guī)則在推理上的表征和在統(tǒng)計上的表征是一致的;(1b)適用性認(rèn)證推理模式可適用于與因果關(guān)聯(lián)規(guī)則相關(guān)的推理中;即H⇒EEH]]>其中H為被檢驗的假設(shè),可以視為經(jīng)發(fā)掘后需要評價的因果關(guān)聯(lián)規(guī)則R;E為從H可以推出的一些斷言,可以視為經(jīng)檢驗得到的檢驗結(jié)果;在評價過程中,所進(jìn)行的檢驗是根據(jù)不確定因果歸納推理,檢驗因果數(shù)據(jù)是否滿足一致性原理,即如果數(shù)據(jù)的狀變態(tài)等于由數(shù)據(jù)經(jīng)推理所得的結(jié)果,則表明它滿足一致性原理,否則不滿足一致性原理;(2)根據(jù)正相關(guān)標(biāo)準(zhǔn)E認(rèn)證H,當(dāng)且僅當(dāng)Pr(H/E)>Pr(H)其中,Pr(H)為驗前置信度,Pr(H/E)為驗后置信度;這就是說,E認(rèn)證H當(dāng)且僅當(dāng)H相對于E的驗后置信度大于其驗前置信度;(3)對于評價方法的依據(jù)有將所發(fā)現(xiàn)的因果關(guān)聯(lián)規(guī)則記為R(Ai Sj),對規(guī)則進(jìn)行評價就是判定是否接受此規(guī)則,因此它屬于認(rèn)證邏輯的范疇;對因果關(guān)聯(lián)規(guī)則R(Ai Sj),Ai與Sj兩者同時出現(xiàn)的概率與兩者析取出現(xiàn)的概率之比即Pr(AiSj)/Pr(Ai∨Sj),稱為因果關(guān)聯(lián)強度,記作CR;(即相當(dāng)于Pr(H),可作為驗前置信度)將Pr(E2)/(Pr(E1)+Pr(E2))稱為支持強度,記作SUP;即相當(dāng)于Pr(H/E),可作為驗后置信度。(4)對于因果關(guān)聯(lián)規(guī)則R(Ai Sj),若SUP>CR,則此因果關(guān)聯(lián)規(guī)則得到認(rèn)證,若SUP≤CR,則此因果關(guān)聯(lián)規(guī)則被否證;(5)評價算法,即評價規(guī)則Ai Sj取原因A和結(jié)果S的數(shù)據(jù),構(gòu)成一個序偶的集合P={<tw,sw>}(w=1,2....N),tw為原因狀(變)態(tài)空間中的數(shù)據(jù)(即因樣本值),sw為與原因數(shù)據(jù)相對應(yīng)的結(jié)果狀(變)態(tài)空間中的數(shù)據(jù)(即果樣本值);N為集合中樣本的個數(shù),設(shè)SUP1=0;其具體步驟包括步驟一、取原因的樣本值tw(w=1,2....N),它屬于一般的樣本空間,并可得到因狀(變)態(tài)輸入向量atw;步驟二、確定因狀(變)態(tài)輸入向量atw所屬因狀(變)態(tài)類型如Ak(k=1,2,3,4,5)即計算atw與各因狀(變)態(tài)標(biāo)準(zhǔn)向量Ai的測度dH,取最小者為atw歸屬的因狀(變)態(tài)類型;隨機抽取一樣本集,可以看作序偶的集合P={<tw,sw>};步驟三、以規(guī)則Ai Sj作為局部大前提,以因狀(變)態(tài)輸入向量at所屬的因狀(變)態(tài)標(biāo)準(zhǔn)向量Ak為小前提,可以在評價知識庫中通過自組織的方式找到與其相匹配的唯一的知識矩陣Mijk,并得到結(jié)果的狀(變)態(tài)向量Sw1;步驟四、聚類;計算Sw1所屬的果狀(變)態(tài)標(biāo)準(zhǔn)向量β,可通過求它與各果狀(變)態(tài)標(biāo)準(zhǔn)向量的測度(如下式)取最小者而獲得聚類;dH(Sw1,Sj)=Σi=110|μSw(i)-μSj(i)|]]>其中,μSw1(i)與μSj(i)分別為其各自對應(yīng)的坐標(biāo);步驟五、對于序偶集P={<tw,sw>},取相應(yīng)的結(jié)果的樣本值sw,用模糊聚類的方法可得到它所屬區(qū)間中的果狀態(tài)標(biāo)準(zhǔn)向量γ,如果β=γ,則SUP1=SUP1+1,否則SUP1=SUP1;步驟六、重復(fù)上述過程N次,得到SUP;設(shè)SUP=SUP1/N;取規(guī)則的因果關(guān)聯(lián)強度CR與之比較;若SUP>CR則規(guī)則被接受;SUP≤CR則規(guī)則被拒絕。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,其還包括Web挖掘算法;所述的Web挖掘算法是指TCDFSSM算法、最大向前路徑算法和挖掘頻繁遍歷路徑算法;其中所述的TCDFSSM算法為TCDFSSM文本分類算法是基于距離測度函數(shù)的分類算法,主要在Hilbert模型表示空間中,考察兩個模式之間的相似程度,從而可以在較短的時間內(nèi)完成分類過程;所述的最大向前路徑算法為遍歷路徑就是在用戶會話中請求頁面所組成的序列;由于用戶會話中既包含請求頁面又包含路徑補充時添加的頁面,所以挖掘頻繁遍歷路徑時,首先在每個用戶會話中找出所有的最大向前路徑,然后確定其中的公共子路徑;MFP是在用戶會話中的第一頁到回退的前一頁組成的路徑;這樣,挖掘頻繁遍歷路徑問題轉(zhuǎn)化為在所有用戶會話的MFP中發(fā)現(xiàn)頻繁出現(xiàn)的連續(xù)子序列問題;所述的挖掘頻繁遍歷路徑算法為頻繁遍歷路徑是最大向前路徑中滿足一定支持度的連續(xù)頁面序列;包含頻繁遍歷路徑的用戶會話的數(shù)目叫支持度;定義頻繁遍歷路徑的長度為其包含的頁面數(shù);頻繁遍歷路徑的主要評判指標(biāo)就是支持度,也就是訪問此路徑的用戶回話數(shù)目。
9.根據(jù)權(quán)利要求1至8任意一項所述的方法,其特征在于,其可嵌入到應(yīng)用領(lǐng)域的數(shù)據(jù)庫或芯片等裝置中。
10.根據(jù)權(quán)利要求1至8任意一項所述的方法,其特征在于,其可應(yīng)用于基于信息挖掘的智能決策支持系統(tǒng)IDSSIM,以及基于氣象數(shù)據(jù)的信息挖掘新系統(tǒng)MDIMA;以適合在農(nóng)業(yè)、遠(yuǎn)程教育、氣象、智能決策等領(lǐng)域中的應(yīng)用。
全文摘要
一種Web挖掘系統(tǒng)的構(gòu)造方法,其由中央處理器、存儲器組成的數(shù)字計算機,所述的數(shù)字計算機與網(wǎng)絡(luò)聯(lián)接;所述的存儲器存儲有真實數(shù)據(jù)庫和基礎(chǔ)知識庫,以及啟發(fā)型協(xié)調(diào)器和維護(hù)型協(xié)調(diào)器;其通過特征抽取及特征變換,Web內(nèi)容挖掘過程,模型質(zhì)量評價,信息呈現(xiàn)及信息導(dǎo)航,雙庫協(xié)同機制等步驟;在Web挖掘方面其使得知識庫能夠動態(tài)的參與數(shù)據(jù)庫的發(fā)掘過程,用戶的先驗知識及知識庫中的固有知識可以產(chǎn)生“定向發(fā)掘”,以提高認(rèn)知自主性和避免海量搜索的產(chǎn)生;在知識庫的維護(hù)方面其可在數(shù)據(jù)發(fā)掘過程中實時地修改和維護(hù)知識庫中的內(nèi)容,包括重復(fù)與冗余性檢驗、矛盾處理等。
文檔編號G06F9/45GK1435780SQ03104960
公開日2003年8月13日 申請日期2003年3月4日 優(yōu)先權(quán)日2003年3月4日
發(fā)明者楊炳儒 申請人:楊炳儒
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
察雅县| 二手房| 鲁山县| 遂川县| 唐海县| 通化市| 曲麻莱县| 嘉峪关市| 靖边县| 拉孜县| 嘉荫县| 德清县| 秦皇岛市| 特克斯县| 丘北县| 澳门| 邢台市| 广丰县| 江西省| 鱼台县| 京山县| 隆回县| 瑞昌市| 苏州市| 外汇| 巴中市| 梅河口市| 大姚县| 准格尔旗| 安宁市| 镇雄县| 泸西县| 乌什县| 浪卡子县| 辛集市| 洱源县| 安康市| 绥芬河市| 安阳县| 安丘市| 庆云县|