欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于概念格的信息提取方法

文檔序號:10471227閱讀:701來源:國知局
一種基于概念格的信息提取方法
【專利摘要】本發(fā)明提供了一種基于概念格的信息提取方法。本發(fā)明所提供的方法,通過將原始信息背景進(jìn)行預(yù)處理,得到凈化后的信息背景并生成屬性拓?fù)鋱D;之后為屬性拓?fù)鋱D添加一節(jié)點(diǎn)η,得到新的屬性拓?fù)鋱D;對新的屬性拓?fù)鋱D進(jìn)行權(quán)值凈化;再對凈化后的屬性拓?fù)鋱D進(jìn)行屬性分層,并提取概念信息;接著檢驗(yàn)概念信息是否齊全,若不齊全,則繼續(xù)搜索直至齊全;最后恢復(fù)原始信息背景的概念信息,得到信息背景的全部概念信息。本發(fā)明所提供的方法具有可視化性能好、計(jì)算復(fù)雜度相對較低且不受信息背景規(guī)模限制的優(yōu)點(diǎn)。
【專利說明】
-種基于概念格的信息提取方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及計(jì)算機(jī)信息處理領(lǐng)域,具體地說是一種基于概念格的信息提取方法。
【背景技術(shù)】
[0002] 信息系統(tǒng)是一個具有對象、屬性及其關(guān)系的數(shù)據(jù)庫,是現(xiàn)實(shí)生活中某些事物的客 觀反映,并為人們認(rèn)識知識與獲取知識提供了主要的基礎(chǔ)信息。
[0003] 信息背景是形式概念分析的核屯、,是一種特殊的信息系統(tǒng)。此信息系統(tǒng)依據(jù)信息 背景提供的信息,W及對象和屬性之間內(nèi)在的、本質(zhì)的關(guān)系,通過其中的概念得W刻畫。其 中概念是人類進(jìn)行信息表達(dá)的一種手段,具有兩個邏輯特征,即內(nèi)涵和外延。概念的外延為 符合此概念的對象組成的集合,而內(nèi)涵則為外延所具有的共同屬性。
[0004] 概念之間的層次結(jié)構(gòu)稱為概念格(concept lattice)(也稱伽羅瓦格(Galois lattice)),是一種處理信息背景的數(shù)學(xué)工具。概念格是由概念組成的,概念是人類進(jìn)行信 息表達(dá)的一種手段,信息發(fā)現(xiàn)的過程就是將信息背景中蘊(yùn)含的信息形式化為有用概念的過 程。事實(shí)上,運(yùn)一過程是將信息按照相關(guān)的要求進(jìn)行匹配。
[0005] 目前,有關(guān)基于概念格的概念信息提取方法,主要有:
[0006] ①、從格論的角度依據(jù)概念格的格結(jié)構(gòu),對信息背景進(jìn)行概念信息的提取。
[0007] ②、依據(jù)信息背景中對象與對象之間、屬性與屬性之間、屬性與對象之間的各類關(guān) 聯(lián)規(guī)則,進(jìn)行概念信息的提取。
[000引③、將信息背景置于圖的平臺上,利用圖的一些性質(zhì),提取概念信息。
[0009] 基于概念格的概念信息提取方法中,具有代表性的成果中有張濤等人于2014年提 出的利用信息背景的屬性拓?fù)鋱D進(jìn)行可視化提取概念的方法。具體操作如下:
[0010] 第一步:凈化信息背景,構(gòu)造信息背景的屬性拓?fù)鋱D。具體過程包括:
[0011] 1.凈化信息背景:
[0012] 所謂全局對象,是指具有背景中全部屬性的對象。全局屬性是指背景中全部的對 象都包含的屬性。依據(jù)格理論可知,全局對象和全局屬性不會對概念格的結(jié)構(gòu)產(chǎn)生影響,即 對于概念格而言,全局對象和全局屬性均為可約簡的。
[0013] 空對象不擁有任何屬性,空屬性不擁有任何對象。由于空對象和空屬性對概念的 捜索過程不產(chǎn)生影響,因此,在捜索概念的過程中空對象與空屬性可直接忽略。
[0014] 等價對象是指在信息背景下,兩個對象各自擁有的屬性相同。同樣,等價屬性是指 在信息背景下,兩個屬性所擁有的對象相等。依據(jù)概念格理論,等價對象中各對象(等價屬 性中各屬性)對概念格的貢獻(xiàn)是一樣的,所W捜索概念的過程中為減少存儲空間和運(yùn)行時 間,可考慮等價對象中的一個對象W及等價屬性中的一個屬性。
[001引2.構(gòu)造信息背景的屬性拓?fù)鋱D:
[0016] 在信息背景(F,M,I)中,定義(w(Vi,Vj)),i,j = l,2,…,|M|為屬性拓?fù)溧徑泳仃嚕?如下:
[0017]
[0018] 其中,|M|為屬性集Μ中所含屬性的個數(shù)。
[0019] 定義護(hù)(Vi,Vj)為屬性拓?fù)潢P(guān)聯(lián)矩陣,如下:
[0020]
[0021] 凈化背景后,可通過鄰接矩陣,構(gòu)造出屬性拓?fù)鋱D,其方法為:
[0022] 當(dāng)獻(xiàn)化'/>辟<"!,·),且占'("!/)巧("!,·咐,用雙向箭頭連接mi和叫,并在連線上標(biāo)注其共有 的對象集合{gl,g2,···,gm}。
[002;3]當(dāng)抓!;)谷>'("!/),且g (mj) η g (mi) = {gi,g2,· · ·,gm}時,用單向箭頭連接兩個屬性,箭 頭指向mi,并在連線上標(biāo)注其共有的對象集合{gl,g2,···,gm}。
[0024] 屬性拓?fù)鋱D中與屬性mi直接相連的邊均為單向指出或雙向邊,稱ΠΗ為頂層屬性。
[0025] 屬性拓?fù)鋱D中,屬性mt與屬性mj直接關(guān)聯(lián),是指mtE ImpI化與mj有邊相連接,P,j =1,2,…,|m| }。
[0026] 第二步,利用屬性拓?fù)鋱D捜索概念信息,具體操作如下:
[0027] S1、假設(shè)與頂層屬性ΠΗ直接關(guān)聯(lián)的其中一個屬性為mt,存儲(g(mimt),)。
[002引S2、若捜索路徑中存在屬性集合使得g(numt)=g(numtK),則將上 一步所存儲的(g(mimt),)替換為(g(mimt),UK)。
[0029] 83、若存在屬性(1居(1-恤,1]1*}),且有歡《跳如復(fù)(奶撕.,(/片0,則在上一步存儲不改變 的情況下,再存儲(g(numtq),{mi,mt,q})。
[0030] S4、若任意pe ),都有g(shù)(H!,."w)= 0,則不做存儲。返回到S3。
[0031] S5、完成上面的S1-S4四步捜索后,返回到S1,進(jìn)行下一個的與頂層屬性mi直接關(guān) 聯(lián)的屬性mr遍歷。
[0032] S6、完成S1-S5之后,選擇下一個頂層屬性,繼續(xù)進(jìn)行S1-S5。
[0033] 完成S1-S6六步,可W得到該屬性拓?fù)鋱D中除(f,0)和(0,M)的所有概念。
[0034] 張濤等人的方法具體流程參見圖6。
[0035] 目前,對于信息背景中概念信息提取方法的應(yīng)用與推廣,主要受W下因素影響: 一、信息背景的規(guī)模;二、概念信息提取可視化程度;Ξ、提取概念信息的復(fù)雜度。
[0036] 雖然,目前基于概念格的信息提取方法有很多,但是由于受到W上Ξ點(diǎn)因素的影 響,現(xiàn)有的概念信息提取方法,仍存在W下不足:
[0037] 第一,對于方法①,由于格結(jié)構(gòu)是一種抽象的數(shù)學(xué)結(jié)構(gòu),當(dāng)信息規(guī)模較小時,信息 背景還具有可視性,但當(dāng)信息規(guī)模較大時,依據(jù)抽象的格結(jié)構(gòu)對概念信息進(jìn)行提取已不再 具有可視性。故而方法①受到信息規(guī)模的限制。
[0038] 第二,對于方法②,由于尋找關(guān)聯(lián)規(guī)則的難度不低于信息背景中概念信息的尋找, 又由于"關(guān)聯(lián)規(guī)則"本身不具有可視性,所W運(yùn)類方法的應(yīng)用與推廣受到一些限制。
[0039] 第Ξ,方法③中具有代表性的是張濤等人在依據(jù)信息背景建立的屬性拓?fù)湟灰环N 圖的平臺上,提取概念信息的方法。實(shí)際上,張濤等人用到的屬性拓?fù)鋱D是一種有向加權(quán) 圖。然而,由圖論中拓?fù)鋱D的定義可知,一個拓?fù)鋱D可W是有向的,也可W是無向的。當(dāng)拓?fù)?圖中的節(jié)點(diǎn)集為某個信息背景的屬性集時,可W稱其為屬性拓?fù)鋱D。但由于張濤等人的方 法復(fù)雜度為指數(shù)級,因此受到信息背景規(guī)模的限制。

【發(fā)明內(nèi)容】

[0040] 本發(fā)明的目的就是提供一種基于概念格的信息提取方法,W解決現(xiàn)有的方法受信 息背景規(guī)模的限制、可視化程度低及提取信息復(fù)雜度高等的問題。
[0041] 本發(fā)明是運(yùn)樣實(shí)現(xiàn)的:一種基于概念格的信息提取方法,包括如下步驟:
[0042] a、將原始信息背景(F,M,I)進(jìn)行預(yù)處理,得到凈化后的信息背景(的,1〇,1〇),并將 此凈化后的信息背景轉(zhuǎn)化為一屬性拓?fù)鋱D的鄰接矩陣;此鄰接矩陣對應(yīng)屬性拓?fù)鋱DGo=(Vo (Go),Eo(Go)),其中,Vo(Go)=Mo,Eo(Go) = {e(x,y)|x,yeMo,且x,y擁有公共的對象};
[0043] b、為屬性拓?fù)鋱DGo添加一節(jié)點(diǎn)屬性η,得到一個新的屬性拓?fù)鋱DGo+{ri};
[0044] C、對新的屬性拓?fù)鋱DGo+h}的權(quán)值進(jìn)行凈化,即:在每一邊的權(quán)值(xi,xj)中去 掉不屬于η擁有的對象集中的對象;其中每一邊的權(quán)值為相鄰兩節(jié)點(diǎn)所擁有的公共對象集; 凈化后的權(quán)值用w(Xi,Xj)表示,Xi,Xj eMo U {η},i,j = 1,2,…,I Mo I +1;
[0045] d、利用凈化后的屬性拓?fù)鋱D的權(quán)值之間的關(guān)系將各屬性進(jìn)行分層,得到分層圖, 并提取概念信息;
[0046] e、檢驗(yàn)所有概念信息是否齊全,若未齊全,繼續(xù)尋找概念信息,直到概念信息齊 全;
[0047] f、刪除(Fo,Mo U h},1〇)中所有概念內(nèi)涵中的n,得到(Fo,Mo,1〇)的全部概念信息, 將步驟a中凈化掉的屬性與對象重新恢復(fù)為(Fo,Mo,Io)的信息,從而得到原始信息背景(F, M,I)的全部概念信息。
[0048] 本發(fā)明的效果可W通過W下Ξ方面得到體現(xiàn):
[0049] 1 )、概念信息提取過程可視化性能好。
[0050] 由于本發(fā)明W屬性拓?fù)鋱D為平臺進(jìn)行概念信息提取,因此與W抽象的格結(jié)構(gòu)或關(guān) 聯(lián)規(guī)則為基礎(chǔ)的概念信息提取方法相比,具有較好的可視性,可完全反映出信息背景中任 意兩個屬性是否擁有公共對象的性質(zhì)。
[0051] 2)、減少"冗余"概念的產(chǎn)生,降低計(jì)算的復(fù)雜度。
[0052] 張濤等人的方法是對屬性拓?fù)鋱D的全路徑遍歷,在進(jìn)行概念信息的提取過程中, 會產(chǎn)生"冗余"概念。采用本發(fā)明進(jìn)行概念信息提取過程中,減少"冗余"概念,因此,本發(fā)明 具有更好的適用性。
[0化3]對于信息背景(F,M,I),若|F|=m,|M|=n,現(xiàn)有技術(shù)中張濤等人的概念信息提取 方法,其復(fù)雜度為〇(2"Χη)。
[0054] 本發(fā)明中步驟a的復(fù)雜度為0(n2+m2+4mn);步驟b的復(fù)雜度為0(n);步驟C的復(fù)雜度 為0(n2m2);步驟d的復(fù)雜度為0(化V);步驟e的復(fù)雜度為步驟f與步驟a的復(fù) 雜度相同為〇(n2+m2+4mn)。
[0055] 若(F,M,I)的規(guī)模s = mXn,則張濤等人的方法復(fù)雜度為0(2s),而本發(fā)明的復(fù)雜度 分兩種情況,分析如下:
[0056] I、當(dāng)所提取的概念信息齊全,不需要繼續(xù)捜尋概念時,本發(fā)明方法的復(fù)雜度為步 驟曰、步驟13、步驟(3、步驟(1、步驟巧勺復(fù)雜度相加,即20(]12+1]12+4皿)+0(]1)+0(]1 21]12)+0(化41]12), 由于0(n2+m2+4mn)、0(n)、0(nV)的復(fù)雜度小于OUnV),因此此情況下本發(fā)明的復(fù)雜度為0 (s6)。
[0057] II、當(dāng)所提取的概念信息不齊全,需要繼續(xù)捜索概念時,本發(fā)明方法的復(fù)雜度為步 驟a、步驟b、步驟C、步驟d、步驟e、步驟f的復(fù)雜度相加,即2(')(;Γ、7片-4/打/?)十 ()(")+ ()("2";2)+ 刊十()("'化^........-'''i);
[005引 i、當(dāng)η < 6時,由于0(n2+m2+4mn)、0(n)、0(n2m2)、0(,嚴(yán)。的復(fù)雜度小于0 (化V2),此時本發(fā)明方法的復(fù)雜度為0(s6)。
[0化9] 1;[、當(dāng)]1>6時,由于0(]12+1112 + 41]1]1)、0(]1)、0(]121112)、0(3]141112)的復(fù)雜度小于 口( ""1-bg: Μ ),此時本發(fā)明方法的復(fù)雜度為〇(戸心Wl-lDg: 6)])。
[0060] 由上面的分析可知,張濤等人的方法的復(fù)雜度為指數(shù)級,而本發(fā)明方法的復(fù)雜度 不是指數(shù)級,因此本發(fā)明復(fù)雜度大大降低。
[0061] 3)、本發(fā)明中概念信息的提取,不受信息背景規(guī)模的限制。
【附圖說明】
[0062] 圖1是本發(fā)明的方法流程圖。
[0063] 圖2是本發(fā)明實(shí)施例1中鄰接矩陣對應(yīng)的屬性拓?fù)鋱D。
[0064] 圖3是本發(fā)明實(shí)施例1中添加節(jié)點(diǎn)η后所得到的新圖Go+h}。
[0065] 圖4是本發(fā)明實(shí)施例1中Wb為中屯、凈化后的屬性拓?fù)鋱D。
[0066] 圖5是本發(fā)明實(shí)施例1的捜索結(jié)果示意圖。
[0067] 圖6是采用張濤等人的方法對屬性拓?fù)鋱D進(jìn)行概念信息提取的流程圖。
[0068] 圖7是采用張濤等人的方法對屬性拓?fù)涞娜窂綊人鬟^程示意圖。
[0069] 圖8是本發(fā)明實(shí)施例2對應(yīng)的屬性拓?fù)鋱D。
[0070] 圖9是根據(jù)表12所得的樣本數(shù)不超過26時,本發(fā)明方法與張濤等人的方法復(fù)雜度 相比較的曲線示意圖。
[0071] 圖10是根據(jù)表12所得的樣本數(shù)超過26時,本發(fā)明方法與張濤等人的方法復(fù)雜度相 比較的曲線示意圖。
【具體實(shí)施方式】
[0072] 如圖1所示,本發(fā)明所提供的一種基于概念格的信息提取方法,包括如下步驟:
[0073] a、將原始信息背景(F,M,I)進(jìn)行預(yù)處理,得到凈化后的信息背景(的,1〇,1〇),并將 此信息背景轉(zhuǎn)化為一屬性拓?fù)鋱D的鄰接矩陣形式。此鄰接矩陣對應(yīng)屬性拓?fù)鋱DGo= (Vo (Go),Eo(Go)),其中,Vo(Go)=Mo,Eo(Go) = {e(x,y)|x,yeMo,且x,y擁有公共的對象}。所用屬 性拓?fù)鋱D事實(shí)上為屬性間關(guān)系的加權(quán)圖表示。
[0074] b、為Go添加一節(jié)點(diǎn)屬性η,得到一個新的屬性拓?fù)鋱DGo+{ri}。
[0075] C、對Go+h}的權(quán)值進(jìn)行凈化,即去掉不屬于η擁有的對象集的對象。其中每一邊的 權(quán)值為相鄰兩節(jié)點(diǎn)(即兩個屬性)所擁有的公共對象集。
[0076] d、利用凈化后的屬性拓?fù)鋱D的權(quán)值之間的關(guān)系將各屬性進(jìn)行分層,得到分層圖, 并提取概念信息。
[0077] e、檢驗(yàn)所有概念信息是否齊全,若未齊全,則繼續(xù)尋找概念信息,直到概念信息齊 全。
[007引 f、刪除(Fo,Mo U {η},10)中所有概念內(nèi)涵中的η,得到(Fo,Mo,10)的全部概念信息, 將步驟a中凈化掉的屬性與對象重新恢復(fù)為(Fo,Mo,Io)的信息,從而得到原始信息背景(F, M,I)的全部概念信息。
[0079] 下面對各步驟進(jìn)行詳細(xì)說明。
[0080] 步驟a中采用基于概念格的信息提取方法,將原始信息背景(F,M,I)進(jìn)行預(yù)處理, 包括如下過程:
[0081] 給定信息背景(F,M,I),其中F為信息背景中所有對象的集合,即F={gi,g2,..., gn},gi(i = l,2,. . .,n)為第i個對象;Μ為所有屬性的集合,即M= {xi,X2,. . .,Xm},xi(i = l, 2,...,m)為第i個屬性;I為屬性集和對象集的二元關(guān)系,即/?; FxiV/r
[0082] al、對原始的信息背景(F,M,I)進(jìn)行預(yù)處理,得到凈化后的信息背景(Fo,Mo,Io)。主 要目的是通過刪除信息背景中全局屬性、全局對象、空屬性、空對象,保留等價屬性中的一 個屬性,其他的屬性刪除,保留等價對象中的一個對象,其他的對象刪除,降低后期計(jì)算的 復(fù)雜度。具體步驟如下:
[0083] al.l、對于在(F,M,I)中擁有對象集為F的屬性,即全局屬性,進(jìn)行刪除處理。
[0084] al.2、對于在(F,M,I)中擁有屬性集為Μ的對象,即全局對象,進(jìn)行刪除處理。
[0085] al.3、對于不擁有任何對象的屬性,即空屬性,進(jìn)行刪除處理。
[0086] al.4、對于不擁有任何屬性的對象,即空對象,進(jìn)行刪除處理。
[0087] al.5、對于兩個或兩個W上擁有相同對象的屬性,即等價屬性,則只保留運(yùn)些屬性 中的一個,將其他的幾個屬性進(jìn)行刪除處理。
[0088] al.6、對于兩個或兩個W上擁有相同屬性的對象,即等價對象,則只保留運(yùn)些對象 中的一個,將其他的幾個對象進(jìn)行刪除處理。
[0089] a2、定義(Fo,Mo,Io)如下:
[0090] Fo = F-({geF|g為全局對象} U {gEF|g為空對象} U {g£F|g是在步驟al.6中被 刪除的對象});
[0091] 1〇 = 1-(^£1^為全局屬性)^^£1^為空屬性)^^£1^是在步驟31.5中被 刪除的屬性});
[0092] I〇=in (FoXMo)o
[OOW] a3、根據(jù)晰燕,1〇),給出屬性拓?fù)鋱D的鄰接矩陣
[0094]
[0095] 其中,w' (xi,xj) = {A| A為屬性Xi與Xj的公共對象,i,j = 1,2,...,|Mo I,i 辛 j},|Mo 為屬性集Mo中所含屬性個數(shù)。為了描述方便,當(dāng)i = j時,令U''(Λ> .;7)=0.此矩陣對應(yīng)屬性拓 撲圖 Go=(Vo(Go),Eo(Go)),其中,Vo(Go)=Mo,Eo(Go) = {e(x,y)|x,yeMo,且x,y擁有公共的對 象}。
[0096] 步驟b采用基于概念格的信息提取方法,對Go添加一個擁有對象集為Fo的節(jié)點(diǎn)屬性 n,得到一個圖Go+h似及信息背景(Fo,Mo U h},In)。
[0097] bl、添加節(jié)點(diǎn)屬性η。
[009引若信息背景(Fo,Mo,Ιο)只含有一個屬性α,則(Fo,Mo,Ιο)的概念信息的全體為 {(巧,,0),(0,{α})}。當(dāng)|Μο|含2時,若任意選擇一個屬性作為起始點(diǎn),則最后會造成(Fo, Μο,Ιο)中概念信息的缺失或產(chǎn)生過多的"冗余"。
[0099] 為了避免上述問題的產(chǎn)生,需添加一個特殊屬性II,且屬性η的添加不會影響(Fo, Mo,10)中的概念信息W及概念格的格結(jié)構(gòu)組成。
[0100] b2、給出η所擁有的對象集。
[0101] 根據(jù)概念格結(jié)構(gòu)可知,具備上述特點(diǎn)的η有兩種可能性:一種是為屬性集Μο,此 時η所擁有的對象集為巧;另一種是{^.=0,此時η所擁有的對象集為Fo。
[0102] 因?yàn)槿我粋€概念格為完備格,運(yùn)樣(Fo,Mo, Ιο)的概念信息全體構(gòu)成的概念格為一 個完備格。根據(jù)格論中的對偶性(或稱De Morgan's Law)可知,若利用.!(巧),0)!.作為捜索概 念信息的方法,完全可W對偶地產(chǎn)生由貧0,M) }捜索概念信息的方法;若利用{(0,Mo)} 作為捜索概念信息的方法,完全可W對偶地產(chǎn)生由{(巧),0)}捜索概念信息的方法。本發(fā)明 采用i(F〇,0))作為捜索概念信息的方法,即選取的!=0,此時,η所擁有的對象集為Fo。
[0103] b3、得到新圖 G(V,E,w')。
[0104] b3.1、在Go上添加一個特殊節(jié)點(diǎn)η,η擁有的對象集為Fo。
[0105] b3.2、連接η與圖G日中各節(jié)點(diǎn),得I Mo I條邊,且每邊權(quán)值為W' (η,Xi),Xi ΕΜο,i = 1, 2,…,|Μο| ;最終得到新圖Go+{ri}=G(V,E,w/ ),其中,V為節(jié)點(diǎn)集,V = MoU {ri};E為邊集, £=(e〇.,',-切單0' 尤巧?',戶'1',' '2', ...,|''M〇l+l}。
[0106] b4、得到信息背景(Fo,Mo U h},In),其中 /危尸??χ (Μ,υ; 口;.)。
[0107] 獲取信息背景(Fo,MoU{rl},In)的過程如下:對于任意的geFo,yeMoU{rl};
[010引當(dāng)yEMo時,若gloy,則giny;即:若對象g在(Fo,Mo,Io)中擁有屬性y,則g在(Fo,MoU In},In)中也擁有屬性y;
[0109] 當(dāng)y = n時,有g(shù)iny成立。
[0110] 步驟C采用基于概念格的信息提取方法,對屬性拓?fù)鋱DG(V,E,w/)的權(quán)值進(jìn)行凈 化,具體過程如下:
[0111] 依次對G(V,E,w')中的每一個權(quán)值W' (Xi,Xj),Xi,XjeMoU {rl},i,j = l,2,…,|Mo| + 1與η所擁有的對象集Fo作比較。若(Xi,Xj)中有不屬于Fo的對象,則將此對象從(Xi,Xj), i,j = 1,2,…,I Mo I +1中去掉,最后完成對G(V,E)中每邊上的權(quán)值的凈化,得到新的屬性 拓?fù)鋱DG(V,E,w),其中,V(G(V,E,w))=V(G(V,E,w'));E(G(V,E,w))=E(G(V,E,w'));w(xi, xj)為W' Ui,xj)凈化后的權(quán)值,xi,xjEM〇U {η},1,j = i,2,...,|m〇|+i。
[0112]具體描述為:對每個gEw'(xi,xj),
[0113]如果gg巧),那么凈化后的權(quán)值為w(xi,xj)=w' (xi,xj)-{g}。
[0114]如果gEFo,那么凈化后的權(quán)值與原權(quán)值相等,即w(xi,xj)=w/ (xi,xj)。
[0115] 步驟d采用基于概念格的信息提取方法,將G(V,E,w)中的屬性進(jìn)行分層,得到分層 圖,并對概念信息進(jìn)行提取,具體過程如下:
[0116] 已知G (V,E,W)是(F0,Μ0 U {η},Iη)的屬性拓?fù)鋱D,給出η的拓?fù)溧徲?:.、'(所={.VI _veM(>u{W.,II. u(w, .1'片0,沾站 Η〇7,.r)cr"'(W;=Mi,"切,.!')=0表示屬性η和y之間沒 有公共對象。其中w(ri)為屬性η所擁有的對象集。事實(shí)上,TN(ri)在G(V,E,W)中表示與η直接 相連的屬性的集合。如果|Μ〇|=1,運(yùn)時(F〇,M〇,I〇)的全部概念信息為{(0,Μ〇),仍,0)}。 若I Mo I > 2,則對(Fo,Μο,1〇)的概念信息尋找進(jìn)行如下操作:dl、采用基于概念格的信息提取 方法,定義分層圖的第一層^
[0117] Ll = {({ri},TN(ri),w(n))}。
[0118] 其中,w(ri)為η擁有的對象集。顯然^為單點(diǎn)集,此集合第一個元素(其實(shí)是唯一元 素)為Ξ維向量({rl},TN(rl),w(rl)),此向量蘊(yùn)涵Ξ種信息:rl為第一層屬性,rl的拓?fù)溧徲騎N (η)及η擁有的對象集w(ri)。由于此向量與η密切相關(guān),為便于表達(dá),本發(fā)明稱其為屬性η的關(guān) 鍵元。
[0119] d2、采用基于概念格信息提取方法,基于分層圖第一層尋找分層圖的第二層L2:
[0120] /一:=;({,7,Λ-。'h ),uO?,Λ-:,,')) I Λ-:,'巨《^7),7.2 二 ' '2《I 飾)! l·.
[0121] 在第二層L2中包含t2個({q,Xz;:},7Τν(λ。:),w切,X。:))運(yùn)樣的S維向量,每一 向量({取馬&},rW(XK),<巧,與其內(nèi)屬性集{巧,屯&}中的屬性相2密切相關(guān), 為便于表達(dá),稱向量(0?,-V:,:. !·,7W(x:, ),"〇/,x:,J)為屬性而點(diǎn)的關(guān)鍵元。在第二層L2中 每一個S維向量({?/,x;/ },"切,A,:))內(nèi)包含一個屬性集{口.,X:,:},屬性集 《口,馬^}稱為第二層中的第j2個屬性集。在第二層中每一個屬性集內(nèi)包含兩個屬性,其中 一個屬性為第一層中的屬性n,另一個屬性X破排在η后面,稱屬性X瑞為第二層中第j2個屬 性集中的第二個屬性(或稱最后一個屬性)。
[012^ 1(11)表示W(wǎng)n為中屯、所選擇的下一層屬性集合,即/(口(口),對任 ,總 ve(7W(W-.! Λ·:,' I),抽:Λ? ir(",Λ':,,倍H(y,如:./: =1,2編! ^ W η為中屯、所選擇的屬性%的拓?fù)溧徲?,?={>.'|滬€巧\切),直, .1,)責(zé)0,滿足 Η(λ'2,、,v)[ W(口,石=1,2 ..,?,,?]《I M〇i }。
[0123] 捜尋過程具體如下:
[0124] d2.1、基于第一層屬性II,尋找Wn為中屯、的下一層屬性集合1(η):
[0125] 任取xeTN(ri),ysETN(ri)-{x},將w(ri,x)與w(ri,ys)進(jìn)行比較,判斷w(ri,x)是否包 含于w(ri,ys);若否,則xel(n);若是,則.巧/〇?)
[01%]具體符號描述如下:初始定義Κη)為空集,即1(η) = {},χΕΤΝ(ιι),
[0127]對每一個 yseTN(ri)-{x};
[012引如果如巧,.V)扣'如切,那么Κη): =l(n) U {x},即:將屬性X賦值給集合Κη);否 則,1 (η): = 1 (η),即:1 (η)保持不變。
[0129] (12.2、基于第一層屬性11,對于每一1-:,:€/(讀,尋找^站的拓?fù)溧徲蛄速\^:,:·):
[0130]任取 xETNU),且 ,.r 片0,驗(yàn)證 馬,;):是否真包含 w'(x:,:,Jf)。如果 Μ'(λ.],:,Λ-)口<巧,乂巧),那么化 2W(x;,.:)姻果w(.Y^:,λ.)狂W(口,X巧),那么.柏TWC.Y巧)。
[01;31]由于,刊=0,說明屬性和和X之間沒有公共對象,此時無需比較w〇?,馬&)和 7 -V)(
[0132] 具體描述如下:初始定義:)=!!,-Vj,,
[0133] 對每一個χeTN(rl),且、K'?,.v片0;
[0134] 若w(a-.句cw(礦 乂-2占)*則了):= 誠)U{妹;否則,ΓΛ/(γ]占)::=打ν(χ:,:)。
[0135] d2.3、尋找第二層中第j2個屬性集中最后一個屬性&&的關(guān)鍵元,并進(jìn)行概念信息 的提取。
[0136] 完成步驟d2.1~d2.2之后,可得第二層中第j2個屬性集! 口,-v:J,屬性馬&的拓?fù)?鄰域W及權(quán)重,.κ:;從而可得第二層中第j 2個屬性集中最后一個屬性γ_'的 關(guān)鍵元:至Π 石Η.! 口,,J.~W口,
[0137] 且提取概念為:(扣化!二("'(口,.r:,> ! 口,、-:, !)
[013引d2.4、對1 (η)中每一屬性完成步驟d2.2~d2.3后,得到分層圖的第二層L2:
[0139]
[0142] d3、根據(jù)步驟dl~d2可得分層圖的第(i-1)層,i為整數(shù),且i>2;
[0143] 假定分層圖的第(i-1)層已經(jīng)獲得,即
[0144]
第j(i-i)個屬性集。在第(i-1)層中每一個屬性集內(nèi)包含(i-1)個屬性,其中前(i-2)個屬性構(gòu) 成的集合{巧,X:,':,,而-2心,}為第(i-2)層中第j(i-2)個屬性集,第(i-1)個屬性 ?^(一>,_,,排在最后,稱而匈,.。為第。-1)層中第如-1)個屬性集中的最后一個屬性(也是第。- 1)個屬性)。
[0146] 下面根據(jù)已獲得的分層圖的第(i-1)層,尋找分層圖的第1。>2)層以:
[0147]
^,《|柏〇|}。其中,而.表示第很中第^'1個屬性集中的最后一個屬性;/的-1心,)表示^而-1)/,,_,, 為中屯、所選擇的下一層屬性集合,即
W而-11為中屯、所選擇的X。;的拓?fù)溧徲颍?br>[0149]
[0150] 操作過程具體如下:
[0151] d3.1、選取第(i-1)層中每一屬性集{巧,'.?) ..·*,. 的最后一個屬 性而-助,,尋找第i層中包含屬性巧,&南,馬/3,...,嘴-1)布的所有屬性集;其中,j2^t2,j3< t3,...,j(i-l) = l,2...,t(i-l),且t2,t3,...,t(i-l)<|Mo|。
[0152] (13.1.1、^嘴-0如為中屯、凈化原始鄰接矩陣,得新鄰接矩陣W={w(Xi,Xj) |w(Xi, xj)為(xi,刮)凈化后的權(quán)值,xi,刮e V},具體過程如下:
[0153] 依次對G(V,E,w')中的每一個權(quán)值 W' (Xi,Xj)(i,j = l,2,...,|Mo|+l,Xi,XjeMoU 4})與屬性集如乂",姑,...,而_,,,,,_,,}共同擁有的對象集5("(口,斯,扼,.",.丫(,_1咕_。)=公) 作比較。若(xi,xj)中有不屬于B的對象,則將此對象從(xi,xj)中去掉,最后完成對G(V, EV )的權(quán)值的凈化,得到化馬-為中屯、凈化權(quán)值后的屬性拓?fù)鋱D巧.Vww, Η戶E,蛛, 其中,巧G(-Viu.,,_,^c 巧巧F,玄,W')),巧巧.V化-,,))c巧巧Κ 尼,w')),w(xi,xj^w' (Xi,Xj)凈化后的權(quán)值,Xi,XjEMoU{η},i,j = l,2,…,|Mo|+l。
[0154] 具體描述為:
[0155] 對每個gEw'(xi,xj),
[0156] 如果妍方,那么凈化后的權(quán)值為w(Xi,Xj)=w' (Xi,Xj)-{g}。
[0157] 如果gEB,那么凈化后的權(quán)值與原權(quán)值相等,即w(Xi,Xj)=w/ (Xi,Xj)。
[015引d 3 . 1 . 2、針對凈化后的G(而_^,,,),尋找w而-化',,_,,為中屯、的下一層屬性集合 /(-Vi心,)。注意分層圖的第(i-U層已經(jīng)獲得,'Vw,,,,為第(i-U層中第j(i-i)個屬性集 巧,X巧.,%-;1)知。}中的最后一個屬性,且布-I)的關(guān)鍵元為 ({口,-T],:,和,?!?,Vw,:,, },}<口,而:' A,,,?!ぃ?Vi此
[0159] 任取化頭%_,心,),於' e (rWVi心,)-W)'將H(.Vw…' .Y)與M(.Vi心,'於)進(jìn) 行比較,判斷MtV,心,,對是否包含于M(而_叫,,,,'細(xì)。若否,即當(dāng)H%-|)如_。, 向。'於)時,化/(.Vw,…);若是,即當(dāng) W.Vi心,,'乃£ ^.ν?υ,ι-' 於)時, 巧《而-1咕_,,)。最后得到/(而-11山_,,)叫荷'化,…,乂毎}巧引Mol。
[0160] 具體描述如下:初始定義《%-1;如,,.-)=〇,
[0161] 對每一個:TE JW(而-1心,),
[016^ 每一個護(hù)e(rw(相咕:,H4),如果J但,於),那么 )uM巧則/(.Vll心,):=《 Vi",一,)。
[01創(chuàng) (13.1.3、通過步驟(13.1.2得《而-化_,,)=柏,化,...,而},口引10|,本步驟主要尋 找W (X,,; ),乂 =1,2···,ρ,且P引Mol。注意現(xiàn)在是尋找第i層中的第ji個屬性集中最后一個 屬性%的拓?fù)溧徲?,前面第(i-1)層中屬性·νι心,的拓?fù)溧徲蛞呀?jīng)獲得,且其在第(i-1)層 的關(guān)鍵兀為({巧,丫2,:.^/'.'.、,.而)1山_1|!''巧作而1。|,_1,)'"{口,了2_/:'與,3''.'.,.)<,'1。|,_,:'))。 [0164]針對凈化后的G(.Vi心,任取T(,_w, 1,),且Μ'(Λ&,對韻;驗(yàn)證M('Vi心,,,對 是否真包含于Μ而一心,,而)。如果是,即如果作X(Miv-y(M從_。,X& ),那么 化);反之,如果咕,對孫(Vi咕,,'而)'那么.柏巧ν(-\)。
[01化]具體符號描述如下:初始定義ΓΜχ。;)={},和,€ /(而),
[0166] 對每一個1'£譜(而―化',>),且w( 3?,句絶5:;:
[0167] 若,Xy,),則:Γ^(λ;,., ):= rwu", )u的;否則,):= )。
[0168] d3.1.4、尋找第i層中第ji個屬性集中最后一個屬性嘴:的關(guān)鍵元,并進(jìn)行概念信息 的提取。
[0169] 完成步驟d3.1.1~d3.1.3之后,得到第i層中第ji個屬性集切,%&,馬自,…, XX,,),屬性%的拓?fù)溧徲騘的似及權(quán)重M<?7,y];:,X;,,,…,·\!-ι心,,γ,,>其 中 1^口' ,馬占,…'而-1咕-1,,x,7,)="切'14(而_,,山,,'而)?,F(xiàn)在尋 找第i層中第ji個屬性集中最后一個屬性^的關(guān)鍵元,并提取概念信息。
[0170] d3.1.4.1、若第i層中的前(ji-1)個屬性構(gòu)成的集合均與目前屬性集(巧,兩,:。, 、,,,···,而-?υ;,_,,,\ ?不同,則得到第i層中的第ji個屬性集中最后一個屬性%的關(guān)鍵元 為石 U}=(iW' ?;,:' A,,' …,而一…,,,,' τ"> riV(^),w(巧,?],:,乂3力,.'.,而-1扣_。' 否則判定第i層中屬性%的關(guān)鍵元不存在。
[0171 ] d3.1.4.2、根據(jù)步驟d3.1.4.1找到的關(guān)鍵元提取概念。
[01巧如果關(guān)鍵元l^iUi}存在,即么'UK{W,相,嗚占,..,,而-1)電V嘴},7W(x。,), W切,和:,馬右,冷))
[0173] 則提取第i層中的第 ji個概念壞,U.! =(|'KW,-V:,.:,Λ·;。,...,.Y.,: I,,;, .,,Λ-,, ),I 口, &.占,兩7'3 .%-1 化X",})。
[0174] 如果關(guān)鍵元不存在,則無概念可提取。
[0175] d3.2、重復(fù)步驟d3.1,W求得第i層中所有屬性集,并進(jìn)行概念信息提取,具體操作 為:
[0176] 重復(fù)步驟d3.1,可得到第i層中所有的關(guān)鍵元:
[0177]
[0180] d3.3、如果第(i-1)層中每一屬性集{礦.,X;,,,·...',的最后一個屬 性-Vi>,的拓?fù)溧徲蚓鶠榭占?,則該屬性的下一層屬性也均為空集,即心=0,此時分層結(jié) 束,否則重復(fù)d3. l-d3.2直到分層結(jié)束。
[0181] d3.4、分層結(jié)束后(F〇,M〇U hMn)的所有概念信息為
其中n〇為屬性 分層的總層數(shù)。
[0182] 步驟e采用基于概念格的信息提取方法,檢驗(yàn)所有概念信息是否齊全,若未齊全, 尋找概念,直到概念信息齊全。
[0183] el、完成步驟d3,判斷是否繼續(xù)捜尋概念。
[0184] el. 1、如果圖Go+h}是加權(quán)無環(huán)圖,則不需要繼續(xù)捜尋概念。
[0185] el. 2、如果圖Go+h}是加權(quán)有環(huán)圖,但不含有Ξ條邊且各邊權(quán)值均相等的環(huán),則不 需要繼續(xù)捜尋概念。
[0186] el.3、若圖Go+h}不是步驟el. 1和步驟el.2所指類型,則需要繼續(xù)捜尋概念。
[0187] e2、初步得到剩余概念Cpei。
[0188] 根據(jù)步驟曰,凈化后的(Fo,Mo,Io)中各個屬性所擁有的對象集一定不同,再由步驟 b,構(gòu)造出圖Go U In}中的權(quán)值W' (n,Xi)辛W' (n,Xj),Xi,XjEMo,(i,j = 1,2,......,|m〇 I,i 辛 j)。運(yùn)樣,按照步驟d2捜索到的第二層概念一定為真正的概念,且不會有丟失的概念。因此, 本發(fā)明中需要對第Ξ層的概念進(jìn)行捜索檢驗(yàn)。而如果對第Ξ層之后的層次再進(jìn)行捜索檢 驗(yàn),會造成概念的大量重復(fù),因此對第Ξ層進(jìn)行捜索檢驗(yàn)后無需再對第Ξ層之后的層次進(jìn) 行捜索檢驗(yàn)。
[0189] 由步驟d3可得第Ξ層概念Γ/ν=Κ"切,r,口,句:,./, = 1, 2,…,為;心,《3《1舶〇1},令CP3{ j } = (X{ j },Υ{ j }),其中挪-}={巧,義巧:,馬占}, 義1/}=蛛(妹義化,^.,.;)。由步驟(11可得1則11),不妨設(shè)巧'^(口)= {口1,口2,...,'口|"。!}'帖3{川=郵, 下面對第Ξ層進(jìn)行捜尋。
[0190] e2.1、對第Ξ層中的任意兩個概念的對象集求交集,并將交集非空的兩個概念組 合為另外一個不同的概念。具體如下:
[0191] e2.1.1、依次取第Ξ層中的每一概念Cp3{i},i = 1,2,. . .,m3,W及該概念之后的每 一概念Cp3 {j},i < j < 郵。
[0192] e2.1.2、若義識 Π 義{j·} * 0,則組合為概念Cpij = (X{i} η X{j},Υ{ i} U Υ{j}),否則 不組合概念。
[0193] e2.2、重復(fù)步驟e2.1,可將第Ξ層中任意兩對象集相交非空的概念,組合為新概 念,從而得到組合后的全部概念,記為
[0194] Cpci={Cpu|Cpu = (X{i} nX{j},Y{i} UY{j}),i = l,2,...,郵,i<j< 郵}。
[01巧]e2.3、去除Cpci中的偽概念,具體如下:
[0196] e2.3.1、依據(jù)對象集,將Cpei中所有概念進(jìn)行分類,每一類概念具有相同對象集。
[0197] e2.3.2、將每一類中所有概念的屬性進(jìn)行合并,對象集不變,組合為一個概念
其中Pk為第k類概念中所有概念的個數(shù),Ykq為第k類概念中第q個概念的 屬性集(即內(nèi)涵),Xk為第k類概念的共同對象集(即外延)。
[019引 e2.3.2、最后得概念集Cpdi={CpdiA} |k=l, . . . ,pk}。
[0199] e2.4、初步得到部分剩余概念Cpei,具體如下:
[0200] 令Cpei = Cpdi-Cpq,其中Cpq為步驟d3.4得到的概念,則Cpe功步驟d未捜尋到的部分 概念。
[0201] e3、得到其余剩余概念。給定初始值i = l,具體操作如下:
[0202] e3.1、對Cpei(注意i的初始值為1,即首先討論步驟e2.4中的Cpei)中任意兩個概念 進(jìn)行比較,若兩個概念的對象集交集非空,則將運(yùn)兩個概念組合為一個概念,組合規(guī)則按步 驟e2.1.2進(jìn)行;最后得概念集Cpe( W)。
[0203] e3.2、依據(jù)步驟e2.3去除Cpc(w)中的偽概念,得到概念Cpd(w)。
[0204] e 3.3、得到部分剩余概念 Cpe (i+:L) = Cpd (i+i) -Cpei。
[02化]e3.4、令i = i+l,重復(fù)步驟e. 3.1到e. 3.3,直到任意兩個概念對象集交集為空,捜 尋結(jié)束;最后得到所有剩余概念為
1'。
[0206] e4、最后去除Cpe中的偽概念:對于對象集相同的概念,保留屬性集最大的概念,其 余去掉。
[0207] e5、到此為止,得到(FqiMqU hMo)的全部概念信息Cp = CpqUCpe。
[0208] 步驟f采用基于概念格的信息提取方法,刪除(Fo,MoU{rl},In)中所有概念內(nèi)涵中 的η,得到(Fo,Mo,Io)的全部概念信息;并將步驟a中凈化掉的屬性與對象重新恢復(fù)為(Fo,Mo, Ιο)的信息,最終得到原始信息背景(F,M,I)的全部概念信息。
[0209] η、刪除所有概念內(nèi)涵中的η。假設(shè)(Fo,MoU{rl},In)的第i個概念為CpU} = (X(i), Y(i)),其中X(i)為第i個概念的外延,Y(i)為第i個概念的內(nèi)涵。刪除Cp{i}內(nèi)涵中的η后,得 CpO{i} = (X(i)J(i)-{ri}),i = l,2,. . .,Πρ,其中Πρ= |Cp|。從而得到化,]/[日,1日)的所有概念 信息{壞00'},M,…,",,}υ?(0,爲(wèi)叫口})!·。本發(fā)明中用CpOU}表示去除節(jié)點(diǎn)η后的第i 個概念,用Cpl{i}表示恢復(fù)屬性或?qū)ο蠛蟮牡趇個概念。
[0210] f2、原始背景的概念信息恢復(fù)。獲得(F,M,I)的所有概念信息。
[0211] f2.1、對步驟al.l中凈化掉的每一全局屬性X,重新恢復(fù)為CpO{i}內(nèi)涵中的元素, 得Cpl{i} = (X(i),(Y(i)-{rl})U{x}),i = l,2,...,np,其中np=|Cp|。
[0212] f2.2、對步驟al.2中凈化掉的每一全局對象g,重新恢復(fù)為CpO{i}的外延中的元 素,得Cpl{i} = (X(i) U {g} J(i)-{ri}),i = l,2,. . .,Πρ,其中Πρ= |Cp|。
[0213] f2.3、對于步驟al. 3中的每一空屬性X,重新恢復(fù)為(0,M〇)的內(nèi)涵中的元素,得 胸^)。的)。:
[0214] f 2.4、對于步驟a 1.4中的每一空對象g,重新恢復(fù)為奶,0)外延中的元素,得 CFoU姑,0)。
[0215] f2.5、對于步驟al. 5中的等價屬性,若屬性X與屬性y等價,則將CpOU}的內(nèi)涵中含 X的內(nèi)涵替換為{x,y},得Cpl{i} = ((X(i),(Y(i)-{n,x}) U {x,y}),i = l,2,. ..,Πρ,其中Πρ =ICp I 〇
[0216] f 2.6、對于步驟al. 6中的等價對象,若對象gi與對象g2等價,則將CpO{i}的外延中 含gi的外延替換為{gi,g2},得Cpl{i} = ((X(i)-{gi}) U {gi,g2},Y(i)-{n}),i = l,2,..., Πρ,其中Πρ= |Cp|。
[0217] 本發(fā)明受到國家自然科學(xué)基金項(xiàng)目資助(項(xiàng)目號:61572011),還受到河北省自然 科學(xué)基金的資助(項(xiàng)目號:A2013201119)。
[0218] 下面結(jié)合具體實(shí)施例對本發(fā)明作進(jìn)一步詳細(xì)說明。本發(fā)明在相同的運(yùn)行環(huán)境下, 使用嫩化48 20136進(jìn)行實(shí)驗(yàn)。
[0219] 實(shí)施例1,給定原始信息背景(F,M,I),此信息背景包括11個屬性,9個對象,其中F 為信息背景中所有對象的集合,即。={1,2,3,4,5,6,7,8,9};1為所有屬性的集合,即1 = (a,b,c,d,e,f,g,h,i, j,k} ;1為屬性集和對象集的二元關(guān)系,如表1所示。
[0220] 根據(jù)步驟a采用基于概念格的信息提取方法,將原始信息背景(F,M,I)進(jìn)行預(yù)處 理,包括如下過程:
[0221] 根據(jù)步驟al對原始的信息背景(F,M,I)進(jìn)行預(yù)處理,得到凈化后的信息背景(Fo, Mo, Ιο)。主要目的是為了刪除背景中全局屬性、全局對象、空屬性、空對象、等價屬性、等價對 象,降低后期計(jì)算的復(fù)雜度。具體步驟如下:
[0222] 根據(jù)步驟al.l,對于在(F,M,I)中擁有的對象集為F的屬性,即全局屬性k,進(jìn)行刪 除處理。
[0223] 根據(jù)步驟al.3,對于不擁有任何對象的屬性,即空屬性a,進(jìn)行刪除處理。
[0224] 根據(jù)步驟al.5,d和j在(F,M,I)中各自擁有的對象相同,為等價屬性,為了描述方 便,在此,保留d,刪除j。
[0225] 根據(jù)步驟al.6,5和9在(F,M,I)中各自擁有的屬性相同,為等價對象,為了描述方 便,在此,保留5,刪除9。
[0226] 采用步驟al完成對(F,M,I)的凈化,得到凈化后的信息背景(Ρο,Μο,Ιο)。如表2所 /J、- 〇
[0。7] 根據(jù)步驟a2,定義(Ρο,Μο,Ιο)如下:
[022引Fo = F-({xeF|x為全局對象} U {xEFlx為空對象} U {xEF|x是在al.6中被刪除 的對象}),即F0={l,2,3,4,5,6,7,8};
[0229] Μο = Μ-({χΕΜ|χ為全局屬性} U {χΕΜ|χ為空屬性} U {χΕΜ|χ是在al.5中被刪除 的屬性}),即Mo= {b,c,d,e,f,g,h,i};
[0230] Ιο如表2所示。
[0234] 此鄰接矩陣對應(yīng)屬性拓?fù)鋱DGo= (Vo(Go),Eo(Go)),如圖2所示。
[0235] 根據(jù)步驟b,采用基于概念格的信息提取方法,對Go添加一個擁有對象集為Fo的節(jié) 點(diǎn)n,得到圖Go+h},如圖3所示,W及信息背景(Fo,MoU{ri},In)。
[0236] 根據(jù)步驟bl,添加節(jié)點(diǎn)η。在信息背景(Fo,Mo,Io)中|Mo| > 2,添加一個特殊屬性II。
[0237] 根據(jù)步驟b2,給出η所擁有的對象集。本發(fā)明實(shí)施例中,η所擁有的對象集為Fo = {1,2,3,4,5,6,7,8}。
[023引根據(jù)步驟b3,得到新圖G(V,EV )。
[0239] 根據(jù)步驟b3.1,在Go上添加一個特殊節(jié)點(diǎn)η,η擁有的對象集為Fo。
[0240] 根據(jù)步驟b3.2,連接η與圖Go各節(jié)點(diǎn),得8條邊,且每邊權(quán)值為(η,XI),XI ΕΜο,i = 1,2, ...,8,即w' (ri,b) = α,2,3,5,6},w' (ri,c) = {3,4,6,7,8},w' (ri,d) = {5,6,7,8},w' (η, e) = {7},w' (ri,f) = {5,6,8},w' (ri,g) = {l,2,3,4},w' (ri,h) = {2,3,4},w' (ri,i) = {4}。最 終得新圖G〇+U}=G(V,E,w'),其中,節(jié)點(diǎn)集V = M〇U U};邊集怎={如', .、7)|u''(.V,.,Λ','片0,Λ',',Λ.,'Ε 的心!口|,/,./=1,2,9}。
[0241] 根據(jù)步驟b4,得到信息背景(Fo,Mo U h},In)。
[0242] 獲取信息背景(Fo,MoU{rl},In)的過程如下:對于任意的geFo,yeMoU{rl},
[02創(chuàng)當(dāng)yEMo時,若gloy,則giny;當(dāng)y = n時,有g(shù)iny成立。
[0244] 根據(jù)步驟C采用基于概念格的信息提取方法,對屬性拓?fù)鋱DG(V,E,w〇的權(quán)值進(jìn)行 凈化,具體過程如下:
[0245] 依次對G(V,E,w')中的每一個權(quán)值W' (Xi,Xj),Xi,XjeMo U {η},i,j = 1,2,…,9與η 所擁有的對象集Fo作比較。若(xi,xj)中有不屬于Fo的對象,則將此對象從(xi,xj),i,j =1,2,…,9中去掉,最后完成對G(V,E,w^ )中每邊上的權(quán)值的凈化,得到新的拓?fù)鋱DG(V,E, W),其中,¥(6(¥,6,訊))=¥(6(¥,6,訊'));6(6(¥,6,訊))=6(6(¥,6,訊'));訊(義1,刮)為訊'(又1, xj)凈化后的權(quán)值,xi,xj EMo U h},i,j = 1,2,. · ·,9。
[0246] 具體描述為:對每個gEw'(Xi,Xj),
[0247] 如果各芭所,.那么凈化后的權(quán)值為w(Xi,Xj)=w/ (Xi,Xj)-{g};
[024引如果!>'E f("那么凈化后的權(quán)值與原權(quán)值相等,即W(Xi,Xj) = (Xi,Xj)。
[0249]因?yàn)棣菗碛械膶ο蠹癁镕o,任意gEw' (Xi,Xj),都滿足gEFo,所Ww(Xi,Xj) =w' (Xi, Xj)。凈化后的鄰接矩陣為:
[0巧0]
[0251]步驟d采用基于概念格的信息提取方法,將G(V,E,w)中的屬性進(jìn)行分層,得到分層 圖,并對概念信息進(jìn)行提取,具體過程如下:
[0巧2] 令TN(ri)=Mo,即了的11)=化,(3,(1,6山邑山1},|1〇|>2,對化燕,1〇)的概念信息尋 找進(jìn)行如下操作:
[0253] 根據(jù)步驟dl,采用基于概念格的信息提取方法,定義分層圖的第一層。
[0254] l^i={({ri},{b,c,d,e,f,g,h,i},{l,2,3,4,5,6,7,8})}。
[0255] 根據(jù)步驟d2,采用基于概念格的信息提取方法,基于分層圖的第一層尋找分層圖 的第二層L2,捜尋過程具體如下:
[0256] 根據(jù)步驟d2.i,基于第一層屬性n,尋找Wn為中屯、的下一層屬性集合?(η):
[0257] 本發(fā)明實(shí)施例中TN(rl) = {b,c,d,e,f,,g,h,i},初始定義l(rl) = {},
[0巧引 對6£了^10,0,(1,6^,邑,}1,1£了^11)-化},滿足1徊,6)騎如如州'口,/,)騎(化刮, H'(y, /,)g"切,(.'),u(", Ζ,)g"切,./),"切,/,)空"07,到,iv(w, /)) gu(,/,/!},々)&1(口,/). 口J· 簡寫為:M(化 6) gw(?7, c),w(ri,d),w(ri,e),w(ri,f),w(n,g),w(n,h),w(n,i),得l(n): = lb}。 [0 巧 9]對 〇£了的11),6,(1,6^,邑山1£了的11)-{:。},滿足"〇?,£'>&1'(口',')),訊(11,(1),訊(11,6),¥ (n,f),w(n,g),w(n,h),w(ri,i),得Κη): = {Μ u k} = {b,c}。
[0260]對(1£了的11),6,〇,6^,邑,}14£了的11)-{(1},滿足14<口,旬空。'(7,/)),"(11,。),"(11,6)," (n,f),w(n,g),w(n,h),w(ri,i),得l(n): = {b,c} U 3jivhmmexw = {b,c,d}。
[026。 對6£了則11),6,。,0^,邑山1£了則11)-{6},因?yàn)榛?巨許的,亡'),所則(11):=化, c,d} ο 惦62 ]對f e TN (η),b,C,d,e,g,h,i e TN (η) - {f},因?yàn)?ii'( 'A. /'hi; h〇m/),所 W1 (η): = {b, c,d} o
[0263] 對geTN(ri),b,c,d,e,f,h,ieTN(ri)-{g},因?yàn)閣切,容)g w(巧,約,w(n,c),w(ri,d), w(ri,e),w(ri,f),w(n,h),w(ri,i),所WKn): = {b,c,d,g}。
[0264] 對11£了則11),6,(3,(1,6^,邑4£了則11)-化},因?yàn)?'(口、/'!)弓1切幻,所^1(11)=化, c,d,g}。
[0265] 對記了則11),6,〇,(1,6山邑,}1£了則11)-化},因?yàn)榇?,'')口初,到,所^1(11)=化,(3, d,g}。
[0%6]最后得 l(ri) = {b,c,d,g}。
[0267]根據(jù)步驟d 2 . 2,基于第一層屬性n,對于每一 .?? e/(如,尋找皆2的拓?fù)溧徲?物巧);
[026引本發(fā)明實(shí)施例,初始定義TN(b) = {},be Κη),
[0269]對 beTN(ri)且 w(6,6)=0,因此不與 w(ri,b)進(jìn)行比較,得 TN(b): = {};
[0^0]對ceTN(ri)且"你'片0,H(/),(')。1'〇7, /-,),得TN(b): = k};
[0Z71 ]對deTN(ri)且h'(A,(啦0,"",,(/) '。巾7, 6),得TN(b): = k,d};
[0Z7^ 對eeTN(ri)且w'化 e)=0,因此不與w(ri,b)進(jìn)行比較,得TN(b): = k,d};
[0的;3]對f eTN(ri)且冶,u(/,/) [u07, /)),得TN(b): = {:c,d,f};
[0274]對geTN(ri)且、雌,g)卓0,Η'(々若)亡"(化 /)),得TN(b): = k,d,f,g};
[027引對heTN(ri)且".(/),/?片0,η?/λ/?) cTH07,々),得TN(b): = k,d,f,g,h};
[0Z76]對iETN(ri)且W炸,0=0舊此不與w(n,b)進(jìn)行比較,得TN(b) : = k,d,f,g,h};
[0277]最后得到 TN(b) = k,d,f,g,h}。
[0278] 同理,可W得到TN(c) = {b,d,e,f,g,h,i},TN(d) = {b,c,e,f},TN(g) = {b,c,h, i} 〇
[0279] 根據(jù)步驟d2.3,捜尋第二層中的每一個屬性集中最后一個屬性的關(guān)鍵元,并進(jìn)行 概念信息的提取。
[0280] 完成步驟d2.1~d2.2之后,可得第二層中的第一個屬性集{ri,b},b的拓?fù)溧徲騎N (b),W及權(quán)重w(ri,b),bEl(ri)。將第二層中的第一個屬性集中屬性b的關(guān)鍵元記為
[0281] L2{l} = ({n,b},TN(b),w(n,b));
[0282] 同理,可得第二層中屬性c,d,g的關(guān)鍵元:L2{2} = ({ri,c},TN(c),w(ri,c));
[0283] L2{3} = ({ri,d},TN(d),w(ri,d));L2{4} = ({ri,g},TN(g),w(ri,g))。
[0284] 且提取概念為
[0285] Cp2{l} = (w(n,b),{n,b});Cp2{2} = (w(n,c),{n,c});
[0%6] Cp2{3} = (w(ri,d),{ri,d}) ;Cp2{4} = (w(ri,g),{n,g})。
[0287] 根據(jù)步驟d2.4,對l(ri)中每一屬性完成步驟d2.2~d2.3后,得到分層圖的第二層 L2:L2={({n,b},TN(b),w(n,b)),({n,c},TN(c),w(n,c)),({n,d},TN(d),w(n,d)),({n,g}, TN(g),w(n,g))}〇
[0288] 進(jìn)而提取第二層概念為:
[0289] Cp2={(w(n,b),{n,b}),(w(n,c),{n,c}),(w(n,d),{n,d}),(w(n,g),{n,g})}〇
[0290] 根據(jù)步驟d3,分層圖的第二層已經(jīng)獲得,即
[0291] L2={({n,b},TN(b),w(n,b)),({n,c},TN(c),w(n,c)),({n,d},TN(d),w(n,d)), ({n,g},TN(g),w(n,g))}〇
[0292] 采用基于概念格的信息提取方法,尋找分層圖的第Ξ層L3,操作過程具體如下:
[0293] 根據(jù)步驟d3.1,依次選取第二層的屬性b,c,d,g,即選取第二層屬性集{ri,b}、{ri, (:}、{11,(1}、{11,邑}中的最后一個屬性,尋找第^層的所有屬性。下面^屬性6為例進(jìn)行說明。
[0294] 根據(jù)步驟d3.1.1,Wb為中屯、凈化原始鄰接矩陣r,得新鄰接矩陣W= |w(xi,xj) IW (又1,刮)為"'佔(zhàn),刮)凈化后的權(quán)值,化,刮£]?日11{11}},具體過程如下:
[02M]依次對G(V,E,W')中的每一個權(quán)值W' (xi,xj)(i,j = l,2,···,9)與w(rl,b)所擁有的 對象集{1,2,3,5,6}作比較。若w/(xi,xj)中有不屬于{1,2,3,5,6}的對象,則將此對象從 (xi,xj) (i,j = 1,2,…,9)中去掉,最后完成對G(V,E,)的權(quán)值的凈化,得到Wb為中屯、凈化 權(quán)值后的屬性拓?fù)鋱DG ( b ) = ( V,E,W ),如圖4所示,其中,巧巧6))c巧巧Γ, 必,材/)),巧巧城仁巧(?化玄,:悚〇)州佔(zhàn),刊)為"'佔(zhàn),刊)凈化后的權(quán)值,町響居1日^11},1〇 =1,2,…,9。得到新的鄰接矩陣為:
[0296]
[0297]根據(jù)步驟d3.1.2,針對凈化后的G(b),尋找Wb為中屯、的下一層屬性集合1(b)。注 意現(xiàn)在尋找第Ξ層屬性,前面兩層屬性都已經(jīng)得到。即({ri,b},TN(b),w(ri,b))eL2。
[029引對每一個屬性 xETN(b),令 w(b,x)與 w(b,ys)進(jìn)行比較,其中 yseTN(b)-{x},s<9。 判斷w(b,x)是否包含于w(b,ys),若H'(Z),.r化Η化.V,),則xel(b);反之,則挑膊);最后得1 化)。
[0299] 初始定義 l(b) = {},TN(b) = {:c,d,f,g,h},
[0300] 對ceTN(b),d,f,g,heTN(b)-k},滿足"(/,,(')i/),w(b,f),w(b,g),w(b,h), 得 1(b): = k};
[0301 ]對deTN(b),c,f,g,heTN(b)-3jivhmmexw,滿足w(b,d) =w(b,f),得1(b): = k};
[0302] 對f eTN(b),c,d,g,heTN(b)-{f},滿足w(b,f) =w(b,d),得 1(b): = k};
[0303] 對 geTN(b),c,d,f,heTN(b)-{g},滿足u的,,幻&Γ(/),('),w(b,d),w(b,f),w(b,h), 得 1(b): = {;c,g};
[0304] 對heTN(b),c,d,g,f ETN(b)-化},滿足"的,Η"),到,得 1(b): = k,g};
[0305] 最后可得 l(b) = k,g}。
[0306] 根據(jù)步驟d3.1.3,通過上面所求得的l(b) = レ,g},本步驟主要尋找TN(c)和TN (g)。注意現(xiàn)在是尋找第Ξ層中屬性C和g的拓?fù)溧徲?,前面兩層屬性的拓?fù)溧徲蚨家呀?jīng)獲 得,即(h,b},TN(b),w(n,b))eL2。
[0307] 針對凈化后的G(b),任取義£了則13)且>^<£;, X盧0,cE 1(b),驗(yàn)證w(c,x)是否真包含 于W (b,C)。如果 w(c, x)cW化C),那么 X e TN (C);如果 w(c,對 CW化C),那么 X € 77V(c)。
[0308] 初始定義TN(c) = {},cel(b),TN(b) = k,d,f,g,h};
[0309] 對cETN(b)且c)=0,不進(jìn)行比較,得TN(c): = {};
[0310] 對deTN(b)且?/戶0,</)。,如,<:'),得1的。):={(1};
[0311] 對f ETN(b)且 1啦,./片0,、'啦,/)。抑,('),得TN(c): = {d,f};
[0312] 對gETN(b)且 1啦,各片0,1啦',到口.柳,('),得TN(c): = {d,f,g};
[0313] 對hETN(b)且、/啦0,"((..,/?仁Η"),('),得TN(c): = {d,f,g,M。
[0314] 最后得到TN(c) = {d,f,g,h}。
[0315] 同理,可得 TN(g) = k,h}。
[0316] 根據(jù)步驟d3.1.4,尋找第Ξ層中Wb為中屯、的關(guān)鍵元并進(jìn)行概念信息的提取。
[0317] 完成步驟d3.1.1~d3.1.3之后,得到第Ξ層中的屬性集h,b,C}及此屬性集最后 一個屬性 C 的拓?fù)溧徲?TN(c)W 及權(quán)重 w(ri,b,c),其中 w(ri,b,c)=w(ri,b)nw(b,c)。
[031引根據(jù)步驟d3.1.4.1,因?yàn)闆]有與{rl,b,c}相同的屬性集,所WL3{l} = ({rl,b,c},TN (C),w(ri,b,c))。提取第Ξ層中的第一個概念Cp3{l} = (w(ri,b,c),{ri,b,c})。
[0319] 完成步驟d3.1.1~d3.1.3之后,還可得到第Ξ層中的屬性集{ri,b,g}及此屬性集 最后一個屬性g的拓?fù)溧徲騎N(g)W及權(quán)重w(ri,b,g),其中w(ri,b,g)=w(ri,b)nw(b,g)。
[0320] 根據(jù)步驟d3.1.4.1,因?yàn)闆]有與{ri,b,g}相同的屬性集,所WL3{2} = ({ri,b,g},TN (邑),巧(11,13,邑))。提取第^層中的第二個概念〔口3{2} = (*(11,13,邑),{11,13,邑})。
[0321] 根據(jù)步驟d3.2,即依次選取C,d,g,重復(fù)步驟d3.1,可W得到
[0322] 1(。)= {13,(1}及了的13) = {(1^,,邑,11},了的(1) = {13,6,;〇;
[0323] 1((1) = {;(3,門及1的(3) = {13,6,;〇,了的;〇 = {13,(3};
[0324] i(g) = {b,h}及TN(b) = k,h},TN化)= {b,c,i}。
[0325] 在第Ξ層中尋找Wc為中屯、的關(guān)鍵元時,由于{ri,c,b}與前面{ri,b,c}屬性集相同, 故此時不再尋找屬性集h,c,b}最后一個屬性b的關(guān)鍵元。同理,對其他屬性集做同樣的處 理。
[0326] 最終得到:
[0327] L3{3} = ({n,c,d},TN(d),w(n,c,d));L3{4} = ({n,d,f},TN(f),w(n,d,f));
[032引 L3{5} = ({ri,g,h},TN(h),w(ri,d,h))。
[0329] 并可提取概念:
[0330] Cp3{3} = (w(n,c,d), {n,c ,d}) ;Cp3{4} = (w(n,d,f), {n,d,f});
[0331] Cp3{5} = (w(ri,g,h),{ri,g,h})。
[0332] 完成上面步驟后,可得到第Ξ層所有屬性集中最后一個屬性的關(guān)鍵元:
[0333] L3={({n,b,c},TN(c),w(n,b,c)),({n,b,g},TN(g),w(n,b,g)),({n,c,d},TN (d),w(n,c,d)),({n,d,f},TN(f),w(n,d,f)),({n,g,h},TN(h),w(n,g,h))}o
[0334] 進(jìn)而提取第Ξ層概念為:
[0335] Cp3={(w(n,b,c),{n,b,c}),(w(n,b,g),{n,b,g}),(w(n,c,d),{n,c,d}),(w(n, d,f),{n,d,f}),(w(n,g,h),{n,g,h})}o
[0336] 參照圖5,根據(jù)步驟d3.3,重復(fù)d3. l-d3.2直到某層每個屬性的拓?fù)溧徲蚓鶠榭占?則該屬性的下一層屬性也均為空集。本發(fā)明實(shí)施例,知=0,此時分層結(jié)束,得到(Fo,MoU (11},1〇的除!(0,飾)^{聽)}的全部概念信息。
[0337] 根據(jù)步驟d3.4,分層結(jié)束后(Fo,MoU h},In)的所有概念信息見表3。
[033引表3本發(fā)明方法完成步驟d3.4后所得(Fo,Mo U h},In)的所有概念信息
[0339]
[0340] 根據(jù)步驟e采用基于概念格的信息提取方法,檢驗(yàn)所有概念信息是否齊全。 '
[0%1]根據(jù)步驟el. 2,由于圖Go+h}是加權(quán)有環(huán)圖,但不含有Ξ邊且各邊權(quán)值均相等的 環(huán),因此不需要繼續(xù)捜尋概念。
[0342]根據(jù)步驟f采用基于概念格的信息提取方法,將(Fo,MoU{rl},In)的所有概念內(nèi)涵 的η進(jìn)行刪除,得到(Fo,M〇,1〇)的全部概念信息。
[0;3創(chuàng)根據(jù)步驟η,刪除所有概念內(nèi)涵中的II,得到(F0,M0,I0)的所有概念信息見表4。 [0344]表4本發(fā)明方法完成步驟η后所得(F〇,M〇,I〇)的所有概念信息
[0345]
[0346] 根據(jù)步驟f2,得到(F,M,I)的所有概念信息見表5。
[0347] 表5本發(fā)明方法完成步驟f2后所得(F,M,I)的所有概念信息 [0;34 引
[0349] 參照張濤等人的方法流程圖如圖6所示,對整個屬性拓?fù)鋱D進(jìn)行概念信息提取。對 概念的捜索過程如圖7所示。從屬性拓?fù)鋱D中選擇一點(diǎn)為起點(diǎn),進(jìn)行概念信息的捜索,每步 最先捜索到的為頂層屬性,如圖7(1)所示。頂層屬性d后省略的部分如圖7(2)所示,頂層屬 性g后省略的部分如圖7(3)所示,頂層屬性b后省略的部分如圖7(4)所示。圖7(1),圖7(2)和 圖7(3)中的虛線表示捜索到的概念為偽概念,如({5,6},{b,d})為偽概念,({5,6},{b,d, f})為真正的概念信息。
[0350] 采用張濤等人的方法,捜索結(jié)束后得到(F〇,M〇,I〇)的概念信息見表6。
[0351] 表6張濤等人方法所得(F〇,M〇,I〇)的所有概念信息
[0352]
[0353] 實(shí)施例2,為了進(jìn)一步說明本發(fā)明的實(shí)用性,本發(fā)明使用UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(UCI Machine Learning Repository)中的I3L0GGER數(shù)據(jù)集進(jìn)行測試。此數(shù)據(jù)集是對100個對象分 別從學(xué)歷、政治立場、博客主題、是否被當(dāng)?shù)孛襟w轉(zhuǎn)載、地方,政治和社會空間、該博主是否 為臨博主6個方面進(jìn)行調(diào)查得到的。本發(fā)明對此數(shù)據(jù)集提取了 14個屬性和100個對象,運(yùn)些 屬性和對象的關(guān)系包括了信息背景中可能出現(xiàn)的所有關(guān)系。由于凈化后的背景直觀明確, 本發(fā)明首先凈化此數(shù)據(jù)集,進(jìn)而進(jìn)行概念信息提取。表7為凈化后的信息背景(Fi,Mi,Ii),包 括14個屬性,41個對象。
[0354]表7凈化后的信息背景化,Ml,ω [0355]

[0356] 注:表7中各字母代表的含義分別如下:
[0357] a:博主為高學(xué)歷;b:博主為中等學(xué)歷;C:博主學(xué)歷較低;d:政治立場為左派;e:政 治立場為中立;f:政治立場為右派;g:博客主題為感想;h:博客主題為政治;i :博客主題為 旅游;j博客主題為新聞;k:博客主題為科學(xué);1:博客被當(dāng)?shù)孛襟w轉(zhuǎn)載;m:地方,政治和社會 空間;η:該博主為臨博主。
[0358] 根據(jù)步驟b得到實(shí)施例2的鄰接矩陣W/,見說明書第30頁。
[0359] 其對應(yīng)的屬性拓?fù)鋱D如圖8所示(若與某節(jié)點(diǎn)相連接的邊中,既有單向指向該節(jié)點(diǎn) 的邊,又有單向指出邊或雙向邊,則與該節(jié)點(diǎn)相連接的邊,在圖中用虛線表示)。
[0360] 采用本發(fā)明的方法,得到化,Ml, Ii)的概念信息見表8。
[0361] 表8本發(fā)明方法所得化,Ml, Ii)的所有概念信息
[0362]
「Π 3Α31
[0364] 實(shí)施例3,為了快速比較本發(fā)明方法與張濤等人的方法的復(fù)雜度,本實(shí)施例選取較 簡單的信息背景。信息背景(F2,M2,l2)見表9,,其凈化后的信息背景化,Μ3,?3)見表10。采用 本發(fā)明方法,得到信息背景(F3,M3,l3)的全部概念信息見表11。本發(fā)明從實(shí)施例3的信息背 景中提取數(shù)據(jù)進(jìn)行實(shí)驗(yàn),從程序的循環(huán)次數(shù)和執(zhí)行時間兩方面,與張濤等人的方法進(jìn)行比 較,所得數(shù)據(jù)見表12。
[0365] 結(jié)合本發(fā)明實(shí)施例和實(shí)驗(yàn)分析,得到結(jié)論:
[0366] I、本發(fā)明采用一種基于概念格的信息提取方法,與使用張濤等人的全路徑遍歷方 法,所得到的概念信息相同,都能夠獲得信息背景全部的概念信息。
[0367] II、由圖9得η <21時,本發(fā)明方法比張濤等人的方法復(fù)雜度要高。
[0368] III、由圖10得η>21時,本發(fā)明方法復(fù)雜度比張濤等人的方法復(fù)雜度低。并且隨著 樣本數(shù)目的增大,本發(fā)明方法復(fù)雜度會越來越低于張濤等人的方法復(fù)雜度。
[0369] IV、由表12得出對于大數(shù)據(jù)信息背景,由于本發(fā)明方法遠(yuǎn)遠(yuǎn)優(yōu)越于張濤等人的方 法,選擇本發(fā)明的方法獲取信息概念更為適宜。
[0370]
[037。 表10(F2,M2,l2)凈化后的信息背景化,M3,l3)
[0372]
[0375]表12本發(fā)明方法與張濤等人的方法復(fù)雜度對比
[0376]
[0377] 注釋:循環(huán)次數(shù):程序循環(huán)體中語句的最多執(zhí)行次數(shù),是用來刻畫時間復(fù)雜度;時 間:程序執(zhí)行時間。將表12中數(shù)據(jù)繪制成曲線圖,所得結(jié)果如圖9和圖10所示。
[037引
【主權(quán)項(xiàng)】
1. 一種基于概念格的信息提取方法,其特征是,包括如下步驟: a、 將原始信息背景(F,M,I)進(jìn)行預(yù)處理,得到凈化后的信息背景(Fo,Mo,Io),并將此凈 化后的信息背景轉(zhuǎn)化為一屬性拓?fù)鋱D的鄰接矩陣;此鄰接矩陣對應(yīng)屬性拓?fù)鋱DGo= (Vo (60)而(6〇)),其中,¥()(6())=1()而(6()) = {6(叉,7)4,#1(),且1,7擁有公共的對象}; b、 為屬性拓?fù)鋱DGo添加一節(jié)點(diǎn)屬性ri,得到一個新的屬性拓?fù)鋱DGo+h}; C、對新的屬性拓?fù)鋱DGo+ {η}的權(quán)值進(jìn)行凈化,即:在每一邊的權(quán)值W' (Xi,Xj)中去掉不 屬于η擁有的對象集中的對象;其中每一邊的權(quán)值為相鄰兩節(jié)點(diǎn)所擁有的公共對象集;凈化 后的權(quán)值用w(xi,Xj)表示,Xi,Xj EMo U {q},i,j = 1,2,…,I Mo I +1; d、 利用凈化后的屬性拓?fù)鋱D的權(quán)值之間的關(guān)系將各屬性進(jìn)行分層,得到分層圖,并提 取概念信息; e、 檢驗(yàn)所有概念信息是否齊全,若未齊全,繼續(xù)尋找概念信息,直到概念信息齊全; f、 刪除(F ο,Μ 0 U {η},I 〇)中所有概念內(nèi)涵中的η,得到(F ο,Μ ο,10)的全部概念信息,將步 驟a中凈化掉的屬性與對象重新恢復(fù)為(Fo,MQ,I())的信息,從而得到原始信息背景(F,M,I) 的全部概念信息。2. 根據(jù)權(quán)利要求1所述的基于概念格的信息提取方法,其特征是,步驟a中將原始信息 背景(F,M,I)進(jìn)行預(yù)處理,具體是:刪除原始信息背景中的全局屬性、全局對象、空屬性、空 對象;同時保留等價屬性中的一個,將其他的屬性進(jìn)行刪除;保留等價對象中的一個,將其 他的對象進(jìn)行刪除;最后得到凈化后的信息背景(Fo,Mo,I 0)。3. 根據(jù)權(quán)利要求1所述的基于概念格的信息提取方法,其特征是,步驟b中所添加的節(jié) 點(diǎn)屬性η滿足{η} = Mo或{?/}=0。4. 根據(jù)權(quán)利要求3所述的基于概念格的信息提取方法,其特征是,步驟b具體包括如下 步驟: 匕1、選取屬性11,且11滿足_!巾=0;^所擁有的對象集為?〇; b2、在屬性拓?fù)鋱DGo上添加屬性II作為一節(jié)點(diǎn),連接節(jié)點(diǎn)II與圖Go中各節(jié)點(diǎn),得|Mo|條邊, 且每邊權(quán)值為,(η,Xi),Xi ΕΜο,i = 1,2,…,I Mo I ;最終得到新的屬性拓?fù)鋱DGo+h},且Go+ {n} =G(V,E,W'),其中,V為節(jié)點(diǎn)集,V = M〇 U {q} ;E為邊集,dK.v,., Xj)^0, Χ?, XjeM〇u{^f, i, j=l, 2, ..., |M〇|+l}; b3、獲取信息背景(Fq,Mq U {q},In),其中 /,€ ~<( 獲取信息背景的屬1^11}山)的具體過程為: 對于任意的geF(),yeM()U{n}; 當(dāng)y eMo時,若gloy,則glny;即:若對象g在(Fo,Mo,Io)中擁有屬性y,則對象g在(Fo,Mo U h},In)中也擁有屬性y; 當(dāng)y=n時,有g(shù)lny成立。5. 根據(jù)權(quán)利要求1所述的基于概念格的信息提取方法,其特征是,步驟d具體包括如下 步驟: dl、定義分層圖的第一層Li Li={({n},TN(n),w(n))} 其中,Li為單點(diǎn)集;{n}為第一層的屬性集,TN(n)為屬性n的拓?fù)溧徲?,w(n)為屬性n所擁 有的對象集;({n},TN(n),w(n))為屬性η的關(guān)鍵元; d2、基于分層圖的第一層u,尋找分層圖的第二層l2 ; \Ζι !, 7:¥(λ·:/ ), η\η, Α':( ))| λ%e/(//)> ,/2 = 1,2..,,/, , Λ-??? Μ〇! | ; 其中,?(η)表示以η為中心所選擇的下一層屬性集合,?(η)滿足如下條件: /(/》={ I εΓΛτ(亦對仟意.ve(TW(?7)-{χ2/、丨 >,滿足 η切,χ2λ )落 7), 乂 = l,2.,.,r2, )表示以ri為中心所選擇的屬性%&的拓?fù)溧徲?,x2,: e /(/7)^(? )滿足如下條 件:并提取第二層的概念信息Cp2:d3、根據(jù)步驟dl~d2可得分層圖的第(i-Ι)層,i為整數(shù),且i>2; 假設(shè)分層圖的第(i_l)層L(inl)已經(jīng)獲得,即:根據(jù)分層圖的第(i-Ι)層L(inl)尋找分層圖的第i層L1;其中,巧表示第i層中第上個屬性集中的最后一個屬性; /(?Vuk)表示以為中心所選擇的下一層屬性集合,4VI,)滿足如下條件:)表示以為中心所選擇的%的拓?fù)溧徲颍? Ε/(·ν_1υ_))滿足如 下條件:并提取第i層的概念信息Cp1:d4、如果第(i-1)層中每一屬性集{符,_ \,_ ,…,_ 的最后一個屬性 的拓?fù)溧徲蚓鶠榭占瑒t該屬性的下一層屬性也均為空集,即1,=0,此時分層結(jié)束, 否則重復(fù)步驟d3直到分層結(jié)束; d5、分層結(jié)束后(F〇,M〇 U {η},Ιη)的所有概念信息為,_其中η〇為屬性分層的 總層數(shù)。6. 根據(jù)權(quán)利要求5所述的基于概念格的信息提取方法,其特征是,步驟d3中在根據(jù)分層 圖的第(i-Ι)層L(1〇尋找分層圖的第i層1^時,首先要以%似^為中心凈化步驟b中屬性拓 撲圖g〇+ {η}對應(yīng)的鄰接矩陣,即:將屬性拓?fù)鋱Dg〇+ {η}中的每一邊的權(quán)值V (xi,X」)與屬性 集{;/,x2,: x3/3,…,χ(Μ)"}共同擁有的對象集8作比較,若w'( Xi,Xj)中有不屬于B的對象, 則將此對象從W (Xl,&)中去掉,最后完成對屬性拓?fù)鋱DGo+W}的權(quán)值的凈化,得到以 i-iuu為中心凈化權(quán)值后的屬性拓?fù)鋱D及相應(yīng)的鄰接矩陣; 之后根據(jù)得到的以%,《為中心凈化權(quán)值后的屬性拓?fù)鋱D及相應(yīng)的鄰接矩陣,尋找以 為中心的下一層屬性集合/(·ν^,),并尋找中相應(yīng)屬性的拓?fù)溧徲颍? 最終尋找到分層圖的第1層1^,并提取到第i層的概念信息CPl。7. 根據(jù)權(quán)利要求5所述的基于概念格的信息提取方法,其特征是,步驟d3中在尋找分層 圖的第i層1^時,若第i層中的前(jfl)個屬性構(gòu)成的集合均與目前屬性集!小 χ(?-?υ',Μ, * -? }不同,則得到第i層中的第上個屬性集中最后一個屬性~的關(guān)鍵元為否則判定第i層中屬性々的關(guān)鍵元不存在; 如果關(guān)鍵元Li{ji}存在,則提取第i層中的第ji個概念&A:,...> Vuv,>,x",),I",氣,;,·Υ3Λ,.:.*, .Vi",μ,,λ>」); 如果關(guān)鍵元不存在,則無概念可提取; 最終得到第i層中所有的關(guān)鍵元:并提取第i層中所有的概念:8. 根據(jù)權(quán)利要求5所述的基于概念格的信息提取方法,其特征是,步驟e中,判斷概念信 息是否齊全具體是: 判斷步驟b中屬性拓?fù)鋱DGo+h}是否為加權(quán)無環(huán)圖,若是,則表明概念信息齊全,不需要 繼續(xù)尋找概念信息;若否,則再判斷屬性拓?fù)鋱DGo+h}是否為加權(quán)有環(huán)圖,且不含有三條邊 且各邊權(quán)值均相等的環(huán),若是,則表明概念信息齊全,不需要繼續(xù)尋找概念信息,若否,則表 明概念信息不齊全,需要繼續(xù)尋找概念信息。9. 根據(jù)權(quán)利要求8所述的基于概念格的信息提取方法,其特征是,步驟e中,當(dāng)概念信息 不齊全需要繼續(xù)尋找概念信息時,具體尋找過程如下: el、對根據(jù)步驟d3所得到的第三層中的任意兩個概念的對象集求交集,并將交集非空 的兩個概念組合為另一個不同的概念;具體如下: el. 1、依次取第三層中的每一概念Cp3{i},i = 1,2,. . .,η?3,以及該概念之后的每一概念 Cp3 {j}, i < j < m3 ; 61.2、若1;/丨「認(rèn);」>0.則組合為概念〇?。= 0{丨}川{兒¥{丨}價{川,否則不組合 概念; e2、重復(fù)步驟el,將第三層中任意兩對象集相交非空的概念,組合為新概念,從而得到 組合后的全部概念,記為 Cpci = {Cpij | Cpij= (X{i} nX{j},Y{i}UY{j}),i = l,2,...,m3,i<j《m3}; e3、去除Cpcl中的偽概念,具體如下: e3.1、依據(jù)對象集,將Cpu中的所有概念進(jìn)行分類,每一類概念具有相同的對象集; e 3 . 2、將每一類中所有概念的屬性進(jìn)行合并,對象集不變,組合為一個概念1其中Pk為第k類概念中所有概念的個數(shù),Ykq為第k類概念中第q個概念的 屬性集,Xk為第k類概念的共同對象集; e3.3、最后得概念集Cpdi={Cpdi{k} |k=l,…,pk}; e4、初步得到部分剩余概念Cpd,具體如下: 令Cpel = Cpdl-Cpq,其中Cpq為根據(jù)步驟(15得到的概念; e5、得到其余剩余概念;給定初始值i = 1,具體操作如下: e5.1、對Cpel中任意兩個概念進(jìn)行比較,若兩個概念的對象集交集非空,則將這兩個概 念組合為一個概念,組合規(guī)則按步驟el. 2進(jìn)行;最后得概念集CPc;(1+1); e5.2、依據(jù)步驟e3去除Cpc(i+1)中的偽概念,得到概念Cpd(i+1); e5.3、得到部分剩余概念 Cpe(iui) = Cpd(i+i)-Cpei; e5.4、令i = i+1,重復(fù)步驟e5.1到e5.3,直到任意兩個概念對象集交集為空,搜尋結(jié)束; 最后得到所有剩余概念為e6、最后去除Cpe中的偽概念:對于對象集相同的概念,保留屬性集最大的概念,其余去 掉; e7、到此為止,得到(Fo,Mo U {η},I〇)的全部概念信息Cp = Cpq U Cpe。10.根據(jù)權(quán)利要求2所述的基于概念格的信息提取方法,其特征是,步驟f具體是: π、刪除所有概念內(nèi)涵中的η;概念內(nèi)涵即指概念內(nèi)的屬性; f2、將凈化掉的每一全局屬性,重新恢復(fù)為概念內(nèi)涵中的元素; f3、將凈化掉的每一全局對象,重新恢復(fù)為概念外延中的元素;概念外延即指概念內(nèi)的 對象; f4、將凈化掉的每一空屬性,重新恢復(fù)為(0,M〇)的內(nèi)涵中的元素; f5、將凈化掉的每一空對象,重新恢復(fù)為(巧,0)的外延中的元素; f6、將等價屬性中凈化掉的屬性,重新恢復(fù)為概念內(nèi)涵中的元素; f 7、將等價對象中凈化掉的對象,重新恢復(fù)為概念外延中的元素。
【文檔編號】G06F17/30GK105824936SQ201610157420
【公開日】2016年8月3日
【申請日】2016年3月18日
【發(fā)明人】毛華, 劉祎超, 楊蘭珍, 王剛
【申請人】河北大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
隆子县| 双桥区| 新竹县| 新泰市| 宣恩县| 伊吾县| 平南县| 孝义市| 贡觉县| 河北省| 灵丘县| 满洲里市| 阿拉尔市| 虹口区| 潞城市| 岑巩县| 侯马市| 赫章县| 鸡泽县| 浦县| 清河县| 富裕县| 大丰市| 二连浩特市| 延吉市| 上林县| 青龙| 沁源县| 镶黄旗| 读书| 缙云县| 龙州县| 汝州市| 乳山市| 临漳县| 攀枝花市| 黄石市| 郸城县| 旺苍县| 镇宁| 藁城市|