欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁(yè)文本的無(wú)阻滯層次分類方法與裝置的制作方法

文檔序號(hào):6630469閱讀:181來(lái)源:國(guó)知局
專利名稱:一種網(wǎng)頁(yè)文本的無(wú)阻滯層次分類方法與裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于信息技術(shù)領(lǐng)域,涉及利用數(shù)據(jù)挖掘技術(shù)進(jìn)行網(wǎng)絡(luò)文本信息 處理的方法和裝置,特別是涉及一種基于粗糙集理論和證據(jù)推理理論的網(wǎng)頁(yè)文本的無(wú)阻滯 層次分類方法和裝置。
背景技術(shù)
隨著在行業(yè)內(nèi)部網(wǎng)絡(luò)或者因特網(wǎng)上的各種技術(shù)類、辦公類以及其他電 子化文檔的快速增長(zhǎng),對(duì)文檔的分類管理效率及性能提出了更高要求。一方面海量的文檔 導(dǎo)致單層目錄導(dǎo)航不再高效,需要更加科學(xué)的多層次目錄分類系統(tǒng)進(jìn)行文檔分類管理。另 一方面單純依靠手工對(duì)大量文檔進(jìn)行分類已經(jīng)顯得不切實(shí)際。所以,文本的自動(dòng)層次分類 技術(shù)的研究有很強(qiáng)的實(shí)際應(yīng)用意義。然而目前比較成熟的研究與應(yīng)用大多在文檔的單層目 錄分類上,文本多層次分類技術(shù)還處在初步探索階段,分類的準(zhǔn)確度和性能仍是需要解決 的關(guān)鍵問(wèn)題。目前探索的層次分類方法的解決方案可以分為兩種(1)自頂向下的方法(top-down level-based)現(xiàn)有的大部分層次分類方法都采 用這種模式,其特點(diǎn)是在類別樹(shù)的每一層都構(gòu)建一個(gè)或者多個(gè)分類器,每個(gè)分類器在所在 層像單層文本分類一樣工作。一個(gè)文本從根節(jié)點(diǎn)開(kāi)始,逐層向下分類,直至到達(dá)葉子節(jié)點(diǎn)。 這種方法具有明顯的優(yōu)點(diǎn)將大的分類問(wèn)題轉(zhuǎn)化為小的子問(wèn)題,能較好地降低時(shí)間和空間 復(fù)雜度。然而這種方法也有明顯的缺點(diǎn)如果一個(gè)文本被分入了錯(cuò)誤的父類,將不可能分入 正確的葉子類。一般把這種情況稱之為阻滯。(2)大爆炸方法(big-bang)這種方法在整個(gè)分類過(guò)程中只構(gòu)造一個(gè)分類器。并用 來(lái)對(duì)文本進(jìn)行分類。雖然克服了方法1所述的缺點(diǎn),但方法的時(shí)間空間開(kāi)銷一般比較大,不 適合在對(duì)時(shí)間要求較高的場(chǎng)合比如網(wǎng)絡(luò)上使用。在沒(méi)有一種方法能保證100%的正確率的前提下,盡可能提高分類準(zhǔn)確率就成了 分類算法追求的目標(biāo)。利用特征進(jìn)行分類的模式下,特征包含的信息是模糊的,不確定的。 比如“電腦” 一詞即可能出現(xiàn)在計(jì)算機(jī)類的文本中,也可能出現(xiàn)在生物科技類的文本,很難 確定一個(gè)特征詞只出現(xiàn)在一個(gè)文本類中,不出現(xiàn)在其他類中,這就是當(dāng)前的分類算法熱衷 于使用概率來(lái)描述特征的區(qū)分度的原因。對(duì)于一個(gè)文本分類問(wèn)題的解決方案,兩個(gè)環(huán)節(jié)是其關(guān)鍵一是文本特征的選?。?二是分類器的訓(xùn)練。對(duì)于文本特征的選取,有基于概率或統(tǒng)計(jì)的方法,比如TF或TF*IDF公 式,也有在此基礎(chǔ)上的基于互信息量和信息增益的方法,比如期望交叉熵、CHI統(tǒng)計(jì)量等。另 一種常用的方法就是基于粗糙(rough)集理論的屬性約簡(jiǎn),該方法利用上下近似等概念, 從大量數(shù)據(jù)中剔除冗余信息,求出大量數(shù)據(jù)中的最小不變核,也就是對(duì)分類決策最有用的 信息。在平面分類問(wèn)題中,分類器的訓(xùn)練有多種方法,常用的有KNN方法、支持向量機(jī)方法、 rough集方法等。網(wǎng)頁(yè)文本的分類作為搜索引擎的預(yù)處理或者網(wǎng)站的文本自動(dòng)分類管理具有很大 的意義。而這種情況下的文本分類有別于通常的文本分類,最顯著的特點(diǎn)就是對(duì)算法的時(shí) 間復(fù)雜度很敏感,通常為了適應(yīng)這個(gè)特點(diǎn)不得不犧牲一定程度的分類準(zhǔn)確率。

發(fā)明內(nèi)容
本發(fā)明的目的是提出一種新的網(wǎng)頁(yè)文本分類方法和裝置,即網(wǎng)頁(yè)文本的無(wú)阻滯層次分類方法和裝置。本發(fā)明所述網(wǎng)頁(yè)文本的無(wú)阻滯層次分類方法,包括基于訓(xùn)練文本TF向量的均值和方差以及rough集屬性約簡(jiǎn)的特征抽取方法;確定每個(gè)分類器的辨識(shí)框架和焦元,利用特征的權(quán)重構(gòu)造基本可信度分配函數(shù) (BPA);根據(jù)基本可信度分配函數(shù)和待分類網(wǎng)頁(yè)文本的特征權(quán)重合成待分類網(wǎng)頁(yè)文本在 類別樹(shù)的每個(gè)節(jié)點(diǎn)的信度分配;利用信度分配根據(jù)分類規(guī)則對(duì)待分類網(wǎng)頁(yè)文本進(jìn)行分類。具體地說(shuō),包括a)基于訓(xùn)練文本TF向量的均值和方差以及rough集屬性約簡(jiǎn)的特征抽取方法,主 要技術(shù)方案為首先利用類c中各子類的訓(xùn)練文本的詞的TF值的期望、類內(nèi)方差以及類間 方差從詞典中抽取指定數(shù)量的詞作為候選特征詞,然后利用rough集的屬性約簡(jiǎn)理論,通 過(guò)判斷候選特征詞作為條件屬性時(shí)對(duì)決策屬性的重要性來(lái)決定改候選特征詞是否作為當(dāng) 前分類器的特征;b)對(duì)于層次分類的每個(gè)分類器,確定其辨識(shí)框架為H={ c1,c2…,cn},確定其可
能的焦元集合為F={ c1,c2…,cn{ c1,c2…,cn}},其中{ c1,c2…,cn},為父節(jié)點(diǎn)c的η。個(gè)子節(jié) 點(diǎn);c)對(duì)于層次分類的每個(gè)分類器,將每個(gè)特征及其出現(xiàn)次數(shù)作為分類的一個(gè)證據(jù), 特征證據(jù)的基本可信度分配函數(shù)(BPA)為
權(quán)利要求
1.一種網(wǎng)頁(yè)文本的無(wú)阻滯層次分類方法,其特征在于,所述方法包括 基于訓(xùn)練文本TF向量的均值和方差以及rough集屬性約簡(jiǎn)的特征抽取方法;確定每個(gè)分類器的辨識(shí)框架和焦元,利用特征的權(quán)重構(gòu)造基本可信度分配函數(shù) (BPA);根據(jù)基本可信度分配函數(shù)和待分類網(wǎng)頁(yè)文本的特征權(quán)重合成待分類網(wǎng)頁(yè)文本在類別 樹(shù)的每個(gè)節(jié)點(diǎn)的信度分配;利用信度分配根據(jù)分類規(guī)則對(duì)待分類網(wǎng)頁(yè)文本進(jìn)行分類。
2.如權(quán)利要求1的方法,其特征在于,所述基于訓(xùn)練文本TF向量的均值和方差以及 rough集屬性約簡(jiǎn)的特征抽取方法包括利用類中各子類的訓(xùn)練文本的詞的TF值的期望、類內(nèi)方差以及類間方差從詞典中抽 取指定數(shù)量的詞作為候選特征詞;利用rough集的屬性約簡(jiǎn)理論,通過(guò)判斷候選特征詞作為條件屬性時(shí)對(duì)決策屬性的重 要度來(lái)決定改候選特征詞是否作為當(dāng)前分類器的特征。
3.如權(quán)利要求2所述的方法,其特征在于,所述利用類中各子類的訓(xùn)練文本的詞的TF 值的期望、類內(nèi)方差以及類間方差從詞典中抽取指定數(shù)量的詞作為候選特征詞包括如下步 驟步驟301 將類c的所有訓(xùn)練文本TF向量構(gòu)成的矩陣分塊為若干子矩陣,其中每個(gè)子 矩陣由類c的一個(gè)子類Ci的所有訓(xùn)練文本TF向量構(gòu)成的矩陣;步驟302:計(jì)算類c的子類Ci(i e {1,2,…,n。},其中η。為類c的子類的個(gè)數(shù))的 矩陣的列期望和列方差(特征TF類內(nèi)方差),得到的行向量分別記為EjPAw;步驟303 將所有的Ei組成一個(gè)矩陣Ε,即— ;將所有的/)尸組成一個(gè)矩陣D(I),即 Dw = (DW),…,Dff,計(jì)算E的列方差(特征TF類間方差),得到的行向量記為Dl ; 步驟304 對(duì)于矩陣E的各列的最大值,選擇Da)中對(duì)應(yīng)位置的元素,組成的行向量記為D2 ;步驟305 去掉類間方差幾乎為零(< le-8)的詞;選取類內(nèi)方差幾乎為零(< le-8) 的詞作為候選特征詞;選擇D1-D2中較大元素對(duì)應(yīng)的詞作為特征詞,按大小排在方差幾乎 為零的候選特征詞之后;共選擇、個(gè)候選特征詞,其集合記為!1 = ·}^,…, ^;所述利用rough集的屬性約簡(jiǎn)理論,通過(guò)判斷候選特征詞作為條件屬性時(shí)對(duì)決策屬性 的重要度來(lái)決定改候選特征詞是否作為當(dāng)前分類器的特征包含如下步驟 步驟306 設(shè)特征集合為R,賦初值R = Φ ;取T中的元素T1 :t = T1 ; 步驟307:如果SKU{t}(c) > SK(C),則轉(zhuǎn)入步驟308 ;否則,轉(zhuǎn)入步驟309 ;其中,SK(C) 表示條件屬性R對(duì)決策屬性c的重要性;步驟308 =R = R U {t},取T中的下一個(gè)元素賦給t,轉(zhuǎn)入步驟307 ; 步驟309 輸出特征集合R以及特征數(shù)t。。
4.如權(quán)利要求1的方法,其特征在于,所述確定每個(gè)分類器的辨識(shí)框架和焦元包括 辨識(shí)框架設(shè)定為焦元為可能的焦元集合為
5.如權(quán)利要求1的方法,其特征在于,所述根據(jù)基本可信度分配函數(shù)和待分類網(wǎng)頁(yè)文 本的特征權(quán)重合成待分類網(wǎng)頁(yè)文本在類別樹(shù)的每個(gè)節(jié)點(diǎn)的信度分配包括如下步驟 步驟401 將待分類網(wǎng)頁(yè)文本χ預(yù)處理成TF向量形式;步驟402:對(duì)于一個(gè)非葉子節(jié)點(diǎn)c,獲取當(dāng)前分類器的t。個(gè)特征
6.如權(quán)利要求1的方法,其特征在于,所述利用信度分配根據(jù)分類規(guī)則對(duì)待分類網(wǎng)頁(yè) 文本進(jìn)行分類包括如下步驟步驟501 設(shè)置類別樹(shù)的第L層為當(dāng)前層;步驟502 如果當(dāng)前層次為第一層,轉(zhuǎn)入步驟505 ;否則,轉(zhuǎn)入步驟503 ; 步驟503 獲取當(dāng)前層的所有節(jié)點(diǎn);按如下規(guī)則計(jì)算待分類網(wǎng)頁(yè)文本χ屬于當(dāng)前層次每 個(gè)節(jié)點(diǎn)c的概率P (c)fβ(4c為葉子節(jié)點(diǎn)、 i i 其中β (C)為待分類網(wǎng)頁(yè)文本X屬于類別樹(shù)節(jié)點(diǎn)C的可信度,ΣΡ“)為待分類網(wǎng)頁(yè)文 本χ屬于類別樹(shù)節(jié)點(diǎn)c的所有子類的可信度的和; 步驟504 當(dāng)前層次=當(dāng)前層次-1,轉(zhuǎn)入步驟502 ;步驟505 對(duì)待分類網(wǎng)頁(yè)文本χ從類別樹(shù)的根節(jié)點(diǎn)開(kāi)始自頂向下按照概率最大原則進(jìn)行分類,輸出分類結(jié)果。
7.一種實(shí)現(xiàn)權(quán)利要求1所述網(wǎng)頁(yè)文本的無(wú)阻滯層次分類方法的裝置,其特征在于,包 括如下依次串行連接的4個(gè)模塊文本預(yù)處理模塊Ul 從網(wǎng)絡(luò)上或者數(shù)據(jù)庫(kù)中獲取文本,并預(yù)處理成T F向量的形式; 類別樹(shù)生成模塊U2 利用從文本預(yù)處理模塊Ul獲取的訓(xùn)練文本通過(guò)層次聚類技術(shù)生 成分類過(guò)程中使用的類別樹(shù)以及類別名稱,同時(shí)對(duì)訓(xùn)練文本添加類標(biāo)號(hào);特征提取模塊U3 利用類別樹(shù)生成模塊U2生成的類別樹(shù)和帶類標(biāo)號(hào)的訓(xùn)練文本確定 每個(gè)分類器的辨識(shí)框架和焦元,抽取每個(gè)分類器的特征并生成對(duì)應(yīng)的基本可信度分配函數(shù) (BPA);分類與統(tǒng)計(jì)模塊U4:對(duì)于每個(gè)預(yù)處理后的待分類網(wǎng)頁(yè)文本,計(jì)算在每個(gè)分類器下的特 征證據(jù)的權(quán)重,利用證據(jù)推理算法合成證據(jù),從而得到待分類網(wǎng)頁(yè)文本在類別樹(shù)各節(jié)點(diǎn)的 可信度,再計(jì)算其屬于各類別的概率并分類,并統(tǒng)計(jì)分類精度。
8.如權(quán)利要求7所述的無(wú)阻滯層次分類裝置,其特征在于,所述文本預(yù)處理模塊Ul包括文本獲取單元U11,用于從網(wǎng)絡(luò)上或者數(shù)據(jù)庫(kù)中獲取文本;格式化單元U12,用于對(duì)文本獲取單元Ull獲取的文本格式化,格式化的結(jié)果包含文本 標(biāo)題和文本正文兩部分;分詞單元U13,用于對(duì)格式化單元U12中生成的格式化文本進(jìn)行分詞; 文本向量生成單元U14,用于對(duì)經(jīng)過(guò)分詞的文本標(biāo)題和文本正文合成并轉(zhuǎn)化成TF向量 形式。
9.如權(quán)利要求7所述的無(wú)阻滯層次分類裝置,其特征在于,所述類別樹(shù)生成模塊U2包括層次聚類單元U21,用于對(duì)文本預(yù)處理模塊Ul獲取的經(jīng)過(guò)預(yù)處理的訓(xùn)練文本進(jìn)行層次 聚類;類別樹(shù)及類別名稱生成單元U22,從層次聚類單元U21的層次聚類結(jié)果中生成或給定 類別名稱,同時(shí)生成類別樹(shù);文本類標(biāo)號(hào)添加單元U23,利用聚類結(jié)果對(duì)每個(gè)訓(xùn)練文本添加類標(biāo)號(hào)。
10.如權(quán)利要求7所述的無(wú)阻滯層次分類裝置,其特征在于,所述特征提取模塊U3包括辨識(shí)框架與焦元生成單元U31,生成當(dāng)前分類器的辨識(shí)框架與可能的焦元集合; 候選特征生成單元U32,利用訓(xùn)練文本的TF向量的期望、類內(nèi)方差和類間方差提取指 定數(shù)量的詞作為候選特征;基于rough集的特征抽取單元U33,利用候選特征對(duì)決策屬性(類別)的重要性從候選 特征中選取詞作為最終的分類特征;基本可信度分配函數(shù)生成單元U34,利用類文本TF均值生成每個(gè)特征條件下的焦元的 基本可信度分配函數(shù)。
11.如權(quán)利要求7所述的無(wú)阻滯層次分類裝置,其特征在于,所述分類與統(tǒng)計(jì)模塊U4包括特征權(quán)重生成單元U41,生成待分類網(wǎng)頁(yè)文本在當(dāng)前分類器下各特征證據(jù)的權(quán)重;證據(jù)合成單元U42,利用analytical evidential reasoning algorithm證據(jù)推理算法 進(jìn)行證據(jù)合成;概率計(jì)算單元U43,利用證據(jù)支持待分類網(wǎng)頁(yè)文本屬于類別樹(shù)各階段的可信度計(jì)算其 屬于類別樹(shù)各類別的概率;分類單元U44,根據(jù)概率計(jì)算單元U43生成的待分類網(wǎng)頁(yè)文本屬于類別樹(shù)各類別的概 率自頂向下根據(jù)概率最大原則進(jìn)行層次分類;分類精度統(tǒng)計(jì)單元U45,通過(guò)統(tǒng)計(jì)迄今為止的所有分類的正誤情況計(jì)算分類算法的精度。
全文摘要
本發(fā)明屬于信息技術(shù)領(lǐng)域,涉及網(wǎng)頁(yè)文本的無(wú)阻滯層次分類方法和裝置。包括基于訓(xùn)練文本TF向量的均值和方差以及rough集屬性約簡(jiǎn)的特征抽取方法;確定每個(gè)分類器的辨識(shí)框架和焦元,利用特征的權(quán)重構(gòu)造基本可信度分配函數(shù)(BPA);根據(jù)基本可信度分配函數(shù)和待分類網(wǎng)頁(yè)文本的特征權(quán)重合成待分類網(wǎng)頁(yè)文本在類別樹(shù)的每個(gè)節(jié)點(diǎn)的信度分配;利用信度分配根據(jù)分類規(guī)則對(duì)待分類網(wǎng)頁(yè)文本進(jìn)行分類。本發(fā)明還公開(kāi)實(shí)現(xiàn)方法的裝置。本發(fā)明完全可以應(yīng)用在實(shí)時(shí)系統(tǒng)上或者其他對(duì)時(shí)間要求比較高的場(chǎng)合,例如網(wǎng)絡(luò)上;可以用于網(wǎng)站特別是大規(guī)模網(wǎng)站的文本自動(dòng)分類管理,可以代替人力進(jìn)行文本的層次分類;還可以用于知識(shí)管理系統(tǒng)中的帶標(biāo)題文本的分類管理,高效快速。
文檔編號(hào)G06F17/30GK102004796SQ20101060583
公開(kāi)日2011年4月6日 申請(qǐng)日期2010年12月24日 優(yōu)先權(quán)日2010年12月24日
發(fā)明者沈玲玲, 王海, 王艷軍, 錢鋼, 錢鐵 申請(qǐng)人:錢鋼
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
徐汇区| 大庆市| 延吉市| 金山区| 纳雍县| 诏安县| 云浮市| 精河县| 江西省| 盐源县| 彩票| 宁乡县| 会昌县| 五家渠市| 连云港市| 鄄城县| 香河县| 泸西县| 文昌市| 兴安县| 庐江县| 楚雄市| 方山县| 铁岭县| 磐安县| 古蔺县| 安西县| 英超| 丰镇市| 和田市| 泸西县| 泰和县| 延安市| 渝北区| 永修县| 纳雍县| 远安县| 易门县| 乃东县| 武夷山市| 徐闻县|