一種基于信息密度的數(shù)據(jù)分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于信息密度的數(shù)據(jù)分類方法,屬于數(shù)據(jù)分類與檢索領(lǐng)域。
【背景技術(shù)】
[0002] 我們生活在一個信息時代,隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,各種數(shù)據(jù)信息不斷涌現(xiàn),數(shù) 字圖書館、遠程教育、視頻點播、數(shù)字視頻廣播、交互式電視等都產(chǎn)生和使用了大量的數(shù)據(jù) 文件。即使我們足不出戶,我們接觸到的數(shù)據(jù)信息也在海量增長,因此,我們感興趣的數(shù)據(jù) 信息也隨之增加了。
[0003] 新聞媒體,互聯(lián)網(wǎng)每天在新增大量的信息,而信息的分類方式日漸多樣化,但如今 多種類型的媒體數(shù)據(jù)文件混合并存,媒體數(shù)據(jù)文件組織結(jié)構(gòu)復(fù)雜,不同類型的媒體數(shù)據(jù)文 件從不同側(cè)面可以表達同一語義,分類時需要根據(jù)數(shù)據(jù)文件之間存在的各種聯(lián)系,對數(shù)據(jù) 文件進行相關(guān)內(nèi)容甚至根據(jù)目標(biāo)內(nèi)容的統(tǒng)一分類變得日漸需要。因此,為了幫助使用者高 效率地從感興趣的已有的數(shù)據(jù)文件中篩選出目標(biāo)數(shù)據(jù)文件,如何跨越數(shù)據(jù)文件之間的界 限,如何根據(jù)用戶需求(關(guān)鍵詞)提取目標(biāo)數(shù)據(jù)進行分類,成為目前數(shù)據(jù)分類所面臨的挑戰(zhàn)。
[0004] 為了更貼近生活中的不同需求,使得使用者能夠比較方便地檢索到符合其需求的 數(shù)據(jù)文件,需要一種新的數(shù)據(jù)文件分類方式,但同時,又不能犧牲分類的精度,即需要找到 一種合理的數(shù)據(jù)文件分類方式,在滿足了不同使用者的不同需求的同時,仍然要保證較為 精準(zhǔn)的分類結(jié)果。
【發(fā)明內(nèi)容】
[0005] 針對上述問題,本發(fā)明提出一種基于信息密度的數(shù)據(jù)分類方法,即通過計算數(shù)據(jù) 文件與關(guān)鍵詞的信息密度即可將數(shù)據(jù)文件進行目標(biāo)分類。
[0006] 本發(fā)明提出了一種基于信息密度的數(shù)據(jù)分類方法。首先根據(jù)相關(guān)內(nèi)容將初級 目標(biāo)數(shù)據(jù)文件中的數(shù)據(jù)文件進行分類,然后計算各類型數(shù)據(jù)文件與關(guān)鍵詞的信息密度
【主權(quán)項】
1. 一種基于信息密度的數(shù)據(jù)分類方法,其特征在于,首先根據(jù)相關(guān)內(nèi)容將初級目 標(biāo)數(shù)據(jù)文件中的數(shù)據(jù)文件進行分類,然后計算各類型數(shù)據(jù)文件與關(guān)鍵詞1的信息密度 m Jtdass 其次檢索每一類型數(shù)據(jù)中每個文件的關(guān)鍵詞,獲得被檢索的元文件Jfi 及其從屬類'idsss Λ計算并判斷相對信息密度是否大于或等于閾值 ,是則將該元文件Jri放入次級目標(biāo)數(shù)據(jù)文件中,否則計算和類信息 密度J^idass 并判斷f^idass IIjJ是否大于或等于閾值是則將該元文件Jfi 放入次級目標(biāo)數(shù)據(jù)文件中,否則放入非目標(biāo)數(shù)據(jù)文件中,所述方法至少還包括以下步驟: 步驟一:在初級目標(biāo)數(shù)據(jù)文件中輸入數(shù)據(jù)文件,輸入關(guān)鍵詞> ?λ閾值 步驟二:根據(jù)輸入的數(shù)據(jù)文件的相關(guān)內(nèi)容對初級目標(biāo)數(shù)據(jù)文件進行分類,可將數(shù)據(jù)文 件分為i類型數(shù)據(jù)、Λ類型數(shù)據(jù)、……、#類型數(shù)據(jù); 步驟三:計算各類型數(shù)據(jù)i與關(guān)鍵詞々的信息密度JtcJass 2',七)--關(guān)鍵詞Jfe 在』類型數(shù)據(jù)中的信息密度為Mdass i, IJ,關(guān)鍵詞Iffl在類型數(shù)據(jù)中的信息密度為 Eiclass Bt km),......,關(guān)鍵詞1在#類型數(shù)據(jù)中的信息密度為Jtdsss 步驟四:檢索每一類型數(shù)據(jù)中每個文件的關(guān)鍵詞i^,獲得被檢索的元文件 f1# U,....,I1 ,并獲得其從屬類A.fcisss1 ih 步驟五:計算并判斷相對信息密度fjdass i, I8)是否大于或等于閾值《(〇 < A < i); 是則將元文件Jri放入次級目標(biāo)數(shù)據(jù)文件中;否則轉(zhuǎn)步驟六; 步驟六:計算元文件Jr/斤屬的類數(shù)&繼? fciass ; 然后計算并判斷類信息密度1#1/355 ij、)是否大于或等于閾值&^ < 1); 是則將該元文件Jri放入次級目標(biāo)數(shù)據(jù)文件中;否則放入非目標(biāo)數(shù)據(jù)文件中。
2. 根據(jù)權(quán)利要求1所述的一種基于信息密度的數(shù)據(jù)分類方法,其特征在于,步驟一中 對輸入關(guān)鍵詞的處理,至少還包括: M 預(yù)先設(shè)置關(guān)鍵詞I的"條件":當(dāng)輸入關(guān)鍵詞1"時,在數(shù)據(jù)資源匹配系統(tǒng)中對各種 靨 M 語言表示的數(shù)據(jù)文件進行語言檢測感知匹配,并標(biāo)記和關(guān)鍵詞^意思相同或相似的"特 征" 一一即預(yù)先設(shè)定關(guān)鍵詞!"檢索步驟,將一個或多個與關(guān)鍵詞^相應(yīng)的"特征"信息作 M M 標(biāo)記條件,利用"特征"之間的相互關(guān)聯(lián)進行標(biāo)記、顯示,當(dāng)輸入關(guān)鍵詞時,標(biāo)記和關(guān)鍵詞 爾 !"意思相同或相似的"特征"。
3. 根據(jù)權(quán)利要求1所述的一種基于信息密度的數(shù)據(jù)分類方法,其特征在于,步驟二中 根據(jù)輸入的數(shù)據(jù)文件的相關(guān)內(nèi)容對輸入的數(shù)據(jù)文件進行分類,可將數(shù)據(jù)文件分為i類型數(shù) 據(jù)、Λ類型數(shù)據(jù)、……、#類型數(shù)據(jù),至少還包括以下內(nèi)容: 1)根據(jù)輸入的數(shù)據(jù)文件的屬性(文字、圖像、視頻、音頻……)感知將其分為JT類; 2) 對各數(shù)據(jù)文件進行數(shù)據(jù)資源匹配檢索,根據(jù)各數(shù)據(jù)文件的屬性感知匹配"特征"; 3) 根據(jù)"特征"的相關(guān)內(nèi)容進行分類,共形成#類型數(shù)據(jù)。
4. 根據(jù)權(quán)利要求1所述的一種基于信息密度的數(shù)據(jù)分類方法,其特征在于,步驟三中 計算第i類型數(shù)據(jù)與關(guān)鍵詞1的信息密度Jtdass i, Ie),至少還包括以下內(nèi)容: 1) 計算第i類型數(shù)據(jù)的大小6)及所有輸入數(shù)據(jù)文件的大小#; 2) 計算關(guān)鍵詞Je、和關(guān)鍵詞意思相同或相似的"特征"在第i類型數(shù)據(jù)出現(xiàn)的次數(shù) m m mM. 及其在所有輸入數(shù)據(jù)文件中出現(xiàn)的次數(shù)P ; 3) 計算第i類型數(shù)據(jù)與關(guān)鍵詞Is的信息密度 Eiclass If Jra) = / νθ, Jrja為提取次級目標(biāo)數(shù)據(jù)文件的一個或一類信息。
5. 根據(jù)權(quán)利要求1至4所述的一種基于信息密度的數(shù)據(jù)分類方法,其特征在于,還包括 數(shù)據(jù)資源匹配系統(tǒng),不僅是對相關(guān)內(nèi)容、關(guān)鍵詞、與關(guān)鍵詞相應(yīng)的字段信息的匹配顯示,還 有對各種語言表示的數(shù)據(jù)文件進行語言檢測感知匹配。
6. 根據(jù)權(quán)利要求1所述的一種基于信息密度的數(shù)據(jù)分類方法,其特征在于,步驟五中 相對信息密度的計算,至少還包括: Ejffhss I, kj = Eidass i, kj / ^ i Eiclms i, kj ; 其中』S 為元文件f/斤屬的每一個從屬類與^的信息密度。
7. 根據(jù)權(quán)利要求1所述的一種基于信息密度的數(shù)據(jù)分類方法,其特征在于,步驟六中 類信息密度f/ciass Jf5Ie)的計算,至少還包括: Ep(class it lw) = Count Ci j max Count C-; 心1111^表示每個元文件1/斤屬的類數(shù),且是&而|{^|*55別的元素。
8. 根據(jù)權(quán)利要求1所述的一種基于信息密度的數(shù)據(jù)分類方法,其特征在于,次級目標(biāo) 數(shù)據(jù)文件和非目標(biāo)數(shù)據(jù)文件中的數(shù)據(jù)文件分別按相對信息密度或類信息密度大小進行排 序,如果信息密度或類信息密度大小相等,則按相對信息密度優(yōu)于類信息密度的規(guī)則排序。
9. 根據(jù)權(quán)利要求1、2、4、6或7所述的一種基于信息密度的數(shù)據(jù)分類方法,其特征在 于,Ijw中忍的取值,至少還包括: 當(dāng)= 1時,即只有1個關(guān)鍵詞I時,則從步驟一至步驟六執(zhí)行1次即結(jié)束目標(biāo)數(shù)據(jù)文 件分類; 當(dāng)苽襄1時,即有想個關(guān)鍵詞是第游個關(guān)鍵詞)時,則從步驟一至步驟六在次級目 標(biāo)數(shù)據(jù)文件中對每個關(guān)鍵詞循環(huán)次即結(jié)束目標(biāo)數(shù)據(jù)文件分類。
10. 根據(jù)權(quán)利要求9所述的一種基于信息密度的數(shù)據(jù)分類方法,其特征在于,當(dāng)Jff ? 1 時,即有Ii個關(guān)鍵詞時,Ji個關(guān)鍵詞是一次性輸入的,即輸入關(guān)鍵詞集合ITWpjsI然后系統(tǒng)根 據(jù)關(guān)鍵詞的數(shù)目逐次分配關(guān)鍵詞。
【專利摘要】針對現(xiàn)有技術(shù)中缺乏對已有的數(shù)據(jù)文件進行分類提取目標(biāo)文件的現(xiàn)象,本發(fā)明提出了一種基于信息密度的數(shù)據(jù)分類方法。首先根據(jù)相關(guān)內(nèi)容將初級目標(biāo)數(shù)據(jù)文件中的數(shù)據(jù)文件進行分類,然后計算各類型數(shù)據(jù)文件與關(guān)鍵詞的信息密度,其次檢索每一類型數(shù)據(jù)中每個文件的關(guān)鍵詞,獲得被檢索的元文件及其從屬類,計算并判斷相對信息密度是否大于或等于閾值,是則將該元文件放入次級目標(biāo)數(shù)據(jù)文件中,否則計算和類信息密度,并判斷是否大于或等于閾值,是則將該元文件放入次級目標(biāo)數(shù)據(jù)文件中,否則放入非目標(biāo)數(shù)據(jù)文件中。本發(fā)明通過數(shù)據(jù)文件與關(guān)鍵詞的信息密度計算即可將數(shù)據(jù)文件進行目標(biāo)分類,提高了分類精度。
【IPC分類】G06F17-30, G06F17-27
【公開號】CN104765726
【申請?zhí)枴緾N201510203823
【發(fā)明人】李哲濤, 楊柳, 關(guān)屋大雄, 崔榮埈, 裴廷睿, 吳相潤
【申請人】湘潭大學(xué)
【公開日】2015年7月8日
【申請日】2015年4月27日