本發(fā)明涉及數(shù)據(jù)分析
技術(shù)領(lǐng)域:
,特別涉及一種文檔分類方法及裝置。
背景技術(shù):
:隨著時代的發(fā)展科技的進步,人們生活水平的不斷提高,互聯(lián)網(wǎng)使信息采集與傳播的速度和規(guī)模達到空前水平,但與之而來的問題是,迅速而準確地獲取自己最需要的信息變得日益困難。特別是信息管理人員,常常需要在海量雜亂的信息里,對非本專業(yè)的文章進行歸類整理。由于缺乏足夠的專業(yè)知識,在文章分類過程中難免效率低下,出錯率高。同時,隨著互聯(lián)網(wǎng)的日益普及,數(shù)字信息以pb量級不斷膨脹,靠人工來進行分類幾乎已成為不可能完成的任務,進而文檔分類方法孕育而生?,F(xiàn)有的文檔分類方法通過預先建立好的模型數(shù)據(jù),以使對文檔進行是否歸類的判斷?,F(xiàn)有的文檔分類方法只能對單一領(lǐng)域的文檔進行分類,進而導致對不同領(lǐng)域的文檔進行分類時必須建立多個模型數(shù)據(jù),加大了人員的工作量且靈活性低,且現(xiàn)有的文檔分類方法由于采用模型數(shù)據(jù)的方法進行歸類的判斷,使得分類結(jié)果精準度低且分類效率低下。技術(shù)實現(xiàn)要素:基于此,本發(fā)明實施例的目在于提供一種分類效率高的文檔分類方法及裝置。一種文檔分類方法,所述方法包括:獲取預設篇數(shù)的樣本文檔,分別對所述樣本文檔中的樣本詞匯進行權(quán)重計算,以得到所述樣本詞匯對應的高頻權(quán)重;獲取目標文檔,對所述目標文檔中的目標詞匯進行所述權(quán)重計算,以得到所述目標詞匯對應的目標權(quán)重;將所述目標權(quán)重與所述高頻權(quán)重進行對比計算,以得到所述目標文檔的全文權(quán)重,并判斷所述全文權(quán)重是否大于預設的權(quán)重閾值,若是則將所述目標文檔歸類至所述樣本文檔對應的文檔領(lǐng)域。上述文檔分類方法,通過分別對所述樣本文檔和所述目標文檔進行所述權(quán)重計算的設計,以得到所述高頻權(quán)重和所述目標權(quán)重,通過所述對比計算的設計,以得到所述全文權(quán)重,并通過判斷所述全文權(quán)重是否大于所述預設的權(quán)重閾值的設計,以判斷是否將所述目標文檔進行歸類,上述方法無需進行數(shù)據(jù)模型的建立且可對所有領(lǐng)域的文檔進行歸類,通過簡單的公式計算以判斷是否將所述目標文檔歸類至所述樣本文檔對應的文檔領(lǐng)域,且分類效率高、速率快。進一步地,所述將所述目標權(quán)重與所述高頻權(quán)重進行對比計算,以得到所述目標文檔的全文權(quán)重的步驟包括:對所述高頻權(quán)重進行降緯計算,以得到所述高頻權(quán)重對應的最終權(quán)重;將所述目標權(quán)重與所述最終權(quán)重進行所述對比計算,以得到所述目標文檔的所述全文權(quán)重。進一步地,所述權(quán)重計算采用的公式為:w(i)=k×flag(i)+tf(i);上述公式中,k的值取常數(shù),tf的值為當前詞匯的詞頻,即所述當前詞匯在當前文檔中出現(xiàn)的次數(shù),當所述當前詞匯為所述樣本詞匯時,w的值為所述高頻權(quán)重,當所述當前詞匯為所述目標詞匯時,w的值為所述目標權(quán)重。進一步地,flag的取值步驟包括:獲取所述當前詞匯,查詢本地存儲的關(guān)鍵詞表并判斷所述當前詞匯是否是存在所述關(guān)鍵詞表中;若是,則將flag的值取為1;若否,則將flag的值取為0。進一步地,所述降緯計算采用的公式為:上述公式中,r的值為當前樣本詞匯在總所述樣本詞匯中出現(xiàn)的次數(shù),k的值取常數(shù),tf的值為所述當前樣本詞匯的詞頻,即所述當前樣本詞匯在所述樣本文檔中出現(xiàn)的次數(shù),的值為所述當前樣本詞匯在當前樣本文檔中的引用次數(shù)占總所述樣本文檔中引用次數(shù)的比值,w的值為所述最終權(quán)重。進一步地,所述對比公式為:上述公式中,wt的值為所述最終權(quán)重,wc的值為所述最終權(quán)重對應的所述樣本詞匯在所述目標文檔中對應的所述目標詞匯的所述目標權(quán)重。一種文檔分類裝置,包括:第一計算模塊,用于獲取預設篇數(shù)的樣本文檔,分別對所述樣本文檔中的樣本詞匯進行權(quán)重計算,以得到所述樣本詞匯對應的高頻權(quán)重;第二計算模塊,用于獲取目標文檔,對所述目標文檔中的目標詞匯進行所述權(quán)重公式計算,以得到所述目標詞匯對應的目標權(quán)重;第三計算模塊,包括第一子計算模塊,用于根據(jù)所述第一計算模塊和所述第二計算模塊的計算結(jié)果,將所述目標權(quán)重與所述高頻權(quán)重進行對比計算,以得到所述目標文檔的全文權(quán)重;第四計算模塊,用于根據(jù)所述第三計算模塊的計算結(jié)果,判斷所述全文權(quán)重是否大于預設的權(quán)重閾值,若是則將所述目標文檔歸類至所述樣本文檔對應的文檔領(lǐng)域。上述文檔分類裝置,通過所述第一計算模塊和所述第二計算模塊的設計,可分別對所述樣本文檔和所述目標文檔進行所述權(quán)重計算,通過所述第三計算模塊的設計,可對所述目標權(quán)重和所述高頻權(quán)重進行所述對比計算,以得到所述全文權(quán)重,并通過閾值判斷設計以判斷是否將所述目標文檔歸類,所述文檔分類裝置可以對不同
技術(shù)領(lǐng)域:
的文檔進行分類靈活性高無需建立多個數(shù)據(jù)模型,且通過所述權(quán)重計算和所述對比計算的設計,使得所述文檔分類裝置的分類效率高且精度準。進一步地,所述第三計算模塊還包括:第二子計算模塊,用于對所述高頻權(quán)重進行降緯計算,以得到所述樣本文檔對應的最終權(quán)重;第三子計算模塊,用于根據(jù)所述第二子計算模塊的計算結(jié)果,將所述目標權(quán)重與所述最終權(quán)重進行所述對比計算,以得到所述目標文檔的所述全文權(quán)重。進一步地,所述第一計算模塊和所述第二計算模塊均包括:第一運行模塊,用于運行權(quán)重公式,所述權(quán)重公式為:w(i)=k×flag(i)+tf(i)上述公式中,k的值取常數(shù),tf的值為當前詞匯的詞頻,即所述當前詞匯在當前文檔中出現(xiàn)的次數(shù),當所述當前詞匯為所述樣本詞匯時,w的值為所述高頻權(quán)重,當所述當前詞匯為所述目標詞匯時,w的值為所述目標權(quán)重;查詢模塊,用于獲取所述當前詞匯,查詢本地存儲的關(guān)鍵詞表并判斷所述當前詞匯是否是存在所述關(guān)鍵詞表中;若是,則將flag的值取為1;若否,則將flag的值取為0。進一步地,所述第二子計算模塊包括:第二運行模塊,用于運行降緯公式,所述降緯公式為:上述公式中,r的值為當前樣本詞匯在總所述樣本詞匯中出現(xiàn)的次數(shù),k的值取常數(shù),tf的值為所述當前樣本詞匯的詞頻,即所述當前樣本詞匯在所述樣本文檔中出現(xiàn)的次數(shù),的值為所述當前樣本詞匯在當前樣本文檔中的引用次數(shù)占總所述樣本文檔中引用次數(shù)的比值,w的值為所述最終權(quán)重。附圖說明圖1為本發(fā)明第一實施例提供的文檔分類方法的流程圖;圖2為本發(fā)明第二實施例提供的文檔分類方法的流程圖;圖3為本發(fā)明第三實施例提供的文檔分類裝置的結(jié)構(gòu)示意圖;圖4為本發(fā)明第四實施例提供的文檔分類裝置的結(jié)構(gòu)示意圖;主要元素符號說明文檔分類裝置100,100a第一計算模塊10第一運行模塊11查詢模塊12第二計算模塊20第三計算模塊30,30a第一子計算模塊31第三運行模塊311第二子計算模塊32第二運行模塊321第三子計算模塊33第四計算模塊40獲取模塊50具體實施方式為了便于更好地理解本發(fā)明,下面將結(jié)合相關(guān)實施例附圖對本發(fā)明進行進一步地解釋。附圖中給出了本發(fā)明的實施例,但本發(fā)明并不僅限于上述的優(yōu)選實施例。相反,提供這些實施例的目的是為了使本發(fā)明的公開面更加得充分。請參閱圖1,為本發(fā)明第一實施例提供的文檔分類方法的流程圖,包括步驟s10至s30。步驟s10,獲取預設篇數(shù)的樣本文檔,分別對所述樣本文檔中的樣本詞匯進行權(quán)重計算,并分別獲取所述樣本文檔中前第一預設位數(shù)的高頻權(quán)重及所述高頻權(quán)重對應的所述樣本詞匯;其中,所述樣本文檔的所述預設篇數(shù)為10篇,通過對所述樣本詞匯進行所述權(quán)重計算,以得到了所述高頻權(quán)重及所述高頻權(quán)重對應的所述樣本詞匯,所述前第一預設位數(shù)的數(shù)量為10位,即分別獲取所述高頻權(quán)重的前10位和前10位所述高頻權(quán)重對應的所述樣本詞匯;步驟s20,獲取目標文檔,對所述目標文檔中的目標詞匯進行所述權(quán)重計算,并獲取所述目標文檔中前第二預設位數(shù)的目標權(quán)重及所述目標權(quán)重對應的所述目標詞匯;其中,通過對所述目標詞匯進行所述權(quán)重計算,以得到了所述目標權(quán)重,所述前第二預設位數(shù)為10位,即分別獲取所述目標權(quán)重的前10位和前10位所述高頻權(quán)重對應的所述目標詞匯;步驟s30,將所述目標權(quán)重與所述高頻權(quán)重進行對比計算,以得到所述目標文檔的全文權(quán)重,并判斷所述全文權(quán)重是否大于預設的權(quán)重閾值,若是則將所述目標文檔歸類至所述樣本文檔對應的文檔領(lǐng)域。其中,通過所述對比計算的設計,以得到了所述全文權(quán)重,并通過判斷所述全文權(quán)重與所述預設的權(quán)重閾值的大小的設計,以使判斷是否要將所述目標文檔歸類,本實施例中文檔領(lǐng)域可為任意的
技術(shù)領(lǐng)域:
,例如醫(yī)學文檔領(lǐng)域、電子文檔領(lǐng)域和文學文檔領(lǐng)域等。本實施例的文檔分類方法,通過分別對所述樣本文檔和所述目標文檔進行所述權(quán)重計算的設計,以得到所述高頻權(quán)重和所述目標權(quán)重,通過所述對比計算的設計,以得到所述全文權(quán)重,并通過判斷所述全文權(quán)重是否大于所述預設的權(quán)重閾值的設計,以判斷是否將所述目標文檔進行歸類,上述方法無需進行數(shù)據(jù)模型的建立且可對所有領(lǐng)域的文檔進行歸類,通過簡單的公式計算以判斷是否將所述目標文檔歸類至所述樣本文檔對應的文檔領(lǐng)域,且分類效率高、速率快。請參閱圖2,為本發(fā)明第二實施例提供的文檔分類方法的流程圖,所述方法包括步驟s11至s41。步驟s11,獲取預設篇數(shù)的樣本文檔,分別對所述樣本文檔中的樣本詞匯進行權(quán)重計算,并分別獲取所述樣本文檔中前第一預設位數(shù)的高頻權(quán)重及所述高頻權(quán)重對應的所述樣本詞匯;其中,所述樣本文檔的所述預設篇數(shù)為10篇,通過對所述樣本詞匯進行所述權(quán)重計算,以得到了所述高頻權(quán)重,所述前第一預設位數(shù)的數(shù)量為10位,即分別獲取所述高頻權(quán)重的前10位和前10位所述高頻權(quán)重對應的所述樣本詞匯;步驟s21,分別對所述高頻權(quán)重對應的所述樣本詞匯進行降緯計算,以得到所述高頻權(quán)重對應的所述樣本詞匯的最終權(quán)重,獲取前第三預設位數(shù)的所述最終權(quán)重及所述最終權(quán)重對應的所述樣本詞匯;其中,所述前第三預設位數(shù)為10位,即獲取前10位的所述最終權(quán)重和所述最終權(quán)重對應的所述樣本詞匯,由于所述樣本文檔的數(shù)量為10篇且每篇所述樣本文檔中所述高頻權(quán)重的數(shù)量為10個,進而當所述高頻權(quán)重對應的所述樣本詞匯不重復時,總所述樣本詞匯的數(shù)量為100個,導致分類過程會較為復雜,進而本實施例中通過所述降緯計算的設計,以使將總所述樣本詞匯的數(shù)量降為10個,提高了所述文檔分類方法的分類效率和分類的精準度;步驟s31,獲取目標文檔,對所述目標文檔中的目標詞匯進行所述權(quán)重計算,并獲取所述目標文檔中前第二預設位數(shù)的目標權(quán)重及所述目標權(quán)重對應的所述目標詞匯;其中,通過對所述目標詞匯進行所述權(quán)重計算,以得到了所述目標權(quán)重,所述前第二預設位數(shù)為10位,即分別獲取所述目標權(quán)重的前10位和前10位所述高頻權(quán)重對應的所述目標詞匯;步驟s41,將將所述目標權(quán)重與所述最終權(quán)重進行所述對比計算,以得到所述目標文檔的所述全文權(quán)重,并判斷所述全文權(quán)重是否大于所述預設的權(quán)重閾值,若是則將所述目標文檔歸類至所述樣本文檔對應的文檔領(lǐng)域;其中,通過將所述目標權(quán)重和所述最終權(quán)重進行所述對比計算,以得到了所述全文權(quán)重,并通過判斷所述全文權(quán)重與所述預設的權(quán)重閾值的大小的設計,以使判斷是否要將所述目標文檔歸類。所述權(quán)重計算采用的公式為:w(i)=k×flag(i)+tf(i);上述公式中,k為關(guān)鍵字權(quán)重增益,k的值取常數(shù),本實施例中k的值取20,tf的值為當前詞匯的詞頻,即所述當前詞匯在當前文檔中出現(xiàn)的次數(shù),當所述當前詞匯為所述樣本詞匯時,w的值為所述高頻權(quán)重,當所述當前詞匯為所述目標詞匯時,w的值為所述目標權(quán)重。本實施例中,flag的取值步驟包括:獲取所述當前詞匯,查詢本地存儲的關(guān)鍵詞表并判斷所述當前詞匯是否是存在所述關(guān)鍵詞表中;若是,則將flag的值取為1,若否,則將flag的值取為0,通過flag的取值設計當所述當前詞匯為關(guān)鍵詞時提高了所述當前詞匯對應的權(quán)重。所述降緯計算采用的公式為:上述公式中,r的值為當前樣本詞匯在總所述樣本詞匯中出現(xiàn)的次數(shù),當100個所述樣本詞匯都不相同時,r的值取1,可以理解的當所述當前樣本詞匯中有相同的詞匯時,r的值為所述當前樣本詞匯的次數(shù),k的值取常數(shù),tf的值為所述當前樣本詞匯的詞頻,即所述當前樣本詞匯在所述樣本文檔中出現(xiàn)的次數(shù),的值為所述當前樣本詞匯在當前樣本文檔中的引用次數(shù)占總所述樣本文檔中引用次數(shù)的比值,w的值為所述最終權(quán)重。所述對比公式為:上述公式中,wt的值為所述最終權(quán)重,wc的值為所述最終權(quán)重對應的所述樣本詞匯在所述目標文檔中對應的所述目標詞匯的所述目標權(quán)重。本實施例的文檔分類方法,通過分別對所述樣本文檔和所述目標文檔進行所述權(quán)重計算的設計,以得到所述高頻權(quán)重和所述目標權(quán)重,通過所述對比計算的設計,以得到所述全文權(quán)重,并通過判斷所述全文權(quán)重是否大于所述預設的權(quán)重閾值的設計,以判斷是否將所述目標文檔進行歸類,上述方法無需進行數(shù)據(jù)模型的建立且可對所有領(lǐng)域的文檔進行歸類,通過簡單的公式計算以判斷是否將所述目標文檔歸類至所述樣本文檔對應的文檔領(lǐng)域,且分類效率高、速率快。請參閱圖3,為本發(fā)明第三實施例提供的文檔分類裝置100的結(jié)構(gòu)示意圖,所述文檔分類裝置100包括:第一計算模塊10,用于獲取預設篇數(shù)的樣本文檔,分別對所述樣本文檔中的樣本詞匯進行權(quán)重計算,所述預設篇數(shù)的數(shù)量為10篇;獲取模塊50,用于根據(jù)所述第一計算模塊10的計算結(jié)果,分別獲取所述樣本文檔中前第一預設位數(shù)的高頻權(quán)重和所述高頻權(quán)重對應的所述樣本詞匯,所述前第一預設位數(shù)為10位,即分別獲取所述高頻權(quán)重的前10位和前10位所述高頻權(quán)重對應的所述樣本詞匯;第二計算模塊20,用于獲取目標文檔,對所述目標文檔中的目標詞匯進行所述權(quán)重公式計算,以得到所述目標詞匯對應的目標權(quán)重及所述目標權(quán)重對應的所述目標詞匯,所述前第二預設位數(shù)為10位,即分別獲取所述目標權(quán)重的前10位和前10位所述高頻權(quán)重對應的所述目標詞匯;第三計算模塊30,包括第一子計算模塊31,用于根據(jù)所述第一計算模塊10和所述第二計算模塊20的計算結(jié)果,將所述目標權(quán)重與所述高頻權(quán)重進行對比計算,以得到所述目標文檔的全文權(quán)重;第四計算模塊40,用于根據(jù)所述第三計算模塊30的計算結(jié)果,判斷所述全文權(quán)重是否大于預設的權(quán)重閾值,若是則將所述目標文檔歸類至所述樣本文檔對應的文檔領(lǐng)域。所述第一計算模塊10和所述第二計算模塊20均包括:第一運行模塊11,用于運行權(quán)重公式,所述權(quán)重公式為:w(i)=k×flag(i)+tf(i)上述公式中,k為關(guān)鍵字權(quán)重增益,k的值取常數(shù),本實施例中k的值取20,tf的值為當前詞匯的詞頻,即所述當前詞匯在當前文檔中出現(xiàn)的次數(shù),當所述當前詞匯為所述樣本詞匯時,w的值為所述高頻權(quán)重,當所述當前詞匯為所述目標詞匯時,w的值為所述目標權(quán)重。查詢模塊12,用于獲取所述當前詞匯,查詢本地存儲的關(guān)鍵詞表并判斷所述當前詞匯是否是存在所述關(guān)鍵詞表中;若是,則將flag的值取為1,若否,則將flag的值取為0,通過flag的取值設計當所述當前詞匯為關(guān)鍵詞時提高了所述當前詞匯對應的權(quán)重。所述第一子計算模塊31包括:第三運行模塊311,用于運行對比公式,所述對比公式為:上述公式中,wt的值為所述最終權(quán)重,wc的值為所述最終權(quán)重對應的所述樣本詞匯在所述目標文檔中對應的所述目標詞匯的所述目標權(quán)重。本實施例通過所述第一計算模塊10和所述第二計算模塊20的設計,可分別對所述樣本文檔和所述目標文檔進行所述權(quán)重計算,通過所述第三計算模塊30的設計,可對所述目標權(quán)重和所述高頻權(quán)重進行所述對比計算,以得到所述全文權(quán)重,并通過閾值判斷設計以判斷是否將所述目標文檔歸類,所述文檔分類裝置100可以對不同
技術(shù)領(lǐng)域:
的文檔進行分類靈活性高,且通過所述權(quán)重計算和所述對比計算的設計,使得所述文檔分類裝置100的分類效率高且精度準。請參閱圖4,為本發(fā)明第四實施例提供的文檔分類裝置100a的結(jié)構(gòu)示意圖,該第四實施例與第三實施例的結(jié)構(gòu)大抵相同,其區(qū)別在于,本實施例中所述第三計算模塊30a還包括:第二子計算模塊32,用于對所述高頻權(quán)重進行降緯計算,以得到所述樣本文檔對應的最終權(quán)重,并獲取前第三預設位數(shù)的所述最終權(quán)重及所述最終權(quán)重對應的所述樣本詞,所述前第三預設位數(shù)為10位,即獲取前10位的所述最終權(quán)重和所述最終權(quán)重對應的所述樣本詞匯,由于所述樣本文檔的數(shù)量為10篇且每篇所述樣本文檔中所述高頻權(quán)重的數(shù)量為10個,進而當所述高頻權(quán)重對應的所述樣本詞匯不重復時,總所述樣本詞匯的數(shù)量為100個,導致分類過程會較為復雜,進而本實施例中通過所述降緯計算的設計,以使將總所述樣本詞匯的數(shù)量降為10個,提高了所述文檔分類方法的分類效率和分類的精準度。第三子計算模塊33,用于根據(jù)所述第二子計算模塊32的計算結(jié)果,將所述目標權(quán)重與所述最終權(quán)重進行所述對比計算,以得到所述目標文檔的所述全文權(quán)重。所述第二子計算模塊32包括:第二運行模塊321,用于運行降緯公式,所述降緯公式為:上述公式中,r的值為當前樣本詞匯在總所述樣本詞匯中出現(xiàn)的次數(shù),當100個所述樣本詞匯都不相同時,r的值取1,可以理解的當所述當前樣本詞匯中有相同的詞匯時,r的值為所述當前樣本詞匯的次數(shù),k的值取常數(shù),tf的值為所述當前樣本詞匯的詞頻,即所述當前樣本詞匯在所述樣本文檔中出現(xiàn)的次數(shù),的值為所述當前樣本詞匯在當前樣本文檔中的引用次數(shù)占總所述樣本文檔中引用次數(shù)的比值,w的值為所述最終權(quán)重。所述第三子計算模塊33包括:第三運行模塊311,用于運行對比公式,所述對比公式為:上述公式中,wt的值為所述最終權(quán)重,wc的值為所述最終權(quán)重對應的所述樣本詞匯在所述目標文檔中對應的所述目標詞匯的所述目標權(quán)重。本實施例通過所述第二子計算模塊32和所述第三子計算模塊33的設計,將計算的數(shù)量從100個降低至了10個進而簡化了后續(xù)所述對比計算的計算流程,且提高了所述文檔分類裝置100a的分類效率和分類的精準度。上述實施例描述了本發(fā)明的技術(shù)原理,這些描述只是為了解釋本發(fā)明的原理,而不能以任何方式解釋為本發(fā)明保護范圍的限制?;诖颂幍慕忉專绢I(lǐng)域的技術(shù)人員不需要付出創(chuàng)造性的勞動即可聯(lián)想到本發(fā)明的其他具體實施方式,這些方式都將落入本發(fā)明的保護范圍內(nèi)。當前第1頁12