本發(fā)明涉及文檔分類技術領域,特別涉及一種文檔分類方法及裝置。
背景技術:
隨著信息技術的發(fā)展,人們每天能夠獲取大量的信息,例如郵件、新聞等等。為了能夠高效地處理這些信息,必須實現文檔的自動分類。
現有技術中對文檔進行分類的方法主要有,使用帶權重的關鍵詞集合表示文本文檔的特征信息,然后,使用經過本體消歧和本體擴展處理后的本體來表示分類目錄的特征信息,并通過分析本體結構特征將本體被轉化為帶權重的詞義集合,最后使用Earth Mover’s Distance方法計算文本文檔的關鍵詞集合和本體權重詞義集合之間的語義相似值,并進一步計算文檔和分類目錄之間的相似值,根據文本文檔和分類目錄之間的相似值來進行文本文檔的分類和排序。
現有技術對文檔的分類方法雖然通用性強,但是比較復雜,如果僅需要對專門的一類文檔進行分類,會降低工作效率。
技術實現要素:
有鑒于此,本發(fā)明的目的是提供一種簡單、易操作的文檔分類方法及裝置。
為了實現上述目的,本發(fā)明提供了一種文檔分類方法,包括:
獲取待分類文檔的標題;
將所述待分類文檔的標題與預設文檔類別的預設關鍵字進行比對,判斷所述待分類文檔的標題中是否包含所述預設關鍵字;
若一致,則所述待分類文檔屬于所述預設類別。
作為優(yōu)選,獲取待分類文檔的標題,包括:
獲取所述待分類文檔;
從所述待分類文檔中提取所述待分類文檔的標題。
作為優(yōu)選,將所述待分類文檔的標題與預設文檔類別的預設關鍵字進行比對,包括:
將所述待分類文檔的標題分為前段和后段;
將所述后段與所述預設文檔類別的預設關鍵字進行比對。
作為優(yōu)選,將所述待分類文檔的標題與預設文檔類別的預設關鍵字進行比對之后,所述方法還包括:
若所述待分類文檔的標題與預設文檔類別的預設關鍵字不一致,則所述待分類文檔屬于第三類文檔。
作為優(yōu)選,所述待分類文檔為HTML格式。
本發(fā)明還提供一種文檔分類裝置,包括:
獲取模塊,配置為獲取待分類文檔的標題;
比對模塊,配置為將所述待分類文檔的標題與預設文檔類別的預設關鍵字進行比對,判斷所述待分類文檔的標題中是否包含所述預設關鍵字;
分類模塊,配置為當所述待分類文檔的標題與預設文檔類別一致時,所述待分類文檔屬于所述預設類別。
作為優(yōu)選,所述獲取模塊包括:
獲取子模塊,配置為獲取所述待分類文檔;
提取子模塊,配置為從所述待分類文檔中提取所述待分類文檔的標題。
作為優(yōu)選,所述比對模塊包括:
拆分子模塊,配置為將所述待分類文檔的標題分為前段和后段;
比對子模塊,配置為將所述后段與所述預設文檔類別的預設關鍵字進行比對。
作為優(yōu)選,所述分類模塊還用于:
當所述待分類文檔的標題與預設文檔類別的預設關鍵字不一致時,所述待分類文檔屬于第三類文檔。
作為優(yōu)選,所述待分類文檔為HTML格式。
與現有技術相比,本發(fā)明實施例具有以下有益效果:本發(fā)明實施例的技術方案通過將待分類文檔的標題與預設文檔類別的預設關鍵字進行比對,當一致時,將待分類文檔劃分為預設類別,從而僅需要簡單的步驟,即可完成分類工作,提高了分類效率,且分類準確率較高。
附圖說明
圖1為本發(fā)明的文檔分類方法的實施例一的流程圖;
圖2為本發(fā)明的文檔分類方法的實施例二的流程圖;
圖3為本發(fā)明的文檔分類裝置的實施例一的示意圖;
圖4為本發(fā)明的文檔分類裝置的實施例二的示意圖。
具體實施方式
下面結合附圖和實施例,對本發(fā)明的具體實施方式作進一步詳細描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。
隨著互聯網技術的高速發(fā)展,網絡文檔的數據呈爆炸式增長。對于某些特定領域的用戶,想要獲取特定領域的文檔就是一件非常困難的事。例如,對于政府工作人員,或者需要及時獲取政策信息的企業(yè),想要獲取一些政策性文檔,可是政府相關網站每天都發(fā)布很多新療及政策,如何在這些信息中獲取相關的政策性文檔就是這些政府工作人員及相關企業(yè)亟需解決的問題。
現有技術提供的文檔分類方法,雖然具有通用性,但是算法復雜,應用難度大,在僅需對某一類文檔進行分類時,執(zhí)行效率較低。本發(fā)明實施例提供一種對于特定類別的文檔進行分類的方法,例如政策類,學術類等。根據該類別的文檔的特點,預設關鍵字,再根據關鍵字進行分類,效率將大大提高。
圖1為本發(fā)明的文檔分類方法的實施例一的流程圖,如圖1所示,本實施例的文檔分類方法,具體可以包括如下步驟:
S101,獲取待分類文檔的標題。
具體地,可以采用現有技術中的網頁抓取方法,例如爬蟲技術,獲取網頁文檔中的信息,具體是網頁中的標題。
S102,將待分類文檔的標題與預設文檔類別的預設關鍵字進行比對,判斷所述待分類文檔的標題中是否包含預設關鍵字;若是,則執(zhí)行步驟S103;否則,執(zhí)行步驟S104。
具體地,獲取網頁文檔的標題后,可以將該標題與預設關鍵字進行比對,以確定網頁文檔的類型,例如,某外貿型企業(yè),需要關注政策動向,該企業(yè)在所需要獲取的文檔類型即為政策類型的文檔,政策類型的文檔一般分為申報快訊、政策快訊和第三類文章三種類型,則策類型的文檔標題可以包括的關鍵字為通知、公示、公告、公布、申報、決定、批復、方案、辦法、政策、意見、規(guī)劃、細則和計劃等。
S103,待分類文檔屬于預設類別。
具體地,若待分類文檔的標題包含了上述預設關鍵字,則說明該待分類文檔屬于該預設關鍵字對應的類型。
S104,將待分類文檔劃分為第三類文檔。
具體地,若待分類文檔的標題沒有包含上述預設關鍵字,則將該待分類文檔劃分到第三類文章。
本發(fā)明實施例的技術方案通過將待分類文檔的標題與預設文檔類別的預設關鍵字進行比對,當一致時,將待分類文檔劃分為預設類別,從而僅需要簡單的步驟,即可完成分類工作,提高了分類效率,且分類準確率較高。
圖2為本發(fā)明的文檔分類方法的實施例二的流程圖,本實施例的文檔分類方法在上述實施例一的基礎上,進一步更加詳細地介紹本發(fā)明的技術方案。如圖2所示,本實施例的文檔分類方法,具體可以包括如下步驟:
S201,獲取待分類文檔。
具體地,可以連接互聯網,并啟動瀏覽器來獲取待分類文檔。一般情況下,待分類文檔為HTML格式。
S202,從待分類文檔中提取待分類文檔的標題。
具體地,可以采用現有技術中的網頁抓取方法,例如爬蟲技術,獲取網頁文檔中的信息,具體是網頁中的標題。
S203,將待分類文檔的標題分為前段和后段。
具體地,一般標志待分類文檔標題類型的關鍵字在標題的后面,因此,可以將待分類文檔的標題分類前段和后段,這樣將標題與預設關鍵字進行比對時,則無需比對前段,僅比對后段,以提高程序的執(zhí)行效率。具體分段的方法,例如,可以根據標題的字數將標題平均分為前段和后段。例如,標題為“國務院2017年元旦春節(jié)放假通知”,可以分為前段“國務院2017年”和后段“元旦春節(jié)放假通知”;再例如,在確定關鍵字僅位于標題的后兩個字的情況下,則可以將標題的后兩個字作為后段,其余字作為前段,對于“國務院2017年元旦春節(jié)放假通知”,則前段為“國務院2017年元旦春節(jié)放假”,后段為“通知”,這樣在比對時,僅比對后段與預設關鍵字是否一致即可,進一步提高了執(zhí)行效率。
S204,將后段與預設文檔類別的預設關鍵字進行比對,判斷后段中是否包含預設關鍵字,若是,則執(zhí)行步驟S205;否則,執(zhí)行步驟S206。
具體地,獲取網頁文檔的標題后,可以將該標題與預設關鍵字進行比對,以確定網頁文檔的類型,例如,某外貿型企業(yè),需要關注政策動向,該企業(yè)在所需要獲取的文檔類型即為政策類型的文檔,政策類型的文檔一般分為申報快訊、政策快訊和第三類文章三種類型,則策類型的文檔標題可以包括的關鍵字為通知、公示、公告、公布、申報、決定、批復、方案、辦法、政策、意見、規(guī)劃、細則和計劃等。S205,待分類文檔屬于預設類別。
具體地,若待分類文檔的標題包含了上述預設關鍵字,則說明該待分類文檔屬于該預設關鍵字對應的類型。S206,待分類文檔屬于第三類文檔。
具體地,若待分類文檔的標題沒有包含上述預設關鍵字,則將該待分類文檔劃分到第三類文章。
一般情況下,待分類文檔為HTML格式。
本發(fā)明實施例的技術方案通過將待分類文檔的標題與預設文檔類別的預設關鍵字進行比對,當一致時,將待分類文檔劃分為預設類別,從而僅需要簡單的步驟,即可完成分類工作,提高了分類效率,且分類準確率較高。
圖3為本發(fā)明的文檔分類裝置的實施例一的示意圖,如圖3所示,本實施例的文檔分類裝置,具體可以包括獲取模塊31、比對模塊32和分類模塊33。
獲取模塊31,配置為獲取待分類文檔的標題;
比對模塊32,配置為將待分類文檔的標題與預設文檔類別的預設關鍵字進行比對;
分類模塊33,配置為當待分類文檔的標題與預設文檔類別一致時,待分類文檔屬于預設類別。
本實施例的文檔分類裝置,通過采用上述模塊對待分類文檔進行分類的實現機制與上述圖1所示實施例的文檔分類方法的實現機制相同,詳細可以參考上述圖1所示實施例的記載,在此不再贅述。
圖4為本發(fā)明的文檔分類裝置的實施例二的示意圖,本實施例的文檔分類裝置在如圖3所示的實施例的基礎上,進一步更加詳細地介紹本發(fā)明的技術方案。如圖4所示,本實施例的文檔分類裝置,進一步可以包括:
該獲取模塊31包括:
獲取子模塊311,配置為獲取待分類文檔;
提取子模塊312,配置為從待分類文檔中提取待分類文檔的標題。
進一步地,該比對模塊32包括:
拆分子模塊321,配置為將待分類文檔的標題分為前段和后段;
比對子模塊322,配置為將后段與預設文檔類別的預設關鍵字進行比對。
進一步地,該分類模塊33還用于:
當待分類文檔的標題與預設文檔類別的預設關鍵字不一致時,待分類文檔屬于第三類文檔。
上述待分類文檔為HTML格式。
本實施例的文檔分類裝置,通過采用上述模塊對待分類文檔進行分類的實現機制與上述圖2所示實施例的文檔分類方法的實現機制相同,詳細可以參考上述圖2所示實施例的記載,在此不再贅述。
以上實施例僅為本發(fā)明的示例性實施例,不用于限制本發(fā)明,本發(fā)明的保護范圍由權利要求書限定。本領域技術人員可以在本發(fā)明的實質和保護范圍內,對本發(fā)明做出各種修改或等同替換,這種修改或等同替換也應視為落在本發(fā)明的保護范圍內。