欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

文章分類方法和裝置與流程

文檔序號:12719444閱讀:375來源:國知局
文章分類方法和裝置與流程
本發(fā)明涉及文字處理
技術領域
,特別是涉及一種文章分類方法和裝置。
背景技術
:文章是一種重要的信息載體,是人類思想的傳播工具。文章包括各種文體的著作或者作品,如詩歌、戲劇、小說、科學論文,記敘文、議論文、說明文或者應用文。很多文章具有地域屬性,比如文章內容涉及地域,或者文章作者來自于特定地域,或者文章標題涉及特定地域等等。將文章按照地域分類,可以方便用戶按照地域劃分來查找文章,從而高效地查找到與特定地域相關的文章。目前對文章進行分類,一般采用三種分類方式:人工分類方式、按文章來源分類方式以及基于機器學習的文章自動分類方式。其中人工分類方式是最傳統(tǒng)的一種文章分類方式,就是通過編輯人員閱讀文章進行分類。這種分類方式分類精確,但是效率太低,在信息爆炸的當下,每天都會有大量文章涌現(xiàn),人工分類方式無法滿足文章分類需求。按文章來源分類方式,就是按照文章的來源將文章歸類到相應來源所在的地域類別,比如來源于某區(qū)域的報刊的所有文章均歸類到該區(qū)域的分類。這種分類方式實現(xiàn)容易,但誤判率太高;而且某些來源難以按照地域分類,比如來源于網(wǎng)絡的文章,因此適用范圍有限?;跈C器學習的文章自動分類方式,通過大量的人工標記的文章訓練出分類特征模型,然后計算待分類的文章的特征向量,利用訓練好的分類特征模型對文章進行分類。這種分類方式要達到較高的分類準確性,需要海量的訓練樣本進行訓練,每個訓練樣本需要經(jīng)過人工標記,一般難以獲取到。而且這種分類方式所需的計算資源較大,通常需要依托分布式計算來實現(xiàn)。因此,目前的文章分類方式或分類準確性低,或分類效率低,或消耗計算資源大,均難以滿足文章分類需求。技術實現(xiàn)要素:基于此,有必要針對目前的分類方式所存在的上述問題,提供一種準確性高、分類效率高并且消耗計算資源小的文章分類方法和裝置。一種文章分類方法,所述方法包括:獲取預設的地域關鍵詞序列;所述地域關鍵詞序列包括地域相關的多個地域關鍵詞;將待分類的文章進行分詞處理,獲得詞集合;獲取所述地域關鍵詞序列中的各地域關鍵詞相對于所述詞集合的詞頻度;根據(jù)所述各個地域關鍵詞的詞頻度獲得所述文章與所述地域關鍵詞序列的分類可信度;根據(jù)所述分類可信度獲得所述文章是否屬于所述地域關鍵詞序列對應的地域類別的分類結果。一種文章分類裝置,所述裝置包括:地域關鍵詞序列獲取模塊,用于獲取預設的地域關鍵詞序列;所述地域關鍵詞序列包括地域相關的多個地域關鍵詞;分詞模塊,用于將待分類的文章進行分詞處理,獲得詞集合;詞頻度獲取模塊,用于獲取所述地域關鍵詞序列中的各地域關鍵詞相對于所述詞集合的詞頻度;分類可信度獲取模塊,用于根據(jù)所述各個地域關鍵詞的詞頻度獲得所述文章與所述地域關鍵詞序列的分類可信度;分類模塊,用于根據(jù)所述分類可信度獲得所述文章是否屬于所述地域關鍵詞序列對應的地域類別的分類結果。上述文章分類方法和裝置,利用待分類的文章與預設的地域關鍵詞序列的分類可信度來進行分類,在獲取分類可信度時采取分詞以及地域關鍵詞匹配的手段,計算復雜度低,消耗計算資源小,分類效率高。而且地域關鍵詞序列中 包括了地域相關的多個地域關鍵詞,在獲得分類可信度時綜合考慮了這些具有地域相關性的多個地域關鍵詞的詞頻度,使得最終的分類結果更加準確和可靠。附圖說明圖1為一個實施例中文章推薦系統(tǒng)的應用環(huán)境圖;圖2為一個實施例中用于實現(xiàn)文件分類方法的服務器的結構示意圖;圖3為一個實施例中文章分類方法的流程示意圖;圖4為一個實施例中根據(jù)各個地域關鍵詞的詞頻度獲得文章與地域關鍵詞序列的分類可信度的步驟的流程示意圖;圖5為一個實施例中文章分類裝置的結構框圖;圖6為另一個實施例中文章分類裝置的結構框圖;圖7為一個實施例中分類可信度獲取模塊的結構框圖;圖8為再一個實施例中文章分類裝置的結構框圖。具體實施方式為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合附圖及實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。如圖1所示,在一個實施例中,提供了一種文章推薦系統(tǒng),包括通過網(wǎng)絡連接的服務器101和終端102。其中服務器101可以是獨立的物理服務器,也可以是物理服務器的集群。終端102包括臺式計算機和移動終端,移動終端包括智能手機、平板電腦、個人數(shù)字助理(PDA)以及膝上型便攜計算機中的至少一種。如圖2所示,在一個實施例中,服務器101包括通過系統(tǒng)總線連接的處理器、非易失性存儲介質、內存儲器以及網(wǎng)絡接口。其中處理器具有計算功能和控制服務器101工作的功能,該處理器被配置為執(zhí)行一種文章分類方法。非易失性存儲介質包括磁存儲介質、光存儲介質和閃存式存儲介質中的至少一種,非易失性存儲介質存儲有操作系統(tǒng)和文章分類裝置,該文章分類裝置用于實現(xiàn) 一種文章分類方法。網(wǎng)絡接口用于使服務器101連接到網(wǎng)絡與終端102通信。如圖3所示,在一個實施例中,提供了一種文章分類方法,本實施例以該方法應用于上述圖1和圖2中的服務器101來舉例說明,在其它實施例中該方法也可以應用于一個獨立的電子設備中。本實施例中該方法具體包括如下步驟:步驟302,獲取預設的地域關鍵詞序列;地域關鍵詞序列包括地域相關的多個地域關鍵詞。其中地域關鍵詞序列是包括兩個或多于兩個的地域關鍵詞的集合,地域關鍵詞序列中的各個地域關鍵詞可通過第一預設分隔符分隔開,預設分隔符比如空格、逗號或者分號等與地域關鍵詞不相關的字符。關鍵詞(keywords)是指可用來檢索數(shù)據(jù)的詞匯,地域關鍵詞則是與地域相關的關鍵詞,可用來檢索與關鍵詞所表示的地域相關的數(shù)據(jù)。進一步地,多個地域關鍵詞之間地域相關,是指多個地域關鍵詞各自所表示的地域在地理上具有相關性,地域相關包括地域從屬以及地域鄰近中的至少一種,也可以包括其它種類的地理相關。地域關鍵詞之間的地域從屬關系,是指相應的地域關鍵詞所表示的地域具有地理上的從屬關系,比如地域關鍵詞“廣東”和“深圳”中,“深圳”從屬于“廣東”;地域從屬也可以稱為地域包含,比如“廣東”包含“深圳”。地域關鍵詞之間的地域鄰近關系,是指相應的地域關鍵詞所表示的地域具有地理上的鄰近關系,比如屬于同一省或者屬于同一行政地區(qū)。舉例說明,對于預設的地域關鍵詞序列“中國-廣東-深圳-南山區(qū)”,包括4個地域關鍵詞,分別為:“中國”、“廣東”、“深圳”和“南山區(qū)”。其中“南山區(qū)”從屬于“深圳”,“深圳”從屬于“廣東”,而“廣東”從屬于“中國”,因此這4個地域關鍵詞是依次地域從屬的關系,而且這4個地域關鍵詞按照地域從屬層級從高到低依次為:“中國”、“廣東”、“深圳”以及“南山區(qū)”。再比如,對于預設的地域關鍵詞序列“中國-廣東-潮汕-汕頭-揭陽-潮州”,包括6個地域關鍵詞,分別為:“中國”、“廣東”、“潮汕”、“汕頭”、“揭陽”以及“潮州”。其中“潮汕”、“汕頭”和“揭陽”均從屬于“廣東”,而“潮汕”、“汕頭”和“揭陽”之間則是地域鄰近關系。在一個實施例中,步驟302包括:從預設的地域關鍵詞序列列表中獲取地域關鍵詞序列。具體地,每個預設的地域關鍵詞序列作為地域關鍵詞序列列表的一個條目存儲在地域關鍵詞序列列表中,各個條目之間可以用區(qū)別于第一預設分隔符的第二預設分隔符分隔開,第二預設分隔符比如回車符。服務器可以遍歷地域關鍵詞序列列表的每一條目從而獲取到列表中所有的地域關鍵詞序列。在一個實施例中,地域關鍵詞序列列表中的地域關鍵詞序列可按照相應的最低地域從屬層級的地域關鍵詞進行分類和/或排序。在對文章分類進行優(yōu)化時,只需要調整地域關鍵詞序列列表中的地域關鍵詞序列即可。舉例說明,預設的地域關鍵詞序列列表的部分內容可如下表一所示:表一:地域關鍵詞序列:對應的地域類別…………中國-廣東-深圳-南山區(qū)深圳南山中國-廣東-潮汕-汕頭-揭陽-潮州潮汕地區(qū)…………步驟304,將待分類的文章進行分詞處理,獲得詞集合。具體地,待分類的文章是指需要按照地域進行分類的文章,一篇文章是若干字符的集合,包括文章標題和文章正文,還可以包括文章摘要、作者描述信息以及評論信息等文章相關信息。所謂分詞是指將文字序列分割成單獨的詞的過程,將文字分詞獲得一個個單獨的詞,構成詞集合。詞集合不進行去重處理。在一個實施例中,可根據(jù)待分類的文章的組成結構,將文章的不同組成部分分別進行分詞處理,獲得相應的組成部分的詞集合。比如詞集合可以包括文章標題詞集合和文章正文詞集合,分別是對待分類的文章的標題部分和正文部分進行分詞處理后獲得的相應的詞集合。對文章進行分詞處理,可以采用三種分詞處理方式:基于字符匹配的分詞處理方式、基于語義理解的分詞處理方式以及基于統(tǒng)計的分詞處理方式。其中基于字符匹配的分詞處理方式是將待分詞的字符串與一個充分大的機器詞典中 的詞條進行匹配,常用的算法有:正向最大匹配算法、逆向最大匹配算法和最少切分法?;谡Z義理解的分詞處理方式在分詞的同時進行句法語義分析以模擬人對句子的理解,需要大量的語言知識信息?;诮y(tǒng)計的分詞處理方式則是考慮到相鄰的字同時出現(xiàn)的次數(shù)越多,越有可能構成一個詞語,對語料中的字組頻度進行統(tǒng)計,不需要切詞字典,但錯誤率很高。可以采用基于字符匹配的分詞處理方式進行關鍵詞分詞,再采用基于統(tǒng)計的分詞處理方式識別出新詞組,從而將基于字符匹配的分詞處理方式和基于統(tǒng)計的分詞處理方式相結合,提高分詞準確率。在一個實施例中,步驟304之后還包括:從詞集合中過濾掉屬于預設的停用詞表的詞,停用詞表最好不包括涉及地域的詞。在信息檢索中,為節(jié)省存儲空間和提高檢索效率,在處理自然語言數(shù)據(jù)之前或之后會自動過濾掉某些字或詞,這些被過濾的字或詞即被稱為停用詞(StopWords)。停用詞表可以包括連接詞、標點符號以及語氣詞等。本實施實例中采用停用詞表對詞集合進行過濾,可以提高對文章按地域分類的效率。步驟306,獲取地域關鍵詞序列中的各地域關鍵詞相對于詞集合的詞頻度。具體地,所謂詞頻度是指反映詞在特定的字符集合中出現(xiàn)頻率的量化度量。對于地域關鍵詞序列中的每一個地域關鍵詞,需獲得該地域關鍵詞相對于上述詞集合的詞頻度,這里的詞集合應當是采用停用詞表過濾前的詞集合。地域關鍵詞相對于詞集合的詞頻度,也就是相應地域關鍵詞相對于待分類的文章的詞頻度,反映的是相應的地域關鍵詞在待分類的文章中出現(xiàn)的頻率。在一個實施例中,步驟306包括:根據(jù)地域關鍵詞序列中的各地域關鍵詞在詞集合中出現(xiàn)的次數(shù)與相應地域關鍵詞的字數(shù)占文章總字數(shù)比例的乘積獲得相應地域關鍵詞的詞頻度。具體地,可以先統(tǒng)計出地域關鍵詞序列中的每個地域關鍵詞在詞集合中出現(xiàn)的次數(shù),并獲取每個地域關鍵詞的字數(shù)以及文章總字數(shù),從而對于每個地域關鍵詞,將統(tǒng)計的相應的次數(shù)乘以地域關鍵詞的字數(shù)再除以文章總字數(shù),便可以獲得每個地域關鍵詞相對于詞集合的詞頻度,也就是每個地域關鍵詞相對于待分類的文章的詞頻度。其中統(tǒng)計文章總字數(shù)時可以過濾掉標點符號,文章總 字數(shù)可以等于詞集合中所有詞的字數(shù)的和。具體可以采用下述公式(1)來計算地域關鍵詞序列中的各地域關鍵詞相對于詞集合的詞頻度:公式(1)公式(1)中,fi為地域關鍵詞序列中第i個地域關鍵詞相對于文章的詞頻度,為地域關鍵詞序列中第i個地域關鍵詞在文章中出現(xiàn)的次數(shù),為地域關鍵詞序列中第i個地域關鍵詞的字數(shù),wtotal為文章總字數(shù),n為地域關鍵詞序列中地域關鍵詞的總數(shù)量。在一個實施例中,步驟306包括:根據(jù)地域關鍵詞序列中的各地域關鍵詞在詞集合中出現(xiàn)的次數(shù)占詞集合中總詞數(shù)的比例獲得相應地域關鍵詞的詞頻度。具體地,可以采用以下公式(2)來計算地域關鍵詞序列中的各地域關鍵詞相對于詞集合的詞頻度:公式(2)公式(2)中fi為地域關鍵詞序列中第i個地域關鍵詞相對于文章的詞頻度,為地域關鍵詞序列中第i個地域關鍵詞在文章中出現(xiàn)的次數(shù),Ctotal為文章總次數(shù)即詞集合中總次數(shù),n為地域關鍵詞序列中地域關鍵詞的總數(shù)量。上述利用公式(1)和公式(2)均可以計算詞頻度,考慮到文章的長度是不可控的,詞頻度與詞的出現(xiàn)次數(shù)相比更能夠反映出相應的地域關鍵詞在對文章按地域分類時的重要性。公式(1)比公式(2)更加精確,公式(2)則計算更為簡單,可根據(jù)實際需求選擇合適的公式來計算詞頻度。步驟308,根據(jù)各個地域關鍵詞的詞頻度獲得文章與地域關鍵詞序列的分類可信度。具體地,文章與地域關鍵詞序列的分類可信度,是指將文章劃分到該地域關鍵詞序列對應的地域類別的可信程度的量化度量。各個地域關鍵詞的詞頻度就是地域關鍵詞序列中各個地域關鍵詞相對于詞集合的詞頻度,各個地域關鍵 詞的詞頻度與分類可信度正相關。所謂正相關是指自變量增長因變量也隨著增長,即分類可信度隨著各個地域關鍵詞的詞頻度的增大而增大,減小而減小。可將各個地域關鍵詞的詞頻度代入用于進行正相關運算的第一預設函數(shù)來獲得分類可信度,其中第一預設函數(shù)的每個自變量均與因變量正相關,且自變量的數(shù)量自適應地與地域關鍵詞序列中的地域關鍵詞的數(shù)量相等。第一預設函數(shù)可以是求和函數(shù)、求平均函數(shù)、加權求和函數(shù)或者加權求平均函數(shù)中的任意一種。步驟310,根據(jù)分類可信度獲得文章是否屬于地域關鍵詞序列對應的地域類別的分類結果。具體地,可判斷分類可信度是否大于預設閾值,若是則將文章分類到該地域關鍵詞序列對應的地域類別;若否,則可以不分類,并繼續(xù)處理地域關鍵詞序列列表中的下一個地域關鍵詞序列。該預設閾值是預先通過統(tǒng)計分析若干樣本而獲得的一個基準值,當分類可信度大于預設閾值時,表示文章被分類到地域關鍵詞序列對應的地域類別的可信程度很高,可以直接獲得文章的一個分類結果。文章可以被分到一個或多個地域類別。在一個實施例中,可以將地域關鍵詞序列列表中可計算出分類可信度的地域關鍵詞序列的分類可信度進行比較,找出最大的分類可信度,將文章劃分到該最大的分類可信度對應的地域關鍵詞序列所對應的地域類別??捎嬎愠龇诸惪尚哦鹊牡赜蜿P鍵詞序列,是指地域關鍵詞序列中至少有一個地域關鍵詞在文章中出現(xiàn)過至少一次;若地域關鍵詞序列中所有地域關鍵詞均沒有在文章中出現(xiàn)過,則可稱該地域關鍵詞序列為無法計算分類可信度的地域關鍵詞序列。上述文章分類方法,利用待分類的文章與預設的地域關鍵詞序列的分類可信度來進行分類,在獲取分類可信度時采取分詞以及地域關鍵詞匹配的手段,計算復雜度低,消耗計算資源小,分類效率高。而且地域關鍵詞序列中包括了地域相關的多個地域關鍵詞,在獲得分類可信度時綜合考慮了這些具有地域相關性的多個地域關鍵詞的詞頻度,使得最終的分類結果更加準確和可靠。在一個實施例中,詞集合包括文章標題詞集合和文章正文詞集合;且步驟308包括:根據(jù)各個地域關鍵詞相對于文章標題詞集合的詞頻度以及相對于文章 正文詞集合的詞頻度,計算文章與地域關鍵詞序列的分類可信度;各個地域關鍵詞相對于文章標題詞集合的詞頻度和相對于文章正文詞集合的詞頻度均與分類可信度正相關。具體地,可綜合地域關鍵詞序列中各個地域關鍵詞相對于文章標題詞集合的詞頻度以及地域關鍵詞序列中各個地域關鍵詞相對于文章正文詞集合的詞頻度,來計算文章與地域關鍵詞序列的分類可信度。進一步地,可先將各個地域關鍵詞相對于文章標題詞集合的詞頻度進行正相關運算得到第一中間值,并將各個地域關鍵詞相對于文章正文詞集合的詞頻度進行正相關運算得到第二中間值,將第一中間值和第二中間值進行正相關運算得到分類可信度,使得各個地域關鍵詞相對于文章標題詞集合的詞頻度和相對于文章正文詞集合的詞頻度均與分類可信度正相關。進行正相關運算具體可求和、求平均、加權求和或者加權求平均。本實施例中,將文章分為文章標題和文章正文,并分別統(tǒng)計詞頻度,可以使得計算出的分類可信度更加精確,使得最終的分類結果更加準確。在一個實施例中,可分別對文章的各組成部分分別進行分詞處理獲得相應的詞集合,在步驟308中可根據(jù)各個地域關鍵詞相對于文章的各個組成部分的詞集合的詞頻度來計算分類可信度。如圖4所示,在一個實施例中,步驟308具體包括如下步驟:步驟402,計算各個地域關鍵詞相對于文章標題詞集合的詞頻度的第一加權和。具體地,可將各個地域關鍵詞相對于文章標題詞集合的詞頻度,分別乘以相應地域關鍵詞的用于計算第一加權和的權重后相加,獲得第一加權和。其中各個地域關鍵詞的用于計算第一加權和的權重可以記錄在地域關鍵詞序列列表中,也可以獨立于地域關鍵詞序列列表單獨記錄在另一個數(shù)據(jù)表中。地域關鍵詞序列中的各個地域關鍵詞的用于計算第一加權和的權重可以構成權重序列,且其中權重的次序與地域關鍵詞序列中的各個地域關鍵詞的次序一致。步驟404,計算各個地域關鍵詞相對于文章正文詞集合的詞頻度的第二加權和。具體地,可將各個地域關鍵詞相對于文章正文詞集合的詞頻度,分別乘以相應地域關鍵詞的用于計算第二加權和的權重后相加,獲得第二加權和。其中各個地域關鍵詞的用于計算第二加權和的權重可以記錄在地域關鍵詞序列列表中,也可以獨立于地域關鍵詞序列列表單獨記錄在另一個數(shù)據(jù)表中。地域關鍵詞序列中的各個地域關鍵詞的用于計算第二加權和的權重可以構成權重序列,且其中權重的次序與地域關鍵詞序列中的各個地域關鍵詞的次序一致。步驟406,根據(jù)第一加權和及第二加權和計算文章與地域關鍵詞序列的分類可信度;第一加權和及第二加權和均與分類可信度正相關。具體地,可將第一加權和與第二加權和進行正相關運算得到分類可信度,從而使得第一加權和及第二加權和均與分類可信度正相關。進行正相關運算具體可求和、求平均、加權求和或者加權求平均。在一個實施例中,可采用以下公式(3)來計算文章與地域關鍵詞序列的分類可信度T:公式(3)其中,f1i為地域關鍵詞序列中第i個地域關鍵詞相對于文章標題的詞頻度,λ1i為地域關鍵詞序列中第i個地域關鍵詞的用于計算第一加權和的權重,為第一加權和;f2i為地域關鍵詞序列中第i個地域關鍵詞相對于文章正文的詞頻度,λ2i為地域關鍵詞序列中第i個地域關鍵詞的用于計算第二加權和的權重,為第二加權和;n為地域關鍵詞序列中地域關鍵詞的總數(shù)量。本實施例中,將文章分為文章標題和文章正文,并分別統(tǒng)計詞頻度,可以使得加權求和計算出的分類可信度更加精確,使得最終的分類結果更加準確。在一個實施例中,地域關鍵詞序列中的各個地域關鍵詞的用于計算第二加權和的權重,在相應的地域關鍵詞相對于文章標題詞集合的詞頻度等于0時的值,小于該權重在相應的地域關鍵詞相對于文章標題詞集合的詞頻度大于0時的值。具體地,地域關鍵詞序列中的各個地域關鍵詞的用于計算第二加權和的權重,也就是在計算第二加權和時相應的地域關鍵詞相對于文章正文詞集合的詞頻度的權重。具體可以用以下公式(4)表示:且δi>0,θ>1。其中,λ1i為地域關鍵詞序列中第i個地域關鍵詞的用于計算第一加權和的權重,f2i為地域關鍵詞序列中第i個地域關鍵詞相對于文章正文的詞頻度,δi和θ為常量。當文章標題中不存在第i個地域關鍵詞時,f2i=0;當文章標題中存在第i個地域關鍵詞時,f2i>0。本實施例中,根據(jù)文章標題中是否存在地域關鍵詞,進而將相應的地域關鍵詞在計算分類可信度時的權重作出動態(tài)的調整,具體當文章標題中存在地域關鍵詞時,相應地域關鍵詞在計算分類可信度時的重要性增加。這樣突出了文章標題中地域詞的作用,而文章標題中的地域詞通常在將文章按地域進行分類時具有重要作用,使得最終的分類結果更加準確。在一個實施例中,地域關鍵詞序列所包括的多個地域關鍵詞之間具有地域從屬關系,且地域關鍵詞在地域關鍵詞序列中的地域從屬層級越低則相應的用于計算第一加權和或者第二加權和的權重越大。具體地,地域關鍵詞序列中地域關鍵詞的地域從屬層級,表示的是相應的地域關鍵詞所表示的地域包含或者從屬的屬性大小,也反映了相應的地域關鍵詞所表示的地域大小,地域從屬層級越高,表示的地域越大;地域從屬層級越小,表示的地域越小。地域關鍵詞在地域關鍵詞序列中的地域從屬層級越低,則相應的用于計算第一加權和或者第二加權和的權重越大;地域關鍵詞在地域關鍵詞序列中的地域從屬層級越高,則相應的用于計算第一加權和或者第二加權和的權重越小。本實施例中,地域關鍵詞序列所包括的多個地域關鍵詞之間具有地域從屬關系,而且地域從屬層級越低在計算第一加權和或者第二加權和時的權重越大。考慮到越具體、所表示地域越小的地域關鍵詞如果出現(xiàn)在文章中,則該文章被分類到該地域關鍵詞所屬序列對應的地域類別的可能性越大,分類準確性越高。在一個實施例中,該文章分類方法還包括:獲取具有與文章所屬的地域類別相同的地域類別的屬性的用戶標識,并向獲取的用戶標識所對應的終端推送文章。其中用戶標識所具有的上述地域類別的屬性,可由用戶設定或者通過用戶的閱讀歷史記錄分析出。此時該文章分類方法可以稱之為文章推薦方法。如圖5所示,在一個實施例中,提供了一種文章分類裝置500,包括地域關鍵詞序列獲取模塊510、分詞模塊520、詞頻度獲取模塊530、分類可信度獲取模塊540和分類模塊550。地域關鍵詞序列獲取模塊510,用于獲取預設的地域關鍵詞序列;地域關鍵詞序列包括地域相關的多個地域關鍵詞。其中地域關鍵詞序列是包括兩個或多于兩個的地域關鍵詞的集合,地域關鍵詞序列中的各個地域關鍵詞可通過第一預設分隔符分隔開,預設分隔符比如空格、逗號或者分號等與地域關鍵詞不相關的字符。關鍵詞是指可用來檢索數(shù)據(jù)的詞匯,地域關鍵詞則是與地域相關的關鍵詞,可用來檢索與關鍵詞所表示的地域相關的數(shù)據(jù)。進一步地,多個地域關鍵詞之間地域相關,是指多個地域關鍵詞各自所表示的地域在地理上具有相關性,地域相關包括地域從屬以及地域鄰近中的至少一種,也可以包括其它種類的地理相關。地域關鍵詞之間的地域從屬關系,是指相應的地域關鍵詞所表示的地域具有地理上的從屬關系,比如地域關鍵詞“廣東”和“深圳”中,“深圳”從屬于“廣東”;地域從屬也可以稱為地域包含,比如“廣東”包含“深圳”。地域關鍵詞之間的地域鄰近關系,是指相應的地域關鍵詞所表示的地域具有地理上的鄰近關系,比如屬于同一省或者屬于同一行政地區(qū)。舉例說明,對于預設的地域關鍵詞序列“中國-廣東-深圳-南山區(qū)”,包括4個地域關鍵詞,分別為:“中國”、“廣東”、“深圳”和“南山區(qū)”。其中“南山區(qū)”從屬于“深圳”,“深圳”從屬于“廣東”,而“廣東”從屬于“中國”,因此這4個地域關鍵詞是依次地域從屬的關系,而且這4個地域關鍵詞按照地域從屬層級從高到低依次為:“中國”、“廣東”、“深圳”以及“南山區(qū)”。再比如,對于預設的地域關鍵詞序列“中國-廣東-潮汕-汕頭-揭陽-潮州”,包括6個地域關鍵詞,分別為:“中國”、“廣東”、“潮汕”、“汕頭”、“揭陽”以及“潮州”。其中“潮汕”、“汕頭”和“揭陽”均從屬于“廣東”,而“潮汕”、“汕頭”和“揭陽”之間則是地域鄰近關系。在一個實施例中,地域關鍵詞序列獲取模塊510具體用于從預設的地域關鍵詞序列列表中獲取地域關鍵詞序列。具體地,每個預設的地域關鍵詞序列作為地域關鍵詞序列列表的一個條目存儲在地域關鍵詞序列列表中,各個條目之間可以用區(qū)別于第一預設分隔符的第二預設分隔符分隔開,第二預設分隔符比如回車符。服務器可以遍歷地域關鍵詞序列列表的每一條目從而獲取到列表中所有的地域關鍵詞序列。在一個實施例中,地域關鍵詞序列列表中的地域關鍵詞序列可按照相應的最低地域從屬層級的地域關鍵詞進行分類和/或排序。分詞模塊520,用于將待分類的文章進行分詞處理,獲得詞集合。具體地,待分類的文章是指需要按照地域進行分類的文章,一篇文章是若干字符的集合,包括文章標題和文章正文,還可以包括文章摘要、作者描述信息以及評論信息等文章相關信息。所謂分詞是指將文字序列分割成單獨的詞的過程,將文字分詞獲得一個個單獨的詞,構成詞集合。詞集合不進行去重處理。在一個實施例中,分詞模塊520可用于根據(jù)待分類的文章的組成結構,將文章的不同組成部分分別進行分詞處理,獲得相應的組成部分的詞集合。比如詞集合可以包括文章標題詞集合和文章正文詞集合,分別是分詞模塊520對待分類的文章的標題部分和正文部分進行分詞處理后獲得的相應的詞集合。分詞模塊520可用于采用三種分詞處理方式對文章進行分詞處理:基于字符匹配的分詞處理方式、基于語義理解的分詞處理方式以及基于統(tǒng)計的分詞處理方式。其中基于字符匹配的分詞處理方式是將待分詞的字符串與一個充分大的機器詞典中的詞條進行匹配,常用的算法有:正向最大匹配算法、逆向最大匹配算法和最少切分法?;谡Z義理解的分詞處理方式在分詞的同時進行句法語義分析以模擬人對句子的理解,需要大量的語言知識信息?;诮y(tǒng)計的分詞處理方式則是考慮到相鄰的字同時出現(xiàn)的次數(shù)越多,越有可能構成一個詞語, 對語料中的字組頻度進行統(tǒng)計,不需要切詞字典,但錯誤率很高??梢圆捎没谧址ヅ涞姆衷~處理方式進行關鍵詞分詞,再采用基于統(tǒng)計的分詞處理方式識別出新詞組,從而將基于字符匹配的分詞處理方式和基于統(tǒng)計的分詞處理方式相結合,提高分詞準確率。詞頻度獲取模塊530,用于獲取地域關鍵詞序列中的各地域關鍵詞相對于詞集合的詞頻度。具體地,所謂詞頻度是指反映詞在特定的字符集合中出現(xiàn)頻率的量化度量。對于地域關鍵詞序列中的每一個地域關鍵詞,需獲得該地域關鍵詞相對于上述詞集合的詞頻度,這里的詞集合應當是采用停用詞表過濾前的詞集合。地域關鍵詞相對于詞集合的詞頻度,也就是相應地域關鍵詞相對于待分類的文章的詞頻度,反映的是相應的地域關鍵詞在待分類的文章中出現(xiàn)的頻率。分類可信度獲取模塊540,用于根據(jù)各個地域關鍵詞的詞頻度獲得文章與地域關鍵詞序列的分類可信度。具體地,文章與地域關鍵詞序列的分類可信度,是指將文章劃分到該地域關鍵詞序列對應的地域類別的可信程度的量化度量。各個地域關鍵詞的詞頻度就是地域關鍵詞序列中各個地域關鍵詞相對于詞集合的詞頻度,各個地域關鍵詞的詞頻度與分類可信度正相關。所謂正相關是指自變量增長因變量也隨著增長,即分類可信度隨著各個地域關鍵詞的詞頻度的增大而增大,減小而減小。分類可信度獲取模塊540可用于將各個地域關鍵詞的詞頻度代入用于進行正相關運算的第一預設函數(shù)來獲得分類可信度,其中第一預設函數(shù)的每個自變量均與因變量正相關,且自變量的數(shù)量自適應地與地域關鍵詞序列中的地域關鍵詞的數(shù)量相等。第一預設函數(shù)可以是求和函數(shù)、求平均函數(shù)、加權求和函數(shù)或者加權求平均函數(shù)中的任意一種。分類模塊550,用于根據(jù)分類可信度獲得文章是否屬于地域關鍵詞序列對應的地域類別的分類結果。具體地,分類模塊550可用于判斷分類可信度是否大于預設閾值,若是則將文章分類到該地域關鍵詞序列對應的地域類別;若否,則可以不分類,并繼續(xù)處理地域關鍵詞序列列表中的下一個地域關鍵詞序列。該預設閾值是預先通 過統(tǒng)計分析若干樣本而獲得的一個基準值,當分類可信度大于預設閾值時,表示文章被分類到地域關鍵詞序列對應的地域類別的可信程度很高,可以直接獲得文章的一個分類結果。文章可以被分到一個或多個地域類別。在一個實施例中,分類模塊550可以用于將地域關鍵詞序列列表中可計算出分類可信度的地域關鍵詞序列的分類可信度進行比較,找出最大的分類可信度,將文章劃分到該最大的分類可信度對應的地域關鍵詞序列所對應的地域類別。可計算出分類可信度的地域關鍵詞序列,是指地域關鍵詞序列中至少有一個地域關鍵詞在文章中出現(xiàn)過至少一次;若地域關鍵詞序列中所有地域關鍵詞均沒有在文章中出現(xiàn)過,則可稱該地域關鍵詞序列為無法計算分類可信度的地域關鍵詞序列。上述文章分類裝置500,利用待分類的文章與預設的地域關鍵詞序列的分類可信度來進行分類,在獲取分類可信度時采取分詞以及地域關鍵詞匹配的手段,計算復雜度低,消耗計算資源小,分類效率高。而且地域關鍵詞序列中包括了地域相關的多個地域關鍵詞,在獲得分類可信度時綜合考慮了這些具有地域相關性的多個地域關鍵詞的詞頻度,使得最終的分類結果更加準確和可靠。如圖6所示,在一個實施例中,文章分類裝置500還包括過濾模塊560,用于從詞集合中過濾掉屬于預設的停用詞表的詞,停用詞表最好不包括涉及地域的詞。在信息檢索中,為節(jié)省存儲空間和提高檢索效率,在處理自然語言數(shù)據(jù)之前或之后會自動過濾掉某些字或詞,這些被過濾的字或詞即被稱為停用詞。停用詞表可以包括連接詞、標點符號以及語氣詞等。本實施實例中采用停用詞表對詞集合進行過濾,可以提高對文章按地域分類的效率。在一個實施例中,詞頻度獲取模塊530具體用于根據(jù)地域關鍵詞序列中的各地域關鍵詞在詞集合中出現(xiàn)的次數(shù)與相應地域關鍵詞的字數(shù)占文章總字數(shù)比例的乘積獲得相應地域關鍵詞的詞頻度。具體地,詞頻度獲取模塊530可以先統(tǒng)計出地域關鍵詞序列中的每個地域關鍵詞在詞集合中出現(xiàn)的次數(shù),并獲取每個地域關鍵詞的字數(shù)以及文章總字數(shù),從而對于每個地域關鍵詞,將統(tǒng)計的相應的次數(shù)乘以地域關鍵詞的字數(shù)再除以文章總字數(shù),便可以獲得每個地域關鍵詞相對于詞集合的詞頻度,也就是每個 地域關鍵詞相對于待分類的文章的詞頻度。其中統(tǒng)計文章總字數(shù)時可以過濾掉標點符號,文章總字數(shù)可以等于詞集合中所有詞的字數(shù)的和。具體詞頻度獲取模塊530可用于采用下述公式(1)來計算地域關鍵詞序列中的各地域關鍵詞相對于詞集合的詞頻度:公式(1)公式(1)中,fi為地域關鍵詞序列中第i個地域關鍵詞相對于文章的詞頻度,為地域關鍵詞序列中第i個地域關鍵詞在文章中出現(xiàn)的次數(shù),為地域關鍵詞序列中第i個地域關鍵詞的字數(shù),wtotal為文章總字數(shù),n為地域關鍵詞序列中地域關鍵詞的總數(shù)量。在一個實施例中,詞頻度獲取模塊530具體用于根據(jù)地域關鍵詞序列中的各地域關鍵詞在詞集合中出現(xiàn)的次數(shù)占詞集合中總詞數(shù)的比例獲得相應地域關鍵詞的詞頻度。具體地,詞頻度獲取模塊530可以采用以下公式(2)來計算地域關鍵詞序列中的各地域關鍵詞相對于詞集合的詞頻度:公式(2)公式(2)中fi為地域關鍵詞序列中第i個地域關鍵詞相對于文章的詞頻度,為地域關鍵詞序列中第i個地域關鍵詞在文章中出現(xiàn)的次數(shù),Ctotal為文章總次數(shù)即詞集合中總次數(shù),n為地域關鍵詞序列中地域關鍵詞的總數(shù)量。上述利用公式(1)和公式(2)均可以計算詞頻度,考慮到文章的長度是不可控的,詞頻度與詞的出現(xiàn)次數(shù)相比更能夠反映出相應的地域關鍵詞在對文章按地域分類時的重要性。公式(1)比公式(2)更加精確,公式(2)則計算更為簡單,可根據(jù)實際需求選擇合適的公式來計算詞頻度。在一個實施例中,詞集合包括文章標題詞集合和文章正文詞集合;分類可信度獲取模塊540具體用于根據(jù)各個地域關鍵詞相對于文章標題詞集合的詞頻度以及相對于文章正文詞集合的詞頻度,計算文章與地域關鍵詞序列的分類可信度;各個地域關鍵詞相對于文章標題詞集合的詞頻度和相對于文章正文詞集 合的詞頻度均與分類可信度正相關。具體地,分類可信度獲取模塊540可綜合地域關鍵詞序列中各個地域關鍵詞相對于文章標題詞集合的詞頻度以及地域關鍵詞序列中各個地域關鍵詞相對于文章正文詞集合的詞頻度,來計算文章與地域關鍵詞序列的分類可信度。進一步地,分類可信度獲取模塊540可先將各個地域關鍵詞相對于文章標題詞集合的詞頻度進行正相關運算得到第一中間值,并將各個地域關鍵詞相對于文章正文詞集合的詞頻度進行正相關運算得到第二中間值,將第一中間值和第二中間值進行正相關運算得到分類可信度,使得各個地域關鍵詞相對于文章標題詞集合的詞頻度和相對于文章正文詞集合的詞頻度均與分類可信度正相關。進行正相關運算具體可求和、求平均、加權求和或者加權求平均。本實施例中,將文章分為文章標題和文章正文,并分別統(tǒng)計詞頻度,可以使得計算出的分類可信度更加精確,使得最終的分類結果更加準確。在一個實施例中,分詞模塊520可分別對文章的各組成部分分別進行分詞處理獲得相應的詞集合,分類可信度獲取模塊540可根據(jù)各個地域關鍵詞相對于文章的各個組成部分的詞集合的詞頻度來計算分類可信度。如圖7所示,在一個實施例中,分類可信度獲取模塊540包括:第一加權和模塊541、第二加權和模塊542和計算模塊543。第一加權和模塊541,用于計算各個地域關鍵詞相對于文章標題詞集合的詞頻度的第一加權和。具體地,第一加權和模塊541可用于將各個地域關鍵詞相對于文章標題詞集合的詞頻度,分別乘以相應地域關鍵詞的用于計算第一加權和的權重后相加,獲得第一加權和。其中各個地域關鍵詞的用于計算第一加權和的權重可以記錄在地域關鍵詞序列列表中,也可以獨立于地域關鍵詞序列列表單獨記錄在另一個數(shù)據(jù)表中。地域關鍵詞序列中的各個地域關鍵詞的用于計算第一加權和的權重可以構成權重序列,且其中權重的次序與地域關鍵詞序列中的各個地域關鍵詞的次序一致。第二加權和模塊542,用于計算各個地域關鍵詞相對于文章正文詞集合的詞頻度的第二加權和。具體地,第二加權和模塊542可用于將各個地域關鍵詞相對于文章正文詞集合的詞頻度,分別乘以相應地域關鍵詞的用于計算第二加權和的權重后相加,獲得第二加權和。其中各個地域關鍵詞的用于計算第二加權和的權重可以記錄在地域關鍵詞序列列表中,也可以獨立于地域關鍵詞序列列表單獨記錄在另一個數(shù)據(jù)表中。地域關鍵詞序列中的各個地域關鍵詞的用于計算第二加權和的權重可以構成權重序列,且其中權重的次序與地域關鍵詞序列中的各個地域關鍵詞的次序一致。計算模塊543,用于根據(jù)第一加權和及第二加權和計算文章與地域關鍵詞序列的分類可信度;第一加權和及第二加權和均與分類可信度正相關。具體地,計算模塊543可用于將第一加權和與第二加權和進行正相關運算得到分類可信度,從而使得第一加權和及第二加權和均與分類可信度正相關。進行正相關運算具體可求和、求平均、加權求和或者加權求平均。在一個實施例中,計算模塊543可用于采用以下公式(3)來計算文章與地域關鍵詞序列的分類可信度T:公式(3)其中,f1i為地域關鍵詞序列中第i個地域關鍵詞相對于文章標題的詞頻度,λ1i為地域關鍵詞序列中第i個地域關鍵詞的用于計算第一加權和的權重,為第一加權和;f2i為地域關鍵詞序列中第i個地域關鍵詞相對于文章正文的詞頻度,λ2i為地域關鍵詞序列中第i個地域關鍵詞的用于計算第二加權和的權重,為第二加權和;n為地域關鍵詞序列中地域關鍵詞的總數(shù)量。本實施例中,將文章分為文章標題和文章正文,并分別統(tǒng)計詞頻度,可以使得加權求和計算出的分類可信度更加精確,使得最終的分類結果更加準確。在一個實施例中,地域關鍵詞序列中的各個地域關鍵詞的用于計算第二加權和的權重,在相應的地域關鍵詞相對于文章標題詞集合的詞頻度等于0時的值,小于該權重在相應的地域關鍵詞相對于文章標題詞集合的詞頻度大于0時 的值。具體地,地域關鍵詞序列中的各個地域關鍵詞的用于計算第二加權和的權重,也就是在計算第二加權和時相應的地域關鍵詞相對于文章正文詞集合的詞頻度的權重。具體可以用以下公式(4)表示:且δi>0,θ>1。其中,λ1i為地域關鍵詞序列中第i個地域關鍵詞的用于計算第一加權和的權重,f2i為地域關鍵詞序列中第i個地域關鍵詞相對于文章正文的詞頻度,δi和θ為常量。當文章標題中不存在第i個地域關鍵詞時,f2i=0;當文章標題中存在第i個地域關鍵詞時,f2i>0。本實施例中,根據(jù)文章標題中是否存在地域關鍵詞,進而將相應的地域關鍵詞在計算分類可信度時的權重作出動態(tài)的調整,具體當文章標題中存在地域關鍵詞時,相應地域關鍵詞在計算分類可信度時的重要性增加。這樣突出了文章標題中地域詞的作用,而文章標題中的地域詞通常在將文章按地域進行分類時具有重要作用,使得最終的分類結果更加準確。在一個實施例中,地域關鍵詞序列所包括的多個地域關鍵詞之間具有地域從屬關系,且地域關鍵詞在地域關鍵詞序列中的地域從屬層級越低則相應的用于計算第一加權和或者第二加權和的權重越大。具體地,地域關鍵詞序列中地域關鍵詞的地域從屬層級,表示的是相應的地域關鍵詞所表示的地域包含或者從屬的屬性大小,也反映了相應的地域關鍵詞所表示的地域大小,地域從屬層級越高,表示的地域越大;地域從屬層級越小,表示的地域越小。地域關鍵詞在地域關鍵詞序列中的地域從屬層級越低,則相應的用于計算第一加權和或者第二加權和的權重越大;地域關鍵詞在地域關鍵詞序列中的地域從屬層級越高,則相應的用于計算第一加權和或者第二加權和的權重越小。本實施例中,地域關鍵詞序列所包括的多個地域關鍵詞之間具有地域從屬關系,而且地域從屬層級越低在計算第一加權和或者第二加權和時的權重越大。考慮到越具體、所表示地域越小的地域關鍵詞如果出現(xiàn)在文章中,則該文章被 分類到該地域關鍵詞所屬序列對應的地域類別的可能性越大,分類準確性越高。如圖8所示,在一個實施例中,該文章分類裝置500還包括推薦模塊570,用于獲取具有與文章所屬的地域類別相同的地域類別的屬性的用戶標識,并向獲取的用戶標識所對應的終端推送文章。其中用戶標識所具有的上述地域類別的屬性,可由用戶設定或者通過用戶的閱讀歷史記錄分析出。此時該文章分類裝置500可以稱之為文章推薦裝置。本領域普通技術人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質中,該程序在執(zhí)行時,可包括如上述各方法的實施例的流程。其中,所述的存儲介質可為磁碟、光盤、只讀存儲記憶體(Read-OnlyMemory,ROM)等非易失性存儲介質,或隨機存儲記憶體(RandomAccessMemory,RAM)等。以上所述實施例的各技術特征可以進行任意的組合,為使描述簡潔,未對上述實施例中的各個技術特征所有可能的組合都進行描述,然而,只要這些技術特征的組合不存在矛盾,都應當認為是本說明書記載的范圍。以上所述實施例僅表達了本發(fā)明的幾種實施方式,其描述較為具體和詳細,但并不能因此而理解為對發(fā)明專利范圍的限制。應當指出的是,對于本領域的普通技術人員來說,在不脫離本發(fā)明構思的前提下,還可以做出若干變形和改進,這些都屬于本發(fā)明的保護范圍。因此,本發(fā)明專利的保護范圍應以所附權利要求為準。當前第1頁1 2 3 
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
昭苏县| 弥勒县| 资阳市| 重庆市| 梅河口市| 大兴区| 长沙县| 大港区| 玛多县| 句容市| 静宁县| 清水河县| 宜兴市| 高碑店市| 上高县| 邵阳县| 北票市| 伽师县| 新干县| 左贡县| 临桂县| 论坛| 克什克腾旗| 闵行区| 石台县| 广水市| 防城港市| 西吉县| 昭通市| 那曲县| 台前县| 德惠市| 荔浦县| 忻州市| 娱乐| 兰考县| 聂荣县| 鹤山市| 银川市| 衡南县| 时尚|