欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于改進(jìn)貝葉斯分類的短信智能分類及搜索方法與流程

文檔序號:12040704閱讀:206來源:國知局
一種基于改進(jìn)貝葉斯分類的短信智能分類及搜索方法與流程
本發(fā)明涉及一種分類方法及搜索方法,尤其涉及一種基于改進(jìn)貝葉斯分類的短信智能分類及搜索方法,屬于計(jì)算機(jī)軟件技術(shù)領(lǐng)域。

背景技術(shù):
在信息化高度發(fā)達(dá)的今天,人們的交流也變得愈加快捷和頻繁,在移動(dòng)通信領(lǐng)域,短信憑借著它獨(dú)特的優(yōu)勢,在人們的生活中占據(jù)著重要的位置??梢哉f,短信記錄了人們生活的點(diǎn)點(diǎn)滴滴,一次約會(huì),一次聊天,一次活動(dòng)的通知,一則生日的祝福,都被一條條的短信記錄下來。對于忙碌的現(xiàn)代人,他們已經(jīng)沒有時(shí)間像往常一樣通過日記來記錄下生活的瑣事,而短信,就是他們信息化時(shí)代下新的日記本。然而,如今的手機(jī)短信管理軟件看似琳瑯滿目,實(shí)際上則大同小異,基本都是對短信進(jìn)行以聯(lián)系人為特征分類,以時(shí)間為順序顯示的簡單非智能化的管理,這樣就導(dǎo)致了人們的短信成為了時(shí)間線而不是日記本,因?yàn)檎l都不會(huì)將自己的工作日記和情感日記寫到一起。對短信的智能管理,核心是能夠?qū)Χ绦胚M(jìn)行準(zhǔn)確的分類,但是,對正常用戶短信的分類困難重重,主要體現(xiàn)在文本太短:由于短信文本很短,這就導(dǎo)致特征值會(huì)多而散,非常的不明顯,很多的分類算法面對這種情況很難達(dá)到預(yù)想的效果。當(dāng)前,國內(nèi)外的商業(yè)公司越來越多的將目光聚焦于移動(dòng)平臺(tái),雖然關(guān)于自然語言處理和文本分類的研究已經(jīng)相對成熟,但是將其運(yùn)用于短信智能管理上還極不成熟,這種困難性是由短信的先天特質(zhì)而決定的。

技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提出一種自動(dòng)對短信進(jìn)行分類及搜索的算法。本發(fā)明主要應(yīng)用在Android智能手機(jī)上,每當(dāng)用戶接收到一條短信,就利用該算法將此條短信劃入系統(tǒng)預(yù)先定義好的某個(gè)類別中,方便用戶對短信進(jìn)行查看和管理。本發(fā)明是基于改進(jìn)貝葉斯分類的智能短信分類及搜索算法,能夠通過對短信特點(diǎn)的分析,綜合用戶習(xí)慣,結(jié)合國內(nèi)外現(xiàn)有短文本分類研究成果,解決短信的智能分類問題,從而提出一個(gè)高效可行的智能短信分類搜索方案。針對中文短信展開研究,分詞是基礎(chǔ)。本系統(tǒng)根據(jù)研究平臺(tái)的特點(diǎn)選擇了兩款最適合的分詞工具。1)中科院漢語分詞系統(tǒng):NLPIR(又名ICTCLAS2013)采用了層疊隱馬爾科夫模型(HierarchicalHiddenMarkovModel),可同時(shí)進(jìn)行分詞和詞性標(biāo)注,支持用戶詞典,支持多種編碼,在準(zhǔn)確率上非常優(yōu)秀。本系統(tǒng)采用NLPIR系統(tǒng)在PC端對訓(xùn)練集進(jìn)行切詞和詞性標(biāo)注。但是經(jīng)過實(shí)驗(yàn)證明,NLPIR在手機(jī)端切詞并不合適,原因是NLPIR發(fā)行包很大,打包到手機(jī)應(yīng)用中會(huì)極大的影響用戶體驗(yàn)。2)Jcseg:Jcseg是使用Java開發(fā)的一個(gè)中文分詞器,使用流行的mmseg算法實(shí)現(xiàn)。根據(jù)Jsceg官方wiki公布,其分詞準(zhǔn)確率達(dá)到了98.41%。開源、輕量級的Jcseg是手機(jī)端切詞的很好選擇,由于Jcseg官方版本并不支持安卓系統(tǒng),通過對Jcseg的部分代碼重寫(替換一些在Android中不支持的函數(shù),比如將Java常用的System.out輸出信息改為Android中的Log等;修改字典的讀取路徑,將字典文件放入Android應(yīng)用的assets文件夾中),得到了一個(gè)安卓版本的Jcseg,實(shí)驗(yàn)證明,該分詞系統(tǒng)在安卓手機(jī)上有很好的分詞效果。為達(dá)成上述目的,本發(fā)明的技術(shù)方案步驟包括:1)對訓(xùn)練集中的短信,在PC端利用中科院漢語分詞系統(tǒng)得到詞條的集合;中科院分詞系統(tǒng)對詞語的詞性進(jìn)行了詳細(xì)的分類(如名詞、時(shí)間詞、處所詞、方位詞、動(dòng)詞、形容詞等),而其中有一些高頻詞是沒有意義的,比如“的”“了”“吧”等。本發(fā)明出于效率和準(zhǔn)確率的折中考慮,僅保留名詞、動(dòng)詞和形容詞三類;2)在PC端利用一種適用于短信內(nèi)容的特征值提取方法計(jì)算詞條的重要性值并排序,將前N個(gè)詞條的集合作為系統(tǒng)的特征值集合;每個(gè)特征詞及其在各個(gè)類別中的權(quán)重值(重要性值)保存在一個(gè)文件中,在系統(tǒng)進(jìn)行手機(jī)端的初始化操作時(shí)直接導(dǎo)入;3)對于用戶手機(jī)上已存在的每一條短信,根據(jù)改進(jìn)的貝葉斯分類算法計(jì)算該短信屬于每個(gè)類別的概率,并將具有最大概率的類別作為該短信的分類結(jié)果,保存在手機(jī)的短信類別數(shù)據(jù)庫表中;4)監(jiān)聽用戶的手機(jī)短信,對于每一條收到的短信,利用3)所述流程對該短信進(jìn)行分類。5)利用搜索模塊可以向數(shù)據(jù)管理模塊發(fā)送搜索請求,對數(shù)據(jù)庫中已有的短信進(jìn)行搜索,并將得到的搜索結(jié)果發(fā)送到界面模塊展示給用戶。與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:本發(fā)明綜合了短信文本的詞條頻率、文本平均長度和總詞條數(shù)等因素,在現(xiàn)有的特征值提取方法基礎(chǔ)上進(jìn)行改進(jìn),提出了一種適用于短信內(nèi)容的特征值提取方法;本發(fā)明對樸素貝葉斯分類器進(jìn)行了改進(jìn),加入了特征詞的重要性值以及文本長度的因素,使之對短信文本的特征描述更加準(zhǔn)確,得到了更好的分類效果。對手機(jī)短信進(jìn)行準(zhǔn)確的分類,有利于用戶更便捷地從中發(fā)現(xiàn)生活主題、追蹤生活軌跡,更高效地進(jìn)行信息查詢。分類之后的短信列表長度明顯縮短,為用戶進(jìn)行信息檢索提供了一種新的方式,提高了信息查詢的效率。附圖說明圖1示出了本發(fā)明基于改進(jìn)貝葉斯分類的智能短信分類算法流程圖;圖2示出了本發(fā)明實(shí)施例中初始化模塊的流程圖。具體實(shí)施方式本發(fā)明根據(jù)已有的短信文本訓(xùn)練集對改進(jìn)的樸素貝葉斯分類器進(jìn)行訓(xùn)練,得到特征詞集合及其元素在各個(gè)預(yù)定義類別中的權(quán)重值,然后對用戶的手機(jī)中已有的短信進(jìn)行分類,保存分類結(jié)果,每當(dāng)短信收信箱中有新短信到來時(shí),自動(dòng)對新短信進(jìn)行分類。本發(fā)明的方法流程如圖1所示,可以通過以下方式實(shí)施:1)利用PC端的訓(xùn)練模塊根據(jù)已有的訓(xùn)練集進(jìn)行訓(xùn)練,得到特征詞集合及其元素在各個(gè)預(yù)定義類別中的權(quán)重值,并將這些數(shù)據(jù)發(fā)送到初始化模塊;2)利用初始化模塊將訓(xùn)練模塊得到的數(shù)據(jù)和手機(jī)中已有的短信發(fā)送給分類模塊進(jìn)行分類;3)利用短信監(jiān)聽模塊對新收到的短信進(jìn)行監(jiān)聽,將捕獲的短信數(shù)據(jù)發(fā)送給分類模塊進(jìn)行分類;4)利用分類模塊,根據(jù)改進(jìn)的貝葉斯分類算法對短信進(jìn)行分類,將分類結(jié)果發(fā)送到數(shù)據(jù)管理模塊,保存在數(shù)據(jù)庫中,并發(fā)送到界面模塊將結(jié)果展示給用戶;5)利用搜索模塊可以向數(shù)據(jù)管理模塊發(fā)送搜索請求,對數(shù)據(jù)庫中已有的短信進(jìn)行搜索,并將得到的搜索結(jié)果發(fā)送到界面模塊展示給用戶;6)數(shù)據(jù)管理模塊負(fù)責(zé)提供一個(gè)數(shù)據(jù)存儲(chǔ)的接口,讓其他模塊能夠統(tǒng)一的從該模塊對數(shù)據(jù)庫進(jìn)行操作。7)利用界面模塊,用戶可以對短信進(jìn)行查看和管理。PC端的訓(xùn)練模塊的工作方法為:1)利用中科院分詞系統(tǒng)對訓(xùn)練集中的文本進(jìn)行分詞,得到每個(gè)文檔(即短信文本)及其詞條的集合;訓(xùn)練集可以為從互聯(lián)網(wǎng)獲得的祝福短信庫和新加坡國立大學(xué)2004年收集的短信語料庫。2)對于每個(gè)詞條,利用一種適用于短信內(nèi)容的特征值提取方法計(jì)算它在整個(gè)訓(xùn)練集中的重要性值;3)將詞條按重要性值降序排列,取前N個(gè)詞條組成特征詞集合;4)將每個(gè)特征詞及其在每個(gè)類別中的重要性值輸出到一個(gè)文件中。其中,適用于短信內(nèi)容的特征值提取方法是本發(fā)明的一個(gè)重點(diǎn)內(nèi)容,其重要性值的計(jì)算公式推導(dǎo)過程如下:詞條t在類別C中的重要性用I(t,C)來表示。首先,顯然如果一個(gè)詞條在這個(gè)類別中出現(xiàn)的概率越高,則重要性越大,即:其中,F(xiàn)(C)表示類別C中的短信總數(shù),F(xiàn)(t,C)表示屬于類別C的短信中出現(xiàn)詞條t的短信個(gè)數(shù)。其次,如果一個(gè)類別中的平均文檔越長,則說明一個(gè)詞條對文檔類別的重要性會(huì)越小:其中,avgLen(C)表示類別C中短信的平均文本長度。最后,如果一個(gè)類別中的詞條數(shù)越多,則一個(gè)詞條對文檔的重要性會(huì)越?。?![CDATA[I(t,C)∝1termNum(C)]]>其中,termNum(C)表示類別C中的總詞條數(shù)。綜合以上分析,我們得到一個(gè)詞條在一個(gè)類別中的重要性推導(dǎo)公式:為了避免I(t,C)等于0,我們采用拉普拉斯概率估計(jì):最終的重要性用對數(shù)來表示:一個(gè)詞條在整個(gè)訓(xùn)練集中的重要性為:根據(jù)此處I(t)的公式,取最大的前Q個(gè)詞條作為特征值,這個(gè)值可以根據(jù)類別的多少靈活調(diào)整。如圖2所示,手機(jī)端的初始化模塊的工作方法為:1)加載特征值詞表;2)從短信數(shù)據(jù)庫中讀取一條短信;3)利用安卓版本的Jcseg對短信進(jìn)行分詞處理;4)將分詞后的短信發(fā)送至分類模塊進(jìn)行分類,利用貝葉斯分類算法根據(jù)特征詞表對短信進(jìn)行分類;5)將分類結(jié)果發(fā)送至數(shù)據(jù)管理模塊,保存到數(shù)據(jù)庫中;6)重復(fù)2)到5)的過程,直至將系統(tǒng)中所有短信完成分類。短信監(jiān)聽模塊用來檢測新短信的到來,如果有新的短信到來,該模塊首先對該短信進(jìn)行分詞處理,然后將結(jié)果交由分類模塊分類,并且將分類的結(jié)果和短信的內(nèi)容以Notification的形式來提醒用戶。分類模塊利用改進(jìn)的貝葉斯分類算法將短信歸入系統(tǒng)預(yù)定義的某個(gè)類別當(dāng)中,該算法是本發(fā)明的另一個(gè)重要內(nèi)容。首先,訓(xùn)練集中的短信分為m類,對于手機(jī)上的每條短信d,其屬于類別Ci(i=1…m)的概率是P(Ci|d),這樣,具有最大P(Ci|d)的類別Ci就是該短信d最終的分類結(jié)果。具體的P(Ci|d)的計(jì)算如下:根據(jù)貝葉斯定理其中,P(Ci)表示類別Ci出現(xiàn)的概率,P(d)表示短信d出現(xiàn)的概率,P(d|Ci)是短信d屬于類別Ci的“先驗(yàn)概率”。由于P(d)對于所有的類別Ci(i=1…m)均相等,所以有:P(Ci|d)∝P(d|Ci)·P(Ci)P(Ci)使用拉普拉斯概率估計(jì):N是樣本短信總數(shù),m是類別總數(shù),F(xiàn)(Ci)表示類別Ci中的短信總數(shù),短信樣本d可以表示為其提取的特征詞{t1,t2,…,tk},由于不同的特征值對于給定的類別的影響是相互獨(dú)立的,有:對于上式中tj在類別Ci中出現(xiàn)的概率P(tj|Ci)的計(jì)算,傳統(tǒng)上有文檔型計(jì)算公式和詞頻型計(jì)算公式。在本方法中,為了更精確地描述一個(gè)詞條對于某個(gè)分類的重要性,我們用到了在訓(xùn)練模塊中得到的特征詞的權(quán)重,即P(tj|Ci)=I(tj,Ci)。另外,短信具有一個(gè)很重要的特征——長度。下面我們引入一個(gè)長度評估因子L(d,C),評估因子越大,表明長度特征越吻合,P(Ci|d)越大。P(Ci|d)∝L(d,Ci)假設(shè)類別C的文檔平均長度為avgLen(C),待分類樣本d的長度為Len(d),參數(shù)k代表了長度特征對類別的影響度,稱之為長度影響因子,k越大,則長度特征對最終的結(jié)果影響越大。綜合以上推導(dǎo),得到改進(jìn)的貝葉斯分類算法,對于類別Ci(i=1…m),待分類短信為d,則d屬于類別Ci的概率為:分類模塊根據(jù)此公式計(jì)算每條待分類短信屬于每個(gè)類別的概率,概率最大的類別即為該短信所屬的類別。本發(fā)明在分類過程中充分利用了特征值的選取和權(quán)重,進(jìn)一步的加入了文本長度的因素,使分類結(jié)果更準(zhǔn)確。數(shù)據(jù)管理模塊主要提供一個(gè)數(shù)據(jù)存儲(chǔ)的接口,讓其他模塊能夠統(tǒng)一的從該模塊對數(shù)據(jù)庫進(jìn)行操作。搜索模塊接收用戶輸入關(guān)鍵詞,在短信數(shù)據(jù)庫中進(jìn)行搜索,返回搜素結(jié)果到搜索列表界面并且顯示。界面模塊主要提供人機(jī)交互的作用,主要有1)聯(lián)系人列表界面:類似手機(jī)默認(rèn)的短信管理工具按聯(lián)系人對短信進(jìn)行組織,以列表的形式將聯(lián)系人名字、短信數(shù)、最近短信時(shí)間等信息展示出來;2)短信列表界面:顯示與某個(gè)聯(lián)系人的短信對話詳情,以短信氣泡的形式顯示每一條短信,并提供刪除短信、發(fā)新短信等功能;3)分類列表界面:用圓角矩形按鈕顯示系統(tǒng)預(yù)定義的短信類別名稱(如“祝?!薄皩W(xué)習(xí)”等),打開可查看屬于此類別的短信詳情;4)搜索界面:顯示按關(guān)鍵詞搜索短信的結(jié)果列表,列表中提供信息內(nèi)容預(yù)覽,并以時(shí)間順序排列;5)系統(tǒng)信息界面:顯示該應(yīng)用軟件的用戶反饋入口、使用幫助、作者信息等內(nèi)容;6)新短信通知界面:當(dāng)新短信到來時(shí),在通知欄上顯示短信預(yù)覽,短信正文前加上分類結(jié)果作為前綴,并以該應(yīng)用軟件的圖標(biāo)表示這是該軟件分類的結(jié)果。
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1
哈尔滨市| 安陆市| 阳春市| 明星| 新和县| 乐清市| 新沂市| 山西省| 陈巴尔虎旗| 故城县| 双鸭山市| 建昌县| 横山县| 织金县| 揭东县| 岐山县| 蒲江县| 灵山县| 隆安县| 措勤县| 镇原县| 偏关县| 昌邑市| 临颍县| 信宜市| 武汉市| 沾化县| 呼伦贝尔市| 晋中市| 娄底市| 故城县| 六安市| 额敏县| 泰来县| 盘锦市| 巨野县| 江西省| 牡丹江市| 万全县| 石阡县| 翁牛特旗|