欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于局部敏感哈希的分布式快速文本分類方法

文檔序號:9432613閱讀:894來源:國知局
一種基于局部敏感哈希的分布式快速文本分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種基于局部敏感哈希的分布式快速文本分類方法,用于實現(xiàn)對文本 進行快速高效地自動分類,屬于文本挖掘技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 近年來,隨著信息技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)中數(shù)字文本大量涌現(xiàn),如何有效管理運 些文本顯得尤為重要。文本分類是有效管理文本的重要方法,在網(wǎng)頁捜索、垃圾郵件過濾、 用戶反饋及個性化推薦系統(tǒng)等方面應(yīng)用廣泛。文本分類方法主要有兩個評價指標:精確度 和速度。前者用來表征文本是否歸類到合適的分類中,而后者用來說明算法的執(zhí)行效率。 從提高運兩項指標出發(fā),目前比較典型的文本分類方法主要有基于支持向量機(SVM)的方 法、基于貝葉斯度ayes)的方法、線性分類化及K-近鄰等。其中,基于SVM的文本分類方法 通過在高維或無窮維的空間中構(gòu)建一個或一組超平面,使得總體的函數(shù)邊界誤差最小,從 而克服冗余特征、過擬合等問題,取得較高的分類精度。此外,該方法還具有更好的泛化能 力。然而,由于其模型復(fù)雜,通常需要消耗大量的時間與空間,并且在大規(guī)模數(shù)據(jù)集下常常 難W快速收斂。其它方法如基于貝葉斯的方法、線性分類及k近鄰等,它們具有較快的收斂 速度,但總的來說模型相對簡單。
[0003] 為了獲得更好的算法性能,研究人員分別提出了相關(guān)的改進方法,運些改進方法 或是結(jié)合已有方法(如結(jié)合PCA與LDA),或是利用技術(shù)手段優(yōu)化已有方法(如利用人工免 疫系統(tǒng)理論優(yōu)化Bayes方法)。然而,一般來說,運些方法在速度上優(yōu)于SVM方法,而在分 類準確度上則略顯不足。此外,目前已有的文本分類方法主要針對文本數(shù)量不多的情景,而 互聯(lián)網(wǎng)已經(jīng)進入了大數(shù)據(jù)時代,運些方法在互聯(lián)網(wǎng)大數(shù)據(jù)背景下處理海量文本顯得愈加吃 力。相比而言,哈希方法能夠在將對象的較高維度信息映射為較低維度信息的同時,保留關(guān) 于該對象的一些重要特征屬性,因而比較適合進行快速高效的數(shù)據(jù)處理。哈希方法已經(jīng)在 很多數(shù)據(jù)處理領(lǐng)域(如基于內(nèi)容的圖片檢索、重復(fù)文本檢測等)得到了成功應(yīng)用,但將它直 接應(yīng)用到文本分類還存在一些困難,如分詞方法和哈希函數(shù)的選取、大數(shù)據(jù)環(huán)境下的并行 執(zhí)行效率等。另外,作為一類特殊的哈希方法,局部敏感哈希方法除具備一般哈希方法的 優(yōu)勢之外,它還有一個重要特性,即相似對象所對應(yīng)的哈希值也比較接近。因此,針對現(xiàn)有 文本分類方法的不足,同時將局部敏感哈希方法的特性與并行計算框架Spark的優(yōu)勢相結(jié) 合,本發(fā)明提出了一種快速準確的文本分類方法,能夠很好地解決已有方法的弊端,滿足大 數(shù)據(jù)環(huán)境的迫切需求。

【發(fā)明內(nèi)容】

[0004] 發(fā)明目的:針對現(xiàn)有技術(shù)中存在的問題與不足,本發(fā)明提供一種基于局部敏感哈 希的分布式快速文本分類方法,用于解決文本分類存在的準確率和速度有待進一步提高W 及無法滿足大數(shù)據(jù)環(huán)境需求的問題。 陽〇化]技術(shù)方案:一種基于局部敏感哈希的分布式快速文本分類方法,與已有方法不同 的是,該方法采用局部敏感哈希技術(shù)將大量的文本特征映射到固定維度,并據(jù)此生成每個 類別的哈希值,計算待比較文本哈希值與每個類別哈希值的相關(guān)性,從而完成該文本準確 快速地歸類;為適應(yīng)大數(shù)據(jù)環(huán)境的需求,本發(fā)明還基于Spark框架進行設(shè)計實現(xiàn),進一步提 高了該方法的性能及可擴展性。
[0006] 具體可分為四個步驟:步驟1首先依次對文本進行分詞、去停用詞,存儲為皿FS文 件等操作,然后將所有文本加載到彈性分布式數(shù)據(jù)集巧esilientDistributedDatasets, 畑D);步驟2計算每個詞語的n比特哈希值,并根據(jù)詞頻,通過R孤的變換,計算詞語的 tfi壯值,并存儲在RDD(tfi壯)之中;步驟3根據(jù)訓(xùn)練數(shù)據(jù)集中每個類別下所有文本的詞 語tfi壯值及n比特哈希值,計算每個類別的n比特類別向量及哈希值;步驟4基于n比特 哈希值,計算待分類文本與每個類別的匹配度,得到文本所屬類別。
[0007] 有益效果:本發(fā)明與現(xiàn)有技術(shù)相比,具有W下優(yōu)點:
[0008] 1.采用局部敏感哈希方法對文本特征進行壓縮映射,同時保留文本特征,從而生 成類別及文本的哈希值,具有較高的分類準確性及較快的分類速度。
[0009] 2.可W設(shè)定類別或文本哈希位數(shù),從而可選擇更高的分類準確度或更快的分類速 度,滿足不同分類場景的需求。
[0010] 3.基于Spark框架進行了算法設(shè)計及實現(xiàn),進一步提高了分類方法的執(zhí)行速度、 增加了方法的可擴展能力,滿足大數(shù)據(jù)環(huán)境的需求。
【附圖說明】
[0011] 圖1本發(fā)明實施例的文本分類過程圖;
[0012] 圖2為本發(fā)明實施例中詞語操作過程圖。
【具體實施方式】
[0013] 下面結(jié)合具體實施例,進一步闡明本發(fā)明,應(yīng)理解運些實施例僅用于說明本發(fā)明 而不用于限制本發(fā)明的范圍,在閱讀了本發(fā)明之后,本領(lǐng)域技術(shù)人員對本發(fā)明的各種等價 形式的修改均落于本申請所附權(quán)利要求所限定的范圍。
[0014] 如圖1所示,整個文本分類過程包括文本預(yù)處理、tfi壯計算、文本或分類特征提 取、W及文本分類確定等部分。
[0015] 本發(fā)明具體實施時包括W下幾個階段:
[0016] 步驟1,對訓(xùn)練文本集進行預(yù)處理。首先是收集帶有分類標簽的文本集作為訓(xùn) 練集,采用Lucene分詞組件巧-Analysis對文本集進行分詞處理,并去除停用詞。將處 理過的文本存儲到皿FS文件系統(tǒng),然后將所有文本加載到彈性分布式數(shù)據(jù)集巧esilient DistributedDatasets,畑D),其中畑D中每一行表征一篇文本,然后采用Spark框架所支 持的cacheO函數(shù)將該數(shù)據(jù)放置在內(nèi)存中,W便后續(xù)處理。
[0017] 步驟2,計算每個詞語的n比特哈希值及tfi壯值。采用MD5哈希算法對文本中 的每個詞語特征進行哈希運算,每條詞語特征對應(yīng)一個n比特哈希值,該比特位數(shù)可根據(jù) 實際應(yīng)用需求進行調(diào)整,n比較大時,算法準確度較高、收斂較慢,反之,準確度稍低,收斂較 快。n的具體取值范圍為16~128。在計算詞語的tfi壯值時,采用哈希映射的方法,將所 有的文本特征分別映射到216維的向量中,從而方便特征的快速哈希和查找;該tfi壯值的 計算基于Spark并行框架,計算完成之后存儲與RDD(tfi壯)中。對每條詞語w(如圖2所 示,通過下標來區(qū)分不同的詞語,如Wi,W2,……)進行map操作,轉(zhuǎn)換為元組(w,l),然后通 過R孤提供的re化ceByKey操作,將所有的元組進行累加操作,獲取每個詞語的詞頻,對詞 語的操作過程
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
阜新市| 长泰县| 恩平市| 张家港市| 监利县| 闻喜县| 南陵县| 汉川市| 益阳市| 济宁市| 东丽区| 平陆县| 平罗县| 龙陵县| 中牟县| 奈曼旗| 普宁市| 宜君县| 多伦县| 准格尔旗| 磐安县| 大英县| 武隆县| 宜兰市| 永善县| 庐江县| 和林格尔县| 贵南县| 岳普湖县| 锡林郭勒盟| 威海市| 慈溪市| 普格县| 太谷县| 万宁市| 阿勒泰市| 务川| 禹州市| 霍州市| 墨玉县| 四川省|