欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種對(duì)網(wǎng)頁(yè)進(jìn)行分類的方法和系統(tǒng)的制作方法

文檔序號(hào):6430172閱讀:156來(lái)源:國(guó)知局
專利名稱:一種對(duì)網(wǎng)頁(yè)進(jìn)行分類的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明主要涉及網(wǎng)絡(luò)技術(shù)中的互聯(lián)網(wǎng)搜索技術(shù)領(lǐng)域,尤其涉及一種對(duì)網(wǎng)頁(yè)進(jìn)行分類的方法和系統(tǒng)。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和信息傳播手段的不斷進(jìn)步,我們每天都會(huì)在互聯(lián)網(wǎng)上搜索查看各式各樣的信息,如新聞事件,娛樂(lè)消息等。而在這些文本信息中一個(gè)很重要的方面就是新聞報(bào)道的文本信息。有些新聞知識(shí)基于事件本身的客觀性報(bào)道,比如哈利波特七上映,歐盟呼吁歐洲共同應(yīng)對(duì)危機(jī)等等,這種新聞報(bào)道對(duì)所發(fā)生的新聞事實(shí)進(jìn)行客觀描述,一般所有的報(bào)道都很近似。但是有一些新聞事件由于得知的路徑不一,或其具有開(kāi)放性和模糊性,導(dǎo)致各方面口徑不一,就會(huì)對(duì)同一主題事件出現(xiàn)多個(gè)版本的報(bào)道,如火車(chē)追尾事件,有報(bào)道說(shuō)是因?yàn)槔讚羰录?dǎo)致了火車(chē)動(dòng)力不足,從而來(lái)不及剎車(chē),有報(bào)道稱是火車(chē)人員的疏忽,沒(méi)有看到報(bào)警提示消息等等。為了更好地幫助讀者了解全面的相關(guān)的新聞信息,抓 住新聞事件的脈絡(luò)關(guān)系,需要使用相應(yīng)的技術(shù)對(duì)這些文本信息進(jìn)行處理,理出多個(gè)不同版本的描述。對(duì)于事件的多版本發(fā)現(xiàn)問(wèn)題最直接的考慮是對(duì)網(wǎng)頁(yè)進(jìn)行簡(jiǎn)單的聚類,但是單純的聚類是有很多局限性的,由于對(duì)于同一事件的新聞報(bào)道在內(nèi)容的主題上通常具有高度相似性,簡(jiǎn)單的聚類方法無(wú)法將其中不同的語(yǔ)義信息有效地進(jìn)行區(qū)分。目前,關(guān)于網(wǎng)頁(yè)上的新聞事件多版本的研究工作很少,其中最相關(guān)的是基于圖模型的事件版本發(fā)現(xiàn)算法,即DVD算法。DVD算法是一種基于語(yǔ)義的迭代算法,DVD算法的流程包括三個(gè)部分(I)詞圖構(gòu)建。詞是構(gòu)成文檔最基礎(chǔ)的單元,首先提取文檔中的流行詞(popularwords),并將這些流行詞過(guò)濾掉以減少文檔之間的聯(lián)系,然后構(gòu)建詞圖以顯示詞與詞之間到鏈接關(guān)系;(2)詞圖社區(qū)發(fā)現(xiàn)。基于步驟(I)中建立的詞圖關(guān)系,進(jìn)行社區(qū)發(fā)現(xiàn)以得到詞社區(qū),然后根據(jù)社區(qū)的詞分布,構(gòu)建虛擬文檔,每一篇虛擬文檔由a bag of words構(gòu)成,描述的是一個(gè)版本的詞分布。(3)版本分類。利用第(2)步構(gòu)建的虛擬文檔的向量表示每一個(gè)版本的中心,每一個(gè)向量的權(quán)重根據(jù)文檔的特征來(lái)計(jì)算,然后,利用Rocchio分類算法將文檔分為不同的版本類別。DVD算法雖然可以進(jìn)行事件的多版本發(fā)現(xiàn),但是,它卻忽視了文檔之間在文本以及語(yǔ)義上的關(guān)聯(lián)。所謂文本關(guān)聯(lián)就是兩篇文章在用詞方面的有關(guān)聯(lián)的,如火車(chē)追尾事件,在所有關(guān)于此事件的報(bào)道中都會(huì)出現(xiàn)“追尾”這個(gè)詞,但是每篇報(bào)道中對(duì)“追尾”進(jìn)行的描述有可能是不一樣的;所謂語(yǔ)義關(guān)聯(lián)就是雖然兩篇文章的用詞不同,但是所表達(dá)的語(yǔ)義卻是有關(guān)聯(lián)的,如火車(chē)追尾事件,有些報(bào)道會(huì)說(shuō)“動(dòng)車(chē)追尾”,有些報(bào)道會(huì)說(shuō)“列車(chē)追尾”,其實(shí)雖然用詞不同,但是在語(yǔ)義上和“火車(chē)追尾”表達(dá)的同一個(gè)意思。由于DVD算法忽視了文檔之間在文本以及語(yǔ)義上的關(guān)聯(lián),沒(méi)有對(duì)文本進(jìn)行主題分類,判斷相似度等,就使得對(duì)同一主題的多個(gè)網(wǎng)頁(yè)分類不完全,不夠精確,無(wú)法得到區(qū)分度高的類別,也使讀者不能夠全面的獲取該事件信息。

發(fā)明內(nèi)容
本發(fā)明提供一種對(duì)多個(gè)網(wǎng)頁(yè)進(jìn)行分類的方法和系統(tǒng),用以解決現(xiàn)有技術(shù)中存在對(duì)同一主題的多個(gè)網(wǎng)頁(yè)分類不完全,不夠精確,使讀者不能夠全面的獲取該事件信息的問(wèn)題。本發(fā)明通過(guò)本申請(qǐng)中的實(shí)施例提供如下技術(shù)方案一種對(duì)多個(gè)網(wǎng)頁(yè)進(jìn)行分類的方法,所述多個(gè)網(wǎng)頁(yè)為與一主題相關(guān)的網(wǎng)頁(yè),所述主題包括至少兩個(gè)版本,包括如下步驟獲得所述多個(gè)網(wǎng)頁(yè),并基于所述多個(gè)網(wǎng)頁(yè),獲得數(shù)量與所述多個(gè)網(wǎng)頁(yè)一致的多個(gè)文檔; 對(duì)所述多個(gè)文檔中的每個(gè)文檔進(jìn)行處理,獲得數(shù)量與所述多個(gè)文檔一致的多個(gè)特征單元集,所述多個(gè)特征單元集中的每個(gè)特征單元集都包括有至少一個(gè)特征單元,所述至少一個(gè)特征單元用來(lái)體現(xiàn)對(duì)應(yīng)網(wǎng)頁(yè)的特征;計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元的特征值;基于所有所述每個(gè)特征單元集中的每個(gè)特征單元的特征值,進(jìn)行文本聚類,將所述多個(gè)網(wǎng)頁(yè)中的每個(gè)網(wǎng)頁(yè)歸到所述至少兩個(gè)版本中的一個(gè)版本。其中,所述多個(gè)文檔包括第一文檔,所述多個(gè)特征單元集,包括與所述第一文檔對(duì)應(yīng)的第一特征單元集,所述第一特征單元集可以通過(guò)如下三個(gè)方法獲得(I)對(duì)所述第一文檔進(jìn)行切詞處理,獲得多個(gè)第一詞匯;對(duì)所述多個(gè)第一詞匯進(jìn)行過(guò)濾停詞和詞根還原處理,獲得多個(gè)第二詞匯,所述多個(gè)第二詞匯即構(gòu)成所述第一文檔的特征單元集;其中,所述多個(gè)第二詞匯的數(shù)量不大于所述多個(gè)第一詞匯的數(shù)量。(2)基于方法(I),更優(yōu)地,在所述對(duì)所述多個(gè)第一詞匯進(jìn)行過(guò)濾停詞和詞根還原處理,獲得多個(gè)第二詞匯之后,還包括統(tǒng)計(jì)所述多個(gè)第二詞匯中的每個(gè)第二詞匯在所述多個(gè)網(wǎng)頁(yè)中出現(xiàn)的頻率,得到與每個(gè)第二詞匯對(duì)應(yīng)的詞匯頻率值;將所述多個(gè)第二詞匯中的詞匯頻率值為1,或大于一閥值D的第二詞匯過(guò)濾掉,獲得多個(gè)第三詞匯,所述多個(gè)第三詞匯即構(gòu)成所述第一文檔的特征單元集;其中,所述多個(gè)第三詞匯的數(shù)量不大于所述多個(gè)第二詞匯的數(shù)量;所述閥值D為大于或等于3的整數(shù)。(3)基于方法(2),更優(yōu)地,在將所述多個(gè)第二詞匯中的詞匯頻率值為1,或大于一閥值D的第二詞匯過(guò)濾掉,獲得多個(gè)第三詞匯之后,還包括利用LDA數(shù)學(xué)模型對(duì)所述多個(gè)第三詞匯進(jìn)行篩選處理,獲得多個(gè)第四詞匯,所述多個(gè)第四詞匯即構(gòu)成所述第一文檔的特征單元集;其中,所述多個(gè)第四詞匯的數(shù)量不大于所述多個(gè)第三詞匯的數(shù)量。所述利用LDA數(shù)學(xué)模型對(duì)所述多個(gè)第三詞匯進(jìn)行篩選處理,具體包括利用LDA數(shù)學(xué)模型,對(duì)所述多個(gè)第三詞匯和所述多個(gè)第三詞匯相對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行分析,得到詞-主題矩陣;所述矩陣中的每個(gè)詞匯組成所述多個(gè)第四詞匯,所述矩陣每一行作為所述多個(gè)第四詞匯的特征向量,所述多個(gè)第四詞匯的特征向量即構(gòu)成所述第一文檔的特征單元集;其中,所述矩陣中的每行能體現(xiàn)所述多個(gè)第三詞匯中每個(gè)第三詞匯在文本上的分布狀況,每行有K維,每個(gè)所述多個(gè)第三詞匯在不同主題上的分布情況,能反映出每個(gè)第三詞匯與所述至少兩個(gè)版本中任一版本間的相關(guān)度。其中,所述計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元的特征值,具體包括根據(jù)TF-IDF計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元在所述每個(gè)特征單元相對(duì)應(yīng)的文檔中的TF詞頻值;根據(jù)TF-IDF計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元在所述所有文檔中的IDF反文檔頻率值; 將每個(gè)特征單元的TF詞頻值和IDF反文檔頻率值相乘,以得到每個(gè)特征單元在所述每個(gè)特征單元相對(duì)應(yīng)的文檔中的TF-IDF權(quán)值,所述TF-IDF權(quán)值即為所述每個(gè)特征單元集中的每個(gè)特征單元的特征值。其中,所述進(jìn)行文本聚類,具體為利用K-means算法來(lái)對(duì)進(jìn)行文本聚類。本發(fā)明通過(guò)本申請(qǐng)中的實(shí)施例提供如下技術(shù)方案一種對(duì)網(wǎng)頁(yè)進(jìn)行分類的系統(tǒng),具體包括獲取單元,用于獲得所述多個(gè)網(wǎng)頁(yè),并基于所述多個(gè)網(wǎng)頁(yè),獲得數(shù)量與所述多個(gè)網(wǎng)頁(yè)一致的多個(gè)文檔;處理單元,用于對(duì)所述多個(gè)文檔中的每個(gè)文檔進(jìn)行處理,獲得數(shù)量與所述多個(gè)文檔一致的多個(gè)特征單元集,所述多個(gè)特征單元集中的每個(gè)特征單元集都包括有至少一個(gè)特征單元,所述至少一個(gè)特征單元用來(lái)體現(xiàn)對(duì)應(yīng)網(wǎng)頁(yè)的特征;計(jì)算單元,用于計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元的特征值;文本聚類單元,用于對(duì)基于所有所述每個(gè)特征單元集中的每個(gè)特征單元的特征值,進(jìn)行文本聚類,并將所述多個(gè)網(wǎng)頁(yè)中的每個(gè)網(wǎng)頁(yè)歸到所述至少兩個(gè)版本中的一個(gè)版本。其中,所述處理單元中所述多個(gè)文檔中的每個(gè)文檔進(jìn)行處理,獲得數(shù)量與所述多個(gè)文檔一致的多個(gè)特征單元集,所述多個(gè)特征單元集中的每個(gè)特征單元集都包括有至少一個(gè)特征單元,所述至少一個(gè)特征單元用來(lái)體現(xiàn)對(duì)應(yīng)網(wǎng)頁(yè)的特征,可以通過(guò)以下三種技術(shù)方案獲得,具體包括SI,一般地,切詞處理單元,用于對(duì)所述第一文檔進(jìn)行切詞處理,獲得多個(gè)第一詞匯;詞根還原處理單元,用于對(duì)所述多個(gè)第一詞匯進(jìn)行過(guò)濾停詞和詞根還原處理,獲得多個(gè)第二詞匯,所述多個(gè)第二詞匯即構(gòu)成所述第一文檔的特征單元集;其中,所述多個(gè)第二詞匯的數(shù)量不大于所述多個(gè)第一詞匯的數(shù)量。S2,基于SI,更優(yōu)地,在所述詞根還原處理單元之后,還包括詞頻統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述多個(gè)第二詞匯中的每個(gè)第二詞匯在所述多個(gè)網(wǎng)頁(yè)中出現(xiàn)的頻率,得到與每個(gè)第二詞匯對(duì)應(yīng)的詞匯頻率值;詞頻過(guò)濾單元,用于將所述多個(gè)第二詞匯中的詞匯頻率值為1,或大于一閥值D的第二詞匯過(guò)濾掉,獲得多個(gè)第三詞匯,所述多個(gè)第三詞匯即構(gòu)成所述第一文檔的特征單元集;其中,所述多個(gè)第三詞匯的數(shù)量不大于所述多個(gè)第二詞匯的數(shù)量;所述閥值D為大于或等于3的整數(shù)。S3,基于S2,更優(yōu)地,在所述詞頻過(guò)濾單元之后,還包括篩選處理單元,用于利用LDA數(shù)學(xué)模型對(duì)所述多個(gè)第三詞匯進(jìn)行篩選處理,獲得多個(gè)第四詞匯,所述多個(gè)第四詞匯即構(gòu)成所述第一文檔的特征單元集;其中,所述多個(gè)第四詞匯的數(shù)量不大于所述多個(gè)第三詞匯的數(shù)量。所述篩選處理單元,具體還包括LDA分析單元,用于利用LDA數(shù)學(xué)模型,對(duì)所述多個(gè)第三詞匯和所述多個(gè)第三詞匯相對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行分析,得到詞-主題矩陣;·所述矩陣中的每個(gè)詞匯組成多個(gè)第四詞匯,所述矩陣每一行作為所述多個(gè)第四詞匯的特征向量,所述多個(gè)第四詞匯的特征向量即構(gòu)成所述第一文檔的特征單元集。其中,所述矩陣中的每行能體現(xiàn)所述多個(gè)第三詞匯中每個(gè)第三詞匯在文本上的分布狀況,每行有K維,每個(gè)所述多個(gè)第三詞匯在不同主題上的分布情況,能反映出每個(gè)第三詞匯與所述至少兩個(gè)版本中任一版本間的相關(guān)度。所述計(jì)算單元,用于計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元的特征值,具體包括TF詞頻計(jì)算單元,用于根據(jù)TF-IDF計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元在所述每個(gè)特征單元相對(duì)應(yīng)的文檔中的TF詞頻值;IDF反文檔頻率計(jì)算單元,用于根據(jù)TF-IDF計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元在所述所有文檔中的IDF反文檔頻率值;TF-IDF權(quán)值計(jì)算單元,用于將每個(gè)特征單元的TF詞頻值和IDF反文檔頻率值相乘,以得到每個(gè)特征單元在所述每個(gè)特征單元相對(duì)應(yīng)的文檔中的TF-IDF權(quán)值,所述TF-IDF權(quán)值為所述每個(gè)特征單元集中的每個(gè)特征單元的特征值。其中,所述文本聚類單元,用于對(duì)基于所有所述每個(gè)特征單元集中的每個(gè)特征單元的特征值,進(jìn)行文本聚類,并將所述多個(gè)網(wǎng)頁(yè)中的每個(gè)網(wǎng)頁(yè)歸到所述至少兩個(gè)版本中的一個(gè)版本。所述文本聚類單元,具體為利用K-means算法來(lái)對(duì)進(jìn)行文本聚類。本發(fā)明有益效果或優(yōu)點(diǎn)如下由于采用了 LDA數(shù)學(xué)模型,對(duì)文本進(jìn)行了主題分類,判斷相似度等,結(jié)合了文檔之間在文本以及語(yǔ)義上的關(guān)聯(lián),能夠?qū)Ρ旧砭哂幸欢ㄏ嚓P(guān)性的文本進(jìn)行更進(jìn)一步的聚類;由于根據(jù)TF-IDF計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元的特征值,能夠?qū)⒃紨?shù)據(jù)集用得到的高區(qū)分度詞表示;由于采用了 K-means聚類算法的混合聚類的初始點(diǎn)選擇方法,能夠使所獲得的聚類滿足同一聚類中的對(duì)象相似度較高;而不同聚類中的對(duì)象相似度較小;綜上所述,本申請(qǐng)?zhí)岢龅募夹g(shù)方案能夠更加完善、準(zhǔn)確、可靠地進(jìn)行多版本高區(qū)分度聚類,使讀者能夠全面的獲取事件信息;


圖I為,一種對(duì)多個(gè)網(wǎng)頁(yè)進(jìn)行分類的方法流程圖;圖2為,計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元的特征值的流程圖;圖3為實(shí)驗(yàn)中,兩個(gè)數(shù)據(jù)集中參數(shù)α和β的設(shè)定示意圖;圖4為實(shí)驗(yàn)中,兩個(gè)數(shù)據(jù)集中參數(shù)K的設(shè)定示意表;圖5為實(shí)驗(yàn)中,五種方法在兩個(gè)數(shù)據(jù)集上的PSCOTe值;圖6為實(shí)驗(yàn)中,在兩個(gè)數(shù)據(jù)集上的多版本生成結(jié)果;圖7為,一種對(duì)多個(gè)網(wǎng)頁(yè)進(jìn)行分類的系統(tǒng)框架圖;圖8為,所述處理單元細(xì)化結(jié)構(gòu)圖;·
圖9為,所述計(jì)算單元細(xì)化結(jié)構(gòu)圖。
具體實(shí)施例方式為了使本申請(qǐng)所屬技術(shù)領(lǐng)域中的技術(shù)人員更清楚地理解本發(fā)明,下面結(jié)合附圖,通過(guò)具體實(shí)施例對(duì)本發(fā)明技術(shù)方案作詳細(xì)描述。請(qǐng)參考圖I、圖2及圖3,本申請(qǐng)實(shí)施例中一種對(duì)多個(gè)網(wǎng)頁(yè)進(jìn)行分類的方法,包括如下步驟步驟10,獲得所述多個(gè)網(wǎng)頁(yè),并給予所述多個(gè)網(wǎng)頁(yè),獲得數(shù)量與所述多個(gè)網(wǎng)頁(yè)一致的多個(gè)文檔;步驟20,對(duì)所述多個(gè)文檔中的每個(gè)文檔進(jìn)行處理,獲得數(shù)量與所述多個(gè)文檔一致的多個(gè)特征單元集,所述多個(gè)特征單元集中的每個(gè)特征單元集都包括有至少一個(gè)特征單元,所述至少一個(gè)特征單元用來(lái)體現(xiàn)對(duì)應(yīng)網(wǎng)頁(yè)的特征;在實(shí)現(xiàn)過(guò)程中,所述多個(gè)文檔包括第一文檔,所述多個(gè)特征單元集,包括與所述第一文檔對(duì)應(yīng)的第一特征單元集,所述第一特征單元集可以通過(guò)如下三個(gè)方法獲得(I)對(duì)所述第一文檔進(jìn)行切詞處理,獲得多個(gè)第一詞匯;對(duì)所述多個(gè)第一詞匯進(jìn)行過(guò)濾停詞和詞根還原處理,獲得多個(gè)第二詞匯,所述多個(gè)第二詞匯即構(gòu)成所述第一文檔的特征單元集;其中,所述多個(gè)第二詞匯的數(shù)量不大于所述多個(gè)第一詞匯的數(shù)量。(2)在本申請(qǐng)實(shí)施例中,更優(yōu)地,在所述對(duì)所述多個(gè)第一詞匯進(jìn)行過(guò)濾停詞和詞根還原處理,獲得多個(gè)第二詞匯之后,還包括統(tǒng)計(jì)所述多個(gè)第二詞匯中的每個(gè)第二詞匯在所述多個(gè)網(wǎng)頁(yè)中出現(xiàn)的頻率,得到與每個(gè)第二詞匯對(duì)應(yīng)的詞匯頻率值;將所述多個(gè)第二詞匯中的詞匯頻率值為1,或大于一閥值D的第二詞匯過(guò)濾掉,獲得多個(gè)第三詞匯,所述多個(gè)第三詞匯即構(gòu)成所述第一文檔的特征單元集;其中,所述多個(gè)第三詞匯的數(shù)量不大于所述多個(gè)第二詞匯的數(shù)量;所述閥值D為大于或等于3的整數(shù)。所述步驟20中的所述步驟(2),得到所述多個(gè)第三詞匯的過(guò)程可以命名為流行詞(popular words)的提取,所述流行詞的提取和所述DVD算法中流行詞的提取不一樣,所述DVD算法中的流行詞傾向于重復(fù)的詞,而本申請(qǐng)技術(shù)方案中的流行詞傾向于更能反映文章所描述的主要思想的詞,能夠代表所述第一文檔的特征單元集中的每一個(gè)特征單元的詞。(3)在本申請(qǐng)實(shí)施例中,更優(yōu)地,在將所述多個(gè)第二詞匯中的詞匯頻率值為1,或大于一閥值D的第二詞匯過(guò)濾掉,獲得多個(gè)第三詞匯之后,還包括利用LDA數(shù)學(xué)模型對(duì)所述多個(gè)第三詞匯進(jìn)行篩選處理,獲得多個(gè)第四詞匯,所述多個(gè)第四詞匯即構(gòu)成所述第一文檔的特征單元集;其中,所述多個(gè)第四詞匯的數(shù)量不大于所述多個(gè)第三詞匯的數(shù)量。所述利用LDA數(shù)學(xué)模型對(duì)所述多個(gè)第三詞匯進(jìn)行篩選處理,具體包括利用LDA數(shù)學(xué)模型,對(duì)所述多個(gè)第三詞匯和所述多個(gè)第三詞匯相對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行分析,得到詞-主題矩陣;
所述矩陣中的每個(gè)詞匯組成所述多個(gè)第四詞匯,所述矩陣每一行作為所述多個(gè)第四詞匯的特征向量,所述多個(gè)第四詞匯的特征向量即構(gòu)成所述第一文檔的特征單元集;其中,所述矩陣中的每行能體現(xiàn)所述多個(gè)第三詞匯中每個(gè)第三詞匯在文本上的分布狀況,每行有K維,每個(gè)所述多個(gè)第三詞匯在不同主題上的分布情況,能反映出每個(gè)第三詞匯與所述至少兩個(gè)版本中任一版本間的相關(guān)度。所述步驟20中的所述步驟(3)可以命名為利用LDA數(shù)學(xué)模型完成文檔集與話題集的映射。步驟30,如圖2所示,計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元的特征值,具體包括(I)根據(jù)TF-IDF計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元在所述每個(gè)特征單元相對(duì)應(yīng)的文檔中的TF詞頻值;在一份給定的文件中,詞頻(Term Frequency)指得是某一個(gè)目標(biāo)詞Wi在該文件Dj中出現(xiàn)的次數(shù)Iiiij。TF經(jīng)常需要被做歸一化處理,因此= γ hJ⑴
Z^iknk,]例如,謀篇文檔有3個(gè)詞,他們出現(xiàn)的次數(shù)分別為1、1、3,那么出現(xiàn)三次的詞的TF
值為·;一= 0 6。該值越大,表示詞越重要。
1 + 3 + 1(2)根據(jù)TF-IDF計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元在所述所有文檔中的IDF反文檔頻率值;而反文檔頻率(Inverse Document Frequency)是一個(gè)詞語(yǔ)普遍重要性的度量。某一個(gè)特定的詞語(yǔ)的IDF可以由總文件數(shù)目除以包含該詞語(yǔ)之文件的數(shù)目,接著再對(duì)商取對(duì)數(shù)
.1 I^iIdfi = log(2)
\{d-.d3ti)\其中|D|為總文件數(shù),例如,某個(gè)詞在5個(gè)文檔中出現(xiàn)過(guò),并且一共有10個(gè)文檔,那么他的IDF值就是logp^j = log⑵。該值越大,表示該詞越重要。(3)將每個(gè)特征單元的TF詞頻值和IDF反文檔頻率值相乘,以得到每個(gè)特征單元在所述每個(gè)特征單元相對(duì)應(yīng)的文檔中的TF-IDF權(quán)值,所述TF-IDF權(quán)值即為所述每個(gè)特征單元集中的每個(gè)特征單元的特征值。步驟40,基于所有所述每個(gè)特征單元集中的每個(gè)特征單元的特征值,進(jìn)行文本聚類,將所述多個(gè)網(wǎng)頁(yè)中的每個(gè)網(wǎng)頁(yè)歸到所述至少兩個(gè)版本中的一個(gè)版本。所述進(jìn)行文本聚類,具體為利用K-means算法來(lái)對(duì)進(jìn)行文本聚類。其中,K-means算法(K均值算法)是最著名的無(wú)監(jiān)督學(xué)習(xí)算法之一。K-means算法的基本流程是I.從有η個(gè)數(shù)據(jù)對(duì)象的樣本中,任意選擇k個(gè)數(shù)據(jù)對(duì)象作為初始的簇的中心,通常情況下,中心點(diǎn)的設(shè)置不同,會(huì)導(dǎo)致最后的聚類結(jié)果有可能不同,較好的選擇是使得k個(gè)中心點(diǎn)盡量遠(yuǎn)離彼此;2.設(shè)置好中心點(diǎn)之后,將其他各點(diǎn)分別與各個(gè)中心點(diǎn)進(jìn)行相似度計(jì)算,聚類相似度是利用各聚類中對(duì)象的均值所獲得一個(gè)“中心對(duì)象”(引力中心)來(lái)進(jìn)行計(jì)算的,即計(jì)算數(shù)據(jù)集中的每個(gè)數(shù)據(jù)對(duì)象到k個(gè)中心點(diǎn)的距離并找出每個(gè)數(shù)據(jù)對(duì)象到各個(gè)中心點(diǎn)的最小距離,并將其劃歸到離該數(shù)據(jù)對(duì)象最鄰近的中心點(diǎn)所定義的類中,這樣就把所有的點(diǎn)分到了 k個(gè)類別中。3.接著,根據(jù)分好的類別重新計(jì)算新的中心點(diǎn),一般是將整個(gè)類別各點(diǎn)的平均值作為新的中心點(diǎn)。4.重復(fù)上面的過(guò)程,直至中心點(diǎn)收斂到一個(gè)穩(wěn)定的狀態(tài),即獲得最終的聚類結(jié)果。綜上所述,我們的聚類方法中采用了混合聚類的初始點(diǎn)選擇方法,即先隨機(jī)選取K個(gè)中心點(diǎn),接著進(jìn)行一次聚類迭代,在得到的K個(gè)類中計(jì)算和該類的均值最相近的一個(gè)樣本點(diǎn),即類似K近鄰的計(jì)算方法,由此得到新的K個(gè)點(diǎn)作為新的初始點(diǎn),則由上述步驟的第2步開(kāi)始,重新進(jìn)行K-means的迭代算法。這樣就使得所獲得的聚類滿足同一聚類中的對(duì)象相似度較高;而不同聚類中的對(duì)象相似度較小。請(qǐng)結(jié)合圖3、圖4、圖5和圖6,本申請(qǐng)為了比較實(shí)施例的技術(shù)方案與相關(guān)算法的實(shí)際使用效果,本申請(qǐng)進(jìn)行了以下對(duì)比實(shí)驗(yàn)。在最具影響力的幾大新聞門(mén)戶網(wǎng)站上抓取了兩個(gè)新聞報(bào)道數(shù)據(jù)集。一個(gè)是韓國(guó)天安艦沉沒(méi)事件,包括533篇文檔,該事件用CS表示。韓國(guó)天安艦沉沒(méi)事件發(fā)生于2010年3月26日,韓國(guó)軍方稱其一艘導(dǎo)彈護(hù)衛(wèi)艦“天安艦”因發(fā)生不明原因的爆炸事故而沉沒(méi)。另一個(gè)是臺(tái)灣連勝文槍擊案,包括391篇文檔,該事件用LSW表示。臺(tái)灣連勝文槍擊案發(fā)生于2010年11月26日,當(dāng)時(shí)正值臺(tái)灣五市選舉,連戰(zhàn)兒子連勝文在助選時(shí)頭部遭到槍擊,兇手當(dāng)即被抓獲。由于正值政治敏感時(shí)期,關(guān)于此次槍擊案的動(dòng)機(jī)就成了一大疑點(diǎn)。評(píng)估方法方面,本申請(qǐng)采用一個(gè)逐對(duì)判別的方法來(lái)評(píng)估算法的效用。在逐對(duì)判別的方法中,本申請(qǐng)關(guān)注的是某一對(duì)文檔是否屬于同一版本。首先,構(gòu)建標(biāo)準(zhǔn)測(cè)試集。從CS數(shù)據(jù)集中隨機(jī)選取了 200對(duì)文檔,從LSW數(shù)據(jù)集中隨機(jī)選取了 150對(duì)文檔,并且確保每一對(duì)文檔都不同。然后,把每一對(duì)文檔給志愿者瀏覽,讓他們投票決定每一對(duì)文檔是否屬于同一版本。如果某一對(duì)文檔很難判別是否同類,則直接將這一對(duì)文檔剔除,并且添加一對(duì)新的文檔到測(cè)試集中。形式化定義如下
權(quán)利要求
1.一種對(duì)多個(gè)網(wǎng)頁(yè)進(jìn)行分類的方法,所述多個(gè)網(wǎng)頁(yè)為與一主題相關(guān)的網(wǎng)頁(yè),所述主題包括至少兩個(gè)版本,其特征在于,包括如下步驟 獲得所述多個(gè)網(wǎng)頁(yè),并基于所述多個(gè)網(wǎng)頁(yè),獲得數(shù)量與所述多個(gè)網(wǎng)頁(yè)一致的多個(gè)文檔; 對(duì)所述多個(gè)文檔中的每個(gè)文檔進(jìn)行處理,獲得數(shù)量與所述多個(gè)文檔一致的多個(gè)特征單元集,所述多個(gè)特征單元集中的每個(gè)特征單元集都包括有至少一個(gè)特征單元,所述至少一個(gè)特征單元用來(lái)體現(xiàn)對(duì)應(yīng)網(wǎng)頁(yè)的特征; 計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元的特征值; 基于所有所述每個(gè)特征單元集中的每個(gè)特征單元的特征值,進(jìn)行文本聚類,將所述多個(gè)網(wǎng)頁(yè)中的每個(gè)網(wǎng)頁(yè)歸到所述至少兩個(gè)版本中的一個(gè)版本。
2.如權(quán)利要求I所述的方法,其特征在于,其中,所述多個(gè)文檔包括第一文檔,所述多個(gè)特征單元集,包括與所述第一文檔對(duì)應(yīng)的第一特征單元集,所述第一特征單元集通過(guò)如下步驟獲得 對(duì)所述第一文檔進(jìn)行切詞處理,獲得多個(gè)第一詞匯; 對(duì)所述多個(gè)第一詞匯進(jìn)行過(guò)濾停詞和詞根還原處理,獲得多個(gè)第二詞匯,所述多個(gè)第二詞匯即構(gòu)成所述第一文檔的特征單元集; 其中,所述多個(gè)第二詞匯的數(shù)量不大于所述多個(gè)第一詞匯的數(shù)量。
3.如權(quán)利要求2所述的方法,其特征在于,其中,在所述對(duì)所述多個(gè)第一詞匯進(jìn)行過(guò)濾停詞和詞根還原處理,獲得多個(gè)第二詞匯之后,還包括 統(tǒng)計(jì)所述多個(gè)第二詞匯中的每個(gè)第二詞匯在所述多個(gè)網(wǎng)頁(yè)中出現(xiàn)的頻率,得到與每個(gè)第二詞匯對(duì)應(yīng)的詞匯頻率值; 將所述多個(gè)第二詞匯中的詞匯頻率值為1,或大于一閥值D的第二詞匯過(guò)濾掉,獲得多個(gè)第三詞匯,所述多個(gè)第三詞匯即構(gòu)成所述第一文檔的特征單元集; 其中,所述多個(gè)第三詞匯的數(shù)量不大于所述多個(gè)第二詞匯的數(shù)量;所述閥值D為大于或等于3的整數(shù)。
4.如權(quán)利3所述的方法,其中,在將所述多個(gè)第二詞匯中的詞匯頻率值為1,或大于一閥值D的第二詞匯過(guò)濾掉,獲得多個(gè)第三詞匯之后,還包括 利用LDA數(shù)學(xué)模型對(duì)所述多個(gè)第三詞匯進(jìn)行篩選處理,獲得多個(gè)第四詞匯,所述多個(gè)第四詞匯即構(gòu)成所述第一文檔的特征單元集; 其中,所述多個(gè)第四詞匯的數(shù)量不大于所述多個(gè)第三詞匯的數(shù)量。
5.如權(quán)利要求4所述的方法,其特征在于,所述利用LDA數(shù)學(xué)模型對(duì)所述多個(gè)第三詞匯進(jìn)行篩選處理,具體包括 利用LDA數(shù)學(xué)模型,對(duì)所述多個(gè)第三詞匯和所述多個(gè)第三詞匯相對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行分析,得到詞-主題矩陣; 所述矩陣中的每個(gè)詞匯組成所述多個(gè)第四詞匯,所述矩陣每一行作為所述多個(gè)第四詞匯的特征向量,所述多個(gè)第四詞匯的特征向量即構(gòu)成所述第一文檔的特征單元集; 其中,所述矩陣中的每行能體現(xiàn)所述多個(gè)第三詞匯中每個(gè)第三詞匯在文本上的分布狀況,每行有K維,每個(gè)所述多個(gè)第三詞匯在不同主題上的分布情況,能反映出每個(gè)第三詞匯與所述至少兩個(gè)版本中任一版本間的相關(guān)度。
6.如權(quán)利要求1-5中任一權(quán)利要求所述的方法,其特征在于,所述計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元的特征值,具體包括 根據(jù)TF-IDF計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元在所述每個(gè)特征單元相對(duì)應(yīng)的文檔中的TF詞頻值; 根據(jù)TF-IDF計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元在所述所有文檔中的IDF反文檔頻率值; 將每個(gè)特征單元的TF詞頻值和IDF反文檔頻率值相乘,以得到每個(gè)特征單元在所述每個(gè)特征單元相對(duì)應(yīng)的文檔中的TF-IDF權(quán)值,所述TF-IDF權(quán)值即為所述每個(gè)特征單元集中的每個(gè)特征單元的特征值。
7.如權(quán)利要求1-5中任一權(quán)利要求所述的方法,其特征在于,所述進(jìn)行文本聚類,具體為利用K-means算法來(lái)對(duì)進(jìn)行文本聚類。
8.—種對(duì)網(wǎng)頁(yè)進(jìn)行分類的系統(tǒng),其特征在于,具體包括 獲取單元,用于獲得所述多個(gè)網(wǎng)頁(yè),并基于所述多個(gè)網(wǎng)頁(yè),獲得數(shù)量與所述多個(gè)網(wǎng)頁(yè)一致的多個(gè)文檔; 處理單元,用于對(duì)所述多個(gè)文檔中的每個(gè)文檔進(jìn)行處理,獲得數(shù)量與所述多個(gè)文檔一致的多個(gè)特征單元集,所述多個(gè)特征單元集中的每個(gè)特征單元集都包括有至少一個(gè)特征單元,所述至少一個(gè)特征單元用來(lái)體現(xiàn)對(duì)應(yīng)網(wǎng)頁(yè)的特征; 計(jì)算單元,用于計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元的特征值; 文本聚類單元,用于對(duì)基于所有所述每個(gè)特征單元集中的每個(gè)特征單元的特征值,進(jìn)行文本聚類,并將所述多個(gè)網(wǎng)頁(yè)中的每個(gè)網(wǎng)頁(yè)歸到所述至少兩個(gè)版本中的一個(gè)版本。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于,其中,所述處理單元中所述獲得數(shù)量與所述多個(gè)文檔一致的多個(gè)特征單元集,所述多個(gè)特征單元集中的每個(gè)特征單元集都包括有至少一個(gè)特征單元,所述至少一個(gè)特征單元用來(lái)體現(xiàn)對(duì)應(yīng)網(wǎng)頁(yè)的特征,具體還包括 切詞處理單元,用于對(duì)所述第一文檔進(jìn)行切詞處理,獲得多個(gè)第一詞匯; 詞根還原處理單元,用于對(duì)所述多個(gè)第一詞匯進(jìn)行過(guò)濾停詞和詞根還原處理,獲得多個(gè)第二詞匯,所述多個(gè)第二詞匯即構(gòu)成所述第一文檔的特征單元集; 其中,所述多個(gè)第二詞匯的數(shù)量不大于所述多個(gè)第一詞匯的數(shù)量。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,其中,在所述詞根還原處理單元之后,還包括 詞頻統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述多個(gè)第二詞匯中的每個(gè)第二詞匯在所述多個(gè)網(wǎng)頁(yè)中出現(xiàn)的頻率,得到與每個(gè)第二詞匯對(duì)應(yīng)的詞匯頻率值; 詞頻過(guò)濾單元,用于將所述多個(gè)第二詞匯中的詞匯頻率值為1,或大于一閥值D的第二詞匯過(guò)濾掉,獲得多個(gè)第三詞匯,所述多個(gè)第三詞匯即構(gòu)成所述第一文檔的特征單元集;其中,所述多個(gè)第三詞匯的數(shù)量不大于所述多個(gè)第二詞匯的數(shù)量;所述閥值D為大于或等于3的整數(shù)。
11.如權(quán)利要求10所述的系統(tǒng),其特征在于,其中,在所述詞頻過(guò)濾單元之后,還包括 篩選處理單元,用于利用LDA數(shù)學(xué)模型對(duì)所述多個(gè)第三詞匯進(jìn)行篩選處理,獲得多個(gè)第四詞匯,所述多個(gè)第四詞匯即構(gòu)成所述第一文檔的特征單元集; 其中,所述多個(gè)第四詞匯的數(shù)量不大于所述多個(gè)第三詞匯的數(shù)量。
12.如權(quán)利要求11所述的系統(tǒng),其特征在于,所述篩選處理單元,具體還包括 LDA分析單元,用于利用LDA數(shù)學(xué)模型,對(duì)所述多個(gè)第三詞匯和所述多個(gè)第三詞匯相對(duì)應(yīng)的網(wǎng)頁(yè)進(jìn)行分析,得到詞-主題矩陣; 所述矩陣中的每個(gè)詞匯組成多個(gè)第四詞匯,所述矩陣每一行作為所述多個(gè)第四詞匯的特征向量,所述多個(gè)第四詞匯的特征向量即構(gòu)成所述第一文檔的特征單元集; 其中,所述矩陣中的每行能體現(xiàn)所述多個(gè)第三詞匯中每個(gè)第三詞匯在文本上的分布狀況,每行有K維,每個(gè)所述多個(gè)第三詞匯在不同主題上的分布情況,能反映出每個(gè)第三詞匯與所述至少兩個(gè)版本中任一版本間的相關(guān)度。
13.如權(quán)利要求8-12中任一權(quán)利要求所述的系統(tǒng),其特征在于,所述計(jì)算單元,具體包括 TF詞頻計(jì)算單元,用于根據(jù)TF-IDF計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元在所述每個(gè)特征單元相對(duì)應(yīng)的文檔中的TF詞頻值; IDF反文檔頻率計(jì)算單元,用于根據(jù)TF-IDF計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元在所述所有文檔中的IDF反文檔頻率值; TF-IDF權(quán)值計(jì)算單元,用于將每個(gè)特征單元的TF詞頻值和IDF反文檔頻率值相乘,以得到每個(gè)特征單元在所述每個(gè)特征單元相對(duì)應(yīng)的文檔中的TF-IDF權(quán)值,所述TF-IDF權(quán)值為所述每個(gè)特征單元集中的每個(gè)特征單元的特征值。
14.如權(quán)利要求8-12中任一權(quán)利要求所述的系統(tǒng),其特征在于,所述文本聚類單元,具體為利用K-means算法來(lái)對(duì)進(jìn)行文本聚類。
全文摘要
本發(fā)明公開(kāi)了一種對(duì)多個(gè)網(wǎng)頁(yè)進(jìn)行分類的方法及系統(tǒng),所述多個(gè)網(wǎng)頁(yè)為與一主題相關(guān)的網(wǎng)頁(yè),所述主題包括至少兩個(gè)版本,該方法包括如下步驟獲得所述多個(gè)網(wǎng)頁(yè),并基于所述多個(gè)網(wǎng)頁(yè),獲得數(shù)量與所述多個(gè)網(wǎng)頁(yè)一致的多個(gè)文檔;對(duì)所述多個(gè)文檔中的每個(gè)文檔進(jìn)行處理,獲得數(shù)量與所述多個(gè)文檔一致的多個(gè)特征單元集,所述多個(gè)特征單元集中的每個(gè)特征單元集都包括有至少一個(gè)特征單元,所述至少一個(gè)特征單元用來(lái)體現(xiàn)對(duì)應(yīng)網(wǎng)頁(yè)的特征;計(jì)算所述每個(gè)特征單元集中的每個(gè)特征單元的特征值;基于所有所述每個(gè)特征單元集中的每個(gè)特征單元的特征值,進(jìn)行文本聚類,將所述多個(gè)網(wǎng)頁(yè)中的每個(gè)網(wǎng)頁(yè)歸到所述至少兩個(gè)版本中的一個(gè)版本。
文檔編號(hào)G06F17/30GK102915315SQ20111022446
公開(kāi)日2013年2月6日 申請(qǐng)日期2011年8月5日 優(yōu)先權(quán)日2011年8月5日
發(fā)明者高燕, 傅力, 張震瑋, 張巖, 孔亮, 黃叢蕊 申請(qǐng)人:中興通訊股份有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
南皮县| 石棉县| 江阴市| 南皮县| 调兵山市| 菏泽市| 绥德县| 昌平区| 宿迁市| 余干县| 英山县| 汤原县| 通渭县| 修水县| 潢川县| 云梦县| 荥阳市| 印江| 鄂温| 龙陵县| 华安县| 武邑县| 临朐县| 鄯善县| 仁化县| 海淀区| 定日县| 商丘市| 临湘市| 民县| 邓州市| 措美县| 基隆市| 红桥区| 筠连县| 博兴县| 六安市| 区。| 齐河县| 济宁市| 呈贡县|