一種基于von Mises-Fisher概率模型的網(wǎng)頁分類方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明屬于互聯(lián)網(wǎng)及機器學(xué)習(xí)技術(shù)領(lǐng)域,涉及自然語言處理,具體涉及一種基于 正文內(nèi)容的網(wǎng)頁分類方法。
【背景技術(shù)】
[0002] 自然語言處理技術(shù)研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種 理論和方法。一個中文文本或一個漢字(含標點符號等)串可能有多個含義。它是自然語言 理解中的主要困難和障礙。因此,自然語言的形式(字符串)與其意義之間是一種多對多的 關(guān)系。但從計算機處理的角度看,我們必須消除歧義。歧義現(xiàn)象的廣泛存在使得消除它們需 要大量的知識和推理,這就給基于語言學(xué)的方法、基于知識的方法帶來了巨大的困難,因而 以這些方法為主流的自然語言處理研究幾十年來一方面在理論和方法方面取得了很多成 就,但在能處理大規(guī)模真實文本的系統(tǒng)研制方面,成績并不顯著。研制的一些系統(tǒng)大多數(shù)是 小規(guī)模的、研究性的演示系統(tǒng)。
[0003] 目前存在的問題有兩個方面:一方面,迄今為止的語法都限于分析一個孤立的句 子,上下文關(guān)系和談話環(huán)境對本句的約束和影響還缺乏系統(tǒng)的研究,因此分析歧義、詞語省 略、代詞所指、同一句話在不同場合或由不同的人說出來所具有的不同含義等問題,尚無明 確規(guī)律可循,需要加強語言學(xué)的研究才能逐步解決。另一方面,人理解一個句子不是單憑語 法,還運用了大量的有關(guān)知識,包括生活知識和專門知識,這些知識無法全部貯存在計算機 里。因此一個書面理解系統(tǒng)只能建立在有限的詞匯、句型和特定的主題范圍內(nèi);計算機的貯 存量和運轉(zhuǎn)速度大大提高之后,才有可能適當(dāng)擴大范圍。
[0004] 許多不同類的機器學(xué)習(xí)算法已應(yīng)用于自然語言處理任務(wù)。這些算法的輸入是一大 組從輸入數(shù)據(jù)生成的"特征"。一些最早使用的算法,如決策樹、邏輯回歸和樸素貝葉斯分布 等。然而,越來越多的研究集中于統(tǒng)計模型,此類模型具有能夠表達許多不同的可能的答 案,而不是只有一個相對的確定性。產(chǎn)生更可靠的結(jié)果時,這種模型被包括作為較大系統(tǒng)的 一個組成部分的優(yōu)點。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明采用一種未在自然語言處理領(lǐng)域使用過的von Mises-Fisher概率模型,通 過網(wǎng)頁正文內(nèi)容進行特征提取及建模,基于所得的概率密度函數(shù)進行分類,達到了更高的 網(wǎng)頁分類準確度,具有效率高、分類準確度高等優(yōu)勢。
[0006] 本發(fā)明提供一種基于von Mises-Fisher概率模型的網(wǎng)頁分類方法,包括以下步 驟:
[0007] 步驟1:數(shù)據(jù)預(yù)處理:對于訓(xùn)練樣本,去除無用信息,得到第一行為樣本類別標簽的 樣本文檔。所述的訓(xùn)練樣本為帶有類別標簽的網(wǎng)頁。
[0008] 步驟2:特征提取:采用向量空間模型對樣本文檔進行建模,統(tǒng)計樣本文檔中各單 詞作為特征,單詞出現(xiàn)的頻率作為特征值。
[0009]步驟 3:特征篩選:計算單詞的TF_IDF(Term Frequency-Inverse Document Frequency)值,按TF-IDF值大小排序,篩選具有代表性的單詞,組成最終的特征向量。
[00?0]步驟4:建模:使用von Mises-Fisher混合概率模型對特征向量進行建模,得到各 類別的von Mises-Fisher混合概率模型。
[0011] 步驟5:網(wǎng)頁分類:根據(jù)von Mises-Fisher混合概率模型,統(tǒng)計樣本文檔特征向量 中出現(xiàn)的所有詞匯在待分類網(wǎng)頁中出現(xiàn)的次數(shù),得到待分類網(wǎng)頁的特征向量,將待分類網(wǎng) 頁的特征向量帶入各概率密度函數(shù),從而完成分類。
[0012] 本發(fā)明一種基于von Mises-Fisher概率模型的網(wǎng)頁分類方法的優(yōu)點在于:
[0013] (1)對所得特征向量進行二范數(shù)歸一化,在消除文本長度對特征向量影響的同時 可為von Mises-Fisher概率模型建模做準備。
[0014] (2)使用von Mises-Fisher概率模型對文本特征向量進行建模,此模型為首次應(yīng) 用于自然語言處理領(lǐng)域。
【附圖說明】
[0015] 圖1為本發(fā)明的網(wǎng)頁分類方法總體流程圖;
[0016] 圖2為步驟4流程圖。
【具體實施方式】
[0017]下面結(jié)合附圖和實施例對本發(fā)明進行詳細說明。
[0018] 本發(fā)明提供一種基于von Mises-Fisher概率模型的網(wǎng)頁分類方法,采用一種未在 自然語言處理領(lǐng)域使用過的von Mises-Fisher概率模型,通過對預(yù)處理后的網(wǎng)頁正文內(nèi)容 進行特征提取及建模,基于所得的概率密度函數(shù)進行分類,達到了更高的網(wǎng)頁分類準確度, 具有效率高,分類準確度高等優(yōu)勢。所述的 von Mises-Fisher概率模型也稱馮?米澤斯-費 舍概率模型,參見參考文獻[l]:Sra,S.'A short note on parameter approximation for von Mises-Fisher distributions:And a fast implementation of I s(x)' .Computational Statistics 27:177-190。
[0019] 實施平臺:Python
[0020] 本發(fā)明提供的基于von Mises-Fisher概率模型的網(wǎng)頁分類方法,如圖I所示流程, 包括以下步驟:
[0021] 步驟1:數(shù)據(jù)預(yù)處理。
[0022]獲取帶有類別標簽的訓(xùn)練樣本(網(wǎng)頁正文內(nèi)容),所述的訓(xùn)練樣本內(nèi)容包含廣告、 標點、語氣詞、助詞等無用信息,且網(wǎng)頁正文內(nèi)容為長文本形式。所以獲取訓(xùn)練樣本后,首先 將長文本拆分為多個詞語,并根據(jù)停用詞表去除訓(xùn)練樣本中的無意義詞匯,從而獲得有效 可用的分類信息。
[0023] 具體處理方法為:首先對網(wǎng)頁正文內(nèi)容中的長文本進行分詞,將詞語用7"隔開。 分詞完畢后,去掉網(wǎng)頁正文內(nèi)容中的標點、符號、語氣詞和助詞等無用詞匯(可以參考現(xiàn)有 停用詞表進行)。并將已知的樣本類別標簽寫入網(wǎng)頁正文內(nèi)容的第一行,從而得到規(guī)范的網(wǎng) 頁正文內(nèi)容,即包含有用單詞正文的樣本文檔。
[0024] 步驟2:特征提??;
[0025]本分類方法使用向量空間模型對包含有用單詞正文的樣本文檔進行建模,將每一 包含有用單詞正文的樣本文檔用一向量表示,向量的每一維為包含有用單詞正文的樣本文 檔的一個特征。將單詞作為特征,單詞在包含有用單詞正文的樣本文檔中出現(xiàn)的頻率作為 特征值。
[0026] 步驟3:特征篩選;
[0027]若將所有單詞都作為特征,會導(dǎo)致特征向量維數(shù)過大,冗余過多,嚴重影響分類效 率。所以,需要對單詞特征進行篩選,保留比較有代表性的特征詞,從而在不影響分類準確 率的情況下使分類高效進行。
[0028]本發(fā)明中根據(jù)特征詞的TF-IDF值進行特征篩選。TF-IDF值的具體計算方法為: [0029] TF-IDF = TF* IDF
[0030] TF是指某一給定的單詞在包含有用單詞正文的樣本文檔中出現(xiàn)的頻率。TF要對詞 數(shù)進行歸一化,以防止TF偏向長的文件(同一個單詞在長文件里可能會比短文件有更高的 詞數(shù),而不管該單詞重要與否)。單詞i的詞頻tf lu的