br>[007U 步驟S420,利用構(gòu)建的正文詞典,對(duì)正文進(jìn)行分詞處理,獲得多個(gè)正文分詞,并記 錄每個(gè)正文分詞在正文中的出現(xiàn)順序。
[0072] 利用正文詞典中的詞語(yǔ),對(duì)正文進(jìn)行分詞;按照正文從前向后的順序,記錄每個(gè)分 詞(詞語(yǔ))的出現(xiàn)順序,第一個(gè)出現(xiàn)的分詞記為1,第二個(gè)出現(xiàn)的分詞記為2,W此類推,重 復(fù)出現(xiàn)的分詞不記錄。
[0073] 步驟S430,將多個(gè)正文分詞分別映射到正文詞典中。
[0074] 網(wǎng)頁(yè)的正文傾向于利用開頭簡(jiǎn)短的文字突出主題、吸引眼球,即重要的詞語(yǔ)傾向 于出現(xiàn)在正文的前面。
[0075] 正文詞典中包括多個(gè)詞語(yǔ);在正文分詞和正文詞典中的詞語(yǔ)之間建立映射關(guān)系。 其中,存在映射關(guān)系的正文分詞和詞語(yǔ)相同。
[0076] 在映射關(guān)系建立之后,可W獲得一個(gè)長(zhǎng)度等于正文詞典長(zhǎng)度的向量,向量的維數(shù) 等于正文詞典中詞語(yǔ)的數(shù)量,每個(gè)維度對(duì)應(yīng)詞典中的一個(gè)詞語(yǔ)。
[0077] 步驟S440,基于每個(gè)正文分詞的加權(quán)值和出現(xiàn)順序,對(duì)正文詞典進(jìn)行加權(quán)處理,構(gòu) 建網(wǎng)頁(yè)的正文特征向量。
[007引對(duì)正文詞典進(jìn)行加權(quán)處理,也即是對(duì)上述長(zhǎng)度等于正文詞典長(zhǎng)度的向量進(jìn)行加權(quán) 處理。對(duì)于正文詞典中存在映射關(guān)系的詞語(yǔ),即向量中與正文分詞存在映射關(guān)系的詞語(yǔ),使 用TFIDF值和映射的正文分詞的出現(xiàn)順序加權(quán),加權(quán)后獲得的向量即為正文特征向量。正 文特征向量的每個(gè)維度對(duì)應(yīng)詞典中的一個(gè)詞語(yǔ),每個(gè)維度的取值為根據(jù)該維度對(duì)應(yīng)的詞語(yǔ) 在該正文中的出現(xiàn)順序、W及該詞語(yǔ)的TFIDF值,獲得的權(quán)重值wei曲t":
[0079]
(1.3)
[0080] 式(1.扣中,wei曲tz,(w)表示正文特征向量中詞語(yǔ)W的權(quán)重值(維度取值), rank(w)為W在正文中出現(xiàn)的順序號(hào),E,ewrank(w)為所有詞語(yǔ)順序號(hào)的總和,TFIDF(w) 可W參考式(1.2),將與標(biāo)題相關(guān)的描述更換為正文相關(guān)的描述即可。采用上述方法可W獲 得正文特征向量。式(1.3)中詞語(yǔ)的符號(hào)采用與式(1.2)中詞語(yǔ)的符號(hào)一致,都使用W,僅 為方便理解式(1.3)中TFIDF(w)的計(jì)算過(guò)程。
[0081] 一般而言,標(biāo)題使用簡(jiǎn)短的語(yǔ)句標(biāo)明了網(wǎng)頁(yè)的內(nèi)容、主題。因此,標(biāo)題較短、正文較 長(zhǎng),本實(shí)施例考慮到標(biāo)題特征向量的長(zhǎng)度通常小于正文特征向量的長(zhǎng)度,但標(biāo)題特征向量 的重要性卻大于正文特征向量,本實(shí)施例提出將標(biāo)題特征向量和正文特征向量采用加權(quán)的 方式拼接成表達(dá)該網(wǎng)頁(yè)主題的特征向量,即主題特征向量。例如附圖5所示的拼接方式。通 過(guò)本實(shí)施例可W避免造成標(biāo)題特征向量、正文特征向量在學(xué)習(xí)中發(fā)揮作用失衡的偏差。
[0082] 在拼接之前,對(duì)于標(biāo)題特征向量中的詞語(yǔ)W的維度取值TFIDF(w)值,使用標(biāo)題權(quán) 重Wbt進(jìn)行加權(quán),即;
[008引 wei曲tbt(W) =Wbt*TFIDF(W) (1.4)
[0084] 在拼接之前,對(duì)于正文特征向量中的詞語(yǔ)的維度取值不使用權(quán)重值。
[0085] 在拼接時(shí),將加權(quán)后的標(biāo)題特征向量和未加權(quán)的正文特征向量進(jìn)行拼接。本實(shí)施 例采用首尾相接的方式進(jìn)行拼接,組成一個(gè)長(zhǎng)度等于標(biāo)題特征向量和正文特征向量之和的 向量,其中,加權(quán)后的標(biāo)題特征向量位于未加權(quán)的正文特征向量的前面。
[0086] 本實(shí)施例采用網(wǎng)格捜索的方式獲得Wbt,Wbt的選擇范圍參考式(1.5)。在每個(gè)Wbt 下,分類器對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行交叉驗(yàn)證,計(jì)算分類正確率,取最高正確率對(duì)應(yīng)的Wbt作為最終 使用的Wbt值。
[0087]
(1.5)
[008引式(1. 5)中,Nbt表示標(biāo)題特征向量的維數(shù),N"表示正文特征向量維數(shù)。
[0089] 針對(duì)步驟S120具體而言,
[0090] 圖6為根據(jù)本發(fā)明一實(shí)施例的對(duì)主題特征向量進(jìn)行分類的步驟流程圖。
[0091] 步驟S610,分類器針對(duì)每種類型,對(duì)網(wǎng)頁(yè)的主題特征向量進(jìn)行一次評(píng)分。
[009引每種類型,網(wǎng)頁(yè)的主題特征向量都有一個(gè)評(píng)分分值。目P,如果有多種類型,則有多 個(gè)評(píng)分分值。評(píng)分分值用于衡量網(wǎng)頁(yè)是否符合該評(píng)分分值對(duì)應(yīng)的類型。
[0093] 分類器包括多個(gè)分類器函數(shù),每個(gè)分類器函數(shù)對(duì)應(yīng)一個(gè)類型;將主題特征向量分 別代入各個(gè)分類器函數(shù),就可W得到每個(gè)類型的評(píng)分分值。
[0094] 例如,a= [al,a2,a3]為分類器,y=al*xl+a2*x2+a3*x3為新聞?lì)惙诸惼骱瘮?shù); 當(dāng)然還可W有其他類型的分類器函數(shù);將標(biāo)題特征向量代入新聞?lì)惙诸惼骱瘮?shù),可W得到 y值,即評(píng)分分值,當(dāng)該評(píng)分分值大于0時(shí),表示標(biāo)題特征向量對(duì)應(yīng)的網(wǎng)頁(yè)為新聞?lì)?,反之?是新聞?lì)?;假設(shè)a= [1,-2, 3],將維度為3的標(biāo)題特征向量x= [1,2, 3]代入新聞?lì)惙诸?器函數(shù),可W得到y(tǒng)=6,那么y〉0,標(biāo)題特征向量X= [1,2,3]對(duì)應(yīng)的網(wǎng)頁(yè)是新聞網(wǎng)頁(yè)。
[0095] 步驟S620,將每種類型的對(duì)應(yīng)的評(píng)分分值分別與預(yù)設(shè)的標(biāo)注闊值進(jìn)行比較。
[0096] 步驟S630,將大于標(biāo)注闊值的評(píng)分分值對(duì)應(yīng)的類型,判定為主題特征向量所屬的 類型;其中,所述主題特征向量所屬的類型為一個(gè)或多個(gè)。
[0097] 具體的,可W按照值從大到小的順序,對(duì)多個(gè)評(píng)分分值進(jìn)行排序;判斷最大的評(píng) 分分值是否大于預(yù)設(shè)的標(biāo)注闊值,若是,則將網(wǎng)頁(yè)標(biāo)注為該最大的評(píng)分分值對(duì)應(yīng)的類型,若 否,則將網(wǎng)頁(yè)標(biāo)記為待標(biāo)注網(wǎng)頁(yè);然后,判斷大小僅次于最大的評(píng)分分值是否大于預(yù)設(shè)的標(biāo) 注闊值,若是,則將網(wǎng)頁(yè)標(biāo)注為該大小僅次于最大的評(píng)分分值對(duì)應(yīng)的類型,若否,則將網(wǎng)頁(yè) 標(biāo)記為待標(biāo)注網(wǎng)頁(yè);W此類推,直至每個(gè)評(píng)分分值都和標(biāo)注闊值進(jìn)行過(guò)比較。
[009引本發(fā)明還提供了一種網(wǎng)頁(yè)主題的標(biāo)注裝置,如圖7所示,為根據(jù)本發(fā)明一實(shí)施例 的網(wǎng)頁(yè)主題的標(biāo)注裝置的結(jié)構(gòu)圖。
[0099] 該裝置包括;
[0100] 獲得模塊710,用于基于網(wǎng)頁(yè)的標(biāo)題和正文,獲得網(wǎng)頁(yè)的主題特征向量。
[0101] 分類模塊720,用于利用預(yù)先訓(xùn)練獲得的分類器,對(duì)主題特征向量進(jìn)行分類處理。
[0102] 判斷模塊730,用于判斷是否存在主題特征向量所屬的類型。
[0103] 標(biāo)注模塊740,用于在判斷模塊判定存在主題特征向量所屬的類型的情況下,將網(wǎng) 頁(yè)標(biāo)注為主題特征向量所屬的類型。
[0104] 標(biāo)記模塊750,用于在判斷模塊判定不存在主題特征向量所屬的類型的情況下,將 網(wǎng)頁(yè)標(biāo)記為待標(biāo)注網(wǎng)頁(yè)。
[01化]聚類模塊760,用于對(duì)多個(gè)待標(biāo)注網(wǎng)頁(yè)進(jìn)行聚類處理。
[0106] 分析模塊770,用于分析出每個(gè)聚類集合的類型。
[0107] 標(biāo)注模塊780,還用于將待標(biāo)注網(wǎng)頁(yè)標(biāo)注為其所屬的聚類集合的類型。
[0108] 在一個(gè)實(shí)施例中,獲得模塊710包括;提取單元711,用于分別提取網(wǎng)頁(yè)中的標(biāo)題 和正文;第一構(gòu)建單元712,用于根據(jù)標(biāo)題,構(gòu)建標(biāo)題特征向量;第二構(gòu)建單元713,用于根 據(jù)正文,構(gòu)建正文特征向量;拼接單元714,用于將標(biāo)題特征向量和正文特征向量拼接為主 題特征向量。如圖8所示。
[0109] 第一構(gòu)建單元712用于;利用預(yù)先構(gòu)建的標(biāo)題詞典,對(duì)標(biāo)題進(jìn)行分詞處理,獲得標(biāo) 題分詞;將標(biāo)題分詞映射到標(biāo)題詞典中;基于標(biāo)題分詞的加權(quán)值,對(duì)標(biāo)題詞典進(jìn)行加權(quán)處 理,構(gòu)建出網(wǎng)頁(yè)的標(biāo)題特征向量。
[0110] 第二