欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)頁(yè)主題的標(biāo)注方法和裝置的制造方法

文檔序號(hào):8905268閱讀:782來(lái)源:國(guó)知局
一種網(wǎng)頁(yè)主題的標(biāo)注方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別是設(shè)及一種網(wǎng)頁(yè)主題的標(biāo)注方法和裝置。
【背景技術(shù)】
[0002] 通過分析互聯(lián)網(wǎng)網(wǎng)頁(yè)內(nèi)容,來(lái)提取并標(biāo)注網(wǎng)頁(yè)主題是互聯(lián)網(wǎng)數(shù)據(jù)管理和挖掘等應(yīng) 用的重要基礎(chǔ)。目前,網(wǎng)頁(yè)主題標(biāo)注多采用關(guān)鍵詞匹配方法,通過將網(wǎng)頁(yè)標(biāo)題和部分預(yù)設(shè)關(guān) 鍵詞進(jìn)行匹配實(shí)現(xiàn)網(wǎng)頁(yè)的標(biāo)注。但是,該種直接匹配的做法過于簡(jiǎn)單,而且,如果網(wǎng)頁(yè)標(biāo)題 中的關(guān)鍵詞發(fā)生變化,則該方法將無(wú)法準(zhǔn)確標(biāo)注主題,網(wǎng)頁(yè)標(biāo)準(zhǔn)的準(zhǔn)確率將無(wú)法保證。另一 種網(wǎng)頁(yè)主題標(biāo)注是采用聚類的方法,對(duì)網(wǎng)頁(yè)進(jìn)行聚類,從聚為一類的網(wǎng)頁(yè)中提取關(guān)鍵詞作 為該一類網(wǎng)頁(yè)的標(biāo)注。但是,由于聚類算法較為耗時(shí),當(dāng)待標(biāo)注的網(wǎng)頁(yè)數(shù)量較多時(shí),該類算 法的實(shí)用性較差,而且僅使用無(wú)監(jiān)督學(xué)習(xí)算法的網(wǎng)頁(yè)標(biāo)注準(zhǔn)確率不高。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明提供一種網(wǎng)頁(yè)主題的標(biāo)注方法和裝置,用W解決現(xiàn)有技術(shù)中網(wǎng)頁(yè)主題標(biāo)注 準(zhǔn)確率低的問題。
[0004] 基于上述技術(shù)問題,本發(fā)明是通過W下技術(shù)方案來(lái)解決的。
[0005] 本發(fā)明提供了一種網(wǎng)頁(yè)主題的標(biāo)注方法,包括:基于網(wǎng)頁(yè)的標(biāo)題和正文,獲得所述 網(wǎng)頁(yè)的主題特征向量;利用預(yù)先訓(xùn)練獲得的分類器,對(duì)所述主題特征向量進(jìn)行分類處理; 判斷是否存在所述主題特征向量所屬的類型;若是,則將所述網(wǎng)頁(yè)標(biāo)注為所述主題特征向 量所屬的類型;若否,則將所述網(wǎng)頁(yè)標(biāo)記為待標(biāo)注網(wǎng)頁(yè);進(jìn)一步地,對(duì)多個(gè)待標(biāo)注網(wǎng)頁(yè)進(jìn)行 聚類處理;分析出每個(gè)聚類集合的類型;將待標(biāo)注網(wǎng)頁(yè)標(biāo)注為其所屬的聚類集合的類型。
[0006] 其中,基于網(wǎng)頁(yè)的標(biāo)題和正文,獲得所述網(wǎng)頁(yè)的主題特征向量,包括:分別提取網(wǎng) 頁(yè)中的標(biāo)題和正文;根據(jù)所述標(biāo)題,構(gòu)建標(biāo)題特征向量;根據(jù)所述正文,構(gòu)建正文特征向 量;將所述標(biāo)題特征向量和所述正文特征向量拼接為所述主題特征向量。
[0007] 其中,根據(jù)所述標(biāo)題構(gòu)建網(wǎng)頁(yè)標(biāo)題特征向量,包括:利用預(yù)先構(gòu)建的標(biāo)題詞典,對(duì) 所述標(biāo)題進(jìn)行分詞處理,獲得標(biāo)題分詞;將所述標(biāo)題分詞映射到所述標(biāo)題詞典中;基于所 述標(biāo)題分詞的加權(quán)值,對(duì)所述標(biāo)題詞典進(jìn)行加權(quán)處理,構(gòu)建出所述網(wǎng)頁(yè)的標(biāo)題特征向量。 [000引其中,根據(jù)所述正文構(gòu)建網(wǎng)頁(yè)正文特征向量,包括:利用預(yù)先構(gòu)建的正文詞典,對(duì) 所述正文進(jìn)行分詞處理,獲得多個(gè)正文分詞,并記錄每個(gè)所述正文分詞在所述正文中的出 現(xiàn)順序;將多個(gè)所述正文分詞分別映射到所述正文詞典中;基于每個(gè)正文分詞的加權(quán)值和 出現(xiàn)順序,對(duì)所述正文詞典進(jìn)行加權(quán)處理,構(gòu)建所述網(wǎng)頁(yè)的正文特征向量。
[0009] 其中,利用預(yù)先訓(xùn)練獲得的分類器,對(duì)所述主題特征向量進(jìn)行分類處理,包括:預(yù) 先定義多種網(wǎng)頁(yè)類型;所述分類器針對(duì)每種類型,對(duì)所述網(wǎng)頁(yè)的主題特征向量進(jìn)行一次評(píng) 分;將每種類型的對(duì)應(yīng)的評(píng)分分值分別與預(yù)設(shè)的標(biāo)注闊值進(jìn)行比較;將大于所述標(biāo)注闊值 的評(píng)分分值對(duì)應(yīng)的類型,判定為所述主題特征向量所屬的類型;其中,所述主題特征向量所 屬的類型為一個(gè)或多個(gè)。
[0010] 其中,分析聚類集合的類型,包括:分別提取聚類集合中每個(gè)待標(biāo)注網(wǎng)頁(yè)的標(biāo)題和 正文;利用預(yù)先構(gòu)建的標(biāo)題詞典,對(duì)所有標(biāo)題進(jìn)行分詞處理,獲得多個(gè)標(biāo)題分詞;利用預(yù)先 構(gòu)建的正文詞典,對(duì)所有正文進(jìn)行分詞處理,獲得多個(gè)正文分詞;在多個(gè)所述標(biāo)題分詞和多 個(gè)所述正文分詞中,獲取出現(xiàn)頻率最多的分詞,W作為所述聚類集合的類型。
[0011] 本發(fā)明還提供了一種網(wǎng)頁(yè)主題的標(biāo)注裝置,包括:獲得模塊,用于基于網(wǎng)頁(yè)的標(biāo)題 和正文,獲得所述網(wǎng)頁(yè)的主題特征向量;分類模塊,用于利用預(yù)先訓(xùn)練獲得的分類器,對(duì)所 述主題特征向量進(jìn)行分類處理;判斷模塊,用于判斷是否存在所述主題特征向量所屬的類 型;標(biāo)注模塊,用于在所述判斷模塊判定存在所述主題特征向量所屬的類型的情況下,將所 述網(wǎng)頁(yè)標(biāo)注為所述主題特征向量所屬的類型;標(biāo)記模塊,用于在所述判斷模塊判定不存在 所述主題特征向量所屬的類型的情況下,將所述網(wǎng)頁(yè)標(biāo)記為待標(biāo)注網(wǎng)頁(yè);聚類模塊,用于對(duì) 多個(gè)待標(biāo)注網(wǎng)頁(yè)進(jìn)行聚類處理;分析模塊,用于分析出每個(gè)聚類集合的類型;所述標(biāo)注模 塊,還用于將待標(biāo)注網(wǎng)頁(yè)標(biāo)注為其所屬的聚類集合的類型。
[0012] 其中,所述獲得模塊包括:提取單元,用于分別提取網(wǎng)頁(yè)中的標(biāo)題和正文;第一構(gòu) 建單元,用于根據(jù)所述標(biāo)題,構(gòu)建標(biāo)題特征向量;第二構(gòu)建單元,用于根據(jù)所述正文,構(gòu)建正 文特征向量;拼接單元,用于將所述標(biāo)題特征向量和所述正文特征向量拼接為所述主題特 征向量。
[0013] 其中,所述第一構(gòu)建單元具體用于;利用預(yù)先構(gòu)建的標(biāo)題詞典,對(duì)所述標(biāo)題進(jìn)行分 詞處理,獲得標(biāo)題分詞;將所述標(biāo)題分詞映射到所述標(biāo)題詞典中;基于所述標(biāo)題分詞的加 權(quán)值,對(duì)所述標(biāo)題詞典進(jìn)行加權(quán)處理,構(gòu)建出所述網(wǎng)頁(yè)的標(biāo)題特征向量;所述第二構(gòu)建單元 具體用于;利用預(yù)先構(gòu)建的正文詞典,對(duì)所述正文進(jìn)行分詞處理,獲得多個(gè)正文分詞,并記 錄每個(gè)所述正文分詞在所述正文中的出現(xiàn)順序;將多個(gè)所述正文分詞分別映射到所述正文 詞典中;基于每個(gè)正文分詞的加權(quán)值和出現(xiàn)順序,對(duì)所述正文詞典進(jìn)行加權(quán)處理,構(gòu)建所述 網(wǎng)頁(yè)的正文特征向量。
[0014] 其中,分類模塊具體用于:預(yù)先定義多種網(wǎng)頁(yè)類型;調(diào)用所述分類器,W便使所述 分類器針對(duì)每種類型,對(duì)所述網(wǎng)頁(yè)的主題特征向量進(jìn)行一次評(píng)分;將每種類型的對(duì)應(yīng)的評(píng) 分分值分別與預(yù)設(shè)的標(biāo)注闊值進(jìn)行比較;將大于所述標(biāo)注闊值的評(píng)分分值對(duì)應(yīng)的類型,判 定為所述主題特征向量所屬的類型;其中,所述主題特征向量所屬的類型為一個(gè)或多個(gè); 分析模塊具體用于;分別提取聚類集合中每個(gè)待標(biāo)注網(wǎng)頁(yè)的標(biāo)題和正文;利用預(yù)先構(gòu)建的 標(biāo)題詞典,對(duì)所有標(biāo)題進(jìn)行分詞處理,獲得多個(gè)標(biāo)題分詞;利用預(yù)先構(gòu)建的正文詞典,對(duì)所 有正文進(jìn)行分詞處理,獲得多個(gè)正文分詞;在多個(gè)所述標(biāo)題分詞和多個(gè)所述正文分詞中,獲 取出現(xiàn)頻率最多的分詞,W作為所述聚類集合的類型。本發(fā)明有益效果如下:
[0015] 本發(fā)明采用有監(jiān)督的分類方法和無(wú)監(jiān)督的聚類方法級(jí)聯(lián)的方式,自動(dòng)的從網(wǎng)頁(yè)中 獲取主題并標(biāo)注網(wǎng)頁(yè),有效提高了網(wǎng)頁(yè)主題標(biāo)注的效率和準(zhǔn)確性。
【附圖說(shuō)明】
[0016] 圖1是根據(jù)本發(fā)明一實(shí)施例的網(wǎng)頁(yè)主題的標(biāo)注方法的流程圖;
[0017] 圖2是根據(jù)本發(fā)明另一實(shí)施例的網(wǎng)頁(yè)主題的標(biāo)注方法的流程圖;
[0018] 圖3是根據(jù)本發(fā)明一實(shí)施例的構(gòu)建網(wǎng)頁(yè)標(biāo)題特征向量的步驟流程圖;
[0019] 圖4是根據(jù)本發(fā)明一實(shí)施例的構(gòu)建網(wǎng)頁(yè)正文特征向量的步驟流程圖;
[0020] 圖5是根據(jù)本發(fā)明一實(shí)施例的標(biāo)題特征向量和正文特征向量的拼接示意圖;
[0021] 圖6是根據(jù)本發(fā)明一實(shí)施例的對(duì)主題特征向量進(jìn)行分類的步驟流程圖;
[0022] 圖7是根據(jù)本發(fā)明一實(shí)施例的網(wǎng)頁(yè)主題的標(biāo)注裝置的結(jié)構(gòu)圖;
[0023] 圖8是根據(jù)本發(fā)明一實(shí)施例的獲取模塊的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0024]W下結(jié)合附圖W及實(shí)施例,對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述 的具體實(shí)施例僅僅用W解釋本發(fā)明,并不限定本發(fā)明。
[0025] 本實(shí)施例提供了一種網(wǎng)頁(yè)主題的標(biāo)注方法,如圖1所示,為根據(jù)本發(fā)明一實(shí)施例 的網(wǎng)頁(yè)主題的標(biāo)注方法的流程圖。本實(shí)施例是針對(duì)每個(gè)網(wǎng)頁(yè)執(zhí)行的步驟。
[0026]步驟S110,基于網(wǎng)頁(yè)的標(biāo)題和正文,獲得該網(wǎng)頁(yè)的主題特征向量。
[0027] 由于網(wǎng)頁(yè)標(biāo)題和正文的長(zhǎng)度、語(yǔ)言風(fēng)格不同,本實(shí)施例分
當(dāng)前第1頁(yè)1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
遵化市| 扶风县| 博湖县| 太保市| 壶关县| 壤塘县| 报价| 三门县| 德兴市| 肥西县| 应用必备| 吴桥县| 临沂市| 沙洋县| 富顺县| 岢岚县| 方正县| 新兴县| 正宁县| 永修县| 夏津县| 无棣县| 闵行区| 麻江县| 辽阳县| 灵石县| 汾西县| 理塘县| 虎林市| 巩留县| 冷水江市| 海宁市| 武威市| 连江县| 特克斯县| 三江| 栖霞市| 苗栗市| 通州区| 焦作市| 九寨沟县|