新詞發(fā)現(xiàn)系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種新詞發(fā)現(xiàn)系統(tǒng)及方法,該系統(tǒng)包括:外站抓取模組,用于從當前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外站新詞;搜索新詞模組,統(tǒng)計用戶搜索過的詞條,并提取頻率最高的前N個詞條作為用戶搜索新詞;以及去重模組,將該外站抓取模組抓取的總的外站新詞和該搜索新詞模組提取的用戶搜索新詞匯總并去重,得到最終的最新新詞,本發(fā)明避免了傳統(tǒng)新詞發(fā)現(xiàn)算法所導致的沉重的運算負擔,不僅可以獲得時下最新的新詞,還可以有效的保持互聯(lián)網(wǎng)應用的時效性。
【專利說明】新詞發(fā)現(xiàn)系統(tǒng)及方法
【技術領域】
[0001] 本發(fā)明關于一種新詞發(fā)現(xiàn)系統(tǒng)及方法,特別是涉及一種用于內(nèi)容推薦的新詞發(fā)現(xiàn) 系統(tǒng)及方法。
【背景技術】
[0002] 伴隨著計算機的飛速發(fā)展,互聯(lián)網(wǎng)行業(yè)中越來越多的應用和文本操作有關,最常 見的應用就是搜索,還有很多具體應用比如說視頻推薦、商品推薦、語音合成、語音識別等, 這些應用都有個共同點就是都和文本有關,需要理解文本的內(nèi)容,目前,基本的處理步驟 是,獲取文本之后對文本進行分詞;然后對分好的詞語進行詞性標注,最后再做其他處理比 如說提取關鍵詞,再應用這些關鍵詞進行后續(xù)的處理。這里最基礎的處理步驟就是分詞, 如果分詞結果不好,將會對后續(xù)的處理帶來巨大的影響,所以,分詞是重中之重,而任何分 詞算法都對訓練數(shù)據(jù)或者詞典中沒有出現(xiàn)的詞很難處理好,這就導致系統(tǒng)經(jīng)過一段時間的 使用之后,隨著越來越多的新詞出現(xiàn),處理的效果將會越變越差,為了解決這個問題,新詞 發(fā)現(xiàn)算法應運而生,一般是從海量互聯(lián)網(wǎng)數(shù)據(jù)中,通過新詞發(fā)現(xiàn)算法來提取其中的新詞,然 而,這樣做會有幾個問題,一是海量互聯(lián)網(wǎng)數(shù)據(jù)也很難覆蓋所有的新詞,二是從眾多互聯(lián)網(wǎng) 數(shù)據(jù)中提取新詞的計算代價很大,三是新詞發(fā)現(xiàn)算法都會帶來一定的噪聲數(shù)據(jù),導致提取 的新詞中有一些詞是不規(guī)則詞,這也會對分詞效果造成比較大的影響,除非加入人工糾錯, 否則自動提取的新詞有比較大的問題。
【發(fā)明內(nèi)容】
[0003] 為克服上述現(xiàn)有技術存在的不足,本發(fā)明之目的在于提供一種用于內(nèi)容推薦的新 詞發(fā)現(xiàn)系統(tǒng)及方法,通過將外部網(wǎng)站抓取的新詞、用戶搜索詞條提取的用戶搜索新詞和其 他途徑獲取的新詞結合起來來獲取最終的新詞,避免了傳統(tǒng)新詞發(fā)現(xiàn)算法所導致的沉重的 運算負擔,不僅可以獲得時下最新的新詞,還可以有效的保持互聯(lián)網(wǎng)應用的時效性。
[0004] 為達上述及其它目的,本發(fā)明提出一種新詞發(fā)現(xiàn)系統(tǒng),至少包括:
[0005] 外站抓取模組,用于從當前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外站新 詞;
[0006] 搜索新詞模組,統(tǒng)計用戶搜索過的詞條,并提取頻率最高的前N個詞條作為用戶 搜索新詞;以及
[0007] 去重模組,將該外站抓取模組抓取的總的外站新詞和該搜索新詞模組提取的用戶 搜索新詞匯總并去重,得到最終的最新新詞。
[0008] 進一步地,該系統(tǒng)還包括一其他新詞來源模塊,以用于獲取其他途徑獲得的新詞 作為其他來源新詞。
[0009] 進一步地,該其他新詞來源模塊提取數(shù)據(jù)庫中頻率最高的Μ個詞條做為其他來源 新詞。
[0010] 進一步地,該去重模組將該外站抓取模組抓取的總的外站新詞、該搜索新詞模組 提取的用戶搜索新詞以及該其他新詞來源模塊提取的其他來源新詞匯總并去重,得到最終 的最新新詞。
[0011] 進一步地,該系統(tǒng)還包括一首次去重模組,以將該外站抓取模組從各外部網(wǎng)站抓 取的新詞去重后再進行匯總為總的外站新詞。
[0012] 為達到上述及其他目的,本發(fā)明還提供一種新詞發(fā)現(xiàn)方法,包括如下步驟:
[0013] 從當前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外站新詞;
[0014] 統(tǒng)計用戶搜索過的詞條,并提取頻率最高的前N個詞條作為用戶搜索新詞;
[0015] 將抓取的總的外站新詞和提取的用戶搜索新詞匯總并去重,得到最終的最新新 。
[0016] 進一步地,于該將抓取的總的外站新詞和提取的用戶搜索新詞匯總并去重步驟之 前,還包括獲取其他途徑獲得的新詞作為其他來源新詞的步驟。
[0017] 進一步地,提取數(shù)據(jù)庫中頻率最高的Μ個詞條做為其他來源新詞。
[0018] 進一步地,將抓取的總的外站新詞、提取的用戶搜索新詞匯及其他來源新詞匯總 并去重,得到最終的最新新詞。
[0019] 進一步地,將從各外部網(wǎng)站抓取的新詞去重后再進行匯總為總的外站新詞。
[0020] 與現(xiàn)有技術相比,本發(fā)明一種新詞發(fā)現(xiàn)系統(tǒng)及方法,通過將外部網(wǎng)站抓取的外站 新詞、根據(jù)用戶搜索的詞條提取的用戶搜索新詞和其他來源新詞結合起來的方法來獲取最 終的最新新詞,不僅可以避免新詞發(fā)現(xiàn)算法所造成的沉重的運算負擔,還可以獲得時下最 新的新詞,有效地保持互聯(lián)網(wǎng)應用的時效性。
【專利附圖】
【附圖說明】
[0021] 圖1為本發(fā)明一種新詞發(fā)現(xiàn)系統(tǒng)的系統(tǒng)架構圖;
[0022] 圖2為本發(fā)明一種新詞發(fā)現(xiàn)方法的步驟流程圖。
【具體實施方式】
[0023] 以下通過特定的具體實例并結合【專利附圖】
【附圖說明】本發(fā)明的實施方式,本領域技術人員可 由本說明書所揭示的內(nèi)容輕易地了解本發(fā)明的其它優(yōu)點與功效。本發(fā)明亦可通過其它不同 的具體實例加以施行或應用,本說明書中的各項細節(jié)亦可基于不同觀點與應用,在不背離 本發(fā)明的精神下進行各種修飾與變更。
[0024] 圖1為本發(fā)明一種新詞發(fā)現(xiàn)系統(tǒng)的系統(tǒng)架構圖。如圖1所示,本發(fā)明一種新詞發(fā) 現(xiàn)系統(tǒng),至少包括:外站抓取模組101、搜索新詞模組102以及去重模組103。
[0025] 其中外站抓取模組101,用于從當前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外 站新詞,這里的外部網(wǎng)站可以是百度風云榜、新浪微博新詞等,但不以此為限,假設從百度 風云榜抓取的外站新詞有"秒殺、潛水、雷...等",從新浪微博新詞抓取的外站新詞有" 踩、沙發(fā)、斑竹...等";搜索新詞模組102,統(tǒng)計用戶搜索詞條,并提取頻率最高的前Ν個 詞條作為用戶搜索新詞,假設用戶曾搜索過"秒殺、斑竹、鼠標手、冏、沙發(fā)、驢友、hold住、 河蟹..."等詞,搜索新詞模組102統(tǒng)計該些詞搜索的頻率,提取頻率最高的前N個詞條作 為用戶搜索新詞,如前N個詞條為"秒殺、斑竹、驢友、河蟹";去重模組103,用于將外站 抓取模組101抓取的總的外站新詞和搜索新詞模組102提取的用戶搜索新詞匯總并去重, 得到最終的最新新詞,在此,最終的最新新詞則為"秒殺、潛水、雷、踩、沙發(fā)、斑竹、驢友、河 蟹"。
[0026] 較佳的,由于外部網(wǎng)站不僅僅包括百度風云榜、新浪微博新詞,還包括很多其他站 點,從各站點抓取的外站新詞有可能有很多重復,因此,本發(fā)明之新詞發(fā)現(xiàn)系統(tǒng)還可以包括 一首次去重模組104,以將外站抓取模組101從各外部網(wǎng)站抓取的新詞去重后再進行匯總 為總的外站新詞。
[0027] 較佳的,除了外部網(wǎng)站及用戶搜索詞條的新詞來源外,本發(fā)明還可以具有其他的 新詞來源,因此本發(fā)明之新詞發(fā)現(xiàn)系統(tǒng)還可以包括一其他新詞來源模塊105,用于獲取其他 途徑獲得的新詞,如數(shù)據(jù)庫中的數(shù)據(jù),其他新詞來源模塊105提取其中頻率最高的Μ個詞 條做為其他來源新詞,如"涂鴉、外掛、秒殺、綁定"等,相應的,去重模組103則將外站抓 取模組101抓取的總的外站新詞、搜索新詞模組102提取的用戶搜索新詞以及其他新詞來 源模塊105提取的其他來源新詞匯總并去重,得到最終的最新新詞,則為"秒殺、潛水、雷、 踩、沙發(fā)、斑竹、驢友、河蟹、涂鴉、外掛、綁定"。
[0028] 圖2為本發(fā)明一種新詞發(fā)現(xiàn)方法的步驟流程圖。如圖2所示,本發(fā)明一種新詞發(fā) 現(xiàn)方法,包括如下步驟:
[0029] 步驟201,從當前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外站新詞。其中,外部 網(wǎng)站可以是百度風云榜、新浪微博新詞等,但不以此為限,舉例說明,假設從百度風云榜抓 取的外站新詞有"秒殺、潛水、雷...等",從新浪微博新詞抓取的外站新詞有"踩、沙發(fā)、 斑竹...等",則匯總后的總的外站新詞為"秒殺、潛水、雷、踩、沙發(fā)、斑竹..."。
[0030] 步驟202,統(tǒng)計用戶搜索的詞條,并提取頻率最高的前Ν個詞條作為用戶搜索新 詞。舉例說明,假設用戶曾搜索過"秒殺、斑竹、鼠標手、冏、沙發(fā)、驢友、hold住、河蟹" 等詞,則本步驟統(tǒng)計該些詞搜索的頻率,提取頻率最高的前N個詞條作為用戶搜索新詞,如 前N個詞條為"秒殺、斑竹、驢友、河蟹"。
[0031] 步驟203,將抓取的總的外站新詞和提取的用戶搜索新詞匯總并去重,得到最終 的最新新詞,在此,經(jīng)過匯總并去重后的最終的最新新詞則為"秒殺、潛水、雷、踩、沙發(fā)、斑 竹、驢友、河蟹"。
[0032] 較佳地,由于外部網(wǎng)站不僅僅包括百度風云榜、新浪微博新詞,還包括很多其他站 點,從各站點抓取的外站新詞有可能有很多重復,因此,在步驟201中,則需將從各外部網(wǎng) 站抓取的新詞去重后再進行匯總為總的外站新詞。
[0033] 較佳的,除了外部網(wǎng)站及用戶搜索詞條的新詞來源外,本發(fā)明還可以具有其他的 新詞來源,在步驟203之前,還可以包括如下步驟:獲取其他途徑獲得的新詞作為其他來源 新詞,如數(shù)據(jù)庫中的數(shù)據(jù),其他新詞來源模塊105提取其中頻率最高的Μ個詞條做為其他 來源新詞,如"涂鴉、外掛、秒殺、綁定"等,相應的,于步驟203中,則需將抓取的總的外站 新詞、提取的用戶搜索新詞以及其他來源新詞匯總并去重,得到最終的最新新詞,則為"秒 殺、潛水、雷、踩、沙發(fā)、斑竹、5戶友、河蟹、涂鴉、外掛、綁定"。
[0034] 綜上所述,本發(fā)明一種新詞發(fā)現(xiàn)系統(tǒng)及方法,通過將外部網(wǎng)站抓取的外站新詞、根 據(jù)用戶搜索的詞條提取的用戶搜索新詞和其他來源新詞結合起來的方法來獲取最終的最 新新詞,不僅可以避免新詞發(fā)現(xiàn)算法所造成的沉重的運算負擔,還可以獲得時下最新的新 詞,有效地保持互聯(lián)網(wǎng)應用的時效性。
[0035] 上述實施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何本 領域技術人員均可在不違背本發(fā)明的精神及范疇下,對上述實施例進行修飾與改變。因此, 本發(fā)明的權利保護范圍,應如權利要求書所列。
【權利要求】
1. 一種新詞發(fā)現(xiàn)系統(tǒng),至少包括: 外站抓取模組,用于從當前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外站新詞; 搜索新詞模組,統(tǒng)計用戶搜索過的詞條,并提取頻率最高的前N個詞條作為用戶搜索 新詞;以及 去重模組,將該外站抓取模組抓取的總的外站新詞和該搜索新詞模組提取的用戶搜索 新詞匯總并去重,得到最終的最新新詞。
2. 如權利要求1所述的一種新詞發(fā)現(xiàn)系統(tǒng),其特征在于:該系統(tǒng)還包括一其他新詞來 源模塊,以用于獲取其他途徑獲得的新詞作為其他來源新詞。
3. 如權利要求2所述的一種新詞發(fā)現(xiàn)系統(tǒng),其特征在于:該其他新詞來源模塊提取數(shù) 據(jù)庫中頻率最高的Μ個詞條做為其他來源新詞。
4. 如權利要求3所述的一種新詞發(fā)現(xiàn)系統(tǒng),其特征在于:該去重模組將該外站抓取模 組抓取的總的外站新詞、該搜索新詞模組提取的用戶搜索新詞以及該其他新詞來源模塊提 取的其他來源新詞匯總并去重,得到最終的最新新詞。
5. 如權利要求1所述的一種新詞發(fā)現(xiàn)系統(tǒng),其特征在于:該系統(tǒng)還包括一首次去重模 組,以將該外站抓取模組從各外部網(wǎng)站抓取的新詞去重后再進行匯總為總的外站新詞。
6. -種新詞發(fā)現(xiàn)方法,包括如下步驟: 從當前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外站新詞; 統(tǒng)計用戶搜索過的詞條,并提取頻率最高的前Ν個詞條作為用戶搜索新詞; 將抓取的總的外站新詞和提取的用戶搜索新詞匯總并去重,得到最終的最新新詞。
7. 如權利要求6所述的一種新詞發(fā)現(xiàn)方法,其特征在于,于該將抓取的總的外站新詞 和提取的用戶搜索新詞匯總并去重步驟之前,還包括獲取其他途徑獲得的新詞作為其他來 源新詞的步驟。
8. 如權利要求7所述的一種新詞發(fā)現(xiàn)方法,其特征在于:提取數(shù)據(jù)庫中頻率最高的Μ 個詞條做為其他來源新詞。
9. 如權利要求8所述的一種新詞發(fā)現(xiàn)方法,其特征在于:將抓取的總的外站新詞、提取 的用戶搜索新詞匯及其他來源新詞匯總并去重,得到最終的最新新詞。
10. 如權利要求6所述的一種新詞發(fā)現(xiàn)方法,其特征在于:將從各外部網(wǎng)站抓取的新詞 去重后再進行匯總為總的外站新詞。
【文檔編號】G06F17/30GK104216878SQ201310205571
【公開日】2014年12月17日 申請日期:2013年5月29日 優(yōu)先權日:2013年5月29日
【發(fā)明者】王玉平, 陳運文, 姜迅 申請人:酷盛(天津)科技有限公司