欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于密度詞聚類的微博推送方法及裝置的制作方法

文檔序號:6400671閱讀:177來源:國知局
專利名稱:一種基于密度詞聚類的微博推送方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及一種基于密度詞聚類的微博推送方法及裝鉻。
背景技術(shù)
目前,微博在社會化媒體中的應(yīng)用越來越具有影響力,已經(jīng)成為用戶進行信息發(fā)布、交流、獲取的主要手段之一。對于一個微博用戶,服務(wù)器除了可以將該用戶所關(guān)注的其他用戶發(fā)布的微博推送給該用戶以外,還可以根據(jù)該用戶的興趣,將與該用戶的興趣相關(guān)的微博推送給該用戶。具體的,可先設(shè)定該用戶的興趣詞(可由該用戶自己設(shè)定,也可由服務(wù)器根據(jù)該用戶瀏覽、轉(zhuǎn)發(fā)、收藏、關(guān)注的微博確定該用戶的興趣詞),服務(wù)器再根據(jù)待推送微博的內(nèi)容,判斷該待推送微博是否與該用戶的興趣詞相關(guān),如果相關(guān),則將該待推送微博推送給該用戶。例如,該用戶的興趣詞為“計算機”,服務(wù)器則根據(jù)待推送微博的內(nèi)容,判斷該待推送微博是否與“計算機”相關(guān),若是,則將該待推送微博推送給該用戶。然而,在實際應(yīng)用中存在多個不同的詞所表達的意義相同或相近的情況,如上例中與該用戶的興趣詞“計算機”相近的詞包括“電腦”、“筆記本”等。如果針對一個待推送微博,僅根據(jù)其與該用戶的興趣詞是否相關(guān)來決定是否將其推送給該用戶,勢必會造成推送微博的準(zhǔn)確性較低。因此,需要對詞庫中的各詞匯進行聚類,也即,將表達的意義相同或相近的詞聚集到一起形成詞簇。這樣,在判斷一個待推送微博是否應(yīng)該被推送給一個用戶時,則可以判斷該待推送微博的內(nèi)容是否與該用戶的興趣詞所在的詞簇相關(guān),再根據(jù)判斷結(jié)果進行推送??梢?,對詞庫中的各詞匯進行聚類的準(zhǔn)確性直接關(guān)系到推送微博的準(zhǔn)確性。在現(xiàn)有技術(shù)中,一般可采用以下兩種聚類算法對詞匯進行聚類。一、基于劃分的聚類算法,如k-means聚類算法,其方法為,先指定詞簇的數(shù)量k ;再從詞庫中隨機選擇k個詞分別作為k個詞簇的中心詞;然后針對詞庫中的每個其他詞匯,分別計算該詞匯與這k個中心詞的距離,并確定與該詞匯距離最近的中心詞,將該詞匯分入該中心詞所在的詞簇;對所有的其他詞匯處理完成后,重新確定每個詞簇的中心詞(同樣是k個中心詞),并再次計算其他詞匯分別與重新確定的k個中心詞的距離,根據(jù)距離進行詞簇的重新劃分,如此迭代下去,直至滿足某個終止迭代條件為止。但是,采用上述第一種方法聚類的準(zhǔn)確性會受到初始指定的詞簇數(shù)量k的影響,而且,上述方法聚類出的詞簇是一個“球形”的詞簇,對于得到的一個詞簇來說,距離該詞簇的中心詞最遠的詞匯往往與該詞簇的相關(guān)性已經(jīng)很低。二、基于凝聚式的層次聚類算法,其方法為,在初始階段將每個詞作為一個詞簇,然后計算每個詞簇之間的距離,合并距離較近的詞簇以形成更大的詞簇,重新計算每個詞簇之間的距離,繼續(xù)根據(jù)詞簇之間的距離進行合并,如此迭代下去,直至滿足某個終止迭代條件為止。
但是,采用上述第二種聚類算法的準(zhǔn)確性會受到許多具有概括性含義的詞匯的影響,如“公司”、“企業(yè)”、“經(jīng)驗”等,這些具有概括性含義的詞匯與很多不同類別的詞匯都具有一定的相關(guān)性,因此,在合并詞簇時,往往會由于這些具有概括性的詞匯而將兩個本不具有相關(guān)性的詞簇合并在一起。綜上所述,現(xiàn)有技術(shù)中對詞匯進行聚類的準(zhǔn)確性較低,從而導(dǎo)致服務(wù)器不能對待推送微博進行準(zhǔn)確的推送,對于一個用戶來說,如果服務(wù)器未將與其興趣相關(guān)的待推送微博推送給該用戶,則該用戶勢必會通過搜索等其他方式來搜索這些待推送微博,增大服務(wù)器壓力,而如果服務(wù)器將與其興趣并不相關(guān)的待推送微博推送給該用戶,也會造成網(wǎng)絡(luò)資源的浪費。

發(fā)明內(nèi)容
本發(fā)明實施例提供一種基于密度詞聚類的微博推送方法及裝鉻,用以解決現(xiàn)有技術(shù)中服務(wù)器壓力大,浪費網(wǎng)絡(luò)資源的問題。本發(fā)明實施例提供的一種基于密度詞聚類的微博推送方法,包括:服務(wù)器根據(jù)各詞匯的共現(xiàn)詞集,確定各詞匯之間的詞間距;并根據(jù)各詞匯之間的詞間距確定核心詞;以及針對確定的每個核心詞,將與該核心詞的詞間距最小的N個詞匯以及該核心詞劃分為一個詞集,N為預(yù)設(shè)的第一數(shù)量;針對劃分出的每個詞集,采用OPTICS聚類算法對該詞集中的詞匯進行聚類,得到若干個待合并詞簇;并根據(jù)得到的各待合并詞簇中的詞匯,對得到的各待合并詞簇進行合并處理,得到已合并詞簇;所述服務(wù)器根據(jù)用戶的興趣詞所在的已合并詞簇以及待推送微博的內(nèi)容,推送所述待推送微博。本發(fā)明實施例提供的一種基于密度詞聚類的微博推送裝鉻,包括:詞間距確定模塊,用于根據(jù)各詞匯的共現(xiàn)詞集,確定各詞匯之間的詞間距;核心詞確定模塊,用于根據(jù)各詞匯之間的詞間距確定核心詞;詞集劃分模塊,用于針對確定的每個核心詞,將與該核心詞的詞間距最小的N個詞匯以及該核心詞劃分為一個詞集,N為預(yù)設(shè)的第一數(shù)量;聚類模塊,用于針對劃分出的每個詞集,采用OPTICS聚類算法對該詞集中的詞匯進行聚類,得到若干個待合并詞簇;合并模塊,用于根據(jù)得到的各待合并詞簇中的詞匯,對得到的各待合并詞簇進行合并處理,得到已合并詞簇;推送模塊,用于根據(jù)用戶的興趣詞所在的已合并詞簇以及待推送微博的內(nèi)容,推送所述待推送微博。本發(fā)明實施例提供一種基于密度詞聚類的微博推送方法及裝鉻,該方法服務(wù)器先確定各詞匯之間的詞間距,據(jù)此確定核心詞,并針對每個核心詞,將與該核心詞的詞間距最小的N個詞匯以及該核心詞劃分為一個詞集,再采用OPTICS聚類算法對每個詞集中的詞匯進行聚類,得到若干個待合并詞簇,然后對若干個待合并詞簇進行合并得到已合并詞簇,最后根據(jù)用戶的興趣詞所在的已合并詞簇以及待推送微博的內(nèi)容推送待推送微博。上述方法在劃分詞集時可將具有概括性含義的詞匯排除在劃分的詞集以外,而且聚類時不受初始值的影響,因此可提高聚類的準(zhǔn)確性,服務(wù)器根據(jù)得到的已合并詞簇可對待推送微博進行準(zhǔn)確的推送,從而可以有效減小服務(wù)器壓力,也節(jié)省了網(wǎng)絡(luò)資源。


圖1為本發(fā)明實施例提供的基于密度詞聚類的微博推送過程;圖2為本發(fā)明實施例提供的服務(wù)器劃分詞集的過程;圖3為本發(fā)明實施例提供的以詞匯P劃分的詞集示意圖;圖4為本發(fā)明實施例提供的兩個相交的詞集示意圖;圖5為本發(fā)明實施例提供的兩個互斥的詞集示意圖;圖6為本發(fā)明實施例提供的兩個過度相交的詞集示意圖;圖7為本發(fā)明實施例提供的采用OPTICS聚類算法對一個詞集中的詞匯進行聚類的過程;圖8為本發(fā)明實施例提供的基于密度詞聚類的微博推送裝鉻結(jié)構(gòu)示意圖。
具體實施例方式為了避免具有概括性含義的詞匯以及聚類時所輸入的初始值(如k-means聚類算法中需要先輸入的指定詞簇數(shù)量k)對聚類結(jié)果的影響,本發(fā)明實施例中先將詞庫中的各詞匯劃分為若干個詞集,在劃分詞集時可排除具有概括性含義的詞匯(如“公司”、“企業(yè)”、“經(jīng)驗”等詞匯),再采用無需輸入初始值并可根據(jù)詞匯的密度聚類出任意“形狀”詞簇的OPTICS聚類算法對每個詞集進行聚類,得到待合并詞簇,最后將待合并詞簇進行合并得到已合并詞簇,從而可以提高聚類的準(zhǔn)確性,服務(wù)器根據(jù)得到的已合并詞簇可對待推送微博進行準(zhǔn)確的推送,因此可以有效減小服務(wù)器壓力,節(jié)省網(wǎng)絡(luò)資源。下面結(jié)合附圖對本發(fā)明優(yōu)選的實施方式進行詳細說明。圖1為本發(fā)明實施例提供的基于密度詞聚類的微博推送過程,具體包括以下步驟:SlOl:服務(wù)器根據(jù)各詞匯的共現(xiàn)詞集,確定各詞匯之間的詞間距。在本發(fā)明實施例中,服務(wù)器針對詞庫中的任意兩個詞匯,可通過這兩個詞匯在預(yù)料中的上下文分布之間的相似性確定這兩個詞匯之間的詞間距,如果這兩個詞的上下文分布越相似,則這兩個詞所表達的含義越相似,二者之間的詞間距越小,反之則詞間距越大。具體的,以第一詞匯和第二詞匯代表詞庫中的任意兩個詞匯為例,服務(wù)器針對第
一詞匯和第二詞匯,可采用公式
權(quán)利要求
1.一種基于密度詞聚類的微博推送方法,其特征在于,包括: 服務(wù)器根據(jù)各詞匯的共現(xiàn)詞集,確定各詞匯之間的詞間距;并 根據(jù)各詞匯之間的詞間距確定核心詞;以及 針對確定的每個核心詞,將與該核心詞的詞間距最小的N個詞匯以及該核心詞劃分為一個詞集,N為預(yù)設(shè)的第一數(shù)量; 針對劃分出的每個詞集,采用OPTICS聚類算法對該詞集中的詞匯進行聚類,得到若干個待合并詞簇;并 根據(jù)得到的各待合并詞簇中的詞匯,對得到的各待合并詞簇進行合并處理,得到已合并詞簇; 所述服務(wù)器根據(jù)用戶的興趣詞所在的已合并詞簇以及待推送微博的內(nèi)容,推送所述待推送微博。
2.如權(quán)利要求1所述的方法,其特征在于,服務(wù)器根據(jù)各詞匯的共現(xiàn)詞集,確定各詞匯之間的詞間距,具體包括: 所述服務(wù)器針對第一詞匯和第二詞匯,采用公式
3.如權(quán)利要求1所述的方法,其特征在于,根據(jù)各詞匯之間的詞間距確定核心詞,具體包括: 所述服務(wù)器針對每個待定詞匯,判斷與該待定詞匯的詞間距不大于預(yù)設(shè)鄰域距離的其他詞匯的數(shù)量是否大于預(yù)設(shè)的第二數(shù)量,若是,則確定該待定詞匯為核心詞,否則,確定該待定詞匯不是核心詞。
4.如權(quán)利要求3所述的方法,其特征在于,針對確定的每個核心詞,將與該核心詞的詞間距最小的N個詞匯以及該核心詞劃分為一個詞集,具體包括: 將各詞匯以任意順序添加到原始隊列中; 針對原始隊列中的每個詞匯,提取該詞匯,判斷提取的該詞匯是否為核心詞; 若是,則將原始隊列中與提取的該詞匯的詞間距最小的N個詞匯以及提取的該詞匯劃分為一個詞集,并從原始隊列中刪除提取的該詞匯以及與提取的該詞匯的詞間距小于所述預(yù)設(shè)鄰域距離的2倍的核心詞; 否則,將提取的該詞匯放回到原始隊列中。
5.如權(quán)利要求1所述的方法,其特征在于,針對劃分出的每個詞集,采用OPTICS聚類算法對該詞集中的詞匯進行聚類,得到若干個待合并詞簇,具體包括: 針對劃分出的每個詞集,將該詞集中的所有詞匯添加到有序種子隊列中; 按照有序種子隊列中各詞匯的先后順序,提取第一個詞匯;判斷提取的該詞匯是否為核心詞; 若是,則將有序種子隊列中的其他詞匯作為提取的該詞匯的候選詞,并針對每個候選詞,確定該候選詞到提取的該詞匯的可達距離;如果當(dāng)前該候選詞的可達距離中間值不大于該候選詞到提取的該詞匯的可達距離,則保持該候選詞的可達距離中間值不變,如果當(dāng)前該候選詞的可達距離中間值大于該候選詞到提取的該詞匯的可達距離,則將該候選詞到提取的該詞匯的可達距離重新作為該候選詞的可達距離中間值;將提取的該詞匯插入到結(jié)果隊列的末尾,從有序種子隊列中刪除提取的該詞匯,并按照各候選詞當(dāng)前的可達距離中間值從小到大的順序?qū)τ行蚍N子隊列中的各候選詞進行排序;繼續(xù)提取有序種子隊列中的第一個詞匯進行處理,直至有序種子隊列中不存在任何詞匯為止; 否則,將提取的該詞匯插入到結(jié)果隊列的末尾,從有序種子隊列中刪除提取的該詞匯,繼續(xù)提取有序種子隊列中的第一個詞匯進行處理,直至有序種子隊列中不存在任何詞匯為止; 當(dāng)有序種子隊列中不存在任何詞匯時,按照結(jié)果隊列中各詞匯的先后順序,依次查找除第一個詞匯以外、且當(dāng)前的可達距離中間值大于預(yù)設(shè)鄰域距離的詞匯; 當(dāng)查找到時,將結(jié)果隊列中排在查找到的該詞匯之前的所有詞匯聚類為一個待合并詞簇,從結(jié)果隊列中刪除該待合并詞簇中的所有詞匯,并繼續(xù)按照結(jié)果隊列中各詞匯的先后順序,依次查找除第一個詞匯以外、且當(dāng)前的可達距離中間值大于預(yù)設(shè)鄰域距離的詞匯進行聚類,直至結(jié)果隊列中不存在任何詞匯為止。
6.如權(quán)利要求1所述的方法,其特征在于,根據(jù)得到的各待合并詞簇中的詞匯,對得到的各待合并詞簇進行合并處理,得到已合并詞簇,具體包括: 將得到的各待合并詞簇添加到簇隊列中; 針對簇隊列中的每個待合并詞簇,提取該待合并詞簇,確定簇隊列中與提取的該待合并詞簇包含至少一個相同詞匯 的其他待合并詞簇,將確定的其他待合并詞簇并入提取的該待合并詞簇中,得到中間待合并詞簇; 從簇隊列中刪除提取的該待合并詞簇以及確定的其他待合并詞簇,繼續(xù)確定當(dāng)前簇隊列中與該中間待合并詞簇包含至少一個相同詞匯的其他待合并詞簇,并進行合并,直至該中間待合并詞簇中包含的詞匯的數(shù)量不再變化為止; 當(dāng)該中間待合并詞簇中包含的詞匯的數(shù)量不再變化時,將該中間待合并詞簇作為得到的已合并詞簇。
7.一種基于密度詞聚類的微博推送裝置,其特征在于,包括: 詞間距確定模塊,用于根據(jù)各詞匯的共現(xiàn)詞集,確定各詞匯之間的詞間距; 核心詞確定模塊,用于根據(jù)各詞匯之間的詞間距確定核心詞; 詞集劃分模塊,用于針對確定的每個核心詞,將與該核心詞的詞間距最小的N個詞匯以及該核心詞劃分為一個詞集,N為預(yù)設(shè)的第一數(shù)量; 聚類模塊,用于針對劃分出的每個詞集,采用OPTICS聚類算法對該詞集中的詞匯進行聚類,得到若干個待合并詞簇; 合并模塊,用于根據(jù)得到的各待合并詞簇中的詞匯,對得到的各待合并詞簇進行合并處理,得到已合并詞簇; 推送模塊,用于根據(jù)用戶的興趣詞所在的已合并詞簇以及待推送微博的內(nèi)容,推送所述待推送微博。
8.如權(quán)利要求7所述的裝置,其特征在于,所述詞間距確定模塊具體用于,針對第一詞 匯和第二詞匯,采用公式
9.如權(quán)利要求7所述的裝置,其特征在于,所述核心詞確定模塊具體用于,針對每個待定詞匯,判斷與該待定詞匯的詞間距不大于預(yù)設(shè)鄰域距離的其他詞匯的數(shù)量是否大于預(yù)設(shè)的第二數(shù)量,若是,則確定該待定詞匯為核心詞,否則,確定該待定詞匯不是核心詞。
10.如權(quán)利要求7所述的裝置,其特征在于,所述詞集劃分模塊具體用于,將各詞匯以任意順序添加到原始隊列中;針對原始隊列中的每個詞匯,提取該詞匯,判斷提取的該詞匯是否為核心詞;若是,則將原始隊列中與提取的該詞匯的詞間距最小的N個詞匯以及提取的該詞匯劃分為一個詞集,并從原始隊列中刪除提取的該詞匯以及與提取的該詞匯的詞間距小于所述預(yù)設(shè)鄰域距離的2倍的核心詞;否則,將提取的該詞匯放回到原始隊列中。
11.如權(quán)利要求7所述的裝置,其特征在于,所述聚類模塊具體用于,針對劃分出的每個詞集,將該詞集中的所有詞匯添加到有序種子隊列中;按照有序種子隊列中各詞匯的先后順序,提取第一個詞匯;判斷提取的該詞匯是否為核心詞;若是,則將有序種子隊列中的其他詞匯作為提取的該詞匯的候選詞,并針對每個候選詞,確定該候選詞到提取的該詞匯的可達距離;如果當(dāng)前該候選詞的可達距離中間值不大于該候選詞到提取的該詞匯的可達距離,則保持該候選詞的可達距離中間值不變,如果當(dāng)前該候選詞的可達距離中間值大于該候選詞到提取的該詞匯的可達距離,則將該候選詞到提取的該詞匯的可達距離重新作為該候選詞的可達距離中間值;將提取的該詞匯插入到結(jié)果隊列的末尾,從有序種子隊列中刪除提取的該詞匯,并按照各候選詞當(dāng)前的可達距離中間值從小到大的順序?qū)τ行蚍N子隊列中的各候選詞進行排序;繼續(xù)提取有序種子隊列中的第一個詞匯進行處理,直至有序種子隊列中不存在任何詞匯為止;否則,將提取的該詞匯插入到結(jié)果隊列的末尾,從有序種子隊列中刪除提取的該詞匯,繼續(xù)提取有序種子隊列中的第一個詞匯進行處理,直至有序種子隊列中不存在任何詞匯為止;當(dāng)有序種子隊列中不存在任何詞匯時,按照結(jié)果隊列中各詞匯的先后順序,依次查找除第一個詞匯以外、且當(dāng)前的可達距離中間值大于預(yù)設(shè)鄰域距離的詞匯;當(dāng)查找到時,將結(jié)果隊列中排在查找到的該詞匯之前的所有詞匯聚類為一個待合并詞簇,從結(jié)果隊列中刪除該待合并詞簇中的所有詞匯,并繼續(xù)按照結(jié)果隊列中各詞匯的先后順序,依次查找除第一個詞匯以外、且當(dāng)前的可達距離中間值大于預(yù)設(shè)鄰域距離的詞匯進行聚類,直至結(jié)果隊列中不存在任何詞匯為止。
12.如權(quán)利要求7所述的裝置,其特征在于,所述合并模塊具體用于,將得到的各待合并詞簇添加到簇隊列中;針對簇隊列中的每個待合并詞簇,提取該待合并詞簇,確定簇隊列中與提取的該待合并詞簇包含至少一個相同詞匯的其他待合并詞簇,將確定的其他待合并詞簇并入提取的該待合并詞簇中,得到中間待合并詞簇;從簇隊列中刪除提取的該待合并詞簇以及確定的其他待合并詞簇,繼續(xù)確定當(dāng)前簇隊列中與該中間待合并詞簇包含至少一個相同詞匯的其他待合并詞簇,并進行合并,直至該中間待合并詞簇中包含的詞匯的數(shù)量不再變化為止;當(dāng)該中間待合并詞簇中包含的詞匯的數(shù)量不再變化時,將該中間待合并詞簇作為得到的 已合并詞簇。
全文摘要
本發(fā)明公開了一種基于密度詞聚類的微博推送方法及裝置,用以解決現(xiàn)有技術(shù)中服務(wù)器壓力大,浪費網(wǎng)絡(luò)資源的問題。該方法服務(wù)器確定各詞匯之間的詞間距,據(jù)此確定核心詞,并針對每個核心詞劃分詞集,再采用OPTICS聚類算法對每個詞集中的詞匯進行聚類,得到若干個待合并詞簇,然后對若干個待合并詞簇進行合并得到已合并詞簇,最后根據(jù)用戶的興趣詞所在的已合并詞簇以及待推送微博的內(nèi)容推送待推送微博。上述方法在劃分詞集時可將具有概括性含義的詞匯排除在劃分的詞集以外,而且聚類時不受初始值的影響,因此可提高聚類的準(zhǔn)確性,服務(wù)器根據(jù)得到的已合并詞簇可對待推送微博進行準(zhǔn)確的推送,從而可以有效減小服務(wù)器壓力,也節(jié)省了網(wǎng)絡(luò)資源。
文檔編號G06F17/30GK103198103SQ20131009052
公開日2013年7月10日 申請日期2013年3月20日 優(yōu)先權(quán)日2013年3月20日
發(fā)明者馮揚, 姜貴彬, 宋莉, 劉瑩瑩, 桑軍 申請人:微夢創(chuàng)科網(wǎng)絡(luò)科技(中國)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
弥勒县| 澄城县| 西峡县| 宁南县| 榆树市| 宿松县| 修水县| 柳州市| 屏山县| 鹿泉市| 慈利县| 广东省| 日照市| 阿拉善左旗| 轮台县| 新宁县| 外汇| 安阳县| 九龙城区| 浦城县| 上思县| 七台河市| 福安市| 历史| 山阳县| 富平县| 三门县| 且末县| 象山县| 万山特区| 平顺县| 琼海市| 都匀市| 芜湖县| 东港市| 嵊泗县| 平遥县| 鹤山市| 琼结县| 东明县| 天等县|