本申請涉及計算機技術(shù)領(lǐng)域,具體涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及信息推送方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,通過智能設(shè)備上所安裝的應用獲取資訊已經(jīng)成為人們?nèi)粘I钪械某R娦畔@取方式。通常,需要向用戶個性化推薦其最感興趣的信息,以減少用戶在網(wǎng)絡(luò)上搜索所花的時間。
現(xiàn)有的方式通常是通過統(tǒng)計搜索數(shù)據(jù)結(jié)果中與搜索關(guān)鍵詞的共同出現(xiàn)的共現(xiàn)關(guān)鍵詞,繼而基于對共現(xiàn)的頻次較高的共現(xiàn)關(guān)鍵詞進行信息推送。然而,這種方法無法針對共現(xiàn)頻次較低的詞語進行分析,因而存在著信息推送的針對性較低的問題。
技術(shù)實現(xiàn)要素:
本申請實施例的目的在于提出一種改進的信息推送方法和裝置,來解決以上背景技術(shù)部分提到的技術(shù)問題。
第一方面,本申請實施例提供了一種信息推送方法,該方法包括:對用戶瀏覽的頁面內(nèi)容進行解析,提取頁面內(nèi)容的關(guān)鍵詞并確定與關(guān)鍵詞相對應的主題;確定預置關(guān)鍵詞集合中的、與關(guān)鍵詞相匹配的預置關(guān)鍵詞;基于預先建立的預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系,確定與所確定的預置關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞;向用戶推送與主題和/或關(guān)聯(lián)關(guān)鍵詞對應的信息。
在一些實施例中,對用戶瀏覽的頁面內(nèi)容進行解析,提取頁面內(nèi)容的關(guān)鍵詞并確定與關(guān)鍵詞相對應的主題,包括:對用戶瀏覽的頁面內(nèi)容進行解析,提取頁面內(nèi)容的關(guān)鍵詞,并將關(guān)鍵詞輸入至預先生成的主題概率分布模型,得到至少一個第一候選主題和至少一個第一候選主題中的各個第一候選主題作為與關(guān)鍵詞相對應的主題的概率;將關(guān)鍵詞輸入至預先生成的泛化模型,得到至少一個第二候選主題和關(guān)鍵詞與至少一個第二候選主題中的各個第二候選主題的相似度;將至少一個第一候選主題和至少一個第二候選主題進行融合,確定與關(guān)鍵詞相對應的主題。
在一些實施例中,在對用戶瀏覽的頁面內(nèi)容進行解析,提取頁面內(nèi)容的關(guān)鍵詞并確定與關(guān)鍵詞相對應的主題之前,該方法還包括生成主題概率分布模型的步驟,包括:對預設(shè)的多個文本進行解析,確定每一個文本的關(guān)鍵詞和主題,并建立該文本的關(guān)鍵詞和主題的對應關(guān)系;對所建立的對應關(guān)系進行統(tǒng)計,確定每一個關(guān)鍵詞和各個主題的對應關(guān)系的建立次數(shù);基于所確定的每一個關(guān)鍵詞和各個主題的對應關(guān)系的建立次數(shù),生成與所確定的每一個關(guān)鍵詞相對應的主題概率分布模型。
在一些實施例中,在對用戶瀏覽的頁面內(nèi)容進行解析,提取頁面內(nèi)容的關(guān)鍵詞并確定與關(guān)鍵詞相對應的主題之前,該方法還包括生成泛化模型的步驟,包括:對預設(shè)的多個文本進行解析,生成各個文本的關(guān)鍵詞集合,并確定各個文本的主題;將相同主題的文本所對應的關(guān)鍵詞集合進行合并,以生成與所確定的每一個主題相對應的關(guān)鍵詞集合;對于所確定的每一個主題,基于卡方檢驗方法,從與該主題相對應的關(guān)鍵詞集合中提取特征關(guān)鍵詞;基于機器學習方法,將與所確定的各個主題相對應的特征關(guān)鍵詞作為輸入,訓練得到泛化模型。
在一些實施例中,對預設(shè)的多個文本進行解析,生成各個文本的關(guān)鍵詞集合,并確定各個文本的主題,包括:對于預設(shè)的多個文本中的每一個文本,對該文本進行分詞,并刪除分詞后所得到的多個詞中的停用詞、介詞和副詞,以得到與該文本相對應的關(guān)鍵詞集合;將各個文本輸入至預先訓練的主題模型,確定每一個文本的主題,其中,主題模型用于表征文本與主題的對應關(guān)系。
在一些實施例中,在對用戶瀏覽的頁面內(nèi)容進行解析,提取頁面內(nèi)容的關(guān)鍵詞并確定與關(guān)鍵詞相對應的主題之前,該方法還包括建立預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系的步驟,包括:對歷史搜索數(shù)據(jù)和歷史瀏覽數(shù)據(jù)進行解析,確定第一關(guān)鍵詞和與每一個第一關(guān)鍵詞相關(guān)聯(lián)的至少一個第二關(guān)鍵詞;分別將第一關(guān)鍵詞、至少一個第二關(guān)鍵詞中的各個第二關(guān)鍵詞與預置關(guān)鍵詞集合中的各個預置關(guān)鍵詞進行相似度計算,將預置關(guān)鍵詞集合中的、與第一關(guān)鍵詞相似度最大的預置關(guān)鍵詞確定為第一預置關(guān)鍵詞,將預置關(guān)鍵詞集合中的、與各個第二關(guān)鍵詞相似度最大的預置關(guān)鍵詞分別確定為第二預置關(guān)鍵詞;分別建立第一預置關(guān)鍵詞與各個第二預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系。
在一些實施例中,在分別建立第一預置關(guān)鍵詞與各個第二預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系之后,該方法還包括:從歷史搜索數(shù)據(jù)和歷史瀏覽數(shù)據(jù)中統(tǒng)計第一預置關(guān)鍵詞與各個第二預置關(guān)鍵詞的共現(xiàn)次數(shù);基于所確定的共現(xiàn)次數(shù),確定第一預置關(guān)鍵詞到各個第二預置關(guān)鍵詞的轉(zhuǎn)移概率,其中,第一預置關(guān)鍵詞到每一個第二預置關(guān)鍵詞的轉(zhuǎn)移概率為第一預置關(guān)鍵詞與該第二預置關(guān)鍵詞的共現(xiàn)次數(shù)與所確定的各個共現(xiàn)次數(shù)的總和的比值。
在一些實施例中,基于預先建立的預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系,確定與所確定的預置關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞,包括:將所確定的預置關(guān)鍵詞作為目標第一預置關(guān)鍵詞,從所建立的關(guān)聯(lián)關(guān)系中,確定與目標第一預置關(guān)鍵詞相關(guān)聯(lián)的第二預置關(guān)鍵詞,并提取目標第一預置關(guān)鍵詞與相關(guān)聯(lián)的各個第二預置關(guān)鍵詞的轉(zhuǎn)移概率;將轉(zhuǎn)移概率大于預設(shè)概率的第二預置關(guān)鍵詞確定為與目標第一預置關(guān)鍵詞的相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞。
在一些實施例中,在對用戶瀏覽的頁面內(nèi)容進行解析,提取頁面內(nèi)容的關(guān)鍵詞并確定與關(guān)鍵詞相對應的主題之后,該方法還包括:將頁面內(nèi)容的鏈接呈現(xiàn)在與主題相對應的網(wǎng)頁中。
第二方面,本申請實施例提供了一種信息推送裝置,該裝置包括:第一解析單元,配置用于對用戶瀏覽的頁面內(nèi)容進行解析,提取頁面內(nèi)容的關(guān)鍵詞并確定與關(guān)鍵詞相對應的主題;第一確定單元,配置用于確定預置關(guān)鍵詞集合中的、與關(guān)鍵詞相匹配的預置關(guān)鍵詞;第二確定單元,配置用于基于預先建立的預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系,確定與所確定的預置關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞;推送單元,配置用于向用戶推送與主題和/或關(guān)聯(lián)關(guān)鍵詞對應的信息。
在一些實施例中,第一解析單元包括:第一輸入模塊,配置用于對用戶瀏覽的頁面內(nèi)容進行解析,提取頁面內(nèi)容的關(guān)鍵詞,并將關(guān)鍵詞輸入至預先生成的主題概率分布模型,得到至少一個第一候選主題和至少一個第一候選主題中的各個第一候選主題作為與關(guān)鍵詞相對應的主題的概率;第二輸入模塊,配置用于將關(guān)鍵詞輸入至預先生成的泛化模型,得到至少一個第二候選主題和關(guān)鍵詞與至少一個第二候選主題中的各個第二候選主題的相似度;融合模塊,配置用于將至少一個第一候選主題和至少一個第二候選主題進行融合,確定與關(guān)鍵詞相對應的主題。
在一些實施例中,該裝置還包括:第二解析單元,配置用于對預設(shè)的多個文本進行解析,確定每一個文本的關(guān)鍵詞和主題,并建立該文本的關(guān)鍵詞和主題的對應關(guān)系;第一統(tǒng)計單元,配置用于對所建立的對應關(guān)系進行統(tǒng)計,確定每一個關(guān)鍵詞和各個主題的對應關(guān)系的建立次數(shù);生成單元,配置用于基于所確定的每一個關(guān)鍵詞和各個主題的對應關(guān)系的建立次數(shù),生成與所確定的每一個關(guān)鍵詞相對應的主題概率分布模型。
在一些實施例中,該裝置還包括:第三解析單元,配置用于對預設(shè)的多個文本進行解析,生成各個文本的關(guān)鍵詞集合,并確定各個文本的主題;合并單元,配置用于將相同主題的文本所對應的關(guān)鍵詞集合進行合并,以生成與所確定的每一個主題相對應的關(guān)鍵詞集合;提取單元,配置用于對于所確定的每一個主題,基于卡方檢驗裝置,從與該主題相對應的關(guān)鍵詞集合中提取特征關(guān)鍵詞;訓練單元,配置用于基于機器學習方法,將與所確定的各個主題相對應的特征關(guān)鍵詞作為輸入,訓練得到泛化模型。
在一些實施例中,第三解析單元包括:分詞模塊,配置用于對于預設(shè)的多個文本中的每一個文本,對該文本進行分詞,并刪除分詞后所得到的多個詞中的停用詞、介詞和副詞,以得到與該文本相對應的關(guān)鍵詞集合;第三輸入模塊,配置用于將各個文本輸入至預先訓練的主題模型,確定每一個文本的主題,其中,主題模型用于表征文本與主題的對應關(guān)系。
在一些實施例中,該裝置還包括:第四解析單元,配置用于對歷史搜索數(shù)據(jù)和歷史瀏覽數(shù)據(jù)進行解析,確定第一關(guān)鍵詞和與每一個第一關(guān)鍵詞相關(guān)聯(lián)的至少一個第二關(guān)鍵詞;計算單元,配置用于分別將第一關(guān)鍵詞、至少一個第二關(guān)鍵詞中的各個第二關(guān)鍵詞與預置關(guān)鍵詞集合中的各個預置關(guān)鍵詞進行相似度計算,將預置關(guān)鍵詞集合中的、與第一關(guān)鍵詞相似度最大的預置關(guān)鍵詞確定為第一預置關(guān)鍵詞,將預置關(guān)鍵詞集合中的、與各個第二關(guān)鍵詞相似度最大的預置關(guān)鍵詞分別確定為第二預置關(guān)鍵詞;建立單元,配置用于分別建立第一預置關(guān)鍵詞與各個第二預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系。
在一些實施例中,該裝置還包括:第二統(tǒng)計單元,配置用于從歷史搜索數(shù)據(jù)和歷史瀏覽數(shù)據(jù)中統(tǒng)計第一預置關(guān)鍵詞與各個第二預置關(guān)鍵詞的共現(xiàn)次數(shù);第三確定單元,配置用于基于所確定的共現(xiàn)次數(shù),確定第一預置關(guān)鍵詞到各個第二預置關(guān)鍵詞的轉(zhuǎn)移概率,其中,第一預置關(guān)鍵詞到每一個第二預置關(guān)鍵詞的轉(zhuǎn)移概率為第一預置關(guān)鍵詞與該第二預置關(guān)鍵詞的共現(xiàn)次數(shù)與所確定的各個共現(xiàn)次數(shù)的總和的比值。
在一些實施例中,第二確定單元包括:第一確定模塊,配置用于將所確定的預置關(guān)鍵詞作為目標第一預置關(guān)鍵詞,從所建立的關(guān)聯(lián)關(guān)系中,確定與目標第一預置關(guān)鍵詞相關(guān)聯(lián)的第二預置關(guān)鍵詞,并提取目標第一預置關(guān)鍵詞與相關(guān)聯(lián)的各個第二預置關(guān)鍵詞的轉(zhuǎn)移概率;第二確定模塊,配置用于將轉(zhuǎn)移概率大于預設(shè)概率的第二預置關(guān)鍵詞確定為與目標第一預置關(guān)鍵詞的相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞。
在一些實施例中,該裝置還包括:呈現(xiàn)單元,配置用于將頁面內(nèi)容的鏈接呈現(xiàn)在與主題相對應的網(wǎng)頁中。
第三方面,本申請實施例提供了一種服務器,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器實現(xiàn)如信息推送方法中任一實施例的方法。
第四方面,本申請實施例提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如信息推送方法中任一實施例的方法。
本申請實施例提供的信息推送方法和裝置,通過對用戶瀏覽的頁面內(nèi)容進行解析,以便提取關(guān)鍵詞并確定相應的主題,而后確定與該關(guān)鍵詞相匹配的預置關(guān)鍵詞,之后,基于預先建立的預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系確定關(guān)聯(lián)關(guān)鍵詞,最后向用戶推送與主題和/或關(guān)聯(lián)關(guān)鍵詞對應的信息,從而可以推送與用戶瀏覽的頁面內(nèi)容對應的主題和/或關(guān)聯(lián)關(guān)鍵詞相對應的信息,實現(xiàn)了富于針對性的信息推送。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
圖1是本申請可以應用于其中的示例性系統(tǒng)架構(gòu)圖;
圖2是根據(jù)本申請的信息推送方法的一個實施例的流程圖;
圖3是根據(jù)本申請的信息推送方法的一個應用場景的示意圖;
圖4是根據(jù)本申請的信息推送方法的又一個實施例的流程圖;
圖5是根據(jù)本申請的信息推送裝置的一個實施例的結(jié)構(gòu)示意圖;
圖6是適于用來實現(xiàn)本申請實施例的服務器的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本申請。
圖1示出了可以應用本申請的信息推送方法或信息推送裝置的示例性系統(tǒng)架構(gòu)100。
如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、103,網(wǎng)絡(luò)104和服務器105。網(wǎng)絡(luò)104用以在終端設(shè)備101、102、103和服務器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
用戶可以使用終端設(shè)備101、102、103通過網(wǎng)絡(luò)104與服務器105交互,以接收或發(fā)送消息等。終端設(shè)備101、102、103上可以安裝有各種通訊客戶端應用,例如網(wǎng)頁瀏覽器應用、新聞資訊類應用、購物類應用、搜索類應用、即時通信工具、郵箱客戶端、社交平臺軟件等。
終端設(shè)備101、102、103可以是具有顯示屏并且支持網(wǎng)頁瀏覽的各種電子設(shè)備,包括但不限于智能手機、平板電腦、膝上型便攜計算機和臺式計算機等等。
服務器105可以是提供各種服務的服務器,例如對終端設(shè)備101、102、103上顯示的頁面提供支持的后臺服務器。后臺服務器可以對用戶瀏覽的頁面內(nèi)容進行解析等處理,并確定對應的主題、關(guān)聯(lián)關(guān)鍵詞等信息,并向用戶推送相關(guān)信息。
需要說明的是,本申請實施例所提供的信息推送方法一般由服務器105執(zhí)行,相應地,信息推送裝置一般設(shè)置于服務器105中。
應該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務器。
繼續(xù)參考圖2,示出了根據(jù)本申請的信息推送方法的一個實施例的流程200。所述的信息推送方法,包括以下步驟:
步驟201,對用戶瀏覽的頁面內(nèi)容進行解析,提取頁面內(nèi)容的關(guān)鍵詞并確定與關(guān)鍵詞相對應的主題。
在本實施例中,信息推送方法運行與其上的電子設(shè)備(例如圖1所示的服務器105)可以利用各種分析方法對用戶瀏覽的頁面內(nèi)容進行解析,提取上述頁面內(nèi)容的關(guān)鍵詞;而后確定與上述關(guān)鍵詞相對應的主題,其中,主題可以是用于表征上述頁面內(nèi)容的類別的詞語,例如科技、體育、社會等。實踐中,用戶可以利用客戶端(例如圖1所示的終端設(shè)備101、102、103)所安裝的各種客戶端應用(例如瀏覽器、新聞資訊類應用、搜索類應用等)瀏覽頁面。
作為示例,上述電子設(shè)備可以基于預先訓練的深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork,dnn)提取上述頁面內(nèi)容的關(guān)鍵詞。具體地,上述電子設(shè)備可以將上述頁面內(nèi)容輸入至上述深度神經(jīng)網(wǎng)絡(luò)中,將上述深度神經(jīng)網(wǎng)絡(luò)所輸出的詞語確定為上述頁面內(nèi)容的關(guān)鍵詞,其中,上述深度神經(jīng)網(wǎng)絡(luò)可以用于表征文本與關(guān)鍵詞的對應關(guān)系。作為示例,上述深度神經(jīng)網(wǎng)絡(luò)可以是基于大量的訓練樣本對任意的激活函數(shù)(例如,sigmoid函數(shù)、softplus函數(shù)、雙極性sigmoid函數(shù)等)進行有監(jiān)督訓練后得到的,其中,訓練樣本中可以包含大量的文本和與每一個文本相對應的關(guān)鍵詞。
在確定上述文本內(nèi)容的關(guān)鍵詞后,上述電子設(shè)備可以按照以下步驟確定與上述關(guān)鍵詞相對應的主題:上述電子設(shè)備可以首先將所提取的關(guān)鍵詞輸入至主題模型中;而后,將上述主題模型所輸出的主題確定為與上述關(guān)鍵詞相對應的主題。其中,上述主題模型可以用于表征文本與主題的對應關(guān)系。作為示例,上述主題模型可以是基于大量的訓練樣本對卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)、支持向量機(supportvectormachine,svm)等現(xiàn)有的用于分類的模型進行有監(jiān)督訓練后得到的,其中,訓練樣本中可以包含大量的文本和每一個文本信息的主題。
在本實施例的一些可選的實現(xiàn)方式中,上述電子設(shè)備可以通過以下步驟提取關(guān)鍵詞:第一步,上述電子設(shè)備可以利用各種分詞方法對上述頁面內(nèi)容進行分詞。作為示例,上述分詞方法可以是基于統(tǒng)計的分詞方法。具體的,可以對上述頁面內(nèi)容中的相鄰的各個字的組合的頻度進行統(tǒng)計,計算出字的組合出現(xiàn)的頻率。當上述概率高于預設(shè)概率閾值時,則判定上述組合構(gòu)成了詞,從而實現(xiàn)對上述頁面內(nèi)容的分詞。此外,上述分詞方法還可以是基于字符串匹配原理的分詞方法,利用字符串匹配原理將上述頁面內(nèi)容和預置在上述電子設(shè)備中的機器詞典中的字符串進行匹配,其中,上述字符串匹配原理可以是正向最大匹配法、逆向最大匹配法、設(shè)立切分標注法、逐詞遍歷匹配法、正向最佳匹配法、逆向最佳匹配法等等。第二步,上述電子設(shè)備可以從分割所得到的詞中提取關(guān)鍵詞。作為示例,可以對分割所得到的詞進行重要性計算(例如采用詞頻-逆向文件頻率方法(tf-idf,termfrequency-inversedocumentfrequency)),基于重要性計算的結(jié)果確定重要性最高的預設(shè)數(shù)量(例如5個)的詞確定為關(guān)鍵詞。作為又一示例,上述電子設(shè)備中可以預先存儲關(guān)鍵詞列表,其中,上述關(guān)鍵詞列表中包括多個關(guān)鍵詞。上述電子設(shè)備將分割所得到的詞與上述關(guān)鍵詞列表中的關(guān)鍵詞進行字符串匹配,將匹配到的詞作為關(guān)鍵詞進行提取。
需要說明的是,上述電子設(shè)備還可以結(jié)合上述兩種方式確定上述頁面內(nèi)容的關(guān)鍵詞。作為示例,可以融合上述方式所提取的關(guān)鍵詞,從融合后的關(guān)鍵詞中選取預設(shè)數(shù)量(例如5個)的關(guān)鍵詞作為上述頁面內(nèi)容的關(guān)鍵詞。
在本實施例的一些可選的實現(xiàn)方式中,在確定上述文本內(nèi)容的關(guān)鍵詞后,上述電子設(shè)備可以按照以下步驟確定與上述關(guān)鍵詞相對應的主題:上述電子設(shè)備可以首先將上述頁面內(nèi)容輸入至預先訓練主題模型中;而后,將上述主題模型所輸出的主題確定為與上述關(guān)鍵詞相對應的主題。
步驟202,確定預置關(guān)鍵詞集合中的、與關(guān)鍵詞相匹配的預置關(guān)鍵詞。
在本實施例中,上述電子設(shè)備中可以預先存儲有由大量的預置關(guān)鍵詞構(gòu)成的預置關(guān)鍵詞集合。上述電子設(shè)備可以通過字符串匹配的方式,將步驟201所提取的關(guān)鍵詞與上述預置關(guān)鍵詞集合中的預置關(guān)鍵詞進行匹配,確定上述預置關(guān)鍵詞集合中的、與關(guān)鍵詞相匹配的預置關(guān)鍵詞。
步驟203,基于預先建立的預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系,確定與所確定的預置關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞。
在本實施例中,上述電子設(shè)備中可以預先存儲有上述預置關(guān)鍵詞集合中的各個預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系。作為示例,預置關(guān)鍵詞“籃球”與預置關(guān)鍵詞“足球”、“網(wǎng)球”相關(guān)聯(lián)。需要說明的是,預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系可以是技術(shù)人員人工預先建立的,也可以是上述電子設(shè)備對大量的數(shù)據(jù)的統(tǒng)計后所預先建立的。上述電子設(shè)備可以基于上述預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系,確定與所確定的預置關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞。作為示例,上述電子設(shè)備可以直接將與所確定的預置關(guān)鍵詞具有關(guān)聯(lián)關(guān)系的預置關(guān)鍵詞確定為與所確定的預置關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞。
在本實施例的一些可選的實現(xiàn)方式中,上述預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系可以通過以下步驟預先建立:第一步,上述電子設(shè)備可以對所存儲的歷史搜索數(shù)據(jù)和歷史瀏覽數(shù)據(jù)進行解析,確定第一關(guān)鍵詞和與每一個第一關(guān)鍵詞相關(guān)聯(lián)的至少一個第二關(guān)鍵詞。具體的,上述電子設(shè)備可以將歷史搜索數(shù)據(jù)中的搜索詞確定為第一關(guān)鍵詞,將用戶在利用該搜索詞進行搜索后所瀏覽的內(nèi)容中的關(guān)鍵詞作為第二關(guān)鍵詞,或?qū)⒂脩粼谠诶迷撍阉髟~進行搜索后所瀏覽的內(nèi)容過程中進行再次搜索時所使用的搜索詞確定為第二關(guān)鍵詞。其中,用戶在利用該搜索詞進行搜索后所瀏覽的內(nèi)容中的提取關(guān)鍵詞的具體操作方法可以與步驟201所闡述的方式相同,在此不再贅述。第二步,上述電子設(shè)備可以分別將上述第一關(guān)鍵詞、上述至少一個第二關(guān)鍵詞中的各個第二關(guān)鍵詞與預置關(guān)鍵詞集合中的各個預置關(guān)鍵詞進行相似度計算,將上述預置關(guān)鍵詞集合中的、與上述第一關(guān)鍵詞相似度最大的預置關(guān)鍵詞確定為第一預置關(guān)鍵詞,將上述預置關(guān)鍵詞集合中的、與各個第二關(guān)鍵詞相似度最大的預置關(guān)鍵詞分別確定為第二預置關(guān)鍵詞。第三步,上述電子設(shè)備可以分別建立上述第一預置關(guān)鍵詞與各個第二預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系,以生成上述預置關(guān)鍵詞集合中的預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系。
在本實施例的一些可選的實現(xiàn)方式中,上述電子設(shè)備在上述建立上述第一預置關(guān)鍵詞與各個第二預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系之后,還可以從上述歷史搜索數(shù)據(jù)和上述歷史瀏覽數(shù)據(jù)中統(tǒng)計上述第一預置關(guān)鍵詞與各個第二預置關(guān)鍵詞的共現(xiàn)次數(shù)。而后,可以基于所確定的共現(xiàn)次數(shù),確定上述第一預置關(guān)鍵詞到各個第二預置關(guān)鍵詞的轉(zhuǎn)移概率,其中,上述第一預置關(guān)鍵詞到每一個第二預置關(guān)鍵詞的轉(zhuǎn)移概率為上述第一預置關(guān)鍵詞與該第二預置關(guān)鍵詞的共現(xiàn)次數(shù)與所確定的各個共現(xiàn)次數(shù)的總和的比值。
在本實施例的一些可選的實現(xiàn)方式中,上述電子設(shè)備可以按照以下步驟確定與步驟202所確定的預置關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞:首先,可以將所確定的預置關(guān)鍵詞作為目標第一預置關(guān)鍵詞,從所建立的關(guān)聯(lián)關(guān)系中,確定與上述目標第一預置關(guān)鍵詞相關(guān)聯(lián)的第二預置關(guān)鍵詞,并提取上述目標第一預置關(guān)鍵詞與相關(guān)聯(lián)的各個第二預置關(guān)鍵詞的轉(zhuǎn)移概率;而后,將轉(zhuǎn)移概率大于預設(shè)概率的第二預置關(guān)鍵詞確定為與上述目標第一預置關(guān)鍵詞的相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞。其中,上述預設(shè)概率可以是技術(shù)人員基于大量的統(tǒng)計而預先設(shè)定的概率。
步驟204,向用戶推送與主題和/或關(guān)聯(lián)關(guān)鍵詞對應的信息。
在本實施例中,上述電子設(shè)備可以首先檢索與上述主題和/或關(guān)聯(lián)關(guān)鍵詞對應的信息;之后,可以向上述用戶推送檢索出的信息。作為示例,上述頁面內(nèi)容的關(guān)鍵詞為“手機”和“處理器”,上述主題為“科技”,上述關(guān)聯(lián)關(guān)鍵詞為“平板電腦”和“便攜式計算機”,則上述電子設(shè)備可以“科技”和/或“平板電腦”和/或“便攜式計算機”為搜索詞進行檢索,并將檢索出的信息推送給上述用戶。
繼續(xù)參見圖3,圖3是根據(jù)本實施例的信息推送方法的應用場景的一個示意圖。在圖3的應用場景中,首先,用戶利用終端設(shè)備301進行頁面內(nèi)容的瀏覽。而后,服務器302對用戶瀏覽的頁面內(nèi)容解析,提取關(guān)鍵詞303和與關(guān)鍵詞303相對應的主題304。之后,服務器302從預置關(guān)鍵詞集合中確定與關(guān)鍵詞303相匹配的預置關(guān)鍵詞305,并基于預先建立的預置關(guān)鍵詞305的關(guān)聯(lián)關(guān)系確定關(guān)聯(lián)關(guān)鍵詞306。最后,服務器302將與主題304和/或關(guān)聯(lián)關(guān)鍵詞306相對應的信息307發(fā)送給終端設(shè)備301。
本申請的上述實施例提供的方法,通過對用戶瀏覽的頁面內(nèi)容進行解析,以便提取關(guān)鍵詞并確定相應的主題,而后確定與該關(guān)鍵詞相匹配的預置關(guān)鍵詞,之后,基于預先建立的預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系確定關(guān)聯(lián)關(guān)鍵詞,最后向用戶推送與主題和/或關(guān)聯(lián)關(guān)鍵詞對應的信息,從而可以推送與用戶瀏覽的頁面內(nèi)容對應的主題和/或關(guān)聯(lián)關(guān)鍵詞相對應的信息,實現(xiàn)了富于針對性的信息推送。
進一步參考圖4,其示出了信息推送方法的又一個實施例的流程400。該信息推送方法的流程400,包括以下步驟:
步驟401,對用戶瀏覽的頁面內(nèi)容進行解析,提取頁面內(nèi)容的關(guān)鍵詞,并將關(guān)鍵詞輸入至預先生成的主題概率分布模型,得到至少一個第一候選主題和至少一個第一候選主題中的各個第一候選主題作為與關(guān)鍵詞相對應的主題的概率。
在本實施例中,信息推送方法運行與其上的電子設(shè)備(例如圖1所示的服務器105)可以首先利用各種方式對用戶瀏覽的頁面內(nèi)容進行解析,提取頁面內(nèi)容的關(guān)鍵詞。需要說明的是,此處提取關(guān)鍵詞的操作可以與上述步驟201所涉及的操作基本相同,在此不再贅述。之后,上述電子設(shè)備可以將關(guān)鍵詞輸入至預先生成的主題概率分布模型,得到至少一個第一候選主題和上述至少一個第一候選主題中的各個第一候選主題作為與關(guān)鍵詞相對應的主題的概率。其中,上述主題概率分布模型可以用于表征關(guān)鍵詞與對應主題的概率的對應關(guān)系。作為示例,上述主題概率模型可以是技術(shù)人員預先制定的、存儲有大量的關(guān)鍵詞與對應的主題的概率的對應關(guān)系表。
在本實施例的一些可選的實現(xiàn)方式中,上述主題概率分布模型還可以通過以下步驟生成:
首先,可以對預設(shè)的多個文本進行解析,確定每一個文本的關(guān)鍵詞和主題,并建立該文本的關(guān)鍵詞和主題的對應關(guān)系。例如,建立關(guān)鍵詞“手機”和主題“科技”的對應關(guān)系、建立關(guān)鍵詞“足球”和主題“體育”、主題“娛樂”的對應關(guān)系等。需要說明的是,確定上述多個文本中的各個文本的關(guān)鍵詞和主題的操作可以與上述步驟201所涉及的操作基本相同,在此不再贅述。
之后,可以對所建立的對應關(guān)系進行統(tǒng)計,確定每一個關(guān)鍵詞和各個主題的對應關(guān)系的建立次數(shù)。例如,關(guān)鍵詞“足球”和主題“體育”的對應關(guān)系的建立次數(shù)為80次,關(guān)鍵詞“足球”和主題“娛樂”的對應關(guān)系的建立次數(shù)為20次等。
最后,可以基于所確定的每一個關(guān)鍵詞和各個主題的對應關(guān)系的建立次數(shù),生成與所確定的每一個關(guān)鍵詞相對應的主題概率分布模型。對于每一個關(guān)鍵詞,與該關(guān)鍵詞相對應的主題概率分布模型可以用于表征與該關(guān)鍵詞對應的各個主題的概率。其中,該關(guān)鍵詞與所對應的每一個主題的概率為該關(guān)鍵詞與該主題的對應關(guān)系的建立次數(shù)與該關(guān)鍵詞與其所對應的各個主題的對應關(guān)系建立總次數(shù)的比值。作為示例,與關(guān)鍵詞“足球”存在對應關(guān)系的主題分別為主題“體育”和主題“娛樂”,與主題“體育”的對應關(guān)系的建立次數(shù)為80次,與主題“娛樂”的對應關(guān)系的建立次數(shù)為20次。則該關(guān)鍵詞“足球”對應主題“體育”的概率為80%,該關(guān)鍵詞“足球”對應主題“娛樂”的概率為20%。
在生成主題概率分布模型后,當將關(guān)鍵詞“足球”輸入到所生成的主題概率分布模型后,可以將該關(guān)鍵詞“足球”對應的主題“體育”和主題“娛樂”分別確定為第一候選主題,并將確定出第一候選主題“體育”作為與關(guān)鍵詞相對應的主題的概率為80%,第一候選主題“娛樂”作為與關(guān)鍵詞相對應的主題的概率為20%。
步驟402,將關(guān)鍵詞輸入至預先生成的泛化模型,得到至少一個第二候選主題和關(guān)鍵詞與各個第二候選主題的相似度。
在本實施例中,上述電子設(shè)備可以將從上述頁面內(nèi)容中提取的關(guān)鍵詞輸入至預先生成的泛化模型,得到至少一個第二候選主題和上述關(guān)鍵詞與所得到的各個第二候選主題的相似度。其中,上述泛化模型用于表征關(guān)鍵詞與對應的主題的相似度的對應關(guān)系。作為示例,上述泛化模型可以是技術(shù)人員預先制定的、存儲有大量的關(guān)鍵詞與對應的主題的相似度的對應關(guān)系表。
在本實施例的一些可選的實現(xiàn)方式中,上述泛化模型還可以通過以下步驟生成:
首先,可以對預設(shè)的多個文本進行解析,生成各個文本的關(guān)鍵詞集合,并確定各個文本的主題。具體地,首先,對于預設(shè)的多個文本中的每一個文本,可以對該文本進行分詞,并刪除分詞后所得到的多個詞中的停用詞、介詞和副詞,以得到與該文本相對應的關(guān)鍵詞集合;而后,可以將各個文本輸入至預先訓練的主題模型,確定每一個文本的主題,其中,上述主題模型可以用于表征文本與主題的對應關(guān)系。需要說明的是,此處確定主題的操作可以與上述步驟201所涉及的操作基本相同,在此不再贅述。
之后,將相同主題的文本所對應的關(guān)鍵詞集合進行合并,以生成與所確定的每一個主題相對應的關(guān)鍵詞集合。
而后,對于所確定的每一個主題,可以基于卡方檢驗方法,從與該主題相對應的關(guān)鍵詞集合中提取特征關(guān)鍵詞。實踐中,卡方檢驗是通過觀察實際值與理論值的偏差來確定理論的正確與否的方法。通常,先假設(shè)兩個變量(例如某個關(guān)鍵詞和某個主題)是獨立的(即原假設(shè)),然后確定實際值與理論值的偏差程度,如果偏差足夠小,則認為誤差是很自然的樣本誤差,是測量手段不夠精確導致或者偶然發(fā)生的,上述兩個變量是獨立的,此時就接受原假設(shè);如果偏差大到一定程度,則認為兩者實際上是相關(guān)的,即否定原假設(shè)。因此,可以利用卡方檢驗方式確定與每一個主題相關(guān)的關(guān)鍵詞,將所確定的相關(guān)的關(guān)鍵詞作為特征關(guān)鍵詞進行提取。需要說明的是,利用卡方檢驗方法進行特提取的方法是目前廣泛研究和應用的公知技術(shù),在此不再贅述。
最后,可以基于機器學習方法,將與所確定的各個主題相對應的特征關(guān)鍵詞作為輸入,對樸素貝葉斯(naivebayesianmodel,nbm)、支持向量機等現(xiàn)有的用于基于相似度計算進行分類的模型進行訓練得到泛化模型。
步驟403,將至少一個第一候選主題和至少一個第二候選主題進行融合,確定與關(guān)鍵詞相對應的主題。
在本實施例中,上述電子設(shè)備可以將步驟401得到的至少一個第一候選主題與步驟402得到的至少一個第二候選主題進行各種方式的融合,確定與上述關(guān)鍵詞相對應的主題。作為示例,上述電子設(shè)備可以首先確定上述至少一個第一候選主題和上述至少一個第二候選主題中的相同主題,將分別得到的、相同主題對應的概率和相似度按預設(shè)的權(quán)重(例如均為0.5)進行加權(quán)求和,將加權(quán)求和后的數(shù)值確定為該相同主題作為與上述關(guān)鍵詞相對應的主題的概率;而后,可以將每一個與第一候選主題均不相同的第二候選主題對應的相似度確定為該第二候選主題作為與上述關(guān)鍵詞相對應的主題的概率;最后,可以按照概率從大到小的順序,對所得到的各個主題進行排序,以上述順序選取預設(shè)數(shù)量(例如2個)的主題作為與上述關(guān)鍵詞相對應的主題。
步驟404,確定預置關(guān)鍵詞集合中的、與關(guān)鍵詞相匹配的預置關(guān)鍵詞。
在本實施例中,上述電子設(shè)備中可以預先存儲有由大量的預置關(guān)鍵詞構(gòu)成的預置關(guān)鍵詞集合。上述電子設(shè)備可以通過字符串匹配的方式,將所提取的關(guān)鍵詞與上述預置關(guān)鍵詞集合中的預置關(guān)鍵詞進行匹配,確定上述預置關(guān)鍵詞集合中的、與關(guān)鍵詞相匹配的預置關(guān)鍵詞。
步驟405,基于預先建立的預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系,確定與所確定的預置關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞。
在本實施例中,上述電子設(shè)備中可以預先存儲有上述預置關(guān)鍵詞集合中的各個預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系。上述預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系可以通過以下步驟預先建立:第一步,上述電子設(shè)備可以對所存儲的歷史搜索數(shù)據(jù)和歷史瀏覽數(shù)據(jù)進行解析,確定第一關(guān)鍵詞和與每一個第一關(guān)鍵詞相關(guān)聯(lián)的至少一個第二關(guān)鍵詞。第二步,可以分別將上述第一關(guān)鍵詞、上述至少一個第二關(guān)鍵詞中的各個第二關(guān)鍵詞與預置關(guān)鍵詞集合中的各個預置關(guān)鍵詞進行相似度計算,將上述預置關(guān)鍵詞集合中的、與上述第一關(guān)鍵詞相似度最大的預置關(guān)鍵詞確定為第一預置關(guān)鍵詞,將上述預置關(guān)鍵詞集合中的、與各個第二關(guān)鍵詞相似度最大的預置關(guān)鍵詞分別確定為第二預置關(guān)鍵詞。第三步,可以分別建立上述第一預置關(guān)鍵詞與各個第二預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系,以生成上述預置關(guān)鍵詞集合中的預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系。第四步,可以從上述歷史搜索數(shù)據(jù)和上述歷史瀏覽數(shù)據(jù)中統(tǒng)計上述第一預置關(guān)鍵詞與各個第二預置關(guān)鍵詞的共現(xiàn)次數(shù)。而后,可以基于所確定的共現(xiàn)次數(shù),確定上述第一預置關(guān)鍵詞到各個第二預置關(guān)鍵詞的轉(zhuǎn)移概率,其中,上述第一預置關(guān)鍵詞到每一個第二預置關(guān)鍵詞的轉(zhuǎn)移概率為上述第一預置關(guān)鍵詞與該第二預置關(guān)鍵詞的共現(xiàn)次數(shù)與所確定的各個共現(xiàn)次數(shù)的總和的比值。
在本實施例中,上述電子設(shè)備可以按照以下步驟確定與步驟404所確定的預置關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞:首先,可以將所確定的預置關(guān)鍵詞作為目標第一預置關(guān)鍵詞,從所建立的關(guān)聯(lián)關(guān)系中,確定與上述目標第一預置關(guān)鍵詞相關(guān)聯(lián)的第二預置關(guān)鍵詞,并提取上述目標第一預置關(guān)鍵詞與相關(guān)聯(lián)的各個第二預置關(guān)鍵詞的轉(zhuǎn)移概率;而后,將轉(zhuǎn)移概率大于預設(shè)概率的第二預置關(guān)鍵詞確定為與上述目標第一預置關(guān)鍵詞的相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞。其中,上述預設(shè)概率可以是技術(shù)人員基于大量的統(tǒng)計而預先設(shè)定的概率。。
步驟406,向用戶推送與主題和/或關(guān)聯(lián)關(guān)鍵詞對應的信息。
在本實施例中,上述電子設(shè)備可以首先檢索與上述主題和/或關(guān)聯(lián)關(guān)鍵詞對應的信息;之后,可以向上述用戶推送檢索出的信息。
需要說明的是,上述步驟404-步驟406的操作與上述步驟202-204的操作基本相同,在此不再贅述。
從圖4中可以看出,與圖2對應的實施例相比,本實施例中的信息推送方法的流程400突出了基于主題概率分布模型和泛化模型提取上述頁面內(nèi)容的關(guān)鍵詞并確定與所提取的關(guān)鍵詞相對應的主題的步驟。由此,本實施例描述的方案可以結(jié)合不同的方式確定主題,提高了主題確定的準確性。
進一步參考圖5,作為對上述各圖所示方法的實現(xiàn),本申請?zhí)峁┝艘环N信息推送裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應,該裝置具體可以應用于各種電子設(shè)備中。
如圖5所示,本實施例所述的信息推送裝置500包括:第一解析單元501,配置用于對用戶瀏覽的頁面內(nèi)容進行解析,提取上述頁面內(nèi)容的關(guān)鍵詞并確定與上述關(guān)鍵詞相對應的主題;第一確定單元502,配置用于確定預置關(guān)鍵詞集合中的、與上述關(guān)鍵詞相匹配的預置關(guān)鍵詞;第二確定單元503,配置用于基于預先建立的預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系,確定與所確定的預置關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞;推送單元504,配置用于向上述用戶推送與上述主題和/或上述關(guān)聯(lián)關(guān)鍵詞對應的信息。
在本實施例中,上述第一解析單元501可以利用各種分析方法對用戶瀏覽的頁面內(nèi)容進行解析,提取上述頁面內(nèi)容的關(guān)鍵詞;而后確定與上述關(guān)鍵詞相對應的主題。
在本實施例中,上述信息推送裝置500中可以預先存儲有由大量的預置關(guān)鍵詞構(gòu)成的預置關(guān)鍵詞集合。上述第一確定單元502可以通過字符串匹配的方式,將所提取的關(guān)鍵詞與上述預置關(guān)鍵詞集合中的預置關(guān)鍵詞進行匹配,確定上述預置關(guān)鍵詞集合中的、與關(guān)鍵詞相匹配的預置關(guān)鍵詞。
在本實施例中,上述信息推送裝置500中可以預先存儲有上述預置關(guān)鍵詞集合中的各個預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系。上述第二確定單元503可以基于上述預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系,確定與所確定的預置關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞。
在本實施例中,上述推送單元504可以首先檢索與上述主題和/或關(guān)聯(lián)關(guān)鍵詞對應的信息;之后,可以向上述用戶推送檢索出的信息。
在一些實施例中,上述第一解析單元可以包括第一輸入模塊、第二輸入模塊和融合模塊(圖中未示出)。其中,上述第一輸入模塊可以配置用于將上述關(guān)鍵詞輸入至預先生成的主題概率分布模型,得到至少一個第一候選主題和上述至少一個第一候選主題中的各個第一候選主題作為與上述關(guān)鍵詞相對應的主題的概率。上述第二輸入模塊可以配置用于將上述關(guān)鍵詞輸入至預先生成的泛化模型,得到至少一個第二候選主題和上述關(guān)鍵詞與上述至少一個第二候選主題中的各個第二候選主題的相似度。上述融合模塊可以配置用于將上述至少一個第一候選主題和上述至少一個第二候選主題進行融合,確定與上述關(guān)鍵詞相對應的主題。
在本實施例的一些可選的實現(xiàn)方式中,上述信息推送裝置500還可以包括第二解析單元、第一統(tǒng)計單元和生成單元(圖中未示出)。其中,上述第二解析單元可以配置用于對預設(shè)的多個文本進行解析,確定每一個文本的關(guān)鍵詞和主題,并建立該文本的關(guān)鍵詞和主題的對應關(guān)系。上述第一統(tǒng)計單元可以配置用于對所建立的對應關(guān)系進行統(tǒng)計,確定每一個關(guān)鍵詞和各個主題的對應關(guān)系的建立次數(shù)。上述生成單元可以配置用于基于所確定的每一個關(guān)鍵詞和各個主題的對應關(guān)系的建立次數(shù),生成與所確定的每一個關(guān)鍵詞相對應的主題概率分布模型。
在本實施例的一些可選的實現(xiàn)方式中,上述信息推送裝置500還可以包括第三解析單元、合并單元、提取單元和訓練單元(圖中未示出)。其中,上述第三解析單元可以配置用于對預設(shè)的多個文本進行解析,生成各個文本的關(guān)鍵詞集合,并確定各個文本的主題。上述合并單元可以配置用于將相同主題的文本所對應的關(guān)鍵詞集合進行合并,以生成與所確定的每一個主題相對應的關(guān)鍵詞集合。上述提取單元可以配置用于對于所確定的每一個主題,基于卡方檢驗裝置,從與該主題相對應的關(guān)鍵詞集合中提取特征關(guān)鍵詞。上述訓練單元可以配置用于基于機器學習方法,將與所確定的各個主題相對應的特征關(guān)鍵詞作為輸入,訓練得到泛化模型。
在本實施例的一些可選的實現(xiàn)方式中,上述第三解析單元可以包括分詞模塊和第三輸入模塊(圖中未示出)。其中,上述分詞模塊可以配置用于對于預設(shè)的多個文本中的每一個文本,對該文本進行分詞,并刪除分詞后所得到的多個詞中的停用詞、介詞和副詞,以得到與該文本相對應的關(guān)鍵詞集合。上述第三輸入模塊可以配置用于將各個文本輸入至預先訓練的主題模型,確定每一個文本的主題,其中,上述主題模型用于表征文本與主題的對應關(guān)系。
在本實施例的一些可選的實現(xiàn)方式中,上述信息推送裝置500還可以包括第四解析單元、計算單元和建立單元(圖中未示出)。其中,上述第四解析單元可以配置用于對歷史搜索數(shù)據(jù)和歷史瀏覽數(shù)據(jù)進行解析,確定第一關(guān)鍵詞和與每一個第一關(guān)鍵詞相關(guān)聯(lián)的至少一個第二關(guān)鍵詞。上述計算單元可以配置用于分別將上述第一關(guān)鍵詞、上述至少一個第二關(guān)鍵詞中的各個第二關(guān)鍵詞與預置關(guān)鍵詞集合中的各個預置關(guān)鍵詞進行相似度計算,將上述預置關(guān)鍵詞集合中的、與上述第一關(guān)鍵詞相似度最大的預置關(guān)鍵詞確定為第一預置關(guān)鍵詞,將上述預置關(guān)鍵詞集合中的、與各個第二關(guān)鍵詞相似度最大的預置關(guān)鍵詞分別確定為第二預置關(guān)鍵詞。上述建立單元可以配置用于分別建立上述第一預置關(guān)鍵詞與各個第二預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系。
在本實施例的一些可選的實現(xiàn)方式中,上述信息推送裝置500還可以包括第二統(tǒng)計單元和第三確定單元(圖中未示出)。其中,上述第二統(tǒng)計單元可以配置用于從上述歷史搜索數(shù)據(jù)和上述歷史瀏覽數(shù)據(jù)中統(tǒng)計上述第一預置關(guān)鍵詞與各個第二預置關(guān)鍵詞的共現(xiàn)次數(shù)。上述第三確定單元可以配置用于基于所確定的共現(xiàn)次數(shù),確定上述第一預置關(guān)鍵詞到各個第二預置關(guān)鍵詞的轉(zhuǎn)移概率,其中,上述第一預置關(guān)鍵詞到每一個第二預置關(guān)鍵詞的轉(zhuǎn)移概率為上述第一預置關(guān)鍵詞與該第二預置關(guān)鍵詞的共現(xiàn)次數(shù)與所確定的各個共現(xiàn)次數(shù)的總和的比值。
在本實施例的一些可選的實現(xiàn)方式中,上述第二確定單元可以包括第一確定模塊和第二確定模塊(圖中未示出)。其中,上述第一確定模塊可以配置用于將所確定的預置關(guān)鍵詞作為目標第一預置關(guān)鍵詞,從所建立的關(guān)聯(lián)關(guān)系中,確定與上述目標第一預置關(guān)鍵詞相關(guān)聯(lián)的第二預置關(guān)鍵詞,并提取上述目標第一預置關(guān)鍵詞與相關(guān)聯(lián)的各個第二預置關(guān)鍵詞的轉(zhuǎn)移概率。上述第二確定模塊可以配置用于將轉(zhuǎn)移概率大于預設(shè)概率的第二預置關(guān)鍵詞確定為與上述目標第一預置關(guān)鍵詞的相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞。
在本實施例的一些可選的實現(xiàn)方式中,上述信息推送裝置500還可以包括呈現(xiàn)單元(圖中未示出)。其中,上述呈現(xiàn)單元可以配置用于將上述頁面內(nèi)容的鏈接呈現(xiàn)在與上述主題相對應的網(wǎng)頁中。
本申請的上述實施例提供的裝置,通過第一解析單元501對用戶瀏覽的頁面內(nèi)容進行解析,以便提取關(guān)鍵詞并確定相應的主題,而后第一確定單元502確定與該關(guān)鍵詞相匹配的預置關(guān)鍵詞,之后,第二確定單元503基于預先建立的預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系確定關(guān)聯(lián)關(guān)鍵詞,最后推送單元504向用戶推送與主題和/或關(guān)聯(lián)關(guān)鍵詞對應的信息,從而可以推送與用戶瀏覽的頁面內(nèi)容對應的主題和/或關(guān)聯(lián)關(guān)鍵詞相對應的信息,實現(xiàn)了富于針對性的信息推送。
下面參考圖6,其示出了適于用來實現(xiàn)本申請實施例的服務器的計算機系統(tǒng)600的結(jié)構(gòu)示意圖。圖6示出的服務器僅僅是一個示例,不應對本申請實施例的功能和使用范圍帶來任何限制。
如圖6所示,計算機系統(tǒng)600包括中央處理單元(cpu)601,其可以根據(jù)存儲在只讀存儲器(rom)602中的程序或者從存儲部分608加載到隨機訪問存儲器(ram)603中的程序而執(zhí)行各種適當?shù)膭幼骱吞幚?。在ram603中,還存儲有系統(tǒng)600操作所需的各種程序和數(shù)據(jù)。cpu601、rom602以及ram603通過總線604彼此相連。輸入/輸出(i/o)接口605也連接至總線604。
以下部件連接至i/o接口605:包括鍵盤、鼠標等的輸入部分606;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至i/o接口605??刹鹦督橘|(zhì)611,諸如磁盤、光盤、磁光盤、半導體存儲器等等,根據(jù)需要安裝在驅(qū)動器610上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分608。
特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括承載在計算機可讀介質(zhì)上的計算機程序,該計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分609從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)611被安裝。在該計算機程序被中央處理單元(cpu)601執(zhí)行時,執(zhí)行本申請的方法中限定的上述功能。需要說明的是,本申請所述的計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本申請中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請中,計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機可讀介質(zhì)上包含的程序代碼可以用任何適當?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,該模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應當注意,在有些作為替換的實現(xiàn)中,方框中所標注的功能也可以以不同于附圖中所標注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括第一解析單元、第一確定單元、第二確定單元和推送單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對該單元本身的限定,例如,第一解析單元還可以被描述為“對用戶瀏覽的頁面內(nèi)容進行解析的單元”。
作為另一方面,本申請還提供了一種計算機可讀介質(zhì),該計算機可讀介質(zhì)可以是上述實施例中描述的裝置中所包含的;也可以是單獨存在,而未裝配入該裝置中。上述計算機可讀介質(zhì)承載有一個或者多個程序,當上述一個或者多個程序被該裝置執(zhí)行時,使得該裝置:對用戶瀏覽的頁面內(nèi)容進行解析,提取該頁面內(nèi)容的關(guān)鍵詞并確定與該關(guān)鍵詞相對應的主題;確定預置關(guān)鍵詞集合中的、與該關(guān)鍵詞相匹配的預置關(guān)鍵詞;基于預先建立的預置關(guān)鍵詞的關(guān)聯(lián)關(guān)系,確定與所確定的預置關(guān)鍵詞相關(guān)聯(lián)的關(guān)聯(lián)關(guān)鍵詞;向該用戶推送與該主題和/或該關(guān)聯(lián)關(guān)鍵詞對應的信息。
以上描述僅為本申請的較佳實施例以及對所運用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應當理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應涵蓋在不脫離上述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進行互相替換而形成的技術(shù)方案。