欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種識別搜索需求的方法和裝置的制作方法

文檔序號:6433728閱讀:221來源:國知局
專利名稱:一種識別搜索需求的方法和裝置的制作方法
一種識別搜索需求的方法和裝置技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種識別搜索需求的方法和裝置。背景技術(shù)
隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的迅速發(fā)展與成熟,網(wǎng)絡(luò)上的信息資源不斷豐富,信息數(shù)據(jù)量也在飛速膨脹,通過搜索引擎獲取信息已經(jīng)成為現(xiàn)代人獲取信息的主要方式。為了向用戶提供更加便捷、準(zhǔn)確地查詢服務(wù)是搜索引擎技術(shù)在當(dāng)今和未來的發(fā)展方向。
在搜索引擎技術(shù)中,對用戶的搜索需求進(jìn)行識別是提高搜索準(zhǔn)確性和有效性的重要一環(huán),特別在結(jié)構(gòu)化搜索(即垂直搜索)中作用顯著?,F(xiàn)有的搜索需求識別通常簡單的采用匹配預(yù)置關(guān)鍵詞的方式,例如,對應(yīng)視頻需求預(yù)置一些關(guān)鍵詞“在線觀看”、“在線下載”、 “點(diǎn)播”、“高清觀看”等,如果一個搜索請求(query)中包含某一個關(guān)鍵詞,諸如query “家常菜高清觀看”,則可以識別出該query具有視頻需求。但這種方式具有以下缺陷
缺陷一、如果query中不包含預(yù)置關(guān)鍵詞,貝U無法識別出query的需求類型,例如如果query僅僅為“家常菜”,就很難直接根據(jù)該query判斷出該query的需求。
缺陷二、無法體現(xiàn)query需求的時效性。某些query的需求會隨著時間的推移而發(fā)生改變,例如,“家常菜”這一 query,在電視劇《家常菜》未上映之前,該query的主要需求為菜譜類和美食類,但電視劇《家常菜》上映時,該query的主要需求可能就改變?yōu)橐曨l類,而菜譜類和美食類可能變?yōu)榇我枨?。而?dāng)電視劇《家常菜》結(jié)束熱映后,人們對于該電視劇的關(guān)注度下降,這時該query的主要需求又重新變回菜譜類和美食類?,F(xiàn)有的搜索需求識別方法顯然無法體現(xiàn)出這一變化。
上述兩個缺陷最終都會導(dǎo)致搜索需求識別的準(zhǔn)確性較低,造成針對該query的搜索結(jié)果無法準(zhǔn)確地滿足搜索需求,用戶需要花費(fèi)較多的時間和資源找到需要的內(nèi)容。
發(fā)明內(nèi)容
本發(fā)明提供了一種識別搜索需求的方法和裝置,解決因query不包含預(yù)置關(guān)鍵詞造成的需求無法識別以及無法體現(xiàn)query需求的時效性的缺陷,提高搜索需求識別的準(zhǔn)確性。
具體技術(shù)方案如下
一種識別搜索需求的方法,該方法包括
S1、接收到待識別query后,獲取所述待識別query的搜索結(jié)果;
S2、利用分類器基于預(yù)設(shè)的搜索結(jié)果文本特征對各搜索結(jié)果進(jìn)行需求分類;
S3、對各搜索結(jié)果的需求分類結(jié)果進(jìn)行融合,根據(jù)融合結(jié)果確定所述待識別query 的需求類型。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟SI具體包括
接收到待識別query后,將所述待識別query提供給搜索引擎進(jìn)行搜索,從搜索引擎獲取搜索結(jié)果中排在前N個的搜索結(jié)果;或者,
接收到待識別query后,對所述待識別query進(jìn)行擴(kuò)展,將待識別query與擴(kuò)展詞的組合提供給搜索引擎進(jìn)行搜索,并從搜索引擎獲取所述待識別query與擴(kuò)展詞的組合對應(yīng)的搜索結(jié)果中排在前N個的搜索結(jié)果,所述擴(kuò)展詞為預(yù)設(shè)的各需求類別的需求詞;
其中所述N為預(yù)設(shè)的正整數(shù)。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在所述步驟S2中采用一個以上的分類器且每一個分類器分別采用不同的搜索結(jié)果文本特征。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述分類器包括針對網(wǎng)頁標(biāo)題建立的分類器、針對網(wǎng)頁摘要建立的分類器或者針對網(wǎng)址的分類器。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述針對網(wǎng)頁標(biāo)題建立的分類器采用以下搜索結(jié)果文本特征中的至少一種作為分類器特征
網(wǎng)頁標(biāo)題中是否出現(xiàn)所述待識別query以及出現(xiàn)所述待識別query的次數(shù);
由網(wǎng)頁標(biāo)題確定出的η元詞組n-gram與各需求類型的核心詞向量的重疊狀況;以及;
搜索日志中網(wǎng)頁標(biāo)題對應(yīng)所述待識別query時被點(diǎn)擊的次數(shù)占所述待識別query 對應(yīng)所有網(wǎng)頁標(biāo)題的被點(diǎn)擊總次數(shù)的比率。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述針對網(wǎng)頁摘要建立的分類器采用以下搜索結(jié)果文本特征中的至少一種作為分類器特征
網(wǎng)頁摘要中出現(xiàn)所述待識別query的句子個數(shù)或比率;以及,
網(wǎng)頁摘要中包含的n-gram與需求類型核心詞向量間的重疊狀況。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述針對網(wǎng)址建立的分類器采用以下搜索結(jié)果文本特征中的至少一種作為分類器特征
網(wǎng)址對應(yīng)搜索結(jié)果的排序值;
網(wǎng)址對應(yīng)的頁面類型;以及,
搜索日志中網(wǎng)址對應(yīng)所述待識別query時被點(diǎn)擊的次數(shù)與所述待識別query對應(yīng)所有網(wǎng)址的被點(diǎn)擊總次數(shù)的比率。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述需求類型的核心詞向量的建立包括
Al、獲取所述需求類型的種子query ;
A2、針對所述需求類型的各種子query進(jìn)行搜索,分別獲取排在前NI個的搜索結(jié)果,所述NI為預(yù)設(shè)的正整數(shù);
A3、對獲取的搜索結(jié)果的文本進(jìn)行分詞處理,獲取所有n-gram ;
A4、根據(jù)詞頻tf*逆向文件頻率idf值確定各n-gram的權(quán)重,獲取權(quán)重值排在前 N2個的n-gram作為所述需求類型的核心詞向量,所述N2為預(yù)設(shè)的正整數(shù)。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述步驟Al包括
獲取通過人工方式配置的所述需求類型的種子query ;或者,
獲取采用人工方式在搜索日志中標(biāo)注的所述需求類型的種子query ;或者,
從所述需求類型垂直搜索的搜索日志中,獲取搜索次數(shù)高于預(yù)設(shè)第一閾值的 query作為所述需求類型的種子query ;或者,
從所述需求類型的網(wǎng)頁搜索的搜索日志中,獲取對應(yīng)于點(diǎn)擊了所述搜索類型的網(wǎng)站或點(diǎn)擊了包含所述需求類型特征詞的標(biāo)題的query,并將獲取的query中搜索次數(shù)高于預(yù)設(shè)第二閾值的query作為所述需求類型的種子query。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述分類器為最大熵分類器或者支持向量機(jī)分類器。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,如果所述分類器為一個,則所述S3為根據(jù)需求分類結(jié)果中,各分類包含的搜索結(jié)果數(shù)量確定所述待識別query的需求類型;
如果所述分類器為多個,則在所述步驟S3中采用基于boosting的融合方法,或者采用線性加權(quán)的多分類器融合方法。
一種識別搜索需求的裝置,該裝置包括
結(jié)果獲取單元,用于接收到待識別query后,獲取所述待識別query的搜索結(jié)果;
分類器,用于基于預(yù)設(shè)的搜索結(jié)果文本特征對所述結(jié)果獲取單元獲取的各搜索結(jié)果進(jìn)行需求分類;
需求融合單元,用于對所述各搜索結(jié)果的需求分類結(jié)果進(jìn)行融合,根據(jù)融合結(jié)果確定所述待識別query的需求類型。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述結(jié)果獲取單元接收到待識別query后,將所述待識別query提供給搜索引擎進(jìn)行搜索,從搜索引擎獲取搜索結(jié)果中排在前N個的搜索結(jié)果; 或者,
接收到待識別query后,對所述待識別query進(jìn)行擴(kuò)展,將待識別query與擴(kuò)展詞的組合提供給搜索引擎進(jìn)行搜索,并從搜索引擎獲取所述待識別query與擴(kuò)展詞的組合對應(yīng)的搜索結(jié)果中排在前N個的搜索結(jié)果,所述擴(kuò)展詞為預(yù)設(shè)的各需求類別的需求詞;
其中所述N為預(yù)設(shè)的正整數(shù)。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置采用一個以上的分類器且每一個分類器分別采用不同的搜索結(jié)果文本特征。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述分類器包括針對網(wǎng)頁標(biāo)題建立的分類器、針對網(wǎng)頁摘要建立的分類器或 者針對網(wǎng)址的分類器。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述針對網(wǎng)頁標(biāo)題建立的分類器采用以下搜索結(jié)果文本特征中的至少一種作為分類器特征
網(wǎng)頁標(biāo)題中是否出現(xiàn)所述待識別query以及出現(xiàn)所述待識別query的次數(shù);
由網(wǎng)頁標(biāo)題確定出的η元詞組n-gram與各需求類型的核心詞向量的重疊狀況;以及;
搜索日志中網(wǎng)頁標(biāo)題對應(yīng)所述待識別query時被點(diǎn)擊的次數(shù)占所述待識別query 對應(yīng)所有網(wǎng)頁標(biāo)題的被點(diǎn)擊總次數(shù)的比率。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述針對網(wǎng)頁摘要建立的分類器采用以下搜索結(jié)果文本特征中的至少一種作為分類器特征
網(wǎng)頁摘要中出現(xiàn)所述待識別query的句子個數(shù)或比率;以及,
網(wǎng)頁摘要中包含的n-gram與需求類型核心詞向量間的重疊狀況。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述針對網(wǎng)址建立的分類器采用以下搜索結(jié)果文本特征中的至少一種作為分類器特征
網(wǎng)址對應(yīng)搜索結(jié)果的排序值;
網(wǎng)址對應(yīng)的頁面類型;以及,
搜索日志中網(wǎng)址對應(yīng)所述待識別query時被點(diǎn)擊的次數(shù)與所述待識別query對應(yīng)所有網(wǎng)址的被點(diǎn)擊總次數(shù)的比率。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,該裝置還包括用于建立需求類型的核心詞向量的向量建立單元;
所述向量建立單元具體包括
種子query獲取子單元,用于獲取所述需求類型的種子query ;
搜索結(jié)果獲取子單元,用于針對所述需求類型的各種子query進(jìn)行搜索,分別獲取排在前NI個的搜索結(jié)果,所述NI為預(yù)設(shè)的正整數(shù);
詞組獲取子單元,用于對所述搜索結(jié)果獲取子單元獲取的搜索結(jié)果的文本進(jìn)行分詞處理,獲取所有n-gram ;
向量建立子單元,用于根據(jù)詞頻tf*逆向文件頻率idf值確定各n-gram的權(quán)重, 獲取權(quán)重值排在前N2個的n-gram作為所述需求類型的核心詞向量,所述N2為預(yù)設(shè)的正整數(shù)。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述種子query獲取子單元獲取通過人工方式配置的所述需求類型的種子query ;或者,
獲取采用人工方式在搜索日志中標(biāo)注的所述需求類型的種子query ;或者,
從所述需求類型垂直搜索的搜索日志中,獲取搜索次數(shù)高于預(yù)設(shè)第一閾值的 query作為所述需求類型的種子query ;或者,
從所述需求類型的網(wǎng)頁搜索的搜索日志中,獲取對應(yīng)于點(diǎn)擊了所述搜索類型的網(wǎng)站或點(diǎn)擊了包含所述需求類型特征詞的標(biāo)題的query,并將獲取的query中搜索次數(shù)高于預(yù)設(shè)第二閾值的query作為所述需求類型的種子query。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述分類器為最大熵分類器或者支持向量機(jī)分類器。
根據(jù)本發(fā)明一優(yōu)選實(shí)施例,如果所述分類器為一個,則所述需求融合單元根據(jù)需求分類結(jié)果中,各分類包含的搜索結(jié)果數(shù)量確定所述待識別query的需求類型;
如果所述分類器為多個,則所述需求融合單元采用基于boosting的融合方法,或者采用線性加權(quán)的多分類器融合方法。
由以上技術(shù)方案可以看出,本發(fā)明獲取待識別query的搜索結(jié)果后,通過對搜索結(jié)果進(jìn)行需求分類,再進(jìn)一步對需求分類結(jié)果進(jìn)行融合確定待識別query的需求類型。這種方式完全不會受到待識別query中是否包含預(yù)設(shè)關(guān)鍵詞的影響,對任何待識別query都能夠?qū)崿F(xiàn)需求識別;另外,由于用戶搜索需求的時效性通常體現(xiàn)在搜索結(jié)果上,因此通過本發(fā)明的方式識別出的需求類型能夠充分體現(xiàn)出搜索需求的時效性,從而提高了搜索需求識別的準(zhǔn)確性。





圖1為本發(fā)明實(shí)施例一提供的識別搜索需求的方法流程圖;2為本發(fā)明實(shí)施例二提供的需求類型的核心詞向量的建立方法流程圖 3為本發(fā)明實(shí)施例三提供的識別搜索需求的裝置結(jié)構(gòu)圖;4為本發(fā)明實(shí)施例提供的搜索需求識別用于大搜索排序的實(shí)例圖;5為本發(fā)明實(shí)施例提供的搜索需求識別用于垂直搜索的實(shí)例圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。
實(shí)施例一、
圖1為本發(fā)明實(shí)施例一提供的識別搜索需求的方法流程圖,如圖1所示,該方法可以包括以下步驟
步驟101 :接收到待識別query后,獲取待識別query的搜索結(jié)果。
接收到待識別query后,將待識別query提供給搜索引擎進(jìn)行檢索,獲取搜索結(jié)果中排在前N個的搜索結(jié)果。
其中,在將待識別query提供給搜索引擎進(jìn)行檢索時,可以僅將該待識別query 提供給搜索引擎,并從搜索引擎獲取該待識別query的搜索結(jié)果。優(yōu)選地,可以對待識別 query進(jìn)行擴(kuò)展,將待識別query與擴(kuò)展詞的組合提供給搜索引擎,并從搜索引擎獲取該待識別query與擴(kuò)展詞的組合對應(yīng)的搜索結(jié)果,其中擴(kuò)展詞為需求類別的預(yù)設(shè)需求詞。由于這些預(yù)設(shè)需求詞需要的數(shù)量較小,通常為幾十個即可,因此可以采用人工方式配置。
例如,視頻類需求的預(yù)設(shè)需求詞包括視頻、電視劇、電影、高清觀看等。菜譜類需求的預(yù)設(shè)需求詞包括菜譜、食譜、美食等。那么對于待識別query“家常菜”,則可以得到如下待識別query與擴(kuò)展詞的組合
“家常菜視頻”、“家常菜電視劇”、“家常菜電影”、“家常菜高清在線觀看”、“家常菜菜譜”、“家常菜食譜”、“家常菜美食”等。將這些組合提供給搜索引擎后,搜索引擎進(jìn)行搜索后返回綜合的搜索結(jié)果,然后從這些搜索結(jié)果中獲取排在前N個的搜索結(jié)果,當(dāng)然也可以從搜索引擎針對每一個組合返回的搜索結(jié)果中均獲取排在前面的搜索結(jié)果,從而總共獲取 N個搜索結(jié)果。
使用擴(kuò)展后的待識別query進(jìn)行搜索獲取搜索結(jié)果的目的在于克服某些query 的前N個搜索結(jié)果的需求過于集中從而造成的需求識別不準(zhǔn)確的問題。例如,query “章子怡”有很多需求,單獨(dú)搜索“章子怡”時,圖片類的搜索結(jié)果可能在排在前N個的搜索結(jié)果中出現(xiàn)較少,就很難判斷出該query具有強(qiáng)圖片需求,但如果將該query擴(kuò)展成“章子怡照片”后,搜索結(jié)果中與圖片需求相關(guān)的結(jié)果就會更多的出現(xiàn)在排在前N個的搜索結(jié)果中,這對于后續(xù)識別query搜索需求的準(zhǔn)確性有很大幫助。
步驟102 :利用分類器基于預(yù)設(shè)的搜索結(jié)果文本特征對各搜索結(jié)果進(jìn)行需求分類。
在本步驟中對搜索結(jié)果進(jìn)行需求分類時,可以采用一個以上的分類器,每一個分類器分別采用不同的搜索結(jié)果文本特征。在本實(shí)施例中可以針對搜索結(jié)果的網(wǎng)頁標(biāo)題、網(wǎng)頁摘要和網(wǎng)址中的至少一種建立分類器,在此以建立三個分類器為例,分別稱為標(biāo)題分類器、摘要分類器和網(wǎng)址分類器。下面分別對這三種分類器采用的分類器特征進(jìn)行描述。
I)對于標(biāo)題分類器可以采用如下三種搜索結(jié)果文本特征中的至少一種作為分類器特征
第一種網(wǎng)頁標(biāo)題中是否出現(xiàn)待識別query以及出現(xiàn)待識別query的次數(shù)。
這一特征衡量的是搜索結(jié)果的網(wǎng)頁標(biāo)題與待識別query的相關(guān)性,如果網(wǎng)頁標(biāo)題中出現(xiàn)待識別query,則說明該搜索結(jié)果與待識別query越相關(guān),越能夠?qū)ψR別待識別query的搜索需求造成貢獻(xiàn)。例如,某搜索結(jié)果的網(wǎng)頁標(biāo)題為“最常見的家常菜菜譜-家常菜的做法美食天下·家常菜”,待識別query為“家常菜”,該網(wǎng)頁標(biāo)題中出現(xiàn)該待識別 query,且出現(xiàn)了 3次,說明該搜索結(jié)果對識別該query的需求有較大貢獻(xiàn)。
第二種由網(wǎng)頁標(biāo)題確定出的n-gram與各需求類型的核心詞向量的重疊狀況。
所謂n-gram就是最小粒度的η個詞語按順序出現(xiàn)的組合,其中η為預(yù)設(shè)的一個或多個正整數(shù)。以網(wǎng)頁標(biāo)題“最常見的家常菜菜譜-家常菜的做法美食天下 家常菜”為例, 如果選取η為I和2,則由該網(wǎng)頁標(biāo)題確定出的n-gram為
1-gram :最、常見、的、家常菜、菜譜、家常菜、的、做法、美食、天下、家常菜
2-gram :最常見、常見的、的家常菜、家常菜菜譜、菜譜家常菜、家常菜的、的做法、 做法美食、美食天下、天下家常菜
各需求類型的核心詞向量的建立可以采用人工配置的方式,也可以采用自動挖掘的方式,自動挖掘的方式參見實(shí)施例二。
假設(shè)針對菜譜類需求執(zhí)行實(shí)施例二所示流程后,得到的菜譜類需求的核心詞向量可以如下,核心詞向量中包括核心詞及對應(yīng)權(quán)重
家常菜0.82家常菜菜譜1.00 菜譜大全1.00家常菜譜大全1.00食譜0.92做菜首選0.56菜譜0.98菜譜大全0.87家常菜的做法1.00美食0.95常見的家常菜菜譜1.00
在由網(wǎng)頁標(biāo)題確定出的n-gram與各需求類型的核心詞向量的重疊狀況時,該重疊狀況可以是重疊次數(shù)或者重疊率。
接續(xù)上例,n-gram與菜譜類的核心詞向量的重疊次數(shù)如表I所示。
表I
n-gram重疊次數(shù)家常菜權(quán)利要求
1.一種識別搜索需求的方法,其特征在于,該方法包括51、接收到待識別query后,獲取所述待識別query的搜索結(jié)果;52、利用分類器基于預(yù)設(shè)的搜索結(jié)果文本特征對各搜索結(jié)果進(jìn)行需求分類;53、對各搜索結(jié)果的需求分類結(jié)果進(jìn)行融合,根據(jù)融合結(jié)果確定所述待識別query的需求類型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟SI具體包括接收到待識別query后,將所述待識別query提供給搜索引擎進(jìn)行搜索,從搜索引擎獲取搜索結(jié)果中排在前N個的搜索結(jié)果;或者,接收到待識別query后,對所述待識別query進(jìn)行擴(kuò)展,將待識別query與擴(kuò)展詞的組合提供給搜索引擎進(jìn)行搜索,并從搜索引擎獲取所述待識別query與擴(kuò)展詞的組合對應(yīng)的搜索結(jié)果中排在前N個的搜索結(jié)果,所述擴(kuò)展詞為預(yù)設(shè)的各需求類別的需求詞;其中所述N為預(yù)設(shè)的正整數(shù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述步驟S2中采用一個以上的分類器且每一個分類器分別采用不同的搜索結(jié)果文本特征。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分類器包括針對網(wǎng)頁標(biāo)題建立的分類器、針對網(wǎng)頁摘要建立的分類器或者針對網(wǎng)址的分類器。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述針對網(wǎng)頁標(biāo)題建立的分類器采用以下搜索結(jié)果文本特征中的至少一種作為分類器特征網(wǎng)頁標(biāo)題中是否出現(xiàn)所述待識別query以及出現(xiàn)所述待識別query的次數(shù);由網(wǎng)頁標(biāo)題確定出的η元詞組n-gram與各需求類型的核心詞向量的重疊狀況;以及;搜索日志中網(wǎng)頁標(biāo)題對應(yīng)所述待識別query時被點(diǎn)擊的次數(shù)占所述待識別query對應(yīng)所有網(wǎng)頁標(biāo)題的被點(diǎn)擊總次數(shù)的比率。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述針對網(wǎng)頁摘要建立的分類器采用以下搜索結(jié)果文本特征中的至少一種作為分類器特征網(wǎng)頁摘要中出現(xiàn)所述待識別query的句子個數(shù)或比率;以及,網(wǎng)頁摘要中包含的n-gram與需求類型核心詞向量間的重疊狀況。
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述針對網(wǎng)址建立的分類器采用以下搜索結(jié)果文本特征中的至少一種作為分類器特征網(wǎng)址對應(yīng)搜索結(jié)果的排序值;網(wǎng)址對應(yīng)的頁面類型;以及,搜索日志中網(wǎng)址對應(yīng)所述待識別query時被點(diǎn)擊的次數(shù)與所述待識別query對應(yīng)所有網(wǎng)址的被點(diǎn)擊總次數(shù)的比率。
8.根據(jù)權(quán)利要求5或6所述的方法,其特征在于,所述需求類型的核心詞向量的建立包括Al、獲取所述需求類型的種子query ;A2、針對所述需求類型的各種子query進(jìn)行搜索,分別獲取排在前NI個的搜索結(jié)果,所述NI為預(yù)設(shè)的正整數(shù);A3、對獲取的搜索結(jié)果的文本進(jìn)行分詞處理,獲取所有n-gram ;A4、根據(jù)詞頻tf*逆向文件頻率idf值確定各n-gram的權(quán)重,獲取權(quán)重值排在前N2個的n-gram作為所述需求類型的核心詞向量,所述N2為預(yù)設(shè)的正整數(shù)。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述步驟Al包括獲取通過人工方式配置的所述需求類型的種子query ;或者,獲取采用人工方式在搜索日志中標(biāo)注的所述需求類型的種子query ;或者,從所述需求類型垂直搜索的搜索日志中,獲取搜索次數(shù)高于預(yù)設(shè)第一閾值的query作為所述需求類型的種子query ;或者,從所述需求類型的網(wǎng)頁搜索的搜索日志中,獲取對應(yīng)于點(diǎn)擊了所述搜索類型的網(wǎng)站或點(diǎn)擊了包含所述需求類型特征詞的標(biāo)題的query,并將獲取的query中搜索次數(shù)高于預(yù)設(shè)第二閾值的query作為所述需求類型的種子query。
10.根據(jù)權(quán)利要求1至7任一權(quán)項(xiàng)所述的方法,其特征在于,所述分類器為最大熵分類器或者支持向量機(jī)分類器。
11.根據(jù)權(quán)利要求1至7任一權(quán)項(xiàng)所述的方法,其特征在于,如果所述分類器為一個,則所述S3為根據(jù)需求分類結(jié)果中,各分類包含的搜索結(jié)果數(shù)量確定所述待識別query的需求類型;如果所述分類器為多個,則在所述步驟S3中采用基于boosting的融合方法,或者采用線性加權(quán)的多分類器融合方法。
12.—種識別搜索需求的裝置,其特征在于,該裝置包括結(jié)果獲取單元,用于接收到待識別query后,獲取所述待識別query的搜索結(jié)果;分類器,用于基于預(yù)設(shè)的搜索結(jié)果文本特征對所述結(jié)果獲取單元獲取的各搜索結(jié)果進(jìn)行需求分類;需求融合單元,用于對所述各搜索結(jié)果的需求分類結(jié)果進(jìn)行融合,根據(jù)融合結(jié)果確定所述待識別query的需求類型。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述結(jié)果獲取單元接收到待識別query后,將所述待識別query提供給搜索弓I擎進(jìn)行搜索,從搜索引擎獲取搜索結(jié)果中排在前N個的搜索結(jié)果;或者,接收到待識別query后,對所述待識別query進(jìn)行擴(kuò)展,將待識別query與擴(kuò)展詞的組合提供給搜索引擎進(jìn)行搜索,并從搜索引擎獲取所述待識別query與擴(kuò)展詞的組合對應(yīng)的搜索結(jié)果中排在前N個的搜索結(jié)果,所述擴(kuò)展詞為預(yù)設(shè)的各需求類別的需求詞;其中所述N為預(yù)設(shè)的正整數(shù)。
14.根據(jù)權(quán)利要求12所述的裝置,其特征在于,該裝置采用一個以上的分類器且每一個分類器分別采用不同的搜索結(jié)果文本特征。
15.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述分類器包括針對網(wǎng)頁標(biāo)題建立的分類器、針對網(wǎng)頁摘要建立的分類器或者針對網(wǎng)址的分類器。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述針對網(wǎng)頁標(biāo)題建立的分類器采用以下搜索結(jié)果文本特征中的至少一種作為分類器特征網(wǎng)頁標(biāo)題中是否出現(xiàn)所述待識別query以及出現(xiàn)所述待識別query的次數(shù);由網(wǎng)頁標(biāo)題確定出的η元詞組n-gram與各需求類型的核心詞向量的重疊狀況;以及;搜索日志中網(wǎng)頁標(biāo)題對應(yīng)所述待識別query時被點(diǎn)擊的次數(shù)占所述待識別query對應(yīng)所有網(wǎng)頁標(biāo)題的被點(diǎn)擊總次數(shù)的比率。
17.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述針對網(wǎng)頁摘要建立的分類器采用以下搜索結(jié)果文本特征中的至少一種作為分類器特征網(wǎng)頁摘要中出現(xiàn)所述待識別query的句子個數(shù)或比率;以及,網(wǎng)頁摘要中包含的n-gram與需求類型核心詞向量間的重疊狀況。
18.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述針對網(wǎng)址建立的分類器采用以下搜索結(jié)果文本特征中的至少一種作為分類器特征網(wǎng)址對應(yīng)搜索結(jié)果的排序值;網(wǎng)址對應(yīng)的頁面類型;以及,搜索日志中網(wǎng)址對應(yīng)所述待識別query時被點(diǎn)擊的次數(shù)與所述待識別query對應(yīng)所有網(wǎng)址的被點(diǎn)擊總次數(shù)的比率。
19.根據(jù)權(quán)利要求16或17所述的裝置,其特征在于,該裝置還包括用于建立需求類型的核心詞向量的向量建立單元;所述向量建立單元具體包括種子query獲取子單元,用于獲取所述需求類型的種子query ;搜索結(jié)果獲取子單元,用于針對所述需求類型的各種子query進(jìn)行搜索,分別獲取排在前NI個的搜索結(jié)果,所述NI為預(yù)設(shè)的正整數(shù);詞組獲取子單元,用于對所述搜索結(jié)果獲取子單元獲取的搜索結(jié)果的文本進(jìn)行分詞處理,獲取所有n-gram ;向量建立子單元,用于根據(jù)詞頻tf*逆向文件頻率idf值確定各n-gram的權(quán)重,獲取權(quán)重值排在前N2個的n-gram作為所述需求類型的核心詞向量,所述N2為預(yù)設(shè)的正整數(shù)。
20.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述種子query獲取子單元獲取通過人工方式配置的所述需求類型的種子query ;或者,獲取采用人工方式在搜索日志中標(biāo)注的所述需求類型的種子query ;或者,從所述需求類型垂直搜索的搜索日志中,獲取搜索次數(shù)高于預(yù)設(shè)第一閾值的query作為所述需求類型的種子query ;或者,從所述需求類型的網(wǎng)頁搜索的搜索日志中,獲取對應(yīng)于點(diǎn)擊了所述搜索類型的網(wǎng)站或點(diǎn)擊了包含所述需求類型特征詞的標(biāo)題的query,并將獲取的query中搜索次數(shù)高于預(yù)設(shè)第二閾值的query作為所述需求類型的種子query。
21.根據(jù)權(quán)利要求12至18任一權(quán)項(xiàng)所述的裝置,其特征在于,所述分類器為最大熵分類器或者支持向量機(jī)分類器。
22.根據(jù)權(quán)利要求12至18任一權(quán)項(xiàng)所述的裝置,其特征在于,如果所述分類器為一個,則所述需求融合單元根據(jù)需求分類結(jié)果中,各分類包含的搜索結(jié)果數(shù)量確定所述待識別query的需求類型;如果所述分類器為多個,則所述需求融合單元采用基于boosting的融合方法,或者采用線性加權(quán)的多分類器融合方法。
全文摘要
本發(fā)明提供了一種識別搜索需求的方法和裝置,其中方法包括接收到待識別query后,獲取所述待識別query的搜索結(jié)果;利用分類器基于預(yù)設(shè)的搜索結(jié)果文本特征對各搜索結(jié)果進(jìn)行需求分類;對各搜索結(jié)果的需求分類結(jié)果進(jìn)行融合,根據(jù)融合結(jié)果確定所述待識別query的需求類型。這種方式完全不會受到待識別query中是否包含預(yù)設(shè)關(guān)鍵詞的影響,對任何待識別query都能夠?qū)崿F(xiàn)需求識別;另外,由于用戶搜索需求的時效性通常體現(xiàn)在搜索結(jié)果上,因此通過本發(fā)明的方式識別出的需求類型能夠充分體現(xiàn)出搜索需求的時效性,從而提高了搜索需求識別的準(zhǔn)確性。
文檔編號G06F17/30GK103020066SQ201110282840
公開日2013年4月3日 申請日期2011年9月21日 優(yōu)先權(quán)日2011年9月21日
發(fā)明者黃際洲 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
沁水县| 临澧县| 贺兰县| 赤壁市| 宁乡县| 和顺县| 互助| 正宁县| 简阳市| 顺昌县| 五河县| 前郭尔| 虹口区| 洱源县| 衡南县| 静安区| 慈利县| 扎囊县| 济阳县| 青田县| 甘德县| 陆良县| 两当县| 柘城县| 云南省| 福海县| 紫云| 兴安盟| 弥勒县| 舒城县| 荃湾区| 徐闻县| 阿合奇县| 旬邑县| 蕲春县| 虞城县| 岳普湖县| 四川省| 荣成市| 红河县| 万年县|