欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種用戶檢索語句的處理方法及系統(tǒng)的制作方法

文檔序號:6588260閱讀:240來源:國知局
專利名稱:一種用戶檢索語句的處理方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索領(lǐng)域,特別地涉及一種用戶檢索語句的處理方法及系統(tǒng)。
背景技術(shù)
檢索語句分析是搜索引擎的基礎(chǔ)。搜索引擎根據(jù)用戶的檢索語句進行搜索,但經(jīng)常會出現(xiàn)返回的搜索結(jié)果相關(guān)性比較差,只命中了用戶檢索語句中的部分詞匯。主要原因是對用戶檢索語句中的詞匯沒有合理的賦權(quán),使得檢索中沒有提出核心的、相對重要的詞匯。在廣告檢索中,同樣會根據(jù)用戶的檢索語句,在某個位置給出相關(guān)的廣告推薦信息。但是經(jīng)常會發(fā)現(xiàn)這么一種情況,檢索系統(tǒng)打出的廣告與用戶輸入的信息相關(guān)性很差,甚至風馬牛不相及,廣告詞僅僅命中了用戶檢索語句中的部分詞匯,還不是很重要的詞匯,這同樣是因為對用戶檢索的語句中的詞匯賦權(quán)不恰當導(dǎo)致的。通過檢索語句分析可以充分挖掘用戶檢索的信息,進而對檢索的詞匯進行賦權(quán)。每個檢索的詞匯都有相應(yīng)的權(quán)重,權(quán)重越高,表示該詞匯相對更重要,在檢索中發(fā)揮的作用也就越大。截止目前為止,有關(guān)用戶檢索詞匯賦權(quán)方面的專利較少,基本是基于詞典查詢的一種靜態(tài)權(quán)重賦權(quán)方法。例如,中國專利CN102103604A (檢索詞核心權(quán)重確定方法和裝置)公開了一種基于線下核心計算生成的詞典查找檢索詞權(quán)重的方法。該檢索詞核心詞權(quán)重確定方法包括:在線下核心計算生成的第一詞典文件中查找檢索詞;如果在第一詞典文件中查找到所述檢索詞,則輸出第一詞典文件對應(yīng)的檢索詞權(quán)重;如果在第一詞典文件中未查找到檢索詞,則對檢索詞進行處理,并在第一詞典文件中查找處理后的檢索詞,如果查找到處理后的檢索詞,則輸出第一詞典文件對應(yīng)的處理后的檢索詞的權(quán)重;如果在第一詞典文件中未查找到處理后的檢索詞,則對處理后的檢索詞進行切詞計算,獲得處理后的檢索詞的權(quán)重。該方法的優(yōu)點是簡單易實現(xiàn),但不足是這樣得到的權(quán)重大多是一種靜態(tài)權(quán)重,主要是查詢事先線下統(tǒng)計的詞典信息。同一個詞匯得到的權(quán)重也大多是相同的,但在實際檢索環(huán)境下,用戶的需求不同,表述不同,導(dǎo)致相同的詞匯在不同的檢索語句中可能代表的意義不同,重要程度不同,故而權(quán)重理應(yīng)不同。基于線下詞典查詢檢索詞權(quán)重的方法,主要是線下對用戶檢索行為統(tǒng)計,生成每個檢索詞的一種權(quán)重,如詞匯的逆向文檔頻率idf值。在用戶輸入檢索語句后,通過分詞得到的一系列詞匯,再查找詞典,找到對應(yīng)的權(quán)重,查不到則賦予一個默認值。此方法將導(dǎo)致不同的檢索語句中的同一個詞的權(quán)重必定相同,沒有考慮每個用戶輸入檢索語句的特殊性和獨立性。事實上,同一個詞匯,可能會因為在不同的檢索語句中,其重要性,起的作用是不盡相同的,權(quán)重當然也不會相同
發(fā)明內(nèi)容
本發(fā)明解決的技術(shù)問題在于提供了一種用戶檢索語句的處理方法及系統(tǒng),以解決目前無法對用戶檢索詞匯動態(tài)賦權(quán)的問題。為解決上述問題,本發(fā)明實施例提供了一種用戶檢索語句的處理方法,包括,建立與用戶檢索詞匯相關(guān)的樣本庫,以及建立與所述用戶檢索詞匯相關(guān)的資源庫;對所述用戶檢索詞匯進行特征提取;利用分類器對所述用戶檢索詞匯進行分類,并對所述用戶檢索詞匯進行基本賦權(quán);將基本賦權(quán)后的詞匯進行實體調(diào)權(quán);輸出用戶檢索詞匯的權(quán)重。上述的方法,其中,在建立與用戶檢索詞匯相關(guān)的樣本庫之前,還包括,對用戶檢索語句進行分詞處理,得到一系列的用戶檢索詞匯。上述的方法,其中,所述建立與用戶檢索詞匯相關(guān)的樣本庫包括,從檢索日志中選取一定數(shù)量的用戶檢索語句,進行分詞處理,得到一系列的用戶檢索詞匯,人工標注所述一系列的用戶檢索詞匯是核心詞或非核心詞,得到的樣本標注集即為樣本庫。上述的方法,其中,所述資源庫包括,詞匯的逆向文檔頻率idf詞表、百科詞表、檢索單詞匯表、實體資源詞典。上述的方法,其中,所述對所述用戶檢索詞匯進行特征提取包括,利用資源庫的詞匯的逆向文檔頻率idf詞表、百科詞表、檢索單詞匯表,提取用戶檢索詞匯的特征,包括詞匯的詞性,前一個詞匯的詞性,詞匯在用戶檢索語句中的位置,詞匯的逆向文檔頻率idf值,詞匯是否是百科詞條,詞匯是否是單檢索詞。上述的方法,其中,所述利用分類器對所述用戶檢索詞匯進行分類,并對所述用戶檢索詞匯進行基本賦權(quán)包括,對樣本庫中的用戶檢索詞匯進行特征提取,結(jié)合樣本庫中的用戶檢索詞匯的人工標注,對分類器進行訓練;將用戶檢索詞匯的特征向量送入分類器,利用分類器對所述用戶檢索詞匯進行分類,并得到所述用戶檢索詞匯為核心詞的概率P,將P作為所述用戶檢索詞匯的基本權(quán)重;其中所述用戶檢索詞匯的特征向量是由所述用戶檢索詞匯的特征組成的一個特征向量。上述的方法,其中,所述對基本賦權(quán)后的用戶檢索詞匯進行實體調(diào)權(quán)包括,根據(jù)實體資源詞典,利用實體提取方法得到所述檢索語句中的一系列實體詞entityList ;若某個詞匯(term)是實體且基本賦權(quán)小于0.2,則調(diào)整為0.2:
權(quán)利要求
1.一種用戶檢索語句的處理方法,其特征在于,包括, 建立與用戶檢索詞匯相關(guān)的樣本庫,以及建立與所述用戶檢索詞匯相關(guān)的資源庫; 對所述用戶檢索詞匯進行特征提??; 利用分類器對所述用戶檢索詞匯進行分類,并對所述用戶檢索詞匯進行基本賦權(quán); 對基本賦權(quán)后的用戶檢索詞匯進行實體調(diào)權(quán); 輸出用戶檢索詞匯的權(quán)重。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在建立與用戶檢索詞匯相關(guān)的樣本庫之前,還包括, 對用戶檢索語句進行分詞處理,得到一系列的用戶檢索詞匯。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述建立與用戶檢索詞匯相關(guān)的樣本庫包括, 從檢索日志中選取一定數(shù)量的用戶檢索語句,進行分詞處理,得到一系列的用戶檢索詞匯,人工標注所述一系列的用戶檢索詞匯是核心詞或非核心詞,得到的樣本標注集即為樣本庫。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述資源庫包括,詞匯的逆向文檔頻率idf詞表、百科詞表、檢索單詞匯表、實體資源詞典。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述對所述用戶檢索詞匯進行特征提取包括, 利用資源庫的詞匯的逆向文檔頻率idf詞表、百科詞表、檢索單詞匯表,提取用戶檢索詞匯的特征,包括詞匯的詞性,前一`個詞匯的詞性,詞匯在用戶檢索語句中的位置,詞匯的逆向文檔頻率idf值,詞匯是否是百科詞條,詞匯是否是單檢索詞。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述利用分類器對所述用戶檢索詞匯進行分類,并對所述用戶檢索詞匯進行基本賦權(quán)包括, 對樣本庫中的用戶檢索詞匯進行特征提取,結(jié)合樣本庫中的用戶檢索詞匯的人工標注,對分類器進行訓練; 將用戶檢索詞匯的特征向量送入分類器,利用分類器對所述用戶檢索詞匯進行分類,并得到所述用戶檢索詞匯為核心詞的概率P,將P作為所述用戶檢索詞匯的基本權(quán)重;其中所述用戶檢索詞匯的特征向量是由所述用戶檢索詞匯的特征組成的一個特征向量。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述對基本賦權(quán)后的用戶檢索詞匯進行實體調(diào)權(quán)包括, 根據(jù)實體資源詞典,利用實體提取方法得到所述檢索語句中的一系列實體詞entityList ;若某個詞匯(term)是實體且基本賦權(quán)小于0.2,則調(diào)整為0.2: θ.2weight[i]< 0.2 & ferm[i] e emitvList weishtU] = <J = h2...n [weight[i] other 其中term[i]表示第i個term,weight [i]為對應(yīng)的權(quán)重,entityList為提取的實體集。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)實體資源詞典,利用實體提取方法得到所述檢索語句中的一系列實體詞entityList包括, 考慮用戶檢索分類相關(guān),在實體的類別與分類信息有關(guān)聯(lián)時則進行實體詞提??;或者, 利用語句規(guī)則進行實體詞提取。
9.根據(jù)權(quán)利要求1至8任一所述的方法,其特征在于,在輸出用戶檢索詞匯的權(quán)重之前還包括, 對所述用戶檢索詞匯進行從屬關(guān)系調(diào)權(quán)。
10.一種用戶檢索語句的處理系統(tǒng),其特征在于,包括, 樣本庫建立模塊,用于建立與用戶檢索詞匯相關(guān)的樣本庫; 資源庫建立模塊,用于建立與所述用戶檢索詞匯相關(guān)的資源庫; 特征提取模塊,用于對所述用戶檢索詞匯進行特征提?。? 分類模塊,用于利用分類器對所述用戶檢索詞匯進行分類,并對所述用戶檢索詞匯進行基本賦權(quán); 實體調(diào)權(quán)模塊,用于對基本賦權(quán)后的用戶檢索詞匯進行實體調(diào)權(quán); 輸出模塊,用于輸出用戶檢索詞匯的權(quán)重。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述樣本庫建立模塊,用于建立與用戶檢索詞匯相關(guān)的樣本庫包括, 用于從檢索日志中選取一定數(shù)量的用戶檢索語句,進行分詞處理,得到一系列的用戶檢索詞匯,人工標注所述一系列的用戶檢索詞匯是核心詞或非核心詞,得到的樣本標注集即為樣本庫。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,所述特征提取模塊,用于對所述用戶檢索詞匯進行特征提取包括, 用于利用資源庫的詞匯的逆向文檔頻率idf詞表、百科詞表、檢索單詞匯表,提取用戶檢索詞匯的特征,包括詞匯的詞性,前一個詞匯的詞性,詞匯在用戶檢索語句中的位置,詞匯的逆向文檔頻率idf值,詞匯是否是百科詞條,詞匯是否是單檢索詞。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述分類模塊,用于利用分類器對所述用戶檢索詞匯進行分類,并對所述用戶檢索詞匯進行基本賦權(quán)包括, 用于對樣本庫中的用戶檢索詞匯進行特征提取,結(jié)合所述樣本庫中的用戶檢索詞匯的人工標注,對分類器進行訓練;以及, 將用戶檢索詞匯的特征向量送入分類器,利用分類器對所述用戶檢索詞匯進行分類,并得到所述用戶檢索詞匯為核心詞的概率P,將P作為所述用戶檢索詞匯的基本權(quán)重;其中所述用戶檢索詞匯的特征向量是由所述用戶檢索詞匯的特征組成的一個特征向量。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,還包括, 分詞模塊,用于對用戶檢索語句進行分詞處理, 得到一系列的用戶檢索詞匯; 從屬關(guān)系調(diào)權(quán)模塊,用于對所述用戶檢索詞匯進行從屬關(guān)系調(diào)權(quán)。
全文摘要
本發(fā)明涉及信息檢索領(lǐng)域,提供了一種用戶檢索語句的處理方法,包括,建立與用戶檢索詞匯相關(guān)的樣本庫,以及建立與所述用戶檢索詞匯相關(guān)的資源庫;對所述用戶檢索詞匯進行特征提取;利用分類器對所述用戶檢索詞匯進行分類,并對所述用戶檢索詞匯進行基本賦權(quán);對基本賦權(quán)后的用戶檢索詞匯進行實體調(diào)權(quán);輸出用戶檢索詞匯的權(quán)重。本發(fā)明還提供了一種用戶檢索語句的處理系統(tǒng)。采用本發(fā)明的技術(shù)方案,保障實體提取的準確率,獲取動態(tài)權(quán)重,避免了僅僅依靠查詢線下統(tǒng)計的詞匯的權(quán)重而導(dǎo)致權(quán)重固定和不合理問題。最終又借助從屬關(guān)系識別進一步優(yōu)化用戶檢索詞匯的權(quán)重,突出用戶檢索的核心詞匯的權(quán)重,為搜索引擎提供更實際、更合理的信息支持。
文檔編號G06F17/30GK103106287SQ20131007121
公開日2013年5月15日 申請日期2013年3月6日 優(yōu)先權(quán)日2013年3月6日
發(fā)明者車天文, 雷大偉, 石志偉, 周步戀, 楊振東, 王更生, 王喜民, 何宏靖, 徐憶蘇 申請人:深圳市宜搜科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
连州市| 区。| 泰顺县| 铜梁县| 汉中市| 新安县| 丰镇市| 突泉县| 达州市| 德化县| 略阳县| 无棣县| 乌兰浩特市| 和田县| 海淀区| 泽普县| 夏津县| 玉龙| 石城县| 大石桥市| 乐清市| 商洛市| 富平县| 拜城县| 永平县| 社会| 芜湖县| 湄潭县| 宝坻区| 临城县| 扶余县| 隆子县| 叙永县| 五河县| 阿克苏市| 突泉县| 永宁县| 桓仁| 临潭县| 南昌市| 永宁县|