一種數(shù)據(jù)檢索方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,更為具體而言,涉及一種數(shù)據(jù)檢索方法和裝置。
【背景技術(shù)】
[0002] 在電子商城的檢索中,一般是依據(jù)用戶輸入的關(guān)鍵字和商品之間的相關(guān)性,匹配 程度越高,商品的排序越靠前。相關(guān)性一般是考慮搜索關(guān)鍵字和商品名稱之間的匹配程度, 計算相關(guān)性的算法目前有兩種比較經(jīng)典的算法:一種是余弦算法,另一種是BM算法。余弦算 法是一種向量模型,它把用戶輸入的查詢關(guān)鍵字和商品都表示成向量,然后計算這兩個向 量之間的相關(guān)性,相關(guān)性計算采用余弦公式,即計算查詢關(guān)鍵字向量和商品向量之間的夾 角,夾角越小越相似。BM算法的主要思想是對查詢Query進行分詞,生成詞qi;然后,對于每 個搜索結(jié)果D,計算每個詞qi與D的相關(guān)性得分,最后,將qi相對于D的相關(guān)性得分進行加權(quán) 求和,從而得到Query與D的相關(guān)性得分。
[0003] 現(xiàn)有的兩種計算查詢和檢索結(jié)果相關(guān)性的方案,不管是余弦算法還是BM算法,側(cè) 重點都是計算查詢關(guān)鍵字與商品的文字相關(guān)性,更多的是考慮關(guān)鍵字與商品名稱、商品簡 介之間的文本相關(guān)性,對用戶的查詢關(guān)鍵字本身的考慮較少。
【發(fā)明內(nèi)容】
[0004] 為解決上述技術(shù)問題,本發(fā)明提供了一種數(shù)據(jù)檢索方法和裝置。
[0005] 根據(jù)本發(fā)明實施方式的第一方面,提供了一種數(shù)據(jù)檢索方法,該方法包括:接收用 戶本次輸入的查詢字符串,在所述用戶的查詢-類目概率表中查找與本次輸入的查詢字符 串對應(yīng)的查詢字符串,并將查找到的查詢字符串對應(yīng)的類目的概率大于第一預(yù)定閾值的類 目作為本次輸入的查詢字符串的類目,其中,所述查詢-類目概率表包括查詢字符串、對于 所述查詢字符串所述用戶所點擊的各類目和點擊所述各類目的概率。
[0006] 在本發(fā)明的一些實施方式中,在所述用戶的查詢-類目概率表中未查找到與本次 輸入的查詢字符串對應(yīng)的查詢字符串時,將本次輸入的查詢字符串進行分詞得到第一組詞 語,在所述用戶的詞語-類目概率表中查找與所述第一組詞語對應(yīng)的詞語,并根據(jù)與所述第 一組詞語對應(yīng)的類目的概率確定本次輸入的查詢字符串所屬類目的概率,并將所述所屬類 目的概率大于第二預(yù)定閾值的類目作為本次輸入的查詢字符串的類目,其中,所述詞語-類 目概率表包括詞語、對于所述詞語所述用戶所點擊的各類目和點擊所述各類目的概率。
[0007] 在本發(fā)明的一些實施方式中,所述根據(jù)與所述第一組詞語對應(yīng)的類目的概率確定 本次輸入的查詢字符串所屬類目的概率包括:通過貝葉斯概率模型根據(jù)與所述第一組詞語 對應(yīng)的類目的概率確定本次輸入的查詢字符串所屬類目的概率。
[0008] 在本發(fā)明的一些實施方式中,所述查詢-類目概率表中點擊所述各類目的概率是 通過對于所述查詢字符串所述用戶所點擊的各類目的點擊次數(shù)和對于所述查詢字符串所 述用戶點擊的全部類目的點擊次數(shù)確定。
[0009] 在本發(fā)明的一些實施方式中,所述查詢-類目概率表和所述詞語-類目概率表是根 據(jù)所述用戶的查詢?nèi)罩竞忘c擊日志進行定期更新。
[0010] 在本發(fā)明的一些實施方式中,所述第一組詞語包括尾部詞語和非尾部詞語。
[0011] 在本發(fā)明的一些實施方式中,所述方法還包括:在確定出本次輸入的查詢字符串 的類目之后,根據(jù)所述確定出的查詢字符串的類目對本次輸入的查詢字符串的檢索結(jié)果排 序進行加權(quán)。
[0012] 根據(jù)本發(fā)明實施方式的第二方面,提供了一種數(shù)據(jù)檢索裝置,該裝置包括:接收模 塊,用于接收用戶本次輸入的查詢字符串;查找模塊,用于在所述用戶的查詢-類目概率表 中查找與本次輸入的查詢字符串對應(yīng)的查詢字符串,并將查找到的查詢字符串對應(yīng)的類目 的概率大于第一預(yù)定閾值的類目作為本次輸入的查詢字符串的類目,其中,所述查詢-類目 概率表包括查詢字符串、對于所述查詢字符串所述用戶所點擊的各類目和點擊所述各類目 的概率。
[0013] 在本發(fā)明的一些實施方式中,所述查找模塊,還用于在所述用戶的查詢-類目概率 表中未查找到與本次輸入的查詢字符串對應(yīng)的查詢字符串時,將本次輸入的查詢字符串進 行分詞得到第一組詞語,在所述用戶的詞語-類目概率表中查找與所述第一組詞語對應(yīng)的 詞語,并根據(jù)與所述第一組詞語對應(yīng)的類目的概率確定本次輸入的查詢字符串所屬類目的 概率,并將所述所屬類目的概率大于第二預(yù)定閾值的類目作為本次輸入的查詢字符串的類 目,其中,所述詞語-類目概率表包括詞語、對于所述詞語所述用戶所點擊的各類目和點擊 所述各類目的概率。
[0014] 在本發(fā)明的一些實施方式中,所述查找模塊根據(jù)與所述第一組詞語對應(yīng)的類目的 概率確定本次輸入的查詢字符串所屬類目的概率包括:通過貝葉斯概率模型根據(jù)與所述第 一組詞語對應(yīng)的類目的概率確定本次輸入的查詢字符串所屬類目的概率。
[0015] 在本發(fā)明的一些實施方式中,所述查詢-類目概率表中點擊所述各類目的概率是 通過對于所述查詢字符串所述用戶所點擊的各類目的點擊次數(shù)和對于所述查詢字符串所 述用戶點擊的全部類目的點擊次數(shù)確定。
[0016] 在本發(fā)明的一些實施方式中,所述查詢-類目概率表和所述詞語-類目概率表是根 據(jù)所述用戶的查詢?nèi)罩竞忘c擊日志進行定期更新。
[0017] 在本發(fā)明的一些實施方式中,所述第一組詞語包括尾部詞語和非尾部詞語。
[0018] 在本發(fā)明的一些實施方式中,所述裝置還包括:加權(quán)模塊,用于在確定出本次輸入 的查詢字符串的類目之后,根據(jù)所述確定出的查詢字符串的類目對本次輸入的查詢字符串 的檢索結(jié)果排序進行加權(quán)。
[0019] 本發(fā)明實施方式提供的數(shù)據(jù)檢索方法和裝置,通過基于用戶的查詢?nèi)罩竞忘c擊日 志所得的查詢-類目概率表和詞語-類目概率表刻畫用戶的搜索意圖,增加了查詢字符串和 檢索結(jié)果之間在所屬類目方面的相關(guān)性,改善了檢索結(jié)果的準(zhǔn)確度和針對性。
【附圖說明】
[0020] 圖1是根據(jù)本發(fā)明一種實施方式的數(shù)據(jù)檢索方法的流程示意圖;
[0021] 圖2是根據(jù)本發(fā)明一種實施方式的數(shù)據(jù)檢索裝置的結(jié)構(gòu)示意圖;
[0022] 圖3是根據(jù)本發(fā)明一種實施方式的數(shù)據(jù)檢索裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0023] 以下結(jié)合附圖和【具體實施方式】對本發(fā)明的各個方面進行詳細闡述。其中,眾所周 知的模塊、單元及其相互之間的連接、鏈接、通信或操作沒有示出或未作詳細說明。并且,所 描述的特征、架構(gòu)或功能可在一個或一個以上實施方式中以任何方式組合。本領(lǐng)域技術(shù)人 員應(yīng)當(dāng)理解,下述的各種實施方式只用于舉例說明,而非用于限制本發(fā)明的保護范圍。還可 以容易理解,本文所述和附圖所示的各實施方式中的模塊或單元或處理方式可以按各種不 同配置進行組合和設(shè)計。
[0024] 參見圖1,圖1是根據(jù)本發(fā)明一種實施方式的數(shù)據(jù)檢索方法的流程示意圖,該方法 可包括:
[0025] S101,接收用戶輸入的查詢字符串,
[0026] S102,在所述用戶的查詢-類目概率表中查找與本次輸入的查詢字符串對應(yīng)的查 詢字符串,并將查找到的查詢字符串對應(yīng)的類目的概率大于第一預(yù)定閾值的類目作為本次 輸入的查詢字符串的類目,
[0027] 其中,所述查詢-類目概率表包括查詢字符串、對于所述查詢字符串所述用戶所點 擊的各類目和點擊所述各類目的概率。
[0028] 本發(fā)明的數(shù)據(jù)檢索方法可適用于各類電商網(wǎng)站的商品檢索,可作為電商網(wǎng)站應(yīng)用 服務(wù)器中的一個附加數(shù)據(jù)處理流程。具體而言,可包括:步驟S101,接收用戶輸入的查詢字 符串。例如,用戶可以在網(wǎng)頁或客戶端的電商網(wǎng)站的商品檢索框內(nèi)輸入需要查詢的關(guān)鍵詞 作為查詢字符串,可包括漢字、英文單詞或者數(shù)字等等,接收查詢請求的應(yīng)用服務(wù)器接收用 戶輸入的查詢字符串。
[0029] 接下來,執(zhí)行步驟S102,根據(jù)所述用戶的查詢-類目概率表中查找與本次輸入的查 詢字符串對應(yīng)的查詢字符串,并將查找到的查詢字符串對應(yīng)的類目的概率大于第一預(yù)定閾 值的類目作為本次輸入的查詢字符串的類目,其中,該用戶的查詢-類目概率表包括查詢字 符串、對于該查詢