專利名稱:商品數(shù)據(jù)檢索排序及商品推薦方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機數(shù)據(jù)分析領(lǐng)域,尤其涉及于商品數(shù)據(jù)檢索,排序及商品推薦方法和支持系統(tǒng)。
背景技術(shù):
目前搜索引擎用于排序的技術(shù)主要為相關(guān)度排序法,即通過建立模型對文檔和查詢詞之間的相關(guān)度進行打分,相關(guān)度得分越高的文檔排序越靠前。不同的搜索引擎使用了不同的相關(guān)度評分模型,主要有以下幾類詞頻統(tǒng)計法,即文檔中包含的查詢詞頻率越高,則此文檔相關(guān)度得分越高,排序越靠前;超鏈接分析法,即ー個網(wǎng)頁被鏈接的次數(shù)越多而且鏈接的站點越權(quán)威就說明此網(wǎng)頁的質(zhì)量越高。此外,還有點擊率法,即網(wǎng)頁被點擊的次數(shù)越多,相關(guān)度越高;付費競價法,以網(wǎng)站付費的多少來決定排序前后。其中詞頻統(tǒng)計法和超鏈 引擎的主題框架。垂直捜索是針對某一個行業(yè)的專業(yè)搜索引擎,是搜索引擎的細分和延伸,是對網(wǎng)頁庫中的某類專門的信息進行一次整合,定向分字段抽取出需要的數(shù)據(jù)進行處理后再以某種形式返回給用戶。相對通用搜索引擎的信息量大、查詢不準確、深度不夠等提出來的新的搜索引擎服務(wù)模式。由于垂直搜索引擎的特殊性,絕大多數(shù)都以詞頻統(tǒng)計法來搭建搜索引擎的主題框架詞頻統(tǒng)計法,從名字上就能看出來詞頻是此算法中ー個相當重要的角色,它對相關(guān)度的大小起著舉足輕重的作用。然而對于垂直搜索引擎而言,由于其數(shù)據(jù)所包含文檔(注在搜索引擎中稱一條數(shù)據(jù)為ー個文檔)的結(jié)構(gòu)化(注此處結(jié)構(gòu)化的概念與非結(jié)構(gòu)化相対。如郵件,word文檔等全文數(shù)據(jù)位為非結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)庫數(shù)據(jù),元數(shù)據(jù)則為結(jié)構(gòu)化數(shù)據(jù)。)程度高,以及文檔長度短小,詞頻并不能在排序中起到?jīng)Q定性的作用。雖然也可以通過ー些方式,如調(diào)整各個文檔以及文檔所包含域的權(quán)重大小來對排序進行優(yōu)化,這樣的做法就好比醫(yī)生給人看病的時候治癥而不治病,無法解決根本問題。比如用戶搜索“手機”,最先展示給用戶的則可能是跟手機相關(guān)的書籍,手機充電器等等,這是不符合用戶的搜索習慣的,因而會極大地降低用戶體驗。而在數(shù)據(jù)量達到一定程度的前提下,本發(fā)明提出的類別權(quán)重排序法則能比較徹底地解決搜索結(jié)果的排序問題。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明提供了商品數(shù)據(jù)檢索,排序及商品推薦方法,包括如下步驟步驟1,生成商品數(shù)據(jù)的數(shù)據(jù)庫;步驟2,根據(jù)用戶輸入的查詢詞從數(shù)據(jù)庫中取出匹配結(jié)果;步驟3,對該匹配結(jié)果的類別個數(shù)及所有類別名稱進行統(tǒng)計,并對每個類別分別計算在匹配結(jié)果中的商品數(shù)據(jù)個數(shù)Ili以及該類在整體商品數(shù)據(jù)中包含的商品數(shù)據(jù)個數(shù)Hli ;
步驟4,計算類別名稱的類別權(quán)重Wi,找出類別權(quán)重最大的類對應(yīng)的類別權(quán)重Wt ;步驟5,將所有類別權(quán)重小于d*wt的類對應(yīng)的所有商品數(shù)據(jù)從匹配結(jié)果中刪除,其中,O < d < I,為可調(diào)參數(shù);步驟6,將過濾后的類別按照其類別權(quán)重進行從大至小的排序。
所述的商品數(shù)據(jù)檢索排序方法,還包括計算物美價廉指數(shù)及推薦度步驟物美價廉指數(shù)=商品價格/好評度*可信度,其中可信度=I-好評度/評價次數(shù);
權(quán)利要求
1.ー種商品數(shù)據(jù)檢索排序方法,其特征在于,包括 步驟I,生成商品數(shù)據(jù)的數(shù)據(jù)庫; 步驟2,根據(jù)用戶輸入的查詢詞從數(shù)據(jù)庫中取出匹配結(jié)果; 步驟3,對該匹配結(jié)果的類別個數(shù)及所有類別名稱進行統(tǒng)計,并對每個類別分別計算在匹配結(jié)果中的商品數(shù)據(jù)個數(shù)Ili以及該類在整體商品數(shù)據(jù)中包含的商品數(shù)據(jù)個數(shù)Hli ; 步驟4,計算類別名稱的類別權(quán)重Wi,找出類別權(quán)重最大的類所對應(yīng)的類別權(quán)重Wt ; 步驟5,將所有類別權(quán)重小于d*wt的類對應(yīng)的所有商品數(shù)據(jù)從匹配結(jié)果中刪除,其中,O < d < I,為可調(diào)參數(shù); 步驟6,將過濾后的類別按照其類別權(quán)重進行從大至小的排序。
2.如權(quán)利要求I所述的商品數(shù)據(jù)檢索排序方法,其特征在于,還包括計算物美價廉指數(shù)及推薦度步驟 物美價廉指數(shù)=商品價格/好評度*可信度,其中可信度=I-好評度/評價次數(shù);
3.如權(quán)利要求2所述的商品數(shù)據(jù)檢索排序方法,其特征在于,還包括計算商品所在商家的價格在各個網(wǎng)上商城所賣價格的百分比,計算公式為 I-((某網(wǎng)上商城的價格-網(wǎng)上最低價)/(網(wǎng)上最高價-網(wǎng)上最低價))。
4.如權(quán)利要求I所述的商品數(shù)據(jù)檢索排序方法,其特征在于,所述對應(yīng)類別權(quán)重Wi計算公式
5.ー種商品數(shù)據(jù)檢索排序系統(tǒng),其特征在于,包括 商品數(shù)據(jù)的數(shù)據(jù)庫; 匹配模塊,用于根據(jù)用戶輸入的查詢詞從數(shù)據(jù)庫中取出匹配結(jié)果; 統(tǒng)計計算模塊,用于對該匹配結(jié)果的類別個數(shù)及所有類別名稱進行統(tǒng)計,并對每個類別分別計算在匹配結(jié)果中的商品數(shù)據(jù)個數(shù)Iii以及它在整體商品數(shù)據(jù)中包含的商品數(shù)據(jù)個數(shù) Hli ; 權(quán)重計算模塊,用于計算類別名稱的類別權(quán)重Wi,找出類別權(quán)重Wi最大的類對應(yīng)的類別權(quán)重為Wt ; 過濾模塊,用于將所有類別權(quán)重小于d*Wt的類對應(yīng)的所有商品數(shù)據(jù)從匹配結(jié)果中刪除,其中,0<d< 1,為可調(diào)參數(shù);排序模塊,用于將過濾后的類別按照其類別權(quán)重進行從大至小的排序。
6.如權(quán)利要求5所述的商品數(shù)據(jù)檢索排序系統(tǒng),其特征在于,還包括物美價廉指數(shù)及推薦度計算模塊,用于計算物美價廉指數(shù)及推薦度,其中 物美價廉指數(shù)=商品價格/好評度*可信度,其中可信度=I-好評度/評價次數(shù);
7.如權(quán)利要求6所述的商品數(shù)據(jù)檢索排序系統(tǒng),其特征在于,還包括百分比計算模塊,用于計算商品所在商家的價格在各個網(wǎng)上商城所賣價格的百分比,計算公式為1-((某網(wǎng)上商城的價格-網(wǎng)上最低價)/(網(wǎng)上最高價-網(wǎng)上最低價))。
全文摘要
本發(fā)明公開了一種商品數(shù)據(jù)檢索排序及商品推薦方法,包括生成商品數(shù)據(jù)的數(shù)據(jù)庫;根據(jù)用戶輸入的查詢詞從數(shù)據(jù)庫中取出匹配結(jié)果;對該匹配結(jié)果的類別數(shù)及所有類別名稱進行統(tǒng)計,并對每個類別分別計算在匹配結(jié)果中的商品類別數(shù)ni以及它在整體商品數(shù)據(jù)中包含的商品數(shù)據(jù)個數(shù)mi;計算每個類別的類別權(quán)重wi,找出類別權(quán)重wi最大的類對應(yīng)的類別權(quán)重wt;將所有類別權(quán)重小于d*wt的類對應(yīng)的所有商品數(shù)據(jù)從匹配結(jié)果中刪除,其中,0<d<1,為可調(diào)參數(shù);將其余的類別按照其類別權(quán)重進行從大至小的排序,并且將商品所在商家的價格在各個網(wǎng)上商城所賣價格的百分比進行展示。
文檔編號G06F17/30GK102841946SQ20121030714
公開日2012年12月26日 申請日期2012年8月24日 優(yōu)先權(quán)日2012年8月24日
發(fā)明者鄭茂林, 陳愛潔, 曾祥洪 申請人:北京國政通科技有限公司