專利名稱:一種建設(shè)產(chǎn)品庫(kù)的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種建設(shè)產(chǎn)品庫(kù)的方法及系統(tǒng)。
背景技術(shù):
目前,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,許多企業(yè)和商家會(huì)在hternet網(wǎng)上進(jìn)行商務(wù)活動(dòng),比如,展示、銷售自己的商品等。由于不同的商家會(huì)有各種各樣不同的商品,而對(duì)于購(gòu)買者來說,如何快速有效地在這紛繁多樣的商品中選到自己所需的商品卻是一件非常困難的事情,因?yàn)樾枰M(jìn)行大量的針對(duì)不同商家不同商品的搜索。為此,在現(xiàn)有技術(shù)中,提供了多種搜索引擎,通過這些搜索引擎,一方面可以使用戶快速查找到自己所需的商品;另一方面也可以使商家全面、有效地向用戶展示自己的商
P
ΡΠ O對(duì)于一個(gè)商品,可以從不同的維度去標(biāo)注,比如商家、產(chǎn)品等。由于一個(gè)產(chǎn)品對(duì)于搜索、廣告、展示等多方面都有很大的作用,因此在搜索引擎的開發(fā)中,通常會(huì)建立相應(yīng)的產(chǎn)品庫(kù),即產(chǎn)品的集合。傳統(tǒng)的商業(yè)搜索中產(chǎn)品庫(kù)的建設(shè),主要是靠人工方式。這種方式依賴于個(gè)人對(duì)商業(yè)及相關(guān)產(chǎn)品的了解,不僅工作量大,無法推廣到海量數(shù)據(jù),而且出現(xiàn)錯(cuò)誤的可能性也很大。
發(fā)明內(nèi)容
為解決上述技術(shù)問題,本申請(qǐng)實(shí)施例提供一種建設(shè)產(chǎn)品庫(kù)的方法及系統(tǒng),實(shí)現(xiàn)產(chǎn)品庫(kù)的自動(dòng)建設(shè),有效提高產(chǎn)品庫(kù)的正確性及數(shù)據(jù)量。本申請(qǐng)實(shí)施例提供如下技術(shù)方案一種建設(shè)產(chǎn)品庫(kù)的方法,包括獲取商品的描述信息;從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性,一組關(guān)鍵屬性對(duì)應(yīng)一個(gè)產(chǎn)品節(jié)點(diǎn);確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn);如果沒有,則將所述產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中。優(yōu)選地,所述獲取商品的描述信息包括從網(wǎng)站上獲取商品的信息源;從所述信息源中獲取商品的描述信息??蛇x地,所述信息源包括以下任意一種或多種格式化描述信息、非格化描述信息、半格式化描述信息、圖片描述信息。可選地,所述從所述信息源中獲取商品的描述信息包括通過正則表達(dá)式從所述信息源中獲取商品的描述信息;和/或通過機(jī)器學(xué)習(xí)方式從所述信息源中獲取商品的描述信息。
優(yōu)選地,所述確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn)包括對(duì)所述關(guān)鍵屬性進(jìn)行名稱規(guī)范處理;對(duì)名稱規(guī)范處理后的關(guān)鍵屬性進(jìn)行名稱歸一化處理,生成對(duì)應(yīng)所述產(chǎn)品的主鍵;如果所述主鍵未包含在所述產(chǎn)品庫(kù)中,則確定所述產(chǎn)品庫(kù)中未包含所述產(chǎn)品節(jié)
點(diǎn)ο可選地,所述對(duì)名稱規(guī)范處理后的關(guān)鍵屬性進(jìn)行名稱歸一化處理包括以下任意一種或多種處理同義詞歸一化處理、格式歸一化處理、同義表達(dá)歸一化處理。一種建設(shè)產(chǎn)品庫(kù)的系統(tǒng),包括獲取單元,用于獲取商品的描述信息;聚合單元,用于從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性,一組關(guān)鍵屬性對(duì)應(yīng)一個(gè)產(chǎn)品節(jié)點(diǎn);排重單元,用于確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn);入庫(kù)單元,用于在所述排重單元確定產(chǎn)品庫(kù)中未包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn)后,將所述產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中。優(yōu)選地,所述獲取單元包括信息源獲取子單元,用于從網(wǎng)站上獲取商品的信息源;屬性信息獲取子單元,用于從所述信息源中獲取商品的描述信息。可選地,所述聚合單元包括第一提取子單元,和/或第二提取子單元;所述第一提取子單元,用于通過正則表達(dá)式從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性;所述第二提取子單元,用于通過機(jī)器學(xué)習(xí)方式從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性。優(yōu)選地,所述排重單元包括規(guī)范處理子單元,用于對(duì)所述關(guān)鍵屬性進(jìn)行名稱規(guī)范處理;歸一化處理子單元,用于對(duì)名稱規(guī)范處理后的關(guān)鍵屬性進(jìn)行名稱歸一化處理,生成對(duì)應(yīng)所述產(chǎn)品的主鍵;檢查子單元,用于檢查所述主鍵是否包含在所述產(chǎn)品庫(kù)中,如果否,則確定所述產(chǎn)品庫(kù)中未包含所述產(chǎn)品節(jié)點(diǎn)。本申請(qǐng)實(shí)施例提供的技術(shù)方案,通過從商品描述信息中自動(dòng)提取產(chǎn)品的關(guān)鍵屬性,實(shí)現(xiàn)產(chǎn)品庫(kù)的自動(dòng)建設(shè),有效地提高了產(chǎn)品庫(kù)的正確性及數(shù)據(jù)量。該方法可以應(yīng)用于具有海量數(shù)據(jù)的環(huán)境,并且能夠保證產(chǎn)品庫(kù)建設(shè)的高效及準(zhǔn)確。
為了更清楚地說明本申請(qǐng)實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請(qǐng)中記載的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本申請(qǐng)實(shí)施例建設(shè)產(chǎn)品庫(kù)的方法的一種流程圖2是本申請(qǐng)實(shí)施例建設(shè)產(chǎn)品庫(kù)的方法的另一種流程圖;圖3是本申請(qǐng)實(shí)施例建設(shè)產(chǎn)品庫(kù)的系統(tǒng)的一種結(jié)構(gòu)示意圖;圖4是本申請(qǐng)實(shí)施例建設(shè)產(chǎn)品庫(kù)的系統(tǒng)的另一種結(jié)構(gòu)示意圖。
具體實(shí)施例方式為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)中的技術(shù)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾?qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。在本申請(qǐng)的一個(gè)實(shí)施例中,提供一種建設(shè)產(chǎn)品庫(kù)的方法,參見圖1所示,該方法包括以下基本步驟步驟101,獲取商品的描述信息。任何一個(gè)商品可以由多種信息來描述,比如,所述描述信息可以包括以下任意一項(xiàng)或多項(xiàng)商家、品牌、型號(hào)、大小、重量等。上述這些描述信息可以根據(jù)先驗(yàn)知識(shí)來定義,也可以通過其他方式來獲得,比如可以從一些相關(guān)網(wǎng)站來獲得。如果通過網(wǎng)站來獲得,可以首先從網(wǎng)站上獲取商品的信息源,比如,一些電子商務(wù)網(wǎng)站、相關(guān)企業(yè)網(wǎng)站提供的一些商品介紹網(wǎng)頁、以及其他一些非電子商務(wù)網(wǎng)站比如論壇、博客等,從這些信息源中即可提取出商品的描述信息。當(dāng)然,對(duì)于不同的商家,其提供的商品的描述信息可能不統(tǒng)一,主要有以下幾種方式格式化描述信息,比如很多電子商務(wù)網(wǎng)站的數(shù)據(jù)庫(kù)中都存儲(chǔ)了該商品的屬性信息,包括但不限于品牌、型號(hào)、顏色、尺寸等;非格化描述信息,比如有商品的標(biāo)題、詳情頁、評(píng)價(jià)、資訊等信息;半格式化描述信息,比如,某些網(wǎng)頁中由用戶較為隨意地寫出了一些類似格式化的信息,但仍需要進(jìn)行規(guī)范調(diào)整。例如用戶自己定義的表格,表達(dá)式等。圖片描述信息,比如,該商品的各種描述圖片。當(dāng)然,還可以有其他格式的描述信息,對(duì)此本申請(qǐng)實(shí)施例中并不做限定。步驟102,從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性,一組關(guān)鍵屬性對(duì)應(yīng)一個(gè)產(chǎn)品節(jié)點(diǎn)。對(duì)于任意一個(gè)商品,可以從商家和產(chǎn)品這兩種維度來描述。而每一個(gè)產(chǎn)品也都可以由一組屬性信息進(jìn)行描述,例如,手機(jī)的品牌、型號(hào)、大小、重量等。其中包含了一些關(guān)鍵屬性,一組關(guān)鍵屬性可以唯一定義一個(gè)產(chǎn)品節(jié)點(diǎn)。因此,從步驟101中獲取的商品的描述信息中可以提取出用于描述產(chǎn)品的關(guān)鍵屬性,例如一組關(guān)鍵屬性可以包括品牌和型號(hào)。當(dāng)然,在步驟101中可能獲取了多個(gè)商品的描述信息,而且每個(gè)商品對(duì)應(yīng)的產(chǎn)品種類可能不同,因此,在步驟102中可以得到對(duì)應(yīng)一種或多種產(chǎn)品的關(guān)鍵屬性,而每種產(chǎn)品對(duì)應(yīng)的關(guān)鍵屬性中可以包含一個(gè)或多個(gè)所述描述信肩、ο對(duì)于不同的種類的產(chǎn)品,其對(duì)應(yīng)的關(guān)鍵屬性可以不同,對(duì)于相同種類的產(chǎn)品,則對(duì)應(yīng)相同的關(guān)鍵屬性。在從所述描述信息中提取用于描述產(chǎn)品的關(guān)鍵屬性時(shí),首先需要確定關(guān)鍵屬性。 一般,關(guān)鍵屬性根據(jù)類目不同可以是不同的,例如在手機(jī)類目中,品牌和型號(hào)可以成為關(guān)鍵屬性,在書籍類目中可以將ISBN(InternationalStandard Book Number,國(guó)際標(biāo)準(zhǔn)書號(hào))作為關(guān)鍵屬性。在本申請(qǐng)實(shí)施例中,可以根據(jù)一些人工得到的先驗(yàn)知識(shí),例如確定屬于一個(gè)產(chǎn)品類別的商品等,進(jìn)行自動(dòng)分析,確定關(guān)鍵屬性。關(guān)鍵屬性確定后,根據(jù)抽取出的不同格式的描述信息,可以采用不同的方法提取關(guān)鍵屬性。例如從“商家熱賣Nokia手機(jī),大品牌,高銷量,N97—代機(jī)皇”中抽取關(guān)鍵屬性 品牌Nokia ;型號(hào)N97。具體地,可以通過正則表達(dá)式從所述描述信息中提取出所述關(guān)鍵屬性,例如Nokia N系列手機(jī)的型號(hào),可以使用“N+W-9]+”的正則表達(dá)式來抽取商品的關(guān)鍵屬性。另外,還可以通過機(jī)器學(xué)習(xí)方式從所述描述信息中提取出所述關(guān)鍵屬性,比如,可以采用 CRF(Conditional Random Field,條件隨機(jī)場(chǎng))算法、HMM(Hidden Markov Model, 隱馬爾可夫模型)算法等來抽取所述關(guān)鍵屬性。通過機(jī)器學(xué)習(xí)方式進(jìn)行關(guān)鍵屬性的抽取過程主要包括以下步驟1.訓(xùn)練數(shù)據(jù)獲取可以由人工標(biāo)注產(chǎn)生訓(xùn)練數(shù)據(jù);2.特征選取所述特征可以包括詞匯的屬性、上下文的詞匯、標(biāo)點(diǎn)等;3.模型訓(xùn)練采用訓(xùn)練數(shù)據(jù),通過相應(yīng)的機(jī)器學(xué)習(xí)算法進(jìn)行模型的訓(xùn)練;4.屬性抽取采用訓(xùn)練好的模型,可以用相應(yīng)的機(jī)器學(xué)習(xí)算法,對(duì)于信息進(jìn)行標(biāo)注,例如標(biāo)出Nokia為品牌,N97為型號(hào)等。當(dāng)然,在實(shí)際應(yīng)用中,還可以采用其他方式從所述商品的描述信息中提取產(chǎn)品的關(guān)鍵屬性,也可以同時(shí)綜合采用多種方式提取產(chǎn)品的關(guān)鍵屬性,在此不再一一舉例說明。步驟103,確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn)。所述產(chǎn)品庫(kù)可以是已建立的一個(gè)產(chǎn)品庫(kù),也可以是一個(gè)需要新建的產(chǎn)品庫(kù)。產(chǎn)品庫(kù)的格式可以是一個(gè)數(shù)據(jù)庫(kù),包括很多的列,每一個(gè)列為產(chǎn)品的一個(gè)屬性。還有一些列可以包括產(chǎn)品的圖片,描述信息的字段。例如,產(chǎn)品庫(kù)中的信息如下表1所示
品牌型號(hào)重量大小圖片描述信息NokiaN97IOOglOcm^ScmXX. jpg一代機(jī)皇三星U60880gScm^lOcmYY. jpg超輕超薄表 1前面提到,一組關(guān)鍵屬性可以唯一定義一個(gè)產(chǎn)品節(jié)點(diǎn),因此,為了方便應(yīng)用并提高產(chǎn)品庫(kù)的查詢速度,可以直接使用所述關(guān)鍵屬性作為所述產(chǎn)品庫(kù)的主鍵。這樣,在確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn)時(shí),可以將步驟102中提取出的關(guān)鍵屬性與所述產(chǎn)品庫(kù)中已有的信息進(jìn)行比較,如果不重復(fù),則表明所述產(chǎn)品庫(kù)中未包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn);否則表明所述產(chǎn)品庫(kù)中已有該產(chǎn)品節(jié)點(diǎn)。
當(dāng)然,本申請(qǐng)?jiān)搶?shí)施例并不限定所述產(chǎn)品庫(kù)的形式及其使用的主鍵,比如,還可以通過數(shù)字的方式建立每種產(chǎn)品的索引,并將該索引作為所述產(chǎn)品庫(kù)的主鍵。這樣,在確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn)時(shí),可以通過該索引進(jìn)行判斷。如果在步驟102中得到了分別用于描述不同產(chǎn)品的多組關(guān)鍵屬性,則可以依次確定產(chǎn)品庫(kù)中是否包含每組關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn)。如果未包含所述產(chǎn)品節(jié)點(diǎn),則需要將該產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中;如果已包含所述產(chǎn)品節(jié)點(diǎn),則無需再將該產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中,以避免所述產(chǎn)品庫(kù)中的產(chǎn)品節(jié)點(diǎn)產(chǎn)生重復(fù)。步驟104,如果沒有,則將所述產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中。本申請(qǐng)實(shí)施例提供的建設(shè)產(chǎn)品庫(kù)的方法,通過從商品描述信息中提取產(chǎn)品的關(guān)鍵屬性,實(shí)現(xiàn)產(chǎn)品庫(kù)的自動(dòng)建設(shè),有效地提高了產(chǎn)品庫(kù)的正確性及數(shù)據(jù)量。該方法可以應(yīng)用于具有海量數(shù)據(jù)的環(huán)境,并且能夠保證產(chǎn)品庫(kù)建設(shè)的高效及準(zhǔn)確。利用本申請(qǐng)實(shí)施例提供的建設(shè)產(chǎn)品庫(kù)的方法建設(shè)的產(chǎn)品庫(kù),不僅可以為用戶提供與現(xiàn)有技術(shù)中產(chǎn)品庫(kù)所具有的功能,而且還可以很方便地向用戶展現(xiàn)產(chǎn)品的所有屬性信息及個(gè)性化信息,比如推薦信息、圖片信息、價(jià)格信息等,從而可以幫助用戶很好地進(jìn)行商品的選擇。另外,在商品管理方面,每一個(gè)商品的上架都需要上掛到一個(gè)產(chǎn)品庫(kù)的節(jié)點(diǎn)上,這樣可以使得商品更有結(jié)構(gòu),更便于管理。前面提到,一組關(guān)鍵屬性可以唯一定義一個(gè)產(chǎn)品節(jié)點(diǎn),而一組關(guān)鍵屬性中可以包含一個(gè)或多個(gè)描述信息。也就是說,對(duì)于不同的產(chǎn)品,可以有不同的關(guān)鍵屬性,而且其中的各描述信息可以有一種或多種表達(dá)方式。因此,為了保證自動(dòng)建立的產(chǎn)品庫(kù)中產(chǎn)品節(jié)點(diǎn)沒有遺漏及重復(fù),在本申請(qǐng)的另一個(gè)實(shí)施例中,提供一種建設(shè)產(chǎn)品庫(kù)的方法,參見圖2所示,該方法包括以下基本步驟步驟201,獲取商品的描述信息。步驟202,從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性,一組關(guān)鍵屬性對(duì)應(yīng)一個(gè)產(chǎn)品節(jié)點(diǎn)。步驟203,對(duì)所述關(guān)鍵屬性進(jìn)行名稱規(guī)范處理。對(duì)所述關(guān)鍵屬性進(jìn)行名稱規(guī)范處理是指,確定對(duì)應(yīng)一個(gè)產(chǎn)品的一組關(guān)鍵屬性需要包括哪些描述信息、不應(yīng)包括哪些描述信息。因?yàn)椴煌N類的產(chǎn)品可以用不同的信息來描述,比如,MP3的關(guān)鍵屬性中可以包含品牌+型號(hào)+容量,防曬霜的關(guān)鍵屬性中可以包含 品牌+單品名稱+SPF值+PA值等。當(dāng)然,對(duì)于一個(gè)產(chǎn)品,究竟使用哪些描述信息表示,可以根據(jù)應(yīng)用需要來確定,對(duì)于同一個(gè)產(chǎn)品,在不同的應(yīng)用環(huán)境下,其關(guān)鍵屬性所包含的信息也可以不同。步驟204,對(duì)名稱規(guī)范處理后的關(guān)鍵屬性進(jìn)行名稱歸一化處理,生成對(duì)應(yīng)所述產(chǎn)品的主鍵。由于商品的描述信息可以從多種不同的信息源中獲得,而且對(duì)于同一種描述信息,可能會(huì)存在著多種表達(dá)方式,因此,為了避免產(chǎn)品節(jié)點(diǎn)的重復(fù),可以在對(duì)所述關(guān)鍵屬性進(jìn)行名稱規(guī)范處理后,進(jìn)一步對(duì)其做歸一化處理,也就是說,將用不同方式表示的描述信息進(jìn)行統(tǒng)一。所述名稱歸一化處理具體可以包括但不限于下列三種方式同義詞歸一化處理,即對(duì)描述信息中的同義詞進(jìn)行檢測(cè)并統(tǒng)一,例如女香==女士香水,香奈兒==Channel ;格式歸一化處理,例如對(duì)描述信息中的簡(jiǎn)繁體、全半角、空格、標(biāo)點(diǎn)符號(hào)等進(jìn)行歸一化;同義表達(dá)歸一化處理,例如香奈爾機(jī)遇女士香水==香奈爾邂逅女士香水。經(jīng)過上述名稱規(guī)范處理和名稱歸一化處理,可以最大限度地避免產(chǎn)生重復(fù)的產(chǎn)品節(jié)點(diǎn)。不僅可以進(jìn)一步提高產(chǎn)品庫(kù)中產(chǎn)品節(jié)點(diǎn)的覆蓋范圍,而且可以有效地避免產(chǎn)品庫(kù)中產(chǎn)品節(jié)點(diǎn)的重復(fù)。步驟205,根據(jù)所述主鍵確定所述產(chǎn)品節(jié)點(diǎn)是否包含在所述產(chǎn)品庫(kù)中。具體過程與前面的步驟103的實(shí)現(xiàn)過程類似,在此不再贅述。同樣,如果在步驟202中得到了分別用于描述不同產(chǎn)品的多組關(guān)鍵屬性,則可以依次確定產(chǎn)品庫(kù)中是否包含每組關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn)。如果未包含所述產(chǎn)品節(jié)點(diǎn),則需要將該產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中;如果已包含所述產(chǎn)品節(jié)點(diǎn),則無需再將該產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中,從而進(jìn)一步避免所述產(chǎn)品庫(kù)中的產(chǎn)品節(jié)點(diǎn)產(chǎn)生重復(fù)。步驟206,如果沒有,則將所述產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中。本申請(qǐng)實(shí)施例提供的建設(shè)產(chǎn)品庫(kù)的方法,通過從商品描述信息中提取產(chǎn)品的關(guān)鍵屬性,實(shí)現(xiàn)產(chǎn)品庫(kù)的自動(dòng)建設(shè),有效地提高了產(chǎn)品庫(kù)的正確性及數(shù)據(jù)量。該方法可以應(yīng)用于具有海量數(shù)據(jù)的環(huán)境,并且能夠保證產(chǎn)品庫(kù)建設(shè)的高效及準(zhǔn)確。進(jìn)一步地,通過對(duì)提取的產(chǎn)品的關(guān)鍵屬性進(jìn)行名稱規(guī)范處理和名稱歸一化處理,不僅提高了產(chǎn)品庫(kù)中產(chǎn)品節(jié)點(diǎn)的覆蓋范圍,而且還有效地避免了產(chǎn)品庫(kù)中產(chǎn)品節(jié)點(diǎn)的重復(fù)。利用本申請(qǐng)實(shí)施例提供的建設(shè)產(chǎn)品庫(kù)的方法建設(shè)的產(chǎn)品庫(kù),不僅可以為用戶提供與現(xiàn)有技術(shù)中產(chǎn)品庫(kù)所具有的功能,而且還可以很方便地向用戶展現(xiàn)產(chǎn)品的所有屬性信息及個(gè)性化信息,比如推薦信息、圖片信息、價(jià)格信息等,從而可以幫助用戶很好地進(jìn)行商品的選擇。另外,在商品管理方面,每一個(gè)商品的上架都需要上掛到一個(gè)產(chǎn)品庫(kù)的節(jié)點(diǎn)上,這樣可以使得商品更有結(jié)構(gòu),更便于管理。相應(yīng)于上面的方法實(shí)施例,本申請(qǐng)還提供一種建設(shè)產(chǎn)品庫(kù)的系統(tǒng),參見圖3,是所述系統(tǒng)的一種結(jié)構(gòu)示意圖。在該實(shí)施例中,所述系統(tǒng)包括獲取單元301,用于獲取商品的描述信息;聚合單元302,用于從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性,一組關(guān)鍵屬性對(duì)應(yīng)一個(gè)產(chǎn)品節(jié)點(diǎn);排重單元303,用于確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn);入庫(kù)單元304,用于在所述排重單元303確定產(chǎn)品庫(kù)中未包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn)后,將所述產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中。其中,所述獲取單元301可以包括信息源獲取子單元,用于從網(wǎng)站上獲取商品的信息源;屬性信息獲取子單元,用于從所述信息源中獲取商品的描述信息。所述聚合單元302可以采用多種方式實(shí)現(xiàn)從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性,比如,所述聚合單元302可以包括第一提取子單元,和/或第二提取子單元;其中
所述第一提取子單元,用于通過正則表達(dá)式從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性;所述第二提取子單元,用于通過機(jī)器學(xué)習(xí)方式從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性。本申請(qǐng)實(shí)施例提供的建設(shè)產(chǎn)品庫(kù)的系統(tǒng),通過從商品描述信息中提取產(chǎn)品的關(guān)鍵屬性,實(shí)現(xiàn)產(chǎn)品庫(kù)的自動(dòng)建設(shè),有效地提高了產(chǎn)品庫(kù)的正確性及數(shù)據(jù)量。該方法可以應(yīng)用于具有海量數(shù)據(jù)的環(huán)境,并且能夠保證產(chǎn)品庫(kù)建設(shè)的高效及準(zhǔn)確。利用本申請(qǐng)實(shí)施例提供的建設(shè)產(chǎn)品庫(kù)的系統(tǒng)建設(shè)的產(chǎn)品庫(kù),不僅可以為用戶提供與現(xiàn)有技術(shù)中產(chǎn)品庫(kù)所具有的功能,而且還可以很方便地向用戶展現(xiàn)產(chǎn)品的所有屬性信息及個(gè)性化信息,比如推薦信息、圖片信息、價(jià)格信息等,從而可以幫助用戶很好地進(jìn)行商品的選擇。另外,在商品管理方面,每一個(gè)商品的上架都需要上掛到一個(gè)產(chǎn)品庫(kù)的節(jié)點(diǎn)上,這樣可以使得商品更有結(jié)構(gòu),更便于管理。在上述實(shí)施例中,所述排重單元303在確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn)時(shí),可以直接使用聚合單元302得到的關(guān)鍵屬性與所述產(chǎn)品庫(kù)中已有的信息進(jìn)行比較,如果不重復(fù),則確定所述產(chǎn)品庫(kù)中未包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn);否則確定所述產(chǎn)品庫(kù)中已有該產(chǎn)品節(jié)點(diǎn)。前面提到,一組關(guān)鍵屬性可以唯一定義一個(gè)產(chǎn)品節(jié)點(diǎn),而一組關(guān)鍵屬性中可以包含一個(gè)或多個(gè)描述信息。也就是說,對(duì)于不同的產(chǎn)品,可以有不同的關(guān)鍵屬性,而且其中的各描述信息可以有一種或多種表達(dá)方式。因此,為了進(jìn)一步保證自動(dòng)建立的產(chǎn)品庫(kù)中產(chǎn)品節(jié)點(diǎn)沒有遺漏及重復(fù),在本申請(qǐng)的另一個(gè)實(shí)施例中,提供一種建設(shè)產(chǎn)品庫(kù)的系統(tǒng),參見圖4所示,該系統(tǒng)的另一種結(jié)構(gòu)示意圖。在該實(shí)施例中,所述系統(tǒng)包括獲取單元401,用于獲取商品的描述信息;聚合單元402,用于從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性,一組關(guān)鍵屬性對(duì)應(yīng)一個(gè)產(chǎn)品節(jié)點(diǎn);排重單元403,用于確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn);入庫(kù)單元403,用于在所述排重單元303確定產(chǎn)品庫(kù)中未包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn)后,將所述產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中。其中,所述排重單元403包括規(guī)范處理子單元431,用于對(duì)所述關(guān)鍵屬性進(jìn)行名稱規(guī)范處理;歸一化處理子單元432,用于對(duì)名稱規(guī)范處理后的關(guān)鍵屬性進(jìn)行名稱歸一化處理, 生成對(duì)應(yīng)所述產(chǎn)品的主鍵;檢查子單元433,用于檢查所述主鍵是否包含在所述產(chǎn)品庫(kù)中,如果否,則確定所述產(chǎn)品庫(kù)中未包含所述產(chǎn)品節(jié)點(diǎn)。本申請(qǐng)實(shí)施例提供的建設(shè)產(chǎn)品庫(kù)的系統(tǒng),通過從商品描述信息中提取產(chǎn)品的關(guān)鍵屬性,實(shí)現(xiàn)產(chǎn)品庫(kù)的自動(dòng)建設(shè),有效地提高了產(chǎn)品庫(kù)的正確性及數(shù)據(jù)量。該方法可以應(yīng)用于具有海量數(shù)據(jù)的環(huán)境,并且能夠保證產(chǎn)品庫(kù)建設(shè)的高效及準(zhǔn)確。進(jìn)一步地,通過對(duì)提取的產(chǎn)品的關(guān)鍵屬性進(jìn)行名稱規(guī)范處理和名稱歸一化處理,不僅提高了產(chǎn)品庫(kù)中產(chǎn)品節(jié)點(diǎn)的覆蓋范圍,而且還有效地避免了產(chǎn)品庫(kù)中產(chǎn)品節(jié)點(diǎn)的重復(fù)。為了描述的方便,描述以上系統(tǒng)時(shí)以功能分為各種單元分別描述。當(dāng)然,在實(shí)施本申請(qǐng)時(shí)可以把各單元的功能在同一個(gè)或多個(gè)軟件和/或硬件中實(shí)現(xiàn)。通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請(qǐng)可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn)。基于這樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲(chǔ)在存儲(chǔ)介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備 (可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例或者實(shí)施例的某些部分所述的方法。本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于系統(tǒng)實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述得比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。以上所描述的系統(tǒng)實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。本申請(qǐng)可用于眾多通用或?qū)S玫挠?jì)算系統(tǒng)環(huán)境或配置中。例如個(gè)人計(jì)算機(jī)、服務(wù)器計(jì)算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程的消費(fèi)電子設(shè)備、網(wǎng)絡(luò)PC、小型計(jì)算機(jī)、大型計(jì)算機(jī)、包括以上任何系統(tǒng)或設(shè)備的分布式計(jì)算環(huán)境等等。本申請(qǐng)可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本申請(qǐng),在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。以上所述僅是本申請(qǐng)的具體實(shí)施方式
,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本申請(qǐng)?jiān)淼那疤嵯?,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本申請(qǐng)的保護(hù)范圍。
權(quán)利要求
1.一種建設(shè)產(chǎn)品庫(kù)的方法,其特征在于,包括 獲取商品的描述信息;從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性,一組關(guān)鍵屬性對(duì)應(yīng)一個(gè)產(chǎn)品節(jié) 確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn); 如果沒有,則將所述產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取商品的描述信息包括 從網(wǎng)站上獲取商品的信息源;從所述信息源中獲取商品的描述信息。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述信息源包括以下任意一種或多種格式化描述信息、非格化描述信息、半格式化描述信息、圖片描述信息。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性包括通過正則表達(dá)式從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性;和/或通過機(jī)器學(xué)習(xí)方式從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn)包括對(duì)所述關(guān)鍵屬性進(jìn)行名稱規(guī)范處理;對(duì)名稱規(guī)范處理后的關(guān)鍵屬性進(jìn)行名稱歸一化處理,生成對(duì)應(yīng)所述產(chǎn)品的主鍵; 如果所述主鍵未包含在所述產(chǎn)品庫(kù)中,則確定所述產(chǎn)品庫(kù)中未包含所述產(chǎn)品節(jié)點(diǎn)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述對(duì)名稱規(guī)范處理后的關(guān)鍵屬性進(jìn)行名稱歸一化處理包括以下任意一種或多種處理同義詞歸一化處理、格式歸一化處理、同義表達(dá)歸一化處理。
7.一種建設(shè)產(chǎn)品庫(kù)的系統(tǒng),其特征在于,包括 獲取單元,用于獲取商品的描述信息;聚合單元,用于從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性,一組關(guān)鍵屬性對(duì)應(yīng)一個(gè)產(chǎn)品節(jié)點(diǎn);排重單元,用于確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn); 入庫(kù)單元,用于在所述排重單元確定產(chǎn)品庫(kù)中未包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn)后,將所述產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述獲取單元包括 信息源獲取子單元,用于從網(wǎng)站上獲取商品的信息源;屬性信息獲取子單元,用于從所述信息源中獲取商品的描述信息。
9.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述聚合單元包括第一提取子單元,和/ 或第二提取子單元;所述第一提取子單元,用于通過正則表達(dá)式從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性;所述第二提取子單元,用于通過機(jī)器學(xué)習(xí)方式從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性。
10.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述排重單元包括 規(guī)范處理子單元,用于對(duì)所述關(guān)鍵屬性進(jìn)行名稱規(guī)范處理;歸一化處理子單元,用于對(duì)名稱規(guī)范處理后的關(guān)鍵屬性進(jìn)行名稱歸一化處理,生成對(duì)應(yīng)所述產(chǎn)品的主鍵;檢查子單元,用于檢查所述主鍵是否包含在所述產(chǎn)品庫(kù)中,如果否,則確定所述產(chǎn)品庫(kù)中未包含所述產(chǎn)品節(jié)點(diǎn)。
全文摘要
本申請(qǐng)公開了一種建設(shè)產(chǎn)品庫(kù)的方法,所述方法包括獲取商品的描述信息;從所述描述信息中提取出用于描述產(chǎn)品的關(guān)鍵屬性,一組關(guān)鍵屬性對(duì)應(yīng)一個(gè)產(chǎn)品節(jié)點(diǎn);確定產(chǎn)品庫(kù)中是否包含所述關(guān)鍵屬性對(duì)應(yīng)的產(chǎn)品節(jié)點(diǎn);如果沒有,則將所述產(chǎn)品節(jié)點(diǎn)添加到所述產(chǎn)品庫(kù)中。本申請(qǐng)還公開了一種建設(shè)產(chǎn)品庫(kù)的系統(tǒng),包括獲取單元,聚合單元,排重單元,入庫(kù)單元。應(yīng)用上述技術(shù)方案,可以實(shí)現(xiàn)產(chǎn)品庫(kù)的自動(dòng)建設(shè),有效提高產(chǎn)品庫(kù)的正確性及數(shù)據(jù)量。
文檔編號(hào)G06F17/30GK102402535SQ20101028127
公開日2012年4月4日 申請(qǐng)日期2010年9月13日 優(yōu)先權(quán)日2010年9月13日
發(fā)明者劉秋水, 周洪喜, 孫海波, 富衛(wèi)軍, 彭仁剛, 楊揚(yáng), 賈寧, 鄧鐘強(qiáng), 陳一寧, 陳冉 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司