專利名稱:一種商品代表圖的選取方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本申請涉及圖像識別的技術(shù)領(lǐng)域,特別是涉及一種商品代表圖的選取方法和系統(tǒng)。
背景技術(shù):
電子商務(wù)(Electronic Commerce, EC)是指在全球各地廣泛的商業(yè)貿(mào)易活動中,在因特網(wǎng)開放的網(wǎng)絡(luò)環(huán)境下,基于網(wǎng)絡(luò)通訊技術(shù),買賣雙方可不謀面地進行各種商貿(mào)活動,實現(xiàn)消費者的網(wǎng)上購物、商戶之間的網(wǎng)上交易和在線電子支付,以及各種商務(wù)活動、交易活動、金融活動和相關(guān)的綜合服務(wù)活動的一種新型的商業(yè)運營模式。電子商務(wù)涵蓋的范圍很廣,一般可分為企業(yè)對企業(yè)(Business-to-Business,B2B)、企業(yè)對消費者(Business-to-Customer, B2C)或消費者對消費者(Customer-to-Customer, C2C)等模式。近幾年來,國內(nèi)電子商務(wù)迅速發(fā)展,各種B2B、C2C、B2C模式的電子商務(wù)網(wǎng)站(俗稱購物網(wǎng)站),如淘寶網(wǎng)、當當網(wǎng)、卓越亞馬遜、拍拍網(wǎng)、京東商城等,已被用戶認可和接受。在電子商務(wù)網(wǎng)站中,圖片是展現(xiàn)商品信息的關(guān)鍵方式。對于同一種商品,可能會有多張商品展示圖片。尤其是在C2C模式的購物網(wǎng)站中,往往不同的商家可能會使用內(nèi)容各異的商品展示圖片來表示同一件商品。在這個商品展示圖片的集合中,存在一張或多張圖片,能較好地表達商品的主要信息,這種圖可以稱之為商品代表圖。在有限的展示位內(nèi),選取合適的商品代表圖來進行展現(xiàn),對商家、消費者和購物網(wǎng)站來說都很重要。同時,從技術(shù)層面來看,選擇合適的商品代表圖,能去除冗余信息,是提高系統(tǒng)效率的有效手段。目前商品代表圖的挑選主要是依靠人工選擇。由于電子商務(wù)網(wǎng)站商品數(shù)量的高速增長,人工挑選商品代表圖的方式在時間和人力成本上越來越高,以至于無法承受。因此,目前需要本領(lǐng)域技術(shù)人員迫切解決的一個技術(shù)問題就是:提出一種商品代表圖的選取機制,用以實現(xiàn)海量商品數(shù)據(jù)中選取商品代表圖的自動化,提高商品代表圖選取的效率。
發(fā)明內(nèi)容
本申請的目的在于,提供一種商品代表圖的選取方法,用以實現(xiàn)海量商品數(shù)據(jù)中選取商品代表圖的自動化,提高商品代表圖選取的效率。相應(yīng)的,本申請還提供了一種商品代表圖的選取系統(tǒng),用以保證上述方法在實際中的實現(xiàn)和應(yīng)用。為了解決上述問題,本申請公開了一種商品代表圖的選取方法,包括:提取商品圖像集合中各商品圖像的局部特征;根據(jù)所述各商品圖像的局部特征,計算所述商品圖像集合中商品圖像之間的相似度;按照所述相似度,從所述商品圖像集合中選取目標商品圖像子類;從所述目標商品圖像子類中提取累積相似度最聞的商品圖像為商品代表圖。
優(yōu)選的是,所述按照相似度從所述商品圖像集合中選取目標商品圖像子類的步驟進一步包括:當所述商品圖像集合中商品圖像的數(shù)量大于第一預(yù)設(shè)閾值時,按照所述相似度,對所述商品圖像集合中的商品圖像進行聚類,獲得商品圖像子類;提取商品圖像數(shù)量大于第二預(yù)設(shè)閾值的商品圖像子類為目標商品圖像子類。優(yōu)選的是,所述按照相似度從所述商品圖像集合中選取目標商品圖像子類的步驟進一步包括:當所述商品圖像集合中商品圖像的數(shù)量小于第一預(yù)設(shè)閾值時,則直接將所述商品圖像集合作為目標商品圖像子類。優(yōu)選的是,所述經(jīng)聚類獲得的商品圖像子類為多個,所提取的目標商品圖像子類包括多個,所述的方法還包括:匯總從多個目標商品圖像子類中提取的商品代表圖,形成商品代表圖集合。優(yōu)選的是,所述的方法還包括:從所述商品代表圖集合中進一步提取累積相似度最聞的商品圖像作為唯一的商品代表圖。優(yōu)選的是,所述的方法還包括:定期對所述商品代表圖進行增量更新。優(yōu)選的是,所述根據(jù)各商品圖像的局部特征計算商品圖像集合中商品圖像之間相似度的步驟包括:當所述商品圖像集合中商品圖像的數(shù)量小于第三預(yù)設(shè)閾值時,根據(jù)所述各商品圖像的局部特征兩兩計算商品圖像之間的相似度。優(yōu)選的是,所述根據(jù)各商品圖像的局部特征兩兩計算商品圖像之間相似度的步驟進一步包括:若第一商品圖像的局部特征有a個,第二商品圖像的局部特征有b個,并且a < b ;則分別針對第一商品圖像的某個局部特征,計算第二商品圖像中與其向量距離最近的局部特征;若所述向量距離小于第四預(yù)設(shè)閾值,則判定所述第一商品圖像的當前局部特征與第二商品圖像中的當前局部特征為匹配的局部特征對;按預(yù)置規(guī)則濾除所述匹配的局部特征對中的錯誤局部特征對,獲得最終匹配的局部特征對;依據(jù)所述最終匹配的局部特征對的數(shù)量計算所述第一商品圖像和第二商品圖像的相似度。優(yōu)選的是,所述按預(yù)置規(guī)則濾除匹配的局部特征對中的錯誤局部特征,獲得最終匹配的局部特征對的步驟進一步包括:對于第一商品圖像中匹配上的局部特征,按所在的行坐標進行排序;對于第二商品圖像中匹配上的局部特征,按照所述第一商品圖像中對應(yīng)匹配的局部特征的順序,判斷是否存在逆序的局部特征;若是,則判定所述逆序的局部特征所對應(yīng)的匹配局部特征對為錯誤局部特征對;從所有匹配的局部特征對中濾除所述錯誤局部特征對,獲得最終匹配的局部特征對。優(yōu)選的是,所述依據(jù)最終匹配的局部特征對的數(shù)量計算所述第一商品圖像和第二商品圖像的相似度的步驟進一步包括:通過以下公式計算所述第一商品圖像和第二商品圖像的相似度:m/max (a, b);其中,m為最終匹配的局部特征對的數(shù)量,a為第一商品圖像中局部特征的數(shù)量,b為第二商品圖像中局部特征的數(shù)量。優(yōu)選的是,所述的方法還包括:若所有商品圖像子類中的商品圖像數(shù)量均小于第二預(yù)設(shè)閾值,則選擇商品圖像數(shù)量最多的商品圖像子類,作為唯一的目標商品圖像子類。優(yōu)選的是,所述第一預(yù)設(shè)閾值為5 10中任一值;所述第二預(yù)設(shè)閾值為5 ;所述第三預(yù)設(shè)閾值為1000 ;所述第四預(yù)設(shè)閾值為150 250中任一值。本申請實施例還公開了一種商品代表圖的選取系統(tǒng),包括:局部特征提取模塊,用于提取商品圖像集合中各商品圖像的局部特征;相似度計算模塊,用于根據(jù)所述各商品圖像的局部特征,計算所述商品圖像集合中商品圖像之間的相似度;目標子類確定模塊,用于按照所述相似度,從所述商品圖像集合中選取目標商品圖像子類;商品代表圖選取模塊,用于從所述目標商品圖像子類中提取累積相似度最高的商品圖像為商品代表圖。與現(xiàn)有技術(shù)相比,本申請包括以下優(yōu)點:本申請實施例通過在對商品代表圖特性的合理假設(shè)下,基于商品圖像的內(nèi)容匹配,基于局部特征的圖像相似度計算,自動挑選出商品代表圖,從而實現(xiàn)了海量商品數(shù)據(jù)中選取商品代表圖的自動化,提高商品代表圖選取的效率。
圖1是本申請一種商品代表圖的選取方法實施例的步驟流程圖;圖2是本申請一種商品代表圖的選取系統(tǒng)實施例的結(jié)構(gòu)框圖。
具體實施例方式為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本申請作進一步詳細的說明。本申請的核心構(gòu)思在于,通過在對商品代表圖特性的合理假設(shè)下,基于局部特征的圖像相似度計算,自動挑選出商品代表圖。參照圖1,其示出了本申請一種商品代表圖的選取方法實施例的步驟流程圖,具體可以包括如下步驟:步驟101、提取商品圖像集合中各商品圖像的局部特征;本申請實施例所提出的商品代表圖的自動挑選方案,是基于以下兩個假設(shè):1.最典型的商品圖像被使用的頻率最聞;
2.商品或代表商品屬性的主要視覺特征,會在內(nèi)容各異的商品圖像中重復(fù)出現(xiàn),即,關(guān)于同一商品的不同圖像具有相似性。因而,在本申請實施例中,所述商品圖像集合是從不同的商家使用的,表示同一件商品的,內(nèi)容各異的商品圖像集合。在具體實現(xiàn)中,可以通過直接搜索商品的關(guān)鍵屬性形成所述商品圖像集合。比如,搜索諾基亞N95,可以獲取該手機的所有商品圖像?;蛉?,搜索某本書的ISBN號,可以獲取該書的所有封面圖像。當然,上述商品圖像集合收集的方法僅僅用作示例,本領(lǐng)域技術(shù)人員根據(jù)實際情況采用任一種圖像收集方法均是可行的,本申請對此不限制作。步驟102、根據(jù)所述各商品圖像的局部特征,計算所述商品圖像集合中商品圖像之間的相似度;本申請實施例涉及到基于局部特征的圖像相似度計算。相對于圖像的顏色、紋理、輪廓等全局特征而言,圖像的局部特征是指從圖像局部提取的特征,包括圖像中的特殊的點、線、區(qū)域的形狀和尺度等,即局部特征描述的是圖像在局部區(qū)域的紋理、顏色等信息?;诰植刻卣鞯膱D像相似度計算,是指通過計算兩張圖像中匹配的局部特征點的數(shù)量,來衡量圖像的相似度。采用局部特征計算圖像的相似度具有良好的不變性和魯棒性。對于給定的某商品的一組商品圖像集合,可以采用現(xiàn)有技術(shù)中的任一種特征提取算法提取各商品圖像的局部特征,如Harris角點提取算法、SIFT特征(Scale-1nvariantfeature transform,尺度不變特征轉(zhuǎn)換)提取算法、MSER特征提取算法等,本申請對此無需加以限制。在本申請的一種優(yōu)選實施例中,所述步驟102具體可以包括如下子步驟:子步驟S21,當所述商品圖像集合中商品圖像的數(shù)量小于第三預(yù)設(shè)閾值時,根據(jù)所述各商品圖像的局部特征兩兩計算商品圖像之間的相似度。作為實際應(yīng)用中的一種示例,所述第三預(yù)設(shè)閾值可以為1000。也就是說,在當前商品圖像集合中商品圖像的數(shù)量小于1000時,則根據(jù)各商品圖像的局部特征兩兩計算商品圖像之間的相似度。當然,根據(jù)不同的使用場景,所述第三預(yù)設(shè)閾值還可以設(shè)置為其它值,本申請對此不作限制。更具體而言,可以通過以下操作子步驟根據(jù)各商品圖像的局部特征兩兩計算商品圖像之間相似度:子步驟S211、若第一商品圖像的局部特征有a個,第二商品圖像的局部特征有b個,并且a <b ;則分別針對第一商品圖像的某個局部特征,計算第二商品圖像中與其向量距離最近的局部特征;子步驟S212、若所述向量距離小于第四預(yù)設(shè)閾值,則判定所述第一商品圖像的當前局部特征與第二商品圖像中的當前局部特征為匹配的局部特征對;作為實際應(yīng)用中的一種具體示例,若為采用SIFT特征提取算法提取的商品圖像中的局部特征,那么所述第四預(yù)設(shè)閾值可以設(shè)置為150 250中的任一值。當然,在具體應(yīng)用中,對于不同的局部特征,所使用的閾值往往也是不一樣的,本申請對所述閾值的設(shè)定不作限制。子步驟S213、按預(yù)置規(guī)則濾除所述匹配的局部特征對中的錯誤局部特征對,獲得最終匹配的局部特征對;
更為優(yōu)選的是,所述預(yù)置規(guī)則可以為:對于第一商品圖像中匹配上的局部特征,按所在的行坐標進行排序;對于第二商品圖像中匹配上的局部特征,按照所述第一商品圖像中對應(yīng)匹配的局部特征的順序,判斷是否存在逆序的局部特征;若是,則判定所述逆序的局部特征所對應(yīng)的匹配局部特征對為錯誤局部特征對;從所有匹配的局部特征對中濾除所述錯誤局部特征對,獲得最終匹配的局部特征對。子步驟S214、依據(jù)所述最終匹配的局部特征對的數(shù)量計算所述第一商品圖像和第二商品圖像的相似度。在具體實現(xiàn)中,可以通過以下公式計算所述第一商品圖像和第二商品圖像的相似度:m/max (a, b);其中,m為最終匹配的局部特征對的數(shù)量,a為第一商品圖像中局部特征的數(shù)量,b為第二商品圖像中局部特征的數(shù)量。 例如,假設(shè)從第一商品圖像A中提取出的局部特征有a個,從第二商品圖像B中提取出的局部特征有b個,且a < b。對于A圖中的某個局部特征,計算B圖中和它(即A圖中的那個局部特征)向量距離最近的局部特征(B圖中的局部特征),如果向量距離小于第三預(yù)設(shè)閾值k,則認為這是一對匹配的局部特征,即匹配的局部特征對,然后針對所有匹配的局部特征對進行錯誤匹配濾除。所述錯誤匹配濾除的操作可以為,對于所有匹配上的A圖中的局部特征,按行坐標從小到大排序編號。并對于B圖中匹配上的對應(yīng)的局部特征,相應(yīng)編上A圖中對應(yīng)局部特征的編號。在B圖中產(chǎn)生了逆序的匹配特征對,則認為是錯誤的特征匹配,予以去除。例如,假設(shè)A圖中提取的局部特征包括:fl、f2、f3和f4,B圖中提取的局部特征包括41’42’43’和f4’,通過計算A圖和B圖的局部特征之間的向量距離,得到的匹配特征對為Kfl,H’ ),(f2,f3,),(f3,f2,),(f4,f4’)}。對A圖的局部特征按照行坐標從小到大排序,并進行編號為(fl- > l,f2- > 2,f3- > 3,f4- > 4),然后對B圖中相應(yīng)的局部特征,按照A圖對應(yīng)局部特征的編號進行編號為(fl’ - > l,f2’ - > 3,f3’ - > 2,f4’ - >4)。由于f3’的編號比f2’的編號大,所以判定這里產(chǎn)生了逆序,于是將(f3,f2’ )這組匹配特征對去除掉。最終得到的匹配特征對為3對,采用上述相似度計算公式,計算A圖和B圖的相似度為3/max(5,4) = 0.6。步驟103、當所述商品圖像集合中商品圖像的數(shù)量大于第一預(yù)設(shè)閾值時,按照所述相似度對所述商品圖像集合中的商品圖像進行聚類,獲得商品圖像子類;作為本申請實施例具體應(yīng)用的一種示例,所述第一預(yù)設(shè)閾值可以為5 10中任一值。當然,本申請對所述閾值的設(shè)置并不加以限制。在具體應(yīng)用中,本領(lǐng)域技術(shù)人員可以根據(jù)實際情況采用任一種聚類算法按照相似度對所述商品圖像集合中的商品圖像進行聚類,如KMEANS聚類算法,聚類算法通常涉及以下操作步驟:第一步,隨機選擇T張圖片作為聚類中心;第二步,計算每個圖片和聚類中心的距離,將該圖片歸到距離最近的中心所在的那個類;第三步,更新每個類的中心,選擇每個類中和其他圖片平均相似度最高的圖片作為聚類中心;第四步,迭代上述第二步和第三步,直到每個類的聚類中心不再變化。對于本領(lǐng)域技術(shù)人員實際采用何種聚類算法,本申請并不加以限制。在具體實現(xiàn)中,當所述商品圖像集合中商品圖像的數(shù)量小于第一預(yù)設(shè)閾值時,則可以直接將所述商品圖像集合作為目標商品圖像子類。步驟104、提取商品圖像數(shù)量大于第二預(yù)設(shè)閾值的商品圖像子類為目標商品圖像子類;統(tǒng)計每個商品圖像子類中的商品圖像數(shù)量。將商品圖像數(shù)量大于第二預(yù)設(shè)閾值的子類,作為目標商品圖像子類。在具體實現(xiàn)中,若所有商品圖像子類中的商品圖像數(shù)量均小于第二預(yù)設(shè)閾值,則可以選擇商品圖像數(shù)量最多的商品圖像子類,作為唯一的目標商品圖像子類。作為本申請實施例具體應(yīng)用的一種示例,所述第二預(yù)設(shè)閾值可以為5。當然,本申請對所述閾值的設(shè)置并不加以限制。步驟105、從所述目標商品圖像子類中提取累積相似度最聞的商品圖像為商品代表圖。對于每個目標商品圖像子類,統(tǒng)計每張商品圖像的累積相似度,即計算當前商品圖像和目標商品圖像子類里面其他商品圖像的相似度之和。把累積相似度最高的商品圖像作為該目標商品圖像子類的商品代表圖。例如,假設(shè)某目標商品圖像子類中有A、B、C三張商品圖像,A圖與B圖的相似度為similarity (A, B) = 0.5, A 圖與 C 圖的相似度為 similarity (A, C) = 0.6, B 圖與 C 圖的相似度為similarity (B, C) = 0.7。在這種情況下,可以計算出:A 圖的累積相似度為 similarity (A, B) +similarity (A, C) = 0.5+0.6 = 1.1 ;B 圖的累積相似度為 similarity (A, B) +similarity (B, C) = 0.5+0.7 = 1.2 ;C 圖的累積相似度為 similarity (A, C)+similarity (B,C) = 0.6+0.7 = 1.3。由于C圖的累積相似度最高,所以C是這個目標商品圖像子類中的商品代表圖。在具體實現(xiàn)中,可能需要多張商品代表圖,則可以直接匯總從多個目標商品圖像子類中提取的商品代表圖,形成商品代表圖集合。在某些應(yīng)用中,可能只需要一張商品代表圖,則可以將商品代表圖集合作為一個類,從所述商品代表圖集合中進一步提取累積相似度最高的商品圖像作為唯一的商品代表圖。如果是從唯一目標商品圖像子類中提取的商品代表圖,則得到的就是唯一的商品代表圖。為使本領(lǐng)域技術(shù)人員更好地理解本申請,以下提供幾種本申請實施例在實際應(yīng)用中的示例。示例一、去除冗余的商品圖像。米用本申請實施例所選取出來的商品代表圖的重要性,要高于其他非商品代表圖像。在某些存儲和計算資源比較緊張的情況下,可以只使用商品代表圖,比如,圖像搜索引擎可以只索引商品代表圖,而無需進行全局搜索。
示例二、排查不恰當?shù)纳唐分鲌D。對于某一個已經(jīng)發(fā)布,或正在發(fā)布的商品,可以通過其商品ID(或者商品的主要屬性,比如書籍的ISBN號)和商品庫中的商品進行匹配,然后將賣家提供的商品主圖和商品代表圖一一比對,如果都不滿足一定的相似性要求,則認為該商品使用了不恰當?shù)纳唐分鲌D。示例三、協(xié)助賣家挑選商品代表圖。對于某一個已經(jīng)發(fā)布,或正在發(fā)布的的商品,判斷賣家是否使用了不恰當?shù)纳唐分鲌D(如采用上述示例二判斷)。若是,則提示賣家可以使用商品代表圖集合中的一張圖像替換當前的商品主圖。當然,上述應(yīng)用僅僅用作示例說明,本申請對所述商品代表圖的應(yīng)用情形無需加以限制。在具體實現(xiàn)中,本申請實施例還可以包括以下步驟:定期對所述商品代表圖進行增量更新。增量更新可以有效節(jié)約資源,提高數(shù)據(jù)更新的效率。作為一種示例,所述增量更新可以按照如下方式進行:對于某個商品圖像集合,定期搜索圖片源,發(fā)現(xiàn)同一商品的新增圖像以后,按以下步驟做增量更新:第一步:將新增的商品圖像和商品圖像子類的中心進行相似度計算,將新增的商品圖像歸入距離中心最近的那個類。如果這個類已經(jīng)是目標商品圖像子類,進行第二步,否則進行第三步。第二步:新增的商品圖像歸入的這個類已經(jīng)是目標商品圖像子類,表示已經(jīng)有子類的商品代表圖。計算新增的商品圖像的累積相似度,判斷是否大于原有子類中商品代表圖的累積相似度。若是,則用新增圖片替換原有子類中商品代表圖,作為新的子類的商品代表圖。第三步:新增的商品圖像歸入的這個類還不是目標商品圖像子類,加入新增的商品圖像后,若商品圖像數(shù)量上述大于第二預(yù)設(shè)閾值,滿足作為目標商品圖像子類的條件,則將該類增選為目標商品圖像子類,并計算出其中每張圖像的累積相似度,得到該子類商品代表圖。將該子類商品代表圖加入商品代表圖集合。然后進行第四步。第四步:如果商品代表圖集合有變化,比如有替換或新增,同時又需要唯一商品代表圖,則重新對代表圖集合計算唯一商品代表圖。當然,上述增量更新的方法也僅僅用作示例,在實際中,本領(lǐng)域技術(shù)人員采用任一種增量更新的方法,或采用全量更新的方法也都是可行的,本申請對此不作限制。需要說明的是,對于前述的方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請并不受所描述的動作順序的限制,因為依據(jù)本申請,某些步驟可以采用其他順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本申請所必須的。參考圖2,其示出了一種商品代表圖的選取系統(tǒng)實施例的結(jié)構(gòu)框圖,具體可以包括如下模塊:
局部特征提取模塊201,用于提取商品圖像集合中各商品圖像的局部特征;相似度計算模塊202,用于根據(jù)所述各商品圖像的局部特征,計算所述商品圖像集合中商品圖像之間的相似度;目標子類確定模塊203,用于按照所述相似度,從所述商品圖像集合中選取目標商品圖像子類;商品代表圖選取模塊204,用于從所述目標商品圖像子類中提取累積相似度最高的商品圖像為商品代表圖。在本申請的一種優(yōu)選實施例中,所述目標子類確定模塊203可以包括如下子模塊:聚類子模塊,用于在所述商品圖像集合中商品圖像的數(shù)量大于第一預(yù)設(shè)閾值時,按照所述相似度,對所述商品圖像集合中的商品圖像進行聚類,獲得商品圖像子類;子類提取子模塊,用于提取商品圖像數(shù)量大于第二預(yù)設(shè)閾值的商品圖像子類為目標商品圖像子類;在本申請的另一種優(yōu)選實施例中,所述目標子類確定模塊203可以包括如下子模塊:目標子類直接確定子模塊,用于當所述商品圖像集合中商品圖像的數(shù)量小于第一預(yù)設(shè)閾值時,則直接將所述商品圖像集合作為目標商品圖像子類。在本申請的一種優(yōu)選實施例中,所述經(jīng)聚類獲得的商品圖像子類可以為多個,所提取的目標商品圖像子類也包括多個,在具體實現(xiàn)中,可能需要多張商品代表圖,在這種情況下,本申請實施例還可以包括如下模塊:商品代表圖匯總模塊,用于匯總從多個目標商品圖像子類中提取的商品代表圖,形成商品代表圖集合。在某些應(yīng)用中,可能只需要一張商品代表圖,在這種情況下,本申請實施例還可以包括如下模塊:唯一商品代表圖確定模塊,用于從所述商品代表圖集合中進一步提取累積相似度最聞的商品圖像作為唯一的商品代表圖。在具體實現(xiàn)中,本申請實施例還可以包括如下模塊:增量更新模塊,用于定期對所述商品代表圖進行增量更新。在本申請的一種優(yōu)選實施例中,所述相似度計算模塊可以包括如下子模塊:兩兩計算子模塊,用于當所述商品圖像集合中商品圖像的數(shù)量小于第三預(yù)設(shè)閾值時,根據(jù)所述各商品圖像的局部特征兩兩計算商品圖像之間的相似度。作為本申請優(yōu)選實施例具體應(yīng)用的一種示例,所述兩兩計算子模塊進一步包括以下單元:向量距離計算單元,用于在第一商品圖像的局部特征有a個,第二商品圖像的局部特征有b個,并且a < b時,分別針對第一商品圖像的某個局部特征,計算第二商品圖像中與其向量距離最近的局部特征;匹配特征對確定單元,用于在所述向量距離小于第四預(yù)設(shè)閾值時,判定所述第一商品圖像的當前局部特征與第二商品圖像中的當前局部特征為匹配的局部特征對;錯誤特征濾除單元,用于按預(yù)置規(guī)則濾除所述匹配的局部特征對中的錯誤局部特征對,獲得最終匹配的局部特征對;計算單元,用于依據(jù)所述最終匹配的局部特征對的數(shù)量計算所述第一商品圖像和第二商品圖像的相似度。更為優(yōu)選的是,所述錯誤特征濾除單元進一步包括以下子單元:排序子單元,用于對于第一商品圖像中匹配上的局部特征,按所在的行坐標進行排序;查錯子單元,用于對于第二商品圖像中匹配上的局部特征,按照所述第一商品圖像中對應(yīng)匹配的局部特征的順序,判斷是否存在逆序的局部特征;若是,則判定所述逆序的局部特征所對應(yīng)的匹配局部特征對為錯誤局部特征對;濾除子單元,用于從所有匹配的局部特征對中濾除所述錯誤局部特征對,獲得最終匹配的局部特征對。在實際中,所述計算單元可以通過以下公式計算所述第一商品圖像和第二商品圖像的相似度:m/max (a, b);其中,m為最終匹配的局部特征對的數(shù)量,a為第一商品圖像中局部特征的數(shù)量,b為第二商品圖像中局部特征的數(shù)量。在具體實現(xiàn)中,本申請實施例還可以包括以下模塊:目標商品圖像子類確定模塊,用于在若所有商品圖像子類中的商品圖像數(shù)量均小于第二預(yù)設(shè)閾值時,選擇商品圖像數(shù)量最多的商品圖像子類,作為唯一的目標商品圖像子類。作為本申請實施例具體應(yīng)用的示例,所述第一預(yù)設(shè)閾值可以為5—10中任一值;所述第二預(yù)設(shè)閾值可以為5 ;所述第三預(yù)設(shè)閾值可以為1000 ;所述第四預(yù)設(shè)閾值可以為150——250中任一值。對于系統(tǒng)實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。本申請可用于眾多通用或?qū)S玫挠嬎阆到y(tǒng)環(huán)境或配置中。例如:個人計算機、服務(wù)器計算機、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器系統(tǒng)、基于微處理器的系統(tǒng)、置頂盒、可編程的消費電子設(shè)備、網(wǎng)絡(luò)PC、小型計算機、大型計算機、包括以上任何系統(tǒng)或設(shè)備的分布式計算環(huán)境等等。本申請可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實踐本申請,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠程計算機存儲介質(zhì)中。以上對本申請所提供的一種商品代表圖的選取方法和一種商品代表圖的選取系統(tǒng),進行了詳細介紹,本文中應(yīng)用了具體個例對本申請的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。
權(quán)利要求
1.一種商品代表圖的選取方法,其特征在于,包括: 提取商品圖像集合中各商品圖像的局部特征; 根據(jù)所述各商品圖像的局部特征,計算所述商品圖像集合中商品圖像之間的相似度; 按照所述相似度,從所述商品圖像集合中選取目標商品圖像子類; 從所述目標商品圖像子類中提取累積相似度最高的商品圖像為商品代表圖。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述按照相似度從所述商品圖像集合中選取目標商品圖像子類的步驟進一步包括: 當所述商品圖像集合中商品圖像的數(shù)量大于第一預(yù)設(shè)閾值時,按照所述相似度,對所述商品圖像集合中的商品圖像進行聚類,獲得商品圖像子類; 提取商品圖像數(shù)量大于第二預(yù)設(shè)閾值的商品圖像子類為目標商品圖像子類。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述按照相似度從所述商品圖像集合中選取目標商品圖像子類的步驟進一步包括: 當所述商品圖像集合中商品圖像的數(shù)量小于第一預(yù)設(shè)閾值時,則直接將所述商品圖像集合作為目標商品圖像子類。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述經(jīng)聚類獲得的商品圖像子類為多個,所提取的目標商品圖像子類包括多個,所述的方法還包括: 匯總從多個目標商品圖像子類中提取的商品代表圖,形成商品代表圖集合。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,還包括: 從所述商品代表圖集合中進一步提取累積相似度最高的商品圖像作為唯一的商品代表圖。
6.根據(jù)權(quán)利要求1或2或3或4或5所述的方法,其特征在于,還包括: 定期對所述商品代表圖進行增量更新。
7.根據(jù)權(quán)利要求1或2或3或4或5或6所述的方法,其特征在于,所述根據(jù)各商品圖像的局部特征計算商品圖像集合中商品圖像之間相似度的步驟包括: 當所述商品圖像集合中商品圖像的數(shù)量小于第三預(yù)設(shè)閾值時,根據(jù)所述各商品圖像的局部特征兩兩計算商品圖像之間的相似度。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述根據(jù)各商品圖像的局部特征兩兩計算商品圖像之間相似度的步驟進一步包括: 若第一商品圖像的局部特征有a個,第二商品圖像的局部特征有b個,并且a < b ;則分別針對第一商品圖像的某個局部特征,計算第二商品圖像中與其向量距離最近的局部特征; 若所述向量距離小于第四預(yù)設(shè)閾值,則判定所述第一商品圖像的當前局部特征與第二商品圖像中的當前局部特征為匹配的局部特征對; 按預(yù)置規(guī)則濾除所述匹配的局部特征對中的錯誤局部特征對,獲得最終匹配的局部特征對; 依據(jù)所述最終匹配的局部特征對的數(shù)量計算所述第一商品圖像和第二商品圖像的相似度。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述按預(yù)置規(guī)則濾除匹配的局部特征對中的錯誤局部特征,獲得最終匹配的局部特征對的步驟進一步包括:對于第一商品圖像中匹配上的局部特征,按所在的行坐標進行排序; 對于第二商品圖像中匹配上的局部特征,按照所述第一商品圖像中對應(yīng)匹配的局部特征的順序,判斷是否存在逆序的局部特征; 若是,則判定所述逆序的局部特征所對應(yīng)的匹配局部特征對為錯誤局部特征對; 從所有匹配的局部特征對中濾除所述錯誤局部特征對,獲得最終匹配的局部特征對。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述依據(jù)最終匹配的局部特征對的數(shù)量計算所述第一商品圖像和第二商品圖像的相似度的步驟進一步包括: 通過以下公式計算所述第一商品圖像和第二商品圖像的相似度: m/max(a, b); 其中,m為最終匹配的局部特征對的數(shù)量,a為第一商品圖像中局部特征的數(shù)量,b為第二商品圖像中局部特征的數(shù)量。
11.根據(jù)權(quán)利要求1或2或3或4或5或6所述的方法,其特征在于,還包括: 若所有商品圖像子類中的商品圖像數(shù)量均小于第二預(yù)設(shè)閾值,則選擇商品圖像數(shù)量最多的商品圖像子類,作為唯一的目標商品圖像子類。
12.根據(jù)權(quán)利要求8或9或10所述的方法,其特征在于,所述第一預(yù)設(shè)閾值為5 10中任一值;所述第二預(yù)設(shè)閾值為5 ;所述第三預(yù)設(shè)閾值為1000 ;所述第四預(yù)設(shè)閾值為150 250中任一值。
13.一種商品代表圖的選取系統(tǒng),其特征在于,包括: 局部特征提取模塊,用于 提取商品圖像集合中各商品圖像的局部特征; 相似度計算模塊,用于根據(jù)所述各商品圖像的局部特征,計算所述商品圖像集合中商品圖像之間的相似度; 目標子類確定模塊,用于按照所述相似度,從所述商品圖像集合中選取目標商品圖像子類; 商品代表圖選取模塊,用于從所述目標商品圖像子類中提取累積相似度最高的商品圖像為商品代表圖。
全文摘要
本申請?zhí)峁┝艘环N商品代表圖的選取方法和系統(tǒng),其中,所述方法包括提取商品圖像集合中各商品圖像的局部特征;根據(jù)所述各商品圖像的局部特征,計算所述商品圖像集合中商品圖像之間的相似度;按照所述相似度,從所述商品圖像集合中選取目標商品圖像子類;從所述目標商品圖像子類中提取累積相似度最高的商品圖像為商品代表圖。本申請可以實現(xiàn)海量商品數(shù)據(jù)中選取商品代表圖的自動化,提高商品代表圖選取的效率。
文檔編號G06F17/30GK103092861SQ20111034192
公開日2013年5月8日 申請日期2011年11月2日 優(yōu)先權(quán)日2011年11月2日
發(fā)明者王從德, 孔祥衡 申請人:阿里巴巴集團控股有限公司