本發(fā)明涉及信息技術(shù),尤其涉及一種屬性獲取方法和裝置。
背景技術(shù):
在電子商務(wù)處理平臺中,可以對所發(fā)布的商品維護(hù)一個(gè)商品庫,在商品庫中按照商品的商品類目,確定了品牌、材質(zhì)、顏色、風(fēng)格、價(jià)格區(qū)間等等屬性項(xiàng)對商品進(jìn)行描述,從而便于進(jìn)行統(tǒng)計(jì)和用戶進(jìn)行篩選。原平臺比如銀泰商業(yè)需要接入淘寶等目標(biāo)平臺時(shí),在目標(biāo)平臺上發(fā)布商品時(shí),由于原平臺上用于描述商品的屬性,包括屬性項(xiàng)和屬性值,與目標(biāo)平臺往往是有所區(qū)別的。例如:在銀泰商業(yè)平臺上,采用了品牌、顏色、材質(zhì)和上市時(shí)間描述連衣裙這一商品類目下的商品,而在淘寶平臺上則采用了品牌、顏色分類、風(fēng)格和價(jià)格區(qū)間。因此,在淘寶平臺上發(fā)布商品之前,需要確定銀泰商業(yè)平臺上的商品在淘寶平臺中進(jìn)行描述時(shí)各屬性項(xiàng)的屬性值,也就是獲取到該商品在目標(biāo)平臺上的屬性。
現(xiàn)有技術(shù)中可以根據(jù)目標(biāo)平臺的屬性,對原平臺商品的屬性進(jìn)行聚類處理,從而獲得在目標(biāo)平臺上該商品的屬性,但這種方式僅能夠針對該商品在原平臺上的屬性進(jìn)行處理,而無法對商品在原平臺上的標(biāo)題或詳情描述等非結(jié)構(gòu)化文本進(jìn)行處理。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種屬性獲取方法和裝置,用于基于商品在原平臺上的標(biāo)題或詳情描述等非結(jié)構(gòu)化文本進(jìn)行處理獲得該商品的屬性。
為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案:
第一方面,提供了一種屬性獲取方法,包括:
從用于描述目標(biāo)對象的非結(jié)構(gòu)化文本中,抽取出與預(yù)設(shè)屬性匹配的目標(biāo)詞;
根據(jù)所述目標(biāo)詞確定所述目標(biāo)對象的屬性。第二方面,提供了一種屬性獲取裝置,包括:
抽取模塊,用于從用于描述目標(biāo)對象的非結(jié)構(gòu)化文本中,抽取出與預(yù)設(shè)屬性匹配的目標(biāo)詞預(yù)設(shè)屬性;
確定模塊,用于根據(jù)所述目標(biāo)詞確定所述目標(biāo)對象的屬性預(yù)設(shè)屬性。
本發(fā)明實(shí)施例提供的屬性獲取方法和裝置,通過從原平臺用于描述目標(biāo)對象的非結(jié)構(gòu)化文本中,抽取出與目標(biāo)平臺的預(yù)設(shè)屬性匹配的目標(biāo)詞,進(jìn)而根據(jù)目標(biāo)詞確定出目標(biāo)對象在目標(biāo)平臺中的屬性。針對電子商務(wù)平臺來說,可以實(shí)現(xiàn)從商品的標(biāo)題和詳情描述這種非結(jié)構(gòu)化文本中抽取出商品的屬性,因此解決了現(xiàn)有技術(shù)中無法針對非結(jié)構(gòu)化文本進(jìn)行處理,獲得原平臺的商品在目標(biāo)平臺上的屬性的技術(shù)問題。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說明
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1為實(shí)施例一提供的一種屬性獲取方法的流程示意圖;
圖2為屬性獲取方法的應(yīng)用場景示意圖;
圖3為本發(fā)明實(shí)施例二提供的一種屬性獲取方法的流程示意圖;
圖4為本發(fā)明實(shí)施例三提供的一種屬性獲取裝置的結(jié)構(gòu)示意圖;
圖5為本發(fā)明實(shí)施例四提供的一種屬性獲取裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
下面結(jié)合附圖對本發(fā)明實(shí)施例提供的屬性獲取方法和裝置進(jìn)行詳細(xì)描述。
實(shí)施例一
圖1為實(shí)施例一提供的一種屬性獲取方法的流程示意圖,本實(shí)施例所提供的方法可以用于電子商務(wù)平臺中,也就是說,本實(shí)施例中所提及的對象可以為商品,實(shí)施例可以用于將原平臺中的商品投放到目標(biāo)平臺之前,獲得該商品在目標(biāo)平臺中的屬性,如圖1所示,方法包括:
步驟101、從用于描述目標(biāo)對象的非結(jié)構(gòu)化文本中,抽取出與預(yù)設(shè)屬性匹配的目標(biāo)詞。
其中,預(yù)設(shè)屬性包括了預(yù)設(shè)屬性項(xiàng)和預(yù)設(shè)屬性值。針對同一個(gè)預(yù)設(shè)屬性項(xiàng),可以由一個(gè)或多個(gè)詞匯構(gòu)成對應(yīng)的預(yù)設(shè)屬性值??蛇x的,在設(shè)置預(yù)設(shè)屬性項(xiàng)和預(yù)設(shè)屬性值之間對應(yīng)關(guān)系之后,還可以針對每一個(gè)預(yù)設(shè)屬性值設(shè)置與多個(gè)預(yù)設(shè)屬性子值之間的對應(yīng)關(guān)系,其中,預(yù)設(shè)屬性子值與預(yù)設(shè)屬性值具有相似語義。
例如:針對服飾風(fēng)格的預(yù)設(shè)屬性項(xiàng),可以設(shè)置用于描述不同服飾風(fēng)格的詞匯作為預(yù)設(shè)屬性值。進(jìn)一步,還可以針對還可以針對每一個(gè)服飾風(fēng)格詞匯設(shè)置多個(gè)具有相似語義的詞匯作為預(yù)設(shè)屬性子值,具體來說,可以設(shè)置民族為預(yù)設(shè)屬性值,進(jìn)而還可以設(shè)置苗族、漢族、藏族等具體描述民族的詞匯作為預(yù)設(shè)屬性子值,又如還可以在設(shè)置學(xué)院作為預(yù)設(shè)屬性值的同時(shí)設(shè)置校園、文藝和小清新等等用于具體描述學(xué)院風(fēng)格的詞匯作為預(yù)設(shè)屬性子值。
需要說明的是,這里所說的匹配不僅是指絕對匹配,還包括部分匹配的情況。
具體的,將非結(jié)構(gòu)化文本中的詞與該預(yù)設(shè)屬性項(xiàng)對應(yīng)的各個(gè)詞進(jìn)行匹配,若存在至少一個(gè)匹配的詞匯則認(rèn)為該詞與預(yù)設(shè)屬性匹配,進(jìn)而確定該詞為目標(biāo)詞。在匹配之前,可以通過獲取目標(biāo)對象在原平臺中的標(biāo)題和詳情描述等非結(jié)構(gòu)化文本,對這些非結(jié)構(gòu)化文本進(jìn)行預(yù)處理,預(yù)處理操作主要包括分詞、全角換半角、大小寫統(tǒng)一、對文本進(jìn)行歸一、對品牌詞準(zhǔn)確識別、處理單字等。進(jìn)而在目標(biāo)平臺中,查詢目標(biāo)對象所屬類目下的預(yù)設(shè)屬性。采用相似度算法,對所述非結(jié)構(gòu)化文本與所述預(yù)設(shè)屬性進(jìn)行字符串匹配,獲得匹配的單詞等目標(biāo)詞,并且獲得每一個(gè)目標(biāo)詞與預(yù)設(shè)屬性之間的匹配度。通過進(jìn)行字符串匹配,從非結(jié)構(gòu)化文本中找到與預(yù)設(shè)屬性相似的詞匯,這里使用的相似度算法可以包括:編輯距離、余弦夾角相似度、歐式距離、jacarrd遺傳相似度距離(jacarrd是一種遺傳相似度的算法)、二元語法(2-gram)語言模型、最長公共子序列、最長連續(xù)公共子串等。
在本步驟中不僅可以采用前述提及的字符串匹配,也可以采用其他方式從非結(jié)構(gòu)化文本中抽取出目標(biāo)詞,例如語義匹配等。
需要說明的是,前述提及的類目是指對象所屬類別,類目的粒度可以由用戶自行進(jìn)行設(shè)定,例如可以籠統(tǒng)的劃分為服裝、鞋帽、電子產(chǎn)品等,也可以進(jìn)行進(jìn)一步的細(xì)分,例如對于服裝可以劃分為更細(xì)粒度的襯衫、連衣裙、褲子等。類目劃分的粒度越細(xì),獲取到的屬性的準(zhǔn)確度越高,但相應(yīng)的需要維護(hù)的預(yù)設(shè)屬性越多。類目所設(shè)定的粒度可以參考兩個(gè)不同類目間的預(yù)設(shè)屬性存在的差異性,類目的劃分應(yīng)當(dāng)使得兩類目間預(yù)設(shè)屬性的存在一定的差異性,從而在保證獲取到的屬性的準(zhǔn)確度的前提下,維持一個(gè)適當(dāng)規(guī)模的預(yù)設(shè)屬性集合。
步驟102、根據(jù)目標(biāo)詞確定目標(biāo)對象的屬性。
作為一種可能的實(shí)現(xiàn)方式,根據(jù)目標(biāo)詞與預(yù)設(shè)屬性的匹配度,從目標(biāo)詞中確定目標(biāo)對象的屬性。
可以通過將目標(biāo)詞與預(yù)設(shè)屬性中的預(yù)設(shè)屬性值和/或預(yù)設(shè)屬性子值進(jìn)行匹配,從而根據(jù)目標(biāo)詞與預(yù)設(shè)屬性的匹配度,從目標(biāo)詞中確定目標(biāo)對象的屬性。具體的,預(yù)先設(shè)置相似度閾值,即第一閾值和第二閾值,其中,第一閾值大于第二閾值。對于匹配度高于第一閾值的目標(biāo)詞,確定為目標(biāo)對象在目標(biāo)平臺中的屬性;對于匹配度高于第二閾值但小于第一閾值的目標(biāo)詞作為候選屬性,采用語義判別方式確定所述候選屬性是否為所述目標(biāo)平臺中的屬性,根據(jù)判別結(jié)果從所述候選屬性中確定所述目標(biāo)對象在目標(biāo)平臺中的屬性。
一般來說,匹配度的取值在0至1之間,在上一步驟中所獲得的匹配度與第一閾值和第二閾值相比較,有三種情況:
第一種情況,針對匹配度大于第一閾值的目標(biāo)詞,認(rèn)為有較大概率是該目標(biāo)對象的屬性;
第二種情況,針對匹配度小于第一閾值但大于第二閾值的目標(biāo)詞,認(rèn)為其有可能是目標(biāo)對象的屬性,可以將這些目標(biāo)詞作為候選屬性,需要進(jìn)行進(jìn)一步的判斷,具體在本實(shí)施例中采用語義判別方式進(jìn)行了進(jìn)一步判斷;
第三種情況,針對匹配度小于第二閾值的目標(biāo)對象,認(rèn)為是目標(biāo)對象的屬性的概率很低,直接進(jìn)行舍棄。
可見,通過從原平臺用于描述目標(biāo)對象的非結(jié)構(gòu)化文本中,抽取出與目標(biāo)平臺的預(yù)設(shè)屬性匹配的目標(biāo)詞,進(jìn)而根據(jù)目標(biāo)詞與預(yù)設(shè)屬性的匹配度,從目標(biāo)詞中確定出目標(biāo)對象在目標(biāo)平臺中的屬性的方案,可以實(shí)現(xiàn)從商品的標(biāo)題和詳情描述這種非結(jié)構(gòu)化文本中抽取出商品的屬性,因此解決了現(xiàn)有技術(shù)中無法針對非結(jié)構(gòu)化文本進(jìn)行處理,獲得原平臺的商品在目標(biāo)平臺上的屬性的技術(shù)問題。
作為另一種可能的實(shí)現(xiàn)方式,可以基于目標(biāo)詞的語義進(jìn)行分析,獲得所述目標(biāo)對象的屬性。例如:對商品的詳情描述頁中的詞進(jìn)行抽取所獲得的目標(biāo)詞可以為“苗族傳統(tǒng)服飾”,針對目標(biāo)詞的語義進(jìn)行分析,確定“苗族傳統(tǒng)服飾”的語義是用于描述民族風(fēng)格的,因而可以將民族風(fēng)格作為該商品的屬性。這里的語義分析可以基于相似語義,以及概括語義等多種語義關(guān)系進(jìn)行分析,具體來說,相似語義是指屬性與目標(biāo)詞之間可以是具有相似的語義,概括語義是指屬性與目標(biāo)詞之間可以是上下位的概念。
由于前述預(yù)設(shè)屬性值和預(yù)設(shè)屬性子值之間是具有語義相關(guān)性的,因而可以根據(jù)目標(biāo)詞所匹配的預(yù)設(shè)屬性子值,進(jìn)行查詢獲得該預(yù)設(shè)屬性子值所對應(yīng)的預(yù)設(shè)屬性值,將該預(yù)設(shè)屬性值作為商品的屬性值,將該預(yù)設(shè)屬性值對應(yīng)的預(yù)設(shè)屬性項(xiàng)作為商品的屬性項(xiàng)。
需要說明的是,在實(shí)際使用中還可以采用其他基于目標(biāo)詞的語義進(jìn)行分析的方式,從而獲得目標(biāo)對象的屬性,例如:采用數(shù)據(jù)挖掘中的分類器,該分類器是基于詞匯的語義進(jìn)行訓(xùn)練獲得的。
通過前述的屬性獲取方法,便可以通過原平臺中商品的描述頁面,獲得商品在目標(biāo)平臺中的屬性。圖2為屬性獲取方法的應(yīng)用場景示意圖,如圖2所示,左圖為原平臺中的商品頁面,在頁面中包括了商品標(biāo)題和商品詳情,對商品標(biāo)題和商品詳情進(jìn)行抽取目標(biāo)詞,根據(jù)所抽取的目標(biāo)詞獲得如右圖所示的商品屬性列表,該商品屬性列表可以用于進(jìn)行商品的篩選使用。其中,商品屬性包括了商品屬性項(xiàng)和商品的屬性值,第一列為商品的屬性項(xiàng),第二列為商品的屬性值。
實(shí)施例二
本實(shí)施例中具體針對電子商務(wù)應(yīng)用場景中,原平臺接入目標(biāo)平臺時(shí),對于如何獲取原平臺中的商品在目標(biāo)平臺中的屬性進(jìn)行了詳細(xì)說明,圖33為本發(fā)明實(shí)施例二提供的一種屬性獲取方法的流程示意圖,如圖3所示,包括:
步驟201、基于原平臺中用于描述目標(biāo)商品的非結(jié)構(gòu)化文本,對目標(biāo)商品在目標(biāo)平臺所屬的類目進(jìn)行預(yù)測。
具體來說,可以首先預(yù)先構(gòu)建一個(gè)分類模型,例如分類模型可以是簡單貝葉斯算法分類模型。通過收集用戶進(jìn)行搜索的關(guān)鍵字和搜索之后的點(diǎn)擊數(shù)據(jù),根據(jù)點(diǎn)擊數(shù)據(jù)中搜索之后被點(diǎn)擊商品的類目,確定各關(guān)鍵字對應(yīng)的類目,得到關(guān)鍵字和類目的對應(yīng)關(guān)系。進(jìn)而對關(guān)鍵字做分詞,獲得詞條,將詞條替代關(guān)鍵字和類目的對應(yīng)關(guān)系中的關(guān)鍵字,獲得詞條和類目的對應(yīng)關(guān)系。將詞條和類目的對應(yīng)關(guān)系作為訓(xùn)練集,對分類模型進(jìn)行訓(xùn)練,分類模型進(jìn)行訓(xùn)練,完成分類模型的構(gòu)建。
然后,基于所述目標(biāo)對象的非結(jié)構(gòu)化文本,采用經(jīng)過訓(xùn)練的分類模型進(jìn)行數(shù)據(jù)挖掘,獲得所述目標(biāo)對象在目標(biāo)平臺所屬類目。其中,非結(jié)構(gòu)化文本可以為標(biāo)題和/或詳情頁描述。
例如:當(dāng)銀泰等第三方平臺作為原平臺需要接入淘寶這一目標(biāo)平臺時(shí),可以對第三方平臺中目標(biāo)商品的標(biāo)題進(jìn)行分詞得到標(biāo)題的詞條,進(jìn)而對標(biāo)題的詞條進(jìn)行詞性標(biāo)注,獲得各詞條的詞性信息。利用丟詞算法,根據(jù)詞性信息對詞條進(jìn)行丟詞處理,從而將目標(biāo)商品標(biāo)題中的一些干擾詞進(jìn)行丟棄,只保留產(chǎn)品詞、修飾詞、品牌詞、時(shí)間季節(jié)詞、促銷詞等。將所保留的詞條輸入已經(jīng)訓(xùn)練好的分類模型,獲得目標(biāo)商品在淘寶平臺的類目。
由于在不同的平臺中,類目的劃分往往是不同的,因此,可以基于預(yù)測方式,獲得目標(biāo)商品在目標(biāo)平臺中所屬的準(zhǔn)確類目,從而便于基于該類目的預(yù)設(shè)屬性匹配獲得目標(biāo)詞,提高獲取到的目標(biāo)詞中存在目標(biāo)商品屬性的可能性。
步驟202、從非結(jié)構(gòu)化文本中抽取與所預(yù)測的類目下的預(yù)設(shè)屬性匹配的目標(biāo)詞。
具體的,對經(jīng)過預(yù)處理的非結(jié)構(gòu)化文本進(jìn)行相似度計(jì)算,獲得與預(yù)設(shè)屬性匹配的目標(biāo)詞,以及匹配度。為了便于描述將匹配度可以記為sim1。其中,匹配度用于描述目標(biāo)詞與預(yù)設(shè)屬性的相似程度。
在預(yù)設(shè)屬性中包括兩部分,分別為屬性項(xiàng)和屬性值,若目標(biāo)詞與預(yù)設(shè)屬性中的屬性值相似,則稱目標(biāo)詞與預(yù)設(shè)屬性匹配,可以將目標(biāo)詞與匹配的屬性中的屬性項(xiàng)組合形成屬性對記為pv。
步驟203、根據(jù)目標(biāo)詞的匹配度從目標(biāo)詞中確定所述目標(biāo)對象在目標(biāo)平臺中的屬性和候選屬性。
例如:將相似度sim5大于預(yù)設(shè)閾值a的目標(biāo)詞,作為目標(biāo)對象在目標(biāo)平臺中的屬性;將相似度小于預(yù)設(shè)閾值a,且大于預(yù)設(shè)閾值b的目標(biāo)詞,作為候選屬性。其中,0<b<a<1。
步驟204、針對確定為屬性的目標(biāo)詞,在數(shù)據(jù)庫中匹配所存儲的目標(biāo)平臺的商品,提取匹配中的候選商品的屬性。
具體的,數(shù)據(jù)庫包括產(chǎn)品庫和商品庫,產(chǎn)品庫與商品庫相比不包含商家這一字段,其余數(shù)據(jù)可以是完全相同的。也就是說產(chǎn)品庫中每一條記錄對應(yīng)一種產(chǎn)品,商品庫中每一條記錄對應(yīng)一個(gè)商家提供的一種產(chǎn)品。
首先,在產(chǎn)品庫中進(jìn)行查詢,經(jīng)過查詢獲得產(chǎn)品庫中與確定為屬性的全部目標(biāo)詞均匹配中的候選商品。
然后,在商品庫中進(jìn)行查詢,經(jīng)過查詢獲得商品庫中與確定為屬性的全部目標(biāo)詞均匹配中的候選商品。
將兩次查詢所獲得的全部候選商品的屬性作為目標(biāo)商品的屬性,進(jìn)而計(jì)算各屬性的置信度。
步驟205、計(jì)算候選商品的各屬性的置信度。
其中,置信度用來指示在目標(biāo)平臺中描述目標(biāo)商品的準(zhǔn)確程度。
若確定為屬性的目標(biāo)詞包含品牌和型號時(shí),且候選商品唯一時(shí),則可以直接設(shè)置候選商品的各屬性置信度為100%,也可以帶入下面提及的置信度計(jì)算公式進(jìn)行計(jì)算,結(jié)果是相同的。置信度計(jì)算公式如下:
置信度=(在候選商品的屬性中的出現(xiàn)次數(shù)/候選商品總數(shù))%
例如:
目標(biāo)詞構(gòu)成的屬性對為:p1v1和p2v2
在商品庫中若存在匹配的候選商品有3個(gè),候選商品的pv對分別為:
p1v1、p2v2、p3v3、p6v6
p1v1、p2v2、p7v7
p1v1、p2v2、p8v8
則輸出p1v1、p2v2、p3v3、p7v7、p8v8作為目標(biāo)商品的屬性。
進(jìn)而根據(jù)置信度公式,計(jì)算p1v1、p2v2、p3v3、p7v7、p8v8的置信度,分別為100%、100%、33.3%、33.3%、33.3%。
步驟206、針對確定為候選屬性的目標(biāo)詞,采用語義判別方式,確定候選屬性為目標(biāo)平臺中的屬性的置信度。
首先,基于字與字之間的關(guān)系,進(jìn)行語義判別。預(yù)先將目標(biāo)平臺中各預(yù)設(shè)屬性值按照字進(jìn)行分隔,作為訓(xùn)練文本,采用word2vec算法進(jìn)行模型訓(xùn)練,將確定為候選屬性的目標(biāo)詞輸入訓(xùn)練好的判別模型,獲得字向量,對字向量進(jìn)行累加,獲得詞向量,采用詞向量的余弦值作為候選屬性為目標(biāo)平臺中的屬性的置信度sim2。
其次,基于目標(biāo)詞在非結(jié)構(gòu)化文本中的上下文,進(jìn)行語義判別。預(yù)先將目標(biāo)平臺中各商品的標(biāo)題或者詳情頁作為語料,進(jìn)行分詞,將分詞結(jié)果其作為訓(xùn)練文本,采用word2vec算法進(jìn)行模型訓(xùn)練,將確定為候選屬性的目標(biāo)詞輸入訓(xùn)練好的判別模型,獲得詞向量,采用詞向量的余弦值作為候選屬性為目標(biāo)平臺中的屬性的置信度sim3。
最后,根據(jù)兩種語義判別方式所獲得的相似度sim2和sim3確定候選屬性為目標(biāo)平臺中的屬性的置信度s。例如:采用對sim2和sim3進(jìn)行加權(quán)求和或加權(quán)平均的方式計(jì)算置信度s。
作為一種可能的實(shí)現(xiàn)方式,可以針對計(jì)算出置信度s,參考上一步驟中候選商品,統(tǒng)計(jì)各個(gè)候選屬性在候選商品的屬性中出現(xiàn)的頻率對計(jì)算出的置信度進(jìn)行修正,獲得修正后的置信度s。
步驟207、匯總確定為屬性和候選屬性的目標(biāo)詞,以及候選商品的屬性,根據(jù)置信度從匯總結(jié)果中確定目標(biāo)商品的屬性。
可以根據(jù)屬性獲取所需的準(zhǔn)確度,確定置信度的閾值。所需的準(zhǔn)確度越高,則可以相應(yīng)調(diào)高置信度閾值,所需的準(zhǔn)確度若較低,可以設(shè)置較低的置信度閾值。從匯總結(jié)果中選取出置信度大于置信度閾值的目標(biāo)詞作為目標(biāo)商品的屬性。
實(shí)施例三
圖4為本發(fā)明實(shí)施例三提供的一種屬性獲取裝置的結(jié)構(gòu)示意圖,如圖4所示,包括:抽取模塊31和確定模塊32。
抽取模塊31,用于從用于描述目標(biāo)對象的非結(jié)構(gòu)化文本中,抽取出與預(yù)設(shè)屬性匹配的目標(biāo)詞;
具體的,抽取模塊31具體用于采用相似度算法,對所述非結(jié)構(gòu)化文本與所述預(yù)設(shè)屬性進(jìn)行字符串匹配,獲得匹配的目標(biāo)詞與對應(yīng)匹配度。
確定模塊32,用于根據(jù)所述目標(biāo)詞確定所述目標(biāo)對象的屬性預(yù)設(shè)屬性。
具體的,確定模塊32,具體用于根據(jù)所述目標(biāo)詞與所述預(yù)設(shè)屬性的匹配度,從所述目標(biāo)詞中確定所述目標(biāo)對象的屬性。
或者,具體的,確定模塊32,具體用于基于所述目標(biāo)詞的語義進(jìn)行分析,獲得所述目標(biāo)對象的屬性。
本實(shí)施例中,通過從原平臺用于描述目標(biāo)對象的非結(jié)構(gòu)化文本中,抽取出與目標(biāo)平臺的預(yù)設(shè)屬性匹配的目標(biāo)詞,進(jìn)而根據(jù)目標(biāo)詞確定出目標(biāo)對象在目標(biāo)平臺中的屬性的方案,可以實(shí)現(xiàn)從商品的標(biāo)題和詳情描述這種非結(jié)構(gòu)化文本中抽取出商品的屬性,因此解決了現(xiàn)有技術(shù)中無法針對非結(jié)構(gòu)化文本進(jìn)行處理,獲得原平臺的商品在目標(biāo)平臺上的屬性的技術(shù)問題。
實(shí)施例四
圖5為本發(fā)明實(shí)施例四提供的一種屬性獲取裝置的結(jié)構(gòu)示意圖,在圖4所提供的屬性獲取裝置的基礎(chǔ)上,確定模塊32進(jìn)一步包括:第一確定單元321和第二確定單元322。
第一確定單元321,用于對于匹配度高于第一閾值的目標(biāo)詞,確定為所述目標(biāo)對象在目標(biāo)平臺中的屬性。
第二確定單元322,用于對于匹配度高于第二閾值但小于所述第一閾值的目標(biāo)詞作為候選屬性,采用語義判別方式確定所述候選屬性是否為所述目標(biāo)平臺中的屬性,根據(jù)判別結(jié)果從所述候選屬性中確定所述目標(biāo)對象在目標(biāo)平臺中的屬性。
進(jìn)一步,第二確定單元322,可以包括:第一判別子單元3221和第二判別子單元3222中的至少一個(gè)。作為一種可能的實(shí)現(xiàn)方式的示意,圖4中第二確定單元322包括了第一判別子單元3221和第二判別子單元3222。
其中,第一判別子單元3221,用于基于所述候選屬性中字與字之間的關(guān)系,進(jìn)行語義判別,獲得所述候選屬性為所述目標(biāo)平臺中的屬性的置信度。
具體的,第一判別子單元3221具體用于將所述候選屬性中的各字符輸入預(yù)先訓(xùn)練的字間語義判別模型,獲得字向量;所述字間語義判別模型,是將所述目標(biāo)平臺的屬性中各字符作為訓(xùn)練文本進(jìn)行訓(xùn)練獲得的;對所述字向量進(jìn)行累加,獲得第一詞向量;將所述第一詞向量的余弦值作為所述候選屬性為所述目標(biāo)平臺中的屬性的置信度。
第二判別子單元3222,用于基于所述候選屬性在所述非結(jié)構(gòu)化文本中的上下文關(guān)系,進(jìn)行語義判別,獲得所述候選屬性為所述目標(biāo)平臺中的屬性的置信度。
具體的,第二判別子單元3222,具體用于將所述非結(jié)構(gòu)化文本中的各單詞輸入預(yù)先訓(xùn)練的詞間語義判別模型,獲得第二詞向量;所述詞間語義判別模型,是將所述目標(biāo)平臺中非結(jié)構(gòu)化文本中的各單詞作為訓(xùn)練文本進(jìn)行訓(xùn)練獲得的;將所述第二詞向量的余弦值作為所述候選屬性為所述目標(biāo)平臺中的屬性的置信度。
進(jìn)一步,第二確定單元322還可以包括:屬性確定子單元3223。
屬性確定子單元3223,用于根據(jù)所述置信度,從所述候選屬性中確定所述目標(biāo)對象在目標(biāo)平臺中的屬性。
進(jìn)一步,確定模塊32,還包括:匹配單元323。
匹配單元323,用于將所述匹配度高于第一閾值的目標(biāo)詞與數(shù)據(jù)庫中存儲的所述目標(biāo)平臺中各對象的屬性進(jìn)行匹配,獲得匹配中的候選對象;根據(jù)各候選對象的屬性在全部候選對象的屬性中出現(xiàn)的頻率,計(jì)算候選對象的屬性為所述目標(biāo)對象在目標(biāo)平臺中的屬性的概率;根據(jù)所計(jì)算出的概率,從所述候選對象的屬性中確定所述目標(biāo)對象在目標(biāo)平臺中的屬性。
進(jìn)一步,本實(shí)施例所提供的屬性獲取裝置,還包括:類目預(yù)測模塊33和預(yù)設(shè)屬性確定模塊34。
類目預(yù)測模塊33,用于根據(jù)所述非結(jié)構(gòu)化文本預(yù)測所述目標(biāo)對象在目標(biāo)平臺所屬類目。
預(yù)設(shè)屬性確定模塊34,用于將所述目標(biāo)平臺中所述類目下的屬性作為所述預(yù)設(shè)屬性。
其中,類目預(yù)測模塊33,包括:挖掘單元331和建模單元332。
挖掘單元331,用于基于所述目標(biāo)對象的非結(jié)構(gòu)化文本,采用經(jīng)過訓(xùn)練的分類模型進(jìn)行數(shù)據(jù)挖掘,獲得所述目標(biāo)對象在目標(biāo)平臺所屬類目。
建模單元332,用于獲取用戶搜索關(guān)鍵字以及從搜索結(jié)果中所選定的對象所屬類目;對所述關(guān)鍵字進(jìn)行分詞處理,獲得搜索詞條;根據(jù)所述搜索詞條和所選定的對象所屬類目生成訓(xùn)練集;利用所述訓(xùn)練集對所述分類模型進(jìn)行訓(xùn)練。
本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述各方法實(shí)施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成。前述的程序可以存儲于一計(jì)算機(jī)可讀取存儲介質(zhì)中。該程序在執(zhí)行時(shí),執(zhí)行包括上述各方法實(shí)施例的步驟;而前述的存儲介質(zhì)包括:rom、ram、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
最后應(yīng)說明的是:以上各實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分或者全部技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的范圍。