基于本體詞庫的商品評論屬性詞抽取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)電子商務(wù)的商品評論,尤其是一種商品評論屬性詞抽取方法。
【背景技術(shù)】
[0002] 2011年的全球互聯(lián)網(wǎng)數(shù)據(jù)顯示,截止到2011年12月,全球網(wǎng)站數(shù)量總數(shù)已達到 5. 55億,全球網(wǎng)民的人數(shù)超過了 20億?;ヂ?lián)網(wǎng)普及程度的提高帶動了電子商務(wù)這一網(wǎng)絡(luò)活 動的發(fā)展,越來越多的網(wǎng)絡(luò)留言遍布著我們的網(wǎng)絡(luò)平臺,而購物網(wǎng)站上的商品評論尤為明 顯〇
[0003] 2012年,"雙^^一"當(dāng)日支付寶交易額實現(xiàn)飛速增長,達到191億元,其中包括天貓 商城132億元,淘寶59億元,訂單數(shù)達到1.058億筆;2013年,11月11日阿里巴巴平臺總 交易額350. 19億;2014年,11月11日阿里巴巴總成交額571. 1億,訂單總量2. 79億。(以 上數(shù)據(jù)來自阿里巴巴官方微博)京東官方微博宣布,2014年"雙^^一"期間三天(11月10 日至12日)銷售額25億元,三天訂單總量超過680萬單,是2012年11月11日當(dāng)天訂單 量的3倍多。
[0004] 除此兩家電商之外,國內(nèi)還有很多大型的電商如當(dāng)當(dāng)網(wǎng)等。加上雙^^一之外的網(wǎng) 上購物其他三百多天的電商運營數(shù)據(jù),事實說明電子商務(wù)活動越來越頻繁,而且由此產(chǎn)生 海量的商品評論。
[0005] 消費者的消費選擇會受到消費者之間交換的信息的影響,在過去,人們常認為從 親戚或朋友那里聽到的意見是最重要的消費前信息,現(xiàn)在,互聯(lián)網(wǎng)的技術(shù)應(yīng)用在過去十幾 年中的發(fā)展使得人們獲取網(wǎng)絡(luò)消費前信息的來源不再局限于自己的親朋好友,而是擴大到 了購物網(wǎng)站上的商品評論。實際上,這些評論成為了用戶獲取商品信息的重要來源。在傳統(tǒng) 的實體店鋪中,顧客可以仔細檢查商品的質(zhì)量和品質(zhì),而網(wǎng)店中的商品,顧客看不到實物, 必然會擔(dān)心圖片和實物的差距。因此對于網(wǎng)絡(luò)購物而言,商品的相關(guān)評論就非常重要了,這 些評論能夠幫助顧客了解商品的服務(wù)和口碑,幫助他們作出正確的決策,選到自己滿意的 商品。
[0006] 另外這些商品的生產(chǎn)者和銷售者也能夠從反饋的信息中有所收益,改進生產(chǎn)和服 務(wù),提高商品的質(zhì)量和品牌的知名度,還能挖掘出潛在的消費者。
[0007] 通過大量觀察現(xiàn)行主流的電子商務(wù)網(wǎng)站,其中商品評論具有如下特點:
[0008] 1.在商品評論中,大部分的子句都是針對一項屬性進行評論的。例如有評論"手機 到手用了一天,做工不錯,軟件和游戲運行都不錯,手機是正品,贈送的小東西也都不錯", 這句話中,由逗號分割的不同子句評論的對象各不相同。少數(shù)地,對一項屬性的評論分布在 不同的子句中,但是這些子句是相鄰的。
[0009] 2.商品評論文本中,對同一項屬性的評論和對其他屬性的評論是有明顯界限的。 我們將一條評論文本中,每個由標(biāo)點或者空白字符分割的部分稱作子句。多數(shù)子句包含的 內(nèi)容是一個評價對象(商品屬性)加上一個評價詞。如"做工不錯"。也有部分子句沒有評 價對象,只有評價詞,此種情況可以使用默認的評價對象,如評論子句"用了之后才發(fā)現(xiàn)真 得很好",可以理解為"質(zhì)量很好"。
[0010] 3.有些子句中包含多個評價屬性,如"手機屏幕色彩飽滿"。
[0011] 4.有些子句不是針對商品本身的評論,如"真心建議你們公司不要跟圓通合作了, 對這快遞公司無語了"是對賣家和物流服務(wù)質(zhì)量的評論。
[0012] 5.對同一件商品,買家們評論的對象之間存在包含關(guān)系。例如對一款具體的手機, 有些評論中屬性詞是"屏幕",有些評論中屬性詞是"分辨率"。
[0013] 逐日激增的商品評論這讓人很難逐條閱讀。情感標(biāo)簽由評價對象和評價詞組成, 包含了用戶評論的詳細信息,能夠有效地體現(xiàn)出用戶評論的核心內(nèi)容,實現(xiàn)互聯(lián)網(wǎng)電子商 務(wù)網(wǎng)站的商品評價信息的歸納,盡可能地保留原先針對此商品的海量評論的有效內(nèi)容,又 方便了評論閱讀者的快速掌握。
[0014] 情感標(biāo)簽的抽取是近年來文本挖掘的熱點問題,先前已經(jīng)有過大量研宄,但是鮮 有針對現(xiàn)行電商商品評論的研宄,使用先前的方法來對這些評論做處理,其效率不高,主要 有兩個原因:一是使用的詞典內(nèi)容過于寬泛,而且對目前商品評論的詞匯包含完全度低,這 就造成查詢時效率和命中率低;二是在文本表示的時候,之前的研宄大多考慮的是對大型 文檔進行處理,而目前中文商品評論文本都比較短,表達為向量空間模型時維度很大,很多 元素是無效填充值,數(shù)據(jù)密度低,無論是存儲還是查詢效率低下。
[0015] 情感標(biāo)簽由評價對象(屬性詞)和評價詞組成,包含了用戶評論的詳細信息,能夠 有效地體現(xiàn)出用戶評論的核心內(nèi)容。如"質(zhì)量很好","質(zhì)量"是評價對象(屬性詞),"好" 是評價詞。屬性詞的提取是情感標(biāo)簽提取的重要步驟。
【發(fā)明內(nèi)容】
[0016] 本發(fā)明的目的在于針對目前主流電子商務(wù)網(wǎng)站商品評論的特點,提供一種基于本 體詞庫的商品評論屬性詞抽取方法,相比于傳統(tǒng)的文本處理提取屬性詞的方法效率更高。 本發(fā)明采用的技術(shù)方案是:
[0017] -種基于本體詞庫的商品評論屬性詞抽取方法,包括下述步驟:
[0018] 步驟1,對評論文本預(yù)處理:首先將每條評論文本分割為不同的子句;其次,對每 條評論的各個子句,結(jié)合屬性詞本體詞庫,進行分詞,然后進行詞性標(biāo)注,去停用詞,接著在 子句中搜索名詞作為該條評論的屬性詞候選集;
[0019] 步驟2,對屬性詞候選集中的屬性詞進行歸類:對具體一種商品,遍歷與這種商品 相關(guān)的所有商品評論的屬性詞候選集,各自對每個屬性詞候選集中的屬性詞進行歸類操 作;歸類后,對每個屬性詞候選集,會生成若干同義詞類,每個同義詞類是屬性詞本體詞庫 中某個對應(yīng)的同義詞類的子集;
[0020] 步驟3,在各個屬性詞候選集中,合并屬性詞的同義詞類:
[0021] 步驟4,經(jīng)過對屬性詞候選集中的合并操作之后,將每個同義詞類的中心詞認定為 屬性詞候選集對應(yīng)的子句的屬性詞。
[0022] 進一步地,步驟1中,具體采用正向最大匹配方法進行分詞。
[0023] 進一步地,步驟2中,對屬性詞候選集中的屬性詞進行歸類操作的方法為:查找屬 性詞本體詞庫,獲取并返回詞語w所在同義詞類的中心詞W;將中心詞W代表的同義詞類確 定為詞語w的同義詞類。
[0024] 進一步地,步驟3中,合并的方法為:屬性詞候選集中,
[0025] 如果兩個同義詞類A和B的中心詞是屬性詞本體詞庫中處于同一層次的詞,且具 有相同的上一層詞語,且同義詞類A和B內(nèi)的詞語數(shù)量都小于設(shè)定閾值,則將同義詞類A和 B合并,合并后新的同義詞類的中心詞是同義詞類A和B的中心詞在屬性詞本體詞庫中上一 層的詞語;
[0026] 如果兩個同義詞類A和B的中心詞在屬性詞本體詞庫的層次關(guān)系上是從屬關(guān)系, 且同義詞類A和B內(nèi)的詞語數(shù)量都小于設(shè)定閾值,則將同