一種用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分 析方法。有利于消費(fèi)者查看更有參考價(jià)值的評(píng)價(jià)信息。
【背景技術(shù)】
[0002] 近年來,電子商務(wù)行業(yè)發(fā)展迅猛,越來越多的人傾向于網(wǎng)上購物,為了保障產(chǎn)品的 信息的真實(shí)性,監(jiān)督商家的服務(wù),買家可以對(duì)所購買的產(chǎn)品進(jìn)行評(píng)價(jià),這些評(píng)價(jià)數(shù)據(jù)包含了 簡(jiǎn)單的打分和文本描述數(shù)據(jù)。這些評(píng)價(jià)數(shù)據(jù),尤其是文本評(píng)價(jià)數(shù)據(jù)是其他消費(fèi)者進(jìn)行交易 的重要參考。因此這些評(píng)價(jià)數(shù)據(jù)對(duì)于消費(fèi)者、營(yíng)銷方、生產(chǎn)廠家以及電子商務(wù)平臺(tái)運(yùn)營(yíng)商具 有重要價(jià)值。由于不同消費(fèi)者的消費(fèi)經(jīng)驗(yàn)、評(píng)價(jià)態(tài)度等存在著巨大差異,導(dǎo)致評(píng)價(jià)數(shù)據(jù)中包 含的信息和價(jià)值也存在較大差異。通常一條評(píng)價(jià)數(shù)據(jù)越專業(yè),那么其中包含的有用信息就 越多,對(duì)于消費(fèi)者的參考價(jià)值就越大。
[0003] 如果我們能夠?qū)δ硞€(gè)賣家或者商品的評(píng)價(jià)的文本數(shù)據(jù)的專業(yè)程度進(jìn)行定理分析, 那么消費(fèi)者、營(yíng)銷方、生產(chǎn)廠家以及電子商務(wù)平臺(tái)運(yùn)營(yíng)商就能夠更為有效地利用交易過程 中生產(chǎn)的海量文本評(píng)價(jià)數(shù)據(jù)。例如,可以按照評(píng)價(jià)的專業(yè)程度來向消費(fèi)者展示最有價(jià)值的 文本評(píng)價(jià)數(shù)據(jù),有利于消費(fèi)者快速篩選合適的商品和賣家。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題,特別創(chuàng)新地提出了一種用于電 子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法。
[0005] 為了實(shí)現(xiàn)本發(fā)明的上述目的,本發(fā)明提供了一種用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專 業(yè)程度分析方法,其關(guān)鍵在于,包括如下步驟:
[0006]S1,獲取全部商品評(píng)價(jià)文本數(shù)據(jù)相關(guān)的概念層次樹;
[0007] S2,計(jì)算每個(gè)概念層次樹上該評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度值;
[0008] S3,綜合全部概念層次樹上取值,計(jì)算評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度;
[0009] S4,將評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度劃分為若干個(gè)等級(jí),得到全部商品評(píng)價(jià)文本數(shù)據(jù) 的專業(yè)程度等級(jí),將專業(yè)程度高的商品評(píng)價(jià)文本數(shù)據(jù)推薦給用戶。
[0010] 所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,優(yōu)選的,所述S1包括:
[0011] si-i,為一類商品評(píng)價(jià)文本數(shù)據(jù),建立其概念層次樹,每個(gè)概念層次樹至少需要關(guān) 聯(lián)該商品的類別或者具體的商品代碼,并且該商品的類別或者具體的商品代碼沒有數(shù)據(jù)噪 聲,將該概念層次樹存儲(chǔ)到用來存放概念層次樹的庫中;
[0012] S1-2,概念層次樹是一種以樹形結(jié)構(gòu)來表示某個(gè)特定領(lǐng)域中各個(gè)概念之間的從屬 關(guān)系。每個(gè)概念層次樹中的每個(gè)節(jié)點(diǎn)代表某個(gè)用來描述商品評(píng)價(jià)文本數(shù)據(jù)的外觀、構(gòu)成和 功能特性的概念,節(jié)點(diǎn)之間的連線表示這些概念之間的從屬關(guān)系,父節(jié)點(diǎn)表示比較一般的 概念,其子節(jié)點(diǎn)表示比較具體的概念;值得注意的是某個(gè)概念有可能對(duì)應(yīng)多個(gè)詞語來描述。 例如"顏色"這個(gè)概念可能對(duì)應(yīng){色彩、顏色、配色}等多個(gè)詞語,因此概念層次樹維護(hù)工具 可以為每個(gè)概念關(guān)聯(lián)多個(gè)詞語。
[0013] S1-3,概念層次樹中每個(gè)商品評(píng)價(jià)文本數(shù)據(jù)概念對(duì)應(yīng)節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑長(zhǎng)度稱 為概念的深度,其中根節(jié)點(diǎn)的深度定義為零。
[0014] 所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,優(yōu)選的,所述S2包括:
[0015]S2-1,通過基于字典的中文分詞方法提取涉及概念的詞語集合,將商品文本評(píng)價(jià) 數(shù)據(jù)進(jìn)行分詞處理,并將得到所有涉及概念的詞語提取出來;
[0016] S2-2,對(duì)概念匹配處理,將分詞得到的每一個(gè)詞語與概念層次樹中的概念進(jìn)行匹 配,若詞語包含在概念層次樹某個(gè)概念的詞語集合中,則認(rèn)為該詞語和該概念匹配,并記錄 該詞語在概念層次樹中的深度,若詞語不能與概念層次樹中概念匹配,則丟棄;
[0017] S2-3,定量計(jì)算商品評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度值,根據(jù)每個(gè)詞語對(duì)應(yīng)的概念深度 和出現(xiàn)的次數(shù)計(jì)算該文本評(píng)價(jià)數(shù)據(jù)的專業(yè)程度的取值,即為專業(yè)程度值。
[0018] 所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,優(yōu)選的,所述S3包括:
[0019]S3-1,采用加權(quán)平均的方式將每個(gè)概念層次樹上的取值匯總為一個(gè)最終的專業(yè)程 度值;
[0020] S3-2,具體權(quán)重的選擇根據(jù)領(lǐng)域?qū)<抑付?,或根?jù)概念層次樹對(duì)應(yīng)的商品分類的 層次自動(dòng)計(jì)算。
[0021] 所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,優(yōu)選的,所述S4包括:
[0022] S4-1,采用數(shù)據(jù)離散化方法,將商品評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度根據(jù)計(jì)算的程度值 高低劃分為若干個(gè)等級(jí),將專業(yè)程度高的商品評(píng)價(jià)文本數(shù)據(jù)推薦給用戶。
[0023] 所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,優(yōu)選的,所述S2-2包 括:
[0024] 記為集合S= {Xl,x2?Xn},S表示從一條文本評(píng)價(jià)數(shù)據(jù)中提取出的詞語的集合,Xi 表示具體的詞語,下標(biāo)n表示詞語的個(gè)數(shù),集合D= {^(^…(^,口表示詞語對(duì)應(yīng)的概念的深 度的集合,屯表示詞語對(duì)應(yīng)的概念的深度,下標(biāo)n表示詞語的個(gè)數(shù),i為正整數(shù),1 <i<n。
[0025] 所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,優(yōu)選的,所述S2-3包 括:
[0026] 專業(yè)程度值計(jì)算如下:
【主權(quán)項(xiàng)】
1. 一種用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,其特征在于,包括如下步 驟: S1,獲取全部商品評(píng)價(jià)文本數(shù)據(jù)相關(guān)的概念層次樹; 52, 計(jì)算每個(gè)概念層次樹上該評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度值; 53, 綜合全部概念層次樹上取值,計(jì)算評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度; 54, 將評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度劃分為若干個(gè)等級(jí),得到全部商品評(píng)價(jià)文本數(shù)據(jù)的專 業(yè)程度等級(jí),將專業(yè)程度高的商品評(píng)價(jià)文本數(shù)據(jù)推薦給用戶。
2. 根據(jù)權(quán)利要求1所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,其特征在 于,所述S1包括: S1-1,為一類商品評(píng)價(jià)文本數(shù)據(jù),建立其概念層次樹,每個(gè)概念層次樹至少需要關(guān)聯(lián)該 商品的類別或者具體的商品代碼,并且該商品的類別或者具體的商品代碼沒有數(shù)據(jù)噪聲, 將該概念層次樹存儲(chǔ)到用來存放概念層次樹的庫中; S1-2,概念層次樹是一種以樹形結(jié)構(gòu)來表示某個(gè)特定領(lǐng)域中各個(gè)概念之間的從屬關(guān) 系。每個(gè)概念層次樹中的每個(gè)節(jié)點(diǎn)代表某個(gè)用來描述商品評(píng)價(jià)文本數(shù)據(jù)的外觀、構(gòu)成和功 能特性的概念,節(jié)點(diǎn)之間的連線表示這些概念之間的從屬關(guān)系,父節(jié)點(diǎn)表示比較一般的概 念,其子節(jié)點(diǎn)表示比較具體的概念;值得注意的是某個(gè)概念有可能對(duì)應(yīng)多個(gè)詞語來描述。例 如"顏色"這個(gè)概念可能對(duì)應(yīng){色彩、顏色、配色}等多個(gè)詞語,因此概念層次樹維護(hù)工具可 以為每個(gè)概念關(guān)聯(lián)多個(gè)詞語。 51- 3,概念層次樹中每個(gè)商品評(píng)價(jià)文本數(shù)據(jù)概念對(duì)應(yīng)節(jié)點(diǎn)到根節(jié)點(diǎn)的路徑長(zhǎng)度稱為概 念的深度,其中根節(jié)點(diǎn)的深度定義為零。
3. 根據(jù)權(quán)利要求1所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,其特征在 于,所述S2包括: 52- 1,通過基于字典的中文分詞方法提取涉及概念的詞語集合,將商品文本評(píng)價(jià)數(shù)據(jù) 進(jìn)行分詞處理,并將得到所有涉及概念的詞語提取出來; S2-2,對(duì)概念匹配處理,將分詞得到的每一個(gè)詞語與概念層次樹中的概念進(jìn)行匹配,若 詞語包含在概念層次樹某個(gè)概念的詞語集合中,則認(rèn)為該詞語和該概念匹配,并記錄該詞 語在概念層次樹中的深度,若詞語不能與概念層次樹中概念匹配,則丟棄; 52- 3,定量計(jì)算商品評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度值,根據(jù)每個(gè)詞語對(duì)應(yīng)的概念深度和出 現(xiàn)的次數(shù)計(jì)算該文本評(píng)價(jià)數(shù)據(jù)的專業(yè)程度的取值,即為專業(yè)程度值。
4. 根據(jù)權(quán)利要求1所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,其特征在 于,所述S3包括: 53- 1,采用加權(quán)平均的方式將每個(gè)概念層次樹上的取值匯總為一個(gè)最終的專業(yè)程度 值; 53- 2,具體權(quán)重的選擇根據(jù)領(lǐng)域?qū)<抑付?,或根?jù)概念層次樹對(duì)應(yīng)的商品分類的層次 自動(dòng)計(jì)算。
5. 根據(jù)權(quán)利要求1所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,其特征在 于,所述S4包括: 54- 1,采用數(shù)據(jù)離散化方法,將商品評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度根據(jù)計(jì)算的程度值高低 劃分為若干個(gè)等級(jí),將專業(yè)程度高的商品評(píng)價(jià)文本數(shù)據(jù)推薦給用戶。
6. 根據(jù)權(quán)利要求3所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,其特征在 于,所述S2-2包括: 記為集合S = {xp x2?xn},S表示從一條文本評(píng)價(jià)數(shù)據(jù)中提取出的詞語的集合,Xi表示 具體的詞語,下標(biāo)n表示詞語的個(gè)數(shù),集合D = {屯,d2?dn},D表示詞語對(duì)應(yīng)的概念的深度 的集合,屯表示詞語對(duì)應(yīng)的概念的深度,下標(biāo)n表示詞語的個(gè)數(shù),i為正整數(shù),1 < i < n。
7. 根據(jù)權(quán)利要求3所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,其特征在 于,所述S2-3包括: 專業(yè)程度值計(jì)算如下:
其中,sck表示某條商品評(píng)價(jià)文本數(shù)據(jù)根據(jù)選定的概念層次樹t k計(jì)算出的得分,是對(duì)商 品評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度的度量;n表示從一條商品評(píng)價(jià)中提取出的詞語的個(gè)數(shù);屯表 示商品評(píng)價(jià)的詞語Xi對(duì)應(yīng)的概念的深度;w i表示詞語x i在一條評(píng)價(jià)中的權(quán)重,若一個(gè)詞語 在一條評(píng)價(jià)中出現(xiàn)的次數(shù)越多,在其他評(píng)價(jià)中出現(xiàn)的次數(shù)越少,則該詞語在該條評(píng)價(jià)中的 權(quán)重越大; 七&表示詞語x 1在一條商品評(píng)價(jià)中出現(xiàn)的頻率,通過詞語x i在一條商品評(píng)價(jià)中出現(xiàn)的 次數(shù)m與該條評(píng)價(jià)中詞語的個(gè)數(shù)n的比值計(jì)算得tj
丨(1;^表示詞語x i在整個(gè) 商品評(píng)價(jià)集合中的評(píng)價(jià)頻率,是對(duì)一個(gè)詞語普遍重要性的度量,通過商品評(píng)價(jià)的總數(shù)|E 與包含詞語Xi的評(píng)價(jià)總數(shù)比值的對(duì)數(shù)得到
_%為 商品評(píng)價(jià)中具體的某一條評(píng)價(jià);某一特定評(píng)價(jià)內(nèi)的高詞語頻率,以及該詞語在整個(gè)評(píng)價(jià)集 合中的低評(píng)價(jià)頻率,產(chǎn)生出高權(quán)重的K。
8. 根據(jù)權(quán)利要求4所述的用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,其特征在 于,所述S3-2包括: 專業(yè)程度綜合分?jǐn)?shù)計(jì)算過程如下:
其中a k為每個(gè)概念層次樹對(duì)應(yīng)的權(quán)重,sc k為商品評(píng)價(jià)文本數(shù)據(jù)基于每個(gè)概念層次樹 計(jì)算得到的分?jǐn)?shù),1為所選擇的概念層次樹的個(gè)數(shù),score為綜合所有概念層次樹的分?jǐn)?shù)得 到的文本評(píng)價(jià)數(shù)據(jù)的最終分?jǐn)?shù),下標(biāo)k為正整數(shù),1 1。
【專利摘要】本發(fā)明公開了一種用于電子商務(wù)的文本評(píng)價(jià)數(shù)據(jù)專業(yè)程度分析方法,包括如下步驟:S1,獲取全部商品評(píng)價(jià)文本數(shù)據(jù)相關(guān)的概念層次樹;S2,計(jì)算每個(gè)概念層次樹上該評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度值;S3,綜合全部概念層次樹上取值,計(jì)算評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度;S4,將評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度劃分為若干個(gè)等級(jí),得到全部商品評(píng)價(jià)文本數(shù)據(jù)的專業(yè)程度等級(jí),將專業(yè)程度高的商品評(píng)價(jià)文本數(shù)據(jù)推薦給用戶。通過本發(fā)明技術(shù)方案使用戶能夠直接、客觀的獲取評(píng)價(jià)數(shù)據(jù),并且將評(píng)價(jià)數(shù)據(jù)的內(nèi)容進(jìn)行量化處理,根據(jù)等級(jí)高低客觀排序。
【IPC分類】G06F17-30, G06Q30-00
【公開號(hào)】CN104615772
【申請(qǐng)?zhí)枴緾N201510083391
【發(fā)明人】鐘將, 郭衛(wèi)麗, 謝靜怡
【申請(qǐng)人】重慶大學(xué)
【公開日】2015年5月13日
【申請(qǐng)日】2015年2月16日