一種基于領(lǐng)域詞典和語義角色的評(píng)價(jià)對(duì)象抽取方法
【專利摘要】本發(fā)明涉及一種基于領(lǐng)域詞典和語義角色的評(píng)價(jià)對(duì)象抽取方法,屬于自然語言處理應(yīng)用【技術(shù)領(lǐng)域】,包括以下步驟:首先根據(jù)詞性、依存和語義角色信息,構(gòu)建評(píng)價(jià)對(duì)象的領(lǐng)域詞典DL,然后充分挖掘詞匯、依存、相對(duì)位置和語義角色四方面的特征,與DL一起利用條件隨機(jī)場(chǎng)(CRFs)進(jìn)行模型訓(xùn)練和預(yù)測(cè),從而完成評(píng)價(jià)對(duì)象的抽取工作。對(duì)比現(xiàn)有技術(shù),根據(jù)中文句子特別是微博、論壇評(píng)論信息結(jié)構(gòu)靈活多樣、構(gòu)成方法變化多、句子特征較少的特點(diǎn),充分利用不同層級(jí)句法和語義信息,結(jié)合基于規(guī)則和機(jī)器學(xué)習(xí)的評(píng)價(jià)對(duì)象抽取方法的優(yōu)點(diǎn),自動(dòng)快速而且準(zhǔn)確地找到語料中置信度較高的評(píng)價(jià)對(duì)象,提高了中文句子評(píng)價(jià)對(duì)象抽取的準(zhǔn)確率。
【專利說明】一種基于領(lǐng)域詞典和語義角色的評(píng)價(jià)對(duì)象抽取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種中文句子評(píng)價(jià)對(duì)象抽取方法,特別涉及一種基于領(lǐng)域詞典和語 義角色的評(píng)價(jià)對(duì)象抽取方法,屬于自然語言處理應(yīng)用【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)特別是web2. 0的發(fā)展,越來越多的人不僅僅通過網(wǎng)絡(luò)獲取信息,而且 還更多的參與到網(wǎng)絡(luò)的交流。博客、微博、論壇的形成發(fā)展極大地改變了人們的使用互聯(lián)網(wǎng) 的方式。伴隨著互聯(lián)網(wǎng)的發(fā)展,通過人工的方式了解網(wǎng)絡(luò)的海量信息,對(duì)網(wǎng)絡(luò)上的信息進(jìn)行 整合分析變得越來越困難。對(duì)網(wǎng)絡(luò)文本的抓取和分析技術(shù)就是這樣的應(yīng)用背景下應(yīng)運(yùn)而 生。由于越來越多的網(wǎng)絡(luò)文本信息,如何使用自然語言處理技術(shù)來分析網(wǎng)絡(luò)的文本是當(dāng)前 研究的一個(gè)主題。情感要素抽取是對(duì)文本中重要的情感要素比如評(píng)價(jià)詞,評(píng)價(jià)對(duì)象,評(píng)價(jià)者 等進(jìn)行提取,是細(xì)粒度的情感挖掘,也變得越來越重要。
[0003] 大數(shù)據(jù)時(shí)代的到來,對(duì)網(wǎng)絡(luò)上的信息進(jìn)行有效的整合分析已經(jīng)是研究者一個(gè)十分 重要的研究課題。情感信息抽取,特別是細(xì)粒度的情感要素抽取,在近幾年得到了越來越多 的重視。情感要素抽取對(duì)情感信息抽取技術(shù)的研究有著十分重要的研究意義,在網(wǎng)絡(luò)評(píng)論 信息分析處理、輿情監(jiān)控、信息預(yù)測(cè)等領(lǐng)域發(fā)揮了越來越重要的影響。
[0004] 評(píng)價(jià)對(duì)象抽取技術(shù)的研究,對(duì)上層情感信息檢索、分類以及專家系統(tǒng)等進(jìn)一 步的研究,有著十分重要的學(xué)術(shù)價(jià)值。評(píng)價(jià)對(duì)象抽?。∣pinion Targets Extraction/ I dent ificat i on)是對(duì)句子中觀點(diǎn)的指向詞進(jìn)行識(shí)別。評(píng)價(jià)對(duì)象指的是句子中表述觀點(diǎn)和發(fā) 表評(píng)論所針對(duì)的對(duì)象;評(píng)價(jià)詞是句子中發(fā)表觀點(diǎn)所用的詞匯,也稱為情感詞。隨著評(píng)價(jià)對(duì)象 抽取任務(wù)的提出,相繼出現(xiàn)了不同的抽取算法,主要分為基于規(guī)則的方法和基于機(jī)器學(xué)習(xí) 的方法。通常基于規(guī)則的方法主要是采用句子中詞、詞性等模板特征,例如基于關(guān)聯(lián)規(guī)則的 方法?;谝?guī)則的方法對(duì)特定領(lǐng)域的效果較好,但是領(lǐng)域適應(yīng)性較差?;跈C(jī)器學(xué)習(xí)的方 法在近年來才得以在評(píng)價(jià)對(duì)象抽取任務(wù)上進(jìn)行研究。當(dāng)前主要有CRFs、HMM、LDA等機(jī)器學(xué) 習(xí)模型?;跈C(jī)器學(xué)習(xí)的方法,受到目前句子短、特征少、語料庫不足等影響,不能滿足當(dāng)前 實(shí)際使用的需要。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的目的是為了解決現(xiàn)有基于規(guī)則的評(píng)價(jià)對(duì)象抽取方法領(lǐng)域適應(yīng)性差、基于 機(jī)器學(xué)習(xí)的方法對(duì)有限的中文標(biāo)注語料庫不能充分挖掘出特征的問題,提出一種基于領(lǐng)域 詞典和語義角色的中文句子評(píng)價(jià)對(duì)象抽取方法。
[0006] 為實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0007] 本發(fā)明技術(shù)方案的思想是首先根據(jù)詞性、依存和語義角色信息,構(gòu)建評(píng)價(jià)對(duì)象的 領(lǐng)域詞典DL,然后充分挖掘詞匯、依存、相對(duì)位置和語義角色四方面的特征,與DL -起利用 條件隨機(jī)場(chǎng)(CRFs)進(jìn)行模型訓(xùn)練和預(yù)測(cè),從而完成評(píng)價(jià)對(duì)象的抽取工作。
[0008] -種基于領(lǐng)域詞典和語義角色的評(píng)價(jià)對(duì)象抽取方法,該方法包括以下步驟:
[0009] 步驟一、語料預(yù)處理:對(duì)語料集S的每一個(gè)句子按照規(guī)則(Rules)進(jìn)行過濾,然后 對(duì)過濾后的句子集合進(jìn)行分詞、詞性標(biāo)注得到語料集T ;
[0010] 步驟二、領(lǐng)域詞典(DL)構(gòu)建:首先通過對(duì)語料集T進(jìn)行分析,總結(jié)出詞性序列模板 集合(posT),并將posT中的每一個(gè)模板分別與T中每一個(gè)已分詞的句子的詞性序列進(jìn)行匹 配,得到評(píng)價(jià)對(duì)象集合A ;然后對(duì)T中的每一個(gè)句子進(jìn)行依存結(jié)果類型分析,通過分析評(píng)價(jià) 對(duì)象與評(píng)價(jià)詞之間的依存關(guān)系類型,得到評(píng)價(jià)對(duì)象集合B ;接下來通過一個(gè)基于語義角色 的評(píng)價(jià)對(duì)象提取算法,得到評(píng)價(jià)對(duì)象集合C ;最后,對(duì)集合A、B、C取并集,得到集合D,作為 最終的DL ;
[0011] 步驟三、CRFs特征選擇:使用詞匯特征、依存特征、相對(duì)位置特征和語義角色特征 作為CRFs的特征;所述詞匯特征部分,選擇當(dāng)前詞及其詞性作為此部分特征;所述依存特 征部分,選取當(dāng)前詞與中心詞是否存在依存關(guān)系、該依存關(guān)系的類型、當(dāng)前詞的父節(jié)點(diǎn)以及 父節(jié)點(diǎn)的詞性作為此部分特征;所述相對(duì)位置特征部分,以當(dāng)前詞與評(píng)價(jià)詞之間的距離是 否小于η作為本部分特征,η是一個(gè)大于零的自然數(shù);所述語義角色特征部分,選取語義角 色名字和評(píng)價(jià)詞詞性作為該部分的特征;
[0012] 步驟四、利用CRFs進(jìn)行評(píng)價(jià)對(duì)象抽取:首先對(duì)語料集Τ進(jìn)行Β,I,0標(biāo)注,然后將 步驟三提取的四部分特征、步驟二構(gòu)建的DL及ΒΙ0標(biāo)注一起加入CRFs進(jìn)行訓(xùn)練;并使用此 訓(xùn)練后的CRFs對(duì)步驟三提取的四部分特征和步驟二構(gòu)建的DL進(jìn)行評(píng)價(jià)對(duì)象識(shí)別,給出ΒΙ0 分類結(jié)果;
[0013] 步驟五、抽取完成,輸出抽取結(jié)果0T集合,即分類結(jié)果為B或以B開頭后跟若干個(gè) I的詞的集合。
[0014] 所述Rules包含以下六項(xiàng)內(nèi)容:
[0015] 規(guī)則1:去除純英文句子;
[0016] 規(guī)則2 :對(duì)句子進(jìn)行"http://"劃分,并且使分句順序倒置;
[0017] 規(guī)則3 :對(duì)句子中用戶名和網(wǎng)址進(jìn)行刪除;
[0018] 規(guī)則4 :對(duì)連續(xù)出現(xiàn)的多個(gè)相同標(biāo)點(diǎn)符號(hào),用第一個(gè)標(biāo)點(diǎn)符號(hào)進(jìn)行替換,同時(shí)去除 表情標(biāo)示符;
[0019] 規(guī)則5 :對(duì)于微博中特殊的"#內(nèi)容#",則把較短內(nèi)容直接作為候選評(píng)價(jià)對(duì)象,較長 內(nèi)容作為一個(gè)單獨(dú)的句子另行分析;
[0020] 規(guī)則6 :對(duì)句子中的代詞,選擇其前句或后句中的名詞性主語將其替換。
[0021] 所述posT的獲取過程如下:
[0022] 首先對(duì)語料集T中的詞性標(biāo)注進(jìn)行替換,將屬于比較詞、主張?jiān)~和程度副詞的詞 語的詞性標(biāo)注改成cmp,aw和adv ;對(duì)于T中的每一個(gè)句子,提取其評(píng)價(jià)對(duì)象前兩個(gè)、前一 個(gè)、后兩個(gè)、后一個(gè)詞與評(píng)價(jià)對(duì)象的詞性一起作為模板提取出來,如果評(píng)價(jià)對(duì)象不是一個(gè)單 獨(dú)的詞,而是由多個(gè)詞的組合,則將這些組合詞的詞性,組合起來形成模板;按照這種規(guī)則 處理T中的所有句子,并計(jì)算每一個(gè)模板的出現(xiàn)概率;最后,將出現(xiàn)概率最高的m個(gè)模板提 取出來作為P〇sT,m是一個(gè)大于零的自然數(shù)。
[0023] 所述集合A的獲取過程如下:
[0024] 將posT中的每一個(gè)模板分別與T中每一個(gè)已分詞的句子的詞性序列進(jìn)行匹配,將 匹配得到的所有詞性序列中詞性為η的詞提取出來,去掉重復(fù),構(gòu)成集合A。
[0025] 所述集合B的獲取過程如下:
[0026] 對(duì)語料集T中的每個(gè)句子進(jìn)行依存分析,找出與評(píng)價(jià)詞集合0中的詞存在ATT或 SBV關(guān)系的詞作為評(píng)價(jià)對(duì)象,加入集合B,然后再選取與已知評(píng)級(jí)對(duì)象B中現(xiàn)存詞的關(guān)系為 C00的詞,也添加入B,形成最終的集合B。
[0027] 所述基于語義角色的評(píng)價(jià)對(duì)象提取算法具體內(nèi)容如下:
[0028] 對(duì)于句子中的評(píng)價(jià)詞,如果評(píng)價(jià)詞詞性為動(dòng)詞,則選取受事者(即該動(dòng)作的承受 者)作為評(píng)價(jià)對(duì)象,而如果評(píng)價(jià)詞詞性為形容詞,則選取施事者(即該動(dòng)作的發(fā)出者)作為 評(píng)價(jià)對(duì)象。
[0029] 所述ΒΙ0標(biāo)注的具體過程如下:
[0030] 首先對(duì)于每一個(gè)句子,找出對(duì)應(yīng)的評(píng)價(jià)對(duì)象;然后遍歷該句子分詞結(jié)果中的每一 個(gè)詞,如果其是該句所對(duì)應(yīng)的評(píng)價(jià)對(duì)象中的第一個(gè)詞,則標(biāo)注為B ;若其是該句所對(duì)應(yīng)的評(píng) 價(jià)對(duì)象中的其他詞,則標(biāo)注為I ;其他情況,全部標(biāo)注為〇。
[0031] 有益效果
[0032] 本發(fā)明對(duì)比現(xiàn)有技術(shù),根據(jù)中文句子特別是微博、論壇評(píng)論信息結(jié)構(gòu)靈活多樣、構(gòu) 成方法變化多、句子特征較少的特點(diǎn),利用基于規(guī)則的句子過濾方法,去掉了部分冗余的信 息,然后通過挖掘句子詞匯、句法和語義各方面的信息,通過規(guī)則的方法建立評(píng)價(jià)對(duì)象的領(lǐng) 域詞典;并將其和語義角色特征,輔以其他三種常用特征一起使用CRFs進(jìn)行識(shí)別,充分利 用了不同層級(jí)句法和語義信息,使用戶能夠更快速而且準(zhǔn)確地找到語料中置信度較高的評(píng) 價(jià)對(duì)象,提高了中文句子評(píng)價(jià)對(duì)象抽取的準(zhǔn)確率。
【專利附圖】
【附圖說明】
[0033] 圖1為本發(fā)明方法的流程圖。
【具體實(shí)施方式】
[0034] 下面結(jié)合實(shí)施例對(duì)本發(fā)明做進(jìn)一步說明。
[0035] 本實(shí)施例選取第六屆中文傾向性分析評(píng)測(cè)(The Sixth Chinese Opinion Analysis Evaluation,簡(jiǎn)稱C0AE2014)任務(wù)四提供的數(shù)據(jù)集作為實(shí)驗(yàn)語料集,用于領(lǐng)域詞 典的創(chuàng)建和CRFs的訓(xùn)練。該語料集中,對(duì)于每一個(gè)句子,都含有標(biāo)注好的評(píng)價(jià)對(duì)象(0T :是 評(píng)價(jià)對(duì)象)。
[0036] 步驟一,對(duì)語料集S(多為微博、論壇中的句子)按照規(guī)則(Rules)進(jìn)行初步過濾。 Rules的具體內(nèi)容如下:
[0037] 規(guī)則1 :去除純英文句子(目前主要專注于中文句子的分析);
[0038] 規(guī)則2 :對(duì)句子進(jìn)行"http://"劃分,并且使分句順序倒置;例如用戶a轉(zhuǎn)發(fā)了用戶b的 微博"iphone5S很漂亮。",并在此微博中說"我很喜歡!",在語料集S中則表示為:"我很喜 歡! //iph〇ne5S很漂亮。",經(jīng)過此條規(guī)則過濾之后,得到"iphone5S很漂亮。我很喜歡! ", 這樣就保證句子的轉(zhuǎn)發(fā)關(guān)系,使后面的句子基于前面的句子進(jìn)行分析。
[0039] 規(guī)則3 :對(duì)句子中用戶名進(jìn)行刪除,即刪除"@+用戶名"結(jié)構(gòu),刪除"http:z7t.cn/ h87oy"這樣的網(wǎng)址結(jié)構(gòu);
[0040] 規(guī)則4 :對(duì)連續(xù)出現(xiàn)的多個(gè)相同標(biāo)點(diǎn)符號(hào),如"。。。。。。"," !?。?! "等,采用第一個(gè)標(biāo) 點(diǎn)符號(hào)進(jìn)行替換,同時(shí)去除微博中表情標(biāo)示符;
[0041] 規(guī)則5 :對(duì)于微博中特殊的"#內(nèi)容#",則把較短內(nèi)容直接作為候選評(píng)價(jià)對(duì)象,較長 內(nèi)容作為一個(gè)單獨(dú)的句子另行分析;
[0042] 規(guī)則6 :對(duì)句子中的代詞,選擇其前句或后句中的名詞性主語將其替換;例如句子 "這款iphone好漂亮。我覺得它比三星漂亮多了!"針對(duì)第二個(gè)句子中的"它",我們則用其 前句的"iphone"代替;
[0043] 接著對(duì)通過以上規(guī)則過濾后得到的句子集合,分別進(jìn)行分詞和詞性標(biāo)注,得到集 合T ;分詞和詞性標(biāo)注可以手工進(jìn)行,也可以使用現(xiàn)有的工具進(jìn)行,如ICTCLAS,結(jié)巴分詞, 本實(shí)施例中使用ICTCLAS。
[0044] 步驟二,開始構(gòu)建領(lǐng)域詞典:
[0045] 首先,根據(jù)處理后的語料集合T,在其中標(biāo)注好的評(píng)價(jià)對(duì)象0T附近,對(duì)其詞性和詞 本身進(jìn)行分析,具體分析流程如下:
[0046] 對(duì)于語料集T中每一個(gè)分好詞的句子,例如句子"輕薄的機(jī)身很漂亮。"分詞以及 詞性標(biāo)注的結(jié)果為{ "輕薄/adj" "的/de" "機(jī)身/η" "很/d" "漂亮/adj" "。/wp"};其 中本句所對(duì)應(yīng)的評(píng)價(jià)對(duì)象是"機(jī)身"。首先我們遍歷句子,去掉詞性標(biāo)注為wp的標(biāo)點(diǎn)符號(hào), 同時(shí)將屬于比較詞、主張?jiān)~和程度副詞的詞語的詞性標(biāo)注改成cmp,aw和adv ;得到集合如 下{ "輕薄/adj" "的/de" "機(jī)身/η" "很/adv" "漂亮/adj"}我們以評(píng)價(jià)對(duì)象"機(jī)身"為 中心,分別按以下方式來提取模板:
[0047] a、前兩個(gè)詞的詞性+評(píng)價(jià)對(duì)象的詞性;
[0048] b、評(píng)價(jià)對(duì)象的詞性+后兩個(gè)詞的詞性;
[0049] c、評(píng)價(jià)對(duì)象的詞性+后一個(gè)詞的詞性;
[0050] d、前一個(gè)詞的詞性+評(píng)價(jià)對(duì)象的詞性;
[0051] e、如果一個(gè)評(píng)價(jià)對(duì)象不是一個(gè)單獨(dú)的詞,而是多個(gè)詞的組合,則將這些組合詞的 詞性按照其在句子中的出現(xiàn)順序依次連接起來作為評(píng)價(jià)對(duì)象的詞性形成模板;
[0052] 則以上例子提取出的模板為"adj+de+n" "n+adv+adj" "n+adv" "de+n" ;按上述 流程處理語料集T中的每一個(gè)句子,提取模板;同時(shí)計(jì)算每一個(gè)模板的出現(xiàn)概率,將出現(xiàn)概 率最高的m個(gè)模板作為詞性序列模板提取出來作為posT,經(jīng)多次實(shí)驗(yàn),取m = 6,因此posT 的模板內(nèi)容具體如表1所示:
[0053] 表1詞性序列模板
[0054]
【權(quán)利要求】
1. 一種基于領(lǐng)域詞典和語義角色的評(píng)價(jià)對(duì)象抽取方法,其特征在于,包括以下步驟: 步驟一、語料預(yù)處理:對(duì)語料集S的每一個(gè)句子按照規(guī)則(Rules)進(jìn)行過濾,然后對(duì)過 濾后的句子集合進(jìn)行分詞、詞性標(biāo)注,得到語料集T ;RuleS的具體內(nèi)容如下: 規(guī)則1 :去除純英文句子; 規(guī)則2 :對(duì)句子進(jìn)行"http://"劃分,并且使分句順序倒置; 規(guī)則3 :對(duì)句子中用戶名和網(wǎng)址進(jìn)行刪除; 規(guī)則4 :對(duì)連續(xù)出現(xiàn)的多個(gè)相同標(biāo)點(diǎn)符號(hào),用第一個(gè)標(biāo)點(diǎn)符號(hào)進(jìn)行替換,同時(shí)去除表情 標(biāo)示符; 規(guī)則5 :對(duì)于微博中特殊的"#內(nèi)容#",則把較短內(nèi)容直接作為候選評(píng)價(jià)對(duì)象,較長內(nèi)容 作為一個(gè)單獨(dú)的句子另行分析; 規(guī)則6 :對(duì)句子中的代詞,選擇其前句或后句中的名詞性主語將其替換; 步驟二、領(lǐng)域詞典(DL)構(gòu)建:首先通過對(duì)語料集T進(jìn)行分析,總結(jié)出詞性序列模板集合 (posT),并將posT中的每一個(gè)模板分別與T中每一個(gè)已分詞的句子的詞性序列進(jìn)行匹配, 得到評(píng)價(jià)對(duì)象集合A ;然后對(duì)T中的每一個(gè)句子進(jìn)行依存結(jié)果類型分析,通過分析評(píng)價(jià)對(duì)象 與評(píng)價(jià)詞之間的依存關(guān)系類型,得到評(píng)價(jià)對(duì)象集合B;接下來通過一個(gè)基于語義角色的評(píng) 價(jià)對(duì)象提取算法,得到評(píng)價(jià)對(duì)象集合C ;最后,對(duì)集合A、B、C取并集,得到集合D,作為最終 的DL ; 所述posT的獲取過程如下: 首先對(duì)語料集T中的詞性標(biāo)注進(jìn)行替換,將屬于比較詞、主張?jiān)~和程度副詞的詞語的 詞性標(biāo)注改成cmp,aw和adv ;對(duì)于T中的每一個(gè)句子,提取其評(píng)價(jià)對(duì)象前兩個(gè)、前一個(gè)、后 兩個(gè)、后一個(gè)詞與評(píng)價(jià)對(duì)象的詞性一起作為模板提取出來,如果評(píng)價(jià)對(duì)象不是一個(gè)單獨(dú)的 詞,而是由多個(gè)詞的組合,則將這些組合詞的詞性,組合起來形成模板;按照這種規(guī)則處理 T中的所有句子,并計(jì)算每一個(gè)模板的出現(xiàn)概率;最后,將出現(xiàn)概率最高的m個(gè)模板提取出 來作為posT,m是一個(gè)大于零的自然數(shù); 所述集合A的獲取過程如下: 將posT中的每一個(gè)模板分別與T中每一個(gè)已分詞的句子的詞性序列進(jìn)行匹配,將匹配 得到的所有詞性序列中詞性為η (名詞)的詞提取出來,去掉重復(fù),構(gòu)成集合A ; 所述集合B的獲取過程如下: 對(duì)語料集T中的每個(gè)句子進(jìn)行依存分析,找出與評(píng)價(jià)詞集合0中的詞存在ATT或SBV 關(guān)系的詞作為評(píng)價(jià)對(duì)象,加入集合B,然后再選取與已知評(píng)級(jí)對(duì)象B中現(xiàn)存詞的關(guān)系為C00 的詞,也添加入B,形成最終的集合B ; 所述基于語義角色的評(píng)價(jià)對(duì)象提取算法具體內(nèi)容如下: 對(duì)于句子中的評(píng)價(jià)詞,如果評(píng)價(jià)詞詞性為動(dòng)詞,則選取受事者(即該動(dòng)作的承受者)作 為評(píng)價(jià)對(duì)象,而如果評(píng)價(jià)詞詞性為形容詞,則選取施事者(即該動(dòng)作的發(fā)出者)作為評(píng)價(jià)對(duì) 象; 步驟三、CRFs特征選擇:使用詞匯特征、依存特征、相對(duì)位置特征和語義角色特征作為 CRFs的特征;所述詞匯特征部分,選擇當(dāng)前詞及其詞性作為此部分特征;所述依存特征部 分,選取當(dāng)前詞與中心詞是否存在依存關(guān)系、該依存關(guān)系的類型、當(dāng)前詞的父節(jié)點(diǎn)以及父節(jié) 點(diǎn)的詞性作為此部分特征;所述相對(duì)位置特征部分,以當(dāng)前詞與評(píng)價(jià)詞之間的距離是否小 于η作為本部分特征,η是一個(gè)大于零的自然數(shù);所述語義角色特征部分,選取語義角色名 字和評(píng)價(jià)詞詞性作為該部分的特征; 步驟四、利用CRFs進(jìn)行評(píng)價(jià)對(duì)象抽?。菏紫葘?duì)語料集Τ進(jìn)行Β,I,0標(biāo)注,然后將步驟三 提取的CRFs特征、步驟二構(gòu)建的DL以及BIO標(biāo)注一起加入CRFs進(jìn)行訓(xùn)練;并使用此訓(xùn)練 后的CRFs對(duì)步驟三提取的四部分特征和步驟二構(gòu)建的DL進(jìn)行評(píng)價(jià)對(duì)象識(shí)別,給出BIO分 類結(jié)果; 所述BIO標(biāo)注的具體過程如下: 首先對(duì)于每一個(gè)句子,找出對(duì)應(yīng)的評(píng)價(jià)對(duì)象;然后遍歷該句子分詞結(jié)果中的每一個(gè)詞, 如果其是該句所對(duì)應(yīng)的評(píng)價(jià)對(duì)象中的第一個(gè)詞,則標(biāo)注為B ;若其是該句所對(duì)應(yīng)的評(píng)價(jià)對(duì) 象中的其他詞,則標(biāo)注為I ;其他情況,全部標(biāo)注為〇 ; 步驟五、抽取完成,輸出抽取結(jié)果0T集合,即分類結(jié)果為B或以B開頭后跟若干個(gè)I的 詞的組合的集合。
2. 根據(jù)權(quán)利要求1所述的一種基于領(lǐng)域詞典和語義角色的評(píng)價(jià)對(duì)象抽取方法,其特征 在于,m = 6。
3. 根據(jù)權(quán)利要求1或2所述的一種基于領(lǐng)域詞典和語義角色的評(píng)價(jià)對(duì)象抽取方法,其 特征在于,η = 5。
【文檔編號(hào)】G06F17/30GK104268160SQ201410453074
【公開日】2015年1月7日 申請(qǐng)日期:2014年9月5日 優(yōu)先權(quán)日:2014年9月5日
【發(fā)明者】馮沖, 廖純, 楊森, 黃河燕 申請(qǐng)人:北京理工大學(xué)