欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于句法分析的特征觀點(diǎn)詞對(duì)的提取方法

文檔序號(hào):6540348閱讀:609來(lái)源:國(guó)知局
一種基于句法分析的特征觀點(diǎn)詞對(duì)的提取方法
【專利摘要】本發(fā)明的提出了一種基于句法分析的特征觀點(diǎn)詞對(duì)的提取方法。本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域。本發(fā)明的最終目的是為評(píng)論信息分析提供正確的特征觀點(diǎn)詞對(duì),克服現(xiàn)有特征觀點(diǎn)詞提取方法過(guò)于單一,召回率低等缺點(diǎn)。最終的特征觀點(diǎn)詞對(duì),由兩個(gè)部分構(gòu)成,一部分為特征詞,一部分為此特征詞的觀點(diǎn)。舉例,佳能相機(jī)(特征詞),喜歡(觀點(diǎn)詞)。本發(fā)明通過(guò)句法分析的方式找出特征觀點(diǎn)詞對(duì)。
【專利說(shuō)明】一種基于句法分析的特征觀點(diǎn)詞對(duì)的提取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于自然語(yǔ)言處理領(lǐng)域,更為具體地講,涉及一種基于句法分析的特征觀點(diǎn)詞對(duì)的提取方法。
【背景技術(shù)】
[0002]當(dāng)前,在各種網(wǎng)絡(luò)論壇,以及購(gòu)物網(wǎng)站,點(diǎn)評(píng)網(wǎng)站充斥著大量的評(píng)論信息。這些評(píng)論包含著大量的口語(yǔ)以及語(yǔ)法錯(cuò)誤。這些口語(yǔ)化和語(yǔ)法錯(cuò)誤給文本分析帶來(lái)了大量的困擾和錯(cuò)誤。
[0003]與此同時(shí),在海量的評(píng)論的信息中存在著大量的垃圾以及無(wú)用信息,如何提取出有用的評(píng)論者的觀點(diǎn),對(duì)于輿情分析,情感分析,網(wǎng)絡(luò)監(jiān)控等等相關(guān)領(lǐng)域都有著及其重要的作用。目前的特征觀點(diǎn)詞對(duì)的提取方法基于特征詞最近的形容詞,過(guò)于單一,造成觀點(diǎn)提取的不完整。以至于影響后面輿情分析,情感分析,網(wǎng)絡(luò)監(jiān)控等。
[0004]本方法旨在構(gòu)建新的句法分析器,使用新的句法分析器提取評(píng)論信息中的特征觀點(diǎn)詞對(duì),使特征觀點(diǎn)詞對(duì)的提取更加的準(zhǔn)確全面。使后一步的相關(guān)工作者進(jìn)行相應(yīng)分析時(shí)獲得更為準(zhǔn)確的結(jié)果。

【發(fā)明內(nèi)容】

[0005]本發(fā)明的最終目的是為評(píng)論信息分析提供正確的特征觀點(diǎn)詞對(duì),克服現(xiàn)有特征觀點(diǎn)詞提取方法過(guò)于單一,召回率低等缺點(diǎn)。最終的特征觀點(diǎn)詞對(duì),由兩個(gè)部分構(gòu)成,一部分為特征詞,一部分為此特征詞的觀點(diǎn)。舉例,佳能相機(jī)(特征詞),喜歡(觀點(diǎn)詞)。本發(fā)明通過(guò)句法分析的方式找出特征觀點(diǎn)詞對(duì)。
[0006]為了實(shí)現(xiàn)上述目的,本發(fā)明基于句法分析的特征觀點(diǎn)詞提取方法,其方法構(gòu)成主要由以下特征構(gòu)成:
[0007]一分詞以及詞性標(biāo)注模塊。本模塊用來(lái)處理評(píng)論文本,在經(jīng)過(guò)本模塊后,文本將從一系列漢字串變?yōu)楠?dú)立的單詞,同時(shí)對(duì)應(yīng)各個(gè)單詞的詞性也會(huì)標(biāo)記出來(lái)。單詞的詞性,即形容詞,動(dòng)詞,名詞等等。舉例,整體/η來(lái)說(shuō)/u菜/n的/uj質(zhì)量/n和/c 口感/n相當(dāng)/d不錯(cuò)/a。在本例中“/ “后面的詞性標(biāo)簽符合中科院ICTCLAS標(biāo)準(zhǔn)。
[0008]一句法分析器模塊。本模塊用來(lái)處理分詞詞性標(biāo)注后的序列。如上述例子本模塊處理的序列為n u n uj n c n d a。在句法分析器模塊中,會(huì)剔除無(wú)關(guān)成分僅保留n, ny,vn, v, a, I, z, i。合并保留成分η, η ;ny, ny ;ny, vn ;ny, n ;n, vn。同時(shí)對(duì)單個(gè)漢字且前面沒(méi)有副詞出現(xiàn)的動(dòng)詞進(jìn)行剔除。經(jīng)過(guò)上述處理過(guò)程后得到一個(gè)詞性成分序列如n,V0
[0009]一成分序列映射模塊。本模塊用來(lái)映射詞性成分序列和應(yīng)提取的成分。本模塊在獲得詞性成分序列后會(huì)將其與已經(jīng)存儲(chǔ)在列表中的成分序列到提取成分映射作對(duì)比。如果存在這樣的映射則輸出應(yīng)該提取的詞性成分以及在句子中的位置。
[0010]一成分提取模塊。本模塊根據(jù)成分序列映射模塊輸出的應(yīng)該提取的詞性成分以及在句子中的位置提取相應(yīng)的成分。并與特征詞形成特征觀點(diǎn)詞對(duì)。[0011]一固定搭配模塊。本模塊在句法分析無(wú)法正確進(jìn)行時(shí)的補(bǔ)充。通過(guò)引進(jìn)評(píng)論知識(shí)庫(kù)中的特征詞與觀點(diǎn)詞的固定搭配。當(dāng)在一個(gè)短句子中同時(shí)出現(xiàn)特征詞與觀點(diǎn)詞時(shí)我們認(rèn)為,特征詞與觀點(diǎn)詞是一個(gè)特征觀點(diǎn)詞對(duì)。并將其輸出。
[0012]一特征觀點(diǎn)詞對(duì)存儲(chǔ)模塊。本模塊存儲(chǔ)由各模塊生成的特征觀點(diǎn)詞對(duì)。便于后來(lái)工作者的調(diào)用。
【專利附圖】

【附圖說(shuō)明】
[0013]圖1是本發(fā)明一種基于句法分析特征觀點(diǎn)對(duì)提取方法的具體實(shí)施原理以及框圖。
[0014]圖2是圖1中句法分析器模塊的具體實(shí)施原理以及框圖。
【具體實(shí)施方式】
[0015]下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許會(huì)淡化本發(fā)明的主要內(nèi)容時(shí),這些描述在這里將被忽略。
[0016]圖1是本發(fā)明一種基于句法分析特征觀點(diǎn)對(duì)提取方法的具體實(shí)施原理以及框圖。
[0017]在本實(shí)施例中,如圖1所示,基于句法分析特征觀點(diǎn)對(duì)的提取方法主要包括分詞以及詞性標(biāo)注模塊1,句法分析器模塊2,成分序列映射模塊3,評(píng)論知識(shí)庫(kù)模塊4,成分提取模塊5,固定搭配模塊6,特征觀點(diǎn)詞對(duì)存儲(chǔ)模塊7。
[0018]在本實(shí)例中通過(guò)調(diào)用分詞以及詞性標(biāo)注模塊I輸入的句子進(jìn)行分詞以及詞性標(biāo)注得到結(jié)果,舉例,整體/n來(lái)說(shuō)/u菜/n質(zhì)量/n和/c 口感/n相當(dāng)/d不錯(cuò)/a。將這樣的分詞詞性標(biāo)注序列傳遞給句法分析器模塊2。由句法分析器對(duì)這樣的序列進(jìn)行處理。具體的句法分析器處理過(guò)程將在圖2中進(jìn)行說(shuō)明。通過(guò)句法分析器模塊2處理后得到簡(jiǎn)單的成分序列,舉例,n, a, 1,3,5,10。η, η, η, a是需要詞的成分序列;1,3,5,10是詞的位置。句法分析器模塊將上述成分序列傳遞給成分序列映射模塊3,成分序列映射模塊3會(huì)在其列表中尋找是否有序列n,a。如果有則返回提取的成分和位置。并將其傳遞成分提取模塊5。由成分提取模塊5提取對(duì)應(yīng)成分的詞,并將其組成特征觀點(diǎn)詞對(duì)的形式。舉例,整體(特征詞),不錯(cuò)(觀點(diǎn)詞)。最后由成分提取模塊5將特征觀點(diǎn)詞對(duì)傳遞給特征觀點(diǎn)詞對(duì)存儲(chǔ)模塊
7。同時(shí)如果成分序列映射模塊3無(wú)法進(jìn)行映射,則通過(guò)調(diào)用評(píng)論知識(shí)庫(kù)模塊5,固定搭配模塊6,尋找特征觀點(diǎn)詞對(duì)。最后將特征觀點(diǎn)詞對(duì)傳遞給特征觀點(diǎn)詞對(duì)存儲(chǔ)模塊7。
[0019]圖2是圖1中句法分析器模塊的具體實(shí)施原理以及框圖。
[0020]在本實(shí)例中,如圖2所示,句法分析器2主要分詞詞性標(biāo)注201,成分選擇202,成分合并203,成分剔除204,動(dòng)詞成分選擇205,成分序列存儲(chǔ)206。
[0021]在本實(shí)例中通過(guò)調(diào)用分詞詞性標(biāo)注201,得到關(guān)于句子的詞性標(biāo)注序列。舉例,整體/n來(lái)說(shuō)/u菜/n質(zhì)量/n和/c 口感/n相當(dāng)/d不錯(cuò)/a。將這樣的詞性標(biāo)注序列傳遞給成分選擇202。成分選擇202將這樣的序列分別傳遞給成分合并203,成分剔除204,動(dòng)詞成分選擇205。成分剔除204將剔除,來(lái)說(shuō)/u,和/c,相當(dāng)/d。成分合并203會(huì)合并,菜/n質(zhì)量/η。同時(shí)在本例中沒(méi)有動(dòng)詞。成分選擇205則不會(huì)被調(diào)用。動(dòng)詞成分選擇205示例,魚(yú)香/nr雞絲/n酸/n死/V,動(dòng)詞成分選擇205判斷動(dòng)詞死/V的長(zhǎng)度及以及前面是否出現(xiàn)副詞。本例中字長(zhǎng)度為I同時(shí)前面沒(méi)有出現(xiàn)副詞所以動(dòng)詞成分選擇205不會(huì)選擇動(dòng)詞死/V。在經(jīng)歷以上成分合并203,成分剔除204,動(dòng)詞成分選擇205后得到成分序列并將其傳遞給成分序列存儲(chǔ)206。
[0022]盡管上面對(duì)本發(fā)明說(shuō)明性的【具體實(shí)施方式】進(jìn)行了描述,以便于本技術(shù)領(lǐng)的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于【具體實(shí)施方式】的范圍,對(duì)本【技術(shù)領(lǐng)域】的普通技術(shù)人員來(lái)講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見(jiàn)的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。
【權(quán)利要求】
1.一種基于句法分析的特征觀點(diǎn)詞對(duì)提取方法主要由以下特征構(gòu)成: 一分詞以及詞性標(biāo)注模塊。本模塊用來(lái)處理評(píng)論文本,在經(jīng)過(guò)本模塊后,文本將從一系列漢字串變?yōu)楠?dú)立的單詞,同時(shí)對(duì)應(yīng)各個(gè)單詞的詞性也會(huì)標(biāo)記出來(lái)。單詞的詞性,即形容詞,動(dòng)詞,名詞等等。舉例,整體/n來(lái)說(shuō)/u菜/n的/uj質(zhì)量/n和/c 口感/n相當(dāng)/d不錯(cuò)/a。在本例中“/ “后面的詞性標(biāo)簽符合中科院ICTCLAS標(biāo)準(zhǔn)。 一句法分析器模塊。本模塊用來(lái)處理分詞詞性標(biāo)注后的序列。如上述例子本模塊處理的序列為n u n uj n c n d a。在句法分析器模塊中,會(huì)剔除無(wú)關(guān)成分僅保留n, ny, vn,v, a, I, z, io合并保留成分η, n ;ny, ny ;ny, vn ;ny, n ;n, vn。同時(shí)對(duì)單個(gè)漢字且前面沒(méi)有副詞出現(xiàn)的動(dòng)詞進(jìn)行剔除。經(jīng)過(guò)上述處理過(guò)程后得到一個(gè)詞性成分序列如n,V0 一成分序列映射模塊。本模塊用來(lái)映射詞性成分序列和應(yīng)提取的成分。本模塊在獲得詞性成分序列后會(huì)將其與已經(jīng)存儲(chǔ)在列表中的成分序列到提取成分映射作對(duì)比。如果存在這樣的映射則輸出應(yīng)該提取的詞性成分以及在句子中的位置。 一成分提取模塊。本模塊根據(jù)成分序列映射模塊輸出的應(yīng)該提取的詞性成分以及在句子中的位置提取相應(yīng)的成分。并與特征詞形成特征觀點(diǎn)詞對(duì)。 一固定搭配模塊。本模塊在句法分析無(wú)法正確進(jìn)行時(shí)的補(bǔ)充。通過(guò)引進(jìn)評(píng)論知識(shí)庫(kù)中的特征詞與觀點(diǎn)詞的固定搭配。當(dāng)在一個(gè)短句子中同時(shí)出現(xiàn)特征詞與觀點(diǎn)詞時(shí)我們認(rèn)為,特征詞與觀點(diǎn)詞是一個(gè)特征觀點(diǎn)詞對(duì)。并將其輸出。 一特征觀點(diǎn)詞對(duì)存儲(chǔ)模塊。本模塊存儲(chǔ)由各模塊生成的特征觀點(diǎn)詞對(duì)。便于后來(lái)工作者的調(diào)用。
【文檔編號(hào)】G06F17/27GK103885936SQ201410092700
【公開(kāi)日】2014年6月25日 申請(qǐng)日期:2014年3月13日 優(yōu)先權(quán)日:2014年3月13日
【發(fā)明者】秦志光, 周爾強(qiáng), 羅熹 申請(qǐng)人:電子科技大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
遂川县| 景宁| 赤峰市| 新昌县| 志丹县| 和静县| 丰宁| 仁布县| 富宁县| 南安市| 金沙县| 蓝田县| 清河县| 六盘水市| 临清市| 涟源市| 隆安县| 青岛市| 青龙| 黄陵县| 原平市| 阜新市| 社旗县| 新宾| 威远县| 定兴县| 齐齐哈尔市| 东明县| 垣曲县| 台南市| 长岛县| 广汉市| 乌兰浩特市| 陈巴尔虎旗| 通山县| 双城市| 板桥市| 莲花县| 安庆市| 鞍山市| 金华市|