本發(fā)明涉及自動(dòng)生成對(duì)于討論話題的評(píng)論文的系統(tǒng)。
背景技術(shù):
輸入由自然語言構(gòu)成的文章,對(duì)所輸入的文章進(jìn)行分析,從由自然語言的數(shù)據(jù)構(gòu)成的知識(shí)源收集關(guān)聯(lián)的信息,對(duì)收集到的信息進(jìn)行分析,進(jìn)行組合等加工的基礎(chǔ)上提示給用戶的系統(tǒng),其有用性正變得越來越高。作為這種系統(tǒng)的最近最受關(guān)注的系統(tǒng)的例子,有問答系統(tǒng)(question-answering)。
例如專利文獻(xiàn)1中公開了一種通過確定詞匯答案類型(LAT),進(jìn)行檢索,對(duì)檢索結(jié)果使用LAT進(jìn)行分析,由此構(gòu)建問答系統(tǒng)的方法。
現(xiàn)有技術(shù)文獻(xiàn)
專利文獻(xiàn)
專利文獻(xiàn)1:US8332394
技術(shù)實(shí)現(xiàn)要素:
發(fā)明要解決的課題
但是,在像辯論那樣正確的答案不止一個(gè),隨著各自的立場(chǎng)不同意見不同的情況下,難以用專利文獻(xiàn)1的技術(shù)生成答案。在辯論中,在考慮闡述對(duì)于討論話題的意見的論述文的情況下,由于沒有單純的正確答案,而是根據(jù)立場(chǎng)不同要考慮的價(jià)值不同,所以即使用LAT進(jìn)行分析也無法將答案縮小范圍到一個(gè)。
另外,專利文獻(xiàn)1的技術(shù)中,作為答案只輸出單一的名詞短語或句子,不能輸出由多個(gè)句子構(gòu)成的文章。這些課題用上述的現(xiàn)有技術(shù)是不可能實(shí)現(xiàn)的。
本發(fā)明鑒于上述問題而完成,目的在于用系統(tǒng)自動(dòng)生成像辯論中使用的那樣的、闡述對(duì)于討論話題的意見的論述文。
用于解決課題的方法
為了解決上述課題,例如采用在發(fā)明請(qǐng)求保護(hù)的范圍中記載的結(jié)構(gòu)。本發(fā)明包括多個(gè)解決上述課題的技術(shù)手段,舉出一個(gè)例子,是一種輸出對(duì)于討論話題的評(píng)論文的文章生成系統(tǒng),其特征在于,包括:輸入討論話題的輸入部;分析討論話題,判定討論話題的正反極性和檢索中要使用的關(guān)鍵詞的討論話題分析部;使用關(guān)鍵詞和表示討論中的論點(diǎn)的論點(diǎn)詞檢索消息的檢索部;確定生成評(píng)論文時(shí)使用的論點(diǎn)的論點(diǎn)確定部;從檢索部所輸出的消息中提取就論點(diǎn)所論述的語句的語句提取部;通過重新排列語句來生成文章的語句重新排列部;評(píng)價(jià)文章的評(píng)價(jià)部;對(duì)文章插入適當(dāng)?shù)倪B接詞的改寫部;和從多個(gè)文章中將評(píng)價(jià)最高的文章作為評(píng)論文輸出的輸出部。
或者,是一種輸出對(duì)于討論話題的評(píng)論文的文章生成方法,其特征在于,包括:輸入討論話題的第1步驟;分析討論話題,判定討論話題的正反極性和檢索中要使用的關(guān)鍵詞的第2步驟;使用關(guān)鍵詞和表示討論中的論點(diǎn)的論點(diǎn)詞檢索消息的第3步驟;確定生成評(píng)論文時(shí)使用的論點(diǎn)的第4步驟;從在第3步驟輸出的消息提取就論點(diǎn)所論述的語句的第5步驟;通過重新排列所述語句來生成文章的第6步驟;對(duì)文章進(jìn)行評(píng)價(jià)的第7步驟;對(duì)文章插入適當(dāng)?shù)倪B接詞的第8步驟;和從多個(gè)文章中將評(píng)價(jià)最高的文章作為上述評(píng)論文輸出的第9步驟。
發(fā)明的效果
通過提取對(duì)于論點(diǎn)所闡述的語句并重新排列,能夠生成闡述與立場(chǎng)相應(yīng)的適當(dāng)?shù)囊庖姷脑u(píng)論文。
附圖說明
圖1是表示本發(fā)明的文章生成系統(tǒng)的圖。
圖2是表示文本注釋數(shù)據(jù)的圖。
圖3是表示論點(diǎn)體系(Ontology,論點(diǎn)實(shí)體)的例子的圖。
圖4是表示討論話題分析部103的動(dòng)作的圖。
圖5是表示檢索部104的動(dòng)作的圖。
圖6是表示論點(diǎn)確定部105的動(dòng)作的圖。
圖7是表示語句提取部106中的動(dòng)作的圖。
圖8是表示語句提取部106中的得分計(jì)算條件的一例的圖。
圖9是表示語句重新排列部107的動(dòng)作的圖。
圖10是表示評(píng)價(jià)部108的動(dòng)作的圖。
圖11是表示改寫部109的動(dòng)作的圖。
圖12是表示本發(fā)明的辯論系統(tǒng)的硬件結(jié)構(gòu)例的圖。
具體實(shí)施方式
下面,參照附圖對(duì)本發(fā)明的實(shí)施方式進(jìn)行說明。
[第1實(shí)施方式]
以下,對(duì)本發(fā)明的第1實(shí)施方式的文章生成系統(tǒng)進(jìn)行說明。本發(fā)明的第1實(shí)施方式的文章生成系統(tǒng),是包括結(jié)合了9個(gè)模塊的生成系統(tǒng)和數(shù)據(jù)管理系統(tǒng)的系統(tǒng)。具體的硬件結(jié)構(gòu)的例子如圖12所示,由輸入裝置1202、輸出裝置1202、記錄有執(zhí)行各模塊的程序的存儲(chǔ)器1205、包括文本數(shù)據(jù)DB和文本注釋數(shù)據(jù)DB113等的存儲(chǔ)裝置1207構(gòu)成。
圖1表示系統(tǒng)的整體圖像。100是當(dāng)輸入討論話題時(shí),輸出闡述針對(duì)該討論話題的意見的論述文的生成系統(tǒng)。101是數(shù)據(jù)管理系統(tǒng),是預(yù)先保存被進(jìn)行了數(shù)據(jù)處理的數(shù)據(jù),從系統(tǒng)100能夠進(jìn)行訪問的系統(tǒng)。
在系統(tǒng)100中,依次執(zhí)行9個(gè)模塊。首先由輸入部102從用戶接受討論話題的輸入。并且,可以接受對(duì)于討論話題是生成肯定的意見還是生成否定的意見的輸入。像這樣,通過明確要生成的文章的立場(chǎng),能夠?qū)⒈鞠到y(tǒng)用于像辯論這樣的討論的情況。
接著由討論話題分析部103分析討論話題,判定討論話題的正反極性和檢索中使用的關(guān)鍵詞。接著,由檢索部104用關(guān)鍵詞和表示辯論的論點(diǎn)的論點(diǎn)詞檢索消息(新聞)。例如在討論話題為“應(yīng)該禁止賭場(chǎng)”的情況下,作為關(guān)鍵詞可以舉出名詞短語“賭場(chǎng)”。進(jìn)而,通過判定正反極性,能夠確定對(duì)于“賭場(chǎng)”是使用肯定的論點(diǎn)詞還是使用否定的論點(diǎn)詞。此處所謂論點(diǎn)詞,是指圖3所示的論點(diǎn)體系中的全部單詞,特別是在說“論點(diǎn)”的時(shí)候,是指300中記載的“表現(xiàn)討論的觀點(diǎn)的價(jià)值觀的單詞”。另外,“促進(jìn)詞”是指301中記載的“促進(jìn)論點(diǎn)的詞”。另外,“抑制詞”是指302中記載的“抑制論點(diǎn)的詞”。
對(duì)于上述討論話題,在想要輸出肯定意見的情況下,作為論點(diǎn)詞選擇抑制賭場(chǎng)的“抑制詞”對(duì)作為關(guān)鍵詞的“賭場(chǎng)”進(jìn)行檢索。
在此,討論話題對(duì)“賭場(chǎng)”是否定的,所以采用作為論點(diǎn)詞使用“抑制詞”的處理。圖3中記載了多個(gè)抑制詞,但在檢索中,通過對(duì)“賭場(chǎng)”像這樣將論點(diǎn)詞和關(guān)鍵詞一起來進(jìn)行檢索,能夠檢索到對(duì)賭場(chǎng)論述肯定和否定的消息。如果僅利用從討論話題中提取的關(guān)鍵詞,則例如像關(guān)于賭場(chǎng)的宣傳報(bào)道、只記述了去過賭場(chǎng)的感想的博客消息那樣的在辯論中不需要考慮的消息也會(huì)大量包含在檢索結(jié)果中,無法進(jìn)行適當(dāng)?shù)臋z索。
接著,由論點(diǎn)確定部105對(duì)所輸出的消息進(jìn)行分類,確定生成意見時(shí)使用的論點(diǎn)。接著,由語句提取部106從所輸出的消息中提取關(guān)于論點(diǎn)要進(jìn)行闡述的語句。接著,由語句重新排列部107通過對(duì)所提取的語句進(jìn)行重新排列來生成文章。接著,由評(píng)價(jià)部108對(duì)所生成的語句進(jìn)行評(píng)價(jià)。接著,由改寫部109插入適當(dāng)?shù)倪B接詞,刪除不要的表達(dá)。接著,由輸出部110將評(píng)價(jià)最高的文章作為闡述意見的論述文輸出。
數(shù)據(jù)管理系統(tǒng)101由4個(gè)數(shù)據(jù)庫(Data Base)和接口/結(jié)構(gòu)化部11構(gòu)成。接口DB111提供針對(duì)數(shù)據(jù)庫中被管理的數(shù)據(jù)的訪問手段。文本數(shù)據(jù)DB112是新聞消息等的文本數(shù)據(jù),文本注釋數(shù)據(jù)DB113是被賦予文本數(shù)據(jù)DB112的數(shù)據(jù)。檢索用索引DB114是用于能夠檢索文本數(shù)據(jù)DB112和注釋數(shù)據(jù)DB113的索引。論點(diǎn)體系(Ontology,論點(diǎn)實(shí)體)DB115是將辯論中經(jīng)常討論的論點(diǎn)和其關(guān)聯(lián)詞相關(guān)聯(lián)的數(shù)據(jù)庫。
接著,在說明了數(shù)據(jù)管理系統(tǒng)101之后,對(duì)系統(tǒng)100的各部分進(jìn)行說明。
存儲(chǔ)于文本數(shù)據(jù)DB112中的數(shù)據(jù)是新聞消息等的文本數(shù)據(jù),為了構(gòu)成評(píng)論文而從該文本數(shù)據(jù)中提取適當(dāng)?shù)囊庖娬Z句,通過將所提取的句子重新排列來生成論述文。因此,文本數(shù)據(jù)DB112是構(gòu)成要輸出的論述文的句子的數(shù)據(jù)源。從因特網(wǎng)抓取英語和日語的新聞消息來構(gòu)成文本數(shù)據(jù)DB112。對(duì)各個(gè)數(shù)據(jù)例如分配doc_id作為識(shí)別符進(jìn)行管理。
文本注釋數(shù)據(jù)DB113是存儲(chǔ)被賦予文本數(shù)據(jù)DB112的數(shù)據(jù)的DB。圖2是表示文本注釋數(shù)據(jù)的例子的圖。id是對(duì)于注釋唯一的識(shí)別符。doc_id表示存儲(chǔ)于文本數(shù)據(jù)DB112中的新聞消息的id。"annotation"表示注釋的種類。關(guān)于注釋的種類在后面敘述。"begin"是注釋的開始位置,在圖2的例子中,是指該注釋從文本數(shù)據(jù)的doc_id為001122的消息的第24字符開始。"end"是注釋的結(jié)束位置,在圖2的例子中,是指該注釋從文本數(shù)據(jù)112的doc_id為001122的消息的第29字符結(jié)束。"ref"是對(duì)其他注釋的引用,圖2的例子中,是指該注釋在id為125123的注釋中具有名為"arg0"的鏈接,并且在id為125124的注釋中具有名為"arg1"的鏈接。"attr"是注釋所具有的屬性,具有任意的哈希值。
作為文本數(shù)據(jù),以“Experts said that casinos dramatically increase the number of crimes.(專家說賭場(chǎng)大大增加了犯罪的數(shù)量)”為例,對(duì)文本注釋數(shù)據(jù)的附加方式進(jìn)行說明。該語句是對(duì)賭場(chǎng)帶來的危害進(jìn)行闡述,所以在生成關(guān)于賭場(chǎng)的論述文時(shí)是有用的。在此,根據(jù)“increase”(增加)這一單詞可知“casinos”(賭場(chǎng))促進(jìn)“the number of crimes”(犯罪率),所以對(duì)“increase”賦予"promote"的注釋。在此,“increase”出現(xiàn)在文本數(shù)據(jù)“Experts said that casinos dramatically increase the number of crimes.”的第40個(gè)字符~第47個(gè)字符,所以"begin"=40,"end"=47。另外,促進(jìn)的主體是“casinos”,所以對(duì)“casinos”賦予"promote_arg0"這樣的另一注釋。賦予該“casinos”的"promote_arg0"的id設(shè)想為125123。注釋的id由系統(tǒng)自動(dòng)地唯一地賦予。在這種情況下,為了知道“increase”與“casinos”的關(guān)系,從“increase”的"promote"注釋鏈接到“casinos”的"promote_arg0"注釋。這意味著圖2中的“"arg0":["125123"]”。另外,根據(jù)“dramatically”能夠估測(cè)促進(jìn)的程度強(qiáng),所以"degree"=4。"attr"的surface表示作為文本數(shù)據(jù)上的表達(dá)使用怎樣的單詞,在本例的情況下,promote的文本數(shù)據(jù)上的表達(dá)為“increase”,所以"surface"=increase。
作為注釋的種類,有positive、negative、promote、promote_arg0、promote_arg1、suppress、suppress_arg0、suppress_arg1。positive是具有正面的價(jià)值的事情,自然語言上的表達(dá)例如為benefit(有益)、ethic(道德倫理)、health(健康)等。negative是具有負(fù)面的價(jià)值,自然語言上的表達(dá)例如為disease(疾病)、crime(犯罪)、risk(風(fēng)險(xiǎn))等。promote是表示促進(jìn)的表達(dá),例如為increase(增加)、invoke(激活)、improve(改善)等。promote_arg0是促進(jìn)的主體,promote_arg1是被促進(jìn)的對(duì)象,如之前說明的那樣在賦予promote注釋時(shí),根據(jù)其周圍的句法信息被識(shí)別并被賦予。同樣,suppress是表示抑制的表達(dá),例如為decrease(降低)、stop(阻止)、worsen(惡化)等。suppress_arg0是抑制的主體,suppress_arg1是被抑制的事情,如之前說明的那樣在賦予suppress注釋時(shí),根據(jù)其周圍的句法信息被識(shí)別并被賦予。
這些注釋能夠?qū)ξ谋緮?shù)據(jù)如上述說明的那樣應(yīng)用句法分析的結(jié)果預(yù)先生成的規(guī)則來生成。另外能夠使用CRF++等被稱為順序式標(biāo)記(sequential labeling)的機(jī)器學(xué)習(xí)方法等生成。
檢索用索引DB114是用于能夠檢索文本數(shù)據(jù)DB112和文本注釋數(shù)據(jù)DB113的索引數(shù)據(jù)。作為關(guān)鍵詞檢索用的索引數(shù)據(jù),在類似檢索用中例如用TF-IDF計(jì)算各文本數(shù)據(jù)的特征詞的統(tǒng)計(jì)量,將其向量值作為類似檢索用的索引預(yù)先存儲(chǔ)?;蛘?,使用Solr等軟件,通過在Solr的索引生成用API中輸入文本數(shù)據(jù)、文本注釋數(shù)據(jù),也能夠自動(dòng)生成檢索用索引。
論點(diǎn)體系DB115是將辯論中經(jīng)常討論的論點(diǎn)和其關(guān)聯(lián)詞相關(guān)聯(lián)的數(shù)據(jù)庫。圖3表示存儲(chǔ)于論點(diǎn)體系DB115中的論點(diǎn)體系。欄300表示辯論中經(jīng)常討論的論點(diǎn)的價(jià)值。欄301表示促進(jìn)該價(jià)值觀的詞。欄302表示抑制該價(jià)值觀的詞。例如,作為論點(diǎn)的例子有health(健康)。這意味著有時(shí)在辯論中以健康這一價(jià)值是增加還是減少的觀點(diǎn)作為論點(diǎn)進(jìn)行意見的對(duì)戰(zhàn)。圖3的例子中,作為促進(jìn)health的價(jià)值的詞,有exercise(運(yùn)動(dòng))、doctor(醫(yī)生)、organ donation(器官捐贈(zèng))、medicine(醫(yī)學(xué))等。另外,作為抑制health的價(jià)值的詞,有junk food(垃圾食品)、tabacco(煙草)、alchohol(酒)、smoking(吸煙)等。論點(diǎn)體系最高不過是50行程度的數(shù)據(jù)庫,以過去的辯論等為參考而手動(dòng)生成。
接口部111是提供對(duì)文本數(shù)據(jù)DB112、文本注釋DB113、檢索用索引DB114、論點(diǎn)體系DB115的訪問手段的接口,以REST等技術(shù)安裝。
接著,對(duì)系統(tǒng)100的各部分進(jìn)行說明。
由輸入部102從用戶接受討論話題。從Web瀏覽器等GUI輸入討論話題。作為討論話題的例子,有“We should ban smoking in train stations.(是否需要禁止在車站吸煙)”等。另外,可以輸入后述的候補(bǔ)輸出文的數(shù)量等的設(shè)定。
圖4是表示討論話題分析部103的動(dòng)作的流程圖。在S400中使用OpenNLP等估測(cè)討論話題中所含的詞的POS標(biāo)簽,分析討論話題的語句的句法,生成句法分析樹。在S401中提取作為中心的動(dòng)詞?;厮菥浞ǚ治鰳?,查找動(dòng)詞,將位于最靠近ROOT的位置的動(dòng)作作為中心動(dòng)詞提取。另外對(duì)溯及動(dòng)詞之前Not等的否定表達(dá)的出現(xiàn)次數(shù)進(jìn)行計(jì)數(shù),如果次數(shù)為奇數(shù)則是否定表達(dá),如果為偶數(shù)(雙重否定等)則不是否定表達(dá)。例如在討論話題“We should ban smoking in train stations.(我們應(yīng)該禁止在火車站吸煙)”的情況下,作為動(dòng)詞提取ban(禁止),且對(duì)于ban沒有否定表達(dá),所以為無否定表達(dá)。
接著在S402中與詞典比對(duì),判定討論話題的正反極性。詞典中將accept(接受)、agree(同意)等表示對(duì)對(duì)象持肯定立場(chǎng)的動(dòng)詞和ban、abandon(放棄)等表示對(duì)對(duì)象持否定立場(chǎng)的動(dòng)詞區(qū)分開存儲(chǔ)。在本例的情況下,ban通過與詞典比對(duì),被判定為是持否定立場(chǎng)的動(dòng)詞。將其與之前已提取出的有無否定表達(dá)一起來判定最終的討論話題的正反極性。在本例中,正反極性被判定為是否定的(negative)。另一方面,在“We should not ban smoking.(我們不應(yīng)該禁止吸煙)”的討論話題的情況下,有否定表達(dá)、且ban為持否定立場(chǎng)的表達(dá),所以正反極性判定為是肯定的(positive)。此處判定出的正反極性,是指在接下來的S403中要提取的名詞短語的正反極性。
接著,在S403中提取作為討論話題的主題的名詞短語。從ROOT起僅對(duì)討論話題的句法分析樹中的具有"ROOT"、"S"、"NP"、"VP"、"SBAR"的句法標(biāo)簽的部分樹進(jìn)行搜索,挑出出現(xiàn)的名詞短語。例如在討論話題“We should ban smoking in train stations.”的情況下,提取smoking。接著在S404中提取上下文信息。將討論話題中所含的詞中POS標(biāo)簽為CC、FW、JJ、JJR、JJS、NN、NNP、NNPS、NNS、RP、VB、VBD、VBG、VBN、VBP、VBZ,且在S401和S403沒有被提取的單詞作為上下文信息提取。例如在討論話題“We should ban smoking in train stations.”的情況下,提取train、station。
接著在S405中進(jìn)行同義詞展開。使用詞典計(jì)算在S401、S403、S404中提取出的詞的同義詞。詞典可以使用例如WordNet等。例如在討論話題“We should ban smoking in train stations.”的情況下,作為名詞短語提取了smoking,作為其同義詞,計(jì)算出smoke、fume。同樣,對(duì)于S401中提取出的動(dòng)詞和S404中提取出的表示上下文信息的單詞也計(jì)算同義詞。通過上述步驟,在討論話題分析部103中從討論話題中提取作為中心的動(dòng)詞、正反極性、作為主題的名詞短語、上下文信息和它們的同義詞。這些都會(huì)被用在后級(jí)的部件中。
圖5是表示檢索部104的動(dòng)作的流程圖。在S500中,從文本數(shù)據(jù)DB112中用檢索用索引DB114的關(guān)鍵詞檢索用的索引檢索包含從討論話題中提取出的名詞短語的消息,取出前1000件。在S501中同樣地從文本數(shù)據(jù)112中用檢索用索引114的關(guān)鍵詞檢索用的索引檢索包含從討論話題中提取出的名詞短語和上下文信息的消息,取出前1000件。S501是在S500中加上了上下文信息作為關(guān)鍵詞的檢索。接著在S502中,計(jì)算作為討論話題中的特征詞的統(tǒng)計(jì)量的TF-IDF,提取檢索用索引114的類似檢索用的索引的與各消息的TF-IDF向量的歐幾里得距離近的1000件。通過進(jìn)行3個(gè)不同的變化的檢索,具有不會(huì)漏檢的效果。
接著,在S503中,按照下式對(duì)提取出的3000條消息進(jìn)行計(jì)分。
得分=(從討論話題中提取出的名詞短語出現(xiàn)的次數(shù))
+(論點(diǎn)體系內(nèi)的單詞出現(xiàn)的次數(shù))
-(消息的新舊度)
此處消息的新舊度是指,如果最新年份為2014年,則2014年發(fā)行的消息為0,2013年發(fā)行的消息為1,2012年發(fā)行的消息為2。接著在S504中,輸出得分高的上述100件消息。像這樣,通過提高單詞的出現(xiàn)次數(shù)高的消息的得分,能夠發(fā)現(xiàn)與討論話題、論點(diǎn)的關(guān)聯(lián)性高的消息。另外,通過對(duì)消息的新舊度也進(jìn)行計(jì)分,能夠發(fā)現(xiàn)反映了較新的數(shù)據(jù)的消息,能夠增加最終輸出的文章的說服力。
圖6是表示論點(diǎn)確定部105的動(dòng)作的流程圖。圖6的流程對(duì)檢索部104輸出的各個(gè)消息執(zhí)行。S600中對(duì)論點(diǎn)體系的全部論點(diǎn)k進(jìn)行循環(huán)。圖3的例子是以k=health、fortune、safety……的順序進(jìn)行循環(huán)。S601中,求取論點(diǎn)體系內(nèi)的論點(diǎn)k、表示促進(jìn)k的詞、表示抑制k的詞的在該消息中的TF-IDF。實(shí)際上,由于包含在用檢索部104進(jìn)行類似檢索所用的TF-IDF向量中,所以從檢索用索引114取得該值。TF-IDF按每個(gè)單詞具有值、所以在論點(diǎn)k、表示促進(jìn)k的詞、表示抑制k的詞存在多個(gè)TF-IDF。S602中,計(jì)算這些TF-IDF值之和,設(shè)為Sk。在S603中結(jié)束循環(huán)。S604中將Sk最大的k估測(cè)為該消息的論點(diǎn)。該論點(diǎn)表示該消息整體主要是以何種價(jià)值觀為重點(diǎn)進(jìn)行闡述。像這樣,按每個(gè)消息判別論點(diǎn),在之后的處理中按每個(gè)論點(diǎn)分組來生成文章,由此能夠生成闡述貫穿全文的主張的評(píng)論文。因此,像這樣按每個(gè)消息確定論點(diǎn)的處理是很重要的。
圖7是表示語句提取部106中的動(dòng)作的流程圖。S700中,語句提取部106生成存儲(chǔ)要輸出的語句的空列表。S701中進(jìn)行循環(huán)處理直到在對(duì)論點(diǎn)確定部所輸出的全部消息的全部語句執(zhí)行處理。S702中,按照?qǐng)D8所示的多個(gè)條件對(duì)語句進(jìn)行計(jì)分。800表示條件的ID,801表示條件,802表示滿足該條件時(shí)的點(diǎn)數(shù)。在符合圖8的各條件的情況下,將對(duì)應(yīng)的點(diǎn)數(shù)加分。語句的得分為全部點(diǎn)數(shù)之和。例如某個(gè)語句僅滿足#1和#4的情況下,該語句的得分為6。在S703中得分的值為5以上,所以將該語句追加到在S700中所生成的列表中。在S704中結(jié)束循環(huán)。S705中將列表中的語句作為語句提取部106的輸出。通過這樣的結(jié)構(gòu),能夠?qū)⒁粋€(gè)消息中與討論話題和論點(diǎn)無關(guān)的語句從接下來的語句重新排列部中要用的候補(bǔ)中除掉。
圖9是表示語句重新排列部107的動(dòng)作的流程圖。S900中按每個(gè)論點(diǎn)將語句分組。論點(diǎn)確定部105中估測(cè)每個(gè)消息中觀點(diǎn)是什么。由此以語句的提取源的消息的論點(diǎn)為關(guān)鍵將語句分組。例如當(dāng)由論點(diǎn)確定部105確定的論點(diǎn)僅為5個(gè)時(shí),由語句提取部106提取出的語句被分類為5組。S901中對(duì)全部組進(jìn)行循環(huán)。S902中將組內(nèi)的全部語句按是否符合主張、理由、對(duì)應(yīng)例子的哪個(gè)種類進(jìn)行標(biāo)記(labeling)。該標(biāo)記能夠使用機(jī)器學(xué)習(xí)的方法。例如能夠用Bag-of-words(詞包模型)等公知的方法將語句轉(zhuǎn)換為特征量向量,用SVM等機(jī)器學(xué)習(xí)方法將其分類。
接著,在S903中通過應(yīng)用于模板來排列語句,生成論述文。例如在按主張→理由→例子→主張→理由→例子將主張、理由、例子重復(fù)兩次的模板的情況下,首先,選擇組中的語句的主張中由語句提取部106計(jì)算出的得分最高的主張。同樣,以理由、例子、主張、理由、例子的順序從得分高的起依次選擇來填入模板。S904中結(jié)束循環(huán)。
像這樣,在語句重新排列部107中,生成關(guān)于多個(gè)論點(diǎn)的論述文。然后,在接下來的評(píng)價(jià)部108中,對(duì)由語句重新排列部107生成的多個(gè)論述文進(jìn)行評(píng)價(jià),由此首次確定最終輸出文章的論點(diǎn)、即本系統(tǒng)的論述文的立場(chǎng)或價(jià)值觀。像這樣,通過僅使用從確定為相同論點(diǎn)的消息中抽出的語句生成論述文,能夠以一貫性的立場(chǎng)論述的文章。
圖10是表示評(píng)價(jià)部108的動(dòng)作的流程圖。評(píng)價(jià)部108將重新排列生成的文章視作闡述對(duì)討論話題的意見的論述文的候補(bǔ),進(jìn)行評(píng)價(jià),將評(píng)價(jià)值高的文章作為最終的輸出。S1000中對(duì)使用語言模型生成的論述文的好壞進(jìn)行評(píng)價(jià)。這能夠用與統(tǒng)計(jì)的機(jī)器翻譯中使用的方法同樣的方法實(shí)施。具體來說,收集由人作出的論述文的數(shù)據(jù),將它們用n-gram語言模型或神經(jīng)網(wǎng)絡(luò)語言模式(Neural Network Language Model)等公知的方法預(yù)先模型化。通過對(duì)像這樣生成的評(píng)價(jià)模型應(yīng)用所生成的論述文并計(jì)算似然率,能夠?qū)⑺迫宦矢叩恼撌鑫淖鳛樵u(píng)價(jià)值高的論述文輸出。不必說評(píng)價(jià)方法并不限定于此,能夠使用其他公知的方法或啟發(fā)式的規(guī)則或基準(zhǔn),對(duì)所生成的論述文進(jìn)行評(píng)價(jià)。
S1001中將評(píng)價(jià)值高的3個(gè)論述文輸出。在評(píng)價(jià)部108中輸入由語句重新排列部107按每個(gè)論點(diǎn)分組后的組數(shù)的論述文。通過S1001,輸出最終的3個(gè)論述文。本實(shí)施例中,使用本系統(tǒng)的用戶,為了容易在短時(shí)間內(nèi)掌握文章的內(nèi)容而輸出3篇文章,但也可以根據(jù)通過輸入部輸入的用戶的設(shè)定,變更要輸出的文章的數(shù)量。通過采用這樣的結(jié)構(gòu),能夠進(jìn)行與用戶的知識(shí)水平相應(yīng)的使用。
圖11是表示改寫部109的動(dòng)作的流程圖。S1100中對(duì)呼應(yīng)關(guān)系的偏差進(jìn)行修正。具體來說,在論述文的各語句中,對(duì)提取源的消息用上述的OpenNLP執(zhí)行共同參照分析。使用其結(jié)果,找到作為論述文中的語句的代名詞的參照對(duì)象的名詞和固有名詞,替換該代名詞。S501中,補(bǔ)充上連接詞。對(duì)論述文的連續(xù)的2個(gè)語句,如果在后面的語句的開頭有連接詞,則首先將其去除。接著,將連結(jié)前一語句的Bag-of-words和后一語句的Bag-of-words向量的向量作為特征量,用SVM估測(cè)連接詞。S502中將包含固有名詞的句子刪除。僅對(duì)由語句重新排列部107判定為主張的語句,如果存在包含固有名詞的句子則將其刪除。
例如如果有“Expert said that casino dramatically increase the number of crimes in Kokubunji-shi.(專家說賭場(chǎng)大大增加在國(guó)分寺市的犯罪數(shù)量)”這樣的語句,則作為構(gòu)成論述文的抽象的主張的語句,包含固有名詞就顯得不自然,所以將“in Kokubunji-shi(在國(guó)分寺市)”的短語刪除,輸出為“Expert said that casino dramatically increase the number of crimes.(專家說賭場(chǎng)大大增加的犯罪數(shù)量)”。像這樣,通過補(bǔ)上連接詞,修正呼應(yīng)關(guān)系,使重新排列的多個(gè)語句的抽象度變得相同,由此輸出意思相同的文章作為辯論的評(píng)論文。
輸出部110將作為系統(tǒng)的最終輸出的論述文通過顯示器等方式提示給用戶。當(dāng)然除了顯示器的顯示以外,也可以輸出合成的聲音。在實(shí)際的辯論的情況下,肯定方和否定方分別口頭闡述意見,所以輸出聲音的方式對(duì)于用戶來說能夠進(jìn)一步給予臨場(chǎng)感。
綜上所述,本實(shí)施例記載的文章生成系統(tǒng),是一種輸出針對(duì)討論話題的評(píng)論文的文章生成系統(tǒng),其特征在于,包括:輸入討論話題的輸入部;分析討論話題,判定討論話題的正反極性和檢索中要使用的關(guān)鍵詞的討論話題分析部;使用關(guān)鍵詞和表示討論中的論點(diǎn)的論點(diǎn)詞檢索消息的檢索部;確定生成評(píng)論文時(shí)使用的論點(diǎn)的論點(diǎn)確定部;從檢索部所輸出的消息中提取就論點(diǎn)所論述的語句的語句提取部;通過重新排列語句來生成文章的語句重新排列部;評(píng)價(jià)文章的評(píng)價(jià)部;對(duì)文章插入適當(dāng)?shù)倪B接詞的改寫部;和從多個(gè)文章中將評(píng)價(jià)最高的文章作為評(píng)論文輸出的輸出部。
另外,本實(shí)施例記載的文章生成方法,是一種輸出對(duì)于討論話題的評(píng)論文的文章生成方法,其特征在于,包括:輸入討論話題的第1步驟;分析討論話題,判定討論話題的正反極性和檢索中要使用的關(guān)鍵詞的第2步驟;使用關(guān)鍵詞和表示討論中的論點(diǎn)的論點(diǎn)詞檢索消息的第3步驟;確定生成評(píng)論文時(shí)使用的論點(diǎn)的第4步驟;從在第3步驟輸出的消息提取就論點(diǎn)所論述的語句的第5步驟;通過重新排列所述語句來生成文章的第6步驟;對(duì)文章進(jìn)行評(píng)價(jià)的第7步驟;對(duì)文章插入適當(dāng)?shù)倪B接詞的第8步驟;和從多個(gè)文章中將評(píng)價(jià)最高的文章作為上述評(píng)論文輸出的第9步驟。
像這樣,基于作為評(píng)論文的根本的論點(diǎn),對(duì)消息進(jìn)行分類,提取語句,重新排列文章,由此能夠生成針對(duì)一個(gè)論點(diǎn)進(jìn)行闡述的文章,能夠使評(píng)論文保持一貫性。另外,不是像人在辯論中進(jìn)行立論時(shí)那樣,預(yù)先確定論點(diǎn)然后再收集信息,而是對(duì)全部的論點(diǎn)進(jìn)行檢索,生成語句的基礎(chǔ)上,對(duì)多個(gè)論點(diǎn)一律進(jìn)行評(píng)價(jià),由此能夠不拘泥于論點(diǎn)地生成具有說服力的評(píng)論文。
附圖標(biāo)記的說明
100…生成系統(tǒng)
101…數(shù)據(jù)管理系統(tǒng)
102…輸入部
103…討論話題分析部
104…檢索部
105…論點(diǎn)確定部
106…語句提取部
107…語句重新排列部
108…評(píng)價(jià)部
109…改寫部
110…輸出部
111…接口
112…文本數(shù)據(jù)數(shù)據(jù)庫
113…文本注釋數(shù)據(jù)庫
114…檢索用索引數(shù)據(jù)庫
115…論點(diǎn)體系數(shù)據(jù)庫。