數(shù)據(jù)處理裝置及故事模型構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的實(shí)施方式涉及數(shù)據(jù)處理裝置及故事模型構(gòu)建方法。
【背景技術(shù)】
[0002] 照應(yīng)解析(Anaphora Resolution)、共參照解析(Coreference Resolution)、對(duì)話(huà) 處理(Dialog Processing)等文脈解析(Contextual Analysis),在自然語(yǔ)言處理中在正確 地理解文章方面是重要的任務(wù)。在文脈解析中,已知使用香克腳本或菲爾摩爾幀那樣的程 序性知識(shí)(Procedural Knowledge)是有效D程序性知識(shí)指的是,與"一序列程序之后接續(xù) 的程序是什么"這樣的問(wèn)題有關(guān)的知識(shí)。將該程序性知識(shí)通過(guò)計(jì)算機(jī)再現(xiàn)的模型是故事模 型。
[0003] 以往,提出了以下的技術(shù):從任意的文章群獲得相互關(guān)聯(lián)的謂語(yǔ)和格的對(duì)(以下 稱(chēng)為"事件空位(event slot)")的序列,從該事件空位序列生成事例數(shù)據(jù),通過(guò)機(jī)器學(xué)習(xí) 的訓(xùn)練來(lái)構(gòu)建故事模型。
[0004] 事件空位序列將事件空位作為要素,該事件空位是共用項(xiàng)的謂語(yǔ)和共用項(xiàng)的格種 類(lèi)的組合,將該事件空位按照出現(xiàn)順序排列。作為事件空位序列的要素的事件空位的種類(lèi) 有多種多樣,所以為了進(jìn)行充分的學(xué)習(xí)而構(gòu)件高精度的故事模型,需要與其相應(yīng)的龐大的 學(xué)習(xí)數(shù)據(jù)。但是,獲得可靠性高的學(xué)習(xí)數(shù)據(jù)非?;ㄙM(fèi)成本。因此,如果不能收集充分的學(xué)習(xí) 數(shù)據(jù),就會(huì)產(chǎn)生學(xué)習(xí)數(shù)據(jù)不足,其結(jié)果,構(gòu)建的故事模型的精度可能會(huì)變低。
[0005] 現(xiàn)有技術(shù)文獻(xiàn)
[0006] 非專(zhuān)利文獻(xiàn)
[0007] 非專(zhuān)利文獻(xiàn) I :V. Pekar. 2006. Acquisition of verb entailment from text. In ^Proceedings of the main conference on Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics'', pages 49.56. Association for Computational Linguistic.
[0008] 非專(zhuān)利文獻(xiàn) 2 :I. Szpektor and I. Dagan. 2008. Learning entailment rules for unary templates. In ^Proceedings of the 22nd International Conferenceon Computational Linguistics-Volumel",pages 849. 856. Association for Computational Linguistics.
[0009] 非專(zhuān)利文獻(xiàn) 3 :N. Chambers and D. Jurafsky. 2009. Unsupervised learning of narrative schemas and their participants. In"Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP :Volume 2-Volume 2",pages 602.610. Association for Computational Linguistics.
[0010] 非專(zhuān)利文獻(xiàn) 4 :R. Kneser and H. Ney. Improved backing-off for m-gram language modeling. In Proceedings of ICASSP,Vol. 1,pp. 18L 184,1995.
[0011] 非專(zhuān)利文獻(xiàn) 5 :R. Rosenfeld :"Adaptive Statistical Language Modeling :A Maximum Entropy Approach'',PL D. Thesis,Technical Report CMU-CS-94-138, School of Computer Science,Carnegie-Mellon University,Pittsburgh,PA,114pages,1994.
[0012] 非專(zhuān)利文獻(xiàn) 6 :Goodman and Joshua T :"A bit of progressin language modeling'', Computer Speech&Language, volumel5, number4, pages 403-434,2001. Elsevier.
[0013] 非專(zhuān)利文南犬 7 :Sven Martin, Christoph Hamacher, Jorg Liermann, Frank Wessel,and Hermann Ney. 1999. Assessment of smoothing methods and complex stochastic language modeling. In 6th European Conference on Speech Communication and Technology,volume5, pagesl939. 1942, Budapest,Hungary,September.
【發(fā)明內(nèi)容】
[0014] 發(fā)明所要解決的課題
[0015] 本發(fā)明所要解決的課題是,提供一種能夠構(gòu)件高精度的故事模型的數(shù)據(jù)處理裝置 及故事模型構(gòu)建方法。
[0016] 解決課題所采用的技術(shù)手段
[0017] 實(shí)施方式的數(shù)據(jù)處理裝置具備:提取部、事例生成部、模型構(gòu)建部。提取部從被進(jìn) 行謂語(yǔ)項(xiàng)構(gòu)造解析及共參照解析的文章中,將具有共用項(xiàng)的謂語(yǔ)和表示所述共用項(xiàng)的格的 種類(lèi)的格種類(lèi)信息的組合作為要素,與所述共用項(xiàng)一起提取將多個(gè)所述要素按照所述文章 中的所述謂語(yǔ)的出現(xiàn)順序排列的要素序列。事例生成部,在將構(gòu)成所述要素序列的所述要 素中的1個(gè)作為關(guān)注要素時(shí),對(duì)于各個(gè)所述關(guān)注要素,生成用特征矢量表現(xiàn)的事例數(shù)據(jù),該 特征矢量包含與將所述關(guān)注要素作為末尾的要素的所述要素序列內(nèi)的部分序列有關(guān)的1 個(gè)以上的特征量和與對(duì)應(yīng)于所述部分序列的所述共用項(xiàng)的序列有關(guān)的1個(gè)以上的特征量 的至少某一個(gè)特征量。模型構(gòu)建部使用所述事例數(shù)據(jù)進(jìn)行基于識(shí)別模型的機(jī)器學(xué)習(xí),從而 構(gòu)建用于推測(cè)后續(xù)于在先文脈的所述要素的故事模型。
【附圖說(shuō)明】
[0018] 圖1是使用以"犯罪者"為共用項(xiàng)的事件空位序列的概率模型的示意圖。
[0019] 圖2是說(shuō)明非專(zhuān)利文獻(xiàn)3所記載的方法的示意圖。
[0020] 圖3是表示第1實(shí)施方式的數(shù)據(jù)處理裝置的構(gòu)成例的框圖。
[0021] 圖4是表示帶有訓(xùn)練用標(biāo)記的文章的具體例的圖。
[0022] 圖5是表示訓(xùn)練用事件空位序列數(shù)據(jù)的具體例的圖。
[0023] 圖6是說(shuō)明由事件空位序列提取器實(shí)施的處理的流程圖。
[0024] 圖7是表示訓(xùn)練用事例數(shù)據(jù)的具體例的圖。
[0025] 圖8是說(shuō)明由機(jī)器學(xué)習(xí)用事例生成器實(shí)施的處理的流程圖。
[0026] 圖9是說(shuō)明事件空位履歷特征生成器的處理的流程圖。
[0027] 圖10是說(shuō)明共用項(xiàng)履歷特征生成器的處理的流程圖。
[0028] 圖11是表示由共用項(xiàng)表現(xiàn)生成器生成的共用項(xiàng)表現(xiàn)群的一例的圖。
[0029] 圖12是說(shuō)明共用項(xiàng)表現(xiàn)生成器的處理的流程圖。
[0030] 圖13是表示后續(xù)事件空位推測(cè)模型的一例的圖。
[0031] 圖14是說(shuō)明由后續(xù)事件空位推測(cè)訓(xùn)練器實(shí)施的處理的流程圖。
[0032] 圖15是說(shuō)明預(yù)測(cè)處理中的機(jī)器學(xué)習(xí)用事例生成器的處理的流程圖。
[0033] 圖16是表示后續(xù)事件空位推測(cè)結(jié)果的一例的圖。
[0034] 圖17是說(shuō)明由后續(xù)事件空位預(yù)測(cè)器執(zhí)行的處理的流程圖。
[0035] 圖18是表示第2實(shí)施方式的數(shù)據(jù)處理裝置的構(gòu)成例的框圖。
[0036] 圖19是表示訓(xùn)練用事例數(shù)據(jù)的具體例的圖。
[0037] 圖20是說(shuō)明組合特征生成器的處理的流程圖。
[0038] 圖21是說(shuō)明數(shù)據(jù)處理裝置的硬件構(gòu)成的圖。
【具體實(shí)施方式】
[0039] 以下,參照【附圖說(shuō)明】實(shí)施方式的數(shù)據(jù)處理裝置及故事模型構(gòu)建方法。
[0040] 作為用于在文脈解析中正確地理解文脈的手法,使用通過(guò)機(jī)器學(xué)習(xí)而構(gòu)建的故 事模型非常有效。特別是近年來(lái),利用因特網(wǎng)的云智能交流逐漸普及,例如進(jìn)行從論壇或 博客、Twitter (注冊(cè)商標(biāo))、SNS (Social Networking Service)等的用戶(hù)生成媒體(CGM: Consumer Generated Media)提取因特網(wǎng)上上的評(píng)價(jià)或意見(jiàn)這樣的分析。在這樣的分析中, 期待通過(guò)使用故事模型來(lái)正確地理解文脈。
[0041 ] 在本實(shí)施方式的故事模型構(gòu)建方法中,從被進(jìn)行謂語(yǔ)項(xiàng)構(gòu)造解析及共參照解析的 文章群提取事件空位序列群,使用提取的事件空位序列群生成機(jī)器學(xué)習(xí)用的事例數(shù)據(jù)群, 通過(guò)使用了該事例數(shù)據(jù)群的機(jī)器學(xué)習(xí)來(lái)構(gòu)建故事模型。
[0042] 事件空位序列是具有共用項(xiàng)的謂語(yǔ)和格種類(lèi)的對(duì)的序列。以往,嘗試過(guò)將該事件 空位序列的概率模型作為程序性知識(shí)利用而進(jìn)行文脈解析等。這是基于共用項(xiàng)的謂語(yǔ)彼此 具有某種關(guān)系這一假說(shuō)的。在以往的方式中,共用項(xiàng)用于找出事件空位,僅對(duì)于除去了共用 項(xiàng)的事件空位序列進(jìn)行頻度的計(jì)數(shù)。
[0043] 圖1是使用以"犯罪者"為共用項(xiàng)的事件空位序列的概率模型的示意圖。圖I (a)表 示日語(yǔ)的例子,圖1(b)表示英語(yǔ)的例子。圖中的箭頭表示概率模型的存在,箭頭的根部表 示帶有條件的概率中的作為條件的概率變量,箭頭的頭部表示作為評(píng)價(jià)對(duì)象的概率變量。 此外,圖中的虛線表示不存在概率模型。根據(jù)以往的方式,在該圖1所示的例子中,頻度的 計(jì)數(shù)(以及基于此的概率計(jì)算)僅對(duì)于除去作為共用項(xiàng)的"犯罪者"之外的事件空位序列 (犯t (動(dòng)2).力'格,捕圭;1? (動(dòng)1).片各,投獄玄忌(動(dòng)4).片各)進(jìn)行。另外,在圖 1所示的例子中,進(jìn)行謂語(yǔ)的語(yǔ)義噯昧性除去處理,并向構(gòu)成事件空位序列的各事件空位的 謂語(yǔ)附加用于確定該謂語(yǔ)的語(yǔ)義的語(yǔ)義確定信息(動(dòng)2、動(dòng)1、動(dòng)4等),但是向謂語(yǔ)附加語(yǔ) 義確定?目息并不是必須的。
[0044] 作為事件空位序列的要素的事件空位是謂語(yǔ)和格種類(lèi)的組合,所以其種類(lèi)是謂語(yǔ) 的語(yǔ)匯數(shù)X格種類(lèi)的數(shù)量而非常龐大。因此,為了進(jìn)行充分的學(xué)習(xí),需要與其相應(yīng)的龐大 的學(xué)習(xí)數(shù)據(jù)。為了收集可靠性高的學(xué)習(xí)數(shù)據(jù)非常花費(fèi)成本。因此,如果不能收集充分的學(xué) 習(xí)數(shù)據(jù),就會(huì)發(fā)生學(xué)習(xí)數(shù)據(jù)不足,其結(jié)果,產(chǎn)生所構(gòu)建的模型的精度變低的問(wèn)題。
[0045] 在學(xué)習(xí)數(shù)據(jù)不足中特別致命的情況是,無(wú)法獲得連接性的線索。例如在圖1所示 的例子中,為了學(xué)習(xí)"捕圭;1? (動(dòng)I). ^格"和"投獄(動(dòng)4). ^格"的連接性,在以 往的方式中,需要對(duì)它們連續(xù)出現(xiàn)的頻度進(jìn)行計(jì)數(shù)。但是,在學(xué)習(xí)數(shù)據(jù)中,這2個(gè)事件空位 1次也沒(méi)有連續(xù)出現(xiàn)的狀況經(jīng)常發(fā)生。這樣,無(wú)法進(jìn)行考慮了連接性的預(yù)測(cè),導(dǎo)致精度沿著 下降。
[0046] 作為解決零概率的方法,以往提出