欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

數(shù)據(jù)處理裝置及故事模型構(gòu)建方法_3

文檔序號:9510146閱讀:來源:國知局
列提取器2輸入的帶有訓(xùn)練用標(biāo)記的文章群Dl的一 部的、帶有訓(xùn)練用標(biāo)記的文章的具體例的圖,圖4(a)表示日語的例子,圖4(b)表示英語的 例子。如圖4所示,帶有訓(xùn)練用標(biāo)記的文章包括:被賦予了詞素(單詞分割)信息的文本、 零照應(yīng)或代名詞照應(yīng)等的照應(yīng)關(guān)系已經(jīng)解決的照應(yīng)已解決的謂語項(xiàng)構(gòu)造解析信息、共參照 信息。在本實(shí)施方式中,謂語項(xiàng)構(gòu)造解析信息和共參照信息是必須的,但是帶有訓(xùn)練用標(biāo)記 的文章并不是必須以圖4所示的格式處理。即,只要帶有訓(xùn)練用標(biāo)記的文章包含謂語項(xiàng)構(gòu) 造解析信息和共參照信息,就能夠利用以任意的格式表現(xiàn)的文章。另外,在圖4(a)的日語 的例子和圖4(b)的英語的例子中,雖然使用的語言存在差異,但是數(shù)據(jù)自身在本質(zhì)上沒有 差異。因此,以下僅說明日語的例子。
[0081] 在圖4所示的帶有訓(xùn)練用標(biāo)記的文章中,在"文本和詞素解析(單詞分割)信息" 的段落中,文本被進(jìn)行單詞分割,各單詞被分配詞素編號。此外,在"照應(yīng)已解決的謂語項(xiàng)構(gòu) 造信息"的段落中,與文本上省略的項(xiàng)通過照應(yīng)解析而解決了照應(yīng)的狀態(tài)下的各謂語的謂 語項(xiàng)構(gòu)造有關(guān)的信息,與對各謂語分配的ID-起示出。各謂語的謂語項(xiàng)構(gòu)造包含謂語的詞 素編號及其語義、從屬于謂語的各項(xiàng)的格種類及詞素編號。另外,在圖4(a)所示的例子中, 詞素編號12的謂語和詞素編號15的謂語的力'格和^格是通過照應(yīng)解析解決的項(xiàng)。此外, 在"共參照信息"的段落中,按照在文本上被看作處于共參照關(guān)系的每個名詞句群(以下稱 為共參照類),與對各共參照類分配的ID -起,將該共參照類的成員以與謂語項(xiàng)構(gòu)造建立 了對應(yīng)的方式示出。
[0082] 另外,圖4所例示的帶有訓(xùn)練用標(biāo)記的文章例如可以利用在后述的預(yù)測處理中使 用的文本解析器1(或者具有同等功能的模塊)對任意的文本附加解析結(jié)果的標(biāo)記而生成, 也可以人工對任意的文本附加標(biāo)記而生成。
[0083] 圖5是表示作為事件空位序列提取器2輸出的訓(xùn)練用事件空位序列數(shù)據(jù)群D2的 一部的、訓(xùn)練用事件空位序列數(shù)據(jù)的具體例的圖,使出了從圖4(a)所示的帶有訓(xùn)練用標(biāo)記 的文章提取的訓(xùn)練用事件空位序列數(shù)據(jù)的例子。在圖5所示的訓(xùn)練用事件空位序列數(shù)據(jù) 中,左側(cè)的段落示出了在最后尾追加 "</s >"這一要素的事件空位序列。序列內(nèi)的各事 件空位共用項(xiàng),該共用項(xiàng)的信息在右側(cè)的段落示出。另外,序列的最后尾的"< /s >"這一 要素是表示該序列的結(jié)束的模擬事件空位,用于學(xué)習(xí)容易結(jié)束的序列樣式。
[0084] 圖5所示的訓(xùn)練用事件空位序列數(shù)據(jù),按照共參照類的數(shù)量從圖4 (a)所示的帶有 訓(xùn)練用標(biāo)記的文章生成。即,圖5的例子是從圖4(a)所示的帶有訓(xùn)練用標(biāo)記的文章對由 [C01]的ID表示的共參照類生成的訓(xùn)練用事件空位序列數(shù)據(jù),但是從圖4 (a)所示的帶有訓(xùn) 練用標(biāo)記的文章,對于由[C02]的ID表示的共參照類,也同樣地生成訓(xùn)練用事件空位序列 數(shù)據(jù)。
[0085] 圖6是說明由事件空位序列提取器2實(shí)施的處理的流程圖。事件空位序列提取器 2對于輸入的帶有訓(xùn)練用標(biāo)記的文章群Dl所包含的各個帶有訓(xùn)練用標(biāo)記的文章(參照圖 4),進(jìn)行以下的步驟SlOl~步驟S104的處理而生成訓(xùn)練用事件空位序列數(shù)據(jù)(參照圖5), 輸出訓(xùn)練用事件空位序列數(shù)據(jù)群D2。另外,圖6所例示的事件空位序列提取器2的處理是 從圖4所例示的格式的帶有訓(xùn)練用標(biāo)記的文章輸出圖5所例示的格式的訓(xùn)練用事件空位序 列數(shù)據(jù)的例子。帶有訓(xùn)練用標(biāo)記的文章及訓(xùn)練用事件空位序列數(shù)據(jù)的格式與圖4或圖5的 例子不同的情況下,事件空位序列提取器2進(jìn)行與該格式相應(yīng)的處理即可。
[0086] 步驟SlOl :事件空位序列提取器2從作為輸入數(shù)據(jù)的帶有訓(xùn)練用標(biāo)記的文章的 "共參照信息"的段落取出1個共參照類。
[0087] 步驟S102:事件空位序列提取器2將列舉了共參照類內(nèi)的各成員的詞素編號和表 層者記錄到成為輸出數(shù)據(jù)的訓(xùn)練用事件空位序列數(shù)據(jù)的右側(cè)的段落。
[0088] 步驟S103 :事件空位序列提取器2將共參照類內(nèi)的各成員的括弧內(nèi)記錄的信息 (事件空位信息)作為序列取出,將謂語的詞素編號置換為謂語的表層和語義,進(jìn)而在該序 列的最后尾附加"< /s >"這一要素,然后記錄到成為輸出數(shù)據(jù)的訓(xùn)練用事件空位序列數(shù) 據(jù)的左側(cè)的段落。
[0089] 步驟S104 :事件空位序列提取器2對于帶有訓(xùn)練用標(biāo)記的文章的"共參照信息"的 段落所記述的所有共參照類進(jìn)行上述的步驟SlOl~步驟S103的處理。
[0090] 接下來,說明機(jī)器學(xué)習(xí)用事例生成器3。首先,說明本實(shí)施方式的數(shù)據(jù)處理裝置 100中的機(jī)器學(xué)習(xí)用事例生成器3的定位。在本實(shí)施方式的數(shù)據(jù)處理裝置100中,后續(xù)事 件空位推測訓(xùn)練器7及后續(xù)事件空位推測預(yù)測器8所進(jìn)行的機(jī)器學(xué)習(xí)處理以識別模型為基 礎(chǔ),其目的是預(yù)測Ngram序列的概率。即,將y設(shè)為事件空位、將X設(shè)為事件空位序列的履 歷時,P(y|x)成為應(yīng)預(yù)測的概率。在該最優(yōu)化中使用最尤推測,但是為此需要將表現(xiàn)為機(jī) 器學(xué)習(xí)用的X和y的組作為事例數(shù)據(jù)預(yù)先制作。機(jī)器學(xué)習(xí)用事例生成器3承擔(dān)制作該事例 數(shù)據(jù)的處理。
[0091] 如上述那樣,機(jī)器學(xué)習(xí)用事例生成器3從事件空位序列提取器2接受訓(xùn)練用事件 空位序列數(shù)據(jù)群D2而作為輸入,輸出訓(xùn)練用事例數(shù)據(jù)群D3。
[0092] 圖7是作為表示機(jī)器學(xué)習(xí)用事例生成器3輸出的訓(xùn)練用事例數(shù)據(jù)群D3的一部分 的、訓(xùn)練用事例數(shù)據(jù)的具體例的圖,示出了從圖5所示的訓(xùn)練用事件空位序列數(shù)據(jù)生成的 訓(xùn)練用事例數(shù)據(jù)的例子。但是,圖7的訓(xùn)練用事例數(shù)據(jù)是將Ngram次數(shù)設(shè)為2 (bigram)、將 圖5所示的訓(xùn)練用事件空位序列數(shù)據(jù)的"投獄玄§ (動4). ^格"作為關(guān)注要素時的與該 關(guān)注要素有關(guān)的訓(xùn)練用事例數(shù)據(jù)。
[0093] 在圖7所示的訓(xùn)練用事例數(shù)據(jù)中,在以"y : "開始的段落中記載著輸出標(biāo)簽。輸 出標(biāo)簽表示在預(yù)測后續(xù)事件空位的預(yù)測處理中成為正確答案的事件空位。
[0094] 此外,在圖7所示的訓(xùn)練用事例數(shù)據(jù)中,在以"X : "開始的段落中記載著與成為用 于預(yù)測后續(xù)事件空位的線索的信息對應(yīng)的特征矢量。特征矢量按照每個要素(維度)以逗 號劃分,各要素以冒號劃分。位于冒號之前的是用于識別維度的維度ID,位于冒號之后的 是該維度的值(特征量)。在此未被指定的維度的值看作0。該標(biāo)記是在將大部分要素為 〇的高維度稀疏的矢量緊湊地表現(xiàn)時經(jīng)常使用的記法。維度ID用字符串表示,用于在不同 的事例的特征矢量所包含的要素間判定是否為同一維度。在后續(xù)的機(jī)器學(xué)習(xí)處理中,在必 須解釋為數(shù)學(xué)矢量時,進(jìn)行適當(dāng)分配以使各維度ID成為不同的矢量要素編號(將各維度ID 分配給數(shù)學(xué)矢量的哪個要素編號,最優(yōu)化的結(jié)果都是相同的)。另外,在本實(shí)施方式中,各維 度的值僅使用1和0。
[0095] 如上述那樣,特征矢量包含與事件空位的履歷有關(guān)的1個以上的特征量和與共用 項(xiàng)的履歷有關(guān)的1個以上的特征量。在圖7所示的例子中,與以" [EventSlot] "開始的維 度ID對應(yīng)的值是與事件空位的履歷有關(guān)的特征量(以下稱為事件空位履歷特征),與以 " [ShareArg] "開始的維度ID對應(yīng)的值是與共用項(xiàng)的履歷有關(guān)的特征量(以下稱為共用項(xiàng) 履歷特征)。在此,事件空位履歷特征及共用項(xiàng)履歷特征在將Ngram次數(shù)設(shè)為i時,對于i 以下的所有次數(shù)的Ngram序列生成。例如,在圖7所示的例子中,Ngram次數(shù)為2,所以生成 bigram序列的履歷特征和unigram序列的履歷特征。由此,在bigram序列為0頻度的情況 下,能夠得到用unigram序列插值的平滑化的效果。對于實(shí)施方式來說,也可以使用僅包含 上述的事件空位履歷特征或共用項(xiàng)履歷特征的某一方的特征矢量。
[0096] 圖8是說明由機(jī)器學(xué)習(xí)用事例生成器3實(shí)施的處理的流程圖。機(jī)器學(xué)習(xí)用事例生 成器3對于輸入的訓(xùn)練用事件空位序列數(shù)據(jù)群D2所包含的各個訓(xùn)練用事件空位序列數(shù)據(jù) (參照圖5),進(jìn)行以下的步驟S201~步驟S208的處理而生成訓(xùn)練用事例數(shù)據(jù)(參照圖7), 輸出訓(xùn)練用事例數(shù)據(jù)群D3。
[0097] 步驟S201 :機(jī)器學(xué)習(xí)用事例生成器3從在作為輸入數(shù)據(jù)的訓(xùn)練用事件空位序列數(shù) 據(jù)的左側(cè)的段落記載的事件空位序列,依次取出1個成為關(guān)注要素的事件空位(以下稱為 關(guān)注空位)。
[0098] 步驟S202 :機(jī)器學(xué)習(xí)用事例生成器3從事件空位序列取出與關(guān)注空位的履歷對應(yīng) 的部分序列。例如,如果是bigram,則取出包含到關(guān)注空位的1個之前的事件空位的部分 序列,如果是trigram,則取出包含到關(guān)注空位的2個之前的事件空位的部分序列。在此, 成為關(guān)注要素的事件空位是事件空位序列的開頭附近,沒有滿足Ngran次數(shù)的長度的情況 下,在開頭附加"< s >"等的補(bǔ)充偽要素的事件空位的數(shù)量即可。
[0099] 步驟S203 :機(jī)器學(xué)習(xí)用事例生成器3取出在事件空位序列數(shù)據(jù)的右側(cè)的段落記載 的共用項(xiàng)的信息。
[0100] 步驟S204 :機(jī)器學(xué)習(xí)用事例生成器3基于關(guān)注空位的記載,在成為輸出數(shù)據(jù)的訓(xùn) 練用事例數(shù)據(jù)的以"y: "開始的段落記載輸出標(biāo)簽。在此,關(guān)注空位的記載直接成為輸出 標(biāo)簽。
[0101] 步驟S205 :機(jī)器學(xué)習(xí)用事例生成器3將關(guān)注空位和該關(guān)注空位的履歷的信息傳送 給事件空位履歷特征生成器4,從事件空位履歷特征生成器4得到事件空位履歷特征群。在 圖7所示的訓(xùn)練用事例數(shù)據(jù)的例子中,與以" [EventSlot] "開始的維度ID對應(yīng)的值是事件 空位履歷特征,機(jī)器學(xué)習(xí)用事例生成器3從事件空位履歷特征生成器4取得作為這些事件 空位履歷特征的集合的事件空位履歷特征群。
[0102] 步驟S206 :機(jī)器學(xué)習(xí)用事例生成器3將共用項(xiàng)的信息傳送給共用項(xiàng)履歷特征生成 器5,從共用項(xiàng)履歷特征生成器5得到共用項(xiàng)履歷特征群。在圖7所示的訓(xùn)練用事例數(shù)據(jù)的 例子中,與以" [SiareArg] "開始的維度ID對應(yīng)的值是共用項(xiàng)履歷特征,機(jī)器學(xué)習(xí)用事例生 成器3從共用項(xiàng)履歷特征生成器5取得作為這些共用項(xiàng)履歷特征的集合的共用項(xiàng)履歷特征 群。
[0103] 步驟S207 :機(jī)器學(xué)習(xí)用事例生成器3將以上那樣取得的事件空位履歷特征群和共 用項(xiàng)履歷特征群進(jìn)行合并,并將合并的結(jié)果作為特征矢量寫入到成為輸出數(shù)據(jù)的訓(xùn)練用事 例數(shù)據(jù)的以"X: "開始的段落。
[0104] 步驟S208 :機(jī)器學(xué)習(xí)用事例生成器3杜宇在事件空位序列數(shù)據(jù)的左側(cè)的段落記載 的事件空位序列所包含的所有事件空位進(jìn)行上述的步驟S201~步驟S207的處理。
[0105] 接下來,說明事件空位履歷特征生成器4。事件空位履歷特征生成器4從機(jī)器學(xué)習(xí) 用事例生成器3接受關(guān)注空位及其關(guān)注空位的履歷的信息作為輸入,將上述的事件空位履 歷特征群返回給機(jī)器學(xué)習(xí)用事例生成器3。
[0106] 圖9是說明事件空位履歷特征生成器4的處理的流程圖。事件空位履歷特征生成 器4從機(jī)器學(xué)習(xí)用事例生成器3接受關(guān)注空位及其關(guān)注空位的履歷的信息后,進(jìn)行圖9的 步驟S301~步驟S310的處理,將事件空位履歷特征群返回給機(jī)器學(xué)習(xí)用事例生成器3。
[0107] 步驟S301 :事件空位履歷特征生成器4準(zhǔn)備返回值(特征量表現(xiàn)字符串列表)用 的變量result,代入空的列表。
[0108] 步驟S302 :事件空位履歷特征生成器4將Ngram次數(shù)設(shè)為N時,準(zhǔn)備從1到N的 范圍的循環(huán)變量len,開始循環(huán)1。
[0109] 步驟S303 :事件空位履歷特征生成器4準(zhǔn)備特征量表現(xiàn)字符串s,代入 " [EventSlot] " + 關(guān)注空位。
[0110] 步驟S304 :事件空位履歷特征生成器4準(zhǔn)備從1到Ien的范圍的循環(huán)
當(dāng)前第3頁1 2 3 4 5 6 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
防城港市| 龙门县| 云霄县| 拜城县| 诸城市| 昂仁县| 赤水市| 巴东县| 湄潭县| 息烽县| 海南省| 苍南县| 黔西县| 若尔盖县| 西青区| 武冈市| 永川市| 清河县| 寿光市| 积石山| 聂荣县| 胶南市| 大名县| 融水| 蒙自县| 德安县| 英山县| 望谟县| 凌海市| 龙岩市| 连江县| 政和县| 玉门市| 开江县| 太康县| 登封市| 隆尧县| 凤山市| 沧源| 嘉义市| 翁源县|