信息處理系統(tǒng)和信息處理方法
【專利摘要】本發(fā)明提供一種信息處理系統(tǒng)和信息處理方法。在文獻的機器學(xué)習(xí)中降低人力成本和設(shè)備成本。信息處理系統(tǒng)在輸入特征類型的情況下,根據(jù)所輸入的特征類型和各教師數(shù)據(jù),生成通過數(shù)值矢量表示與各教師數(shù)據(jù)有關(guān)的特征的各教師數(shù)據(jù)的特征矢量,根據(jù)各教師數(shù)據(jù)的特征矢量生成教師數(shù)據(jù)的圖表,根據(jù)教師數(shù)據(jù)的圖表,選擇用于生成最適于傳播教師數(shù)據(jù)的標簽的第1圖表的特征類型,進而輸出第1圖表,根據(jù)第1圖表和無標簽數(shù)據(jù),選擇應(yīng)該傳播賦予在教師數(shù)據(jù)中的標簽的無標簽數(shù)據(jù),進而,通過在第1圖表中包含選擇出的無標簽數(shù)據(jù),生成第2圖表,通過第2圖表,將賦予在教師數(shù)據(jù)中的標簽向選擇出的無標簽數(shù)據(jù)傳播。
【專利說明】信息處理系統(tǒng)和信息處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理系統(tǒng)。
【背景技術(shù)】
[0002]近年來,很多企業(yè)靈活運用被稱為大數(shù)據(jù)的大量的電子數(shù)據(jù)。這是因為,由于Apache Hadoop等的開源軟件的出現(xiàn),使用一般的PC服務(wù)器進行分散并列計算的技術(shù)得到普及。通過這種技術(shù)的普及,在短時間內(nèi)處理大量數(shù)據(jù)所需要的計算機資源等的成本大幅降低。
[0003]作為針對大數(shù)據(jù)的數(shù)據(jù)處理內(nèi)容,具有大量數(shù)值數(shù)據(jù)的累計處理、以及計算機從電子文檔數(shù)據(jù)中自動提取用戶有用的模式的處理等。作為使計算機執(zhí)行這種原本由人類進行的智慧處理的一個方法,使用機器學(xué)習(xí)。在機器學(xué)習(xí)、特別是有教師學(xué)習(xí)中,將人類生成的數(shù)據(jù)作為教師數(shù)據(jù),計算機學(xué)習(xí)教師數(shù)據(jù)的模式,從而能夠由計算機代替執(zhí)行人類的智
慧處理。
[0004]教師數(shù)據(jù)需要由人類制作,所以,在計算機進行有教師學(xué)習(xí)的情況下,產(chǎn)生人力成本。特別地,在從專業(yè)文檔中提取信息的情況下,需要通過該領(lǐng)域的專家(領(lǐng)域?qū)<?來制作教師數(shù)據(jù),所以,人力成本特別大。
[0005]例如,為了進行從法令文檔中提取信息這樣的智慧處理,在計算機進行機器學(xué)習(xí)之前,律師或司法代書人等的法律專家需要生成應(yīng)該提取的信息的例子。并且,為了進行從與知識產(chǎn)權(quán)有關(guān)的文檔中提取信息這樣的智慧處理,代理人或企業(yè)的知識產(chǎn)權(quán)負責(zé)人需要準備應(yīng)該提取的信息的例子。
[0006]一般地,教師數(shù)據(jù)越多,越能夠提高學(xué)習(xí)結(jié)果。但是,生成教師數(shù)據(jù)需要人力成本,所以,很難準備大量的教師數(shù)據(jù)。在大量處理大數(shù)據(jù)中包含的多種數(shù)據(jù)的今天,用于生成教師數(shù)據(jù)的人力成本成為應(yīng)用有教師學(xué)習(xí)時的問題。
[0007]作為與用于生成教師數(shù)據(jù)的人力成本有關(guān)的問題的一個解決策略,嘗試在學(xué)習(xí)中靈活運用沒有教師信息(標簽)的數(shù)據(jù)(無標簽數(shù)據(jù))。除了教師數(shù)據(jù)以外還在學(xué)習(xí)中使用無標簽數(shù)據(jù)的機器學(xué)習(xí)被稱為半有教師學(xué)習(xí)(例如參照專利文獻I和2)。
[0008]在專利文獻I和2中提出了如下方法:為了從文檔群中提取包含有害單詞的文檔,使用半有教師學(xué)習(xí)。
[0009]在半有教師學(xué)習(xí)中,從計算效率方面看,非專利文獻I所述的基于圖表的半有教師學(xué)習(xí)特別受到關(guān)注?;趫D表的半有教師學(xué)習(xí)例如應(yīng)用于評判分析、語義曖昧性消除或詞類估計等。
[0010]并且,提出了如下方法:根據(jù)基于某個觀點而提取出的少數(shù)單詞,提取基于同樣觀點的其他單詞(例如參照專利文獻3)。
[0011]并且,提出了如下方法:在對針對檢索詢問的文檔的關(guān)聯(lián)度賦予標簽的問題中,從賦予了標簽的文檔向未賦予標簽的文檔傳播關(guān)聯(lián)度(例如參照專利文獻4)。
[0012]這里,機器學(xué)習(xí)中的圖表意味著如下的數(shù)學(xué)圖表:將一個數(shù)據(jù)(例如單詞)作為一個節(jié)點,將數(shù)據(jù)間即節(jié)點間的相似度作為節(jié)點間的邊緣的權(quán)重進行定量。在該圖表中,相似的數(shù)據(jù)在較大權(quán)重的邊緣連接。因此,通過使用邊緣的權(quán)重來傳播標簽信息,能夠?qū)o標簽數(shù)據(jù)分配標簽。
[0013]例如,以從電子文檔中提取人名信息的處理為例,以下示出標簽信息的傳播。在該處理中,利用表情文字將文檔分解為標記并判定各標記是否是人名,作為二值的識別問題進行處理。
[0014]在提取人名信息的處理的例子中,計算機將識別對象即標記作為節(jié)點,計算各標記間的相似度作為邊緣的權(quán)重。并且,根據(jù)詞類或字符串長等的標記自身的信息以及與相鄰標記之間的共用信息等的信息,計算標記的相似度。具體而言,通過對所述標記的信息進行數(shù)值矢量化,使用數(shù)值矢量計算距離,從而求出標記的相似度。而且,由此求出包含各標記的圖表。
[0015]在使用這樣求出的圖表傳播標簽的情況下,相似的上下文中使用的相似的標記在更大權(quán)重的邊緣連接,所以,容易分配相同的標簽。
[0016]在基于圖表的半有教師學(xué)習(xí)中,圖表的構(gòu)筑方法對學(xué)習(xí)精度造成很大影響。此前,以提高構(gòu)筑圖表的精度和實現(xiàn)計算高速化為目的,進行了邊緣的修剪(不需要邊緣的刪除)。
[0017]例如,提出了通過k_附近圖表或b_匹配圖表來近似原來圖表的方法(例如參照非專利文獻2)。這里,k-附近圖表、b-匹配圖表分別是僅包含通過k-附近法或b-匹配法生成的相似度的上位k件的邊緣的圖表。
[0018]進而,提出了在進行邊緣的修剪的情況下不生成邊緣集中的節(jié)點的邊緣生成方法(例如參照非專利文獻3)。
[0019]在這些文獻中,為了生成圖表,需要預(yù)先確定用于對節(jié)點的信息進行數(shù)值矢量化的特征(屬性)。而且,該特征需要由領(lǐng)域?qū)<?、且熟悉機器學(xué)習(xí)處理的人來確定。
[0020]并且,在對機器學(xué)習(xí)的性能進行評價的情況下,可能進行實驗結(jié)果的再次驗證,所以,多使用已公開的共同的教師數(shù)據(jù)和無標簽數(shù)據(jù)。但是,在用戶實際對要處理的文檔進行處理的情況下,無標簽數(shù)據(jù)常常成為龐大的量,為了在現(xiàn)實的時間內(nèi)進行學(xué)習(xí),需要從無標簽數(shù)據(jù)中選擇有用的無標簽數(shù)據(jù)。
[0021]現(xiàn)有技術(shù)文獻
[0022]專利文獻
[0023]專利文獻1:日本特開2011-039576號公報
[0024]專利文獻2:日本特開2011-039575號公報
[0025]專利文獻3:日本特開2010-257406號公報
[0026]專利文獻4:日本特表2009-528628號公報
[0027]非專利文獻
[0028]非專利文獻 1:Learning from Labeled and Unlabeled Data with LabelPropagation, Technical Report CMU-CALD-O2-107, 2002 年
[0029]非專利文獻2:半教師h >9語義曖昧性解消Θ t Θ夕'' 9 7 ^八一:M七,信息處理學(xué)會研究報告,2010年
[0030]非專利文獻3: >、7' f作6々P V 7 7構(gòu)築法f用P亡半教師h ”語義曖昧性解消,信息處理學(xué)會研究報告,2010年
[0031]非專利文獻4 !Efficient Graph-Based Sem1-Supervised Learning ofStructured Tagging Models, Proceedings of the20IOConference on Empirical Methodsin Natural Language Processing, pp.167-176,2010 年
【發(fā)明內(nèi)容】
[0032]發(fā)明要解決的課題
[0033]在基于圖表的半有教師學(xué)習(xí)中,為了求出最優(yōu)的圖表構(gòu)造,需要具有對象領(lǐng)域(作為處理對象的文檔的內(nèi)容所屬的【技術(shù)領(lǐng)域】)和機器學(xué)習(xí)雙方的專業(yè)知識的人,人力成本較大。
[0034]以圖表構(gòu)造的優(yōu)化即特征的優(yōu)化為目的,考慮通過對象領(lǐng)域的專業(yè)知識對進行機器學(xué)習(xí)處理后的最終輸出結(jié)果進行評價的方法。但是,在使用該方法的情況下,也需要領(lǐng)域?qū)<业脑u價,需要更多人力成本。具體而言,這是因為,為了根據(jù)機器學(xué)習(xí)處理對圖表構(gòu)造進行評價,領(lǐng)域?qū)<倚枰ㄟ^手動作業(yè)來生成評價用的教師數(shù)據(jù),人力成本較大。
[0035]進而,在圖表構(gòu)造的優(yōu)化中,需要執(zhí)行與圖表構(gòu)造的模式數(shù)成比例增加的次數(shù)的機器學(xué)習(xí)處理。在反復(fù)進行多次機器學(xué)習(xí)的情況下,需要大量計算時間,需要龐大的設(shè)備成本。
[0036]這樣,產(chǎn)生人力成本和計算機的設(shè)備成本增加等的問題。
[0037]本發(fā)明的目的在于,提供降低人力成本和計算機的設(shè)備成本并對文檔進行適當?shù)臋C器學(xué)習(xí)的系統(tǒng)。
`[0038]用于解決課題的手段
[0039]本發(fā)明的代表性的一例如下所示。即,信息處理系統(tǒng)對多個文獻數(shù)據(jù)進行機器學(xué)習(xí),其中,所述信息處理系統(tǒng)具有:初始化部,取得賦予了標簽的多個文獻數(shù)據(jù)即多個教師數(shù)據(jù)、未賦予所述標簽的文獻數(shù)據(jù)即無標簽數(shù)據(jù)、以及表示提取與所述各文獻數(shù)據(jù)有關(guān)的特征的方法的多個特征類型;特征矢量生成部,在輸入所述取得的特征類型中的至少一個所述特征類型的情況下,根據(jù)所述輸入的特征類型和所述取得的各教師數(shù)據(jù),生成通過數(shù)值矢量表示與所述各教師數(shù)據(jù)有關(guān)的特征的所述各教師數(shù)據(jù)的特征矢量;圖表構(gòu)筑部,根據(jù)由所述特征矢量生成部生成的各教師數(shù)據(jù)的特征矢量,生成所述教師數(shù)據(jù)的圖表;特征選擇部,根據(jù)由所述圖表構(gòu)筑部生成的教師數(shù)據(jù)的圖表,從由所述初始化部取得的特征類型中選擇用于生成最適于傳播所述教師數(shù)據(jù)的標簽的第I圖表的特征類型,進而,輸出由所述圖表構(gòu)筑部生成的所述第I圖表;數(shù)據(jù)選擇部,根據(jù)所述第I圖表和所述無標簽數(shù)據(jù),選擇應(yīng)該傳播賦予在所述教師數(shù)據(jù)中的標簽的所述無標簽數(shù)據(jù),進而,通過在所述第I圖表中包含所述選擇出的無標簽數(shù)據(jù),生成第2圖表;以及機器學(xué)習(xí)部,通過所述第2圖表,將賦予在所述教師數(shù)據(jù)中的標簽向所述選擇出的無標簽數(shù)據(jù)傳播。
[0040]發(fā)明效果
[0041]根據(jù)本發(fā)明的一個實施方式,能夠降低機器學(xué)習(xí)中的人力成本和設(shè)備成本。
【專利附圖】
【附圖說明】
[0042]圖1是示出本實施例1的信息提取系統(tǒng)的物理結(jié)構(gòu)的框圖。[0043]圖2是示出本實施例1的信息提取系統(tǒng)的邏輯結(jié)構(gòu)的框圖。
[0044]圖3A是示出本實施例1的文獻數(shù)據(jù)庫的說明圖。
[0045]圖3B是示出本實施例1的標簽數(shù)據(jù)庫的說明圖。
[0046]圖3C是示出本實施例1的特征類型數(shù)據(jù)庫的說明圖。
[0047]圖4是示出本實施例1的未進行特征類型的優(yōu)化和無標簽數(shù)據(jù)的選擇的情況下的機器學(xué)習(xí)的功能框圖。
[0048]圖5是示出本實施例1的信息提取系統(tǒng)進行文獻的機器學(xué)習(xí)之前的數(shù)據(jù)流的概要的功能框圖。
[0049]圖6A是示出本實施例1的教師數(shù)據(jù)列表L的說明圖。
[0050]圖6B是示出本實施例1的無標簽數(shù)據(jù)列表U的說明圖。
[0051]圖7是示出本實施例1的特征選擇部進行的處理流程的流程圖。
[0052]圖8A是示出本實施例1的教師數(shù)據(jù)的特征矢量的說明圖。
[0053]圖SB是示出本實施例1的無標簽數(shù)據(jù)的特征矢量的說明圖。
[0054]圖9A是示出本實施例1的僅通過不同標簽連接得分而計算出的圖表的評價值的說明圖。
[0055]圖9B是示出本實施例1的通過相同標簽連接得分和不同標簽連接得分而計算出的圖表的評價值的說明圖。
[0056]圖10是示出本實施例1的數(shù)據(jù)選擇部的處理的流程圖。
[0057]圖1lA是示出本實施例1的圖表g2和無標簽數(shù)據(jù)的說明圖。
[0058]圖1lB是示出本實施例1的在提取距離最大值的數(shù)據(jù)的情況下提取出的無標簽數(shù)據(jù)的說明圖。
[0059]圖1lC是示出本實施例1的未分散的無標簽數(shù)據(jù)的說明圖。
[0060]圖12是示出本實施例5的信息提取系統(tǒng)進行文獻的機器學(xué)習(xí)之前的數(shù)據(jù)流的概要的功能框圖。
[0061]圖13是示出本實施例5的機器學(xué)習(xí)的評價較低的情況下的特征選擇部的處理的流程圖。
[0062]標號說明
[0063]110:處理器;120:存儲器;130:本地文件系統(tǒng);140:輸入裝置;150:輸出裝置;160:網(wǎng)絡(luò)器件;170:總線;200:信息提取用計算機;210:局域網(wǎng)(LAN) ;220:文獻數(shù)據(jù)庫;225:標簽數(shù)據(jù)庫;230:特征數(shù)據(jù)庫;290:標簽生成用計算機。
【具體實施方式】
[0064]在以下的實施例中,在言及要素的數(shù)量等的情況下,除了特別指定的情況和原理上明顯確定的情況以外,不限于該確定的數(shù)量,可以是確定的數(shù)量以上,也可以是確定的數(shù)量以下。
[0065]進而,在以下的實施例中可知,除了特別指定的情況和原理上明顯需要的情況以夕卜,其結(jié)構(gòu)要素不是必須的。并且,同樣,在以下的實施例中,在言及結(jié)構(gòu)要素的形狀和位置關(guān)系時,除了特別明示的情況和認為原理上明顯不是那樣的情況以外,實質(zhì)上包含與該形狀等近似或相似的形狀等。其在上述數(shù)值和范圍中也同樣。[0066]【實施例1】
[0067]圖1是示出本實施例1的信息提取系統(tǒng)所具有的計算機100的物理結(jié)構(gòu)的框圖。
[0068]本實施例的信息提取系統(tǒng)所具有的計算機100是圖1所示的通用計算機。信息提取系統(tǒng)所具有的計算機100例如也可以是PC服務(wù)器。
[0069]計算機100具有處理器110、存儲器120、本地文件系統(tǒng)130、輸入裝置140、輸出裝置150、網(wǎng)絡(luò)器件160、總線170。處理器110、存儲器120、本地文件系統(tǒng)130、輸入裝置140、輸出裝置150、網(wǎng)絡(luò)器件160通過總線170連接。
[0070]處理器110例如是中央運算裝置(Central Processing Unit ;CPU),可以具有多個核心處理器。存儲器120是用于存儲程序和數(shù)據(jù)的存儲裝置。
[0071]輸入裝置140是鍵盤或鼠標等的裝置,是用于受理由用戶輸入的數(shù)據(jù)的裝置。輸出裝置150是顯示器或打印機等的裝置,是用于對用戶輸出信息的裝置。另外,在經(jīng)由網(wǎng)絡(luò)從遙控器操作計算機100的情況下,計算機100可以不具有輸入裝置140和輸出裝置150。
[0072]本地文件系統(tǒng)130是能夠由計算機100進行改寫的存儲裝置。本地文件系統(tǒng)130可以是內(nèi)置于計算機100中的存儲裝置,也可以是設(shè)置在計算機100的外部并與計算機100連接的存儲裝置。本地文件系統(tǒng)130例如是硬盤驅(qū)動、固體電路驅(qū)動或RAM盤等的存儲裝置。
[0073]網(wǎng)絡(luò)器件160是用于供計算機100連接到網(wǎng)絡(luò)的裝置。
[0074]圖2是示出本實施例1的信息提取系統(tǒng)所具有的各計算機的邏輯結(jié)構(gòu)的框圖。
[0075]本實施例的信息提取系統(tǒng)具有信息提取用計算機200和標簽生成用計算機290。信息提取用計算機200和標簽生成用計算機290分別具有圖1所示的計算機100的物理結(jié)構(gòu)。`
[0076]并且,本實施例的信息提取系統(tǒng)具有文獻數(shù)據(jù)庫220、標簽數(shù)據(jù)庫225、特征類型數(shù)據(jù)庫230、局域網(wǎng)(LAN) 210。各計算機和各數(shù)據(jù)庫通過LAN210連接。
[0077]作為處理部,信息提取用計算機200具有初始化部235、特征矢量生成部237、特征選擇部240、數(shù)據(jù)選擇部255、圖表構(gòu)筑部270、多目的優(yōu)化部275、機器學(xué)習(xí)部280。
[0078]初始化部235是將文獻等的數(shù)據(jù)轉(zhuǎn)換為用于進行機器學(xué)習(xí)的數(shù)據(jù)的處理部。特征矢量生成部237是生成特征矢量的處理部。
[0079]特征選擇部240是進行特征優(yōu)化的處理部。特征選擇部240具有特征評價部245和特征選擇收斂判定部250。
[0080]數(shù)據(jù)選擇部255是選擇從教師數(shù)據(jù)傳播標簽的無標簽數(shù)據(jù)的處理部。數(shù)據(jù)選擇部255具有數(shù)據(jù)評價部260和數(shù)據(jù)選擇收斂判定部265。圖表構(gòu)筑部270是通過求出節(jié)點和邊緣而生成圖表的處理部。多目的優(yōu)化部275是在根據(jù)多個目的來改變評價值的情況下選擇用于得到最優(yōu)評價值的解候選的處理部。機器學(xué)習(xí)部280是進行機器學(xué)習(xí)的處理部。
[0081]信息提取用計算機200的各處理部可以通過程序來實現(xiàn),也可以通過用于實現(xiàn)各功能的物理裝置來實現(xiàn)。以下,假設(shè)信息提取用計算機200的各處理部通過程序來實現(xiàn),通過處理器110在存儲器120中讀出相當于各處理部的程序,實現(xiàn)各處理部的功能。
[0082]并且,信息提取用計算機200的各處理部可以通過一個處理部來實現(xiàn)多個處理部的功能。并且,圖2所示的一個處理部中包含的多個處理可以通過多個處理部來實現(xiàn)。
[0083]標簽生成用計算機290具有標簽生成部295。標簽生成部295根據(jù)用戶的指示而生成要存儲在標簽數(shù)據(jù)庫225中的數(shù)據(jù)。然后,標簽生成部295將所生成的數(shù)據(jù)存儲在標簽數(shù)據(jù)庫225中。并且,標簽生成部295根據(jù)用戶的指示而從標簽數(shù)據(jù)庫225中刪除數(shù)據(jù)。
[0084]因此,在使用預(yù)先確定的標簽數(shù)據(jù)庫225的數(shù)據(jù)的情況下,本實施例的信息提取系統(tǒng)也可以省略標簽生成用計算機290。
[0085]文獻數(shù)據(jù)庫220是用于存儲作為本實施例的機器學(xué)習(xí)的對象的文獻的數(shù)據(jù)的數(shù)據(jù)庫。標簽數(shù)據(jù)庫225是用于存儲教師數(shù)據(jù)的數(shù)據(jù)庫。特征類型數(shù)據(jù)庫230是用于存儲表示用于生成圖表的特征的類型的數(shù)據(jù)的數(shù)據(jù)庫。
[0086]另外,信息提取用計算機200可以內(nèi)置文獻數(shù)據(jù)庫220、標簽數(shù)據(jù)庫225和特征類型數(shù)據(jù)庫230的各數(shù)據(jù)庫、以及標簽生成部295。在信息提取用計算機200內(nèi)置全部數(shù)據(jù)庫和標簽生成部295的情況下,信息提取系統(tǒng)可以省略LAN210。
[0087]圖2所示的信息提取系統(tǒng)所具有的數(shù)據(jù)庫可以使用任意的數(shù)據(jù)存儲庫機構(gòu)來實現(xiàn)。并且,最簡單地,信息提取系統(tǒng)所具有的數(shù)據(jù)庫可以作為僅記述文本文件的I行作為I個記錄的數(shù)據(jù)庫來實現(xiàn)。并且,信息提取系統(tǒng)所具有的數(shù)據(jù)庫也可以使用相關(guān)數(shù)據(jù)庫、鍵值存儲庫等的數(shù)據(jù)庫管理系統(tǒng)來實現(xiàn)。
[0088]進而,為了得到高速性和短應(yīng)答時間,連接信息提取用計算機200、標簽生成用計算機290、文獻數(shù)據(jù)庫220、標簽數(shù)據(jù)庫225、特征類型數(shù)據(jù)庫230的網(wǎng)絡(luò)(圖2中為LAN210)可以設(shè)置在一個數(shù)據(jù)中心內(nèi)。
[0089]并且,信息提取系統(tǒng)的各計算機和各數(shù)據(jù)庫等的各結(jié)構(gòu)要素也可以設(shè)置在各個不同的數(shù)據(jù)中心內(nèi)。
[0090]對本實施例的信息提取系統(tǒng)的起動步驟進行說明。用戶接通信息提取用計算機200的電源,起動信息提取用計算機200所具有的OS (操作系統(tǒng))。進而,用戶接通文獻數(shù)據(jù)庫220、標簽數(shù)據(jù)庫225、特征類型數(shù)據(jù)庫230和標簽生成用計算機290的電源。進而,用戶接通LAN210的電源,使信息提取用計算機200、文獻數(shù)據(jù)庫220、標簽數(shù)據(jù)庫225、特征類型數(shù)據(jù)庫230、標簽生成用計算機290和LAN210成為相互能夠進行通信的狀態(tài)。此后,信息提取系統(tǒng)的各計算機和各數(shù)據(jù)庫例如根據(jù)IP地址和主機名進行通信。
[0091]圖3A是示出本實施例1的文獻數(shù)據(jù)庫220的說明圖。
[0092]文獻數(shù)據(jù)庫220是存儲作為本實施例的信息提取系統(tǒng)進行機器學(xué)習(xí)的對象的文獻的信息的數(shù)據(jù)庫。
[0093]文獻數(shù)據(jù)庫220保持文獻ID2201和正文2202。文獻ID2201包含唯一表示文獻的標識符,用于區(qū)分各文獻的目的。正文2202表示文獻ID2201所示的文獻中包含的字符串。
[0094]圖3B是示出本實施例1的標簽數(shù)據(jù)庫225的說明圖。
[0095]標簽數(shù)據(jù)庫225是表示各文獻中確定的標簽的數(shù)據(jù)庫。標簽數(shù)據(jù)庫225包含標簽ID2251、文獻 ID2252 和標簽 2253。
[0096]標簽ID2251包含唯一表示標簽的標識符。文獻ID2252表示賦予了標簽ID2251所示的標簽的文獻,相當于文獻數(shù)據(jù)庫220的文獻ID2201的標識符。
[0097]標簽2253表示賦予了標簽的數(shù)據(jù)出現(xiàn)在文獻的哪個位置。例如,記錄2254表示在文獻ID2252 “ I ”的文獻中,賦予了 “ I ”這樣的標簽的節(jié)點的開始文字位置為“ 10”,結(jié)束文字位置為“14”。而且,記錄2254表示對該文獻ID2252 “I”的文獻中的標簽“I”分配標簽 ID2251 “I”。[0098]另外,例如在賦予了標簽的數(shù)據(jù)是每個標記的情況下,標簽數(shù)據(jù)庫225也可以保持通過標記數(shù)量來表示開始位置和結(jié)束位置等、基于賦予標簽的目的的數(shù)據(jù)。
[0099]圖3C是示出本實施例1的特征類型數(shù)據(jù)庫230的說明圖。
[0100]特征類型數(shù)據(jù)庫230是表示針對節(jié)點取得的特征的模式的數(shù)據(jù)庫。特征類型數(shù)據(jù)庫230包括特征ID2301和特征名2302。特征ID2301是唯一表示特征模式的標識符。
[0101]特征名2302是表示特征模式的字符串。特征名2302表示將文獻數(shù)據(jù)數(shù)值化為特征矢量所使用的方法。
[0102]例如,圖3C所示的特征ID2301 “I”的特征名2302 “token_surface_0”表示取得節(jié)點的字符串本身的字符串作為特征。并且,圖3C所示的特征ID2301 “2”的特征名2302 “ token_surface_l ”表示取得對象的字符串的后一個字符串作為特征。
[0103]特征類型數(shù)據(jù)庫230中存儲的特征類型是用戶預(yù)先確定的特征類型。
[0104]圖4是示出本實施例1的未進行特征類型的優(yōu)化和無標簽數(shù)據(jù)的選擇的情況下的機器學(xué)習(xí)的功能框圖。
[0105]圖4示出相當于圖2所示的處理部的功能塊在實施例1的處理中輸入輸出的數(shù)據(jù)流。
[0106]首先,標簽生成用計算機290的標簽生成部295將用戶指定的標簽存儲在標簽數(shù)據(jù)庫225中。另外,在特征類型數(shù)據(jù)庫230中存儲有用戶預(yù)先指定的特征類型。
[0107]初始化部235從特征類型數(shù)據(jù)庫230中取得任意的特征類型f,根據(jù)標簽數(shù)據(jù)庫225和文獻數(shù)據(jù)庫220生成教師數(shù)據(jù)列表。并且,初始化部235根據(jù)文獻數(shù)據(jù)庫220生成無標簽數(shù)據(jù)列表。初始化部235將包含特征類型f、教師數(shù)據(jù)列表和無標簽數(shù)據(jù)列表的數(shù)據(jù)30輸出到圖表構(gòu)筑部270。
[0108]圖表構(gòu)筑部270根據(jù)特征類型f、教師數(shù)據(jù)列表和無標簽數(shù)據(jù)列表生成圖表。另外,在生成圖表時,圖表構(gòu)筑部270使特征矢量生成部237根據(jù)教師數(shù)據(jù)列表和無標簽數(shù)據(jù)列表生成教師數(shù)據(jù)的特征矢量和無標簽數(shù)據(jù)的特征矢量。
[0109]另外,特征矢量是如下的數(shù)值矢量:根據(jù)特征類型f,通過數(shù)值矢量來表現(xiàn)與各數(shù)據(jù)和各數(shù)據(jù)前后的數(shù)據(jù)有關(guān)的信息,從而定量地示出各文獻中包含的數(shù)據(jù)。
[0110]以下示出特征矢量生成部237進行的特征矢量的生成處理和圖表構(gòu)筑部270中的圖表的生成處理的例子。在以下的例子中,特征矢量生成部237通過表情文字將文獻中包含的數(shù)據(jù)分割為標記,將各標記作為節(jié)點而生成特征矢量。
[0111]作為對文獻中包含的標記的信息進行數(shù)值矢量化的具體例,存在特征矢量生成部237使用信息與數(shù)值矢量的維數(shù)的對應(yīng)表的方法。例如,作為詞類名與數(shù)值矢量的維數(shù)的對應(yīng)表,特征矢量生成部237預(yù)先保持“名詞:1、動詞:2、助詞:3、…”,根據(jù)該對應(yīng)表對標記的詞類進行數(shù)值矢量化。
[0112]具體而言,在所述例子中,在標記的詞類為名詞的情況下,特征矢量生成部237生成數(shù)值矢量(1,0,0,…)。并且,在標記的詞類為助詞的情況下,特征矢量生成部227生成數(shù)值矢量(0,O, I,…)。特征矢量生成部237對標記匹配的對應(yīng)表的要素分配“1”,對標記不匹配的要素分配“O”。
[0113]通過同樣的步驟,特征矢量生成部237能夠針對標記的表記和原型、活用形式和活用型、以及與辭典項目之間的匹配等生成數(shù)值矢量。[0114]進而,通過同樣的步驟,特征矢量生成部237能夠使用與生成數(shù)值矢量的對象的標記相鄰的標記的信息。具體而言,在特征類型f表示使用對象的標記的前一個標記作為特征的情況下,特征矢量生成部237對作為對象的標記的前一個標記的詞類信息進行數(shù)值矢量化。然后,特征矢量生成部237通過在作為對象的標記的數(shù)值矢量中追加作為對象的標記的前一個標記的數(shù)值矢量,生成作為對象的標記的數(shù)值矢量。
[0115]并且,除了在與信息和數(shù)值矢量的維數(shù)的對應(yīng)表匹配的情況下使數(shù)值矢量的要素的值為“I”的方法以外,作為表示相鄰的兩個標記的共用信息的值,特征矢量生成部237也可以使用自相關(guān)信息量的值、文檔全體中與辭典匹配的次數(shù)等。
[0116]關(guān)于生成特征矢量的對象的標記,在生成全部數(shù)值矢量的情況下,特征矢量生成部237按照預(yù)先確定的順序?qū)λ傻臄?shù)值矢量進行結(jié)合,生成表示標記的一個特征矢量。這里,數(shù)值矢量的結(jié)合是指,生成具有各矢量的全部要素作為自身要素的矢量,例如,矢量 V (vl, v2, v3)和矢量 w (wl, w2)的結(jié)合 X 為(vl, v2, v3, wl, w2)。
[0117]接著,圖表構(gòu)筑部270例如計算兩個標記的數(shù)值矢量的距離作為標記的相似度。這里,數(shù)值矢量的距離具有歐幾里得距離或余弦距離等,適用于每個任務(wù)或數(shù)據(jù)的距離不同。
[0118]圖表構(gòu)筑部270針對各標記間的邊緣確定基于計算出的距離的權(quán)重。例如,圖表構(gòu)筑部270可以針對計算出的距離較小的標記間的邊緣確定較小的權(quán)重。圖表構(gòu)筑部270通過確定標記間的邊緣的權(quán)重,生成圖表g。在本實施例中,在通過確定了用戶指定的規(guī)定值以上的權(quán)重的邊緣連接節(jié)點間的情況下,記載為節(jié)點間被連接。
[0119]圖表構(gòu)筑部270將包含圖表g的數(shù)據(jù)31輸入到機器學(xué)習(xí)部280。機器學(xué)習(xí)部280在輸入了包含圖表g的數(shù)據(jù)31的情況下,使用圖表g,向在邊緣連接的無標簽數(shù)據(jù)傳播教師數(shù)據(jù)的標簽。然后,機器學(xué)習(xí)部280輸出標簽傳播的處理結(jié)果作為最終輸出32。
[0120]這里,最終輸出32的形式根據(jù)機器學(xué)習(xí)部280的算法而不同。例如,在公知的算法即CRF的情況下是CRF的模型參數(shù)。并且,在標簽傳播算法的情況下,賦予在無標簽數(shù)據(jù)中的標簽是最終輸出32。
[0121]下面,對本實施例的機器學(xué)習(xí)部280的機器學(xué)習(xí)算法進行簡單說明。
[0122]作為使用圖表的機器學(xué)習(xí)的代表例,舉出非專利文獻I中提出的標簽傳播法。在使用非專利文獻I所記載的標簽傳播法的算法中,首先,機器學(xué)習(xí)部280使N個教師數(shù)據(jù)和M個無標簽數(shù)據(jù)排列成一維排列D。
[0123]并且,各個教師數(shù)據(jù)和無標簽數(shù)據(jù)對應(yīng)著K個標簽中的任意一方。機器學(xué)習(xí)部280使與教師數(shù)據(jù)和無標簽數(shù)據(jù)對應(yīng)的標簽排列成一維排列E。
[0124]接著,機器學(xué)習(xí)部280計算概率遷移行列T。行列T的(i,j)要素是排列D的第i個數(shù)據(jù)與排列E的第j個數(shù)據(jù)的相似度。接著,機器學(xué)習(xí)部280計算行列Y。行列Y的(i,j)要素是排列D的第i個數(shù)據(jù)取排列E的第j個標簽的概率。
[0125]在計算出行列T和行列Y后,機器學(xué)習(xí)部280反復(fù)進行下面的步驟Al?步驟A3這三個步驟,直到行列Y收斂為止。
[0126](步驟Al)計算行列T與行列Y之積,確定為新的Y
[0127](步驟A2)對新的行列Y的行進行標準化
[0128](步驟A3)利用標簽信息覆蓋標準化的行列Y的要素中的與教師數(shù)據(jù)對應(yīng)的要素[0129]在所述標簽傳播法的算法中,作為機器學(xué)習(xí)的結(jié)果,輸出賦予在無標簽數(shù)據(jù)中的標簽或可能賦予在無標簽數(shù)據(jù)中的標簽以及表示賦予的可能性的概率值。
[0130]關(guān)于標簽傳播法的步驟,除了非專利文獻I中舉出的步驟以外,還存在很多變化。
[0131]并且,為了進行標簽傳播,存在使用圖表作為有教師學(xué)習(xí)的輔助信息的算法。例如,如非專利文獻4那樣舉出如下的算法的例子:在條件隨機場(Conditional RandomField ;CRF)的學(xué)習(xí)中使用無標簽數(shù)據(jù),所以采用圖表構(gòu)造。
[0132]該情況下,機器學(xué)習(xí)部280對無標簽數(shù)據(jù)賦予偽標簽,再次學(xué)習(xí)CRF。然后,機器學(xué)習(xí)部280根據(jù)之前學(xué)習(xí)的CRF的得分和圖表上傳播標簽而決定的得分,決定偽標簽。
[0133]在該算法的情況下,作為學(xué)習(xí)結(jié)果,機器學(xué)習(xí)部280得到與通常的CRF相同的CRF的模型參數(shù)。因此,在以后給出任意文檔時,機器學(xué)習(xí)部280能夠與通常的CRF同樣,利用維特比算法等高速進行識別。這樣,雖然是具有與非專利文獻I的標簽傳播法不同的特征的算法,但是,在賦予偽標簽時傳播標簽信息這點是相同的,能夠與非專利文獻I的標簽傳播法同樣地應(yīng)用本發(fā)明。
[0134]另外,如果輸入圖表g,則以下所示的本實施例的機器學(xué)習(xí)部280通過標簽傳播法的某些變化也能夠進行標簽傳播。
[0135]用戶(領(lǐng)域?qū)<?對最終輸出32進行評價,在評價結(jié)果較差的情況下,使用標簽生成部295追加標簽。并且,在評價結(jié)果較差的情況下,領(lǐng)域?qū)<倚麓_定特征類型f’,將特征類型f’作為特征類型f輸入到初始化部235。
[0136]這里,根據(jù)圖4所示的處理,為了選擇最優(yōu)的特征類型f,本實施例的信息提取系統(tǒng)需要使機器學(xué)習(xí)部280反復(fù)進行標簽傳播處理。
[0137]進而,在圖表g中包含有文獻數(shù)據(jù)庫220中包含的所有數(shù)據(jù)。因此,在文獻數(shù)據(jù)庫220中包含的數(shù)據(jù)量較多的情況下,由于計算數(shù)據(jù)彼此的距離的處理,信息提取用計算機200的資源可能緊迫。
[0138]因此,在以下所示的實施例1的處理中,本實施例的信息提取系統(tǒng)在基于機器學(xué)習(xí)部280的處理之前執(zhí)行基于特征選擇部240的特征類型的優(yōu)化。并且,本實施例的信息提取系統(tǒng)通過數(shù)據(jù)選擇部255適當選擇輸入到機器學(xué)習(xí)部280的圖表中包含的數(shù)據(jù)(無標簽數(shù)據(jù))。
[0139]圖5是示出本實施例1的信息提取系統(tǒng)進行文獻的機器學(xué)習(xí)之前的數(shù)據(jù)流的概要的功能框圖。
[0140]圖5示出相當于圖2所示的處理部的功能塊在實施例1的處理中輸入輸出的數(shù)據(jù)流。
[0141]首先,與圖4所示的標簽生成部295相同,標簽生成用計算機290的標簽生成部295將用戶指定的標簽存儲在標簽數(shù)據(jù)庫225中。
[0142]接著,信息提取用計算機200的初始化部235使用文獻數(shù)據(jù)庫220、標簽數(shù)據(jù)庫225和特征類型數(shù)據(jù)庫230中存儲的數(shù)據(jù)進行初始化處理。具體而言,作為初始化處理,初始化部235根據(jù)文獻數(shù)據(jù)庫220和標簽數(shù)據(jù)庫225生成教師數(shù)據(jù)列表L601和無標簽數(shù)據(jù)列表U602。并且,作為初始化處理,初始化部235從特征類型數(shù)據(jù)庫230中提取所有的特征類型,生成包含提取出的特征類型的特征類型F。
[0143]另外,特征類型F、無標簽數(shù)據(jù)列表U602和教師數(shù)據(jù)列表L601也可以由用戶指定。[0144]圖6A是示出本實施例1的教師數(shù)據(jù)列表L601的說明圖。
[0145]教師數(shù)據(jù)列表L601是包含教師數(shù)據(jù)的文獻的列表。初始化部235從標簽數(shù)據(jù)庫225中提取標簽ID2251和文獻ID2252,將提取出的數(shù)據(jù)包含在教師數(shù)據(jù)列表L601中。
[0146]教師數(shù)據(jù)列表L601具有標簽ID6011和文獻ID6012。標簽ID6011相當于標簽ID2251,文獻ID6012相當于文獻ID2252。
[0147]圖6B是示出本實施例1的無標簽數(shù)據(jù)列表U602的說明圖。
[0148]無標簽數(shù)據(jù)列表U602是不包含教師數(shù)據(jù)的文獻的列表。初始化部235從文獻數(shù)據(jù)庫220的文獻ID2201的標識符中提取除了標簽數(shù)據(jù)庫225的文獻ID2252以外的標識符。然后,初始化部235將提取出的標識符包含在無標簽數(shù)據(jù)列表U602中。
[0149]無標簽數(shù)據(jù)列表U602包括ID6021和文獻ID6022。在ID6021中存儲有包含無標簽數(shù)據(jù)的文獻在無標簽數(shù)據(jù)列表U602中的連續(xù)編號。文獻ID6022包含有包含無標簽數(shù)據(jù)的文獻的標識符。
[0150]初始化處理的結(jié)果,初始化部235將特征類型F和教師數(shù)據(jù)列表L601作為數(shù)據(jù)300輸入到特征選擇部240。
[0151]特征選擇部240在被輸入數(shù)據(jù)300的情況下,與圖4所示的特征選擇部240相同,使用特征矢量生成部237和圖表構(gòu)筑部270生成與教師數(shù)據(jù)有關(guān)的圖表gl。這里,為了生成圖表gl,特征選擇部240從特征類型F中選擇最優(yōu)的特征類型。然后,特征選擇部240輸出選擇出的特征類型作為特征類型H。
[0152]特征選擇部240將所生成的圖表gl、教師數(shù)據(jù)的特征矢量和特征類型Π作為數(shù)據(jù)310輸入到數(shù)據(jù)選擇部255。并且,初始化部235將無標簽數(shù)據(jù)列表U602作為數(shù)據(jù)320輸入到數(shù)據(jù)選擇部255。
[0153]數(shù)據(jù)選擇部255在被輸入數(shù)據(jù)310和數(shù)據(jù)320的情況下,根據(jù)圖表gl、教師數(shù)據(jù)的特征矢量、無標簽數(shù)據(jù)的特征矢量,選擇適于傳播標簽的無標簽數(shù)據(jù)。然后,數(shù)據(jù)選擇部255輸出選擇出的數(shù)據(jù)作為無標簽數(shù)據(jù)u2。并且,數(shù)據(jù)選擇部255生成在圖表gl中加上無標簽數(shù)據(jù)u2而得到的圖表g2。
[0154]圖表g2是將無標簽數(shù)據(jù)u2的數(shù)據(jù)作為節(jié)點而追加到圖表gl中的圖表。圖表g2的初始值為圖表gl。
[0155]數(shù)據(jù)選擇部255將圖表g2、教師數(shù)據(jù)的特征矢量和無標簽數(shù)據(jù)u2的特征矢量作為數(shù)據(jù)330輸入到機器學(xué)習(xí)部280。
[0156]機器學(xué)習(xí)部280在被輸入數(shù)據(jù)330的情況下,根據(jù)數(shù)據(jù)330進行機器學(xué)習(xí),生成作為機器學(xué)習(xí)的結(jié)果的最終輸出340。機器學(xué)習(xí)部280通過與圖4所示的機器學(xué)習(xí)部280相同的方法對圖表g2進行機器學(xué)習(xí),由此進行標簽傳播。
[0157]圖7是示出本實施例1的特征選擇部240進行的處理流程的流程圖。
[0158]圖7所示的處理示出在圖2中從初始化部235輸入數(shù)據(jù)300的情況下由特征選擇部240執(zhí)行的處理。
[0159]特征選擇部240從特征類型F中選擇圖表構(gòu)筑中使用的至少一個特征類型(400)。將步驟400中選擇出的特征類型記載為特征類型fI。步驟400中選擇出的特征類型的數(shù)量為用戶的任意值。
[0160]在步驟400之后,特征選擇部240將特征類型Π和教師數(shù)據(jù)列表L601輸入到特征矢量生成部237。
[0161]特征矢量生成部237根據(jù)所輸入的特征類型H、教師數(shù)據(jù)列表L601、文獻數(shù)據(jù)庫220和標簽數(shù)據(jù)庫225生成特征矢量710 (410)。在步驟410中,特征矢量生成部237通過與圖4所示的處理中生成特征矢量的方法相同的方法生成特征矢量。[0162]圖8A是示出本實施例1的教師數(shù)據(jù)的特征矢量710的說明圖。
[0163]特征矢量710是教師數(shù)據(jù)的特征矢量。特征矢量710的各行表示與一個教師數(shù)據(jù)有關(guān)的特征矢量。
[0164]在特征矢量710的各行的開頭包含有賦予在教師數(shù)據(jù)中的標簽的值。在各行中包含有表示與對象的數(shù)據(jù)有關(guān)的各特征的要素,通過分隔符等的劃分文字對各要素進行劃分。
[0165]例如,關(guān)于“1:0.5”這樣表現(xiàn)的要素,“:”左側(cè)的數(shù)值表示特征的維數(shù)“1”,“: ”右側(cè)表示特征的值“0.5”。
[0166]特征的維數(shù)是根據(jù)文獻所記載的內(nèi)容的語法而分配給單詞的數(shù)值,例如,是通過數(shù)值來表現(xiàn)助詞或形容詞等的值。特征的值是文獻中的特征本身的值。例如,在特征的維數(shù)表示形容詞的情況下,特征的值為“高速的”等。
[0167]進而,在圖8A中,包含要素“1:0.5”、要素“2:0.8”、要素“5:-0.1”的行表示(0.5、0.8、0、0、-0.I)這樣的特征矢量。
[0168]圖8Β是示出本實施例1的無標簽數(shù)據(jù)的特征矢量700的說明圖。
[0169]在數(shù)據(jù)選擇部255的后述處理中,無標簽數(shù)據(jù)列表U602也被轉(zhuǎn)換為特征矢量700。
[0170]特征矢量700是無標簽數(shù)據(jù)的特征矢量。特征矢量700的各行表示與一個無標簽數(shù)據(jù)有關(guān)的特征矢量。
[0171]特征矢量700包含與特征矢量710相同的數(shù)值矢量。但是,特征矢量700與特征矢量710的不同之處在于,在特征矢量700的各行中未賦予標簽。
[0172]在步驟410中,特征矢量生成部237以使教師數(shù)據(jù)列表L601的I行與特征矢量710的I行對應(yīng)的方式,將特征的維數(shù)和特征的值的組存儲在特征矢量710中。然后,特征矢量生成部237確定具有與教師數(shù)據(jù)列表L601的標簽ID6011對應(yīng)的標簽ID2251的標簽數(shù)據(jù)庫225的行,從確定的行的標簽2253中提取標簽的值。然后,特征矢量生成部237將提取出的標簽的值存儲在特征矢量710的各行的開頭。
[0173]如上所述,特征矢量生成部237根據(jù)特征類型Π和教師數(shù)據(jù)列表L601生成特征矢量710。
[0174]在步驟410之后,圖表構(gòu)筑部270將步驟410中生成的特征矢量710轉(zhuǎn)換為圖表gl (420)。具體而言,由于特征矢量710的各行與節(jié)點對應(yīng),所以,圖表構(gòu)筑部270使用特征矢量計算各行的距離,對節(jié)點間的邊緣確定基于計算出的距離的權(quán)重。由此,圖表構(gòu)筑部270將教師數(shù)據(jù)的特征矢量710轉(zhuǎn)換為圖表gl。
[0175]在步驟420之后,特征評價部245根據(jù)特征評價函數(shù)計算圖表gl的評價值(Scorefflerge) (430)。這里,特征評價函數(shù)可以針對一個圖表返回兩個以上的評價值。
[0176]特征評價部245例如使用式I計算特征評價函數(shù)中的一個評價值即交叉標簽錯誤(Errdiff)0交叉標簽錯誤是表示圖表內(nèi)以何種程度包含不同標簽的評價值。
[0177]【數(shù)學(xué)式I】[0178]
【權(quán)利要求】
1.一種信息處理系統(tǒng),對多個文獻數(shù)據(jù)進行機器學(xué)習(xí),其特征在于,所述信息處理系統(tǒng)具有:初始化部,取得賦予了標簽的多個文獻數(shù)據(jù)即多個教師數(shù)據(jù)、未賦予所述標簽的文獻數(shù)據(jù)即無標簽數(shù)據(jù)、以及表示提取與所述各文獻數(shù)據(jù)有關(guān)的特征的方法的多個特征類型;特征矢量生成部,在輸入所述取得的特征類型中的至少一個所述特征類型的情況下,根據(jù)所述輸入的特征類型和所述取得的各教師數(shù)據(jù),生成通過數(shù)值矢量表示與所述各教師數(shù)據(jù)有關(guān)的特征的所述各教師數(shù)據(jù)的特征矢量; 圖表構(gòu)筑部,根據(jù)由所述特征矢量生成部生成的各教師數(shù)據(jù)的特征矢量,生成所述教師數(shù)據(jù)的圖表; 特征選擇部,根據(jù)由所述圖表構(gòu)筑部生成的教師數(shù)據(jù)的圖表,從由所述初始化部取得的特征類型中選擇用于生成最適于傳播所述教師數(shù)據(jù)的標簽的第I圖表的特征類型,進而,輸出由所述圖表構(gòu)筑部生成的所述第I圖表; 數(shù)據(jù)選擇部,根據(jù)所述第I圖表和所述無標簽數(shù)據(jù),選擇應(yīng)該傳播賦予在所述教師數(shù)據(jù)中的標簽的所述無標簽數(shù)據(jù),進而,通過在所述第I圖表中包含所述選擇出的無標簽數(shù)據(jù),生成第2圖表;以及 機器學(xué)習(xí)部,通過所述第2圖表,將賦予在所述教師數(shù)據(jù)中的標簽向所述選擇出的無標簽數(shù)據(jù)傳播。
2.如權(quán)利要求1所述的信息處理系統(tǒng),其特征在于, 所述圖表構(gòu)筑部根據(jù)所述生成的各教師數(shù)據(jù)的特征矢量計算所述各教師數(shù)據(jù)間的距離, 所述圖表構(gòu)筑部通過在所述各教師數(shù)據(jù)間確定基于所述計算出的各教師數(shù)據(jù)間的距離的權(quán)重,生成所述教師數(shù)據(jù)的圖表, 所述特征選擇部具有: 特征評價部,對所述生成的教師數(shù)據(jù)的圖表進行評價; 特征選擇收斂判定部,在所述特征評價部對所述教師數(shù)據(jù)的圖表的評價結(jié)果滿足第I規(guī)定條件的情況下,輸出所述教師數(shù)據(jù)的圖表作為所述第I圖表;以及 特征優(yōu)化部,在所述特征評價部對所述教師數(shù)據(jù)的圖表的評價結(jié)果不滿足所述第I規(guī)定條件的情況下,根據(jù)所述教師數(shù)據(jù)的圖表的評價結(jié)果,從由所述初始化部取得的特征類型中選擇新的所述特征類型,對所述特征矢量生成部輸入所述選擇出的特征類型, 所述特征評價部使用在賦予了不同的所述標簽的所述教師數(shù)據(jù)間確定的權(quán)重越小則對所述教師數(shù)據(jù)的圖表評價越高、且在賦予了相同的所述標簽的所述教師數(shù)據(jù)間確定的權(quán)重越大則對所述教師數(shù)據(jù)的圖表評價越高的特征評價函數(shù),對所述教師數(shù)據(jù)的圖表進行評價。
3.如權(quán)利要求1或2所述的信息處理系統(tǒng),其特征在于, 所述特征矢量生成部根據(jù)生成所述第I圖表的所述特征類型和由所述初始化部取得的多個無標簽數(shù)據(jù),生成通過數(shù)值矢量表示與所述各無標簽數(shù)據(jù)有關(guān)的特征的所述無標簽數(shù)據(jù)的特征矢量, 所述數(shù)據(jù)選擇部具有數(shù)據(jù)評價部,該數(shù)據(jù)評價部根據(jù)所述各教師數(shù)據(jù)的特征矢量和所述各無標簽數(shù)據(jù)的特征矢量,計算所述第I圖表中包含的各教師數(shù)據(jù)與所述各無標簽數(shù)據(jù)之間的距離的最小值,作為所述第I圖表與所述各無標簽數(shù)據(jù)之間的距離, 所述數(shù)據(jù)評價部保持所述計算出的第I圖表與各無標簽數(shù)據(jù)之間的距離, 所述數(shù)據(jù)評價部選擇所述保持的第I圖表與各無標簽數(shù)據(jù)之間的距離中的最大距離的所述無標簽數(shù)據(jù), 所述數(shù)據(jù)評價部將所述選擇出的無標簽數(shù)據(jù)變更為所述第I圖表中包含的文獻數(shù)據(jù),所述數(shù)據(jù)評價部計算所述第I圖表中包含的各文獻數(shù)據(jù)與所述各無標簽數(shù)據(jù)之間的距離的最小值, 所述數(shù)據(jù)評價部根據(jù)所述計算出的各文獻數(shù)據(jù)與各無標簽數(shù)據(jù)之間的距離,對所述保持的第I圖表與各無標簽數(shù)據(jù)之間的距離進行更新。
4.如權(quán)利要求2所述的信息處理系統(tǒng),其特征在于, 所述初始化部通過對賦予了所述標簽的多個文獻數(shù)據(jù)進行分割,取得所述教師數(shù)據(jù)和測試數(shù)據(jù), 所述特征評價部使用所述特征評價函數(shù)計算特征評價 值, 所述特征矢量生成部根據(jù)生成所述第2圖表的所述特征類型和所述取得的測試數(shù)據(jù),生成通過數(shù)值矢量表示與所述測試數(shù)據(jù)有關(guān)的特征的所述測試數(shù)據(jù)的特征矢量, 所述機器學(xué)習(xí)部在所述選擇出的無標簽數(shù)據(jù)的特征矢量中包含所述測試數(shù)據(jù)的特征矢量, 所述機器學(xué)習(xí)部根據(jù)所述選擇出的無標簽數(shù)據(jù)的特征矢量和所述教師數(shù)據(jù)的特征矢量,通過所述第2圖表將賦予在所述教師數(shù)據(jù)中的標簽向所述選擇出的無標簽數(shù)據(jù)傳播,所述機器學(xué)習(xí)部通過對向所述選擇出的無標簽數(shù)據(jù)中包含的所述測試數(shù)據(jù)傳播的標簽和賦予在所述測試數(shù)據(jù)中的標簽進行比較,計算機器學(xué)習(xí)的評價值, 所述特征評價部在所述機器學(xué)習(xí)的評價值不滿足第2規(guī)定條件的情況下,根據(jù)所述機器學(xué)習(xí)的評價值和所述計算出的特征評價值求出回歸函數(shù), 所述特征評價部使用所述求出的回歸函數(shù)和所述特征評價函數(shù)對所述教師數(shù)據(jù)的圖表進行評價。
5.如權(quán)利要求2所述的信息處理系統(tǒng),其特征在于, 所述信息處理系統(tǒng)還具有從用戶接受指示的輸入裝置, 在從所述用戶經(jīng)由所述輸入裝置指示了第I圖表中包含的無標簽數(shù)據(jù)的情況下,所述數(shù)據(jù)選擇部選擇由所述用戶指示的無標簽數(shù)據(jù)作為應(yīng)該在所述第I圖表中追加的無標簽數(shù)據(jù)。
6.如權(quán)利要求1所述的信息處理系統(tǒng),其特征在于, 所述信息處理系統(tǒng)還具有從用戶接受指示的輸入裝置, 在從所述用戶經(jīng)由所述輸入裝置指示了用于生成最適于傳播所述教師數(shù)據(jù)的標簽的圖表的特征類型的情況下,所述特征選擇部選擇由所述用戶指示的特征類型作為用于生成所述第I圖表的特征類型。
7.一種信息處理方法,用于對多個文獻數(shù)據(jù)進行機器學(xué)習(xí)的信息處理系統(tǒng),其特征在于, 所述信息處理系統(tǒng)具有處理器和存儲器, 所述方法包括以下步驟:初始化步驟,所述處理器取得賦予了標簽的多個文獻數(shù)據(jù)即多個教師數(shù)據(jù)、未賦予所述標簽的文獻數(shù)據(jù)即無標簽數(shù)據(jù)、以及表示提取與所述各文獻數(shù)據(jù)有關(guān)的特征的方法的多個特征類型;
特征矢量生成步驟,在輸入所述取得的特征類型中的至少一個所述特征類型的情況下,所述處理器根據(jù)所述輸入的特征類型和所述取得的各教師數(shù)據(jù),生成通過數(shù)值矢量表示與所述各教師數(shù)據(jù)有關(guān)的特征的所述各教師數(shù)據(jù)的特征矢量; 圖表構(gòu)筑步驟,所述處理器根據(jù)由所述特征矢量生成步驟生成的各教師數(shù)據(jù)的特征矢量,生成所述教師數(shù)據(jù)的圖表; 特征選擇步驟,所述處理器根據(jù)由所述圖表構(gòu)筑步驟生成的教師數(shù)據(jù)的圖表,從由所述初始化步驟取得的特征類型中選擇用于生成最適于傳播所述教師數(shù)據(jù)的標簽的第I圖表的特征類型,進而,輸出由所述圖表構(gòu)筑步驟生成的所述第I圖表; 數(shù)據(jù)選擇步驟,所述處理器根據(jù)所述第I圖表和所述無標簽數(shù)據(jù),選擇應(yīng)該傳播賦予在所述教師數(shù)據(jù)中的標簽的所述無標簽數(shù)據(jù),進而,通過在所述第I圖表中包含所述選擇出的無標簽數(shù)據(jù),生成第2圖表;以及 機器學(xué)習(xí)步驟,所述處理器通過所述第2圖表,將賦予在所述教師數(shù)據(jù)中的標簽向所述選擇出的無標簽數(shù)據(jù)傳播。
8.如權(quán)利要求7所述的信息處理方法,其特征在于, 所述圖表構(gòu)筑步驟包括以下步驟: 所述處理器根據(jù)所述生成的各教師數(shù)據(jù)的特征矢量計算所述各教師數(shù)據(jù)間的距離的步驟, 所述處理器通過在所述各教師數(shù)據(jù)間確定基于所述計算出的各教師數(shù)據(jù)間的距離的權(quán)重來生成所述教師數(shù)據(jù)的圖表的步驟, 所述特征選擇步驟包括以下步驟: 特征評價步驟,所述處理器對所述生成的教師數(shù)據(jù)的圖表進行評價; 特征選擇收斂判定步驟,在所述特征評價步驟對所述教師數(shù)據(jù)的圖表的評價結(jié)果滿足第I規(guī)定條件的情況下,所述處理器輸出所述教師數(shù)據(jù)的圖表作為所述第I圖表;以及特征優(yōu)化步驟,在所述特征評價步驟對所述教師數(shù)據(jù)的圖表的評價結(jié)果不滿足所述第I規(guī)定條件的情況下,所述處理器根據(jù)所述教師數(shù)據(jù)的圖表的評價結(jié)果,從由所述初始化步驟取得的特征類型中選擇新的所述特征類型,在所述特征矢量生成步驟中輸入所述選擇出的特征類型, 所述特征評價步驟還包括如下步驟:所述處理器使用在賦予了不同的所述標簽的所述教師數(shù)據(jù)間確定的權(quán)重越小則對所述教師數(shù)據(jù)的圖表評價越高、且在賦予了相同的所述標簽的所述教師數(shù)據(jù)間確定的權(quán)重越大則對所述教師數(shù)據(jù)的圖表評價越高的特征評價函數(shù),對所述教師數(shù)據(jù)的圖表進行評價。
9.如權(quán)利要求7或8所述的信息處理方法,其特征在于, 所述特征矢量生成步驟包括以下步驟:所述處理器根據(jù)生成所述第I圖表的所述特征類型和由所述初始化步驟取得的無標簽數(shù)據(jù),生成通過數(shù)值矢量表示與所述各無標簽數(shù)據(jù)有關(guān)的特征的所述無標簽數(shù)據(jù)的特征矢量, 所述數(shù)據(jù)選擇步驟具有如下的數(shù)據(jù)評價步驟:所述處理器根據(jù)所述各教師數(shù)據(jù)的特征矢量和所述各無標簽數(shù)據(jù)的特征矢量,計算所述第I圖表中包含的各教師數(shù)據(jù)與所述各無標簽數(shù)據(jù)之間的距離的最小值,作為所述第I圖表與所述各無標簽數(shù)據(jù)之間的距離, 所述數(shù)據(jù)評價步驟包括以下步驟: 所述處理器在所述存儲器中存儲所述計算出的第I圖表與各無標簽數(shù)據(jù)之間的距離的步驟; 所述處理器選擇所述存儲器中存儲的第I圖表與各無標簽數(shù)據(jù)之間的距離中的最大距離的所述無標簽數(shù)據(jù)的步驟; 所述處理器將所述選擇出的無標簽數(shù)據(jù)變更為所述第I圖表中包含的文獻數(shù)據(jù)的步驟; 所述處理器計算所述第I圖表中包含的各文獻數(shù)據(jù)與所述各無標簽數(shù)據(jù)之間的距離的最小值的步驟;以及 所述處理器根據(jù)所述計算出的各文獻數(shù)據(jù)與各無標簽數(shù)據(jù)之間的距離,對所述存儲器中存儲的第I圖表與各無標簽數(shù)據(jù)之間的距離進行更新的步驟。
10.如權(quán)利要求8所述的信息處理方法,其特征在于, 所述初始化步驟包括以下步驟:所述處理器通過對賦予了所述標簽的多個文獻數(shù)據(jù)進行分割,取得所述教師數(shù)據(jù)和測試數(shù)據(jù), 所述特征評價步驟包括以下步驟:所述處理器使用所述特征評價函數(shù)計算特征評價值,` 所述特征矢量生成步驟包括以下步驟:所述處理器根據(jù)生成所述第2圖表的所述特征類型和所述取得的測試數(shù)據(jù),生成通過數(shù)值矢量表示與所述測試數(shù)據(jù)有關(guān)的特征的所述測試數(shù)據(jù)的特征矢量, 所述機器學(xué)習(xí)步驟包括以下步驟: 所述處理器在所述選擇出的無標簽數(shù)據(jù)的特征矢量中包含所述測試數(shù)據(jù)的特征矢量的步驟; 所述處理器根據(jù)所述選擇出的無標簽數(shù)據(jù)的特征矢量和所述教師數(shù)據(jù)的特征矢量,通過所述第2圖表將賦予在所述教師數(shù)據(jù)中的標簽向所述選擇出的無標簽數(shù)據(jù)傳播的步驟;所述處理器通過對向所述選擇出的無標簽數(shù)據(jù)中包含的所述測試數(shù)據(jù)傳播的標簽和賦予在所述測試數(shù)據(jù)中的標簽進行比較,計算機器學(xué)習(xí)的評價值的步驟; 在所述特征評價步驟中,當所述機器學(xué)習(xí)的評價值不滿足第2規(guī)定條件的情況下,所述處理器根據(jù)所述機器學(xué)習(xí)的評價值和所述計算出的特征評價值求出回歸函數(shù)的步驟;以及 所述處理器使用所述求出的回歸函數(shù)和所述特征評價函數(shù)對所述教師數(shù)據(jù)的圖表進行評價的步驟。
11.如權(quán)利要求8所述的信息處理方法,其特征在于, 所述信息處理系統(tǒng)還具有從用戶接受指示的輸入裝置, 所述數(shù)據(jù)選擇步驟包括如下步驟:在從所述用戶經(jīng)由所述輸入裝置指示了第I圖表中包含的無標簽數(shù)據(jù)的情況下,所述處理器選擇由所述用戶指示的無標簽數(shù)據(jù)作為應(yīng)該在所述第I圖表中追加的無標簽數(shù)據(jù)。
12.如權(quán)利要求7所述的信息處理方法,其特征在于,所述信息處理系統(tǒng)還具有從用戶接受指示的輸入裝置, 所述特征選擇步驟包括如下步驟:在從所述用戶經(jīng)由所述輸入裝置指示了用于生成最適于傳播所述教師數(shù)據(jù)的標簽的圖表的特征類型的情況下,所述處理器選擇由所述用戶指示的特征類型作為用于生成所述第I圖表的特征類型。
【文檔編號】G06F17/30GK103678436SQ201310322481
【公開日】2014年3月26日 申請日期:2013年7月29日 優(yōu)先權(quán)日:2012年9月18日
【發(fā)明者】柳瀨利彥, 今一修 申請人:株式會社日立制作所