專利名稱:特征量候選生成裝置和特征量候選生成方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于準(zhǔn)備成為模型構(gòu)筑的基礎(chǔ)的特征量的技術(shù)。
背景技術(shù):
為了預(yù)防疾病和維持/提高健康,需要掌握人的健康狀態(tài)(體溫、 血壓、身體脂肪 等是否在正常范圍內(nèi))。但是,難以直接測量健康狀態(tài),所以在各種健康設(shè)備中,加入了基于 通過測量而獲得的某種生物體信息來估計人的健康狀態(tài)的模型(model)。例如,在電子體溫 計中,加入了根據(jù)在腋下測量的溫度來估計體溫的模型。在血壓計中,加入了根據(jù)加到手臂 上的壓力和測量的聲音來估計血壓的模型。此外,在身體組成計中,加入了根據(jù)體重、身高、 年齡、性別、生物體阻抗來估計身體脂肪率等的身體組成的模型。這種模型一般由將從人獲得的各種特征量作為變量的估計式來表現(xiàn)。在構(gòu)筑模型 時,(1)首先從多個被測試者測量/收集數(shù)據(jù),準(zhǔn)備特征量。在特征量中,除了通過測量而 獲得的測量值之外,還包括根據(jù)一個或多個測量值算出的算出值、性別這樣的被測試者的 屬性值等。并且,接著,(2)從準(zhǔn)備的特征量中選定用于模型的構(gòu)筑的特征量,(3)使用選定 的特征量來構(gòu)筑模型。關(guān)于⑵特征量的選定和(3)模型的構(gòu)筑,從以往開始研究、提出了各種方法。作 為有關(guān)(2)的已有方法,例如,有排除在特征量之間的含義的相似性、基于特征量的信息分 割法中相似性高的特征量的方法(參照專利文獻1),使用在多個特征量中的平均相互信息 量來評價信息量的方法(參照專利文獻2),使用預(yù)測誤差來評價特征量的組合的好壞的方 法(參照專利文獻3)等。此外,作為有關(guān)(3)的已有方法,有線性模型(單回歸模型、重回 歸模型)、非線性模型(神經(jīng)網(wǎng)絡(luò)、SVM(Support Vector Machine,支撐矢量設(shè)備))等。專利文獻1 特開平11-126212號公報專利文獻2 特開平4-84277號公報專利文獻3 特開平9-81731號公報
發(fā)明內(nèi)容
發(fā)明要解決的課題人(生物體)具有“復(fù)雜性”和“個別性”這樣的特殊的結(jié)構(gòu)性質(zhì)。生物體的復(fù)雜性 意味著生物體由肌肉、骨、脂肪等的各種要素構(gòu)成,此外,生物體的個別性意味著在構(gòu)成生 物體的各個要素的特性上存在基于個體差異的偏差。這樣存在生物體的復(fù)雜性和個別性的 基礎(chǔ)上,從生物體測量的信息成為受到了體內(nèi)的各種構(gòu)成要素的偏差的影響的復(fù)合量。并 且,認為在該信息中包含的偏差中,存在與設(shè)為目的的估計對象(例如,身體脂肪率)有關(guān) 的偏差和無關(guān)的偏差的特性不同的偏差??紤]了這樣的偏差的特性的模型構(gòu)筑極其困難。對于這樣的課題,本發(fā)明者們設(shè)想是否能夠通過在上述(1)的特征量的準(zhǔn)備階段 中確保特征量的變化(Variation),以網(wǎng)羅復(fù)雜性和個別性的各種性質(zhì),從而構(gòu)筑精度和可 靠性高的模型。即,將對生物體的復(fù)雜性和個別性的偏差敏感地反應(yīng)的特征量與不易受到基于生物體的復(fù)雜性和個別性的偏差的影響的特征量這樣的性質(zhì)不同的特征量網(wǎng)羅而準(zhǔn)備。但是,由于以往沒有對特征量的性質(zhì)進行定量地評價的有效的方法,所以只能采 用基于對估計對象的預(yù)見知識來試錯(trial and error)地準(zhǔn)備特征量等的沒有效率的方法。本發(fā)明是鑒于上述的實情而完成的,其目的在于,提供一種能夠有效地準(zhǔn)備在具 有復(fù)雜性和個別性的對象物的模型構(gòu)筑中特別有效的、性質(zhì)不同的特征量的候選的技術(shù)。用于解決課題的手段為了達到上述目的,本發(fā)明采用以下結(jié)構(gòu)。本發(fā)明是一種特征量候選生成裝置,用于生成應(yīng)對模型生成裝置提供的特征量候 選,該模型生成裝置使用從提供的特征量候選中所選擇的多個特征量來構(gòu)筑模型,所述特 征量候選生成裝置包括存儲部件,對多種特征量存儲從多個樣本的每個樣本中提取的特 征量的值;指標(biāo)值計算部件,對所述多種特征量的每種特征量計算指標(biāo)值,通過由所述樣本 數(shù)對所述特征量的值的種類數(shù)進行歸一化而獲得該指標(biāo)值;評價對象選擇部件,從所述多 種特征量中選擇作為評價對象的特征量的組合;評價部件,對作為所述評價對象而選擇的 特征量的組合,評價各個特征量的指標(biāo)值的次數(shù)分布的一致性是否滿足規(guī)定的基準(zhǔn);以及 候選決定部件,將通過所述評價部件而評價為滿足所述規(guī)定的基準(zhǔn)的特征量的組合,決定 為對所述模型生成裝置提供的特征量候選。在本發(fā)明中,使用“通過由樣本數(shù)對特征量的值的種類數(shù)進行歸一化而獲得的指 標(biāo)值”,對各個特征量的性質(zhì)進行定量化。并且,選擇特征量的候選,使得該指標(biāo)值的次數(shù)分 布在某種程度成為一樣。這樣,作為特征量候選,能夠高平衡地網(wǎng)羅備齊各種性質(zhì)的特征 量。并且,基于這樣的特征量候選來進行模型構(gòu)筑,從而能夠期待模型的精度和性能的提
尚ο在本發(fā)明中,優(yōu)選地,為發(fā)現(xiàn)滿足所述規(guī)定的基準(zhǔn)的特征量的組合,重復(fù)通過所述 評價對象選擇部件進行的評價對象的更新和通過所述評價部件進行的所述更新了的評價 對象的評價。通過執(zhí)行這樣的探索處理,從多個特征量中能夠自動地選擇出最適合或合適的特 征量的組合。關(guān)于探索處理的具體的方法,也可以是循環(huán)式,也可以應(yīng)用已有的探索算法。例如,所述評價對象選擇部件也可以通過將在所述多種特征量中沒有包含在所述 評價對象的特征量追加到所述評價對象中,更新所述評價對象。此時,所述評價對象選擇部 件也可以確定包含在所述評價對象的特征量的指標(biāo)值的次數(shù)分布中表示最小次數(shù)的部分, 并選擇具有與該表示最小次數(shù)的部分對應(yīng)的指標(biāo)值的特征量,作為追加到所述評價對象的 特征量。這樣,由于適合提高次數(shù)分布的一致性的特征量被選擇作為追加對象,所以能夠 實現(xiàn)探索處理的效率化,能夠盡早地決定合適的特征量候選。此外,所述評價對象選擇部件也可以通過變更包含在所述評價對象的特征量中的至少一個特征量的值的分辨率,更新所述評價對象。此時,所述評價對象選擇部件也可以確 定包含在所述評價對象的特征量的指標(biāo)值的次數(shù)分布中表示最大次數(shù)的部分,并變更具有 與該表示最大次數(shù)的部分對應(yīng)的指標(biāo)值的特征量的分辨率。
若將特征量的值的分辨率設(shè)為粗糙,則指標(biāo)值變小,若將分辨率設(shè)為細致,則指標(biāo) 值變大。變更具有與表示最大次數(shù)的部分對應(yīng)的指標(biāo)值的特征量的分辨率,并減小或增大 該指標(biāo)值,從而能夠提高次數(shù)分布的一致性。該方法在存儲部件中存儲的多種特征量的指 標(biāo)值偏向的情況下或在存儲部件中不存在具有與次數(shù)少的部分對應(yīng)的指標(biāo)值的特征量的 情況下等有效。本發(fā)明可作為具有上述部件的至少一部分的特征量候選生成裝置處理,也可以作 為包括上述特征量候選生成裝置和上述模型生成裝置的模型構(gòu)筑系統(tǒng)處理。此外,本發(fā)明 也可以作為至少包括上述處理的一部分的特征量候選生成方法或者用于實現(xiàn)該方法的程 序或記錄了該程序的計算機可讀取的記錄介質(zhì)處理。另外,只要有可能,上述部件和處理中 的各個部件和處理可以相互組合而構(gòu)成本發(fā)明。
例如,本發(fā)明的一種特征量候選生成方法,用于生成應(yīng)對模型生成裝置提供的特 征量候選,該模型生成裝置使用從提供的特征量候選中所選擇的多個特征量來構(gòu)筑模型, 所述特征量候選生成方法使包括對多種特征量存儲從多個樣本的每個樣本中提取的特征 量的值的存儲部件的計算機執(zhí)行以下步驟指標(biāo)值計算步驟,對所述多種特征量的每種特 征量計算指標(biāo)值,通過由所述樣本數(shù)對所述特征量的值的種類數(shù)進行歸一化而獲得該指標(biāo) 值;評價對象選擇步驟,從所述多種特征量中選擇作為評價對象的特征量的組合;評價步 驟,對作為所述評價對象而選擇的特征量的組合,評價各個特征量的指標(biāo)值的次數(shù)分布的 一致性是否滿足規(guī)定的基準(zhǔn);以及候選決定步驟,將通過所述評價步驟而評價為滿足所述 規(guī)定的基準(zhǔn)的特征量的組合,決定為對所述模型生成裝置提供的特征量候選。此外,本發(fā)明的一種特征量候選生成程序,用于生成應(yīng)對模型生成裝置提供的特 征量候選,該模型生成裝置使用從提供的特征量候選中所選擇的多個特征量來構(gòu)筑模型, 所述特征量候選生成程序使包括對多種特征量存儲從多個樣本的每個樣本中提取的特征 量的值的存儲部件的計算機執(zhí)行以下步驟指標(biāo)值計算步驟,對所述多種特征量的每種特 征量計算指標(biāo)值,通過由所述樣本數(shù)對所述特征量的值的種類數(shù)進行歸一化而獲得該指標(biāo) 值;評價對象選擇步驟,從所述多種特征量中選擇作為評價對象的特征量的組合;評價步 驟,對作為所述評價對象而選擇的特征量的組合,評價各個特征量的指標(biāo)值的次數(shù)分布的 一致性是否滿足規(guī)定的基準(zhǔn);以及候選決定步驟,將通過所述評價步驟而評價為滿足所述 規(guī)定的基準(zhǔn)的特征量的組合,決定為對所述模型生成裝置提供的特征量候選。發(fā)明效果根據(jù)本發(fā)明,能夠有效地準(zhǔn)備在具有復(fù)雜性和個別性的對象物的模型構(gòu)筑中成為 有效的、性質(zhì)不同的特征量的候選。
圖1是示意性地表示本發(fā)明的實施方式的模型構(gòu)筑系統(tǒng)的結(jié)構(gòu)的圖。圖2是表示本系統(tǒng)的整體流程的圖。圖3是表示特征量的追加的具體處理的流程圖。圖4是用于說明特征量的追加處理的NC直方圖。圖5是表示特征量的分辨率的調(diào)整的具體處理的流程圖。圖6A和圖6B是用于說明特征量的分辨率的調(diào)整處理的NC直方圖。
圖7是用于說明特征量的分辨率的調(diào)整處理的圖。圖8是表示相關(guān)系數(shù)的變化的圖。圖9是表示誤差SD的變化的圖。圖10是表示每個方式的回歸系數(shù)的平均與標(biāo)準(zhǔn)偏差的表。
具體實施例方式以下,參照附圖,例示性地詳細說明本發(fā)明的優(yōu)選的實施方式。<特征量的評價指標(biāo)>想要網(wǎng)羅性地準(zhǔn)備應(yīng)對應(yīng)于生物體的復(fù)雜性和個別性的性質(zhì)不同的特征量,以往 也沒有用于定量地評價特征量的性質(zhì)的有效的方法,所以只有試錯地區(qū)分特征量并準(zhǔn)備的 方法,非常沒有效率。因此,在本實施方式中,導(dǎo)入基數(shù)性(cardinality)(濃度)的概念?;鶖?shù)性是表 示集合的要素數(shù)的概念,是表示特征量可具有的濃度,即特征量值的種類數(shù)的指標(biāo)。例如, 設(shè)為從5個被測試者獲得了以下的特征量。(1)性別男,身高:170cm,體重 59kg(2)性別男,身高173cm,體重 65kg(3)性別男,身高l68cm,體重 65kg(4)性別女,身高l52cm,體重 42kg(5)性別女,身高l59cm,體重 50kg在該樣本中,特征量“性另lj”的要素是“男”和“女”,該基數(shù)性成為“2”。此外,特征 量“身高”的基數(shù)性成為“5”,“體重”的基數(shù)性成為“4”。通過使用該基數(shù)性的概念,能夠?qū)?各個特征量對于偏差的表現(xiàn)能力進行定量化。但是,該基數(shù)性的值存在集合的規(guī)模,即樣本數(shù)據(jù)的數(shù)目上受到影響的問題。例 如,在如“身高”那樣值因每個人而不同的可能性高的特征量的情況下,隨著樣本數(shù)據(jù)增加, 基數(shù)性的值也增大。因此,在本實施方式中,如以下式所示那樣,定義通過以樣本數(shù)對基數(shù) 性進行歸一化所得到的NC (歸一化基數(shù)性=Normalized Cardinality)這樣的評價指標(biāo)。根 據(jù)以下式可知那樣,NC的定義域(值域)成為0 < NC彡1。NC =(基數(shù)性)/ (樣本數(shù)據(jù)數(shù)目)可以說歸一化基數(shù)性NC較小的特征量具有不易受到因生物體的復(fù)雜性和個別性 的偏差的影響的性質(zhì)。若將這樣的特征量加入到模型中,則能夠期待吸收由生物體的復(fù)雜 性/個別性的偏差所引起的誤差,提高模型的穩(wěn)定性的效果。另一方面,可以說歸一化基數(shù)性NC較大的特征量具有能夠高精度地表現(xiàn)生物體 的復(fù)雜性和個別性的偏差的性質(zhì)。若將這樣的特征量加入到模型中,則能夠期待提高模型 的精度和表現(xiàn)力的效果。因此,為構(gòu)筑兼具了穩(wěn)定性和精度的雙方的可靠性高的模型,期望使用歸一化基 數(shù)性NC較大的特征量和較小的特征量的雙方。因此,在以下敘述的本實施方式的系統(tǒng)中, 在特征量的準(zhǔn)備階段,采用高平衡且網(wǎng)羅性地準(zhǔn)備從歸一化基數(shù)性NC較大的特征量到小 的特征量的方法(approach)。通過在最初準(zhǔn)備這樣的特征量候選,結(jié)果能夠在后級的特征 量的選定處理和模型的構(gòu)筑處理中構(gòu)筑可靠性高的模型。
<系統(tǒng)結(jié)構(gòu)>圖1是示意性地表示本發(fā)明的實施方式的模型構(gòu)筑系統(tǒng)的結(jié)構(gòu)的圖。模型構(gòu)筑系統(tǒng)大致上包括基于歸一化基數(shù)性NC而生成特征量候選的特征量候 選生成裝置1和基于由該特征量候選生成裝置1提供的特征量候選而進行特征量的選定和 模型構(gòu)筑的模型生成裝置2。特征量候選生成裝置1包括特征量候選生成單元10和特征量 數(shù)據(jù)庫11,模型生成裝置2包括模型準(zhǔn)備單元20和特征量/模型選定單元21及模型評價 單元22。該模型構(gòu)筑系統(tǒng)是基于從多個被測試者(樣本)獲得的測量數(shù)據(jù)和屬性數(shù)據(jù),自 動地生成估計對象的模型(估計式)的系統(tǒng)。作為估計對象,例如可估計身體脂肪率或內(nèi) 臟脂肪量等的身體組成、體溫、血壓等的表示人的健康狀態(tài)的對象。作為測量數(shù)據(jù),使用從 生物體測量的各種信息,例如身高、體重、腰圍、生物體阻抗、溫度、心率等,此外,作為屬性 數(shù)據(jù),例如使用年齡、性別等。由于大多情況下測量數(shù)據(jù)或?qū)傩詳?shù)據(jù)與估計對象之間的因果 關(guān)系是未知的,所以優(yōu)選盡可能收集多種數(shù)據(jù)。事先收集的測量數(shù)據(jù)、屬性數(shù)據(jù)存儲在特征 量數(shù)據(jù)庫11中。在硬件上,模型構(gòu)筑系統(tǒng)可通過包括CPU、存儲器、輔助存儲裝置、顯示裝置、輸入 裝置等的通用的計算機構(gòu)成。既可以是一臺計算機,也可以是由多臺計算機構(gòu)成。并且,上 述的模型構(gòu)筑系統(tǒng)的各種功能可通過CPU執(zhí)行在輔助存儲裝置中存儲的程序,并根據(jù)需要 利用硬件資源而實現(xiàn)。<功能和動作>接著,參照圖2的流程圖,說明模型構(gòu)筑系統(tǒng)的各個部分的功能和其動作。圖2是 表示本系統(tǒng)的整體流程的圖。(特征量候選生成裝置特征量的準(zhǔn)備)在步驟Sl中,特征量候選生成單元10從特征量數(shù)據(jù)庫11讀入測量數(shù)據(jù)和屬性數(shù) 據(jù),并根據(jù)這些數(shù)據(jù)而計算特征量。這里,將測量數(shù)據(jù)(測量值)和屬性數(shù)據(jù)(屬性值)本 身稱為第一次特征量,將根據(jù)一個或多個測量值算出的算出值稱為第二次特征量。例如,從 被測試者測量的腰圍w和生物體阻抗Z是第一次特征量,通過它們的維數(shù)擴展和組合而獲 得的w2、1/w、Z · w等是第二次特征量。作為第二次特征量而生成什么樣的量,可以預(yù)先設(shè) 定在特征量候選生成單元10中,也可以隨機或網(wǎng)羅性地生成各種形式的第二次特征量。通過特征量候選生成單元10算出的特征量(包括第一次特征量、第二次特征量) 存儲在作為存儲部件的特征量數(shù)據(jù)庫11中。這樣,在特征量數(shù)據(jù)庫11中,對多種特征量準(zhǔn) 備從多個樣本的各個樣本中提取出的(測量、獲取或者算出的)特征量的值。其中,由于這 些特征量只是自動地收集并算出的,所以并不限定高平衡且網(wǎng)羅性地包含不同性質(zhì)的特征 量,也存在若將全部設(shè)為特征量候選的話數(shù)目會過多的情況。因此,特征量候選生成單元10 在下一個步驟之后進行特征量候選的生成。在步驟S2中,特征量候選生成單元10對在特征量數(shù)據(jù)庫11中存儲的多種特征量 的每種特征量計算歸一化基數(shù)性NC的值。另外,在本實施方式中,特征量候選生成單元10 的這個功能相當(dāng)于本發(fā)明的指標(biāo)值計算部件。在步驟S3中,特征量候選生成單元10從多種特征量選擇設(shè)為評價對象的特征量的組合(特征量組)。初始的特征量組可以任意選擇。例如,可以隨機選擇,也可以選擇NC的值的方差大的組合的特征量。另外,在本實施方式中,特征量候選生成單元10的這個功 能相當(dāng)于本發(fā)明的評價對象選擇部件。在步驟S4中,特征量候選生成單元10對在步驟S3中選擇作為評價對象的特征量 組,評價各個特征量的歸一化基數(shù)性的次數(shù)分布的一致性是否滿足規(guī)定的基準(zhǔn)。即,在將橫 軸設(shè)為NC的值(值域是0 1)、將縱軸設(shè)為次數(shù)(特征量的數(shù)目)的直方圖(以下,稱為 NC直方圖)中,評價在0 1的值域整體中是否高平衡地分布特征量。作為這樣的評價方 法,例如可使用Kolmogorov smirnov檢測等。這里,在評價為NC直方圖的一致性滿足規(guī)定 的基準(zhǔn)(NC的平衡好)的情況下,進至步驟S6,在評價為不滿足規(guī)定的基準(zhǔn)(NC的平衡差) 的情況下,進至步驟S5。另外,在本實施方式中,特征量候選生成單元10的這個功能相當(dāng)于 本發(fā)明的評價部件。在步驟S5中,特征量候選生成單元10更新設(shè)為評價對象的特征量組。作為NC高 平衡地更新特征量組的方法,這里使用“特征量的追加”和“特征量的分辨率的調(diào)整”的兩 個方法中的任一個或者兩個。圖3是表示特征量的追加的具體處理的流程圖。在步驟S30中,特征量候選生成單 元10調(diào)查在特征量數(shù)據(jù)庫11中是否存在不使用(沒有包括在評價中的特征量組中)的特 征量。在存在的情況下,在步驟S31中取得它們的NC 的值。然后,在步驟S32中,特征量候 選生成單元10在當(dāng)前的評價對象的NC直方圖中確定表示最小次數(shù)的部分。若例如是圖4 所示那樣的NC直方圖,則表示最小次數(shù)的部分是NC值為0. 3的部分。以下,將表示最小次 數(shù)的部分的NC值稱為NCb、將表示最大次數(shù)的部分的NC值稱為NCp。特征量候選生成單元 10從在步驟S30中獲得的特征量中,提取NC的值包含在NCb士 α (α是預(yù)先設(shè)定的值。例 如α =0.05)的范圍的特征量。這里,在提取的特征量至少存在一個的情況下(步驟S33 是),在步驟S34中,NC的值最接近NCb的特征量被追加到作為評價對象的特征量組中。圖5是表示特征量的分辨率的調(diào)整的具體處理的流程圖。在步驟S40中,特征量 候選生成單元10比較當(dāng)前的評價對象的NC直方圖的NCp與NCb的大小。在NCp > NCb的情況下(參照圖6Α),進至步驟S41。在步驟S41中,特征量候選 生成單元10從屬于NCp的部分的特征量中,提取能夠?qū)⒎直媛师?%粗略化的特征量(β是 預(yù)先設(shè)定的值。例如β =50%)。這里,調(diào)整分辨率是指,變更特征量可取的值(離散值) 的刻紋寬度,將分辨率粗略化是指將刻紋寬度增大,將分辨率細致化是指將刻紋寬度減小。 若特征量的值為以實數(shù)值來提供的特征量,則原則上能夠以任意寬度來調(diào)整分辨率。在步 驟S41中提取的特征量至少存在一個的情況下(步驟S42 是),準(zhǔn)備將這些特征量的分辨 率β %粗略化的特征量(步驟S43),進至步驟S47。另一方面,在NCp < NCb的情況下(參照圖6Β),進至步驟S44。在步驟S44中,特 征量候選生成單元10從屬于NCp的部分的特征量中,提取能夠?qū)⒎直媛师?%細致化的特征 量。在提取的特征量至少存在一個的情況下(步驟S45:是),準(zhǔn)備將這些特征量的分辨率 β %細致化的特征量(步驟S46),進至步驟S47。在步驟S47中,特征量候選生成單元10計算在步驟S43或步驟S46中準(zhǔn)備的分辨 率調(diào)整之后的特征量的NC。如圖7所示那樣,若將分辨率粗略化,則特征量可取的值的數(shù)目 減少,所以NC的值減小,相反地,若將分辨率細致化,則特征量可取的值的數(shù)目增加,所以 NC的值變大。在步驟S48中,在這些中采用具有最接近NCb的NC的值的特征量。
若通過執(zhí)行以上敘述的“特征量的追加”或/和“特征量的分辨率的調(diào)整”而評價 對象的特征量組被更新,則返回到步驟S4,進行在更新后的特征量組中的NC的平衡評價。 該步驟S4和S5的處理(適合的特征量組的探索處理)重復(fù)至NC的平衡判斷為好為止。由 于在上述特征量的追加處理中,適合提高NC直方圖的一致性的特征量被選擇作為追加對 象,所以具有能夠?qū)崿F(xiàn)探索處理的效率化,且能夠盡早決定合適的特征量候選的優(yōu)點。另一 方面,通過在特征量的分辨率的調(diào)整處理中,減小或增大與在NC直方圖中的最大次數(shù)的部 分對應(yīng)的特征量的指標(biāo)值,從而能夠提高次數(shù)分布的一致性。該方法在以下情況下有效在 特征量數(shù)據(jù)庫11中存儲的特征量的NC偏向的情況下,或在特征量數(shù)據(jù)庫11中不存在具有 與NC直方圖的次數(shù)少的部分對應(yīng)的NC的特征量的情況下等。另外,特征量候選生成單元 10的這些功能對應(yīng)于本發(fā)明的評價對象選擇部件。若這樣獲得NC的平衡好的特征量組,則特征量候選生成單元10將該特征量組決 定為對模型生成裝置2提供的特征量候選(步驟S6)。在該特征量候選中,高平衡且網(wǎng)羅性 地包括NC大的特征量至小的特征量,能夠期待在后級的特征量的選定處理和模型的構(gòu)筑 處理中可進行可靠性高的模型構(gòu)筑。(模型生成裝置特征量的選定和模型的構(gòu)筑)在步驟S7中,模型準(zhǔn)備單元20生成模型候選(估計式的候選)。這里,模型準(zhǔn)備 單元20對在特征量候選中包含的特征量的全部組合生成模型候選。這里,若特征量的數(shù) 目過多而評價全部組合為不現(xiàn)實的情況下,則固定要選擇的特征量的數(shù)目等(例如,若將 特征量的總數(shù)設(shè)為η個、要選擇的特征量的數(shù)目設(shè)為m個,則模型候選的數(shù)目被限定為nCm 組。),適當(dāng)?shù)叵薅P秃蜻x的數(shù)目即可。作為模型,有單回歸模型、重回歸模型等的線性模型和神經(jīng)網(wǎng)絡(luò)、SVM等的非線性 模型等,使用任何模型都可以。此外,模型準(zhǔn)備單元20也可以根據(jù)在提供的特征量候選中 包含的特征量的種類和數(shù)目等,適應(yīng)性地改變使用的模型的形式或者對一個特征量的組生 成多種形式的模型候選。在步驟S8中,模型準(zhǔn)備單元20從特征量數(shù)據(jù)庫11中讀入各個特征量的值,學(xué)習(xí) 各個模型候選的系數(shù)。在學(xué)習(xí)方法中有最小二乘(least squares)法或向后傳播(back propagation)法等,根據(jù)模型候選的形式來選擇最合適的學(xué)習(xí)方法即可。接著,進行在通過步驟S7和S8獲得的多個模型候選中篩選最合適的特征量/模 型的處理。這里,為選定特征量/模型,使用AIC (Akaike InformationCriterion)這樣的 指標(biāo)。AIC是用于選擇顧全了模型的簡單性和對已知的數(shù)據(jù)的適應(yīng)性的模型的統(tǒng)計性的基 準(zhǔn)。在步驟S9中,特征量/模型選定單元21對各個模型候選選擇AIC。然后,在步驟SlO 中,AIC最小的模型候選被選擇作為最合適的模型,即顧全了簡單性和對已知的數(shù)據(jù)的適應(yīng) 性的模型。另外,作為用于評價特征量/模型的指標(biāo),并不限定于AIC,可以使用Cp值等的 其他指標(biāo)。之后,在步驟Sll中,模型評價單元22評價所選擇的模型的性能。具體地說,使用 驗證用的樣本數(shù)據(jù)來求出模型的估計誤差,并根據(jù)該估計誤差是否在允許范圍內(nèi)來決定是 否采用該模型。若估計誤差超出允許范圍,則依次評價AIC的值下一個小的模型即可。若 這樣也沒有發(fā)現(xiàn)滿足性能目標(biāo)的模型的情況下,重新生成或者更新特征量候選(步驟S3 S6),或者重新生成模型候選(步驟S7、S8)即可。
如以上所述那樣,在本實施方式的方法中,各個特征量的性質(zhì)通過歸一化基數(shù)性 被定量化。并且,選擇特征量的候選,使得該指標(biāo)值NC的次數(shù)分布在某種程度上成為一致。 這樣,作為特征量候選,能夠高平衡且網(wǎng)羅性地備齊各種性質(zhì)的特征量。并且,通過基于這 樣的特征量候選來進行模型構(gòu)筑,從而能夠期待模型的精度和穩(wěn)定性的提高?!磳嵤├u價實驗〉為了驗證考慮歸一化基數(shù)性NC而選擇特征量的有效性,準(zhǔn)備采用的特征量的NC 的傾向不同的三個模型(估計式),評價了各個模型的估計精度和穩(wěn)定性。1.估計式準(zhǔn)備的估計式如下所示。另外,這些估計式是用于基于從人測量或獲得的特征量而估計內(nèi)臟脂肪面積的模型。省略關(guān)于各個特征量的含義。(方式1)方式1是在現(xiàn)有研究中提出的估計式。在下述式中“NC(x) ”表示特征量χ的NC 的值。式1
2 1VFA=OCW -β—-yXw-δ
Zα、β、γ、δ:回歸系數(shù)w2、去、Xw:特征量NC(1/Z) = NC (Xw) = 1. 00,NC (w2) = 0. 72(方式2)方式2是通過上述的實施方式的模型構(gòu)筑系統(tǒng)而構(gòu)筑的估計式。在下述式中,網(wǎng) 羅性地包括NC大的特征量至NC小的特征量。式2
VFA=aia+a2b+a3 - +a4a2+a5b2+a6^ +a7 丄 +a8X Va2+ 2 +a9A+ai0S+a1i
bb Za“i = 1、2、……、11)回歸系數(shù)a、b、+、a2、b2、+、去、χ^2+&2、A、S 特征量NC ( 1/Z) =NC ( XVa2+62 ) =1.00NC (b) = NC(l/b) = NC (b2) = NC(l/b2) = 0. 98NC (a) = NC (a2) = 0. 80NC(A) = 0· 40,NC(S) = 0. 02(方式3)方式3是從方式2的估計式中除去了 NC小的特征量A、S的估計式。即,方式3成 為僅由NC大的特征量構(gòu)成的估計式。式3νΡΑ=β!α+β25+β3- +p4a2+p5b2+p6 J- +β7 丄 +β8Χ+β9
bb Z<formula>formula see original document page 12</formula>2.評價指標(biāo)在本評價實驗中,作為用于評價各個估計式的估計精度的高度和穩(wěn)定性的指標(biāo), 使用相關(guān)系數(shù)和誤差標(biāo)準(zhǔn)偏差。此外,作為用于評價估計式的穩(wěn)定性的指標(biāo),使用回歸系數(shù) 的標(biāo)準(zhǔn)偏差。以下,表示這些評價指標(biāo)的細節(jié)。(相關(guān)系數(shù))通過皮爾遜(pearson)的積矩相關(guān)系數(shù)(product moment correlationcoefficient)而算出基于任意的估計式的內(nèi)臟脂肪面積的估計式與通過MRI 而獲得的實際值之間的相關(guān),從而評價對于未知的個體的表現(xiàn)性能,即評價是否能夠?qū)?nèi) 臟脂肪面積小的個體到大的個體確保高的估計精度。(誤差標(biāo)準(zhǔn)偏差)根據(jù)基于任意的估計式的估計值與通過MRI而獲得的實際測量值之間的誤差的 標(biāo)準(zhǔn)偏差(以下,稱為誤差SD),評價對于未知的個體的估計精度的穩(wěn)定性。(回歸系數(shù)的標(biāo)準(zhǔn)偏差)預(yù)先準(zhǔn)備多個學(xué)習(xí)用數(shù)據(jù)組,并根據(jù)學(xué)習(xí)任意的估計式的回歸系數(shù)時的回歸系數(shù) 的標(biāo)準(zhǔn)偏差,評價估計式對于學(xué)習(xí)用數(shù)據(jù)中的個體差的穩(wěn)定性。3.實驗方法在每次進行方式1、2、3的比較評價時,進行交叉驗證(cross validation)。以下 表示步驟。(1)為生成學(xué)習(xí)用數(shù)據(jù)組和驗證用數(shù)據(jù)組,將在特征量數(shù)據(jù)庫11中存儲的被測試 者組的數(shù)據(jù)隨機地分割為2組。另外,在本實驗中,將學(xué)習(xí)用數(shù)據(jù)組與驗證用數(shù)據(jù)組的個體 數(shù)設(shè)為相同。(2)對一個數(shù)據(jù)組進行估計式的回歸系數(shù)的學(xué)習(xí)。(3)使用另一個數(shù)據(jù)組,從各個估計式算出估計值。(4)進行估計值與MRI的實際測量值之間的相關(guān)系數(shù)和誤差SD的計算。(5)為驗證估計式的穩(wěn)定性,多次進行(1) (4)。在本實驗中,將進行次數(shù)設(shè)為 10次。4.評價結(jié)果在圖8中示出在10次試行中的各個方式的估計值與實際測量值的相關(guān)系數(shù)的變 化,在圖9中示出誤差SD的變化。根據(jù)圖8可知方式2和方式3的內(nèi)臟脂肪面積的表現(xiàn)性能高于以往方法的方式1。 此外,根據(jù)圖9可確認對于未知的生物體的估計精度的穩(wěn)定性也是相同的。這里,方式2和方式3比方式1包括較多NC大的特征量。即,可確認通過在估計 式中導(dǎo)入NC大的特征量,估計精度會提高。
此外,圖10表示與通過在評價實驗中進行的10次試行而獲得的各個估計式的特 征量對應(yīng)的回歸系數(shù)的平均與標(biāo)準(zhǔn)偏差。在圖10中,若比較對于在方式2和方式3中共 同包含的特征量的回歸系數(shù)的標(biāo)準(zhǔn)偏差,則方式2的各個回歸系數(shù)的標(biāo)準(zhǔn)偏差比方式3小 9 48%。因此,可以說方式2可以比方式3更穩(wěn)定地構(gòu)筑估計式。即,能夠確認通過在估 計式中導(dǎo)入NC小的特征量,估計式的穩(wěn)定性會提高。根據(jù)以上的結(jié)果,可知通過使用本實施方式的方法來準(zhǔn)備/選定特征 量,從而能 夠穩(wěn)定地構(gòu)筑高精度的估計式。
權(quán)利要求
一種特征量候選生成裝置,用于生成應(yīng)對模型生成裝置提供的特征量候選,該模型生成裝置使用從提供的特征量候選中所選擇的多個特征量來構(gòu)筑模型,其特征在于,所述特征量候選生成裝置包括存儲部件,對多種特征量存儲從多個樣本的每個樣本中提取的特征量的值;指標(biāo)值計算部件,對所述多種特征量的每種特征量計算指標(biāo)值,通過由所述樣本數(shù)對所述特征量的值的種類數(shù)進行歸一化而獲得該指標(biāo)值;評價對象選擇部件,從所述多種特征量中選擇作為評價對象的特征量的組合;評價部件,對作為所述評價對象而選擇的特征量的組合,評價各個特征量的指標(biāo)值的次數(shù)分布的一致性是否滿足規(guī)定的基準(zhǔn);以及候選決定部件,將通過所述評價部件而評價為滿足所述規(guī)定的基準(zhǔn)的特征量的組合,決定為對所述模型生成裝置提供的特征量候選。
2.如權(quán)利要求1所述的特征量候選生成裝置,其特征在于,為發(fā)現(xiàn)滿足所述規(guī)定的基準(zhǔn)的特征量的組合,重復(fù)通過所述評價對象選擇部件進行的 評價對象的更新和通過所述評價部件進行的所述更新了的評價對象的評價。
3.如權(quán)利要求2所述的特征量候選生成裝置,其特征在于,所述評價對象選擇部件通過將在所述多種特征量中沒有包含在所述評價對象的特征 量追加到所述評價對象中,更新所述評價對象,所述評價對象選擇部件確定包含在所述評價對象的特征量的指標(biāo)值的次數(shù)分布中表 示最小次數(shù)的部分,并選擇具有與該表示最小次數(shù)的部分對應(yīng)的指標(biāo)值的特征量,作為追 加到所述評價對象的特征量。
4.如權(quán)利要求2或3所述的特征量候選生成裝置,其特征在于,所述評價對象選擇部件通過變更包含在所述評價對象的特征量中的至少一個特征量 的值的分辨率,更新所述評價對象,所述評價對象選擇部件確定包含在所述評價對象的特征量的指標(biāo)值的次數(shù)分布中表 示最大次數(shù)的部分,并變更具有與該表示最大次數(shù)的部分對應(yīng)的指標(biāo)值的特征量的分辨 率。
5.一種特征量候選生成方法,用于生成應(yīng)對模型生成裝置提供的特征量候選,該模型 生成裝置使用從提供的特征量候選中所選擇的多個特征量來構(gòu)筑模型,其特征在于,所述特征量候選生成方法使包括對多種特征量存儲從多個樣本的每個樣本中提取的 特征量的值的存儲部件的計算機執(zhí)行以下步驟指標(biāo)值計算步驟,對所述多種特征量的每種特征量計算指標(biāo)值,通過由所述樣本數(shù)對 所述特征量的值的種類數(shù)進行歸一化而獲得該指標(biāo)值;評價對象選擇步驟,從所述多種特征量中選擇作為評價對象的特征量的組合; 評價步驟,對作為所述評價對象而選擇的特征量的組合,評價各個特征量的指標(biāo)值的 次數(shù)分布的一致性是否滿足規(guī)定的基準(zhǔn);以及候選決定步驟,將通過所述評價步驟而評價為滿足所述規(guī)定的基準(zhǔn)的特征量的組合, 決定為對所述模型生成裝置提供的特征量候選。
6.一種特征量候選生成程序,用于生成應(yīng)對模型生成裝置提供的特征量候選,該模型 生成裝置使用從提供的特征量候選中所選擇的多個特征量來構(gòu)筑模型,其特征在于,所述特征量候選生成程序使包括對多種特征量存儲從多個樣本的每個樣本中提取的 特征量的值的存儲部件的計算機執(zhí)行以下步驟指標(biāo)值計算步驟,對所述多種特征量的每種特征量計算指標(biāo)值,通過由所述樣本數(shù)對 所述特征量的值的種類數(shù)進行歸一化而獲得該指標(biāo)值;評價對象選擇步驟,從所述多種特征量中選擇作為評價對象的特征量的組合; 評價步驟,對作為所述評價對象而選擇的特征量的組合,評價各個特征量的指標(biāo)值的 次數(shù)分布的一致性是否滿足規(guī)定的基準(zhǔn);以及 候選決定步驟,將通過所述評價步驟而評價為滿足所述規(guī)定的基準(zhǔn)的特征量的組合, 決定為對所述模型生成裝置提供的特征量候選。
全文摘要
特征量候選生成裝置,包括存儲部件,對多種特征量存儲從多個樣本的每個樣本中提取的特征量的值;指標(biāo)值計算部件,對多種特征量的每種特征量計算指標(biāo)值,通過由樣本數(shù)對特征量的值的種類數(shù)進行歸一化而獲得該指標(biāo)值;評價對象選擇部件,從多種特征量中選擇作為評價對象的特征量的組合;評價部件,對作為評價對象而選擇的特征量的組合,評價各個特征量的指標(biāo)值的次數(shù)分布的一致性是否滿足規(guī)定的基準(zhǔn);以及候選決定部件,將通過評價部件而評價為滿足規(guī)定的基準(zhǔn)的特征量的組合,決定為對模型生成裝置提供的特征量候選。
文檔編號A61B5/05GK101835421SQ20088011285
公開日2010年9月15日 申請日期2008年10月31日 優(yōu)先權(quán)日2007年11月1日
發(fā)明者中島宏, 土屋直樹, 田崎博, 米田光宏 申請人:歐姆龍株式會社