基于因子圖模型的自診模型訓(xùn)練方法和裝置制造方法
【專利摘要】本發(fā)明實施例公開了一種基于因子圖模型的自診模型訓(xùn)練方法和裝置。所述基于因子圖模型的自診模型訓(xùn)練方法包括:從收集到的專業(yè)知識數(shù)據(jù)中提取專業(yè)知識特征數(shù)據(jù),并從收集到的醫(yī)患交流數(shù)據(jù)中提取醫(yī)患交流特征數(shù)據(jù),其中,所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)中均存儲有疾病與癥狀之間的對應(yīng)關(guān)系;根據(jù)所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)的內(nèi)容構(gòu)建包括潛藏層的稀疏因子圖模型;利用所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)對所述稀疏因子圖模型進行遷移訓(xùn)練,直至所述稀疏因子圖模型的參數(shù)全部收斂。所述基于因子圖模型的自診模型訓(xùn)練方法和裝置同時解決了領(lǐng)域知識偏差以及經(jīng)驗數(shù)據(jù)稀疏的問題。
【專利說明】基于因子圖模型的自診模型訓(xùn)練方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明實施例涉及計算機數(shù)據(jù)處理技術(shù),尤其涉及一種基于因子圖模型的自診模 型訓(xùn)練方法和裝置。
【背景技術(shù)】
[0002] 在互聯(lián)網(wǎng)十分發(fā)達的今天,通過互聯(lián)網(wǎng)向用戶提供自診服務(wù)的自診系統(tǒng)十分流 行。
[0003] 現(xiàn)有的自診系統(tǒng)大體上可以分為基于專業(yè)知識的自診系統(tǒng)以及基于經(jīng)驗數(shù)據(jù)的 自診系統(tǒng)?;趯I(yè)知識的自診系統(tǒng)參照領(lǐng)域知識為用戶提供自診建議。它給出的數(shù)據(jù)具 有成熟的理論知識體系作支撐,因而非常權(quán)威。但是,實際的診斷過程中往往有一些領(lǐng)域知 識不能預(yù)見的情況,比如患者所處的環(huán)境、患者自身體質(zhì)。而實際診斷過程則需要綜合考慮 所有的情況對用戶的患病情況給出準確的判斷。因此,基于專業(yè)知識的自診系統(tǒng)給出的自 診建議往往是存在偏差的。
[0004] 基于經(jīng)驗數(shù)據(jù)的自診系統(tǒng)依靠經(jīng)驗數(shù)據(jù),沒有成熟的理論體系作支撐。經(jīng)驗數(shù)據(jù) 可以是實際診斷過程中患者與醫(yī)生的交流數(shù)據(jù)。然而,實際的醫(yī)患交流數(shù)據(jù)本身很可能是 稀疏的。比如,醫(yī)生在診斷過程中醫(yī)生觀察到病人的嗓音沙啞,并據(jù)此給出了診斷建議,但 是并沒有把他觀察到的這一特征記錄在醫(yī)患交流數(shù)據(jù)中。所以,基于經(jīng)驗數(shù)據(jù)的自診系統(tǒng) 需要克服數(shù)據(jù)稀疏的問題。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明實施例提出一種基于因子圖模型的自診模型訓(xùn)練方法和裝置, 以同時解決領(lǐng)域知識偏差以及經(jīng)驗數(shù)據(jù)稀疏的問題。
[0006] 第一方面,本發(fā)明實施例提供了一種基于因子圖模型的自診模型訓(xùn)練方法,所述 方法包括:
[0007] 從收集到的專業(yè)知識數(shù)據(jù)中提取專業(yè)知識特征數(shù)據(jù),并從收集到的醫(yī)患交流數(shù)據(jù) 中提取醫(yī)患交流特征數(shù)據(jù),其中,所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)中均 存儲有疾病與癥狀之間的對應(yīng)關(guān)系;
[0008] 根據(jù)所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)的內(nèi)容構(gòu)建包括潛藏層 的稀疏因子圖模型;
[0009] 利用所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)對所述稀疏因子圖模型 進行遷移訓(xùn)練,直至所述稀疏因子圖模型的參數(shù)全部收斂。
[0010] 第二方面,本發(fā)明實施例提供了一種基于因子圖模型的自診模型訓(xùn)練裝置,所述 裝置包括:
[0011] 特征提取模塊,用于從收集到的專業(yè)知識數(shù)據(jù)中提取專業(yè)知識特征數(shù)據(jù),并從收 集到的醫(yī)患交流數(shù)據(jù)中提取醫(yī)患交流特征數(shù)據(jù),其中,所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī) 患交流特征數(shù)據(jù)中均存儲有疾病與癥狀之間的對應(yīng)關(guān)系;
[0012] 模型構(gòu)建模塊,用于根據(jù)所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)的內(nèi) 容構(gòu)建包括潛藏層的稀疏因子圖模型;
[0013] 模型訓(xùn)練模塊,用于利用所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)對所 述稀疏因子圖模型進行遷移訓(xùn)練,直至所述稀疏因子圖模型的參數(shù)全部收斂。
[0014] 本發(fā)明實施例提供的基于因子圖模型的自診模型訓(xùn)練方法和裝置通過從收集到 的專業(yè)知識數(shù)據(jù)中提取專業(yè)知識特征數(shù)據(jù),并從收集到的醫(yī)患交流數(shù)據(jù)中提取醫(yī)患交流特 征數(shù)據(jù),根據(jù)所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)的內(nèi)容構(gòu)建包括潛藏層的 稀疏因子圖模型,利用所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)對所述稀疏因子 圖模型進行遷移訓(xùn)練,直至所述稀疏因子圖模型的參數(shù)全部收斂,訓(xùn)練得到的稀疏因子圖 模型能夠融合基于經(jīng)驗數(shù)據(jù)的自診系統(tǒng)以及基于專業(yè)知識的自診系統(tǒng)的優(yōu)點,使用所述稀 疏因子圖模型向用戶提供自診建議能夠同時解決領(lǐng)域知識偏差以及經(jīng)驗數(shù)據(jù)稀疏的問題。
【專利附圖】
【附圖說明】
[0015] 通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它 特征、目的和優(yōu)點將會變得更明顯:
[0016] 圖1是本發(fā)明第一實施例提供的基于因子圖模型的自診模型訓(xùn)練方法的流程圖;
[0017] 圖2是本發(fā)明第一實施例提供的稀疏因子圖模型的結(jié)構(gòu)圖;
[0018] 圖3是本發(fā)明第一實施例提供的基于因子圖模型的自診模型訓(xùn)練方法中稀疏因 子圖模型構(gòu)建的流程圖;
[0019] 圖4是本發(fā)明第二實施例提供的基于因子圖模型的自診模型訓(xùn)練方法的流程圖;
[0020] 圖5是本發(fā)明第二實施例提供的根據(jù)稀疏因子圖模型給出自診建議的流程示意 圖;
[0021] 圖6a是本發(fā)明第二實施例提供的不同自診系統(tǒng)給出自診建議的準確率的示意 圖;
[0022] 圖6b是本發(fā)明第二實施例提供的不同自診系統(tǒng)給出自診建議的召回率的示意 圖;
[0023] 圖6c是本發(fā)明第二實施例提供的不同自診系統(tǒng)給出自診建議的Fl值的示意圖;
[0024] 圖6d是本發(fā)明第二實施例提供的不同自診系統(tǒng)給出自診建議的AUC值的示意 圖;
[0025] 圖7是本發(fā)明第二實施例提供對8種呼吸系統(tǒng)疾病進行測試得到的準確率示意 圖;
[0026] 圖8是本發(fā)明第三實施例提供的基于因子圖模型的自診模型訓(xùn)練方法中模型訓(xùn) 練的流程圖;
[0027] 圖9是本發(fā)明第三實施例提供的模型訓(xùn)練過程中0 ik以及Qkn的訓(xùn)練流程圖;
[0028] 圖10是本發(fā)明第四實施例提供的基于因子圖模型的自診模型訓(xùn)練裝置的結(jié)構(gòu) 圖。
【具體實施方式】
[0029] 下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖牵颂幩?述的具體實施例僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于 描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0030] 圖1至圖3示出了本發(fā)明的第一實施例。
[0031] 圖1是本發(fā)明第一實施例提供的基于因子圖模型的自診模型訓(xùn)練方法的流程圖。 參見圖1,所述基于因子圖模型的自診模型訓(xùn)練方法包括:
[0032] S110,從收集到的專業(yè)知識數(shù)據(jù)中提取專業(yè)知識特征數(shù)據(jù),并從收集到的醫(yī)患交 流數(shù)據(jù)中提取醫(yī)患交流特征數(shù)據(jù),其中,所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù) 據(jù)中均存儲有疾病與癥狀之間的對應(yīng)關(guān)系。
[0033] 所述專業(yè)知識數(shù)據(jù)是一些根據(jù)專業(yè)知識構(gòu)建的數(shù)據(jù),它包括一些專家知識庫、題 庫。所述專業(yè)知識數(shù)據(jù)的特點是數(shù)據(jù)的專業(yè)性強,比較權(quán)威。但是所述專業(yè)知識數(shù)據(jù)是不 考慮實際情況的理論數(shù)據(jù),所以,如果不加修改的直接利用所述專業(yè)知識數(shù)據(jù)構(gòu)建自診系 統(tǒng)的話,自診系統(tǒng)難免會出現(xiàn)診斷結(jié)果有偏差的缺陷。
[0034] 所述醫(yī)患交流數(shù)據(jù)是由記錄真實的醫(yī)患交流過程而得到的數(shù)據(jù)。正因為所述醫(yī)患 交流數(shù)據(jù)來自于實際的醫(yī)患交流過程,所以所述醫(yī)患交流數(shù)據(jù)更為貼合實際的診斷過程。 但是,由于在實際的醫(yī)患交流過程中,患者對于自身的癥狀描述往往是不全面,所以醫(yī)患交 流數(shù)據(jù)的需要解決的主要問題是數(shù)據(jù)稀疏問題。
[0035] 所述專業(yè)知識數(shù)據(jù)和醫(yī)患交流數(shù)據(jù)是從一些數(shù)據(jù)源中獲取到的,沒有經(jīng)過處理的 原始數(shù)據(jù)。所以,所述專業(yè)知識數(shù)據(jù)和醫(yī)患交流數(shù)據(jù)的格式并不固定,表現(xiàn)在不同條目之間 的差異常常較大。并且,所述專業(yè)知識數(shù)據(jù)和醫(yī)患交流數(shù)據(jù)中還會經(jīng)常出現(xiàn)一些對于構(gòu)建 自診系統(tǒng)無用的數(shù)據(jù)。
[0036] 為了方便對自診系統(tǒng)的構(gòu)建,需要提取所述專業(yè)知識數(shù)據(jù)和所述醫(yī)患交流數(shù)據(jù)中 的特征數(shù)據(jù)。具體的,可以從所述專業(yè)知識數(shù)據(jù)中提取專業(yè)知識特征數(shù)據(jù),并且從所述醫(yī)患 交流數(shù)據(jù)中提取醫(yī)患交流特征數(shù)據(jù)。
[0037] 所述專業(yè)知識特征數(shù)據(jù)和所述醫(yī)患交流特征數(shù)據(jù)均采用統(tǒng)一的數(shù)據(jù)格式。優(yōu) 選的,所述專業(yè)知識特征數(shù)據(jù)和所述醫(yī)患交流特征數(shù)據(jù)均采用資源描述框架(Resource description framework, RDF)數(shù)據(jù)格式。并且,所述專業(yè)知識特征數(shù)據(jù)和所述醫(yī)患交流特 征數(shù)據(jù)中都存儲著不同的癥狀與由這些癥狀最終確定的疾病。示例的,如果在一次醫(yī)患交 流的過程中,醫(yī)生根據(jù)患者的癥狀"咳嗽"、"流涕"以及"打噴嚏"最終確定了患者的疾病是 "感冒",則在提取的醫(yī)患交流特征數(shù)據(jù)中會記錄癥狀"咳嗽"、"流涕"以及"打噴嚏"與疾病 "感冒"之間的對應(yīng)關(guān)系。
[0038] 需要說明的是,所述專業(yè)知識特征數(shù)據(jù)中包含的癥狀不僅包括類似"咳嗽"、"流 涕"這樣的離散的癥狀數(shù)據(jù),還有可能包含類似"體溫36. 7攝氏度到38攝氏度"、"舒張壓 90至140mmHg"這樣的具有連續(xù)取值范圍的癥狀數(shù)據(jù)。
[0039] 所述專業(yè)知識特征數(shù)據(jù)與所述醫(yī)患交流特征數(shù)據(jù)是以實例為單位而組織的數(shù)據(jù)。 在所述專業(yè)知識特征數(shù)據(jù)和所述醫(yī)患交流特征數(shù)據(jù)中記錄的每一組癥狀與疾病的對應(yīng)關(guān) 系可以被稱為是一個實例。
[0040] S120,根據(jù)所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)的內(nèi)容構(gòu)建包括潛 藏層的稀疏因子圖模型。
[0041] 所述稀疏因子圖模型是一種用于根據(jù)用戶的癥狀向用戶提供自診建議的概率圖 模型。圖2示出了所述稀疏因子圖模型的結(jié)構(gòu)。參見圖2,所述稀疏因子圖的數(shù)據(jù)源包括從 所述專業(yè)知識數(shù)據(jù)中提取的專業(yè)知識特征數(shù)據(jù)250,以及從所述醫(yī)患交流數(shù)據(jù)中提取的醫(yī) 患交流特征數(shù)據(jù)260。所述專業(yè)知識特征數(shù)據(jù)250與所述醫(yī)患交流特征數(shù)據(jù)260均體現(xiàn)為 癥狀和疾病之間的對應(yīng)關(guān)系。
[0042] 所述稀疏因子圖模型包括圓點和方點。其中,圓點表不一個變量,方點表不一個因 子。所述因子可以是不同變量的乘積,也可以是不同變量與其他因子的乘積,還可以是其他 因子的乘積。
[0043] 所述稀疏因子圖模型包括輸入層210、因子層220、潛藏層230、以及輸出層240。所 述輸入層210由不同的輸入單元構(gòu)成,并且每個輸入單元對應(yīng)于特征數(shù)據(jù)中的一個癥狀。 所述輸入層210中的輸入單元是通過對所述因子層220所代表的實例中的癥狀數(shù)據(jù)進行解 析而得到的。
[0044] 所述輸入層210中的輸入單元所對應(yīng)的癥狀不僅可以是"咳嗽"、"流涕"這樣的離 散取值的癥狀,還可以是"體溫是否在35. 7攝氏度至38攝氏度之間"這樣具有連續(xù)取值的 癥狀。這樣一來,所述輸入單元能夠接收的癥狀數(shù)據(jù)就不僅包括離散的癥狀數(shù)據(jù),還包括類 似化驗單上的化驗結(jié)果一樣的連續(xù)的癥狀數(shù)據(jù)。
[0045] 與所述輸入層210類似,所述輸出層240也由不同的輸出單元構(gòu)成。每個輸出單 元代表一種疾病。所述輸出單元的輸出值是所述稀疏因子圖模型預(yù)測的患者患該輸出單元 所代表的疾病的概率。
[0046] 所述因子層220與所述輸入層210相連接,它由不同因子構(gòu)成,每個因子代表所述 專業(yè)知識特征數(shù)據(jù)或者所述醫(yī)患交流特征數(shù)據(jù)中的一個實例,即因子與一個實例中所有癥 狀對應(yīng)的輸入單元相連,且通過所述潛藏層230中的潛藏單元與該實例中的疾病所對應(yīng)的 輸出單元相連。
[0047] 所述潛藏層230處于所述輸入層210與所述輸出層240之間,與所述輸出層240 直接連接,并與所述輸入層210通過所述因子層220相連接。與所述輸入層210和所述輸 出層240類似,所述潛藏層230也包括若干潛藏單元。輸入層210中的每個輸入單元以一 定的概率被投影至所述潛藏層中的每個潛藏單元,然后所述潛藏層中的每個潛藏單元又以 一定的概率被投影至所述輸出層的每個輸出單元,最終所述輸出單元給出輸出值,提供給 用戶關(guān)于其所患疾病的概率判斷。
[0048] 所述潛藏層中潛藏單元的數(shù)量一般依據(jù)經(jīng)驗確定,并且一般不會設(shè)定的太高,以 保證所述潛藏層具有低維度的屬性。優(yōu)選的,所述潛藏層中潛藏單元的數(shù)量為50個。由于 所述潛藏層基于數(shù)據(jù)維度低的性質(zhì),所以通過將因子層數(shù)據(jù)投影至所述低維度的潛藏層, 有利于解決輸入數(shù)據(jù)的稀疏問題。
[0049] 圖3是本發(fā)明第一實施例提供的基于因子圖模型的自診模型訓(xùn)練方法中稀疏因 子圖模型構(gòu)建的流程圖。參見圖3,優(yōu)選的,根據(jù)所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流 特征數(shù)據(jù)的內(nèi)容構(gòu)建包括潛藏層的稀疏因子圖模型具體包括:
[0050] S121,將所述專業(yè)知識特征數(shù)據(jù)與所述醫(yī)患交流特征數(shù)據(jù)中的每種癥狀對應(yīng)為所 述稀疏因子圖模型中的一個輸入單元,不同的輸入單元構(gòu)成所述稀疏因子圖模型的輸入 層。
[0051] S122,將所述專業(yè)知識特征數(shù)據(jù)與所述醫(yī)患交流特征數(shù)據(jù)每種疾病對應(yīng)于所述稀 疏因子圖模型中的一個輸出單元,并由不同的輸出單元構(gòu)成所述稀疏因子圖模型的輸出 層。
[0052] S123,將所述專業(yè)知識特征數(shù)據(jù)與所述醫(yī)患交流特征數(shù)據(jù)中的每個實例對應(yīng)為一 個因子,并由不同的因子構(gòu)成所述因子層。
[0053] S124,確定潛藏層中潛藏單元的數(shù)量,所述潛藏單元用于將所述因子層中的因子 與所述輸出層中的輸出單元連接。
[0054] 所述潛藏層中潛藏單元的數(shù)量一般依據(jù)開發(fā)人員的開發(fā)經(jīng)驗而確定。優(yōu)選的,潛 藏單元的總數(shù)量可以是50個。
[0055] S130,利用所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)對所述稀疏因子圖 模型進行遷移訓(xùn)練,直至所述稀疏因子圖模型的參數(shù)全部收斂。
[0056] 在本實施例中,采用最大似然(Maximum likelihood, ML)估計的方法對所述稀疏 因子圖模型進行遷移訓(xùn)練。假設(shè)所述稀疏因子圖模型僅僅基于所述專業(yè)知識特征數(shù)據(jù)或者 所述醫(yī)患交流特征數(shù)據(jù)給出自診建議,那么實例集合X和疾病集合Y之間的條件概率為:
【權(quán)利要求】
1. 一種基于因子圖模型的自診模型訓(xùn)練方法,其特征在于,包括: 從收集到的專業(yè)知識數(shù)據(jù)中提取專業(yè)知識特征數(shù)據(jù),并從收集到的醫(yī)患交流數(shù)據(jù)中提 取醫(yī)患交流特征數(shù)據(jù),其中,所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)中均存儲 有疾病與癥狀之間的對應(yīng)關(guān)系; 根據(jù)所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)的內(nèi)容構(gòu)建包括潛藏層的稀 疏因子圖模型; 利用所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)對所述稀疏因子圖模型進行 遷移訓(xùn)練,直至所述稀疏因子圖模型的參數(shù)全部收斂。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在利用所述專業(yè)知識特征數(shù)據(jù)以及所述 醫(yī)患交流特征數(shù)據(jù)對所述稀疏因子圖模型進行遷移訓(xùn)練之后,還包括: 接收用戶輸入的癥狀,并根據(jù)所述稀疏因子圖模型對輸入癥狀的輸出結(jié)果向用戶反饋 關(guān)于輸入癥狀的自診結(jié)果。
3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,根據(jù)所述專業(yè)知識特征數(shù)據(jù)以及所述 醫(yī)患交流特征數(shù)據(jù)的內(nèi)容構(gòu)建包括潛藏層的稀疏因子圖模型包括: 將所述專業(yè)知識特征數(shù)據(jù)與所述醫(yī)患交流特征數(shù)據(jù)中的每種癥狀對應(yīng)為所述稀疏因 子圖模型中的一個輸入單元,不同的輸入單元構(gòu)成所述稀疏因子圖模型的輸入層; 將所述專業(yè)知識特征數(shù)據(jù)與所述醫(yī)患交流特征數(shù)據(jù)每種疾病對應(yīng)于所述稀疏因子圖 模型中的一個輸出單元,并由不同的輸出單元構(gòu)成所述稀疏因子圖模型的輸出層; 將所述專業(yè)知識特征數(shù)據(jù)與所述醫(yī)患交流特征數(shù)據(jù)中的每個實例對應(yīng)為一個因子,并 由不同的因子構(gòu)成所述因子層; 確定潛藏層中潛藏單元的數(shù)量,所述潛藏單元用于將所述因子層中的因子與所述輸出 層中的輸出單元連接。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,利用所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī) 患交流特征數(shù)據(jù)對所述稀疏因子圖模型進行遷移訓(xùn)練時使用的對數(shù)似然函數(shù)如下:
其中,Yi表示所述稀疏因子圖模型對于第i個疾病的輸出估計值,9 ik表示輸出Yi在第 k個潛層變量上的概率映射,Q kn表示第k個潛層變量在第n個輸出變量上的概率映射,a 表示在針對專業(yè)知識特征數(shù)據(jù)的輸出值與潛藏層單元之間關(guān)系的權(quán)值,U表示在針對醫(yī)患 交流特征數(shù)據(jù)的輸出值與潛藏層單元之間關(guān)系的權(quán)值,P表示輸出單元之間相關(guān)關(guān)系的權(quán) 值。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,利用所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī) 患交流特征數(shù)據(jù)對所述稀疏因子圖模型進行遷移訓(xùn)練,直至所述稀疏因子圖模型的參數(shù)全 部收斂包括: 固定a、0和]i,采用Jensen不等式確定所述稀疏因子圖模型中的0 ik和Qkn ; 待011;和Qkn的取值收斂,保持0&和Qkn參數(shù)的取值不變,采用環(huán)路信念傳播LBP確 定所述稀疏因子圖1吳型中的a、P和y。
6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交 流特征數(shù)據(jù)均采用資源描述框架RDF格式。
7. -種基于因子圖模型的自診模型訓(xùn)練裝置,其特征在于,包括: 特征提取模塊,用于從收集到的專業(yè)知識數(shù)據(jù)中提取專業(yè)知識特征數(shù)據(jù),并從收集到 的醫(yī)患交流數(shù)據(jù)中提取醫(yī)患交流特征數(shù)據(jù),其中,所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交 流特征數(shù)據(jù)中均存儲有疾病與癥狀之間的對應(yīng)關(guān)系; 模型構(gòu)建模塊,用于根據(jù)所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)的內(nèi)容構(gòu) 建包括潛藏層的稀疏因子圖模型; 模型訓(xùn)練模塊,用于利用所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)對所述稀 疏因子圖模型進行遷移訓(xùn)練,直至所述稀疏因子圖模型的參數(shù)全部收斂。
8. 根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括: 自診結(jié)果反饋模塊,用于在利用所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患交流特征數(shù)據(jù)對 所述稀疏因子圖模型進行遷移訓(xùn)練之后,接收用戶輸入的癥狀,并根據(jù)所述稀疏因子圖模 型對輸入癥狀的輸出結(jié)果向用戶反饋關(guān)于輸入癥狀的自診結(jié)果。
9. 根據(jù)權(quán)利要求7或8所述的裝置,其特征在于,所述模型構(gòu)建模塊包括: 輸入層構(gòu)建單元,用于將所述專業(yè)知識特征數(shù)據(jù)與所述醫(yī)患交流特征數(shù)據(jù)中的每種癥 狀對應(yīng)為所述稀疏因子圖模型中的一個輸入單元,不同的輸入單元構(gòu)成所述稀疏因子圖模 型的輸入層; 輸出層構(gòu)建單元,用于將所述專業(yè)知識特征數(shù)據(jù)與所述醫(yī)患交流特征數(shù)據(jù)每種疾病對 應(yīng)于所述稀疏因子圖模型中的一個輸出單元,并由不同的輸出單元構(gòu)成所述稀疏因子圖模 型的輸出層; 因子層構(gòu)建單元,用于將所述專業(yè)知識特征數(shù)據(jù)與所述醫(yī)患交流特征數(shù)據(jù)中的每個實 例對應(yīng)為一個因子,并由不同的因子構(gòu)成所述因子層; 潛藏層構(gòu)建單元,用于確定潛藏層中潛藏單元的數(shù)量,所述潛藏單元用于將所述因子 層中的因子與所述輸出層中的輸出單元連接。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,利用所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī) 患交流特征數(shù)據(jù)對所述稀疏因子圖模型進行遷移訓(xùn)練時使用的對數(shù)似然函數(shù)如下:
其中,Yi表示所述稀疏因子圖模型對于第i個疾病的輸出估計值,9 ik表示輸出Yi在第 k個潛層變量上的概率映射,Q kn表示第k個潛層變量在第n個輸出變量上的概率映射,a 表示在針對專業(yè)知識特征數(shù)據(jù)的輸出值與潛藏層單元之間關(guān)系的權(quán)值,U表示在針對醫(yī)患 交流特征數(shù)據(jù)的輸出值與潛藏層單元之間關(guān)系的權(quán)值,0表示輸出單元之間相關(guān)關(guān)系的權(quán) 值。
11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述模型訓(xùn)練模塊包括: 第一參數(shù)確定單元,用于固定Ct和]i,采用Jensen不等式確定所述稀疏因子圖模 型中的9 &和Qkn; 第二參數(shù)確定單元,用于待eik和Qkn的取值收斂,保持eik和Q kn參數(shù)的取值不變, 采用環(huán)路信念傳播LBP確定所述稀疏因子圖模型中的a、0和y。
12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述專業(yè)知識特征數(shù)據(jù)以及所述醫(yī)患 交流特征數(shù)據(jù)均采用資源描述框架RDF格式。
【文檔編號】G06F19/00GK104331600SQ201410522719
【公開日】2015年2月4日 申請日期:2014年9月30日 優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】李岱峰, 伊凱, 李子龍, 曾剛, 錢立偉, 陸彬, 全偉, 李理, 白曉航, 王浩 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司