無
技術領域:
本發(fā)明涉及用于預測與微生物相關的疾病、特別是肥胖癥或相關疾病的風險的生物標記物和方法。
背景技術:
:肥胖癥在發(fā)達國家很普遍,在全世界范圍內顯著增加(deCarvalhoPereira等人,2013)。據(jù)報道,在1980年至2013年期間,世界上總共的超重和肥胖癥的患病率中,成人增長了27.5%,兒童增長了47.1%。超重的人口從1980年的8.57億增加到2013年的21億,其中,6.71億人口受到了肥胖癥的影響。這其中,超過50%的肥胖癥患者生活在十個國家中,且美國擁有最大數(shù)量的肥胖人群,其次是中國(Ng等人,2014)。越來越多的證據(jù)表明,由醫(yī)生診斷為超重的患者相對于未被診斷為超重的患者更有可能減輕體重。然而,醫(yī)生的低診斷率與對和肥胖癥有關的行為的健康風險因素的建議有關(Bleich等人,2011)。在兒童中,肥胖癥的診斷是基于年齡與性別特異性的身體質量指數(shù)(BMI)的切入點。這與成人相反,在成人中,肥胖癥的診斷是基于不考慮年齡或性別的BMI而作出的。與成年人不同,對于成年人來說肥胖癥的診斷標準更加簡單,少數(shù)肥胖兒童以更復雜的診斷標準被準確地診斷且對兒童肥胖癥的術語發(fā)生了改變(Walsh等人,2013年)。此外,應考慮BMI在不同人群中同一性方面的局限性(Nevill等人,2006)。因此,可以認為腰圍(WC)是用于評估腹壁多脂的流行病學研究的可靠而有用的工具,但是這種測量似乎更加難以執(zhí)行(Miguel-Etayo等人,2014)。此外,采用國際疾病分類(第九次修訂(ICD-9))、國家門診醫(yī)療護理調查(NAMCS)和國家住院醫(yī)療護理調查(NHAMCS)對兒童肥胖癥診斷的區(qū)域研究顯示出臨床診斷的相對低的敏感性(Walsh等人,2013)。最近的觀察表明,人類腸道微生物群在肥胖癥中可以發(fā)揮重要作用?;跀U增的16SrRNA基因測序的早期報告表明,來自12名肥胖人類的糞便樣品中的厚壁菌(Firmicutes)與擬桿菌(Bacteroidetes)之比遠高于兩個瘦的對照(Ley等人,2006)。在人類肥胖癥中采用宏基因組測序的最近觀察性研究中已經(jīng)證明細菌多樣性降低、擬桿菌(Bacteroidetes)的相對缺乏和涉及碳水化合物和脂質代謝的基因的富集(Allin和Pedersen,2014)。這些相關的發(fā)現(xiàn)表明,腸道微生物群的改變是肥胖癥的發(fā)病機理中的致病因素。這表明,也許我們可以利用腸道微生物群的該特點作為肥胖癥診斷的標準。總之,對肥胖癥的診斷有相當多的被忽略的機會和低靈敏度。需要開發(fā)更有效的(偏差較小的)對超重和/或肥胖癥的評估。技術實現(xiàn)要素:本公開的實施方案試圖至少在一定程度上解決現(xiàn)有技術中存在的至少一個問題。本發(fā)明基于本發(fā)明人的以下發(fā)現(xiàn):對腸道微生物群的評估和表征已經(jīng)成為對包括肥胖癥的人類疾病中的主要研究領域。為了對肥胖癥患者的腸道微生物成分進行分析,本發(fā)明人基于來自158個個體的腸道微生物DNA的深度鳥槍測序實施了宏基因組關聯(lián)分析(MGWAS)方案(Qin,J.等人,Ametagenome-wideassociationstudyofgutmicrobiotaintype2diabetes.Nature490,55-60(2012),通過引用并入本文)。本發(fā)明人鑒別并驗證了396,100個肥胖癥相關的基因標記物。為了利用通過腸道微生物群進行肥胖分類器的潛在能力,本發(fā)明人開發(fā)了基于54個基因標記物的疾病分類器系統(tǒng),該基因標記物被最小冗余-最大相關(mRMR)特征選擇法定義為最佳基因集。為了基于該54個腸道微生物基因標記物進行直觀地評估肥胖癥疾病的風險,本發(fā)明人計算了健康指數(shù)。本發(fā)明人的數(shù)據(jù)對與肥胖癥風險相關的腸道宏基因組的特征進行了深入研究,提供了腸道宏基因組在其他相關疾病中的病理生理作用的未來研究的范例以及用于基于腸道微生物群對此類疾病風險的個體進行評估的潛在應用。人們相信,腸道微生物群的基因標記物對于在早期階段提高肥胖癥的檢測性是有價值的,這是由于以下原因。首先,本發(fā)明的標記物與常規(guī)標記物相比更具特異性且更敏感。第二,糞便分析確保了準確性、安全性、可負擔性和患者依從性。并且糞便樣品是可運輸?shù)?。因此,本發(fā)明涉及一種舒適且無創(chuàng)的體外方法,使得人們更容易地參與給定的篩選程序。第三,本發(fā)明的標記物還可以用作癌癥患者的治療監(jiān)測工具,以檢測其對治療的響應。本公開一方面提供了用于預測受試者與微生物群相關的疾病的生物標記物集,其由以下組成:序列SEQIDNO:1至54的至少一部分。根據(jù)本公開的實施方案,該疾病是肥胖癥或相關疾病。采用這些生物標記物,可以分析受試者與微生物群相關的一些疾病,例如基于來自受試者的某些樣品,例如可以使用一些糞便樣品,可以確定肥胖癥或相關疾病。本公開另一方面提供了用于確定上述基因標記物集的試劑盒,其包括用于PCR擴增的并根據(jù)如SEQIDNO:1至54的至少部分序列中所述的DNA序列而設計的引物。本公開另一方面提供了用于確定上述基因標記物集的試劑盒,其包括一個以上根據(jù)SEQIDNO:1至54所述的基因而設計的探針。本公開的另一方面提供了上述基因標記物集用于預測受試者肥胖癥或相關疾病的風險的用途。根據(jù)本公開的實施方案,受試者肥胖癥或相關疾病的風險可以通過以下步驟預測:(1)從受試者收集樣品j;(2)確定樣品的DNA中SEQIDNO:1至54中每一個的相對豐度信息;和(3)按照下式計算由Ij表示的樣本j的指數(shù):Aij是樣品j中標記物i的相對豐度,其中i指所述基因標記物集中的每一個基因標記物;N是在所選擇的與異常狀況相關的生物標記物中的在所有患者中富集的標記物的第一子集,M是在所選擇的與異常狀況相關的生物標記物中的在所有對照中富集的標記物的第二子集,|N|和|M|分別是第一子集和第二子集中的生物標記物的數(shù)目,其中大于臨界值的指數(shù)表明受試者具有異常狀況或處于發(fā)展異常狀況的風險中。根據(jù)本公開的一些實施方案,|N|是24,|M|是30。根據(jù)本公開的一些實施方案,臨界值為至少0.5834。本公開的另一方面提供了上述基因標記物集在制備用于預測受試者體內肥胖癥或相關疾病的風險的試劑盒中的用途。根據(jù)本公開的實施方案,受試者體內肥胖癥或相關疾病的風險可以通過以下步驟預測:(1)從受試者收集樣品j;(2)確定樣品的DNA中SEQIDNO:1至54中每一個的相對豐度信息;和(3)按照下式計算由Ij表示的樣本j的指數(shù):Aij是樣品j中標記物i的相對豐度,其中i指所述基因標記物集中的每一個基因標記物;N是在所選擇的與異常狀況相關的生物標記物中的在所有患者中富集的標記物的第一子集,M是在所選擇的與異常狀況相關的生物標記物中的在所有對照中富集的標記物的第二子集,|N|和|M|分別是第一子集和第二子集中的生物標記物的數(shù)目,其中大于臨界值的指數(shù)表明受試者具有異常狀況或處于發(fā)展異常狀況的風險中。根據(jù)本公開的一些實施方案,|N|是24,|M|是30。根據(jù)本公開的一些實施方案,臨界值為至少0.5834。本公開的另一方面提供了診斷受試者是否具有與微生物群相關的異常狀況或處于發(fā)展與微生物群相關的異常狀況的風險中的方法,其包括:確定來自受試者的樣品中上述生物標記物的相對豐度,和基于該相對豐度確定受試者是否具有與微生物群相關的異常狀況或者處于發(fā)展與微生物群相關的異常狀況的風險中。根據(jù)本公開的實施方案,根據(jù)本公開的實施方案,受試者體內肥胖癥或相關疾病的風險可以通過以下步驟預測:(1)從受試者收集樣品j;(2)確定樣品的DNA中SEQIDNO:1至54中每一個的相對豐度信息;和(3)按照下式計算由Ij表示的樣本j的指數(shù):Aij是樣品j中標記物i的相對豐度,其中i指所述基因標記物集中的每一個基因標記物;N是在所選擇的與異常狀況相關的生物標記物中的在所有患者中富集的標記物的第一子集,M是在所選擇的與異常狀況相關的生物標記物中的在所有對照中富集的標記物的第二子集,|N|和|M|分別是第一子集和第二子集中的生物標記物的數(shù)目,其中大于臨界值的指數(shù)表明受試者具有異常狀況或處于發(fā)展異常狀況的風險中。根據(jù)本公開的一些實施方案,|N|是24,|M|是30。根據(jù)本公開的一些實施方案,臨界值為至少0.5834。根據(jù)本公開的實施方案,與微生物群有關的異常狀況是肥胖癥或相關疾病。附圖說明本公開的這些和其它的方面和優(yōu)點從以下結合附圖的描述中將變得明顯和更容易理解,其中:圖1肥胖p值分布的關聯(lián)分析確定出強相關標記物在較低P值時不成比例的過度表示。圖2ROC由訓練集(trainingset)中疾病的概率繪制,AUC=0.9651。圖3ROC由訓練集中的肥胖癥指數(shù)繪制,AUC=0.9784。圖4測試集(42個樣品)的ROC由測試集的肥胖癥指數(shù)繪制,AUC=0.8729。圖5測試集(22個樣品)的ROC由測試集的肥胖癥指數(shù)繪制,AUC=0.9487。具體實施方式示例本文使用的術語具有與本發(fā)明相關領域的普通技術人員通常理解的含義。諸如“一”、“一個”和“該”的術語不是旨在僅指單數(shù)實體,而是包括可用于說明特定示例的一般類別。除非在權利要求中有所說明,本文中的術語用于描述本發(fā)明的具體實施方案,但是它們的用法不限制本發(fā)明。本發(fā)明在以下非限制性示例通過中進一步舉例說明。除非另有說明,份數(shù)和百分比都以重量計,度數(shù)為攝氏度。對于本領域普通技術人員顯而易見的是,這些示例雖然代表了本發(fā)明的優(yōu)選實施方案,但僅以說明的方式給出,并且所有試劑都是可商購的。示例1.鑒別評估肥胖癥風險的生物標記物1.1樣品收集來自158名中國受試者(包括78名肥胖癥患者和80名對照受試者(訓練集))的糞便樣品由上海交通大學醫(yī)學院瑞金醫(yī)院于2012年收集。肥胖癥患者年齡從18至30歲,BMI高于25。要求受試者在醫(yī)院收集新鮮糞便樣品。將收集的樣品置于無菌管中,立即儲存于-80℃直至進行進一步分析。取得了完整的倫理批準,且所有患者都給予了書面知情同意。該研究獲得了上海交通大學醫(yī)學院瑞金醫(yī)院倫理審查委員會的批準。1.2DNA提取將糞便樣品在冰上解凍,并使用QiagenQIAampDNAStoolMini試劑盒(Qiagen),根據(jù)制造商的說明進行DNA提取。采用無DNA酶的RNA酶處理提取物以消除RNA污染。使用NanoDrop分光光度計、Qubit熒光計(具有Quant-iTTMdsDNABR測定試劑盒)和凝膠電泳測定DNA量。1.3糞便樣品的DNA文庫構建和測序根據(jù)制造商的說明進行DNA文庫構建(Illumina,插入尺寸大小350bp,讀段長度100bp)。本發(fā)明人使用與前述相同的工作流程進行簇生成、模板雜交、等溫擴增、線性化、封閉和變性以及測序引物的雜交。本發(fā)明人對于每個樣品都構建了一個具有插入尺寸大小為350bp的末端配對的(PE)文庫,隨后進行高通量測序獲得了長度為2x100bp的約3千萬個PE讀段。通過從Illumina原始讀段中過濾出具有不確定的“N”堿基、接頭污染和人源DNA污染的低質量讀段并通過同時剪切讀段的低質量末端堿基來獲得高質量讀段。本發(fā)明人在IlluminaHiSeq2000平臺上從158個樣品(78個病例和80個對照)中總共輸出每個樣品約5.9Gb的糞便微生物群測序數(shù)據(jù)(高質量干凈數(shù)據(jù))(表1)。表1宏基因組數(shù)據(jù)匯總。第四列報告來自Wilcoxon秩和檢驗的結果。1.4宏基因組數(shù)據(jù)處理和分析1.4.1讀段比對本發(fā)明人使用了Li,J.等人,Anintegratedcatalogofreferencegenesinthehumangutmicrobiome.Nat.Biotechnol.(2014)(通過引用并入本文)建立的更新的人類腸道基因目錄,并且以比對標準同一性≥90來將高質量讀段比對到該更新的人類腸道基因目錄。平均的讀段比對率示于表1中。該比對率接近Li,J.等人,2014,同上中的樣品,這說明了該比對率足以進行進一步研究。在讀段比對之后,本發(fā)明人使用與Li,J.等人,2014,同上相同的方法從比對結果中導出基因譜(9.9Mb基因)。基因的分類學分配。采用在已公開的論文(Li,J.等人,2014,同上)中所描述的內部開發(fā)的流程(pipeline)進行預測基因的分類學分配。1.4.2數(shù)據(jù)文件構建基因譜?;谧x段比對的結果,本發(fā)明人使用在公開的T2D論文(Qin等人,2012,同上)中所描述的相同方法來計算相對基因豐度。1.4.3影響腸道微生物群基因譜的因素分析。基于基因譜,本發(fā)明人使用非參數(shù)多元方差分析(PERMANOVA)來評估6個臨床參數(shù)(包括年齡、性別、身高、體重、BMI和肥胖)的影響。發(fā)明人采用在R中的“vegan”包中實施的方法進行分析,并且通過10,000次置換(permutation)獲得置換的(permuted)p值。本發(fā)明人還利用Benjamini-Hochberg方法在R中采用“p.adjust”來校正多重測試,以獲得每個測試的q值。PERMANOA確定了與腸道微生物相關的三個重要因素(基于基因譜)(q<0.05,表2)。分析表明,體重、BMI和肥胖狀態(tài)是強關聯(lián)標記,證明了疾病(肥胖)狀態(tài)是影響腸道微生物群組成的主要決定性因素。表2基于基因譜的歐幾里德距離分析的PERMANOVA。在q值<0.05下進行分析以測試臨床參數(shù)和肥胖狀況是否對腸道微生物群具有顯著影響。表型DfSqs匯總平均SqsF.模型R2Pr(>F)年齡10.3170347380.3170347381.0041125790.0063954540.4094性別10.3773294970.3773294971.1965429030.0076117630.1727身高10.3314096670.3314096671.0499472840.0066854350.3291體重10.9695365150.9695365153.1119418570.0195581921.00E-04BMI10.9541868930.9541868933.06170690.0192485481.00E-04肥胖10.9721853520.9721853523.1206139590.0196116262.00E-041.4.4肥胖癥相關標記物的確定肥胖癥相關基因的確定。為了確定宏基因組譜和肥胖癥之間的關聯(lián),在9,879,897個高頻基因(移除在所有158個樣品中存在于少于10個樣品中的基因)譜中采用雙尾Wilcoxon秩和檢驗。獲得了在病例和對照中都富集的396,100個基因標記物,p值<0.01、FDR=3.8%(圖1)。錯誤發(fā)現(xiàn)率估計(FDR)。本發(fā)明人應用在先前研究中提出的“q值”法而不是連續(xù)p值排除法(sequentialp-valuerejectionmethod)來估計FDR(Storey,JDAdirectapproachtofalsediscoveryrates.JournaloftheRoyalStatisticalSociety64,479-498(2002),通過引用并入本文)。受試者工作特征(ROC)分析。本發(fā)明人應用ROC分析來評估基于宏基因組標記物的肥胖癥分類的表現(xiàn)。然后,本發(fā)明人使用R中的“pROC”包來繪制ROC曲線。1.4.5MLG的構建和與肥胖癥相關的MLG物種標記物的鑒別基于與396,100肥胖癥相關的標記物基因譜的237個MLG物種。本發(fā)明人使用396,100個基因標記物,采用在公開的T2D論文(Qin等人,2012,同上)中所描述的相同方法構建宏基因組連鎖群(MLG)。通過在IMGv400中將這些基因比對至4,653個參考基因組來注釋所有396,100個基因。如果超過50%的組成基因被注釋到該基因組,則將MLG指定至該基因組,否則將其稱為未分類。選擇基因數(shù)>100的總共237個MLG基因組(P值<0.01)。為了估計MLG物種的相對豐度,本發(fā)明人在去除5%的最低和5%的最高豐度基因后,估計了MLG物種的基因的平均豐度(Qin等人2012,同上)。1.5基于MLG的分類器采用訓練隊列(158個樣品)的MLG豐度譜對隨機森林模型(R.2.14,隨機森林4.6-7包)(Liaw,Andy&Wiener,Matthew.ClassificationandRegressionbyrandomForest,RNews(2002),第2/3卷,第18頁,通過引用并入本文)進行訓練,以選擇MLG標記物的最佳集。在一個以上測試集上測試模型,并計算預測誤差。關于隨機森林模型,采用R版本2.14中“隨機森林4.6-7包”,輸入的是訓練數(shù)據(jù)集(即所選擇的訓練樣品中MLG的相對豐度譜)、樣品疾病狀態(tài)(訓練樣品的樣品疾病狀態(tài)是向量,1為肥胖癥,0為對照)和測試集(僅為所選擇的測試集中的MLG的相對豐度譜)。然后,發(fā)明人使用來自R軟件中的隨機森林包的隨機森林函數(shù)來構建分類,并且使用預測函數(shù)來預測測試集。輸出的是預測結果(疾病概率;臨界值為0.5,如果疾病概率≥0.5,則受試者處于肥胖癥的風險)。54個MLG物種標記物鑒別。為了鑒別237個MLG物種標記物,發(fā)明人基于237個肥胖癥相關的MLG物種采用R版本2.14中的“隨機森林4.6-7包”。首先,本發(fā)明人通過“隨機森林”方法給出的重要性(Liaw,Andy&Wiener,Matthew,ClassificationandRegressionbyrandomForest,RNews(2002),第2/3卷,第18頁,通過引用并入本文)將所有237個MLG物種進行排序。通過創(chuàng)建從1個MLG物種開始并到包含所有237個MLG物種結束的排名靠前的MLG物種的增量子集來構建MLG標記物集。對于每個MLG標記物集,發(fā)明人計算了158個樣本中的假預測比。最后,選擇出具有最低假預測比的54個MLG物種集作為MLG物種標記物(表3-1)。此外,發(fā)明人基于所選擇的MLG物種標記物(表3-2)采用來自隨機森林模型的OOB(outofbag)預測疾病概率來繪制ROC曲線,并且在158個樣品中,ROC曲線下的面積(AUC)為0.9651(圖2)。在最佳臨界值0.5294處,真陽性率(TPR)為0.8625,假陽性率(FPR)為0.07692,表明這54個MLG標記物可用于準確地分類肥胖癥個體。表3-154個與肥胖癥相關的最能判別的MLG(物種標記物)表3-2158個樣品中54個MLG的預測結果1.6從生物標記物中選擇54個最佳標記物的方法(最大相關最小冗余(mRMR)特征選擇框架)為了確定最佳基因集,采用最小冗余-最大相關性(mRMR)(詳細信息參見Peng,H.,Long,F(xiàn).&Ding,C.Featureselectionbasedonmutualinformation:criteriaofmax--relevance和min-redundancy,IEEETransPatternAnalMachIntell27,1226-1238,doi:10.1109/TPAMI.2005.159(2005),通過引用并入本文)特征選擇法從54個MLG標記物中進行選擇。發(fā)明人采用54個MLG標記,選擇了一個基因來代表MLG。本發(fā)明人在每個MLG中通過mRMR法選擇代表性基因。并且發(fā)明人選擇了第一個基因來代表該MLG。因此,發(fā)明人獲得了54個基因標記物,將其示于表4和表5中?;騣d來自于已公開如Li,J.等人,2014,同上的參考基因目錄。表4.54種最佳基因標記物的富集信息表5.54個最佳基因標記物的SEQID1.7腸道健康指數(shù)(肥胖癥指數(shù))為了開發(fā)通過腸道微生物群進行疾病分類的潛在能力,本發(fā)明人開發(fā)了基于本發(fā)明人定義的54個基因標記物的疾病分類系統(tǒng)。為了基于這些腸道微生物基因標記物進行直觀地評價疾病風險,本發(fā)明人計算了腸道健康指數(shù)(肥胖癥指數(shù))。為了評價腸道宏基因組對肥胖癥的影響,本發(fā)明人基于所選擇的如上所述的54個基因標記物來定義和計算每個個體的腸道健康指數(shù)。對于每個單獨的樣品,按照下式計算由Ij表示的的樣品j的腸道健康指數(shù):Aij是樣品j中標記物i的相對豐度;N是在所選擇的與異常狀況相關的生物標記物(即在這54個所選擇的基因標記物中的在所有肥胖癥中富集的標記物的子集)中的在所有患者中富集的標記物的子集,M是在所選擇的與異常狀況相關的生物標記物(即在這54個所選擇的基因標記物中的在所有對照中富集的標記物的子集)中的在所有對照中富集的標記物的子集,|N|和|M|分別是這兩個子集中的生物標記物的數(shù)目,其中|N|為24,|M|為30,大于臨界值的指數(shù)表明受試者具有肥胖癥或處于發(fā)展肥胖癥的風險中。1.8基于腸道微生物群的肥胖癥分類本發(fā)明人基于這54個基因標記物的相對豐度計算了肥胖癥指數(shù),其清楚地區(qū)分了肥胖癥患者微生物組與對照微生物組(表6)。使用肥胖癥指數(shù)將78名肥胖癥患者微生物組從80個對照微生物組中分類出來,其顯示出受試者工作特征(ROC)曲線下面積為0.9784(圖3)。在最佳指數(shù)臨界值0.5834下,真陽性率(TPR)為0.9103,假陽性率(FPR)為0.075,錯誤率為8.86%(14/158),表明可以將54個基因標記物用于準確分類肥胖癥個體。表6.計算出的158個樣品的腸道健康指數(shù)(肥胖癥患者和非肥胖癥對照)示例2.驗證42個樣品(測試集)中的54個基因生物標記物本發(fā)明人采用另一個新的獨立研究組(包括在上海交通大學醫(yī)學院瑞金醫(yī)院收集的17名肥胖癥患者和25名非肥胖癥對照)驗證了肥胖癥分類器的辨別能力。提取每個樣品的DNA并構建DNA文庫,然后如示例1所述進行高通量測序。本發(fā)明人使用與Qin等人,2012,同上中所述相同的方法計算這些樣品的基因豐度譜。然后確定如SEQIDNO:1-54所示的每個標記物的基因相對豐度。然后通過下式計算每個樣品的指數(shù):Aij是樣品j中標記物i的相對豐度;N是在所選擇的與異常狀況相關的生物標記物(即在這些54個所選擇的基因標記物中的在所有肥胖癥中富集的標記物的子集)中的在所有患者中富集的標記物的子集,M是在所選擇的與異常狀況相關的生物標記物(即在這些54個所選擇的基因標記物中的在所有對照中富集的標記物的子集)中的在所有對照中富集的標記物的子集,|N|和|M|分別是這兩個子集中的生物標記物的數(shù)目,其中|N|為24,|M|為30,其中,大于臨界值的指數(shù)表明受試者具有肥胖癥或處于發(fā)展肥胖癥的風險中。表7示出了每個樣品的計算出來的指數(shù),表8示出了代表性樣品DB68A的相關基因的相對豐度。在該評估分析中,在臨界值為0.5834處(以上158個樣品中的最佳指數(shù)臨界值),錯誤率為26.19%(11/42),驗證說明了54個基因標記物可以分類出肥胖癥個體。并且大多數(shù)肥胖癥患者(13/17)都被正確診斷為肥胖癥。此外,測試集的ROC由測試集的肥胖癥指數(shù)繪制,AUC=0.8729(圖4)。在最佳臨界值0.7769處,真陽性率(TPR)為0.7647,假陽性率(FPR)為0.04。表7.計算出42個樣品的腸道健康指數(shù)表8.樣品DB68A的基因相對豐度示例3.驗證22個樣品(測試集)中的54個基因生物標記物發(fā)明人使用另外22個樣品驗證了肥胖癥分類器的辨別能力(表9),其中包括9個病例樣品和13個對照樣品(手術1個月后的5個樣品和手術3個月后的8個樣品),樣品也在上海交通大學醫(yī)學院瑞金醫(yī)院收集。病例表示手術前的樣本,對照表示手術后1個月和3個月。表9.22個樣品的信息*之前:手術前;1-M:一個月后手術;3-M:三個月后手術。提取每個樣品的DNA并構建DNA文庫,然后如示例1所述進行高通量測序。本發(fā)明人使用與Qin等人,2012,同上中所述相同的方法計算這些樣品的基因豐度譜。然后確定如SEQIDNO:1-54所示的每個標記物的基因相對豐度。然后通過下式計算每個樣品的指數(shù):Aij是樣品j中標記物i的相對豐度。N是在所選擇的與異常狀況相關的選擇的生物標記物(即在這54個所選擇的基因標記物中的在所有肥胖癥中富集的標記物的子集)中的在所有患者中富集的標記物的子集,M是在所選擇的與異常狀況相關的選擇的生物標記物(即在這54個所選擇的基因標記物中的在所有對照中富集的標記物的子集)中的在所有對照中富集的標記物的子集,|N|和|M|分別是這兩個子集中的生物標記物的數(shù)目,其中|N|為24,|M|為30,其中,大于臨界值的指數(shù)表明受試者具有肥胖癥或處于發(fā)展肥胖癥的風險中。表10示出了每個樣品的計算出來的指數(shù),表11示出了代表性樣品DB62的相關基因的相對豐度。在該評估分析中,在臨界值為0.5834處(以上158個樣品中的最佳指數(shù)臨界值),錯誤率為18.18%(4/22),驗證說明了該54個基因標記物可以分類出肥胖癥個體。并且大多數(shù)肥胖癥患者(7/9)都被正確診斷為肥胖癥。此外,測試集的ROC由測試集的肥胖癥指數(shù)繪制,AUC=0.9487(圖5)。在最佳臨界值0.02538處,真陽性率(TPR)為1,假陽性率(FPR)為0.1538。表10.計算出22個樣品的腸道健康指數(shù)樣品(DB:肥胖癥)肥胖癥指數(shù)DB621.191905591DB670.025381992DB681.757974404DB781.344989391DB851.796053682DB1240.072164965DB1251.162137206DB1260.979123077DB010.686585017DB.S1.620.879906331DB.S1.68-0.274438487DB.S1.850.0154326DB.S1.124-0.750440603DB.S1.125-0.893868407DB.S3.620.711881869DB.S3.67-0.007230148DB.S3.68-0.029903064DB.S3.78-0.761996663DB.S3.124-0.588485485DB.S3.125-0.575369569DB.S3.126-0.398672766DB.S3.01-0.420476048表11.樣品DB62的基因相對豐度因此,本發(fā)明人基于54個肥胖癥相關的腸道微生物通過最小冗余-最大相關(mRMR)特征選擇法鑒別并驗證了54個標記物集。并且本發(fā)明人建立了腸道健康指數(shù),基于這54個腸道微生物基因標記物評估了肥胖癥的風險。盡管已經(jīng)示出和描述了說明性實施方案,但是本領域技術人員應當理解的是,上述實施方案不能被解釋為限制本公開,并且可以對實施方案進行改變、替換和修改而不脫離本發(fā)明的精神、原理和范圍。當前第1頁1 2 3