本發(fā)明涉及微生物標(biāo)記物領(lǐng)域,具體的說是提供一種篩選嬰幼兒齲病的口腔致病性生物標(biāo)記物的方法。
背景技術(shù):
齲病是發(fā)生在牙齒的慢性感染性疾病,被認(rèn)為是人類最普遍的感染性疾病,也是兒童口腔中發(fā)生率最高一類疾病。美國國立衛(wèi)生研究院(National Institutes of Health,NIH)提出“嬰幼兒齲(early childhood caries,ECC)”的概念,是指小于71個月的兒童發(fā)生的一顆或多顆乳牙的齲壞、因齲失牙或因齲充填的患兒。世界衛(wèi)生組織對186個國家的人群口腔健康進(jìn)行長達(dá)20年的縱向調(diào)查結(jié)果顯示:通過局部涂氟、窩溝封閉、飲食控制等防治策略的實(shí)施,雖各國家人DMFT指數(shù)整體有所下降,但在大部分國家,齲病仍影響著60%-90%的學(xué)齡兒童。而中國第三次口腔健康流行病學(xué)調(diào)查初步結(jié)果亦顯示:5歲兒童乳牙齲病的患病率為66.0%,12歲兒童恒牙齲病的患齲率為28.9%。
齲病發(fā)病為不可逆過程,直接導(dǎo)致牙齒組織的缺損乃至整個牙齒缺失,可引發(fā)一系列的感染和疼痛,亦可降低兒童咀嚼功能,增加恒牙齲病風(fēng)險(xiǎn),影響面部美觀和發(fā)音正確性,甚至影響口頜發(fā)育,甚至造成錯頜畸形,嚴(yán)重影響患者的生命生活質(zhì)量。由于兒童齲病具有發(fā)病年齡早,發(fā)展速度快,自主癥狀不明顯,病損廣泛等特征,通常臨床確診時只有通過臨床機(jī)械治療手段予以處理,病變牙體組織的缺損不可避免。然而單純修復(fù)齲洞并不能完全達(dá)到治療和控制齲病的目的,而不恰當(dāng)?shù)难揽浦委煼炊鴷黾踊箭x的危險(xiǎn)。因此,針對齲病的風(fēng)險(xiǎn)評估乃至預(yù)防策略都是當(dāng)今研究的重點(diǎn)問題。
齲病的誘發(fā)因素較為復(fù)雜,微生物、遺傳、環(huán)境等多因素共同作用下誘導(dǎo)牙體組織脫礦與再礦化水平失衡,導(dǎo)致慢性破壞性疾病的發(fā)生,其中微生物是關(guān)鍵環(huán)節(jié)。過去研究主要針對變形鏈球菌(Streptococcus mutans),S.mutans作為主要“致齲菌”的研究,因其較強(qiáng)的產(chǎn)酸性、耐酸性及胞外合成葡聚糖的功能,確定了大量影響齲病發(fā)生的變鏈菌株,發(fā)現(xiàn)S.mutans基因的改變可編碼一類參與生物膜發(fā)育形成的蛋白,其多態(tài)性可提高生物膜的毒力,增加齲病發(fā)生危險(xiǎn)。但隨著國內(nèi)外對變形鏈球菌結(jié)構(gòu)和功能的研究愈益深入,越來越多研究支持致齲特性并非完全僅依賴于變形鏈球菌的存在,同時還有其他口腔細(xì)菌被認(rèn)為與齲病的發(fā)生過程密切相關(guān)。
此外,目前常用的嬰幼兒齲齒風(fēng)險(xiǎn)的評估方法主要包括:口腔微生物計(jì)數(shù)法(如變形鏈球菌和唾液乳酸菌計(jì)數(shù)法),唾液化學(xué)特征檢測(如,唾液 的緩沖能力和pH值檢測),齲齒基礎(chǔ)去情況(宿主初查時口腔患齲情況),個體衛(wèi)生習(xí)慣(如可見的菌斑情況),生活行為,飲食(如糖攝入量)和/或社會經(jīng)濟(jì)水平等。然而,這些預(yù)測評估方法存在很多局限性:包括(i)大部分這些指標(biāo)相對主觀、易引入較大人為誤差、不同檢測較難比較和再重復(fù)。如檢測個體基礎(chǔ)口腔情況時是基于可視化觀察和檢測者個人判斷,較難再不同檢測者中比較。再如衛(wèi)生習(xí)慣、糖類物質(zhì)攝入頻率和氟來源等個人信息通常采集時均被檢測者或其監(jiān)護(hù)人提供,較難準(zhǔn)確定量評估。(ii)目前的椅旁診斷檢測、唾液性質(zhì)檢測和/或影像學(xué)檢測對于大多數(shù)嬰幼兒而言,依舊較難配合和接受,造成其醫(yī)從性較差。(iii)個體信息的收集(如問卷形式)和微生物計(jì)數(shù)方法相對耗費(fèi)較大的人力、物力和時間。(iv)個體齲病經(jīng)歷仍是目前唯一公認(rèn)的評價(jià)指標(biāo),然其無法預(yù)測新發(fā)齲齒的發(fā)生。而大部分敏感人群在早期并無齲病經(jīng)歷記錄。(v)現(xiàn)有的方法對于篩選成人準(zhǔn)確性較高,但對于嬰幼兒可應(yīng)用性較為受限。
綜上所述,亟待篩選和鑒定出其他潛在于齲齒發(fā)生相關(guān)的微生物標(biāo)記物,及其對其的檢測方法。
技術(shù)實(shí)現(xiàn)要素:
針對現(xiàn)有技術(shù)中存在的上述不足之處,本發(fā)明目的在于一種篩選嬰幼兒齲病的口腔致病性生物標(biāo)記物的方法。
為實(shí)現(xiàn)上述目的,本發(fā)明所采用的技術(shù)方案是:
一種篩選嬰幼兒齲病的口腔致病性生物標(biāo)記物的方法,取嬰幼兒個體口腔樣本,將樣本的DNA信息轉(zhuǎn)化為樣品微生物信息,并以上述樣品全部口腔微生物的信息作為輸入變量,利用健康和疾病狀態(tài)建立的模型,通過秩和檢驗(yàn),檢驗(yàn)校正p<0.05即為口腔致病性生物標(biāo)記物;所述口腔致病性生物標(biāo)記物為牙菌斑和/或唾液樣品的普雷沃菌屬(Prevotella)、種水平上牙菌斑中的棲牙普雷沃菌(Prevotella denticola)、種水平上牙菌斑中的斑紋普雷沃菌(Prevotella maculosa)、種水平上牙菌斑中的真口普雷沃菌(Prevotella veroralis)、種水平上唾液中的普雷沃菌DO039(Prevotella DO039)、種水平上唾液中的希氏普雷沃菌(Prevotella histicola)、種水平上唾液中的蒼白普雷沃菌(Prevotella pallens)、種水平上唾液中的唾液普雷沃菌(Prevotella salivae)、種水平上唾液中的真口普雷沃菌(Prevotella veroralis)中一種或幾種。
所述健康和疾病狀態(tài)建立的模型的構(gòu)建:
1)將獲得的一種或多種口腔致病性生物標(biāo)記物及其豐度作為輸入變量;
2)利用隨機(jī)森林方法,將輸入變量對應(yīng)的嬰幼兒個體的健康和齲病信息進(jìn)行二分類,構(gòu)建基于特定口腔致病性生物標(biāo)記物檢測口腔狀態(tài)的數(shù)學(xué)模型。
進(jìn)一步的篩選方法:
1)獲取嬰幼兒個體口腔樣本的DNA;獲得DNA信息的16s RNA或全基因組信息;
2)利用生物信息學(xué)方法將DNA信息轉(zhuǎn)換為口腔致病性生物標(biāo)記物信息;
3)通過上述生物標(biāo)記物信息獲得嬰幼兒個體的致病性生物標(biāo)記物的豐度信息;
4)利用隨機(jī)森林方法,將個體的齲齒相關(guān)標(biāo)記物的豐度作為輸入變量,利用已建立的齲齒檢測模型對樣品進(jìn)行二分類分析wilcoxon rank sum檢驗(yàn)校正p<0.05,即獲得即為口腔致病性生物標(biāo)記物。
所述嬰幼兒個體口腔樣本為嬰幼兒齦上牙菌斑或唾液。
上述微生物標(biāo)記物可反應(yīng)嬰幼兒個體此時的健康/齲齒狀態(tài),以及個體的未來齲齒發(fā)生情況。
本發(fā)明具有以下優(yōu)點(diǎn)及有益效果:
1.本發(fā)明的對象采集和處理簡易、無侵害性、成本低;
2.本發(fā)明的評估客觀、自動化,可提供精確數(shù)值;
3.本發(fā)明的模型建立和優(yōu)化易于操作、數(shù)據(jù)處理高效;
4.本發(fā)明應(yīng)用廣泛:其提供功能的一系列微生物標(biāo)記物不僅可作為檢測對象,同時也可作為潛在治療靶點(diǎn);其應(yīng)用對象不僅適用于大規(guī)模人群評估,也可針對個體實(shí)現(xiàn)長期監(jiān)測;其應(yīng)用形式不僅可檢測嬰幼兒個體此時口腔狀態(tài),也可作為預(yù)測評估個體未來齲齒狀態(tài)的方法。
附圖說明
圖1為本發(fā)明實(shí)施提供的口腔微生物群落結(jié)構(gòu)特征圖;
圖2為本發(fā)明實(shí)施提供的通過隨機(jī)森林回歸方法篩選出時間相關(guān)的口腔微生物組成圖;
圖3為本發(fā)明實(shí)施提供的通過隨機(jī)森林回歸方法篩選的齲齒相關(guān)的致病菌(普雷沃菌屬(Prevotella))及其對區(qū)分健康和齲齒的結(jié)果圖;
圖4為本發(fā)明實(shí)施提供的模型應(yīng)用于預(yù)測相對健康樣品結(jié)果圖。
具體實(shí)施方式
下面結(jié)合附圖及實(shí)施例對本發(fā)明做進(jìn)一步的詳細(xì)說明。
本發(fā)明以利用口腔牙菌斑和唾液微生物群落篩選和鑒定齲齒相關(guān)的微生物標(biāo)記物及其應(yīng)用作為實(shí)施例,包括下列內(nèi)容:
(1)收集兒童口腔健康狀態(tài)臨床信息(表1):
對廣州市南方中英文幼兒園全日制兒童的口腔健康進(jìn)行追蹤調(diào)查,每半年檢查一次,持續(xù)一年三次檢查,之后再間隔一年進(jìn)行檢查,根據(jù)調(diào)查記錄的兒童dmfs(齲,失,補(bǔ)牙數(shù))指數(shù),根據(jù)本研究目的選擇具有下述三類口腔健康變化特征的兒童納入此課題研究:①健康組(H2H組):口腔齲病狀況始終保持健康的17名兒童;②齲病組,包括齲病發(fā)生組(H2C組):口腔齲病狀況經(jīng)歷從健康到齲病新發(fā)過程的21名兒童,以及齲病進(jìn)展組(C2C組): 口腔齲病狀況經(jīng)歷從已患齲到齲病發(fā)展過程的12名兒童。入選標(biāo)準(zhǔn)包括:年齡約4歲,20顆乳牙全部萌出,排除標(biāo)準(zhǔn)包括:有全身系統(tǒng)性疾病和牙周、口臭等口腔疾患,三個月服用抗生素。就整個實(shí)驗(yàn)流程各項(xiàng)細(xì)節(jié)及以后的數(shù)據(jù)公布等事宜征得志愿者監(jiān)護(hù)人同意,并簽署知情同意書。選取所有入選兒童的口腔檢查時所取的齦上牙菌斑和唾液樣品共計(jì)284個。
調(diào)查方法:由兩名牙體牙髓專科醫(yī)生以視診結(jié)合探診的方式進(jìn)行檢查,檢查器械高溫高壓消毒,必要時借助棉簽去除軟垢。檢查前統(tǒng)一認(rèn)識、方法和標(biāo)準(zhǔn),標(biāo)準(zhǔn)一致性檢驗(yàn)的Kappa值均大于0.92。采用世界衛(wèi)生組織《口腔健康調(diào)查基本方法》(1997年)對齲病的診斷標(biāo)準(zhǔn)。冠齲診斷標(biāo)準(zhǔn):牙齒的窩溝點(diǎn)隙或光滑面有明顯齲洞、或明顯釉質(zhì)下破壞、或明確可探及軟化洞底或洞壁的病損記為齲齒,包括有充填物或已窩溝封閉同時有齲者。有下列表現(xiàn)而缺乏其他陽性癥狀時不列入齲齒記錄范圍:①白色或白堊色斑點(diǎn);②探診無軟化的著色或粗糙斑點(diǎn);③釉質(zhì)點(diǎn)隙或窩溝著色,但無明顯釉質(zhì)下潛行破壞;④中到重度氟斑牙,有光澤、質(zhì)硬、有小凹陷;⑤根據(jù)分布或病史,結(jié)合觸診、視診觀察因磨損而造成病損齲齒。
表1 本發(fā)明實(shí)例提供的樣本臨床數(shù)據(jù)
(2)收集兒童唾液和齦上菌斑樣本:
取樣前一小時受試者避免進(jìn)食及飲水,每次取樣均在早上9:100-12:00,取樣時兒童保持輕仰頭、閉眼、直立座位。收集兒童無刺激性唾液于50ml無菌離心管中約3-5ml,并每1ml分裝于1.5ml離心管中;再使用無菌牙刷采集全部萌出乳牙齦上的菌斑1分鐘,將粘附于牙刷上的菌斑轉(zhuǎn)移至盛有10ml雙蒸水的50ml離心管,取樣時避免觸碰黏膜等口腔其他位點(diǎn)。對樣品分別編號并置于-80℃保存待提取DNA。
(3)基因組DNA提取和PCR擴(kuò)增16S rRNA基因片段
采用高鹽DNA提取方法。將盛有菌斑和唾液的離心管分別13,000rpm/min速度離心15min,棄上清,分別加入1ml裂解液,裂解液混合物中加入30μL蛋白酶K及150μL 10%SDS,53℃水浴震蕩過夜培養(yǎng)。加入400μL 5M NaCl冰上培養(yǎng)10min,13,000rpm/min離心10min。加入等體積的飽和酚溶液,至水相酚混勻成乳液狀,以13,000rpm/min速度離心15min,吸取上層黏稠水相至新管,重復(fù)酚抽提一次。加等體積的氯仿異戊醇混合液(24:1),轉(zhuǎn)動混勻,以13,000rpm/min速度離心15min,取上層黏稠水相轉(zhuǎn)移。加入800μL異丙醇,室溫培養(yǎng)1min,以13,000rpm/min速度離心15min。棄上清,70%乙醇洗兩次,干燥后溶于50μL TE溶液。
采用Qubit超微量分光光度儀定量DNA濃度,電泳檢測DNA完整性。提取后的DNA保存于-20℃。約15ng DNA用于構(gòu)建16S擴(kuò)增文庫。
為獲得相對準(zhǔn)確的種系發(fā)育信息,選取16S rRNA片段上V1-V3高變區(qū)(Escherichia coli positions 5-534)作為PCR擴(kuò)增目標(biāo)片段。確定PCR上游引物(5’-NNNNNNN-TGGAGAGTTTGATCCTGGCTCAG-3’)及下游引物(5’-NNNNNNN-TACCGCGGCTGCTGGCAC-3’),NNNNNNN即IDtag,是為區(qū)別不同樣品來源而設(shè)計(jì)的隨機(jī)組合的七個堿基,分別加入上下游引物的5’端,利用該多樣品平行標(biāo)記技術(shù)完成多個樣品同時在測序儀上測序。
每個樣品進(jìn)行三次PCR擴(kuò)增,PCR反應(yīng)體系(25μL)包含12.5μL的Gotag Hotstart聚合酶,各1μL上下游引物(濃度5pM),1μL基因組DNA(5ngμL-1),9.5μL PCR級別無菌水,在Thermocycler PCR system進(jìn)行反應(yīng)。反應(yīng)條件設(shè)定為:95℃預(yù)變性2min,94℃變性30s,退火56℃25s,72℃延伸25s,共25個循環(huán),最后72℃延伸5min。PCR產(chǎn)物混合后全部進(jìn)行凝膠電泳(1.2%Q瓊脂糖,5V cm-1,40min),確認(rèn)擴(kuò)增效果,將瓊脂糖膠放置在紫外燈下,割取約500bp長度的DNA條帶,按照Qiagen MiniElute試劑盒提供的操作流程進(jìn)行回收、純化目的片段DNA,用20μL洗滌。
(4)454GS FLX Titanium測序
主要流程如下:①文庫制備,采用Agilent BioAnalyzer 2100生物分析儀及PicoGreen超微量分光光度儀聯(lián)合定量,將不同樣品以等摩爾混合后共構(gòu)建三份DNA文庫,與特異性接頭連接修飾,變性處理回收單鏈DNA;②乳化PCR,將DNA文庫固定于磁珠,經(jīng)擴(kuò)增乳化,形成油水混合物,每個 DNA片斷在微反應(yīng)器進(jìn)行獨(dú)立平行擴(kuò)增,產(chǎn)生數(shù)百萬計(jì)相同拷貝。打破乳化狀態(tài),回收純化結(jié)合于磁珠上的DNA片段;③測序反應(yīng),將攜帶DNA的磁珠與其他反應(yīng)物混合,放入PTP板中置于454 GS FLX Titanium機(jī)器中,每一個與模板鏈互補(bǔ)的核苷酸的添加都會產(chǎn)生熒光信號并被CCD照相機(jī)所捕獲,逐步完成測序;④數(shù)據(jù)收集,通過系統(tǒng)信息學(xué)工具對測序反應(yīng)數(shù)據(jù)進(jìn)行堿基解析。
(5)將獲得的高通量數(shù)據(jù)轉(zhuǎn)換成具體的微生物群落數(shù)據(jù)
序列質(zhì)量控制:454高質(zhì)量序列分析流程主要基于MOTHUR平臺,設(shè)定質(zhì)量控制規(guī)范,符合標(biāo)準(zhǔn)的序列片段被視為高質(zhì)量序列,予以保留。①至少有一端引物能被匹配,允許的編輯距離(插入、刪除、缺失、錯配的堿基數(shù)量)不超過2;②序列長度大于150bp;③設(shè)置一個50bp的堿基閱讀框,從每條序列的第一個堿基開始逐個堿基向后移動,每移動一個堿基,計(jì)算一次該閱讀框內(nèi)的質(zhì)量分?jǐn)?shù)均值,該質(zhì)量指數(shù)均值需大于35;④不含有模糊堿基;⑤允許標(biāo)簽序列錯配數(shù)量不超過1。經(jīng)初步過濾后,需要進(jìn)一步對序列進(jìn)行測序錯誤的篩查,包括“preclustering”和嵌合體(Chimera)序列查找等步驟。選擇UCHIME程序查找并刪除這些序列。
基于16S數(shù)據(jù)庫的種系發(fā)育信息分析:采用MOTHUR分類方法針對人類口腔核心微生物16S數(shù)據(jù)庫(CORE)進(jìn)行從門到種水平細(xì)菌種系信息劃歸,分別統(tǒng)計(jì)各個樣品在每個分類水平上各物種的序列數(shù),并與該樣品總體獲得的序列數(shù)計(jì)算其比值,從而獲取每個門類各物種的相對豐度。
(6)不同因素對于口腔菌群分布的影響(圖1):
以杰森-香濃(Jensen-Shannon)矩陣為基礎(chǔ)的群落結(jié)構(gòu)計(jì)算方法:其除了樣品間的進(jìn)化距離外,還可調(diào)查樣品細(xì)菌種水平上豐度的區(qū)別。樣品中的細(xì)菌種豐度分布可以看作是物種的概率分布,可以利用樣品間這種概率分布的互信息熵(Jensen-Shannon divergence,JSD)來度量樣品間的微生物組的區(qū)別。樣品間的距離D(a,b)的計(jì)算公式如下:
Pa和Pb分別代表樣品a和樣品b中的豐度分布。JSD(X,Y)定義了兩個樣品中不同的概率分布X和Y間的互信息熵(Jensen-Shannon divergence)。
KLD是X和Y間的Kullback-Leibler離散度,具體的計(jì)算方法如下:
非監(jiān)督的主坐標(biāo)分析:將Jensen-Shannon矩陣進(jìn)行主坐標(biāo)分析(PCoA:Principal Coordinates Analysis)以展示不同樣本間口腔微生物群落結(jié) 構(gòu)特征,PCoA將各個物種信息視為互相獨(dú)立不關(guān)聯(lián)的變量,以樣本×變量相對豐度的矩陣進(jìn)行分析,以在不考慮環(huán)境因子影響的前提下,無偏見、整體的觀察樣本的內(nèi)在菌群結(jié)果,發(fā)現(xiàn)一個或多個潛在的變量(主坐標(biāo),Principal coordinate,PC)以最大程度的在較低維度上最好的解釋樣本內(nèi)在的變異,每一個主坐標(biāo)代表在此維度下可解釋的整體結(jié)構(gòu)變異程度,從而達(dá)到數(shù)據(jù)降維處理并對樣品排序的目的,其中樣本的得分(Score)是物種得分的線性組合。
置換多元統(tǒng)計(jì)分析結(jié)果顯示口腔微生物群落具有明顯的年齡特征,這些年齡特征與個體發(fā)育成熟度和健康狀態(tài)有關(guān),支持根據(jù)口腔微生物群落可鑒別嬰幼兒齲與健康樣本,提示可建立診斷和預(yù)測口腔齲病模型(圖1):
①雖然在各個生態(tài)位點(diǎn),時間/年齡因素是決定菌群分布的最重要因素。
②但在各個生態(tài)位點(diǎn),影響菌群分布的其他重要因素根據(jù)其重要性排名順序?yàn)椋航】?疾病狀態(tài)、樣品分組、個體異質(zhì)性。
③在不同分組中(包括H2H、H2C、C2C組),健康組中時間因素對其菌群影響最大,而在齲病組中時間因素收到疾病狀態(tài)影響而對菌群影響作用受抑制。
以上結(jié)果提示:口腔菌群可作為齲齒檢測的媒介,可反應(yīng)宿主口腔健康狀態(tài),特別是齲齒的發(fā)生。
(7)篩選和鑒定齲齒相關(guān)的微生物標(biāo)記物及其應(yīng)用(圖3,圖4)
在機(jī)器學(xué)習(xí)中,隨機(jī)森林方法是一個包含多個決策樹的模型,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定,該模型被廣泛用于挖掘目標(biāo)變量和眾多解釋變量間的關(guān)聯(lián)關(guān)系。此方法不但可建立分類或回歸模型,同時可確定區(qū)分特定狀態(tài)或標(biāo)簽的變量,并可通過其重要性值以判斷其區(qū)分能力的大小。在本實(shí)例中,隨機(jī)森林方法利用R的randomForest軟件包實(shí)現(xiàn),建立5000棵樹,其他均為默認(rèn)設(shè)置。以輸入數(shù)據(jù)的2/3作為訓(xùn)練數(shù)據(jù)集,以輸入數(shù)據(jù)的1/3作為測試數(shù)據(jù)集,隨機(jī)進(jìn)行100次實(shí)驗(yàn)以降低誤差。
隨機(jī)森林機(jī)器學(xué)習(xí)(Random Forests,RF)是一種基于分類器算法的機(jī)器學(xué)習(xí),由LeoBreiman提出,通過自助法重采樣技術(shù),從訓(xùn)練集(data set)n中有放回地重復(fù)隨機(jī)抽取k個樣本生成新的訓(xùn)練樣本(train set)集合,然后根據(jù)自助樣本集生成k個分類樹組成隨機(jī)森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分?jǐn)?shù)而定,分類誤差取決于每一棵樹的分類能力和它們之間的相關(guān)性。單棵樹的分類能力可能很小,但在隨機(jī)產(chǎn)生大量的決策樹后,一個測試樣品可以通過每一棵樹的分類結(jié)果經(jīng)統(tǒng)計(jì)后選擇最可能的分類。它通過對大量分類樹的匯總提高了模型的預(yù)測精度,由于其不存在過度擬合、預(yù)測精度高,該模型被廣泛用于挖掘目標(biāo)變量和眾多解釋變量間的關(guān)聯(lián)關(guān)系。
除了建立檢測模型和預(yù)測,隨機(jī)森林方法還能用于評價(jià)解釋變量的重要性,特征選擇采用隨機(jī)的方法去分裂每一個節(jié)點(diǎn),然后比較不同情況下產(chǎn)生的誤差。直觀的評價(jià)標(biāo)準(zhǔn)是該變量越重要,對預(yù)報(bào)結(jié)果的影響也越大。隨機(jī)森林模型解釋變量的重要性評價(jià)采用類似標(biāo)準(zhǔn):將所有檢驗(yàn)標(biāo)本某一解釋變量的取值隨機(jī)打亂,采用原隨機(jī)森林模型對檢驗(yàn)樣本再次預(yù)報(bào),袋外擬合誤差增加越多,該解釋變量越重要。袋外擬合誤差增加量可用于定量評價(jià)解釋變量重要性。本專利采用十倍交叉驗(yàn)證(Ten-Fold Cross Validation)評價(jià)構(gòu)建模型所需納入變量的最小數(shù)量。隨機(jī)重復(fù)100次,以均值作為對算法準(zhǔn)確性的估計(jì)。交叉驗(yàn)證(Cross-Validation,CV)是一種用來驗(yàn)證分類器性能的統(tǒng)計(jì)分析方法,主要用于建模評估中得到可靠穩(wěn)定的模型,即在某種意義下將原始數(shù)據(jù)(dataset)進(jìn)行分組,一部分做為訓(xùn)練集(train set),另一部分做為驗(yàn)證集(validation set),首先用訓(xùn)練集對分類器進(jìn)行訓(xùn)練,再利用驗(yàn)證集來測試訓(xùn)練得到的模型,將每次分類誤差做為評價(jià)分類器性能的指標(biāo)。而十倍交叉驗(yàn)證將數(shù)據(jù)集分成十分,輪流將其中9份作為訓(xùn)練數(shù)據(jù),1份作為測試數(shù)據(jù),進(jìn)行試驗(yàn)。每次試驗(yàn)都會得出相應(yīng)的分類誤差,10次結(jié)果均值作為對算法精度的估計(jì)。
首先,篩選和剔除時間相關(guān)微生物:為降低時間因素對于齲齒相關(guān)微生物標(biāo)記物篩選的影響,首先篩選以H2H組中的口腔微生物群落細(xì)菌種數(shù)據(jù)作為輸入變量,以每個樣本對應(yīng)的實(shí)際月齡作為樣本信息,將其回歸到離散的輸出變量(預(yù)測的月齡),初步建立檢測兒童個體生物年齡的數(shù)學(xué)模型。將變量按照其對年齡回歸重要性排序,將隨著變量減少而隨機(jī)森林回歸模型區(qū)分年齡能力沒有顯著改變的變量組合作為最終年齡相關(guān)微生物標(biāo)記物(圖2)。其中,來源于牙菌斑的標(biāo)記物包括洛氏普氏菌(Prevotella loescheii),反硝化金氏菌(Kingella denitrificans),纖毛菌屬BU064(Leptotrichia BU064),多形具核梭桿菌亞種(Fusobacterium nucleatum subsp.polymorphum),伯杰菌602D02(Bergeyella 602D02),口腔心桿菌(Cardiobacterium valvarum),輕型鏈球菌/肺炎鏈球菌/嬰兒鏈球菌/口腔鏈球菌(Streptococcus mitis/Streptococcus pneumonia/Streptococcus infantis/Streptococcus oralis),黃奈瑟菌/粘液奈瑟菌/咽奈瑟菌(Neisseria flava/Neisseria mucosa/Neisseria pharyngis),纖細(xì)彎曲菌(Campylobacter gracilis),金黃奈瑟菌(Neisseria flavescens),來源于唾液的15個標(biāo)記物包括卟啉單胞菌CW034(Porphyromonas CW034),格登鏈球菌(Streptococcus gordonii),非典型韋榮球菌/殊異韋榮球菌/小韋榮球菌(Veillonella atypical/Veillonella dispar/Veillonella parvula),口腔消化鏈球菌(Peptostreptococcus stomatis),副血鏈球菌/口腔鏈球菌(Streptococcus parasanguinis/Streptococcus oralis),纖毛菌BU064(Leptotrichia BU064),(Porphyromonas catoniae),TM7口腔分類單元352(TM7 oral taxon 352),普氏菌口腔分類單元299(Prevotella oral taxon 299),產(chǎn)黑普氏菌(Prevotella melaninogenica),溝真桿菌/弱小真桿菌(Eubacterium sulci/Eubacterium infirmum),伯杰菌602D02(Bergeyella602D02),金黃奈瑟菌(Neisseria flavescens),腦膜炎奈瑟菌/多糖奈瑟菌(Neisseria meningitides/Neisseria polysaccharea),苛養(yǎng)顆粒鏈菌(Granulicatella elegans)。
第二,利用機(jī)械學(xué)習(xí)的隨機(jī)森林方法,以齲病發(fā)生組和齲病進(jìn)展組中宿主口腔狀態(tài)為齲病和絕對健康的樣本作為輸入變量,將其與健康和齲病二分類的輸出變量對應(yīng),建立分類模型(圖3)。此外,將年齡因素相關(guān)的標(biāo)記物從建模變量中全部剔除。結(jié)果可見基于普雷沃菌屬(Prevotella)的建立模型區(qū)分健康和去病能力的模型與使用全菌的模型接近,提示普雷沃菌屬可提示嬰幼兒齲病和健康狀態(tài)。
第三,基于上述隨機(jī)森林所見模型,將所有變量按照其對模型重要性排序,篩選和鑒定在種水平上對區(qū)分健康和齲齒具有重要作用的微生物,其中牙菌斑中Prevotella denticola(棲牙普雷沃菌)、Prevotella maculosa(斑紋普雷沃菌)、Prevotella veroralis(真口普雷沃菌)和唾液中Prevotella DO039(DO039普雷沃菌)、Prevotella histicola(希氏普雷沃菌)、Prevotella pallens(蒼白普雷沃菌)、Prevotella salivae(唾液普雷沃菌)、Prevotella veroralis(真口普雷沃菌)對模型分類貢獻(xiàn)能力較強(qiáng)(圖3)。
第四,診斷應(yīng)用:將所篩選8種普雷沃菌株在各樣品中的豐度表達(dá)均獨(dú)立作為輸入變量,將樣品的健康和疾病狀態(tài)作為分類變量,分別利用隨機(jī)森林方法建立模型,各個模型的準(zhǔn)確率均約在70%(圖3)。
第五,預(yù)測應(yīng)用:將上述所建立模型應(yīng)用于相對健康樣品的預(yù)測,其中來源于牙菌斑和唾液相對健康的樣品各24個,結(jié)果發(fā)現(xiàn)樣品大部分均分類為齲病樣品,如牙菌斑中81%(17個)樣品預(yù)測為齲病樣品(圖4),提示治病菌可能先于臨床癥狀改變,可以用于預(yù)測齲病的發(fā)生。值得注意是,在這些預(yù)測為健康或者齲齒的兩組樣品中,變形鏈球菌在兩組中無統(tǒng)計(jì)學(xué)差異(P=0.002),而普雷沃菌屬具有顯著差異(P<0.05,圖4),再次說明普雷沃菌屬在對于齲齒發(fā)生中的重要作用,其可提示嬰幼兒齲的發(fā)生。
本發(fā)明所述的基于隨機(jī)森林的回歸分析方法可參見Breiman L(2001)Random forests.Mach Learn 45:5–32.)和(Knights D,Costello EK,Knight R.Supervised classification of human microbiota.FEMS Microbiol Rev.2011Mar;35(2):343-59.doi:10.1111/j.1574-6976.2010.00251.x.Epub 2010Oct 7.Review.PubMed PMID:21039646.。
當(dāng)然,上述說明并非是對本發(fā)明的限制,本發(fā)明也并不限于上述舉例,本技術(shù)領(lǐng)域的普通技術(shù)人員,在本發(fā)明的實(shí)施范圍內(nèi),做出的變化、改型、 添加或替換,都應(yīng)屬于本發(fā)明的保護(hù)范圍。