疾病易感風險預測方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及生物信息學,特別是涉及疾病易感風險預測方法及裝置。
【背景技術】
[0002] 對健康不利的遺傳體質所對應的一些與疾病發(fā)生相關的染色體位點,被稱為疾病 易感位點,而所謂疾病易感性就是指由遺傳決定的易于患某種或某類疾病的傾向性,具有 疾病易感性的人一定具有特定的遺傳特征,簡單地說就是帶有某種疾病地易感基因型。到 目前為止,近十幾年的醫(yī)學統計學研究過程中,已發(fā)現大量染色體位點與腫瘤、心腦血管疾 病、慢性病等疾病的易感性密切相關并被相互獨立的研究反復證實。對于具體疾病而言,通 過統計和計算每個個體的染色體上所包含的與該類疾病相關的染色體位點以及位點的風 險暴露水平,就能夠了解每個人對特定疾病的易感性。
[0003] 然而,現代醫(yī)學研究表明,大多數疾病的發(fā)病是由環(huán)境因素和個人遺傳體質共同 作用所造成的。目前已知的個體疾病易感性風險計算方法僅基于個體染色體位點的單核苷 酸多態(tài)性變化,過度強調了遺傳信息對疾病發(fā)生的重要性,忽視了"環(huán)境因素和個人遺傳體 質共同作用導致疾病發(fā)生"的這一客觀事實,從而導致預測數據可參考性低。
【發(fā)明內容】
[0004] 鑒于以上所述現有技術的缺點,本發(fā)明的目的在于提供一種疾病易感風險預測方 法及裝置。
[0005] 本發(fā)明同時考慮個人遺傳因素和環(huán)境因素對疾病發(fā)生所造成的影響。區(qū)別于基因 遺傳特征的穩(wěn)定不變性,首先,環(huán)境因素會隨著人們年齡的增長而不斷地在人體內累積并 對個體的健康施加影響,是一種具有累積效應的因素,個體的年齡是一個很好地標識環(huán)境 累積效應高低的度量手段。其次,不同國籍、不同地區(qū)、具有不同種族背景的人群,必然受到 其種族社會固有的飲食風俗、社會習俗以及一些其他日常生活習慣影響,并最終致使不同 群體之間所受到的環(huán)境因素影響亦不相同。所以,本發(fā)明在計算疾病易感性風險時,還針對 具有不同生活習慣和社會文化的地域區(qū)分不同地域人群所受環(huán)境因素。第三,人類作為兩 性生物,男性和女性由于天生體質差異,不同個體對自己身處環(huán)境的偏好也與性別密切相 關。因此,即使對于于同一地域人群中的不同性別個體,其所受到的環(huán)境因素影響亦會收到 各自性別影響而存在細微差異,這也是在精確計算疾病易感性時需要考慮的因素之一。
[0006] 此外,區(qū)別于已知的個體疾病易感性計算方法,本發(fā)明考慮到環(huán)境因素的累積效 應對個體疾病易感性造成的動態(tài)變化性特征,創(chuàng)新性提出了以年齡為自變量、以疾病易感 性風險值為應變量的易感性動態(tài)變化曲線。在假設個體所處地域和生活習慣不變的情況 下,該曲線能夠有效解釋伴隨年齡增長,個體疾病易感性風險值的變化趨勢,從而更加有效 地幫助個體進行健康管理,達到"治未病"的效果。
[0007] 綜上,本發(fā)明在基于個體遺傳特征的基礎上,進一步將個體的年齡、所處地區(qū)以及 個體性別作為影響個體所處環(huán)境因素的三個要素,綜合上述四項個體信息,繪制出針對每 個個體的疾病易感性風險年齡變化曲線,使得個體不僅能夠獲悉更為精確的即時疾病易感 風險,同時也能夠繼續(xù)了解伴隨年齡增長后各類疾病易感性變化的趨勢。
[0008] 本發(fā)明首先提供了一種疾病易感風險預測方法,包括:
[0009] 步驟S101,提供包含疾病的發(fā)病率數據、SNP位點基因型頻率數據、針對每個疾病 相關SNP位點的風險等位純合基因型及雜合基因型的OR值數據的數據庫S;其中,同一疾 病的發(fā)病率數據依據地域、性別、年齡區(qū)段的不同組合進行區(qū)分,同一疾病相關SNP位點的 各基因型的OR值數據依照地域、性別組成、年齡分布區(qū)段的不同組合進行區(qū)分,SNP位點基 因型頻率數據按地域不同進行區(qū)分。
[0010] 步驟S102,接收待測個體的地域信息、性別信息、感興趣的SNP位點實測基因型信 息。
[0011] 步驟S103,針對待測個體感興趣疾病,根據待測個體的地域信息、性別信息及SNP 位點實測基因型信息,從數據庫S中提取以下數據:相應地域相應性別在各年齡分布區(qū)段 下的各感興趣疾病的發(fā)病率數據,相應地域的各感興趣疾病對應SNP位點基因型頻率數 據,以及相應地域相應性別在各年齡分布區(qū)段下的感興趣疾病對應SNP位點的OR值數據; 依據上述數據計算獲得待測個體各感興趣疾病的疾病綜合易感風險數組,所述待測個體的 疾病綜合易感風險數組包括:與該待測個體基因型組成相同、所處地域對應、性別組成對應 的各年齡區(qū)段的個體疾病綜合易感風險值;
[0012] 步驟S104,依據各感興趣疾病的個體疾病綜合易感風險數組,使用LOESS回歸擬 合出該離散數組對應的疾病綜合易感性風險計算函數,基于該函數,生成指定年齡范圍的 個體疾病綜合易感風險動態(tài)變化曲線。
[0013] 本發(fā)明還提供了一種疾病易感風險預測裝置,包括:
[0014] 數據庫單元,用于提供包含疾病的發(fā)病率數據、SNP位點基因型頻率數據、針對每 個疾病相關SNP位點的風險等位純合基因型及雜合基因型的OR值數據的數據庫S;其中, 同一疾病的發(fā)病率數據依據地域、性別、年齡區(qū)段的不同組合進行區(qū)分,同一疾病相關SNP 位點的各基因型的OR值數據依照地域、性別組成、年齡分布區(qū)段的不同組合進行區(qū)分,SNP 位點基因型頻率數據按地域不同進行區(qū)分。
[0015] 待測個體信息單元,用于提供待測個體的地域信息、性別信息、感興趣的SNP位點 實測基因型信息。
[0016] 疾病綜合易感風險數組計算單元:與所述數據庫單元及待測個體信息單元連接, 用于針對待測個體感興趣疾病,根據待測個體的地域信息、性別信息及SNP位點實測基因 型信息,從數據庫S中提取以下數據:相應地域相應性別在各年齡分布區(qū)段下的各感興趣 疾病的發(fā)病率數據,相應地域的各感興趣疾病對應SNP位點基因型頻率數據,以及相應地 域相應性別在各年齡分布區(qū)段下的感興趣疾病對應SNP位點的OR值數據;依據上述數據計 算獲得待測個體各感興趣疾病的疾病綜合易感風險數組,所述待測個體的疾病綜合易感風 險數組包括:與該待測個體基因型組成相同、所處地域對應、性別組成對應的各年齡區(qū)段的 個體疾病綜合易感風險值;
[0017] 疾病綜合易感風險動態(tài)變化曲線單元,與所述疾病綜合易感風險數組計算單元連 接,用于依據各感興趣疾病的個體疾病綜合易感風險數組,使用LOESS回歸擬合出該離散 數組對應的疾病綜合易感性風險計算函數,基于該函數,生成指定年齡范圍的個體疾病綜 合易感風險動態(tài)變化曲線。
[0018] 發(fā)明優(yōu)點:
[0019] 1)本發(fā)明同時考慮個體遺傳和環(huán)境兩個方面的因素計算個體疾病易感性風險,計 算結果更符合客觀現實。其中,環(huán)境因素包括個體所處地域、個體性別、以及基于個體年齡 所反映出的環(huán)境因素的累積效應。
[0020] 2)本發(fā)明最終繪制出針對個體的疾病易感性風險年齡變化曲線,使得個體不僅能 夠獲悉更為精確的即時疾病易感風險,同時也能夠繼續(xù)了解伴隨年齡增長后各類疾病易感 性變化的趨勢,有利于起到長期有效的健康提示作用。
【附圖說明】
[0021] 圖1是本發(fā)明實施例的方法的流程圖。
[0022] 圖2是根據本發(fā)明實施例的處理方法獲得的個體疾病綜合易感風險動態(tài)變化曲 線示例。圖中,橫軸為個體年齡,縱軸為個體不同年齡對應的疾病綜合易感風險。位于上方 的曲線代表該個體不同年齡段的疾病易感風險變化,位于下方的色曲線代表個體所屬人群 的該疾病平均易感風險。實際操作中,代表個體的曲線與代表人均平均水平的曲線可采用 不同的顏色標記。
[0023] 圖3A是本發(fā)明實施例的裝置的示意圖
[0024] 圖3B是本發(fā)明一優(yōu)選實施例的裝置的示意圖
[0025] 圖4A是本發(fā)明另一優(yōu)選實施例的裝置的示意圖
[0026] 圖4B是本發(fā)明另一優(yōu)選實施例的裝置的校對模塊示意圖
[0027] 圖5是本發(fā)明再一優(yōu)選實施例的裝置的示意圖
【具體實施方式】
[0028] 以下通過特定的具體實例說明本發(fā)明的實施方式,本領域技術人員可由本說明書 所揭露的內容輕易地了解本發(fā)明的其他優(yōu)點與功效。本發(fā)明還可以通過另外不同的具體實 施方式加以實施或應用,本說明書中的各項細節(jié)也可以基于不同觀點與應用,在沒有背離 本發(fā)明的精神下進行各種修飾或改變。
[0029] 此外應理解,本發(fā)明中提到的一個或多個方法步驟并不排斥在所述組合步驟前后 還可以存在其他方法步驟或在這些明確提到的步驟之間還可以插入其他方法步驟,除非另 有說明;還應理解,本發(fā)明中提到的一個或多個設備/裝置之間的組合連接關系并不排斥 在所述組合設備/裝置前后還可以存在其他設備/裝置或在這些明確提到的兩個設備/裝 置之間還可以插入其他設備/裝置,除非另有說明。而且,除非另有說明,各方法步驟的編 號僅為鑒別各方法步驟的便利工具,而非為限制各方法步驟的排列次序或限定本發(fā)明可實 施的范圍,其相對關系的改變或調整,在無實質變更技術內容的情況下,當亦視為本發(fā)明可 實施的范疇。
[0030] 本發(fā)明在基于個體遺傳特征的基礎上,進一步將個體的年齡、所處地區(qū)以及個體 性別作為影響個體所處環(huán)境因素的三個要素,綜合上述四項個體信息,繪制出針對每個個 體的疾病易感性風險年齡變化曲線,使得個體不僅能夠獲悉更為精確的即時疾病易感風 險,同時也能夠繼續(xù)了解伴隨年齡增長后各類疾病易感性變化的趨勢。
[0031] 本發(fā)明提供了一種疾病易感風險預測方法,在一個實施例中,如圖1所示,所述疾 病易感風險預測方法包括下列步驟:
[0032] 步驟SlOl,提供包含疾病的發(fā)病率數據、SNP位點基因型頻率數據、針對每個疾 病相關SNP位點的風險等位純合基因型及雜合基因型的OR值數據的數據庫S;其中,同一 疾病的發(fā)病率數據依據地域、性別組成、年齡分布區(qū)段的不同組合進行區(qū)分,同一疾病相關 SNP位點的各基因型的OR值數據依照地域、性別組成、年齡分布區(qū)段的不同組合進行區(qū)分, SNP位點基因型頻率數據按地域不同進行區(qū)分。
[0033] 步驟S102,接收待測個體的地域信息、性別信息、SNP位點實測基因型信息。
[0034] 步驟S103,針對待測個體感興趣疾病,根據待測個體的地域信息、性別信息及SNP 位點實測基因型信息,從數據庫S中提取以下數據:相應地域相應性別組成在各年齡分布 區(qū)段下的各感興趣疾病的發(fā)病率數據,相應地域的各感興趣疾病對應SNP位點基因型頻率 數據,以及相應地域相應性別組成在各年齡分布區(qū)段下的感興趣疾病對應SNP位點的OR值 數據;依據上述數據計算獲得待測個體各感興趣疾病的疾病綜合易感風險數組,所述待測 個體的疾病綜合易感風險數組包括:與該待測個體基因型組成相同、相應地域、相應性別組 成的各年齡分布區(qū)段的個體疾病綜合易感風險值;
[0035] 步驟S104,依據各感興趣疾病的個體疾病綜合易感風險數組,使用LOESS回歸擬 合出該離散數組對應的疾病綜合易感性風險計算函數,基于該函數,生成指定年齡范圍的 個體疾病綜合易感風險動態(tài)變化曲線。
[0036] 本發(fā)明根據數據庫信息、待測個人信息及待測個人的基因型數據計算雙因素疾病 綜合易感風險(指遺傳因素和環(huán)境因素);將獲得的雙因素疾病綜合易感風險擬合成疾病 綜合易感性風險年齡變化曲線。
[0037] 具體的,對于步驟S101,
[0038] 疾病的發(fā)病率Pr(D)是指特定的疾病在特定人群中的發(fā)病率,在流行病學中是指 一定時期內特定人群新發(fā)生某一疾病的比率。疾病發(fā)病率可以用來測定發(fā)病風險。該類數 據獲取方式主要依賴于各個國家衛(wèi)生健康統計部門的數據庫信息。
[0039] 在一個實施例中,所述疾病的發(fā)病率信息通過訪問現有的數據庫,并從中抓取疾 病的發(fā)病率信息或者通過抓取相關信息計算獲得后錄入數據庫S。以中國人群不同類型腫 瘤發(fā)病率的信息獲取方式為例,首先通過訪問GL0B0CAN數據庫主頁,進一步訪問Cancerby population子頁面,并獲取不同國家地區(qū)人群的各類腫瘤發(fā)病率信息。
[0040] SNP即單核苷酸多態(tài)性,指由于單個核苷酸堿基的改變而導致的核酸序列呈現出 的多態(tài)性現象。每個SNP位點均包含主等位和次等位兩種等位堿基,將出現頻率較高的 堿基定義為主等位