專利名稱:用dna推算姓氏家族分支和追溯家譜的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物技術(shù)領(lǐng)域,涉及分子生物學(xué)技術(shù),遺傳學(xué)和生物信息學(xué)。本發(fā)明應(yīng) 用了 DNA (脫氧核糖核酸)檢測(cè)技術(shù)和遺傳學(xué)的分析方法來(lái)追溯姓氏家族的分支和發(fā)展。本 發(fā)明也應(yīng)用了計(jì)算機(jī)科學(xué)的技術(shù),特別是改進(jìn)了層次聚類算法來(lái)建立家族樹狀示意圖。
背景技術(shù):
家譜和姓氏在中華文化里有重要地位。海內(nèi)外有很多華人崇尚家譜和尋根尋祖。 追溯家譜可以幫助人們了解自己的祖先和血脈相連的族人,促進(jìn)人與人的交流和民族的凝 聚力,在歷史學(xué)、社會(huì)學(xué)、民族學(xué)、人類學(xué)、人口學(xué)、優(yōu)生學(xué)等方面都很有意義。近年來(lái)在國(guó) 外,追溯家譜及其相關(guān)的社交網(wǎng)絡(luò)已成為一項(xiàng)很熱門的服務(wù)行業(yè),因此具有很大的商業(yè)價(jià)值。姓氏在中國(guó)已有超過(guò)兩千年的歷史。早在周朝姓氏就開始出現(xiàn)。最初一個(gè)姓氏居 住在一個(gè)地方,后來(lái)逐漸遷移到各地并與當(dāng)?shù)厝送ɑ椋托纬闪瞬煌姆种?。另外,一個(gè)姓 氏也可能因?yàn)榉N種原因引入別的血統(tǒng),比如領(lǐng)養(yǎng)和改姓等等。在歷史上多次民族融合過(guò)程 中,又有新的姓氏出現(xiàn),并且很多少數(shù)民族采用漢姓。因此,中國(guó)姓氏家族的起源和發(fā)展較 為復(fù)雜,追溯家族分支和遷移史非常有助于了解中華民族融合發(fā)展的歷史。家譜和別的歷史資料對(duì)于研究這些歷史很有價(jià)值。海內(nèi)外的很多華人家庭都有自 己的家譜,這在南方農(nóng)村尤其普遍。家譜中記載了一個(gè)家族的世系繁衍,人口變遷和居地遷 徙的歷史。很多地方方志也對(duì)這些有所記載。然而,并不是每個(gè)家族都有自己的家譜的,有 很多家族的歷史,由于沒(méi)有記載或文獻(xiàn)失傳,可能已掩埋在千年歲月中。另一方面,家譜對(duì) 于近代的家族史的記載比較準(zhǔn)確,但對(duì)于久遠(yuǎn)的年代,家譜記載的可靠性會(huì)下降,有時(shí)會(huì)存 在爭(zhēng)議。因此,使用文字記載的家譜或文獻(xiàn)來(lái)了解家族發(fā)展和分支的歷史和尋祖常常會(huì)碰 到問(wèn)題?,F(xiàn)在,隨著分子生物學(xué)和遺傳學(xué)技術(shù)的發(fā)展,我們將可能應(yīng)用生物科技來(lái)幫我們 準(zhǔn)確地發(fā)現(xiàn)人們的家譜。每個(gè)人的DNA(脫氧核糖核酸)都是由祖先傳下來(lái)的,同時(shí)在繼承 的過(guò)程中有一些DNA位點(diǎn)發(fā)生了變異。這就導(dǎo)致了由同一個(gè)祖先繁衍而來(lái)的后代既有共同 的DNA“遺傳指紋”,又在不同個(gè)體或分支之間存在略微的不同。因此,通過(guò)比較人的DNA上 的信息可以還原出人們真實(shí)的家譜。通過(guò)收集比較人的Y染色體,常染色體或線粒體DNA 上一些重要遺傳標(biāo)記的基因型,人們可以推論出不同類型的家系。Y染色體只存在于男性并 只由父親傳給兒子,而且它是非重組的,所以Y染色體的DNA分析可用于分析與姓氏相關(guān)的 家系(常見(jiàn)的家譜)。線粒體DNA是母系遺傳的,它只能由母親傳給下一代,因此它可以用 于母系的家系分析與推導(dǎo)。常染色體是可重組的,它們含有最豐富的遺傳信息,使用常染色 體的遺傳分析能增加基因指紋的特異性,并有利于推斷復(fù)雜的家系。家系分析應(yīng)用的技術(shù)手段已在遺傳學(xué)、法醫(yī)、古人類學(xué)和其他生命科學(xué)領(lǐng)域中得 到廣泛應(yīng)用。在進(jìn)化遺傳學(xué)的研究中,科學(xué)家通過(guò)比較不同物種的DNA的共同點(diǎn)和差異 可以推導(dǎo)出分子進(jìn)化樹。法醫(yī)鑒定和親子鑒定中已廣泛采用DNA “遺傳指紋”作為關(guān)鍵證據(jù)。古人類學(xué)家已通過(guò)檢測(cè)DNA和遺傳學(xué)分析揭開了史前人類遷徙和民族融合的許多秘密 (1)。國(guó)外有一項(xiàng)專利(US7248970B2,見(jiàn)參考文獻(xiàn)6)提出了通過(guò)檢測(cè)和比較Y染色體DNA 來(lái)預(yù)測(cè)人的姓氏的方法。一般用于DNA分析的遺傳位點(diǎn)包括短串重復(fù)序列(STR)和單核苷 酸多態(tài)性(SNP)這兩種遺傳標(biāo)記。一般來(lái)講,STR比SNP有更高的突變率,由于家譜相關(guān)的 研究的時(shí)間范圍通常是幾百年至兩千年,STR更適合這方面的研究和應(yīng)用。近年來(lái),對(duì)遺傳 位點(diǎn)進(jìn)行基因分型的手段發(fā)展迅速。其中,通過(guò)熒光標(biāo)記的引物組進(jìn)行PCR然后用遺傳分 析儀作檢測(cè)的方法非常適合大量迅速地檢測(cè)STR位點(diǎn)(2)。另外,用基因芯片大規(guī)模檢測(cè) SNP的技術(shù)也日漸成熟,其成本也日趨下降。這些技術(shù)使大規(guī)模地采集和分析家譜相關(guān)的 DNA數(shù)據(jù)成為可能。近年來(lái),可供選擇的STR和SNP遺傳位點(diǎn)大量出現(xiàn),人們對(duì)于選擇哪些 遺傳位點(diǎn)能最有效地進(jìn)行人的身份鑒定作了很多探討。比如說(shuō),Butler JM等人報(bào)道了一 組適合鑒定歐洲人的20個(gè)Y染色體STR位點(diǎn)(3),Kwak KD等人報(bào)道了一組11個(gè)適合東亞 人的Y染色體STR(2)。盡管這些研究主要是針對(duì)法醫(yī)實(shí)踐的,他們的結(jié)果也對(duì)于選擇合適 的遺傳位點(diǎn)來(lái)追溯家譜有很大的參考價(jià)值。專利內(nèi)容本發(fā)明的目的在于提供一種用DNA技術(shù)結(jié)合計(jì)算機(jī)技術(shù)來(lái)追溯家譜和家族分支 發(fā)展歷史的方法,通過(guò)收集和檢測(cè)一個(gè)家族的族人的DNA和用專門的算法對(duì)DNA數(shù)據(jù)進(jìn)行 分析,推算出表示這個(gè)家族的繁衍和分支的樹狀示意圖;數(shù)據(jù)分析可以采用層次聚類算法, 并可以采用一種改進(jìn)的層次聚類算法以得到更接近現(xiàn)實(shí)的家族樹狀示意圖;另外,還可以 將文字記載的信息作為"預(yù)先知識(shí)"定量地與DNA數(shù)據(jù)結(jié)合來(lái)推導(dǎo)家族圖譜。本發(fā)明的目 的是通過(guò)以下的措施來(lái)達(dá)到的首先,從一個(gè)姓氏家族的族人獲取DNA樣品和對(duì)之進(jìn)行檢測(cè)。樣品的收集可以采 用多種方式,包括抽血、刮取口腔上皮、收取唾液等。對(duì)屬于這個(gè)家族的不同村落都應(yīng)收取 DNA樣品,每個(gè)村落都要有多個(gè)代表。若一個(gè)村落已繁衍了數(shù)百年,也應(yīng)當(dāng)對(duì)這村落的家族 主要分支收取DNA樣品。然后,從這些樣品中抽提和純化DNA,再檢測(cè)這些DNA上的遺傳標(biāo) 記,包括STR和SNP等。為獲得主要與姓氏相關(guān)的家族圖譜,可以選擇Y染色體上的DNA遺 傳標(biāo)記位點(diǎn)。如果是分析華人的姓氏家族,可以選取適合東亞人和中國(guó)人的Y染色體STR 位點(diǎn)。現(xiàn)有的法醫(yī)學(xué)文獻(xiàn)(2,3)提供了一組在東亞人和中國(guó)人中多態(tài)性較高,對(duì)于身份鑒 定含有最豐富信息的一組Y染色體STR位點(diǎn)DYS19,兩個(gè)DYS385位點(diǎn),DYS388,DYS389I/ II,DYS390,DYS391,DYS392,DYS393和DXYS156Y。使用這些關(guān)鍵的Y染色體STR來(lái)做華人 家族圖譜的分析,可以以較低的成本獲取較多的與家族繁衍分支相關(guān)的遺傳學(xué)信息。第二步是根據(jù)第一步檢測(cè)出的屬于一個(gè)家族的人的DNA數(shù)據(jù),用專門的建樹算法 進(jìn)行分析,得出代表家族分支和繁衍歷史的家族樹狀示意圖。本發(fā)明提出了用層次聚類算 法(hierarchical clustering)來(lái)做此分析。層次聚類是統(tǒng)計(jì)分析和模式識(shí)別的一種算 法,它通過(guò)分析與每個(gè)個(gè)體(結(jié)點(diǎn))的相關(guān)屬性,將這些個(gè)體歸入內(nèi)部相似的類;層次聚類 的結(jié)果是以樹狀圖表示的等級(jí) 式的分類。在本發(fā)明相關(guān)的應(yīng)用中,個(gè)體(結(jié)點(diǎn))是家族的 族人,其相關(guān)屬性是他們DNA數(shù)據(jù)。在層次聚類過(guò)程中必須計(jì)算個(gè)體之間的距離,然后以這 個(gè)距離為依據(jù)依次將最接近的個(gè)體或類合并成更大的類,直到最后只剩下一個(gè)類。在這步 的分析中,個(gè)體的距離是通過(guò)比較他們的DNA遺傳標(biāo)記上的差異來(lái)計(jì)算的(即遺傳距離), 也就是在所有檢測(cè)的遺傳位點(diǎn)中具有不同的遺傳標(biāo)記的位點(diǎn)總數(shù)。聚類過(guò)程中還要計(jì)算兩個(gè)類之間的距離,這個(gè)距離是屬于第一個(gè)類的個(gè)體與屬于第二個(gè)類的個(gè)體的所有距離的平 均值。本發(fā)明還對(duì)傳統(tǒng)的層次聚類算法作了改進(jìn)以適于推算家族圖譜。傳統(tǒng)的層次聚類 方法每次將兩個(gè)最接近的個(gè)體或類并成更大的一類,因此樹中每個(gè)結(jié)點(diǎn)至多擁有兩個(gè)子結(jié) 點(diǎn)。這種結(jié)構(gòu)與現(xiàn)實(shí)中的家族圖譜并不完全吻合,現(xiàn)實(shí)中家族圖譜中的父結(jié)點(diǎn)應(yīng)該可以有 超過(guò)兩個(gè)的子結(jié)點(diǎn),即一個(gè)祖先可傳下兩個(gè)以上的后代分支。在本發(fā)明提出的改進(jìn)的層次 聚類算法中,每個(gè)結(jié)點(diǎn)可以擁有超過(guò)兩個(gè)子結(jié)點(diǎn)。聚類過(guò)程中,在每一輪將兩個(gè)最接近的個(gè) 體或類合并成一個(gè)新的類之后,這個(gè)新算法還將檢查剩下的個(gè)體和類,如果其中一個(gè)個(gè)體 或類與這個(gè)新形成的類的子結(jié)點(diǎn)的距離都足夠小,則將此個(gè)體或類加入到這個(gè)新形成的類 中。由這個(gè)改進(jìn)了的新算法推算出的家族圖譜將能更直觀和準(zhǔn)確地反映現(xiàn)實(shí)。本發(fā)明還提供一種方法來(lái)將DNA數(shù)據(jù)與文字記載中的信息結(jié)合起來(lái)做層次聚類 以推算家族圖譜。相關(guān)文字記載可以是家譜,地方方志或歷史典籍等。這些記載往往會(huì)提 供關(guān)于某村是從哪遷來(lái)的,與另外哪個(gè)村是同一個(gè)祖宗等等的有用信息。同時(shí),在用DNA數(shù) 據(jù)建立家族圖譜時(shí),會(huì)碰到幾個(gè)分支的距離相同而無(wú)法確定與哪個(gè)分支合并成更大的分支 的情況。在這情況下,層次聚類算法只能任意挑選其中一對(duì)分支來(lái)合并。這時(shí)如果用文字 記載中的信息來(lái)做輔助數(shù)據(jù),就可能可以確定哪兩個(gè)分支之間更近,從而使最終得到的家 族圖譜更符合現(xiàn)實(shí)。不過(guò),DNA數(shù)據(jù)具有完全的客觀性,所以在本發(fā)明中DNA數(shù)據(jù)被賦予更 高權(quán)威,文字?jǐn)?shù)據(jù)作為輔助。本發(fā)明提出的這個(gè)方法的特征為,首先人工閱讀或用軟件比較 家譜等文字記載,找到關(guān)于家族各分支親緣遠(yuǎn)近的信息,然后對(duì)有記載的分支之間給出表 征親緣遠(yuǎn)近的“文獻(xiàn)距離”(比如1-100之間的值),使文字記載上顯示越接近的分支具有 越低的“文獻(xiàn)距離”分?jǐn)?shù);在這步中可以使用文本相似性比較的軟件(如LUCENE)來(lái)比較數(shù) 字化的家譜及匹配各地的家譜,從而協(xié)助給出“文獻(xiàn)距離”分?jǐn)?shù);文獻(xiàn)距離在乘以一個(gè)很小 的權(quán)重(小于文獻(xiàn)距離最大值的倒數(shù))之后,與基于DNA數(shù)據(jù)的遺傳距離相加得出一個(gè)復(fù) 合距離;這個(gè)復(fù)合距離將用于上面所述的層次聚類或改進(jìn)的層次聚類來(lái)推算家族圖譜。上面方法推出的家族圖譜采用了樹狀結(jié)構(gòu)表示家族繁衍,分支和相互間親緣關(guān)系 (見(jiàn)圖2)。這樹狀示意圖告訴人們一個(gè)姓氏家族有哪幾個(gè)主要分支,彼此間相距多遠(yuǎn)。來(lái) 自一個(gè)地方的族人可以從這圖譜了解到另外哪個(gè)地方的族人與他們是最近的親人。這個(gè)結(jié) 果還可以用來(lái)幫助一個(gè)沒(méi)有詳細(xì)家譜的個(gè)人弄清是否來(lái)自此家族,以及最可能來(lái)自于該家 族的哪個(gè)分支。方法是,采用建立該家族圖譜過(guò)程中使用的同一組遺傳位點(diǎn)來(lái)檢測(cè)此受人 的DNA,再用此人的DNA數(shù)據(jù)來(lái)計(jì)算與該家族的各個(gè)分支的平均遺傳距離,遺傳距離最小的 那個(gè)分支就最可能是與這人同宗的分支。如果這個(gè)人與每個(gè)分支的距離都很大,那么這人 應(yīng)該不屬于這個(gè)家族。用進(jìn)化遺傳學(xué)上估算最近共同祖先(MRCA)的方法,還可以從以上的家族樹狀示 意圖估算圖中不同分支的祖先生活的年代。祖先生活的年代對(duì)于研究一個(gè)家族遷移發(fā)展的 歷史是很有幫助的。估算的祖先的年代還可以幫助人們了解兩個(gè)分支從血緣上講是否從一 個(gè)祖宗傳下來(lái)。如果兩分支的DNA相差很大,則估算的最近祖先可能是在很久以前,比如 3000年前,如果已知該姓氏起源于2000年前,那么最有可能的是,這兩個(gè)分支不是由2000 年前的一個(gè)祖宗傳下來(lái),而是有多個(gè)不同起源。這里一個(gè)可能的原因是該家族在歷史上發(fā) 生過(guò)改姓或領(lǐng)養(yǎng)的事件。另外,在中國(guó)歷史上,有很多姓氏出自于小的諸候國(guó),這些小國(guó)里可能所有人都有同一個(gè)姓氏。這也可能是導(dǎo)致一個(gè)姓氏有不同血緣上起源的原因。與單純用文字記載來(lái)研究家譜和尋祖的傳統(tǒng)方法相比,本發(fā)明用DNA數(shù)據(jù)來(lái)追 溯家族繁衍分支的歷史,其使用的數(shù)據(jù)資料(DNA)是完全客觀的,這不僅使沒(méi)有家譜記 載的人或家族追溯祖先和尋找族人成為可能,而且讓遺傳學(xué)上的證據(jù)與文字記載信息可 以相互印證,相互補(bǔ)充。同已有的用DNA遺傳信息研究姓氏家族的方法(比如美國(guó)專利 US7248970B2,見(jiàn)文獻(xiàn)6)比,主要有以下兩個(gè)好處。一、已有方法只是通過(guò)比較DNA樣本來(lái) 預(yù)測(cè)姓氏或了解族人之間血緣相近程度,本發(fā)明則從DNA樣本推算出表示家族繁衍分支的 樹狀示意圖,此樹狀圖的根表示共同祖先,中間結(jié)點(diǎn)則表示各分支的祖先,樹狀圖中的每一 枝表示一個(gè)分支,因此本發(fā)明的結(jié)果提供了更豐富的關(guān)于家族分支的信息。二、本發(fā)明把文 字記載中的相關(guān)信息作為“預(yù)先知識(shí)”引入到由DNA數(shù)據(jù)推算家族樹狀示意圖的過(guò)程中,從 而使推算出的家族圖譜捕捉了更全面的信息且更符合歷史,這是已有的方法中沒(méi)有的。本 發(fā)明提出的改進(jìn)的層次聚類算法與傳統(tǒng)的層次聚類算法比的好處是,改進(jìn)的算法得出的樹 狀圖中一個(gè)祖先可以有多個(gè)后代分支,而傳統(tǒng)的算法只允許兩個(gè)分支,因此由改進(jìn)的算法 得出的結(jié)果更符合現(xiàn)實(shí)的情況。
圖Ia和圖Ib顯示了在實(shí)施例1(見(jiàn)具體實(shí)施方式
)中從Bradley家族獲得的DNA 數(shù)據(jù)。這組數(shù)據(jù)包含了 32個(gè)樣本(個(gè)人)和17個(gè)Y染色體STR遺傳位點(diǎn)。在圖Ia和圖 Ib中,每一行表示一個(gè)樣本,最左邊一欄是樣本代號(hào),左邊第二欄是樣本來(lái)自的地區(qū);每一 列表示一個(gè)STR位點(diǎn),最上邊一欄是STR位點(diǎn)的名稱;表中的數(shù)字表示了每個(gè)人在每個(gè)位點(diǎn) 上的基因型,其中‘X’表示未知。圖2是實(shí)施例1中用Bradley家族的DNA數(shù)據(jù)(圖Ia和圖lb)推算出的家族分 支樹狀示意圖。在圖2中,最底層(最左邊)表示該家族的現(xiàn)在的后代(32個(gè)樣本),上層 表示家族的祖先。圖2中最底層的數(shù)字是樣本代號(hào),它與圖Ia和圖Ib數(shù)據(jù)中的樣本代號(hào) 是一致的,上層的數(shù)字是假定祖先的代號(hào)。圖3是實(shí)施例3 (見(jiàn)具體實(shí)施方式
)中用Bradley家族的DNA數(shù)據(jù)(圖Ia和圖 lb)并引入文字記載的“預(yù)先知識(shí)”推算出的家族分支樹狀示意圖(圖3)。在圖3中,最底 層(最左邊)表示該家族的現(xiàn)在的后代(32個(gè)樣本),上層表示家族的祖先。圖3中最底層 的數(shù)字是樣本代號(hào),與圖Ia和圖Ib數(shù)據(jù)中的樣本代號(hào)是一致的,上層的數(shù)字是假定祖先的 代號(hào)。圖3與圖2大致相同,但在結(jié)點(diǎn)11,22,和23周圍的結(jié)構(gòu)有所不同。
具體實(shí)施例方式以下結(jié)合實(shí)施例具體介紹如何實(shí)施本發(fā)明首先需要獲取一個(gè)同姓家族的族人的DNA樣品。樣品采集的方法有多種, 其中最 簡(jiǎn)易可行的是口腔上皮法,該法只需受試人用棉簽在口腔壁涂抹數(shù)次即可。實(shí)施例1中的 樣品采集就用了這種方法。然后再對(duì)樣品進(jìn)行DNA抽提和純化。這步可用的方法很多,并 且有很多商業(yè)試劑盒可用,比如BD Biosciences公司的Nuleospin試劑盒。 下一步進(jìn)行DNA檢測(cè),可以進(jìn)行包括STR或SNP的多個(gè)遺傳位點(diǎn)的檢測(cè)。本發(fā)明提 出了使用一組在華人中多態(tài)性高的Y染色體STR位點(diǎn)來(lái)做華人家族圖譜的分析以得到高的性價(jià)比。當(dāng)然在實(shí)施本發(fā)明時(shí)也可在這組STR位點(diǎn)之外加入更多的位點(diǎn),或選擇別的遺傳 位點(diǎn)組合。如果選擇了一組STR位點(diǎn),則需要針對(duì)這些位點(diǎn)在DNA上的位置設(shè)計(jì)PCR引物 和熒光標(biāo)記,具體做法可以參照KwakKD等在國(guó)際法醫(yī)學(xué)報(bào)上的文章(2)。要注意的是,在設(shè) 計(jì)熒光標(biāo)記引物時(shí),PCR產(chǎn)物大小結(jié)合不同的熒光標(biāo)記必須能確定所有STR位點(diǎn)的基因型, 即不能有兩種PCR產(chǎn)物是既大小相同又有相同的熒光標(biāo)記。然后使用這PCR引物組對(duì)所有 DNA樣本進(jìn)行PCR,再收集PCR產(chǎn)物用遺傳分析儀作基因分型(2)。檢測(cè)SNP可以用DNA測(cè) 序和PCR的方法,近來(lái)一些高通量快速檢測(cè)SNP的裝置和試劑盒也已出現(xiàn),比如說(shuō)Beckman 公司的 GenomeLab SNPStream 系統(tǒng)。在以上的樣品采集和檢測(cè)之后,就得到了該家族參與測(cè)試人的DNA數(shù)據(jù)。這組數(shù) 據(jù)包括了每個(gè)人的各遺傳位點(diǎn)上的基因型,和由這些基因型組成的單體型(haplotypes)。 這樣的DNA數(shù)據(jù)的例子可以在在實(shí)施例1中找到(圖Ia和圖lb)。實(shí)施例1列出了一組通 過(guò)STR基因分型檢測(cè)得出的一個(gè)家族的人們的多個(gè)Y染色體STR的基因型數(shù)據(jù)。接下來(lái)就可以開始進(jìn)行數(shù)據(jù)分析和層次聚類。在聚類算法中,類就是一組個(gè)體,類 可以是嵌套的,每一個(gè)類可能包含兩個(gè)以上的子類(子結(jié)點(diǎn))。為了表示的方便,以下用Xj 表示一個(gè)用來(lái)進(jìn)行聚類的個(gè)體j,用Cn表示一個(gè)類n,Gi(A)表示個(gè)體A在位點(diǎn)i上的基因 型,D(A,B)表示兩個(gè)個(gè)體或類A與B之間的遺傳距離。首先,通過(guò)比較每個(gè)人在各遺傳位點(diǎn)上的基因型來(lái)計(jì)算所有參與人之間(每一對(duì) 人)的遺傳距離,并得出一個(gè)距離矩陣。兩個(gè)個(gè)人(A和B)之間遺傳距離是這么計(jì)算的對(duì)于一個(gè)遺傳位點(diǎn)i,如果A與B的基因型(Gi)相同,SPGi(A) =Gi⑶,則距離 Di (A,B) = O ;否則 Di (A,B) = 1。A與B的遺傳距離=D (Α, B) = SUM(Di (A,B)),其中i包括所有的遺傳位點(diǎn),SUM() 表示總和。在以下的聚類過(guò)程中也需要計(jì)算兩個(gè)類(兩組人或兩個(gè)分支)之間的距離。這個(gè) 距離的計(jì)算公式是D(C1, C2) =AVE(D(A,B))其中A是C1中的任何一個(gè)個(gè)體,B是C2中的 任何一個(gè)個(gè)體,AVEO表示平均值。接下來(lái),用以上得出的距離矩陣做層次聚類。步驟如下1、一開始,把這組數(shù)據(jù)中的每個(gè)個(gè)體,即該家族的每個(gè)人當(dāng)作一 “類”(結(jié)點(diǎn))。2、根據(jù)距離矩陣找到距離最近的兩個(gè)類(Ca和Cb),并把它們合并成一個(gè)新的類 Cs,使Cs = {Ca,CJ,即讓這兩個(gè)類a和b成為這個(gè)新類s的子類。3、如果采用改進(jìn)的層次聚類,則進(jìn)行此步驟再次檢查這個(gè)新的“類” Cs之外的每 個(gè)類,若其中任何一個(gè)類Cn滿足以下條件Cn不屬于Cs且MAX (D (Cn,Cj))彡MAX (D (Ca,Cb)), 其中 .是Cs中的任何一個(gè)子結(jié)點(diǎn)(類),(;和Cb也是Cs中的任何一個(gè)子結(jié)點(diǎn)(類),ΜΑΧ() 表示最大值,則將Cn加入新形成的類Cs中成為Cs的子結(jié)點(diǎn)。4、用上面所述的方法計(jì)算第2或3步中形成的新類Cs與其他的類之間的距離。5、重復(fù)第2步至第4步,直到所有的個(gè)體都被歸入一個(gè)類。從上面可以看到,改進(jìn)的層次聚類與傳統(tǒng)的層次聚類相比,增加了一個(gè)步驟,即上 面的第3步。在實(shí)施例1中,我們用同一家族的一組Y染色體STR數(shù)據(jù)進(jìn)行以上描述的改進(jìn)的 層次聚類,得到了一個(gè)家族樹狀示意圖(圖2)。
如果一個(gè)家族擁有相關(guān)的文字記載(家譜,地方方志,或歷史典籍等),并且這些 記載記錄了該家族繁衍遷移的有用信息,我們可以將這些“預(yù)先知識(shí)”用定量的方法引入到 以上的層次聚類中,以使家族圖譜的結(jié)果更加符合現(xiàn)實(shí)情況.以下是具體做法。首先利用文字記載中關(guān)于該家族各分支親緣遠(yuǎn)近的信息,給出表征家族各分支間 親緣遠(yuǎn)近的“文獻(xiàn)距離”(比如一個(gè)1-100之間的值),決定文獻(xiàn)距離值的原則是,文字記載 顯示越接近的分支之間應(yīng)具有越低的“文獻(xiàn)距離”分?jǐn)?shù)。下面用DW(A,B)表示村子A的族 人和村子B的族人之間的文獻(xiàn)距離。如果文字記載上無(wú)法找到A村與B村是什么樣的關(guān)系, 我們可以給出一個(gè)中等分?jǐn)?shù),比如讓DW(A,B) = 50 ;如果文字記載記錄了 C村和D村在近 代才分開的,則可以打很低分,比如讓DW(C,D) = 10 ;如果文字記載表明Y村和Z村的血緣 是不同,則可打高分,如DW(Y,Z) =90。這文獻(xiàn)距離的具體數(shù)值對(duì)于后面的聚類分析并不重 要,但它們之間的大小關(guān)系是重要的。另外,也可以使用計(jì)算機(jī)軟件來(lái)協(xié)助給出“文獻(xiàn)距離” 分?jǐn)?shù)。比如,可以使用文本相似性比較的軟件(如LUCENE)來(lái)分析已經(jīng)數(shù)字化的家譜,匹配 各地的家譜,找出類似的家譜,或者找出在兩個(gè)不同的家譜中重復(fù)出現(xiàn)的關(guān)鍵詞或地名。分 析人員可以用軟件分析的初步結(jié)果作為關(guān)鍵信息來(lái)打出文獻(xiàn)距離分?jǐn)?shù),從而節(jié)省了時(shí)間和 減少人為誤差。文獻(xiàn)距離將以一個(gè)很小的權(quán)重與遺傳距離相加得出一個(gè)復(fù)合距離。下面用DF(A, B)表示這個(gè)復(fù)合距離,W表示權(quán)重。由于DNA數(shù)據(jù)更具有的客觀性,我們讓文獻(xiàn)距離的權(quán)重 很小,要滿足以下條件MAX(DW(A,B)) Xff < 1,這樣就保證了文獻(xiàn)距離的影響總是比任何 遺傳距離小。復(fù)合距離的計(jì)算公式為DF(A,B) = Dff (A, B) Xff+D(A, B)。用這個(gè)復(fù)合距離 的距離矩陣可以進(jìn)行以上描述的層次聚類,來(lái)推算出考慮了 DNA數(shù)據(jù)和文字記載兩種信息 的家族圖譜。在實(shí)施例2中,我們舉例說(shuō)明了怎樣用真實(shí)的中國(guó)人的家譜來(lái)打“文獻(xiàn)距離”分 數(shù)。在實(shí)施例3中,我們舉例說(shuō)明了怎樣加入“文獻(xiàn)距離”的數(shù)據(jù)來(lái)推算家族圖譜,結(jié)果見(jiàn) 圖3。以下再介紹怎樣應(yīng)用這家族圖譜結(jié)果。在得到一個(gè)家族樹狀示意圖之后,我們可以從中了解到一個(gè)姓氏家族有哪幾個(gè)主 要分支和彼此間是什么樣的關(guān)系。從圖2和圖3中可以看到,我們得到的家族圖譜是非常 直觀的。在實(shí)施例1和3中,我們顯示了如何從這樣的家族圖譜得到有用信息。另外,這個(gè) 結(jié)果還可以用來(lái)幫助個(gè)人追溯家譜,弄清自己與此家族的及各分支的淵源?;谝陨系贸龅募易鍢錉钍疽鈭D,我們還可以用進(jìn)化遺傳學(xué)上估算最近共同祖 先(MRCA)的方法估算各分支的祖先生活的年代。在家族樹狀示意圖上,一個(gè)亞樹結(jié)構(gòu)表 示一個(gè)分支,而這個(gè)亞樹頂端的結(jié)點(diǎn)表示這分支的祖先。首先我們估計(jì)這個(gè)祖先的基因 型,常用方法包括采用后代中最常見(jiàn)的基因型作為祖先的基因型,及最大簡(jiǎn)約法(Maximal Parsimony),并且有一些現(xiàn)成的程序(如PHYLIP和PAML)可做這種計(jì)算。然后,我們可以 計(jì)算出由一個(gè)共同祖先到該家族或分支的后代累積的遺傳突變總數(shù)(該亞樹內(nèi)遺傳距離的總和),再用科學(xué)文獻(xiàn)中提供的遺傳位點(diǎn)突變率,估算這祖先的距今的年代(4)。通過(guò)估 算各分支祖先生活的年代,我們可以了解該姓氏家族是否有同一個(gè)的祖宗。如果估算的祖 先生活的年代比記載的該姓氏的起始年代還要早,則說(shuō)明這個(gè)姓氏家族在血緣上有不同起 源。實(shí)施例1
以下用從一個(gè)愛(ài)爾蘭姓氏(Bradley)家族收集的DNA數(shù)據(jù)來(lái)具體闡述本發(fā)明的實(shí)施。我們使用本發(fā)明的方法推算出了表現(xiàn)該家族分支的樹狀示意圖。Bradley姓氏主要分布在愛(ài)爾蘭的Ulster、Munster、Leinster等地區(qū)。DNA樣品 是從這些地區(qū)的Bradley家族的男性收集的。樣品采集采用了前面所述的口腔上皮法。DNA 在抽提和純化之后,使用了如前所述的熒光標(biāo)記引物的PCR方法來(lái)進(jìn)行檢測(cè)。在檢測(cè)該家 族的人的DNA時(shí),采用了一組較適合歐洲人的Y染色體STR遺傳位點(diǎn)(見(jiàn)圖Ia和圖lb)。檢 測(cè)之后得到了該家族的一組包含32個(gè)樣本(個(gè)人),17個(gè)Y染色體STR遺傳位點(diǎn)的DNA數(shù) 據(jù)(圖Ia和圖lb)。這組數(shù)據(jù)可以從以下網(wǎng)址獲得:http://www. gen. tcd. ie/molpopgen/ resources, php我們用本發(fā)明的提供的分析方法對(duì)Bradley家族的DNA數(shù)據(jù)進(jìn)行了分析。我們采 用本發(fā)明提出的改進(jìn)的層次聚類方法推算出了 Bradley家族的樹狀家族示意圖(圖2)。從這個(gè)家族圖譜我們可以了解到Bradley家族是怎么分支的。該家族有一個(gè)大的 分支(從結(jié)點(diǎn)54往下的亞樹)及兩個(gè)較小的分支(結(jié)點(diǎn)33往下的亞樹和51往下的亞樹), 而那個(gè)大的分支下又有兩個(gè)主要的分支(48往下的亞樹和52往下的亞樹)。在該圖譜中有 一些結(jié)點(diǎn)具有超過(guò)兩個(gè)以上的子結(jié)點(diǎn),比如,結(jié)點(diǎn)32有6個(gè)子結(jié)點(diǎn),結(jié)點(diǎn)33有3個(gè)子結(jié)點(diǎn)。 這表明改進(jìn)的層次聚類算法可以將多個(gè)彼此之間非常接近的類(或個(gè)體)聚成一個(gè)單個(gè)的 類,與此形成對(duì)照的是,用傳統(tǒng)的層次聚類算法一次只能將兩個(gè)類或個(gè)體聚成一類,因此會(huì) 把這些彼此非常接近的類或個(gè)體分成多個(gè)類。用改進(jìn)的層次聚類算法得出的家族圖譜能更 直觀和合理地表示家族的分支。從上面得到的樹狀家族圖譜我們估算了該家族的最近共同祖先(MRCA)。我們采用 T Saillard J等的方法(4) ^P Zhivotovsky L等估算的Y染色體STR的突變率(5)。我們 估計(jì)該家族祖先生活的年代距今約800年。根據(jù)記載,愛(ài)爾蘭人的姓氏形成的年代一般在 公元900至1200,這與我們估計(jì)的Bradley家族祖先的年代一致。因此,本發(fā)明的方法估計(jì) 出該姓氏家族很可能是有單個(gè)起源的。這與關(guān)于愛(ài)爾蘭的Bradley姓氏起源于古代居住在 Ulster區(qū)域的一個(gè)愛(ài)爾蘭宗族(0' Brollachain)的記載是符合的。因此,在此實(shí)施例中, 本發(fā)明的方法準(zhǔn)確地估算出了家族歷史。以上的DNA樣本檢測(cè)采用了一組較適合歐洲人的Y染色體STR遺傳位點(diǎn)。如果分 析華人的姓氏家族,則應(yīng)該使用一組適合東亞人的遺傳位點(diǎn)。實(shí)施例2 這里用一些中國(guó)人姓氏家族的文字資料(家譜)來(lái)具體說(shuō)明怎樣估計(jì)“文獻(xiàn)距
離”
ο廣東潮州的王氏有如下記載“王審知四傳至王坦,初居泉州開元寺巷,后由泉州 徒居廣東潮州,是為‘王氏潮州祖’。”關(guān)于福建王氏,有以下歷史資料“開閩王氏是指入閩三王廣武王——王潮、武 肅王——王審邦、忠懿王——王審知和福州守城都督——王彥復(fù)的后裔家族集團(tuán),其先源 是瑯琊王氏流脈,蜚聲于東南沿海和東南亞國(guó)家,地區(qū)的一個(gè)龐大家族集團(tuán)的‘開閩王氏’, 而忠懿王王審知又被世人尊稱其為‘開閩第一’,包涵著如此豐富的家族歷史,故瑯琊是其 郡,開閩是其望;其家族的稱謂即是瑯琊郡開閩王氏,堂號(hào)——開閩第一?!鄙綎|瑯琊王氏有如下記載“離公之長(zhǎng)子元公,避禍遷山東瑯琊,是為‘王氏瑯琊祖’。元公四傳至吉公,字子陽(yáng),初仕漢昌邑王劉賀,為中尉。昌邑王日以淫亂為樂(lè),不理政 事,吉公屢上疏諫爭(zhēng)。昭、宣二帝時(shí),吉公均被拜為諫議大夫,匡救時(shí)弊,裨益甚多。初家于 皋虞,致仕后徒居臨沂都鄉(xiāng)南仁里,是為瑯琊王氏‘臨沂祖’。"以上三種家譜及歷史資料告訴我們,潮州王氏是從福建的開閩王氏(王審知)傳 下的,而開閩王氏是由山東瑯琊王氏分出的一支。根據(jù)這些資料我們就可以打出這三地的 王氏之間的“文獻(xiàn)距離”。以下用A代表瑯琊王氏,B代表開閩王氏,C代表潮州王氏。對(duì)于 所有沒(méi)有相關(guān)記載的,我們可以給一個(gè)中等“文獻(xiàn)距離”值Dff(I, J) = 50對(duì)于以上三地的王氏Dff (A, B) = 40Dff (A, C) = 40Dff (B, C) = 30用這些“文獻(xiàn)距離”的值就可以按本發(fā)明所述的方法,與DNA數(shù)據(jù)結(jié)合推算出表示 王氏家族的繁衍分支過(guò)程的家族樹狀示意圖。這樣的結(jié)果是建立在最客觀的DNA證據(jù)基礎(chǔ) 上,同時(shí)也結(jié)合了已有的知識(shí),因此應(yīng)當(dāng)是較準(zhǔn)確的。實(shí)施例3:這里我們舉例說(shuō)明引入"文獻(xiàn)距離"怎樣能幫助推算家族樹狀圖。由于沒(méi)有系統(tǒng) 的華人家族DNA數(shù)據(jù),我們還無(wú)法用實(shí)施例2得出的“文獻(xiàn)距離”結(jié)合DNA數(shù)據(jù)來(lái)推算王氏 的家族圖譜。我們使用了實(shí)施例1中的Bradley家族的DNA數(shù)據(jù)(見(jiàn)圖Ia和圖lb)和一 些假定的“文獻(xiàn)距離”來(lái)組成一個(gè)例子,以闡述此方法。但該方法適于任何有DNA數(shù)據(jù)和相 關(guān)文字記載的家族。在Bradley家族的例子(圖Ia和圖lb)中,假設(shè)我們從文字記載中了解到代號(hào)11 的個(gè)體(來(lái)自Ulster)與23 (來(lái)自Ulster)的親緣關(guān)系很近,而13與22 (來(lái)自Ulster)的 親緣程度及22與23的親緣程度都較遠(yuǎn)。而且,在圖Ia和圖Ib中可看到,由11,22與23 之間的遺傳距離無(wú)法確定哪兩個(gè)之間較接近,因?yàn)镈 (11,22) = D (11,23) = D (22,23) = 1因此,從文字記載中得到的信息可以幫我們確定哪兩個(gè)最接近。假設(shè)根據(jù)從資料 中得到的信息,我們可以以0-100的尺度給出“文獻(xiàn)距離”Dff (22, 23) = 70Dffdl,22) = 70DW (11,23) = 10剩下的文獻(xiàn)距離都設(shè)為50。我們?cè)儋x予文獻(xiàn)距離一個(gè)很小的權(quán)重W = 0. 001來(lái) 計(jì)算遺傳距離與文獻(xiàn)距離合并得到的復(fù)合距離,并用此復(fù)合距離來(lái)做層次聚類,推算出考 慮了文字記載信息的家族圖譜(圖3)。將圖3與圖2比較可以發(fā)現(xiàn),在引入了文字記載的 “預(yù)先知識(shí)”后,推算出的家族樹狀示意圖的結(jié)構(gòu)做了一些調(diào)整,特別是在11,22和23周圍 的亞樹結(jié)構(gòu)。在未引入文字記載的信息前(圖2),11和22在第二層被歸為一類,在引入文 字記載信息之后(圖3),11和23被歸為一類。由此可見(jiàn),引入文字記載的“預(yù)先知識(shí)”來(lái) 作為DNA數(shù)據(jù)之外的輔助信息以推算家族圖譜是有效的。參考文獻(xiàn)
1. Wen B, Li H, Lu Daru, et al. Genetic evidence supports demic diffusion of Han culture. Nature,2004,431 :302_3052.Kwak KD,Jin HJ,Shin DJ,et al.Y-chromosomal STR haplotypes and their applications to forensic and population studies in east Asia. International Journal of Legal Medicine. 2005,119 :195_20L3. Butler JM, Schoske R, Vallone PM, et al. A novel multiplex for simultaneous amplication of 20Y chromosome STR markers.Forensic Science International,2002,129 10-24.4.Saillard J,Forster P,Lynnerup N,Bandelt H,and Norby S. mtDNA Variation among Greenland Eskimos :The Edge of the Beringian Expansion. American Journal of Human Genetics. 67 :718_726,2000.5.Zhivotovsky LA,Underhi11 PA,Cinnioglu C, et al. The effective mutation rate at Y chromosome Short Tandem Repeats, with application to human population-devergence time. American Journal of Human Genetics. 74 :50_61,2004.6Forensic and Genealogical Test,專利號(hào)US7248970B2,授權(quán)國(guó)美國(guó),公布日 期2007年7月24日.
權(quán)利要求
一種從一組人的DNA遺傳信息來(lái)推導(dǎo)一個(gè)家族或姓氏的分支歷史和各分支親緣關(guān)系,和用個(gè)人的DNA來(lái)尋找與其親緣關(guān)系最近的家族分支的方法,其特征在于,從一個(gè)家族或姓氏的人中采集DNA樣品并檢測(cè)他們的DNA遺傳標(biāo)記,其中包括但不限于短串聯(lián)重復(fù)序列(STR)和單核苷酸多態(tài)性(SNP),然后用這些DNA數(shù)據(jù),通過(guò)建樹算法,建立起樹狀示意圖來(lái)描述這家族的分支(家族圖譜),并可以把個(gè)人的DNA信息與此樹狀示意圖的各級(jí)亞樹進(jìn)行比較,以找到與此人最近的分支。
2.如權(quán)利要求1所述的方法,其特征在于,采用在中國(guó)人中多態(tài)性較高的一組Y染色 體 STR(DYS19,兩個(gè) DYS385 位點(diǎn),DYS388, DYS389I/II, DYS390, DYS391, DYS392, DYS393 和 DXYS 156Y),來(lái)對(duì)華人姓氏家族進(jìn)行檢測(cè)分析,以推算家族圖譜。
3.一種利用DNA遺傳信息來(lái)建立表示一組人親緣遠(yuǎn)近關(guān)系的樹狀示意圖的建樹算法, 其特征在于,利用層次聚類方法來(lái)建樹,并以兩個(gè)體的DNA樣本在一組遺傳標(biāo)記中差異的 數(shù)目多少(遺傳距離),來(lái)決定兩個(gè)個(gè)體的距離。
4.如權(quán)利要求3所述方法,其特征在于,為了使建樹算法更適合于建立家族樹狀示意 圖,改進(jìn)了層次聚類算法,允許所建的樹中的結(jié)點(diǎn)擁有超過(guò)兩個(gè)子結(jié)點(diǎn),而傳統(tǒng)層次聚類只 允許兩個(gè)子結(jié)點(diǎn)。
5.如權(quán)利要求3或4所述方法,其特征在于,在DNA數(shù)據(jù)之外,引入了文字記載信息(包 括但不限于家譜和歷史地理資料)來(lái)建立家族樹狀示意圖,根據(jù)文字記載信息中描述的家 族各分支的關(guān)系遠(yuǎn)近給相關(guān)個(gè)體之間打出“文獻(xiàn)距離”分?jǐn)?shù),再將“文獻(xiàn)距離”與遺傳距離綜 合起來(lái)計(jì)算結(jié)點(diǎn)間的距離;文獻(xiàn)距離具有比遺傳距離更小的權(quán)威性,因此被賦予一個(gè)更小 的權(quán)重(小于文獻(xiàn)距離最大值的倒數(shù));建樹過(guò)程中,在DNA無(wú)法確定哪兩個(gè)分支更近時(shí), 文字記載信息用來(lái)確定誰(shuí)與誰(shuí)更接近。
6.如權(quán)利要求1或2所述方法,其特征在于,應(yīng)用權(quán)利要求3、4或5所述的建樹算法來(lái) 建立表示家族分支的樹狀示意圖。
全文摘要
本發(fā)明提供了一種從一個(gè)家族人的DNA遺傳信息來(lái)推算該家族的分支歷史和各分支間親緣關(guān)系的方法。首先從一個(gè)家族的人中采集DNA樣品并檢測(cè)他們的DNA遺傳標(biāo)記,然后用這些DNA數(shù)據(jù),通過(guò)建樹算法,建立起樹狀示意圖來(lái)描述這家族的分支,并利用這個(gè)家族樹狀示意圖幫助個(gè)人用DNA來(lái)尋找與其親緣關(guān)系最近的家族分支。本發(fā)明提出用一種基于層次聚類的建樹算法來(lái)建立家族樹狀示意圖,并對(duì)傳統(tǒng)的層次聚類算法進(jìn)行了改進(jìn),使之適合于表征一個(gè)祖先有多個(gè)后代分支的情況。本發(fā)明還提供一種將文字記載的信息定量地與DNA數(shù)據(jù)結(jié)合來(lái)推導(dǎo)家族圖譜的方法。本發(fā)明可以幫助人們用遺傳信息追溯家譜和了解一個(gè)姓氏在各地的親源關(guān)系,以及幫助家譜記載不詳?shù)娜嘶蚣易鍖びH問(wèn)祖。
文檔編號(hào)G06F19/00GK101988119SQ20091006998
公開日2011年3月23日 申請(qǐng)日期2009年7月31日 優(yōu)先權(quán)日2009年7月31日
發(fā)明者劉曉明, 周軍, 孫朝輝 申請(qǐng)人:劉曉明;周軍