專利名稱:用于譜dna分析的方法
技術領域:
本發(fā)明涉及一種用于執(zhí)行譜DNA分析的方法,即使用傅立葉變換在譜空間中表示 DNA序列。本發(fā)明還涉及一種對應的計算機程序產(chǎn)品。
背景技術:
過去已經(jīng)描述了根據(jù)DNA序列的DNA譜圖方法,對于該主題的早期參考,參看 Benson ^f X^] Nucleic Acid Research.中 18 Ql),ρ· 6305-6310 和 18 (10),3001-3006, 1990。通過將DNA序列轉換為二進制指示符(indicator)序列并且然后應用短時傅立葉 變換且映射到顏色空間以便使輸出可視化來生成DNA譜圖。為了允許頻域中大量長序列的 系統(tǒng)發(fā)育學的和生物學的比較,這些序列需要被可視化,以使得相似性是可(容易)檢測的, 甚至可被人類觀察者檢測。因此,需要將具有相似的頻率圖案(pattern)的序列聚集在一 起的策略。在譜域中執(zhí)行DNA分析的一個重要優(yōu)點在于,避免了常規(guī)的序列到匹配序列的 N2-縮放(scaling),N是序列中核苷酸堿基的數(shù)量。US6,287,773公開了例如一種基于頻 域的比較方法,其規(guī)模為(scale as) Nlog (N),這可以非常顯著地降低針對長序列的計算 時間,所述長序列例如長于10000個核苷酸堿基。即使利用本用于DNA分析的譜分析的優(yōu)點,仍然需要甚至更快和/或更高效的 分析工具,因為數(shù)據(jù)量巨大。例如,人類基因組的完整染色體1是2. 47億核苷酸長,并 且相應地作為(如最近由 N. Dimitrova 等人的"Analysis and visualization of DNA spectrograms: open possibilities for genome research,,,in ACM MM. , Santa Barbara, CA, Oct. 2006建議的)所謂的譜視頻(spectra video)來觀看DNA譜圖也可能 是冗長的任務。而且,盡管迄今為止進行了許多努力,但是仍然需要用于方便迅速分析DNA序列 信息的系統(tǒng)和方法。而且仍然需要可以識別展示出相似譜特性的在結構上或組成上相似的 圖案的工具。這樣的工具將與設法以線性次序或通過核苷酸外觀(appearance)比對序列 的常規(guī)的序列比對工具形成對照。當前用于序列比對的聚類算法不適合譜分析,在譜分析中我們需要分析各個頻率 處的內(nèi)容。標準的聚類方法包括全局距離度量(glcAal distance metric),在這種情況下 其將被應用在譜圖中所考慮的所有頻率上。盡管這種方法將能夠檢測許多頻率中的強圖 案,但是它將篩選出在各個頻率中的強圖案。然而,在不同頻率上的圖案之間沒有關系以在 單個距離度量中考慮它們。在譜分析中,各單個頻率上的強(長)圖案是相關的。因此,一種用于分析DNA序列的改進的方法將是有利的,并且特別是一種更高效 的和/或可靠的方法將是有利的。
發(fā)明內(nèi)容
因此,本發(fā)明優(yōu)選地設法單獨地或任意組合地減輕、緩和或消除上面所提及的缺 點的一個或多個。特別地,可以看作本發(fā)明的一個目的的是,提供一種解決上面提及的現(xiàn)有 技術的分析DNA序列的問題的方法。在本發(fā)明的第一方面,該目的和若干其他目的通過提供一種用于分析DNA序列的 方法獲得,所述方法包括
-提供DNA序列,
-基于所述DNA序列通過將DNA序列轉換為多個二進制指示符序列并將短期傅立葉變 換(STFT)應用在所述二進制指示符序列上來創(chuàng)建多個譜,每個譜包括對應的頻率(k)和傅 立葉系數(shù)(Usk_X(k)),其中每種傅立葉系數(shù)構成通道(X),
-對于適用于相對于一個或多個通道(X)的傅立葉系數(shù)(Usk_x(k))的頻率(K’)定義 裝箱函數(shù)(BF),
-將裝箱函數(shù)(BF)應用在多個譜的至少一部分上并且由此修改對應的傅立葉系數(shù) ⑶sk_X(k)),以及
-在所述多個譜的所述部分內(nèi)發(fā)現(xiàn)基本相等的修改的傅立葉系數(shù)(Usk_X(k))。本發(fā)明特別地但非排他地有利于獲得用于向用戶提供在大量的DNA序列數(shù)據(jù)中看 到獨特的強圖案的改進很大的能力的方法。進一步可能的是,提取圖案的強度并評估在單個 頻率或一組頻率上哪一個是最強圖案或評估DNA序列中的所有頻率上的所有圖案來分析。本發(fā)明可以有利地利用對所有DNA譜的全自動或半自動圖案搜索結合注釋和/或 可視化環(huán)境來實現(xiàn)。裝箱函數(shù)(BF)的使用可以允許靈活測量“相似性”,其可以被調(diào)適于(adapted to) 數(shù)據(jù)集以便檢測所有相關圖案,從而對付DNA序列中的變化。此外,本發(fā)明是可擴展的(scalable)并且適合于并行實現(xiàn),所述并行實現(xiàn)使得搜 索大基因組數(shù)據(jù)空間(例如不同物種的基因組)變得可行。該方法可以基于多個大基因組序列的譜圖案來高效地和有效地比較這些基因組 序列以便導出基因同源性并且因此導出系統(tǒng)發(fā)育學關系。各序列中的共同譜圖案可以例如標識所述序列中的核苷酸周期性重復并且將幫 助在編碼和非編碼DNA中發(fā)現(xiàn)新穎的重復元素(element),否則所述新穎的重復元素可能 不“可見”,這歸因于在周期性間隔中隨機排列的核苷酸之后僅特定的核苷酸的周期性。在本發(fā)明的上下文中,也可以有利地應用其他用于譜分析的方法,例如PCT申請 PH008112W01 (律師參考號)、IB2008/051434 (PCT申請?zhí)?中描述的方法。所述裝箱函數(shù)可以包括截取、上舍入、下舍入、模函數(shù)和/或閾值函數(shù),或技術人 員可獲得的可以結合本發(fā)明實現(xiàn)的任何其他相關的裝箱函數(shù)。典型地,裝箱函數(shù)(BF)針對所有通道(X)而被定義。因此,對于DNA,可以修改通 道X= {A,T, C和G},但是可替代地,僅通道的子集可以依賴于分析的要求得以修改。有利地,在所述多個譜的所述部分內(nèi)發(fā)現(xiàn)基本相等的修改的傅立葉系數(shù)(Usk_ X(k))可以包括定量分析修改的傅立葉系數(shù)(Usk_X(k))相對于所述裝箱函數(shù)(BF)的分布。 因此,它可以包括繪制所述分布,例如以將在下文中更詳細地解釋的柱狀圖繪制,或以其他 類型的圖繪制。
典型地,依賴于期望的分析的要求,針對一組頻率(K_i),例如所有頻率,或間隔, 連續(xù)或不連續(xù)地(即分開)重復所述方法。應當注意,所述方法同樣可以應用于分析RNA序列或氨基酸序列而不是DNA序列。 本發(fā)明的應用因此不限于關于DNA序列的分析的應用,而是也可以應用在在生物化學內(nèi)相 關(relevance)的相似序列(例如RNA序列和氨基酸序列)上。我們可以創(chuàng)建用于氨基酸(其中20種)的二進制指示符表示,并且隨后我們應用 STFT以將BIS序列轉換為傅立葉域空間。隨后,用于實現(xiàn)本發(fā)明的其余過程將是相同的。 這里是氨基酸的列表
丙氨酸-ala - A 精氨酸-arg - R 天門冬酰胺-asn - N 天門冬氨酸-asp - D
半胱氨酸-cys-谷氨酰胺-gin-谷氨酸-glu -E甘氨酸-gly -G組氨酸-his -H異白氨酸-ile-白氨酸-leu -L賴氨酸-Iys -K蛋氨酸-met -M苯丙氨酸-phe-脯氨酸-pro -P絲氨酸-ser -S蘇氨酸-thr -T色氨酸-trp -W酪氨酸-tyr -Y纈氨酸-val -V
這20種不同的氨基酸可以被映射到紅-綠-藍(RGB)(或色調(diào)飽和度值-HSV空間)中 的20種不同顏色。這些空間中任一種可以被量化為20種顏色-每種氨基酸一個顏色。因 此,本發(fā)明的教導不限于DNA分析,而是可以利用本領域技術人員容易認識到的相關修改 而擴展到RNA和氨基酸分析。優(yōu)選地,使用合并函數(shù)可以將二進制指示符序列的集合減小到BIS的更小集合, 該合并函數(shù)可以優(yōu)選地包括邏輯AND函數(shù)。在所述多個譜的所述部分內(nèi)所發(fā)現(xiàn)的基本相等的修改的傅立葉系數(shù)(Usk_X(k)) 的集合可被定義為構成圖案。在一個實施例中,在任何頻率和/或通道中具有基本相等的 修改的傅立葉系數(shù)(Usk_X(k))的最大集合的第一組譜(S)可被發(fā)現(xiàn)并且與剩余譜分離,剩 余譜形成第二組譜。術語“最大集合”的意思是具有最高數(shù)量的重新發(fā)生的修改的傅立葉 系數(shù)的集群(collective group)。此外,基本相等的修改的傅立葉系數(shù)(Usk_X(k))的最大集合可在第二組譜內(nèi)被發(fā)現(xiàn)并且被分離。而且,譜分離為第一和第二組譜可以重復進行,忽 視先前發(fā)現(xiàn)的修改的傅立葉系數(shù)(Usk_X(k))的最長集合,從而發(fā)現(xiàn)下一個最長集合??梢?重復將譜分離為第一和第二組的操作i)直到發(fā)現(xiàn)修改的傅立葉系數(shù)(Usk_X(k))的最長 集合的預定義閾值為止,ii)直到執(zhí)行了預定義次數(shù)的將譜分離為第一和第二組譜的操作 為止,或iii)直到第一和/或第二組譜包含單個序列為止,以便提供所述分離的結束。在另一個實施例中,在任何頻率和/或通道中具有基本相等的修改的傅立葉系數(shù) (Usk_X(k))的最大集合的第一組譜(S)可被發(fā)現(xiàn)并被做標記。所述集合可以優(yōu)選地被顯示 以供分析。而且,在任何頻率和/或通道中具有基本相等的修改的傅立葉系數(shù)(Usk_X(k)) 的最大集合的第二組譜可被發(fā)現(xiàn)并被做標記,忽視先前發(fā)現(xiàn)的修改的傅立葉系數(shù)(Usk_ X(k))的最長集合。所述集合優(yōu)選地也可以被顯示給用戶以供分析。此外,第一組和/或下 一組譜可被重排序并且優(yōu)選地被顯示,其中考慮所述標記。這樣,在任何頻率和/或通道中 最長的圖案可被發(fā)現(xiàn)。最后,所述最長集合可被發(fā)現(xiàn)并且這組譜可被重排序i)直到修改 的傅立葉系數(shù)(Usk_X(k))的最長集合的長度的預定義閾值被發(fā)現(xiàn)為止,ii)直到預定義數(shù) 量的最長集合被發(fā)現(xiàn)為止,或iii)直到最長集合包含單個序列為止,以便提供該實施例的 過程的結束。在又一個實施例中,所發(fā)現(xiàn)的修改的傅立葉系數(shù)(Usk_X(k))的圖案的長度超出第 一預定義閾值(N_thresl)的所有組譜(S)或包含k個最長圖案(k是整數(shù))的所有組譜可被 發(fā)現(xiàn)并且與剩余譜分離,剩余譜形成第二組譜。所選的各組譜不必是分開的??梢允褂糜糜?修改的傅立葉系數(shù)(Usk_X(k))的圖案的長度的第二預定義閾值(N_thres2)或使用j個最 長圖案(j是等于或不同于k的整數(shù))來進一步分離這樣分離的每個組譜。為了提供所述分 離的結束,譜分離為各組的操作可被重復進行i)直到修改的傅立葉系數(shù)(Usk_X(k))的圖 案的長度的預定義閾值被發(fā)現(xiàn)為止,ii)直到執(zhí)行了預定義次數(shù)的分離為第一和第二組譜 的操作為止,或iii)直到第一和/或第二組譜包含長度等于1的修改的傅立葉系數(shù)(Usk_ X(k))的序列為止。在第二方面,本發(fā)明涉及一種適于使得包括至少一個計算機的計算機系統(tǒng)能夠實 現(xiàn)根據(jù)本發(fā)明的第一方面的方法的計算機程序產(chǎn)品。本發(fā)明的該方面特別地但非排他地有利于本發(fā)明可以通過使得計算機系統(tǒng)能夠 執(zhí)行本發(fā)明第二方面的操作的計算機程序產(chǎn)品來實現(xiàn)。因此,預期通過在計算機系統(tǒng)上安 裝控制所述光學記錄裝置的計算機程序產(chǎn)品來改變一些已知的計算機系統(tǒng)以根據(jù)本發(fā)明 進行操作。這種計算機程序產(chǎn)品可以在任何種類的計算機可讀介質(zhì)(例如基于磁性的或光 學的介質(zhì))上提供或通過基于計算機的網(wǎng)絡(例如因特網(wǎng))提供。本發(fā)明可以以包括硬件、軟件、固件或這些的任意組合的任何適當形式來實現(xiàn)。本 發(fā)明或本發(fā)明的一些特征可以被實現(xiàn)為運行在一個或多個數(shù)據(jù)處理器和/或數(shù)字信號處 理器上的計算機軟件。本發(fā)明的實施例的元件和組件在物理上、功能上和邏輯上可以以任 何適當?shù)姆绞綄崿F(xiàn)。事實上,所述功能可在單個單元、多個單元中實現(xiàn)或實現(xiàn)為其他功能單 元的一部分。同樣,本發(fā)明可以單個單元中實現(xiàn),或者可以在物理上和功能上分布在不同的 單元和處理器中。本發(fā)明的這些和其他方面將根據(jù)下文描述的實施例而清楚并且參照這些實施例 而被闡明。^0χ.,.ΑΝ/2] + 1 I=A' T' c,
或 G (1)
如圖3所示,序列U[k]提供在頻率k處的頻率內(nèi)容(frequency content)的度量,其 等于N/k個樣本的基礎(underlying)周期。N是窗口 W中的核苷酸堿基的總數(shù),參看圖5 和圖6。堿基的數(shù)量可以是最多300個核苷酸堿基,優(yōu)選地為最多500個堿基,或者甚至更 優(yōu)選地為700個核苷酸堿基??商娲兀鲋芷诳梢宰疃酁?000個核苷酸堿基,優(yōu)選地 為最多5000個核苷酸堿基,或者甚至更優(yōu)選地為最多10000個核苷酸堿基。
現(xiàn)在將參照附圖僅通過實例解釋本發(fā)明,在附圖中 圖1是示范性二進制序列(BIS)圖案,
圖2是四個核苷酸堿基A、T、C和G的來自圖1的對應的BIS圖案的圖, 圖3是每個堿基的轉換的頻譜,
圖4與圖3相似,并且在右邊指示出,獲得了被相應核苷酸堿基的頻率分量的大小加權 的顏色映射向量的疊加,
圖5示意性示出從DNA序列的一部分的短時傅立葉變換(STFT)生成單個、彩色譜,
圖6與圖5相似,并且示出通過沿DNA序列重復進行STFT來生成多個譜,
圖7是根據(jù)本發(fā)明的裝箱函數(shù)(BF)的應用的原理草圖,
圖8是根據(jù)本發(fā)明的在各個頻率處的譜的示意圖,
圖9是與圖8相似的圖,其示出根據(jù)本發(fā)明的裝箱函數(shù)(BF),
圖10是與圖8相似的圖,其示出根據(jù)本發(fā)明的另一個裝箱函數(shù)(BF’),
圖11是與圖8相似的圖,其示意性示出裝箱函數(shù)的應用并繪制為根據(jù)本發(fā)明的柱狀
圖,
圖12和圖13示出根據(jù)本發(fā)明的所謂的自頂向下的層次分類(TDHS)的實例, 圖14和圖15示出根據(jù)本發(fā)明的所謂的獨立迭代分類(incbpendent iterative sorting, IIS)的實例,以及
圖16是根據(jù)本發(fā)明的方法的流程圖。
具體實施例方式DNA譜圖可以以常規(guī)方式生成,如下文中將參照圖1-6更詳細地描述的。例如,可 以使用用于生成DNA譜圖的常規(guī)算法或技術,其需要下列5個步驟
(i)針對所述四個核苷酸堿基形成二進制指示符序列(BIS) uA[n],uT[n],uc[n]和 uG[η] 0圖1中再現(xiàn)了從DNA序列10生成的示范性BIS圖案,并且圖2中呈現(xiàn)了 BIS值的 圖。(ii)在BIS上進行離散傅立葉變換(DFT)。每個堿基的頻譜是通過使用公式(1) 計算每個堿基相應的BIS的DFT而獲得的
(iii)將DTF值映射到RGB顏色。所述4個(DFT)序列在RGB空間中通過下面再 現(xiàn)的一組線性方程而被減少到3個序列
其中{ar, ag, ab), {tr, tg, tb), {cr, cg, cb)和 igr, gg, gb)分別是核苷酸堿基 A、 T、C和G的顏色映射向量。所得的像素顏色OUk],^[k], ZJk])因此是被如圖4右側所 指示的它們各自的核苷酸堿基的頻率分量的大小加權的顏色映射向量的疊加。在圖5中針 對單個譜20示出了 DFT值到顏色的映射,并且在圖6中針對若干譜20 (即譜圖30)示出了 DFT值到顏色的映射。圖5和圖6 二者在這里為了說明的目的以灰度色調(diào)重現(xiàn)。基于頻域 的U值的其他顏色空間映射也是可能的,例如映射到HSV空間。(iv)將像素值歸一化。在再現(xiàn)彩色譜圖30之前,每個像素的RGB值通常被歸一化 以使其落在0與1之間。對于本領域技術人員而言,一旦認識到本發(fā)明總的原理,許多歸一 化過程就容易可用。(ν)短時傅立葉變換(STFT)。通過各個DNA序列譜20 (“條”)的級聯(lián) (concatenation)形成多個DNA譜20,即譜圖30,其中每個條或譜通常描繪局部DNA片段的 頻譜,如圖6所示。短期傅立葉變換(STFT)具有如圖6所示沿著DNA序列從5’移位到3’ 的窗口 W。圖6中所示的譜圖具有60個核苷酸堿基的長度,并且所述窗口 W每次被移位一個 堿基。在譜圖30中的水平標度上,示出了頻率k (向下增加),而DNA序列10上的開始位置 P_ini在譜圖30中的水平標度上示出。譜圖30的外觀(appearance)非常受STFT窗口 W的尺寸、相鄰窗口 W之間的重疊 序列的長度以及顏色映射向量的選擇的影響,參看公式(2)。所述窗口尺寸確定了譜圖30 中像素值的有效范圍。較大的窗口導致展現(xiàn)從較長DNA片段收集的統(tǒng)計數(shù)據(jù)的譜圖。一般 地,窗口 W的尺寸應當被制造得為感興趣的重復圖案的長度的若干倍大并且為包含感興趣 的圖案的區(qū)域的尺寸的若干分之一小。為了探查的目的,推薦嘗試窗口尺寸的范圍。所述 窗口重疊確定了兩個相鄰STFT窗口共同的DNA片段的長度。因此所述重疊越大,頻譜從一 個STFT窗口到下一個窗口的轉變越漸進。圖像分辨率較高使得通過圖像處理或視覺檢查 提取特征較為容易。觀看大量的序列數(shù)據(jù)需要一種用于信息分析和可視化(visualization)的高效 方法。為了優(yōu)化對從非常大的序列導出的譜或包含許多小窗口的譜的觀看,所述譜可被再 現(xiàn)為由本發(fā)明的發(fā)明人示出的視頻;N. Dimitrova等人的“Analysis and visualization of DNA spectrograms: open possibilities for genome research", in ACM MM, Santa Barbara, CA, Oct. 2006,該文獻通過整體應用合并于此。圖7是根據(jù)本發(fā)明的根據(jù)三種不同情況的裝箱函數(shù)應用的原理草圖。參照圖3和
圖8 (參看下文),所述四個通道A、T、C和G中的每一個通過坐標頻率k、傅立葉系數(shù)
X(k)和譜數(shù)s定義了倒易k-空間中的三維空間。因此,對于一個通道,頻率k可以通過三
維向量11、[2、13^_4或15表示。本發(fā)明通過定義相對于例如一個通道C (通常研究多于一個的通道)的裝箱函數(shù)BF來操作。在圖7中通過點狀箭頭示意性指示裝箱函數(shù)BF的 操作,并且所述五個向量U_1、U_2、U_3、U_4和U_5分別被示意性修改為U_1 ’、U_2’、U_3’、 U_4,和 U_5,。在情況A中,裝箱函數(shù)BF被應用在由向量[1指示的一個頻率上,并且作為裝箱 函數(shù)BF的結果,U_1的傅立葉系數(shù)hk_X(k)被修改并且因此如圖所示改變了所述向量。在情況B中,裝箱函數(shù)BF被應用在由向量U_2和U_3指示的兩個頻率上,并且作 為裝箱函數(shù)BF的結果,U_2和U_3 二者的傅立葉系數(shù)Usk_X(k)分別被修改為向量U_2’和 U_3,。在該特定情況下,裝箱函數(shù)BF具有效果U_2’等于U_3’。這可以例如是裝箱函數(shù)BF 的下述情況明顯改變了值,例如苛刻的下舍入或類似改變。因此,丟失了信息,但是可以執(zhí) 行更容易的和/或改進的分析。在情況C中,裝箱函數(shù)BF被應用在由向量U_4和U_5指示的兩個頻率上,并且作 為裝箱函數(shù)BF的結果,U_4和U_5 二者的傅立葉系數(shù)Usk_X(k)分別被修改為向量U_4’和 U_5,。在該特定情況下,裝箱函數(shù)BF具有在向量空間中轉變(turn)兩個向量U_4和U_5的 效果。圖8是根據(jù)本發(fā)明的在各個頻率處的譜的示意圖,其具體列出了在該圖左部通過 行進索引s向下連續(xù)編號的不同譜20的傅立葉系數(shù)Usk_X(k)。所述頻率k還在圖8的頂 部被示出。DFT的頻率從1到傅立葉變換的最大頻率km行進。如前所述,所述四個核苷酸 堿基A、T、C和G構成四個通道,即Χ=Α、Τ、C和G。通常,研究多于一個通道,并且由此與所 述搜索模板的相似性可以基于多于一個通道(例如X=A和C)的變化程度,并且特別地,所述 相似性可以基于所有通道(即X=A、T、C和G)的變化程度。為了強調(diào)圖8中每個條目包括4 個不同的通道,第一行(s=l)中名稱為Ulk_x的條目已經(jīng)被放大(blow up)并且所有四個通 道在圖8的上部中明確地被寫出。圖9是與圖8相似的圖,其示出根據(jù)本發(fā)明的裝箱函數(shù)BF。基于DNA序列通過將 DNA序列轉換為多個二進制指示符序列(BIS)并且將短期傅立葉變換(STFT)應用在所述二 進制指示符序列上來獲得多個譜s,每個譜包括對應的頻率k和傅立葉系數(shù)(k),其中 每種傅立葉系數(shù)構成通道X。隨后,針對頻率K’(其中K’ =2)定義裝箱函數(shù)BF,其適用于相對于相關通道X的 傅立葉系數(shù)hk_X(k)。因此,所述裝箱函數(shù)可以例如包括截取、上舍入、下舍入、模函數(shù)和/ 或閾值函數(shù),或相關于本發(fā)明的目的的其他相關的數(shù)學函數(shù)。在一個實施例中,執(zhí)行所述截 取。典型地,所述裝箱函數(shù)(BF)針對所有通道X定義,因此X= {A,T,C和G},但是對于一些 應用,一個或例如C和G的子集可以是待分析的通道。在圖9中,裝箱函數(shù)(BF)被應用在 從s=l到s的所述多個譜的一部分上,并且由此修改對應的傅立葉系數(shù)hk_X(k)。可替代 地,所述裝箱函數(shù)(BF)可以應用在更小的部分上,例如s=l到s=2。其后,所述多個譜(例如S=I以及向上)的所述部分內(nèi)的基本相等的修改的傅立葉 系數(shù)hk_X(k)被發(fā)現(xiàn)并且優(yōu)選地被做標記或打上標簽以供進一步分析。因此,發(fā)現(xiàn)的意思 是例如計數(shù)具有修改的傅立葉系數(shù)hk_x(k)的一定值的條目有多少,例如10個。術語“基 本相等”的意思是考慮在應用了裝箱函數(shù)BF之后引入的數(shù)值誤差。圖10是與圖8相似的圖,其示出根據(jù)本發(fā)明的另一個裝箱函數(shù)BF’。所述方法可 以針對一組頻率K_i或者并行地或者連續(xù)地(典型地以一定間隔)被重復,但是這組K_i也可以在特定的k個值上“跳動”。因此,應當強調(diào),所述頻率組或間隔K_i可以包括若干不同 的頻率間隔,即K_i可以包括k=2, k=6或k=2和k=4。因此,K_i可以是從k=l到k=km (傅 立葉變換的最大頻率)的間隔內(nèi)的任何適當?shù)淖咏M或各子組的組合。圖11是與圖8相似的圖,其示意性示出裝箱函數(shù)BF在多個譜上的應用,但是為了 簡化起見僅僅針對一個頻率k示出了所述應用。在應用了所述裝箱函數(shù)BF(在這種情況下 為簡單截取)之后,修改的傅立葉系數(shù)的相等值被發(fā)現(xiàn),然后將發(fā)生的次數(shù)作為裝箱值的函 數(shù)繪制為柱狀圖,例如Usl_G(k)=6的兩次發(fā)生和Usl_G(k)=9的一次發(fā)生等等。對于每個頻率,“相似的”值(即根據(jù)所應用的裝箱函數(shù)BF為基本相等的)被聚集 在一起,并且示出落入每個箱(bin)中的值的個數(shù)的柱狀圖被建立。針對單獨的頻率的A、 C、G、T的值可以獨立地進行比較,或者可以以常見方法(common measure)來組合,所述常 見方法考慮所有四個核苷酸上的相似性以發(fā)現(xiàn)所述頻率中的相似性。圖11提供了如何應 用裝箱函數(shù)BF和如何生成柱狀圖的實例。然后,可以應用頻率分類或聚類方法的各種實施 例。使用所述裝箱函數(shù),針對所有頻率的A、T、C和G,生成示出所述“相似”值的柱狀圖。接下來,對于每個頻率,根據(jù)所選擇的策略選擇一個或多個柱狀圖箱(例如最大 的)。在下文中,進一步解釋了三個這樣的策略自頂向下的層次分類(TDHS)、獨立迭代分類 (IIS)和格狀分類(LS),但是在本發(fā)明的上下文和教導內(nèi)技術人員容易獲得其他方法。然 后,可以根據(jù)所選的策略并考慮柱狀圖箱來將域(domain)分割(split),并且在每個子域 中重復所述過程直到達到停止標準為止。例如,當最大的箱被選擇時,它提供最大數(shù)量的序列,所述序列在針對所述核苷酸 之一的所述特定頻率中共享根據(jù)所述裝箱函數(shù)BF的“相似”值。針對在跨越所有頻率的所 有柱狀圖箱中(對于每一個頻率,存在單個柱狀圖)最大值的頻率被選擇,并且對該柱狀圖 有貢獻的序列被聚集在一起。這樣,各序列的整個域被分割成共享在所述頻率中的相似性 的序列的組和其余組,從而獲得兩個“群(cluster)” (盡管這不是字面嚴格意義上的聚類算 法,但是可以采用該術語),并且特定選擇和處理策略被應用在這兩個群的每一個上。接下 來,再次建立所述各值的柱狀圖,或者將計算的柱狀圖箱更新以反映分割成各群;選擇最長 的柱狀圖,并且根據(jù)該柱狀圖再次將所述域分割成兩個群。當最長的柱狀圖的尺寸低于預 定義閾值時,當達到用戶定義的數(shù)量的待提取的長圖案時,或者當所述兩個群的每一個包 含單個序列時,迭代停止。也可以應用其他停止標準。圖12和圖13示出根據(jù)本發(fā)明的所謂的自頂向下的層次分類(TDHS)的實例。一 旦發(fā)現(xiàn)最長的圖案,例如k=l、c通道,三次值“8”,TDHS算法將窗口或譜的域分割成包含最 長圖案和剩余圖案的域。為了說明這個過程,在右邊示出了三個所選通道的柱狀圖,即k=l, A&C通道和k=2,A通道。禾Ij用中間的柱狀圖中的實線圓,示意性標識了最長圖案。接下來,在所述兩個群的每一個或第一組和第二組中,(下一個)最長圖案被發(fā)現(xiàn) 并且所述群中的每一個再次被分割成或細分成包含長圖案和剩余圖案的多個群或組。這在 圖13中被示出,在圖13中窗口或譜s=l,2和3形成被分割成包含最長圖案k=2、具有2次 出現(xiàn)的裝箱值“10”的A通道的譜的組和譜s=2的組。在圖13的左下部中通過“分類三”示出了具有兩個分支點的該層次分類。TDHS分 類的第一分支也在圖12的左下部被示出。當達到最長圖案或步驟數(shù)的閾值時,或當所述兩個群或組的每一個包含單個序列時(例如圖13中的譜s=2),該算法停止。最后,將具有一種圖案的層次??梢赃x擇在分離的 每個步驟處顯示兩個群,或僅僅顯示具有最長圖案的群或組。該策略可能在長圖案在先前 步驟中被分割時遺漏長圖案。TDHS的一種變化是停止分割樹的左側-已經(jīng)包含最長圖案的 側。這將導致多葉二叉樹。圖14和圖15示出根據(jù)本發(fā)明的所謂獨立迭代分類(IIS)的實例。IIS以圖案的尺 寸的降序顯示了所述域中的所有圖案。它首先選擇如用于TDHS分類算法的圖12中所示的 最長圖案,然后IIS算法將包含最長圖案的群重排序在頂部并且顯示整個域。接下來,IIS 選擇獨立于第一圖案的第二 (不同的)最長圖案(如圖14所示,k=l,具有兩次出現(xiàn)的裝箱值 “2”的通道A,用實線圓在柱狀圖中示出(盡管k=2,通道A也具有兩次出現(xiàn)的裝箱值“10”)) 等等,直到所有圖案被發(fā)現(xiàn)為止。因此,在圖15中,第三最長圖案是k=2,具有兩次出現(xiàn)的 裝箱值“10”的通道A,如也利用實線圓在柱狀圖中指示。利用該策略,完全同時存在的圖 案(在更長的圖案中沒有間隙)或完全分開(disjoint)的圖案(沒有公共序列)將總是出現(xiàn)。 還應當注意,在不同的迭代中所獲得的群可以包含相同的(重疊的)譜。而且,所謂的格狀分類(LS)算法可以結合本發(fā)明實現(xiàn)。開始,對于比給定尺寸丄 thresl長的所有圖案(或可替代地對于k個最長的圖案),通過選擇包括這些圖案的行或譜 并且放棄其余的行或譜來形成群。隨后,在每個群或組中反復(iteratively)執(zhí)行相同的選 擇,直到找不到合適的圖案為止,即直到所有的圖案都比N_thres2短(或剩余的所有圖案 長度都為1)為止。利用該策略,所述群可以是重疊的,并且每個群具有一個子群。與TDHS 不同,LS從不遺漏長圖案。也利用該策略,完全共存的圖案將總是出現(xiàn)。TDHS、IIS和LS的所有上述策略可以在以下意義下交互式實現(xiàn)在每個步驟,所述 圖案可被可視化并且用戶可以決定探究群或組的層次中的哪些分支。接下來,所述譜可以在如圖6所示的一種被稱為分類的視頻的新表示中堆疊于彼 此之上并且可以被顯示。依賴于用戶的偏好,所有群可以被示出,或者只有那些在所述算法 步驟中包含最強圖案的群被示出。此外,本發(fā)明有助于并行化,這與本領域已知的其他聚類方法(比如層次聚類)不 同。為了分類,針對每個頻率建立柱狀圖,這使得容易在若干過程中分割傅立葉值的域并且 并行地、在并行系統(tǒng)或分布式系統(tǒng)上或在網(wǎng)格上執(zhí)行它們。最后,本發(fā)明提供一種可視化方法(如圖6所示),其使得生物學家或臨床醫(yī)生更容 易看到關于這些圖案的相似性的結果并發(fā)現(xiàn)關于這些圖案的相似性的進一步解釋。為了這 個任務,可以提供可用的基因組注釋,比如基因的名稱或基因組元素、物種、實驗等等。圖16是根據(jù)本發(fā)明的方法的流程圖。所述方法包括 Sl提供DNA序列,
S2基于所述DNA序列,通過將該DNA序列轉換為多個二進制指示符序列(BIS)并且將 短期傅立葉變換(STFT)應用在所述二進制指示符序列上來創(chuàng)建多個譜20,每個譜包括對 應的頻率k和傅立葉系數(shù)hk_X(k),其中每種傅立葉系數(shù)構成通道X,
S3對于適用于相對于一個或多個通道X的傅立葉系數(shù)hk_X(k)的頻率K’,定義裝箱 函數(shù)BF,
S4將裝箱函數(shù)BF應用在所述多個譜的至少一部分上并且由此修改對應的傅立葉系數(shù) hk_X(k),以及S5在所述多個譜的所述部分內(nèi)發(fā)現(xiàn)基本相等的修改的傅立葉系數(shù)hk_X(k)。本發(fā)明可以以包括硬件、軟件、固件或這些的任何組合的任何適當形式實現(xiàn)。本發(fā) 明或本發(fā)明的一些特征可以被實現(xiàn)為運行在一個或多個數(shù)據(jù)處理器和/或數(shù)字信號處理 器上的計算機軟件。本發(fā)明的實施例的元件和組件在物理上、功能上和邏輯上可以以任何 適當?shù)姆绞綄崿F(xiàn)。事實上,所述功能可在單個單元、多個單元中實現(xiàn)或實現(xiàn)為其他功能單元 的一部分。同樣,本發(fā)明可以單個單元中實現(xiàn),或者可以在物理上和功能上分布在多個不同 的單元和處理器之間。盡管已經(jīng)結合指定的實施例描述了本發(fā)明,但是本發(fā)明不期望限于本文所陳述的 特定形式。相反地,本發(fā)明的范圍僅僅由所附權利要求限定。在權利要求中,術語“包括”不 排除其他元件或步驟的存在。此外,盡管各個特征可以包含在不同的權利要求中,但是這些 特征可以有利地被組合,并且在不同權利要求中包含所述各個特征并不暗示這些特征的組 合是不可行的和/或不是有利的。此外,單數(shù)引用不排除多個。因此,對“一”、“第一”、“第 二”等的引用不排除多個。而且,權利要求中的附圖標記不應當被解釋為限制范圍。
權利要求
1.一種用于分析DNA序列(10)的方法,該方法包括提供DNA序列,基于所述DNA序列,通過將所述DNA序列轉換為多個二進制指示符序列(BIS)并且將 短期傅立葉變換(STFT)應用在所述二進制指示符序列上來創(chuàng)建多個譜(20),每個譜包括 對應的頻率(k)和傅立葉系數(shù)(Usk_X(k)),其中每種傅立葉系數(shù)構成通道(X),對于適用于相對于一個或多個通道(X)的傅立葉系數(shù)(Usk_X(k))的頻率(K’),定義裝 箱函數(shù)(BF),將所述裝箱函數(shù)(BF)應用在所述多個譜的至少一部分上并且由此修改對應的傅立葉 系數(shù)(Usk_X(k)),以及在所述多個譜的所述部分內(nèi)發(fā)現(xiàn)基本相等的修改的傅立葉系數(shù)(Usk_X(k))。
2.根據(jù)權利要求1的方法,其中在所述多個譜的所述部分內(nèi)發(fā)現(xiàn)基本相等的修改的 傅立葉系數(shù)(Usk_X(k))包括定量分析修改的傅立葉系數(shù)(Usk_X(k))相對于所述裝箱函數(shù) (BF)的分布。
3.根據(jù)權利要求1的方法,其中針對一組頻率(K_i)重復所述方法。
4.根據(jù)權利要求1的方法,其中使用合并函數(shù)將二進制指示符序列的集合減小到BIS 的更小集合,該合并函數(shù)優(yōu)選地包括邏輯AND函數(shù)。
5.根據(jù)權利要求1或3的方法,其中發(fā)現(xiàn)在任何頻率和/或通道中具有基本相等的修 改的傅立葉系數(shù)(Usk_X(k))的最大集合的第一組譜(S)并且將其與剩余的譜分離,所述剩 余的譜形成第二組譜。
6.根據(jù)權利要求5的方法,其中在第二組譜內(nèi)發(fā)現(xiàn)并且分離基本相等的修改的傅立葉 系數(shù)(Usk_X(k))的最大集合。
7.根據(jù)權利要求6的方法,其中將譜分離為第一和第二組譜被重復,忽視先前發(fā)現(xiàn)的 修改的傅立葉系數(shù)(Usk_X(k))的最長集合。
8.根據(jù)權利要求6或7的方法,其中重復將譜分離為第一和第二組的操作i)直到發(fā) 現(xiàn)修改的傅立葉系數(shù)(Usk_X(k))的最長集合的預定義閾值為止,ii)直到執(zhí)行了預定義次 數(shù)的分離為第一和第二組譜的操作為止,或iii)直到第一和/或第二組譜包含單個序列為 止。
9.根據(jù)權利要求1或3的方法,其中發(fā)現(xiàn)在任何頻率和/或通道中具有基本相等的修 改的傅立葉系數(shù)(Usk_X(k))的最大集合的第一組譜(S)并對其做標記。
10.根據(jù)權利要求9的方法,其中發(fā)現(xiàn)在任何頻率和/或通道中具有基本相等的修改的 傅立葉系數(shù)(Usk_X(k))的最大集合的第二組譜并對其做標記,忽視先前發(fā)現(xiàn)的修改的傅立 葉系數(shù)(Usk_X(k))的最長集合。
11.根據(jù)權利要求9-10中任一項的方法,其中發(fā)現(xiàn)所述最長集合并且所述組的譜被 重排序i)直到發(fā)現(xiàn)修改的傅立葉系數(shù)(Usk_X(k))的最長集合的長度的預定義閾值為止, ii)直到發(fā)現(xiàn)預定義數(shù)量的最長集合為止,或iii)直到最長集合包含單個序列為止。
12.根據(jù)權利要求1或3的方法,其中發(fā)現(xiàn)所發(fā)現(xiàn)的修改的傅立葉系數(shù)(Usk_X(k))的 圖案的長度超出第一預定義閾值(N_thresl)的所有組的譜(S)或包含k個最長圖案的所有 組的譜并且將其與剩余的譜分離,所述剩余的譜形成第二組譜,其中k是整數(shù)。
13.根據(jù)權利要求12的方法,其中使用修改的傅立葉系數(shù)(Usk_X(k))的圖案的長度的第二預定義閾值(N_thres2)或使用j個最長圖案來進一步分離根據(jù)權利要求18分離的每 組譜,其中j是等于或不同于k的整數(shù)。
14.根據(jù)權利要求13的方法,其中將譜分離為組的操作被重復進行i)直到發(fā)現(xiàn)修改 的傅立葉系數(shù)(Usk_X(k))的圖案的長度的預定義閾值為止,ii)直到執(zhí)行了預定義次數(shù)的 分離為第一和第二組譜的操作為止,或iii)直到第一和/或第二組譜包含長度等于1的修 改的傅立葉系數(shù)(Usk_X(k))的序列為止。
15.一種適于使得包括至少一臺計算機的計算機系統(tǒng)能夠實現(xiàn)根據(jù)權利要求1的方法 的計算機程序產(chǎn)品。
全文摘要
本發(fā)明涉及一種用于分析DNA序列的方法。通過將所述DNA序列轉換為多個二進制指示符序列(BIS)并且在所述二進制指示符序列上應用短期傅立葉變換(STFT)來分析DNA序列。裝箱(binning)函數(shù)(BF)被應用于傅立葉系數(shù)(Usk_X(k)),由此修改對應的傅立葉系數(shù)(Usk_X(k))。最后,發(fā)現(xiàn)基本相等的修改的傅立葉系數(shù)(Usk_X(k))。本發(fā)明向用戶提供一種改進很大的在大量的DNA序列數(shù)據(jù)中看到獨特的強圖案(strongpattern)的能力。
文檔編號G06F19/26GK102067141SQ200980122875
公開日2011年5月18日 申請日期2009年6月12日 優(yōu)先權日2008年6月19日
發(fā)明者I. D. 布庫爾 A., 米塔爾 C., J. A. 范利尤文 J., 迪米特羅瓦 N. 申請人:皇家飛利浦電子股份有限公司