一種規(guī)?；鞍踪|(zhì)鑒定中的索引加速方法及相應(yīng)的系統(tǒng)的制作方法

文檔序號(hào)：6470873閱讀：220來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種規(guī)模化蛋白質(zhì)鑒定中的索引加速方法及相應(yīng)的系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種規(guī)?；鞍踪|(zhì)鑒定的加速方法，具體的說，涉及一種采用倒排索
弓I重新組織蛋白質(zhì)數(shù)據(jù)庫從而提高蛋白質(zhì)鑒定速度的方法。
背景技術(shù)：
"蛋白質(zhì)組"(Proteome) —詞是由Wilkins等人于1997年首次提出的，用于描述基因組的蛋白質(zhì)對應(yīng)物。蛋白質(zhì)組描繪了特定生物樣品中在給定時(shí)刻和給定條件下表達(dá) 的蛋白質(zhì)的全體。顧名思義，蛋白質(zhì)組學(xué)就是對蛋白質(zhì)組的研究，其最基本的任務(wù)就是確定出哪些蛋白質(zhì)在生物體內(nèi)得到了表達(dá)、表達(dá)量是多少、翻譯后修飾以及蛋白與蛋白相互作用等，由此獲得蛋白質(zhì)水平上關(guān)于疾病發(fā)生、細(xì)胞代謝等過程的整體而全面的認(rèn)識(shí)。在當(dāng)前的蛋白質(zhì)組研究中，基于串聯(lián)質(zhì)譜的蛋白質(zhì)鑒定是最廣泛使用的技術(shù)之一，參考文獻(xiàn) 1《Aebersold， R. and Mann， M. Mass spectrometry-basedproteomics, Nature,2003，422 : 198-207》中對相關(guān)的內(nèi)容有較為詳細(xì)的說明。基于串聯(lián)質(zhì)譜鑒定蛋白質(zhì)的基本步驟是首先將混合蛋白樣品酶切為肽段，經(jīng) 過液相色譜分離后，進(jìn)入質(zhì)譜儀，得到肽段的實(shí)驗(yàn)串聯(lián)質(zhì)譜圖，然后對質(zhì)譜圖進(jìn)行分析，得到對應(yīng)的肽段序列，最后通過肽到蛋白質(zhì)歸并分析，得到混合蛋白樣品中的蛋白質(zhì) 列表，從而達(dá)到對蛋白質(zhì)進(jìn)行鑒定的目的。在鑒定產(chǎn)生實(shí)驗(yàn)串聯(lián)質(zhì)譜的肽序列的過程中，數(shù)據(jù)庫搜索的方法被廣泛采用。如在參考文獻(xiàn)2《Eng， J.K. ， McCormack， A. L. and Yates， J. R. Anapproach to correlate tandem mass spectral data of peptides with amino acidsequences in a protein database. J Am Soc Mass Spectrom，1994， 5 :976-989》、參考文獻(xiàn)3《Perkins， D. N. ， Pappin， D. J. ， Creasy, D. M. and Cottrell， J. S. Probability—based protein identification by searching sequence databases usingmass spectrometry data. Electrophoresis, 1999， 20 :3551-3567》以及參考文獻(xiàn) 4《Field， H. I. ， FenyG, D. and Beavis， R. C. RADARS, a bioinformatics solutionthat automates proteome mass spectral analysis, optimises proteinidentification， and archives data in a relational database. Proteomics， 2002， 2 :36_47》中者附采用數(shù)據(jù) 庫搜索的方法實(shí)現(xiàn)肽序列的鑒定做了詳細(xì)說明。采用數(shù)據(jù)庫搜索的方法通過肽序列鑒定實(shí)現(xiàn)蛋白質(zhì)鑒定的方法主要包括以下步驟首先，模擬生物學(xué)中的酶切規(guī)則將蛋白質(zhì)數(shù)據(jù)庫中的蛋白質(zhì)序列切分成肽序列；然后計(jì)算切分得到的各個(gè)肽序列的質(zhì)量；最后利用質(zhì)譜數(shù)據(jù)中的母離子質(zhì)量誤差窗口尋找符合一定質(zhì)量范圍內(nèi)的肽序列，將符合要求的肽序列輸入給打分函數(shù)以實(shí)現(xiàn)對肽序列的鑒定。在上述實(shí)現(xiàn)方法中，對于每個(gè)待鑒定的質(zhì)譜數(shù)據(jù)都要重復(fù)上述操作，由于這一過程中存在大量的重復(fù)操作而具有執(zhí)行效率低的缺陷。此外，由于蛋白質(zhì)序列酶切可能會(huì)產(chǎn) 生相同的肽序列，將有重復(fù)的肽序列輸入給打分函數(shù)也會(huì)影響鑒定效率。對規(guī)模較大的蛋白質(zhì)數(shù)據(jù)庫和大批量待鑒定的質(zhì)譜數(shù)據(jù)，如果采用上述的鑒定方法實(shí)現(xiàn)蛋白質(zhì)鑒定需要花費(fèi)大量的時(shí)間與空間，整體效率偏低。由于近年來隨著蛋白質(zhì)數(shù)據(jù)庫的規(guī)模不斷增長，對非特異性酶切肽段的鑒定需求不斷增加，導(dǎo)致肽序列的規(guī)模不斷增大，同時(shí)，質(zhì)譜數(shù)據(jù)的生成速度也在不斷增長，因此對蛋白質(zhì)的鑒定速度提出了更高的要求。但前述的蛋白質(zhì)鑒定方法在效率上卻有不足，因此需要對上述的數(shù)據(jù)庫搜索方法加以改進(jìn)，以加快蛋白質(zhì)鑒定的速度。考慮到上述方法中的關(guān)鍵問題在于如何快速地將肽序列與質(zhì)譜數(shù)據(jù)的母離子質(zhì)量誤差窗口做匹配操作，因此現(xiàn) 有技術(shù)中的常用加速策略是預(yù)先對蛋白質(zhì)數(shù)據(jù)庫進(jìn)行模擬酶切生成肽序列，根據(jù)各個(gè)肽序列的質(zhì)量對肽序列進(jìn)行排序并去掉重復(fù)的肽序列，然后根據(jù)質(zhì)譜數(shù)據(jù)的母離子誤差窗口在有序表中做二分查找，從而加快肽序列的查找速度。這種加速方法在理論上具有良好的效果，但在計(jì)算機(jī)上實(shí)現(xiàn)時(shí)卻面臨如下的技術(shù)難點(diǎn)。由于蛋白質(zhì)數(shù)據(jù)庫中所具有的蛋白質(zhì)數(shù)目通常數(shù)以萬計(jì)，而由蛋白質(zhì)所得到的肽序列數(shù)目更可達(dá)百萬、千萬乃至上百億、上千億，且肽序列中的重復(fù)序列的比例不高，如 Yeast、 Human、 Swiss-prot和NCBInr庫中重復(fù)肽序列的比例不高于50%。因此，在計(jì)算機(jī)內(nèi)存中無法一次完成對所有肽序列的排序和去冗余。為了解決這一問題，在現(xiàn)有技術(shù) 中通常采用外存歸并排序的方式創(chuàng)建肽序列詞典(有序、無冗余的肽序列集合)，例如，軟件SEQUEST(V2. 7)采用該方法將肽序列的質(zhì)量分成十個(gè)等間隔的左閉右開區(qū)間，分別是
0Da-1000Da、1000Da-2000Da、......、9000Da-10000Da，對蛋白質(zhì)數(shù)據(jù)庫中的蛋白質(zhì)序列模
擬酶切生產(chǎn)肽序列，根據(jù)肽序列的質(zhì)量分別存放在十個(gè)臨時(shí)文件中，然后對各個(gè)文件進(jìn)行歸并排序，排序的同時(shí)保留非重復(fù)的肽序列并存放肽序列的原始序列。但是，這種方法在時(shí) 間與空間性能上仍有較大缺陷。首先，臨時(shí)文件的劃分方法并不合理，對于不同特點(diǎn)的蛋白質(zhì)數(shù)據(jù)庫，該方法可能導(dǎo)致肽序列在十個(gè)臨時(shí)文件中分布不均勻；其次，該方法涉及大量的文件操作，對于規(guī)模較大的臨時(shí)文件需要采用外存排序。測試表明，在普通PC機(jī)上創(chuàng)建 NCBInr數(shù)據(jù)庫(約580萬條蛋白質(zhì)序列)的索引，SEQUEST(V2. 7)創(chuàng)建肽序列索引需要時(shí) 間約10小時(shí)、占用空間約9GB(特異性酶切，質(zhì)量范圍600-8000Da、長度范圍4_100、遺漏酶切位點(diǎn)數(shù)為2)。鑒于現(xiàn)有方法在計(jì)算機(jī)上實(shí)現(xiàn)時(shí)在時(shí)間與空間性能上的缺陷，提供一種時(shí) 間更快、空間更省的蛋白質(zhì)鑒定索引加速方法在實(shí)際應(yīng)用中具有重要意義。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)在計(jì)算機(jī)上對肽序列的排序和去冗余所要花費(fèi)的時(shí)間較長、效率較低的缺陷，從而提供一種能夠有效提高蛋白質(zhì)鑒定效率的相關(guān)方法。
為了實(shí)現(xiàn)上述目的，本發(fā)明提供了一種規(guī)?；鞍踪|(zhì)鑒定中的索引加速方法，包括步驟1)、根據(jù)計(jì)算機(jī)內(nèi)存空間的大小，預(yù)先將肽序列按照質(zhì)量的大小分成多個(gè)質(zhì)
量范圍段，使得對一個(gè)質(zhì)量范圍段內(nèi)肽序列的處理可以在計(jì)算機(jī)內(nèi)存中完成；
步驟2)、對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，將所得到的在一個(gè)質(zhì)量范圍段內(nèi)的肽序列保存在所述計(jì)算機(jī)內(nèi)存中，并在所述計(jì)算機(jī)內(nèi)存中完成對所保存肽序列的排序、去冗余以及建立詞典和倒排表的操作；步驟3)、對其余質(zhì)量范圍段重復(fù)上述步驟2)中的操作，為所述的每個(gè)質(zhì)量范圍段建立詞典和倒排表。上述技術(shù)方案中，所述的步驟1)包括
步驟1-1)、為肽序列設(shè)定質(zhì)量區(qū)間；步驟l-2)、為用于記錄肽序列數(shù)量的計(jì)數(shù)窗口設(shè)定大小，并結(jié)合步驟1)所設(shè)定的質(zhì)量區(qū)間設(shè)定計(jì)數(shù)窗口的數(shù)目以及各個(gè)計(jì)數(shù)窗口的范圍；步驟1-3)、對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，根據(jù)模擬酶切所得到的肽序列的質(zhì)量計(jì)算肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量；步驟1-4)、根據(jù)計(jì)算機(jī)內(nèi)存的大小得到在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量，根據(jù)在所述計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量以及步驟1-3)所得到的肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量，得到在計(jì)算機(jī)內(nèi)存中一次處理的肽序列的質(zhì)量范圍段。
上述技術(shù)方案中，在所述的步驟1-3)中，所述的根據(jù)模擬酶切所得到的肽序列的質(zhì)量計(jì)算肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量包括步驟1-3-1)、對模擬酶切所得到的一個(gè)肽序列，計(jì)算該肽序列的質(zhì)量，將所得到的
質(zhì)量與各個(gè)計(jì)數(shù)窗口的范圍相比較，為比較結(jié)果一致的計(jì)數(shù)窗口增加計(jì)數(shù)值；步驟1-3-2)、對模擬酶切所得到的所有肽序列重復(fù)上述操作，得到所述序列在各
個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量。上述技術(shù)方案中，所述的步驟1-4)包括步驟1-4-1)、根據(jù)計(jì)算機(jī)內(nèi)存的大小與每個(gè)肽序列記錄的大小，得到在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量；步驟1-4-2)、將肽序列在計(jì)數(shù)窗口內(nèi)的數(shù)量與在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量進(jìn)行比較，若肽序列在連續(xù)N個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量小于在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量，且肽序列在連續(xù)N+1個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量大于在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量，則將所述N個(gè)計(jì)數(shù)窗口所對應(yīng)的質(zhì)量范圍作為計(jì)算機(jī)內(nèi)存一次處理的肽序列的質(zhì)量范圍段，其中的N為正整數(shù)。N個(gè)連續(xù)窗口第一次從第一個(gè)計(jì)數(shù)窗口開始，然后從第N+l個(gè)計(jì)數(shù)窗口開始，以此類推。上述技術(shù)方案中，在所述的步驟2)中，所述的排序操作包括將所述的肽序列按
照質(zhì)量大小的順序做排列，當(dāng)所述肽序列的質(zhì)量相同時(shí)，根據(jù)表示肽序列的結(jié)構(gòu)體中肽序
列起始位置和長度從蛋白質(zhì)數(shù)據(jù)庫中讀取肽序列，然后根據(jù)字典序排序。上述技術(shù)方案中，所述的肽序列用一個(gè)標(biāo)準(zhǔn)的定長結(jié)構(gòu)體表示，所述結(jié)構(gòu)體由18
個(gè)字節(jié)組成，包括肽序列在原始蛋白質(zhì)數(shù)據(jù)庫中的出現(xiàn)位置、肽序列長度、肽序列質(zhì)量、遺
漏酶切位點(diǎn)數(shù)、該肽序列對應(yīng)的蛋白質(zhì)在數(shù)據(jù)庫中位置以及指向倒排表位置的指針。
上述技術(shù)方案中，在所述的步驟2)中，采用位向量實(shí)現(xiàn)所述的去冗余操作；其中，所述位向量中的一位代表在一個(gè)質(zhì)量范圍段內(nèi)的中的一個(gè)肽序列是否為冗余序
列，在對質(zhì)量范圍段內(nèi)的多個(gè)肽序列依次掃描時(shí)，若某一種肽序列是第一次出現(xiàn)，則在所述
位向量中將對應(yīng)位的值設(shè)為l，若某一種肽序列不是第一次出現(xiàn)，則在所述位向量中將對應(yīng)
位的值設(shè)為0。上述技術(shù)方案中，在所述的步驟2)中，所述的去冗余以及建立詞典和倒排表的操作包括步驟2-l)、掃描位向量，找到標(biāo)記為非重復(fù)的肽序列，將肽序列結(jié)構(gòu)體中指向倒排表位置的指針指向當(dāng)前倒排表文件的尾部；步驟2-2)、將該肽序列結(jié)構(gòu)體中的部分信息寫入到肽序列詞典文件中，所述部分信息包括肽序列在原始蛋白質(zhì)數(shù)據(jù)庫中的出現(xiàn)位置、肽序列長度、肽序列質(zhì)量、遺漏酶切位點(diǎn)數(shù)、指向倒排表位置的指針；步驟2-3)、計(jì)算該肽序列在蛋白質(zhì)數(shù)據(jù)庫中出現(xiàn)的蛋白質(zhì)的數(shù)目，將所得到的值寫入倒排表文件的尾部，同時(shí)把對應(yīng)的蛋白質(zhì)在數(shù)據(jù)庫中的位置寫入所述倒排表中；
步驟2-4)、繼續(xù)掃描所述位向量，重復(fù)上述步驟2-2)以及2_3)直到所述位向量的尾部。上述技術(shù)方案中，在所述的步驟2-3)中，所述的計(jì)算該序列在蛋白質(zhì)數(shù)據(jù)庫中出現(xiàn)的蛋白質(zhì)的數(shù)目包括從所述位向量的當(dāng)前位向后掃描直到遇到下一個(gè)值為1的位，讀取當(dāng)前位到下一個(gè)值為1的位之間的肽序列，按照所述結(jié)構(gòu)體中所述的該肽序列對應(yīng)的蛋白質(zhì)在數(shù)據(jù)庫中位置對所述肽序列做排序，然后順序遍歷計(jì)算該值的個(gè)數(shù)，其中將重復(fù)的算作一次，即可得到該序列在蛋白質(zhì)數(shù)據(jù)庫中出現(xiàn)的蛋白質(zhì)的數(shù)目。本發(fā)明還提供了一種規(guī)?；鞍踪|(zhì)鑒定中的索引加速系統(tǒng)，包括質(zhì)量區(qū)間設(shè)定模塊、計(jì)數(shù)窗口設(shè)定模塊、肽序列質(zhì)量分布計(jì)算模塊、肽序列質(zhì)量范圍段劃分模塊、詞典和倒排表創(chuàng)建模塊。其中，所述的質(zhì)量區(qū)間設(shè)定模塊為肽序列設(shè)定質(zhì)量區(qū)間；所述的計(jì)數(shù)窗口設(shè)定模塊為用于記錄肽序列數(shù)量的計(jì)數(shù)窗口設(shè)定大小，并結(jié)合質(zhì)量區(qū)間設(shè)定模塊所設(shè)定的質(zhì)量區(qū)間設(shè)定計(jì)數(shù)窗口的數(shù)目以及各個(gè)計(jì)數(shù)窗口的范圍；
所述的肽序列質(zhì)量分布計(jì)算模塊對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，根據(jù)模擬酶切所得到的肽序列的質(zhì)量計(jì)算肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量；所述的肽序列質(zhì)量范圍段劃分模塊根據(jù)計(jì)算機(jī)內(nèi)存的大小得到在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量，根據(jù)在所述計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量以及由肽序列質(zhì)量分布計(jì)算模塊所得到的肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量，得到多個(gè)在計(jì)算機(jī)內(nèi)存中可一次處理的肽序列的質(zhì)量范圍段；所述的詞典和倒排表創(chuàng)建模塊對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，將所得到的在一個(gè)質(zhì)
量范圍段內(nèi)的肽序列保存在所述計(jì)算機(jī)內(nèi)存中，并在所述計(jì)算機(jī)內(nèi)存中完成對所保存肽序
列的排序、去冗余以及建立詞典和倒排表的操作。本發(fā)明又提供了一種規(guī)?；鞍踪|(zhì)鑒定方法，包括步驟1)、采用所述的索引加速方法創(chuàng)建肽序列的詞典和倒排表；步驟2)、利用待鑒定的質(zhì)譜數(shù)據(jù)中的母離子質(zhì)量誤差窗口從所述的肽序列的詞典
和倒排表中尋找符合一定質(zhì)量范圍內(nèi)的肽序列，將符合要求的肽序列輸入給打分函數(shù)以實(shí)
現(xiàn)對肽序列的鑒定；步驟3)、通過對所述肽序列的鑒定實(shí)現(xiàn)對蛋白質(zhì)的鑒定。本發(fā)明又提供了一種規(guī)?；鞍踪|(zhì)鑒定系統(tǒng)，其特征在于，包括規(guī)模化蛋白質(zhì)鑒定中的索引加速系統(tǒng)、肽序列鑒定模塊以及蛋白質(zhì)鑒定模塊；其中，所述的肽序列鑒定模塊利用待鑒定的質(zhì)譜數(shù)據(jù)中的母離子質(zhì)量誤差窗口從所述的肽序列的詞典和倒排表中尋找符合一定質(zhì)量范圍內(nèi)的肽序列，將符合要求的肽序列輸入給打分函數(shù)以實(shí)現(xiàn)對肽序列的鑒定；所述的蛋白質(zhì)鑒定模塊通過對所述肽序列的鑒定實(shí)現(xiàn)對蛋白質(zhì)的鑒定。
本發(fā)明的優(yōu)點(diǎn)在于 1、本發(fā)明通過預(yù)先計(jì)算肽序列質(zhì)量分布密度，根據(jù)內(nèi)存動(dòng)態(tài)劃分每次索引的肽序列質(zhì)量范圍，將詞典和倒排表的創(chuàng)建過程全部放在內(nèi)存中完成，保證高效率的創(chuàng)建索引。
2、本發(fā)明在索引創(chuàng)建過程中，每次在內(nèi)存中保留一定質(zhì)量范圍的索引，不需要產(chǎn)生臨時(shí)文件，空間消耗低。 3、本發(fā)明中的肽序列用定長結(jié)構(gòu)表示，有利于存儲(chǔ)和查詢。 4、本發(fā)明采用位向量來標(biāo)記肽序列是否為冗余序列，避免在肽序列數(shù)組中刪除元素； 5、本發(fā)明采用倒排索引的結(jié)構(gòu)重新組織蛋白質(zhì)數(shù)據(jù)庫，有效地提高了根據(jù)質(zhì)譜數(shù)據(jù)母離子質(zhì)量誤差窗口查詢肽序列的效率，同時(shí)提高查詢包含某條肽序列的所有蛋白質(zhì)的效率。

圖1為現(xiàn)有技術(shù)中蛋白質(zhì)鑒定過程的示意圖；圖2為在一個(gè)實(shí)施例中所涉及的蛋白質(zhì)數(shù)據(jù)庫中對蛋白質(zhì)的數(shù)據(jù)表示方式的示例；圖3為在一個(gè)實(shí)施例中對蛋白質(zhì)序列做模擬酶切的示意圖；圖4為在一個(gè)實(shí)施例中對肽序列根據(jù)質(zhì)量劃分在不同的計(jì)數(shù)窗口的示意圖；圖5為在一個(gè)實(shí)施例中如何由蛋白質(zhì)序列生成肽序列詞典和倒排表的示意圖；圖6為本發(fā)明的規(guī)模化蛋白質(zhì)鑒定中的索引加速方法的流程圖。
具體實(shí)施例方式
在對本發(fā)明進(jìn)行說明前，對于本發(fā)明中所涉及的一些名詞進(jìn)行解釋肽序列詞典一種用于存放非重復(fù)肽序列的文件。一般而言，肽序列的存儲(chǔ)方式通
常有兩種第一，以實(shí)際的序列存儲(chǔ)；第二，以具有定長特性的結(jié)構(gòu)體存儲(chǔ)，包括指針和長
度，指針指向肽序列在原始數(shù)據(jù)庫中出現(xiàn)的位置，長度表示了肽序列長度，通過該結(jié)構(gòu)可以
在蛋白質(zhì)數(shù)據(jù)庫中讀取肽序列。本發(fā)明的肽序列詞典以第二種存儲(chǔ)方式存放肽序列信息并
包括一個(gè)指向倒排表的指針。倒排表一種用于存儲(chǔ)肽序列和蛋白質(zhì)的對應(yīng)關(guān)系的文件。一個(gè)肽序列可能在若干個(gè)蛋白質(zhì)中出現(xiàn)，倒排表的一條記錄存放一個(gè)肽段出現(xiàn)過的蛋白質(zhì)數(shù)目，用N表示，然后順序存放這N個(gè)蛋白質(zhì)在蛋白質(zhì)數(shù)據(jù)庫中的起始位置。倒排索引前述的肽序列詞典和倒排表在本發(fā)明中被統(tǒng)稱為倒排索引，并在本發(fā)明中簡稱為索引。下面結(jié)合附圖和具體實(shí)施方式
對本發(fā)明作進(jìn)一步詳細(xì)描述。在本發(fā)明的一個(gè)實(shí)施例中，以一個(gè)蛋白質(zhì)數(shù)據(jù)庫為例，對如何快速地實(shí)現(xiàn)對蛋白質(zhì)的鑒定進(jìn)行說明。在本實(shí)施例中，蛋白質(zhì)數(shù)據(jù)庫以無結(jié)構(gòu)的FASTA格式存放蛋白質(zhì)信息，如圖2所示，蛋白質(zhì)數(shù)據(jù)庫中關(guān)于蛋白質(zhì)的一條記錄包括蛋白質(zhì)名稱(AC)、蛋白質(zhì)描述(DE)和蛋白質(zhì)序列(SQ)。每條記錄以字符"〉"開始，到第一個(gè)空格處的內(nèi)容是AC， AC之后直到本行結(jié)束的內(nèi)容是DE，下一行開始到下一個(gè)字符"〉"之間的內(nèi)容是SQ。例如，在圖2的第一條記錄中，"YAL002W"為AC，"VPS8 SGDID :S0000002"是DE，而該條記錄中后面的內(nèi)容都為SQ。需要特別指出的是，在SQ中的每個(gè)字母代表一種類型的氨基酸，多個(gè)字母在一起形成蛋白質(zhì)序列。由于本發(fā)明的主要目的是提高針對肽序列的查詢效率，因此，在給定蛋白質(zhì)數(shù)據(jù)庫后，需要由蛋白質(zhì)數(shù)據(jù)庫中的蛋白質(zhì)序列來得到肽序列。這一由蛋白質(zhì)序列得到肽序列的過程被稱為模擬酶切。在本發(fā)明的整個(gè)實(shí)現(xiàn)過程中，涉及到多次模擬酶切操作，為了方便理解，首先對模擬酶切的實(shí)現(xiàn)過程統(tǒng)一進(jìn)行說明。模擬酶切實(shí)質(zhì)上是模擬生物實(shí)驗(yàn)中對蛋白質(zhì)序列所做的酶切操作。生物學(xué)中有多種對蛋白質(zhì)序列做酶切的方法，以常用的胰蛋白酶和特異性酶切為例，在對蛋白質(zhì)序列進(jìn)行酶切時(shí)，在賴氨酸(K)和精氨酸(R)的C端切斷，得到對應(yīng)的肽序列，其中的賴氨酸(K)和精氨酸(R)也被稱為酶切位點(diǎn)。相應(yīng)的，在模擬酶切時(shí)，就要在由字母組成的蛋白質(zhì)序列中，當(dāng)遇到K或R時(shí)，將K或R之前的一段字母從整段字母中分離出來(包括K或R)，所得到的這段字母就代表了酶切得到的肽序列。如圖3所示，在一個(gè)蛋白質(zhì)序列"AAIKGKIDVCIVHKAEPTIRNTDGRTA"中，當(dāng)遇到字母"K"或"R"時(shí)，就對字母作酶切位點(diǎn)的標(biāo)記(如圖中的下劃線"_")，然后對這些字母進(jìn)行切分，從而得到"AAIK"、"GK"、"IDVCIVHK"、"AEPTIR"、"NTDGR"以及"TA"等肽序列。值得注意的是，在實(shí)際的生物學(xué)實(shí)驗(yàn)中，對蛋白質(zhì)進(jìn)行酶切會(huì)有遺漏酶切的現(xiàn)象存在，例如，假設(shè)圖3中所涉及的蛋白質(zhì)序列中的"AAIKGK"的第一個(gè)"K"被遺漏，從而得到了遺漏酶切肽序列"AAIKGK"。對于這種現(xiàn)象，如果用戶事先指定了遺漏酶切位點(diǎn)數(shù)，假設(shè)為l，則對于前述的具有一個(gè)遺漏酶切位點(diǎn)的肽序列也要保留，即允許肽序列中最多可以有一個(gè)酶切位點(diǎn)，只有當(dāng)?shù)鞍踪|(zhì)序列中的遺漏酶切位點(diǎn)數(shù)超出了用戶設(shè)定的值時(shí)(如肽序列中有兩個(gè)酶切位點(diǎn))，才會(huì)對遺漏的酶切位點(diǎn)做酶切操作。遺漏酶切位點(diǎn)的現(xiàn)象會(huì)產(chǎn)生新的肽序列，如果按照類似于SEQUEST軟件的存儲(chǔ)方式將表示肽序列的字母直接存儲(chǔ)，則可能會(huì)大量增加存儲(chǔ)肽序列時(shí)所需要的空間。由于以序列形式存放具有遺漏酶切位點(diǎn)的肽序列會(huì)導(dǎo)致存儲(chǔ)大量冗余的序列，因此在本發(fā)明中可以用一個(gè)標(biāo)準(zhǔn)的定長結(jié)構(gòu)體表示模擬酶切后所得到的肽序列，該結(jié)構(gòu)體用18個(gè)字節(jié)(Byte)表示，它包括肽序列在原始蛋白質(zhì)數(shù)據(jù)庫中的出現(xiàn)位置(size_t)、肽序列長度(unsigned char)、肽序列質(zhì)量(size_t)、遺漏酶切位點(diǎn)數(shù)(unsigned char)、該肽序列對應(yīng)的蛋白質(zhì)在數(shù)據(jù)庫中位置(size—t)、指向倒排表位置的指針(size_t)。通過標(biāo)準(zhǔn)的定長結(jié)構(gòu)體來表示、存儲(chǔ)肽序列后，即使遺漏酶切肽序列很長，也可以用一個(gè)較短、固定長度的數(shù)據(jù)來表示遺漏酶切肽序列，減少了對存儲(chǔ)空間的需求。而且由于肽序列長度在20以上的比例要多于20以下比例，因此也能夠有效地節(jié)省存儲(chǔ)空間。此外，采用標(biāo)準(zhǔn)的定長結(jié)構(gòu)體表示肽序列可以根據(jù)ID(序號(hào))直接找到肽序列，在后續(xù)的二分查找時(shí)比較容易實(shí)現(xiàn)，無需像非定長結(jié)構(gòu)那樣通過建立一級索引來實(shí)現(xiàn)根據(jù)ID查找肽序列。
以上是對模擬酶切以及模擬酶切所得到的肽序列的表示方法的舉例說明，本發(fā)明所涉及的模擬酶切并不局限于上述說明中所提到的具體實(shí)例，現(xiàn)有技術(shù)中的其它模擬酶切實(shí)現(xiàn)方式都可應(yīng)用于本發(fā)明。此外，在本發(fā)明中，模擬酶切在多次實(shí)現(xiàn)時(shí)可以存在差異。例如，在一次模擬酶切中，可以只是簡單地計(jì)算模擬酶切后得到的肽序列的質(zhì)量，而不對肽序列的其它信息加以保存；而在另一次模擬酶切中，則要對模擬酶切后的肽序列按照上述的標(biāo)準(zhǔn)定長結(jié)構(gòu)體的要求對相應(yīng)信息進(jìn)行存儲(chǔ)。對模擬酶切的具體實(shí)現(xiàn)將根據(jù)需要而定。
在前述的模擬酶切的基礎(chǔ)上，如圖6所示，本發(fā)明采用如下操作建立蛋白質(zhì)數(shù)據(jù)庫的索引為所要統(tǒng)計(jì)的肽序列設(shè)定最小質(zhì)量和最大質(zhì)量，后續(xù)操作只對在最小質(zhì)量和最大質(zhì)量區(qū)間內(nèi)的肽序列進(jìn)行；設(shè)定計(jì)數(shù)窗口的大小，并結(jié)合前述的質(zhì)量范圍設(shè)定計(jì)數(shù)窗口的數(shù)目以及每個(gè)計(jì)數(shù)窗口的范圍；對蛋白質(zhì)數(shù)據(jù)庫進(jìn)行一個(gè)模擬酶切，不保留肽序列，只計(jì)算肽序列的質(zhì)量，根據(jù)所得到的肽序列的質(zhì)量計(jì)算肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量；根據(jù)計(jì)算機(jī)內(nèi)存的容量計(jì)算一次可以處理的肽序列的數(shù)量，然后根據(jù)各個(gè)計(jì)數(shù)窗口內(nèi)肽序列的數(shù)量得到在計(jì)算機(jī)內(nèi)存中一次處理的肽序列的質(zhì)量范圍；最后，對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，將模擬酶切所得到的肽序列按照所劃定的質(zhì)量范圍進(jìn)行區(qū)分，分別將一個(gè)質(zhì)量范圍內(nèi)的肽序列進(jìn)行包括排序、去冗余、建詞典和倒排表在內(nèi)的操作。為了方便理解，結(jié)合一個(gè)具體的實(shí)例加以說明。假設(shè)在前面所列舉的蛋白質(zhì)數(shù)據(jù)庫中的蛋白質(zhì)序列在模擬酶切后所得到的肽序列的質(zhì)量大致在400Da-10000Da范圍內(nèi)，因此為肽序列所設(shè)定的質(zhì)量范圍在400Da-10000Da之間，即最小質(zhì)量為400Da，最大質(zhì)量為10000Da。然后將肽序列的計(jì)數(shù)窗口的大小設(shè)定為10Da，結(jié)合前述的質(zhì)量范圍可以知道計(jì)數(shù)窗口的數(shù)目以及每個(gè)計(jì)數(shù)窗口的范圍，即有計(jì)數(shù)窗口 960個(gè)((10000-400) /10)，各個(gè)計(jì)數(shù)
窗口的范圍為400Da-410Da、410Da-420Da，......，9980Da-9990Da，9990Da-10000Da，所有
窗口都是左閉右開區(qū)間。接著對蛋白質(zhì)數(shù)據(jù)庫做一個(gè)模擬酶切，在這一模擬酶切過程中不保留肽序列，只計(jì)算肽序列的質(zhì)量。根據(jù)對肽序列質(zhì)量的計(jì)算結(jié)果可以知道某一肽序列在哪個(gè)質(zhì)量范圍內(nèi)，從而為這一質(zhì)量范圍所對應(yīng)的計(jì)數(shù)窗口中的計(jì)數(shù)器加1 。例如，在圖4中，質(zhì)量為400. 15的肽序列EVDG按照如下公式計(jì)算(400. 15-400)/10 = 0，由此可知該肽序列屬于第一計(jì)數(shù)窗口，為該計(jì)數(shù)窗口所對應(yīng)的計(jì)數(shù)器O加1。對模擬酶切所得到的所有肽序列都做上述操作，就可以記錄肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量。在此基礎(chǔ)上，可以計(jì)算在內(nèi)存中一次操作所涉及的肽序列質(zhì)量的最大范圍。假設(shè)在本實(shí)施例中所采用的計(jì)算機(jī)的內(nèi)存大小為512MB，而從前面的說明中知道，每個(gè)肽序列記錄的大小為18B，因此，在計(jì)算機(jī)內(nèi)存中一次可以處理的肽序列數(shù)目在理論上含約28M條(512MB/18B)。與此同時(shí)，通過前面的計(jì)算，也已經(jīng)知道各個(gè)計(jì)數(shù)窗口中所記錄的對應(yīng)質(zhì)量范圍內(nèi)的肽序列的條數(shù)，如在第一個(gè)計(jì)數(shù)窗口 (對應(yīng)400Da-410Da)中記錄有100條肽序列，在第二個(gè)計(jì)數(shù)窗口 (對應(yīng)410Da-420Da)中記錄有200條肽序列，將這些計(jì)數(shù)窗口中所記錄的肽序列的數(shù)目依次相加，若第一到第十個(gè)計(jì)數(shù)窗口中所記錄的肽序列相加后小于28M，而第一到第十一個(gè)計(jì)數(shù)窗口中所記錄的肽序列相加后大于28M，則將第一到第十個(gè)計(jì)數(shù)窗口中所具有的肽序列分為一段。依次類推，將后續(xù)的計(jì)數(shù)窗口分別做如
上的分段處理，從而得到多個(gè)肽序列質(zhì)量段。如400Da-1400Da， 1400Da-2400Da，......，
9000Da-10000Da。上述過程所得到的肽序列質(zhì)量段表明在內(nèi)存中一次可處理的肽序列的質(zhì)量范圍，但此時(shí)計(jì)算機(jī)中并沒有保留肽序列。因此，需要在計(jì)算機(jī)內(nèi)存中再次對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，然后將模擬酶切所得到的肽序列的質(zhì)量與計(jì)算機(jī)內(nèi)存當(dāng)前所處理的肽序列的質(zhì)量范圍進(jìn)行比較，只有質(zhì)量在所述質(zhì)量范圍內(nèi)的肽序列才子以保留。例如，假設(shè)計(jì)算機(jī)內(nèi)存當(dāng)前所要處理的肽序列的質(zhì)量范圍為400Da-1400Da，則只有在這個(gè)范圍的肽序列才保存在內(nèi)存中。對蛋白質(zhì)數(shù)據(jù)庫經(jīng)過完整掃描后，在當(dāng)前質(zhì)量范圍內(nèi)的肽序列都保存在計(jì)算機(jī)內(nèi)存中，此時(shí)，再對這些肽序列做排序、去除重復(fù)序列、生成詞典和倒排表的操作。在排序時(shí)，將一個(gè)質(zhì)量段內(nèi)的肽序列，約28M個(gè)，按照質(zhì)量從小到大的順序?yàn)殡男蛄信判?，如果肽序列間的質(zhì)量相同，則根據(jù)結(jié)構(gòu)體中的肽序列起始位置和長度從蛋白質(zhì)數(shù)據(jù)庫中讀取肽序列，然后根據(jù)字典序排序。以圖5為例，假設(shè)肽序列由三個(gè)蛋白質(zhì)序列"IQPSKANME"、"DEARIQPSK"、"CSNKANME"模擬酶切得到，將肽序列按照質(zhì)量排序，按照質(zhì)量從小到大的順序包括"CSNK"、"ANME"、"A畫E"、"DEAR"、"IQPSK"、"IQPSK"。上述的肽序列除了包含質(zhì)量信息外，還包括其來自哪個(gè)蛋白質(zhì)的信息，在圖5中用蛋白質(zhì)序號(hào)表示。
對肽序列完成排序操作后，還要去除冗余肽序列。所述的冗余肽序列是指肽序列段中的重復(fù)肽序列。為了去除冗余肽序列，可以借助一個(gè)位向量，該位向量代表了一個(gè)質(zhì)量段內(nèi)的肽序列，位向量中的一位代表了該質(zhì)量段內(nèi)的一個(gè)肽序列是否為冗余序列。順次掃描肽序列，如果某一條肽序列第一次出現(xiàn)(與前一個(gè)序列比較，不同為第一次出現(xiàn))，則在位向量中將對應(yīng)位的值設(shè)為l，表示該肽序列并非重復(fù)肽序列；如某一條肽序列不是第一次出現(xiàn)(與前一個(gè)序列比較，相同則不是第一次出現(xiàn))，則在位向量中將對應(yīng)位的值設(shè)為O，表示該肽序列屬于重復(fù)肽序列。對于圖5中所描述的肽序列段，其位向量為110110。
在去除冗余肽序列的過程中，掃描位向量，找到標(biāo)記為非重復(fù)(即位向量為1)的肽序列，將肽序列結(jié)構(gòu)體中指向倒排表位置的指針指向當(dāng)前倒排表文件尾(即該肽序列對應(yīng)的蛋白質(zhì)信息寫入倒排表時(shí)的起始位置)，然后將該肽序列結(jié)構(gòu)體中部分信息寫入到肽序列詞典文件，包括肽序列在原始蛋白質(zhì)數(shù)據(jù)庫中的出現(xiàn)位置(size—t)、肽序列長度(unsigned char)、肽序列質(zhì)量(size_t)、遺漏酶切位點(diǎn)數(shù)(unsigned char)、指向倒排表位置的指針(size_t);然后計(jì)算該肽序列在蛋白質(zhì)數(shù)據(jù)庫中出現(xiàn)的蛋白質(zhì)的數(shù)目從位向量的當(dāng)前位(值為l)，向后掃描直到遇到下一個(gè)值為1的位，讀取該范圍的肽序列，按照結(jié)構(gòu)體中"對應(yīng)蛋白質(zhì)在數(shù)據(jù)庫中位置"排序，然后順序遍歷計(jì)算該值的個(gè)數(shù)(重復(fù)的算一次)，即為該序列在蛋白質(zhì)數(shù)據(jù)庫中出現(xiàn)的蛋白質(zhì)的數(shù)目，將該值寫入倒排表文件尾，同時(shí)把對應(yīng)的蛋白質(zhì)在數(shù)據(jù)庫中的位置寫入倒排表尾；最后繼續(xù)掃描位向量，重復(fù)上面兩步操作直到位向量尾，則對一個(gè)質(zhì)量段內(nèi)的的肽序列詞典和倒排表的創(chuàng)建過程完成。
對圖5所示的肽序列根據(jù)位向量以及上述步驟可創(chuàng)建肽序列詞典和倒排表，從圖中可以看出，該詞典包括"CSNK"、"ANME "、"DEAR"、" IQPSK"四個(gè)肽序列，并在倒排表中對相應(yīng)肽序列的出現(xiàn)次數(shù)、在何種蛋白質(zhì)序列中出現(xiàn)都做了相應(yīng)的記錄。例如，對于肽序列"ANME"，它在蛋白質(zhì)序列中的次數(shù)為2，分別出現(xiàn)在第一個(gè)蛋白質(zhì)序列和第三個(gè)蛋白質(zhì)序列中。需要說明的是，為了方便理解，在圖5以及上述的說明中，都直接以字母的方式表示肽序列，如"CSNK"，但實(shí)際存儲(chǔ)的是前面所提到的肽序列在原始蛋白質(zhì)數(shù)據(jù)庫中出現(xiàn)的位置(size—t)、肽序列長度(unsigned char)、肽序列的質(zhì)量(size_t)、遺漏酶切位點(diǎn)數(shù)(unsigned char)、指向倒排表位置的指針(size_t)等信息。以上對肽序列的排序、去冗余、建詞典和倒排表的操作都是以一個(gè)質(zhì)量范圍內(nèi)的肽序列為例所做的說明，對于蛋白質(zhì)數(shù)據(jù)庫中的其它質(zhì)量范圍的肽序列都可以按照類似的方式各自建立詞典和倒排表。在前述方法的基礎(chǔ)上，本發(fā)明還可以提供相應(yīng)的索引加速系統(tǒng)，該系統(tǒng)中包括質(zhì)量區(qū)間設(shè)定模塊、計(jì)數(shù)窗口設(shè)定模塊、肽序列質(zhì)量分布計(jì)算模塊、肽序列質(zhì)量范圍段劃分模塊、詞典和倒排表創(chuàng)建模塊；其中，所述的質(zhì)量區(qū)間設(shè)定模塊為肽序列設(shè)定質(zhì)量區(qū)間；所述的計(jì)數(shù)窗口設(shè)定模塊為用于記錄肽序列數(shù)量的計(jì)數(shù)窗口設(shè)定大小，并結(jié)合質(zhì)量區(qū)間設(shè)定模塊所設(shè)定的質(zhì)量區(qū)間設(shè)定計(jì)數(shù)窗口的數(shù)目以及各個(gè)計(jì)數(shù)窗口的范圍；
所述的肽序列質(zhì)量分布計(jì)算模塊對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，根據(jù)模擬酶切所得到的肽序列的質(zhì)量計(jì)算肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量；所述的肽序列質(zhì)量范圍段劃分模塊根據(jù)計(jì)算機(jī)內(nèi)存的大小得到在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量，根據(jù)在所述計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量以及由肽序列質(zhì)量分布計(jì)算模塊所得到的肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量，得到多個(gè)在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的質(zhì)量范圍段；所述的詞典和倒排表創(chuàng)建模塊對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，將所得到的在一個(gè)質(zhì)量范圍段內(nèi)的肽序列保存在所述計(jì)算機(jī)內(nèi)存中，并在所述計(jì)算機(jī)內(nèi)存中完成對所保存肽序列的排序、去冗余以及建立詞典和倒排表的操作。在建立索引后，利用所得到的索引可以快速地實(shí)現(xiàn)對規(guī)?；鞍踪|(zhì)的鑒定。一種規(guī)?；鞍踪|(zhì)鑒定方法包括首先采用前述的索引加速方法創(chuàng)建肽序列的詞典和倒排表；然后利用待鑒定的質(zhì)譜數(shù)據(jù)中的母離子質(zhì)量誤差窗口從所述的肽序列的詞典和倒排表中尋找符合一定質(zhì)量范圍內(nèi)的肽序列，將符合要求的肽序列輸入給打分函數(shù)以實(shí)現(xiàn)對肽序列的鑒定；最后通過對所述肽序列的鑒定實(shí)現(xiàn)對蛋白質(zhì)的鑒定。本發(fā)明除了前述的規(guī)?；鞍踪|(zhì)鑒定方法外，還可以提供與該方法相適應(yīng)的規(guī)?；鞍踪|(zhì)鑒定系統(tǒng)，包括前述的規(guī)?；鞍踪|(zhì)鑒定中的索引加速系統(tǒng)、肽序列鑒定模塊以及蛋白質(zhì)鑒定模塊；其中，所述的肽序列鑒定模塊利用待鑒定的質(zhì)譜數(shù)據(jù)中的母離子質(zhì)量誤差窗口從所述的肽序列的詞典和倒排表中尋找符合一定質(zhì)量范圍內(nèi)的肽序列，將符合要求的肽序列輸入給打分函數(shù)以實(shí)現(xiàn)對肽序列的鑒定；所述的蛋白質(zhì)鑒定模塊通過對所述肽序列的鑒定實(shí)現(xiàn)對蛋白質(zhì)的鑒定。在上述的各個(gè)方法和系統(tǒng)中，由于與對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切相比，對肽序列
做排序、去冗余、建詞典和倒排表的操作所要花費(fèi)的時(shí)間更長，所要花費(fèi)的代價(jià)更大，因此，
在本發(fā)明中盡管對蛋白質(zhì)數(shù)據(jù)庫做了多次的模擬酶切，但在執(zhí)行效率上仍有較大的提高。
與背景技術(shù)中所提到的現(xiàn)有技術(shù)相比，采用本發(fā)明的方法在普通PC機(jī)上創(chuàng)建NCBInr數(shù)據(jù)庫(約580萬條蛋白質(zhì)序列)的索引只需要時(shí)間約2.5小時(shí)、占用空間約8GB(特異性酶切，質(zhì)量范圍600-8000Da、長度范圍4_100、遺漏酶切位點(diǎn)數(shù)為2)，在時(shí)間效率上有很大的提高。最后所應(yīng)說明的是，以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案而非限制。盡管參照實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)說明，本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解，對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換，都不脫離本發(fā)明技術(shù)方案的精神和范圍，其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求范圍當(dāng)中。
權(quán)利要求
一種規(guī)?；鞍踪|(zhì)鑒定中的索引加速方法，包括步驟1)、根據(jù)計(jì)算機(jī)內(nèi)存空間的大小，預(yù)先將肽序列按照質(zhì)量的大小分成多個(gè)質(zhì)量范圍段，使得在所述計(jì)算機(jī)內(nèi)存中一次可對一個(gè)質(zhì)量范圍段內(nèi)的肽序列進(jìn)行處理；步驟2)、對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，將所得到的在一個(gè)質(zhì)量范圍段內(nèi)的肽序列保存在所述計(jì)算機(jī)內(nèi)存中，并在所述計(jì)算機(jī)內(nèi)存中完成對所保存肽序列的排序、去冗余以及建立詞典和倒排表的操作；步驟3)、對其余質(zhì)量范圍段重復(fù)上述步驟2)中的操作，為所述的每個(gè)質(zhì)量范圍段建立詞典和倒排表。
2. 根據(jù)權(quán)利要求1所述的規(guī)?；鞍踪|(zhì)鑒定中的索引加速方法，其特征在于，所述的步驟1)包括步驟1-1)、為肽序列設(shè)定質(zhì)量區(qū)間；步驟l-2)、為用于記錄肽序列數(shù)量的計(jì)數(shù)窗口設(shè)定大小，并結(jié)合步驟1)所設(shè)定的質(zhì)量區(qū)間設(shè)定計(jì)數(shù)窗口的數(shù)目以及各個(gè)計(jì)數(shù)窗口的范圍；步驟1-3)、對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，根據(jù)模擬酶切所得到的肽序列的質(zhì)量計(jì)算肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量；步驟1-4)、根據(jù)計(jì)算機(jī)內(nèi)存的大小得到計(jì)算機(jī)內(nèi)存一次可處理的肽序列的數(shù)量，根據(jù) 在所述計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量以及步驟1-3)所得到的肽序列在各個(gè)計(jì) 數(shù)窗口內(nèi)的數(shù)量，得到計(jì)算機(jī)內(nèi)存一次處理的肽序列的質(zhì)量范圍段。
3. 根據(jù)權(quán)利要求2所述的規(guī)模化蛋白質(zhì)鑒定中的索引加速方法，其特征在于，在所述的步驟1-3)中，所述的根據(jù)模擬酶切所得到的肽序列的質(zhì)量計(jì)算肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量包括步驟1-3-1)、對模擬酶切所得到的一個(gè)肽序列，計(jì)算該肽序列的質(zhì)量，將所得到的質(zhì)量與各個(gè)計(jì)數(shù)窗口的范圍相比較，為比較結(jié)果一致的計(jì)數(shù)窗口增加計(jì)數(shù)值；步驟1-3-2)、對模擬酶切所得到的所有肽序列重復(fù)上述操作，得到所述序列在各個(gè)計(jì) 數(shù)窗口內(nèi)的數(shù)量。
4. 根據(jù)權(quán)利要求2所述的規(guī)?；鞍踪|(zhì)鑒定中的索引加速方法，其特征在于，所述的步驟1-4)包括步驟1-4-1)、根據(jù)計(jì)算機(jī)內(nèi)存的大小與每個(gè)肽序列記錄的大小，得到在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量；步驟1-4-2)、將肽序列在計(jì)數(shù)窗口內(nèi)的數(shù)量與在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量進(jìn)行比較，若肽序列在N個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量小于在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量，且肽序列在N+l個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量大于在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量，則將所述N個(gè)計(jì)數(shù)窗口所對應(yīng)的質(zhì)量范圍作為計(jì)算機(jī)內(nèi)存一次處理的肽序列的質(zhì) 量范圍段，其中的N為正整數(shù)。
5. 根據(jù)權(quán)利要求1所述的規(guī)?；鞍踪|(zhì)鑒定中的索引加速方法，其特征在于，在所述的步驟2)中，所述的排序操作包括將所述的肽序列按照質(zhì)量大小的順序做排列，當(dāng)所述肽序列的質(zhì)量相同時(shí)，根據(jù)結(jié)構(gòu)體中的肽序列起始位置和長度從蛋白質(zhì)數(shù)據(jù)庫中讀取肽序列，然后根據(jù)字典序排序。
6. 根據(jù)權(quán)利要求1所述的規(guī)?；鞍踪|(zhì)鑒定中的索引加速方法，其特征在于，所述的肽序列用一個(gè)標(biāo)準(zhǔn)的定長結(jié)構(gòu)體表示，所述結(jié)構(gòu)體由18個(gè)字節(jié)組成，包括肽序列在原始蛋白質(zhì)數(shù)據(jù)庫中的出現(xiàn)位置、肽序列長度、肽序列質(zhì)量、遺漏酶切位點(diǎn)數(shù)、該肽序列對應(yīng)的蛋白質(zhì)在數(shù)據(jù)庫中位置以及指向倒排表位置的指針。
7. 根據(jù)權(quán)利要求6所述的規(guī)?；鞍踪|(zhì)鑒定中的索引加速方法，其特征在于，在所述的步驟2)中，采用位向量實(shí)現(xiàn)所述的去冗余操作；其中，所述位向量中的一位代表在一個(gè)質(zhì)量范圍段內(nèi)的一個(gè)肽序列是否為冗余序列，在對質(zhì) 量范圍段內(nèi)的多個(gè)肽序列依次掃描時(shí)，若某一種肽序列是第一次出現(xiàn)，則在所述位向量中將對應(yīng)位的值設(shè)為l，若某一種肽序列不是第一次出現(xiàn)，則在所述位向量中將對應(yīng)位的值設(shè)為0。
8. 根據(jù)權(quán)利要求7所述的規(guī)模化蛋白質(zhì)鑒定中的索引加速方法，其特征在于，在所述的步驟2)中，所述的去冗余以及建立詞典和倒排表的操作包括步驟2-l)、掃描位向量，找到標(biāo)記為非重復(fù)肽序列的肽序列，將肽序列結(jié)構(gòu)體中指向倒排表位置的指針指向當(dāng)前倒排表文件的尾部；步驟2-2)、將該肽序列結(jié)構(gòu)體中的部分信息寫入到肽序列詞典文件中，所述部分信息包括肽序列在原始蛋白質(zhì)數(shù)據(jù)庫中的出現(xiàn)位置、肽序列長度、肽序列質(zhì)量、遺漏酶切位點(diǎn) 數(shù)、指向倒排表位置的指針；步驟2-3)、計(jì)算該肽序列在蛋白質(zhì)數(shù)據(jù)庫中出現(xiàn)的蛋白質(zhì)的數(shù)目，將所得到的值寫入倒排表文件的尾部，同時(shí)把對應(yīng)的蛋白質(zhì)在數(shù)據(jù)庫中的位置寫入所述倒排表中；步驟2-4)、繼續(xù)掃描所述位向量，重復(fù)上述步驟2-2)以及2-3)直到所述位向量的尾部。
9. 根據(jù)權(quán)利要求8所述的規(guī)模化蛋白質(zhì)鑒定中的索引加速方法，其特征在于，在所述的步驟2-3)中，所述的計(jì)算該序列在蛋白質(zhì)數(shù)據(jù)庫中出現(xiàn)的蛋白質(zhì)的數(shù)目包括從所述位向量的當(dāng)前位向后掃描直到遇到下一個(gè)值為1的位，讀取當(dāng)前位到下一個(gè)值為1的位之間的肽序列，按照所述結(jié)構(gòu)體中所述的該肽序列對應(yīng)的蛋白質(zhì)在數(shù)據(jù)庫中位置對所述肽序列做排序，然后順序遍歷計(jì)算該值的個(gè)數(shù)，其中將重復(fù)的算作一次，即可得到該序列在蛋白質(zhì)數(shù)據(jù)庫中出現(xiàn)的蛋白質(zhì)的數(shù)目。
10. —種規(guī)?；鞍踪|(zhì)鑒定中的索引加速系統(tǒng)，其特征在于，包括質(zhì)量區(qū)間設(shè)定模塊、計(jì)數(shù)窗口設(shè)定模塊、肽序列質(zhì)量分布計(jì)算模塊、肽序列質(zhì)量范圍段劃分模塊、詞典和倒排表創(chuàng)建模塊；其中，所述的質(zhì)量區(qū)間設(shè)定模塊為肽序列設(shè)定質(zhì)量區(qū)間；所述的計(jì)數(shù)窗口設(shè)定模塊為用于記錄肽序列數(shù)量的計(jì)數(shù)窗口設(shè)定大小，并結(jié)合質(zhì)量區(qū) 間設(shè)定模塊所設(shè)定的質(zhì)量區(qū)間設(shè)定計(jì)數(shù)窗口的數(shù)目以及各個(gè)計(jì)數(shù)窗口的范圍；所述的肽序列質(zhì)量分布計(jì)算模塊對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，根據(jù)模擬酶切所得到的肽序列的質(zhì)量計(jì)算肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量；所述的肽序列質(zhì)量范圍段劃分模塊根據(jù)計(jì)算機(jī)內(nèi)存的大小得到在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量，根據(jù)在所述計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量以及由肽序列質(zhì)量分布計(jì)算模塊所得到的肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量，得到多個(gè)在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的質(zhì)量范圍段；所述的詞典和倒排表創(chuàng)建模塊對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，將所得到的在一個(gè)質(zhì)量范圍段內(nèi)的肽序列保存在所述計(jì)算機(jī)內(nèi)存中，并在所述計(jì)算機(jī)內(nèi)存中完成對所保存肽序列的排序、去冗余以及建立詞典和倒排表的操作。
11. 一種規(guī)模化蛋白質(zhì)鑒定方法，包括步驟1)、采用權(quán)利要求1-9之一的索引加速方法創(chuàng)建肽序列的詞典和倒排表；步驟2)、利用待鑒定的質(zhì)譜數(shù)據(jù)中的母離子質(zhì)量誤差窗口從所述的肽序列的詞典和倒排表中尋找符合一定質(zhì)量范圍內(nèi)的肽序列，將符合要求的肽序列輸入給打分函數(shù)以實(shí)現(xiàn)對肽序列的鑒定；步驟3)、通過對所述肽序列的鑒定實(shí)現(xiàn)對蛋白質(zhì)的鑒定。
12. —種規(guī)?；鞍踪|(zhì)鑒定系統(tǒng)，其特征在于，包括權(quán)利要求IO所述的規(guī)?；鞍踪|(zhì) 鑒定中的索引加速系統(tǒng)、肽序列鑒定模塊以及蛋白質(zhì)鑒定模塊；其中，所述的肽序列鑒定模塊利用待鑒定的質(zhì)譜數(shù)據(jù)中的母離子質(zhì)量誤差窗口從所述的肽序列的詞典和倒排表中尋找符合一定質(zhì)量范圍內(nèi)的肽序列，將符合要求的肽序列輸入給打分函數(shù)以實(shí)現(xiàn)對肽序列的鑒定；所述的蛋白質(zhì)鑒定模塊通過對所述肽序列的鑒定實(shí)現(xiàn)對蛋白質(zhì)的鑒定。
全文摘要
本發(fā)明提供一種規(guī)?；鞍踪|(zhì)鑒定中的索引加速方法，包括為肽序列設(shè)定質(zhì)量區(qū)間；為計(jì)數(shù)窗口設(shè)定大小，并結(jié)合質(zhì)量區(qū)間設(shè)定計(jì)數(shù)窗口的數(shù)目以及各個(gè)計(jì)數(shù)窗口的范圍；對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，根據(jù)模擬酶切所得到的肽序列的質(zhì)量計(jì)算肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量；根據(jù)計(jì)算機(jī)內(nèi)存的大小得到在計(jì)算機(jī)內(nèi)存中一次可處理的肽序列的數(shù)量，結(jié)合肽序列在各個(gè)計(jì)數(shù)窗口內(nèi)的數(shù)量，得到在計(jì)算機(jī)內(nèi)存中一次處理的肽序列的質(zhì)量范圍段；對蛋白質(zhì)數(shù)據(jù)庫做模擬酶切，將所得到的在一個(gè)質(zhì)量范圍段內(nèi)的肽序列保存在計(jì)算機(jī)內(nèi)存中，并在計(jì)算機(jī)內(nèi)存中完成對所保存肽序列的排序、去冗余以及建立詞典和倒排表的操作；為每個(gè)質(zhì)量范圍段建立詞典和倒排表。
文檔編號(hào)G06F19/00GK101714187SQ20081022368
公開日2010年5月26日申請日期2008年10月7日優(yōu)先權(quán)日2008年10月7日
發(fā)明者付巖, 劉超, 孫瑞祥, 李德泉, 李由, 王樂珩, 王文平, 王海鵬, 秀麗蘊(yùn), 袁作飛, 賀思敏, 遲浩申請人:中國科學(xué)院計(jì)算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李由;李德泉;王樂珩;遲浩;王海鵬;付巖;孫瑞祥;賀思敏;劉超;袁作飛;王文平;秀麗蘊(yùn)
技術(shù)所有人：中國科學(xué)院計(jì)算技術(shù)研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

蛋白質(zhì)鑒定相關(guān)技術(shù)

蛋白質(zhì)的鑒定相關(guān)技術(shù)

蛋白質(zhì)鑒定方法相關(guān)技術(shù)

蛋白質(zhì)純度的鑒定方法相關(guān)技術(shù)

蛋白質(zhì)質(zhì)譜鑒定相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種規(guī)?；鞍踪|(zhì)鑒定中的索引加速方法及相應(yīng)的系統(tǒng)的制作方法

一種規(guī)?；鞍踪|(zhì)鑒定中的索引加速方法及相應(yīng)的系統(tǒng)的制作方法