專利名稱:便于對與多個序列間的突變區(qū)與相似區(qū)有關(guān)的信息進(jìn)行存取的序列顯示方法及同源搜索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及對同源的核苷酸序列或氨基酸序列進(jìn)行搜索。
背景技術(shù):
實(shí)質(zhì)上已解碼出人類的基因序列(所有的人類DNA序列),并且由諸如NLM(美國國家醫(yī)學(xué)圖書館)的NCBI(國家生物技術(shù)資訊中心)、屬于美國NIH(國家衛(wèi)生研究院)的一機(jī)構(gòu)、日本的遺傳學(xué)國家學(xué)會及東京大學(xué)的醫(yī)學(xué)研究所、及歐洲的EBI(歐洲生物資訊研究所)和EMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室)這樣的組織建造了用于對DNA序列及來源于DNA序列的氨基酸序列進(jìn)行存儲的數(shù)據(jù)庫(DB)。
除人類之外的諸如小鼠、大鼠、河豚、斑馬魚、果蠅、及線蟲這樣的其他種類的有機(jī)物的基因序列正處于被解碼的處理過程中或已被解碼。
此外,在下一階段中,工作正處于調(diào)查個人之間的基因序列的差異。
這些情況加重了對已知序列與在生物學(xué)和醫(yī)學(xué)的研究過程中所發(fā)現(xiàn)的核苷酸序列或氨基酸序列之間的同源性進(jìn)行比較的極端重要性。例如,如果在研究的過程中一研究人員獲得了一序列,該序列具有與另一研究員所注冊的核苷酸序列或氨基酸序列非常高的同源性,那么在某種程度上已對其起源于那序列的生物機(jī)能進(jìn)行了分析,因此該研究員必須改變他或她的研究方向。另一方面,如果具有與另一研究員已注冊的核苷酸序列或氨基酸序列非常高同源性的一序列仍未注冊,那么根據(jù)已知序列也可預(yù)測起源于在研究的過程中所獲得的核苷酸序列或氨基酸序列的生物機(jī)能。
BLAST(基本局部比對搜索工具(Basic Local Alignment SearchTool),http//www.ncbi.nlm.nih.gov/blast/)是對由NCBI(例如參看分子生物學(xué)雜志(Journal of Molecular Biology),215,第403-410頁(1990))所研發(fā)的核苷酸序列及氨基酸序列的同源性進(jìn)行搜索的一系統(tǒng)。通過使用BLAST,可從諸如Entrez(http//www.ncbi.nlm.nih.gov/entrez)中獲得具有高度同源性的序列,該Entrez是由NCBI所提供的有關(guān)核苷酸序列及氨基酸序列的一DB。因此全世界的生物學(xué)和醫(yī)學(xué)研究員每日都使用該數(shù)據(jù)庫。
除BLAST之外,F(xiàn)SATA(快速比對,F(xiàn)ast Alignment)是對核苷酸序列及氨基酸序列的同源性進(jìn)行搜索的一系統(tǒng)(例如,參考Doolittle(Ed.),Methods in Enzymology,Academic Press,183,pp.63~08(1990))。
除NCBI之外的序列數(shù)據(jù)庫包括由日本的遺傳學(xué)國家學(xué)會所管理的DDBJ(日本的DNA數(shù)據(jù)庫銀行)以及由EBI/EMBL所管理的核苷酸序列及氨基酸序列數(shù)據(jù)庫。此外,根據(jù)不同組織的目標(biāo)而為不同的目的建造了諸如JSNPs這樣的各種核苷酸序列和氨基酸序列數(shù)據(jù)庫,JSNPs是日本東京大學(xué)醫(yī)療研究所的人類基因的單核苷酸多態(tài)性數(shù)據(jù)庫,并且根據(jù)每個研究員的目的來使用這些數(shù)據(jù)庫。
當(dāng)在上述任一種序列數(shù)據(jù)庫中對核苷酸序列或氨基酸序列的同源性進(jìn)行搜索時(shí),研究員通常使用上述BLAST或FASTA系統(tǒng)。
另外,采用同源搜索來進(jìn)行序列分析通常需要這樣一種功能,即根據(jù)同源性來比對三個或多個核苷酸序列的相應(yīng)部分(在下文中被稱為多序列比較或多序列比對)。用于執(zhí)行多序列比對的軟件包括例如由EBI/EMBL所開發(fā)的Clustal W和Clustal X。許多其他類型的多序列比較軟件也可被適用并被研究員所使用,其包括有日本所開發(fā)的軟件。
在核苷酸序列或氨基酸序列的同源搜索過程中,提交給序列數(shù)據(jù)庫的一查詢是以用戶的輸入所提供的一核苷酸序列或氨基酸系列,或者該查詢是根據(jù)以用戶的輸入所提供的信息而獲得的核苷酸序列或氨基酸系列,并且對相似的序列進(jìn)行搜索。在搜索結(jié)果中最重要的點(diǎn)就是核苷酸或氨基酸的相異點(diǎn)(在下文中稱為突變)以及在查詢中所提交的核苷酸序列或氨基酸序列與存在相應(yīng)的同源現(xiàn)象的區(qū)域中的搜索結(jié)果的核苷酸系列或氨基酸系列之間的相同點(diǎn)(在下文中稱為相似)。
當(dāng)使用BLAST或FASTA時(shí),在獲得與突變點(diǎn)有關(guān)的信息以及與相似點(diǎn)有關(guān)的信息的過程中,會遇到這樣幾個問題1、因?yàn)槌蓪Φ娘@示在查詢中所提交的序列以及所搜索的序列,因此用戶必須相互對照所有對的比較結(jié)果,以便獲得大量序列間的諸如突變頻率或突變區(qū)這樣的重要信息。
2、因?yàn)橥ㄟ^切斷僅具有高度同源性的那部分而顯示了部分搜索結(jié)構(gòu),因此很難了解所顯示的是整個序列的哪一部分。
3、當(dāng)對其部分進(jìn)行比較的核苷酸或氨基酸是相同時(shí),顯示“|”或“.”,因此很難即刻就理解該結(jié)果。
4、因?yàn)閮H以簡單的文本格式來顯示搜索結(jié)果,因此很容易漏看突變點(diǎn)。
綜述上述要點(diǎn),具有搜索結(jié)果顯示問題的BLAST或FASTA系統(tǒng)很難存取用戶最需要的諸如序列間的突變區(qū)或相似區(qū)這樣的重要信息。
作為上述問題的對策,研究員經(jīng)常執(zhí)行多序列比對。然而,當(dāng)利用上述軟件來執(zhí)行多序列比對時(shí),不能充分的克服上述問題。
作為一例子,上述Clustal X具有可彩色顯示氨基酸的突變區(qū)這樣的一功能。然而,色彩的標(biāo)準(zhǔn)是不固定的并且色彩除使突變顯著之外沒有什么意義。
此外,根據(jù)所使用的軟件,確定同源性的方法不同于BLAST或FASTA的方法。因此,當(dāng)根據(jù)BLAST或FASTA的搜索結(jié)果來執(zhí)行多序列比對時(shí),相應(yīng)氨基酸位置經(jīng)常偏移。在這種情況下,因此必需這樣的一過程,即利用BLAST所獲得的搜索結(jié)果作為一標(biāo)準(zhǔn)來比對相應(yīng)的氨基酸位置。
另外,當(dāng)通過利用該軟件來尋找同源性時(shí),必須預(yù)先匯集將被比較的所有序列。如果大量的序列要比較,因此核實(shí)未遺漏序列的過程使研究員具有很大的重?fù)?dān)。
發(fā)明內(nèi)容
因此本發(fā)明的一個目的就是提出了一種序列顯示方法及同源搜索方法,上述方法便于對與序列間的突變區(qū)及相似區(qū)有關(guān)的信息進(jìn)行存取,并且還可使得顯示所搜索到的所有序列。
為實(shí)現(xiàn)上述目的,本發(fā)明的序列顯示方法根據(jù)多個相似核苷酸序列或氨基酸序列中的突變和/或相似來增加視覺特性。
將視覺特性添加到多個相似核苷酸序列或氨基酸序列中的突變區(qū)和/或相似區(qū)上。
另外,根據(jù)多個相似核苷酸序列或氨基酸序列中的突變程度和/或相似程度來添加視覺特性。
更進(jìn)一步,根據(jù)多個相似核苷酸序列或氨基酸序列中的突變區(qū)的突變頻率來添加視覺特性。
根據(jù)上述方面,用戶可立即獲得諸如突變和相似這樣的重要信息,而無需用戶他自己或她自己來執(zhí)行相互對照。
此外,當(dāng)將核苷酸系列轉(zhuǎn)換成氨基酸系列時(shí),根據(jù)氨基酸信息來添加視覺特性,該氨基酸信息包括與核苷酸序列中的突變區(qū)的密碼相對應(yīng)的氨基酸的名稱和特性。因此有可能在產(chǎn)生氨基酸時(shí)估算核苷酸的突變效果。
借助于顯示色彩、顯示色彩的變化、或字符的種類來體現(xiàn)出這些視覺特性。
此外,利用每個已比對序列中的相應(yīng)核苷酸或氨基酸來顯示多個相似核苷酸序列或氨基酸序列。因此用戶可很容易的理解與多序列比對結(jié)果中的核苷酸或氨基酸的突變或相似有關(guān)的區(qū)域、程度、及頻率。
另外,提供了與多個相似核苷酸序列或氨基酸序列有關(guān)的信息的鏈接。因此顯示信息包括其包含在同源搜索結(jié)果中的信息項(xiàng)間的鏈接以及其包含在同源搜索結(jié)果中的信息與諸如因特網(wǎng)上的信息這樣的外部信息之間的鏈接,并且所提供的鏈接信息便于相互對照或觀看參照信息。
本發(fā)明的同源搜索方法包括步驟對以用戶輸入所提供的生物信息數(shù)據(jù)庫所進(jìn)行的一查詢進(jìn)行分析;根據(jù)該查詢的分析結(jié)果,產(chǎn)生了適合于生物信息數(shù)據(jù)庫的搜索條件并且對生物信息數(shù)據(jù)庫進(jìn)行搜索;分析該搜索結(jié)果;并且利用該搜索結(jié)果以及上述序列顯示方法來顯示搜索結(jié)果。借助于該方法,作為一單元來執(zhí)行從搜索到顯示的步驟。其結(jié)果是,即使在執(zhí)行多序列比對時(shí),也可減輕用戶要核實(shí)是否忽略了某些已匯集序列的重?fù)?dān)。
此外,同源搜索設(shè)備中具有一控制單元,該控制單元用于控制上述每個步驟的處理。
上述所述的本發(fā)明具有下述效果首先,無需要求用戶相互對照或復(fù)查即可獲得具有諸如核苷酸序列和氨基酸序列的同源搜索結(jié)果中的突變頻率和突變區(qū)這樣的特定意義的信息。因?yàn)橐暂斎氲姆绞教峁┝税ㄓ卸鄠€相似核苷酸序列或氨基酸序列的同源搜索結(jié)果,并且此后將其作為顯示信息,根據(jù)多個相似核苷酸序列或氨基酸序列中的突變和相似而將視覺特性添加到上述顯示信息上,因此可獲得該效果。
第二,即刻就可理解其作為同源搜索結(jié)果的多個序列中的突變區(qū)。因?yàn)橐暂敵龅姆绞教峁┝税ㄓ信c多個相似核苷酸序列或氨基酸序列中的突變區(qū)有關(guān)的視覺特性的顯示信息,因此可獲得該效果。
第三,即刻就可理解作為同源搜索結(jié)果的多個序列中的相似區(qū)。因?yàn)橐暂敵龅姆绞教峁┝税ㄓ信c多個相似核苷酸序列或氨基酸序列中的相似區(qū)有關(guān)的視覺特性的顯示信息,因此可獲得該效果。
第四,可一同顯示具有高度同源性的區(qū)域以及其作為同源搜索結(jié)果的多個序列的全部。因?yàn)楸景l(fā)明所顯示的信息包括整個序列,因此可獲得該效果。
第五,可顯示該結(jié)果,同時(shí)去除了多序列比對結(jié)果中的核苷酸位置的偏移。因?yàn)橐韵率龇绞蕉峁┝怂@示的信息,該方式即就是根據(jù)核苷酸和氨基酸的位置關(guān)系來進(jìn)行比對,因此可獲得該效果。
第六,預(yù)先匯集了所要比較的序列信息,或當(dāng)所希望的序列信息不在手邊時(shí),通過利用與諸如基因、氨基酸、疾病、蛋白質(zhì)的名稱這樣的序列相關(guān)的信息來獲得序列信息。因?yàn)榘杏糜趯⑺阉鳁l件信息傳送到多個序列數(shù)據(jù)庫的裝置,因此可獲得該效果。
第七,該顯示可使得立刻理解作為同源搜索結(jié)果及多序列比對結(jié)果的序列突變區(qū)和相似區(qū)。因?yàn)楸景l(fā)明結(jié)合了上述第一至第六效果,因此可獲得該效果。
第八,可減少在獲得同源搜索結(jié)果的過程中由用戶所必須執(zhí)行的操作,因此減少了用戶的重?fù)?dān)。因?yàn)樵诙嘈蛄斜葘χ胁恍枰ㄎ?,因?yàn)樵诎ㄓ性陲@示信息中相互對照這樣的過程中使用了鏈接,并且因?yàn)榕c序列有關(guān)的信息被用于獲得序列信息,因此可獲得該效果。
第九,當(dāng)搜索條件被改變而執(zhí)行重復(fù)的搜索時(shí),研究員不必改變條件且不必重復(fù)搜索,由此可有效的執(zhí)行同源搜索。因?yàn)榘ㄓ幸豢刂茊卧钥刂埔凰阉鞯囊幌盗胁僮?,因此可獲得該效果。包含該類控制單元可控制將一查詢提交給公眾序列數(shù)據(jù)的時(shí)間,由此本發(fā)明還具有可減小公眾序列數(shù)據(jù)庫服務(wù)器的重?fù)?dān)這樣一個效果。
參照隨后的附圖,從下述說明書中可顯而易見的得出本發(fā)明的上述和其他目的、特性、及優(yōu)點(diǎn)。附解說明了本發(fā)明的例子。
圖1給出了本發(fā)明第一實(shí)施例的同源搜索設(shè)備的方框圖;圖2給出了查詢分析單元11中的處理流程圖;圖3給出了通信單元12中的處理流程圖;圖4給出了結(jié)果分析單元13中的處理流程圖;圖5給出了顯示單元14中的處理流程圖;圖6給出了核苷酸序列的同源搜索中的輸入屏的一示例;圖7給出了核苷酸序列的同源搜索中的結(jié)果屏示例的一部分;圖8給出了核苷酸序列的同源搜索中的結(jié)果屏示例的另一部分;圖9給出了氨基酸序列的同源搜索中的輸入屏的一示例;圖10給出了氨基酸序列的同源搜索中的結(jié)果屏的一示例;圖11給出了氨基酸傳輸矩陣BLOSUM62;圖12給出了現(xiàn)有技術(shù)的BLAST搜索結(jié)果的一示例;以及圖13給出了本發(fā)明第二實(shí)施例的同源搜索設(shè)備的結(jié)構(gòu)。
具體實(shí)施例方式
參考圖1,根據(jù)本發(fā)明第一實(shí)施例的同源搜索設(shè)備10包括查詢分析單元11、通信單元12、結(jié)果分析單元13、及顯示單元14。
查詢單元11接收以用戶輸入所提供的對序列數(shù)據(jù)庫22的查詢,執(zhí)行分析,并將序列的搜索條件作出輸出而提供給通信單元12。作為輸入的所接收到的一查詢包括一核苷酸序列或氨基酸序列、或存取數(shù)、實(shí)驗(yàn)數(shù)據(jù)、或作為主信息的文檔。該查詢進(jìn)一步包括序列數(shù)據(jù)庫22的名稱、用于限制結(jié)果的生物種類、在核苷酸的情況下是否轉(zhuǎn)化為氨基酸、以及在氨基酸的情況下是否使用PSI-BLAST(位置特異性疊代基本局部比對搜索工具,Position Specific Iterative Basic LocalAlignment Search Tool)。
通信單元12接受來自查詢分析單元11的搜索條件并經(jīng)由服務(wù)器21而將搜索條件傳送到序列數(shù)據(jù)庫22。通信單元12此后接收經(jīng)由服務(wù)器21而來自序列數(shù)據(jù)庫22的搜索結(jié)果,并將搜索結(jié)果和搜索條件作出輸出提供給結(jié)果分析單元13。
結(jié)果分析單元13接收來自通信單元12的搜索條件和搜索結(jié)果并執(zhí)行對搜索結(jié)果的分析。搜索結(jié)果的分析包括產(chǎn)生諸如突變的區(qū)域、頻率、程度這樣的信息。此后結(jié)果分析單元13將這些結(jié)果提供給顯示單元14。
顯示單元14接收來自結(jié)果分析單元13的分析結(jié)果,并根據(jù)包含在分析結(jié)果中的諸如突變的區(qū)域、頻率、程度這樣的信息來添加視覺信息(例如,改變特性的顏色或種類),并且進(jìn)一步產(chǎn)生并提供顯示信息。
參考附圖對同源搜索設(shè)備10的操作進(jìn)行詳細(xì)的描述。
首先參考附圖2,給出了用于說明查詢分析單元11中的處理流程的流程圖。
在步驟S201,首先根據(jù)以輸入而接收到的一查詢來確定是否執(zhí)行同源搜索。當(dāng)該查詢是一序列或一登錄號時(shí),設(shè)置一標(biāo)記以便執(zhí)行同源搜索。當(dāng)查詢指示了一搜索結(jié)果文件時(shí),設(shè)置一標(biāo)記以便不執(zhí)行同源搜索。
在步驟S202,設(shè)置一標(biāo)記,該標(biāo)記表示是否根據(jù)以輸入而接收到的查詢而將包含在查詢中的信息轉(zhuǎn)換成一序列。例如,如果該查詢包括一登錄號,則在步驟S203將序列信息轉(zhuǎn)換標(biāo)記值設(shè)置為真。
在步驟S204,根據(jù)以輸入而接收到的一查詢來確定所接收到的序列或由所接收到的信息所標(biāo)識的序列是否是一核苷酸系列或一氨基酸序列。
如果在步驟S204中確定出該序列是一核苷酸序列,則可在步驟S205獲得與用戶將其指定為核苷酸序列數(shù)據(jù)庫的數(shù)據(jù)庫有關(guān)的信息。核苷酸序列數(shù)據(jù)庫包括例如nr(非豐余序列,即一標(biāo)準(zhǔn)的非豐余序列數(shù)據(jù)庫),EST(已表達(dá)序列標(biāo)識,即已表達(dá)基因序列數(shù)據(jù)庫),及SNPs(單核苷酸多態(tài)性,即單核苷酸多態(tài)性序列數(shù)據(jù)庫)。
在步驟S206,根據(jù)以輸入而接收的查詢來確定是否將所接收到的核苷酸序列或由所接收到的信息所標(biāo)識的核苷酸序列轉(zhuǎn)換成一氨基酸序列并進(jìn)一步對其進(jìn)行分析。如果對該序列進(jìn)行了轉(zhuǎn)換,則在步驟207將氨基酸轉(zhuǎn)換標(biāo)記值設(shè)置為真。
如果在步驟204中確定出所接收到序列或由所接收到的信息所標(biāo)識的序列是一氨基酸序列,則在步驟208獲得了與用戶所指定的氨基酸序列數(shù)據(jù)庫有關(guān)的信息。氨基酸序列數(shù)據(jù)庫包括例如nr(非豐余序列,即一標(biāo)準(zhǔn)的非豐余序列的數(shù)據(jù)庫),PDB(蛋白質(zhì)數(shù)據(jù)庫,即蛋白質(zhì)的三維結(jié)構(gòu)數(shù)據(jù)庫),swissprot(氨基酸序列數(shù)據(jù)庫),專利(專利的序列的數(shù)據(jù)庫),yeast(酵母序列數(shù)據(jù)庫),及month(最近所增加的序列的數(shù)據(jù)庫)。
在步驟209,根據(jù)以輸入而接收到的查詢來確定是否執(zhí)行PSI-BLAST(位置特異性疊代基本局部比對搜索工具)。如果執(zhí)行PSI-BLAST,則在步驟210將PSI-BLAST標(biāo)記值設(shè)置為真。
在步驟211,根據(jù)以輸入而接收到的查詢來確定該搜索結(jié)果是否受限于生物種類。這里生物種類是指例如病毒、細(xì)菌、真菌、真核生物、哺乳動物、嚙齒類動物、阿拉伯芥、枯草桿菌、線蟲、斑馬魚、果蠅、大腸桿菌、人、小鼠、大鼠、或非洲的爪蛙。當(dāng)用戶指定了限制時(shí),在步驟212將生物種類信息標(biāo)記值設(shè)置為真。
參考圖3,對通信單元12中的處理流程的流程圖進(jìn)行詳細(xì)的描述。
在步驟301,確定在步驟205或步驟208所指定的序列數(shù)據(jù)庫的位置。
在很普通的作法中,將序列數(shù)據(jù)庫的位置劃分成僅為本地、本地與互聯(lián)網(wǎng)、及僅為互聯(lián)網(wǎng)。在這種情況下,本地位置表示其包括有同源搜索設(shè)備10本身和LAN(本地網(wǎng))的范圍?;ヂ?lián)網(wǎng)表示W(wǎng)AN的范圍(廣域網(wǎng),其采用了諸如電話線這樣的連接)。
如果位置僅限于本地,則在步驟302中由所接收到的來自分析接收單元11的搜索條件產(chǎn)生了與序列數(shù)據(jù)庫相對應(yīng)的一查詢。
在步驟303,將步驟302中所產(chǎn)生的查詢轉(zhuǎn)送到本地服務(wù)器并執(zhí)行同源搜索。
在步驟304,綜合步驟303所執(zhí)行的同源搜索結(jié)果。
當(dāng)該位置既處于互聯(lián)網(wǎng)又處于本地時(shí),則在步驟305根據(jù)所接收到的來自查詢分析單元11的搜索條件而產(chǎn)生了與序列數(shù)據(jù)庫相對應(yīng)的一查詢。
在步驟306,將步驟305所產(chǎn)生的查詢傳送到本地服務(wù)器,并執(zhí)行同源搜索。
在步驟307,將步驟305所產(chǎn)生的查詢傳輸?shù)交ヂ?lián)網(wǎng)的服務(wù)器上,并執(zhí)行同源搜索。
在步驟308,綜合步驟306和307所執(zhí)行的同源搜索結(jié)果。
當(dāng)位置僅處于互聯(lián)網(wǎng)時(shí),則在步驟309根據(jù)所接收到的來自查詢分析單元11的搜索條件而產(chǎn)生了與序列數(shù)據(jù)庫相對應(yīng)的一查詢。
在步驟310,將步驟309所產(chǎn)生的查詢傳送到互聯(lián)網(wǎng)的本地服務(wù)器上,并執(zhí)行同源搜索。
在步驟311,綜合步驟310所產(chǎn)生的同源搜索結(jié)果。
在步驟312,保存步驟304、308、或311所綜合的同源搜索結(jié)果。
參考圖4,對結(jié)果分析單元13中的處理流程的流程圖進(jìn)行詳細(xì)的描述。
在步驟401,取出所接收到的來自通信單元12的搜索結(jié)果。當(dāng)不執(zhí)行同源搜索時(shí),取回用戶所指定的文件。
在步驟402,對步驟401所取出的搜索結(jié)果進(jìn)行分析,確定所查詢的序列的突變區(qū),并獲得了這些突變區(qū)的信息。
在步驟403,對步驟402所獲得的突變點(diǎn)的信息進(jìn)行綜合,并計(jì)算在比較的過程該序列出現(xiàn)突變的頻率。
在步驟404,計(jì)算步驟403所獲得的突變區(qū)中的突變程度。如果所查詢的序列是核苷酸序列并且如果在用于將核苷酸序列轉(zhuǎn)換成氨基酸序列并對其進(jìn)行分析的圖2的步驟207中設(shè)置了一標(biāo)識,則將以輸入而接收到的核苷酸序列以及所搜索的核苷酸序列均轉(zhuǎn)換成氨基酸序列,并且此后對這些氨基酸序列進(jìn)行比較。
這里所描述的突變程度指的是例如在核苷酸序列的情況下是否出現(xiàn)了氨基酸置換,或在氨基酸序列的情況下諸如疏水程度或酸性程度/堿性程度這樣的特性出現(xiàn)了多大變化。在氨基酸序列或其被轉(zhuǎn)換成氨基酸序列的核苷酸序列的情況下,借助于例如被稱為BLOSUM62的信息矩陣來計(jì)算該特性的近似度。然而,這僅僅是示例性的,并且根據(jù),但不局限于酸性、疏水程度、和/或等電點(diǎn)來進(jìn)行該計(jì)算。
在步驟405,將分析結(jié)果提供給顯示單元14。
參考圖5,對顯示單元14中的處理流程的流程圖進(jìn)行詳細(xì)的描述。
在步驟501,對序列進(jìn)行重新排序以便根據(jù)圖4中的步驟402所分析的突變區(qū)的信息來比對相應(yīng)區(qū)。
在步驟502,根據(jù)圖4中的步驟402所分析的突變區(qū)的信息來確定突變區(qū)的視覺特性(例如文本的顏色或文本的類型)。
視覺特性在這里指的是包括諸如字體、大寫字母或小寫字母,及文本顏色;以及顏色、圖案、紋理、背景動畫。然而,這僅僅是示例性的,并且視覺特性還包括例如文本的字號、粗細(xì)、下劃線、斜體、閃爍、陰影、輪廓、邊框。
在步驟503,根據(jù)與圖4中的步驟403所分析的突變頻率有關(guān)的信息來確定突變頻率的視覺特性(例如背景顏色)。這里,最好是利用顯示顏色的變化來體現(xiàn)出該頻率。顯示顏色的變化是指例如色彩的色調(diào)(shade)或色度(hue)的變化(例如,從紅到蘭的變化)。
在步驟504,根據(jù)與圖4的步驟404所分析的突變程度有關(guān)的信息來確定突變程度的視覺特性(例如,背景顏色)。這里,利用顯示顏色的變化來體現(xiàn)出該程度。顯示顏色的變化是指例如色彩的色調(diào)或色度的變化(例如,從紅到蘭的變化)。
在步驟505,通過鏈接來連接其包含在同源搜索結(jié)果中的信息。
在步驟506,根據(jù)輸出并基于圖5的步驟501至505所適用的視覺特性的信息來將其轉(zhuǎn)換成適當(dāng)?shù)娘@示格式。這里所指的輸出例如可以是屏幕輸出或打印機(jī)輸出,并且顯示格式可以是例如HTML(超文本標(biāo)記語言)、XML(擴(kuò)展標(biāo)記語言)。然而,這僅僅是示例性的,并且顯示格式還可以是TeX,bmp,gif,jpeg,PNG,TIFF,PICT,PDF(可攜式電子文件格式),或PostScript。
下面參考附圖對第一實(shí)施例的同源搜索設(shè)備的操作這樣一個例子進(jìn)行詳細(xì)的描述。在下述說明中,將圖2至圖5的流程圖所給出的每個步驟轉(zhuǎn)換成計(jì)算機(jī)程序格式,該計(jì)算機(jī)程序記錄在記錄介質(zhì)中并且個人計(jì)算機(jī)用作同源搜索設(shè)備10以使其讀取改記錄介質(zhì)并由此進(jìn)行操作。
現(xiàn)在參考附圖6,給出了用于引導(dǎo)對核苷酸序列進(jìn)行同源搜索的一輸入屏。這里,用戶執(zhí)行輸入核苷酸序列(輸入你的查詢)、標(biāo)識執(zhí)行搜索的序列數(shù)據(jù)庫(所選擇的數(shù)據(jù)庫)、標(biāo)識是否將核苷酸序列轉(zhuǎn)換成氨基酸并對其進(jìn)行分析(顯示所轉(zhuǎn)換的密碼)、標(biāo)識其可限制搜索結(jié)果的生物種類(通過entrez查詢來限制)、并標(biāo)識仍未被分析的搜索結(jié)果文件(輸入查詢文件)。
在用戶通過在核苷酸序列輸入格中輸入而提供了核苷酸序列(輸入你的查詢)之后,用戶點(diǎn)擊提交按鈕,由此查詢分析單元11接收核苷酸序列。此后如前面所描述的每個單元執(zhí)行每個處理。
在該示例中,用戶可指明是否將核苷酸序列轉(zhuǎn)換成氨基酸并對其進(jìn)行分析。將該標(biāo)識另存為氨基酸轉(zhuǎn)換標(biāo)記。如果該標(biāo)記是真,將以輸入所接收的核苷酸序列轉(zhuǎn)換成氨基酸序列,并且通過考慮氨基酸序列來計(jì)算突變程度。按照這種方式,用戶可很容易理解核苷酸的突變是否伴隨有氨基酸的置換,并且可獲得一標(biāo)識,該標(biāo)識是有關(guān)與是否必須通過實(shí)驗(yàn)操作將該突變恢復(fù)為其最初狀態(tài)。
在該實(shí)施例中,此外,用戶可標(biāo)識所要搜索的序列數(shù)據(jù)庫。因此可根據(jù)已保存的序列數(shù)據(jù)庫信息來分布配置該查詢。例如,如果用戶標(biāo)識了進(jìn)行查詢的核苷酸序列并且將nr和EST指定為序列數(shù)據(jù)庫,則在每個nr和EST中執(zhí)行對核苷酸序列的同源搜索。因此,用戶不僅能通過指明序列數(shù)據(jù)庫的數(shù)目而獲得在內(nèi)的所需信息,還可通過選擇與搜索目的一致的序列數(shù)據(jù)庫而除去了多余的搜索結(jié)果,并且由此獲得了其很容易被理解的搜索結(jié)果。
在該示例中,此外,用戶可標(biāo)識搜索結(jié)果是否受限于生物種類。該標(biāo)識位于生物種類信息標(biāo)記中。如果標(biāo)記為真,則只顯示與所標(biāo)識的生物種類的序列進(jìn)行比較的結(jié)果。例如,用戶指明人、小鼠、大鼠作為生物種類,由此用戶可除去多余的搜索結(jié)果并由此獲得了其很容易被理解的搜索結(jié)果。
此外,在該示例中,用戶可把在以前的同源搜索結(jié)果中所獲得的結(jié)果選為分析的對象。例如,可指定其仍未被分析的一文件。在這種情況下,設(shè)置一標(biāo)記以便對結(jié)果只進(jìn)行分析而無需進(jìn)行同源搜索。其結(jié)果是,用戶可利用在本發(fā)明中所使用的分析來更好的理解未被本發(fā)明所導(dǎo)出的搜索結(jié)果。
參考圖7,給出了當(dāng)對核苷酸序列進(jìn)行同源搜索時(shí)的結(jié)果屏的一部分。圖7給出了所提交的進(jìn)行查詢的核苷酸序列。由紅字標(biāo)識了所提交的進(jìn)行查詢的核苷酸序列的突變區(qū)。對核苷酸序列以下的相應(yīng)氨基酸序列進(jìn)行詳細(xì)的描述。尤其是,由小寫字母標(biāo)識了其伴隨有氨基酸置換的核苷酸序列的突變區(qū)。按照這種方式,用戶可很容易理解核苷酸的不同之處是否伴隨有氨基酸的置換并且可判斷是否通過實(shí)驗(yàn)操作將該不同之處恢復(fù)為其最初狀態(tài)。
此外,將與多序列比對比較的詳細(xì)結(jié)果的鏈接(將在圖8的有關(guān)部分進(jìn)行說明)加入到每個突變區(qū),由此用戶可相互對照所提交的進(jìn)行查詢的序列的不同之處的所有狀態(tài)及每個不同之處的詳細(xì)情況。
現(xiàn)在參考圖8,給出了當(dāng)對核苷酸序列進(jìn)行同源搜索時(shí)的顯示屏的另一部分。圖8是多序列比對比較的結(jié)果屏。位于上部的序列是如圖7所示的所提交的對其進(jìn)行查詢的序列并且之下的序列同源搜索的結(jié)果。將該序列劃分成60個字符的組。字符的數(shù)目可以是例如90個字符、120個字符、或是可所顯示的最多字符。在該示例中,考慮到將三個核苷酸轉(zhuǎn)換成與一個氨基酸相對應(yīng),并且因此將字符劃分成其數(shù)目可被3整數(shù)的這么多個組,并且此外為使用戶便于理解,將字符劃分成其數(shù)目可被10整除的這么多個組,例如30的倍數(shù)。
在突變區(qū)中,尤其是在已知道插入有核苷酸的區(qū)域中,使背景色彩為黃色以增加特別的強(qiáng)調(diào)。該強(qiáng)調(diào)表明插入了或遺漏了核苷酸并意味著該區(qū)域上的氨基酸序列發(fā)生了徹底的變化,對于研究員而言這是非常重要的信息。
另外,在每個突變區(qū),背景色彩的色調(diào)標(biāo)識了出現(xiàn)突變的頻率。用戶因此可得到該突變是否是在實(shí)驗(yàn)中是不能避免的,是否是為序列所特有的特征(例如,當(dāng)該突變是由特別的疾病引起的),或者是否是必須通過實(shí)驗(yàn)操作而恢復(fù)為其最初狀態(tài)的一標(biāo)識。
此外,通過根據(jù)同源性來比對相應(yīng)部分而顯示序列。
另外,為圖12的現(xiàn)有序列比較結(jié)果的鏈接附加上信息。用戶通過指明哪一個核苷酸序列是用戶想要看的而可顯示該區(qū)域中的序列比較。按照這種方式,用戶可在內(nèi)的相互對照突變信息。
參考圖9,給出了用于執(zhí)行氨基酸序列的同源搜索的一輸入屏。這里,用戶執(zhí)行輸入氨基酸序列(輸入你的查詢)、標(biāo)識執(zhí)行搜索的序列數(shù)據(jù)庫(所選擇的數(shù)據(jù)庫)、標(biāo)識是否執(zhí)行PSI-BLAST(PSI-BLAST重復(fù))、標(biāo)識其可限制搜索結(jié)果的生物種類(通過entrez查詢來限制)、并標(biāo)識仍未被分析的搜索結(jié)果文件(輸入查詢文件)。
在用戶按照輸入氨基酸序列的形式而輸入了氨基酸序列(輸入你的查詢)之后,用戶點(diǎn)擊提交按鈕,由此查詢分析單元11接收氨基酸序列。此后如前面所描述的每個單元執(zhí)行每個處理。
在該示例中,用戶可標(biāo)識是否利用PSI-BLAST而獲得了搜索結(jié)果。將該標(biāo)識保存為PSI-BLAST標(biāo)記。用戶因此可使用PSI-BLAST作為用于獲得搜索結(jié)果的方式,并可對除PSI-BLAST之外的方法均不能獲得其同源性的一序列進(jìn)行比較。
此外,用戶可標(biāo)識是否由生物種類來限制結(jié)果。將該標(biāo)識保存為生物種類標(biāo)記。
用戶可進(jìn)一步把在以前的同源搜索中所獲得的結(jié)果選為分析的對象。
參考圖10,給出了在對氨基酸序列進(jìn)行同源搜索的情況下的一結(jié)果屏。圖10的上部是所提交的進(jìn)行查詢的氨基酸序列,該氨基酸序列與圖7中的核苷酸序列相對應(yīng)。圖10的下部是多序列比對的比較結(jié)果并且與圖8的核苷酸序列相對應(yīng)。
由紅色字母標(biāo)識了以輸入所提供的核苷酸序列的突變區(qū),由此用戶可容易理解所提交的進(jìn)行查詢的序列的突變區(qū)的所有狀態(tài)。
此外,將多序列比對的每個序列劃分為60個字符的單元。
利用基于同源性所比對的相應(yīng)部分來顯示該序列。
在每個不同之處,由背景色彩的色調(diào)來標(biāo)識其差別度。
此外,當(dāng)察看多插入的氨基酸時(shí),將背景色彩高亮顯示為黃色。
二十類氨基酸被用于有機(jī)體中,并且為每個氨基酸確定了諸如疏水程度或酸度/堿度這樣的特性。當(dāng)這些特性與不同之處同時(shí)變化時(shí),預(yù)知所有序列的特性會發(fā)生變化,并且此外,當(dāng)差別點(diǎn)位于活性酶的中心位置時(shí),將會喪失酶的功能。根據(jù)該事實(shí),其描述了氨基酸間的特性差別的變換矩陣被用于計(jì)算氨基酸間的特性近似度,并通過改變背景色彩的色調(diào)來體現(xiàn)出該值。在該示例中,圖11所示的變換矩陣BLOSUM62被用作該變換矩陣。
在圖10中,附加了與圖12的現(xiàn)有序列比較結(jié)果相鏈接的信息。通過指明哪一個核苷酸序列是他或她想要查看的,用戶可顯示相關(guān)區(qū)域,由此用戶可在內(nèi)的相互對照該突變信息。
參考圖13,根據(jù)本發(fā)明第二實(shí)施例的同源搜索設(shè)備與第一實(shí)施例的同源搜索設(shè)備的不同之處在于其包括控制單元15,并且下述說明因此限控制單元15。
控制單元15控制查詢分析單元11、通信單元12、結(jié)果分析單元13、及顯示單元14的操作。所提供的控制單元15可通過監(jiān)控分析結(jié)果的產(chǎn)生并當(dāng)執(zhí)行連續(xù)的查詢處理或當(dāng)搜索多個序列數(shù)據(jù)庫時(shí)監(jiān)控通信電路中的阻塞狀態(tài)來控制每個單元的處理時(shí)序。
控制單元15接收來自查詢分析單元11、通信單元12、結(jié)果分析單元13、及顯示單元14的處理狀態(tài)通知;并根據(jù)這些通知來進(jìn)行有效控制以便連續(xù)的執(zhí)行每個單元的處理。其結(jié)果是,第二實(shí)施例的查詢分析單元11、通信單元12、結(jié)果分析單元13、及顯示單元14具有這樣的能力,即一完成處理就向控制單元15報(bào)告結(jié)束控制,并根據(jù)控制單元15的操作控制進(jìn)行操作。其結(jié)果是,當(dāng)用戶想要執(zhí)行自動搜索并對大量的查詢進(jìn)行分析時(shí),用戶不必輸入每個查詢,并且由此極大的減輕了用戶的負(fù)擔(dān)。
雖然利用專用名詞對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行了詳細(xì)的描述,但是這些描述僅僅是示例性的,并且應(yīng)該理解的是在不脫離隨后權(quán)利要求的精神和范圍的情況下可對其作出修改和變化。
權(quán)利要求
1.一種序列顯示方法,包括第一步驟,由序列顯示設(shè)備接受與多個相似核苷酸序列或氨基酸序列的突變或相似有關(guān)的信息;第二步驟,根據(jù)所述突變或相似來添加視覺特性,并顯示所述多個相似核苷酸序列或氨基酸序列。
2.根據(jù)權(quán)利要求1的序列顯示方法,其中將所述視覺特性添加到所述多個相似核苷酸序列或氨基酸序列中的突變區(qū)和/或相似區(qū)上。
3.根據(jù)權(quán)利要求1的序列顯示方法,其中根據(jù)所述突變程度和/或相似程度來添加所述視覺特性。
4.根據(jù)權(quán)利要求2的序列顯示方法,其中根據(jù)所述突變區(qū)中的突變頻率來添加所述視覺特性。
5.根據(jù)權(quán)利要求2的序列顯示方法,其中根據(jù)包含氨基酸名稱和特性的氨基酸信息來添加所述視覺特性,該氨基酸與所述多個相似核苷酸序列中的密碼相對應(yīng)。
6.根據(jù)權(quán)利要求1的序列顯示方法,其中利用顯示色彩來顯示所述視覺特性。
7.根據(jù)權(quán)利要求1的序列顯示方法,其中利用顯示色彩的變化來顯示所述視覺特性。
8.根據(jù)權(quán)利要求1的序列顯示方法,其中利用字符的變化來顯示所述視覺特性。
9.根據(jù)權(quán)利要求1的序列顯示方法,其中在所述第二步驟中,以比對的方式顯示每個序列中的相應(yīng)核苷酸或氨基酸。
10.根據(jù)權(quán)利要求1的序列顯示方法,其中進(jìn)一步包括一第三步驟,用于添加所述多個相似核苷酸序列或氨基酸序列間的鏈接和/或與相關(guān)信息的鏈接。
11.一種序列顯示設(shè)備,包括第一裝置,接受與多個相似核苷酸序列或氨基酸序列的突變和/或相似有關(guān)的信息;第二裝置,根據(jù)所述突變和/或相似來添加視覺特性,并顯示所述多個相似核苷酸序列或氨基酸序列。
12.根據(jù)權(quán)利要求11的序列顯示設(shè)備,其中所述第二裝置將所述視覺特性添加到所述多個相似核苷酸序列或氨基酸序列中的突變區(qū)和/或相似區(qū)上。
13.根據(jù)權(quán)利要求11的序列顯示設(shè)備,其中所述第二裝置根據(jù)所述突變程度和/或相似程度來添加所述視覺特性。
14.根據(jù)權(quán)利要求12的序列顯示設(shè)備,其中所述第二裝置根據(jù)所述突變區(qū)中的突變頻率來添加所述視覺特性。
15.根據(jù)權(quán)利要求12的序列顯示設(shè)備,其中所述第二裝置根據(jù)包含氨基酸名稱和特性的氨基酸信息來添加所述視覺特性,該氨基酸與所述多個相似核苷酸序列中的密碼相對應(yīng)。
16.根據(jù)權(quán)利要求11的序列顯示設(shè)備,其中所述第二裝置利用顯示色彩來代表所述視覺特性。
17.根據(jù)權(quán)利要求11的序列顯示設(shè)備,其中所述第二裝置利用顯示色彩的變化來代表所述視覺特性。
18.根據(jù)權(quán)利要求11的序列顯示設(shè)備,其中所述第二裝置利用字符的變化來代表所述視覺特性。
19.根據(jù)權(quán)利要求11的序列顯示設(shè)備,其中該第二裝置以比對的方式顯示每個序列中的相應(yīng)核苷酸或氨基酸。
20.根據(jù)權(quán)利要求11的序列顯示設(shè)備,進(jìn)一步包括一第三裝置,用于添加所述多個相似核苷酸序列或氨基酸序列間的鏈接和/或與相關(guān)信息的鏈接。
21.一序列顯示程序產(chǎn)品,用于使計(jì)算機(jī)執(zhí)行權(quán)利要求1至10任一個權(quán)利要求中所描述的每個步驟。
22.一種記錄介質(zhì),該記錄介質(zhì)上記錄了一序列顯示程序,該序列顯示程序可使計(jì)算機(jī)執(zhí)行權(quán)利要求1至10任一個權(quán)利要求中所描述且能夠被計(jì)算機(jī)讀取的每個步驟。
23.一種同源搜索方法,包括第四步驟,對由用戶的輸入所提交的對序列數(shù)據(jù)庫所進(jìn)行的一查詢進(jìn)行分析;第五步驟,根據(jù)所述第四步驟中的分析結(jié)果來產(chǎn)生適合于所述序列數(shù)據(jù)庫的搜索條件,并且對所述序列數(shù)據(jù)庫進(jìn)行搜索;第六步驟,對所述第五步驟的搜索結(jié)果進(jìn)行分析,并且產(chǎn)生與多個相似核苷酸序列或氨基酸序列中的突變和/或相似有關(guān)的信息;以及第七步驟,利用在所述第六步驟中所產(chǎn)生的信息以及在權(quán)利要求1至10任一權(quán)利要求中所描述的序列顯示方法,顯示所述第五步驟的搜索結(jié)果。
24.一種同源搜索設(shè)備,包括第四裝置,對由用戶的輸入所提交的對序列數(shù)據(jù)庫所進(jìn)行的一查詢進(jìn)行分析;第五裝置,根據(jù)所述第四裝置所產(chǎn)生的分析結(jié)果來產(chǎn)生適合于所述序列數(shù)據(jù)庫的搜索條件,并且對所述序列數(shù)據(jù)庫進(jìn)行搜索;第六裝置,對所述第五裝置所產(chǎn)生的搜索結(jié)果進(jìn)行分析,并且產(chǎn)生與多個相似核苷酸序列或氨基酸序列中的突變和/或相似有關(guān)的信息;以及第七裝置,利用第六裝置中所產(chǎn)生的信息以及在權(quán)利要求11至20任一權(quán)利要求中所描述的序列顯示設(shè)備,顯示由所述第五裝置產(chǎn)生的搜索結(jié)果。
25.根據(jù)權(quán)利要求24的同源搜索設(shè)備,進(jìn)一步包括一第八裝置,該第八裝置對第四裝置、第五裝置、第六裝置、及第七裝置的操作進(jìn)行控制。
26.一種同源搜索程序產(chǎn)品,該程序產(chǎn)品可使計(jì)算機(jī)執(zhí)行權(quán)利要求23中所描述的每個步驟。
27.一種記錄介質(zhì),該記錄介質(zhì)上記錄了一同源搜索程序,該同源搜索程序可使計(jì)算機(jī)執(zhí)行權(quán)利要求23中所描述的且能夠被計(jì)算機(jī)讀取的每個步驟。
全文摘要
本發(fā)明的用于顯示序列的方法根據(jù)多個相似核苷酸序列或氨基酸序列中的突變或相似來添加視覺特性。將這些視覺特性添加到突變區(qū)和/或相似區(qū)上,并且此外,根據(jù)突變區(qū)的突變程度和/或相似程度并根據(jù)突變區(qū)中的突變頻率來添加這些視覺特性,并且根據(jù)其包含在氨基酸名稱和特性中的氨基酸信息來添加該視覺特性,上述氨基酸與所述多個相似核苷酸序列中的密碼相對應(yīng)。提供了與和多個相似核苷酸序列或氨基酸序列有關(guān)的信息的鏈接。本發(fā)明的同源搜索方法使用該序列顯示方法來顯示搜索結(jié)果。
文檔編號G06F19/22GK1506880SQ20031012043
公開日2004年6月23日 申請日期2003年12月10日 優(yōu)先權(quán)日2002年12月10日
發(fā)明者宮川知也, 仲里猛留, 留, 稔, 麻生川稔, 久, 劍持聰久 申請人:日本電氣株式會社