專利名稱:支持基因相互作用網(wǎng)絡(luò)分析的方法和設(shè)備以及計(jì)算機(jī)產(chǎn)品的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用于支持對基因相互作用網(wǎng)絡(luò)的分析的技術(shù)。
背景技術(shù):
近年來,正積極地基于病人與健康主體之間的基因表現(xiàn)狀態(tài)的差異,對與疾病有關(guān)的分子機(jī)理進(jìn)行研究。此外,也經(jīng)常基于服用藥物時與未服用藥物時之間的基因表現(xiàn)狀態(tài)的差異,對藥物在分子機(jī)理級對活體的影響進(jìn)行研究。在這種研究中,通過對基于某些線索而聚焦的基因簇中的個體基因的基因相互作用進(jìn)行分析,來廣泛地對所關(guān)注的基因與疾病之間的相關(guān)性進(jìn)行評估或者對藥物對所關(guān)注的基因的影響進(jìn)行估計(jì)。
在這種分析中,優(yōu)選的是,根據(jù)與疾病的關(guān)系適當(dāng)?shù)剡x擇待分析的基因和基因相互作用。換句話說,通常,獲得大量關(guān)注的基因。相關(guān)基因相互作用的數(shù)量巨大,并且呈現(xiàn)由于不同生物因素的各種相互作用。因此,優(yōu)選的是,通過根據(jù)分子機(jī)理對這些相互作用進(jìn)行分類,或者通過自動選擇具有與疾病相關(guān)的高可能性的相互作用,使得便于對分析對象(待優(yōu)先分析的對象)進(jìn)行選擇。
圖21是表示為網(wǎng)絡(luò)圖的與所關(guān)注的基因簇有關(guān)的基因相互作用的示意圖。通過將針對通過基因表現(xiàn)分析所獲得的約300個所關(guān)注的基因簇中的每一個中的特定基因而分別形成的多個相互作用網(wǎng)絡(luò)相互疊加,來形成基因相互作用網(wǎng)絡(luò)2100。一個矩形節(jié)點(diǎn)表示一個基因。一條邊表示在與該邊的各端上的節(jié)點(diǎn)相對應(yīng)的兩個基因之間存在已知相互作用(文獻(xiàn)中已經(jīng)報道的相互作用)。如圖所示,作為與所關(guān)注的基因有關(guān)的相互作用的集合的網(wǎng)絡(luò)往往很大并且具有復(fù)雜結(jié)構(gòu)。因此,需要用于支持分析的技術(shù)。
作為一種用于支持該分析的技術(shù),如下數(shù)據(jù)庫是公知的在該數(shù)據(jù)庫中,在根據(jù)疾病的類型或活體內(nèi)分子機(jī)理對基因相互作用進(jìn)行分類的同時,系統(tǒng)地對基因相互作用網(wǎng)絡(luò)進(jìn)行累積(例如,Kyoto Encyclopedia of Genesand Genomes(KEGG),[在線],2006年2月27日檢索,因特網(wǎng)<URL:http://www.genome.jp/kegg/pathway.html>,和BioCarta,[在線],2006年2月27日檢索,因特網(wǎng)<URL:http://www.biocarta.com/>)。利用該數(shù)據(jù)庫,可以根據(jù)疾病或活體內(nèi)分子機(jī)理對與所關(guān)注的基因簇有關(guān)的相互作用進(jìn)行分析。
日本特開第2003-44481號公報公開了一種用于對具有與疾病相關(guān)的高可能性的基因(疾病相關(guān)基因)進(jìn)行分類的技術(shù)??稍谌鐖D21所示的基因相互作用網(wǎng)絡(luò)中執(zhí)行該分類。
根據(jù)該技術(shù),對“研究基因”的識別是有可能的。針對其中在服用某種藥物時與在未服用該藥物時觀察到不同基因表現(xiàn)狀態(tài)的基因簇,基于文獻(xiàn)中基因的表征,提供基因聚類結(jié)果。還提供了其中出現(xiàn)了該基因的文獻(xiàn)與藥物和所關(guān)注的疾病之間的關(guān)系。因此,將對藥物起反應(yīng)并預(yù)期與所關(guān)注的疾病之間存在某種關(guān)系而又未被報道的基因識別為“研究基因”。
當(dāng)使用諸如KEGG和BioCarta的數(shù)據(jù)庫時,數(shù)據(jù)庫的覆蓋率可能不足。數(shù)據(jù)庫是基于在分子生物領(lǐng)域中獲得的研究結(jié)果而人工創(chuàng)建的。因此,未包括仍在研究的基因相互作用。因此,不能預(yù)期該數(shù)據(jù)庫包括在基因相互作用網(wǎng)絡(luò)2100中包括的所有基因相互作用。
此外,在日本特開第2003-44481號公報中公開的傳統(tǒng)技術(shù)中,需要人在關(guān)注于具體藥物和具體疾病的同時對基因相互作用網(wǎng)絡(luò)2100進(jìn)行解釋,并判斷個體基因與疾病之間的相關(guān)性。因此,當(dāng)存在多個所關(guān)注的疾病時,難以使用該傳統(tǒng)技術(shù)作為支持技術(shù)。
換句話說,需要針對每個可能的疾病對所給出的信息進(jìn)行人工解釋。因此,難以對疾病相關(guān)基因進(jìn)行高效的發(fā)現(xiàn)和分類。通常,一個因素可能增大多個疾病的風(fēng)險。因此,需要用于支持考慮多個疾病的分析的技術(shù)。
發(fā)明內(nèi)容
本發(fā)明的一個目的是至少解決傳統(tǒng)技術(shù)中的上述問題。
根據(jù)本發(fā)明一方面的一種計(jì)算機(jī)可讀記錄介質(zhì),其中存儲有用于實(shí)現(xiàn)支持對基因相互作用網(wǎng)絡(luò)進(jìn)行分析的方法的計(jì)算機(jī)程序。該計(jì)算機(jī)程序使得計(jì)算機(jī)執(zhí)行以下步驟閾值設(shè)置步驟,其設(shè)置針對生物學(xué)事件與基因相互作用之間的相關(guān)性的閾值;基因相互作用檢測步驟,其從形成所述基因相互作用網(wǎng)絡(luò)的多個基因相互作用中檢測具有等于或高于所述閾值的相關(guān)性的基因相互作用;以及部分網(wǎng)絡(luò)生成步驟,其通過根據(jù)各個生物學(xué)事件對檢測出的基因相互作用進(jìn)行排列來生成針對所述各個生物學(xué)事件的部分網(wǎng)絡(luò)。
根據(jù)本發(fā)明另一方面的一種方法,所述方法用于支持對基因相互作用網(wǎng)絡(luò)的分析。所述方法包括以下步驟閾值設(shè)置步驟,其設(shè)置針對生物學(xué)事件與基因相互作用之間的相關(guān)性的閾值;基因相互作用檢測步驟,其從形成所述基因相互作用網(wǎng)絡(luò)的多個基因相互作用中檢測具有等于或高于所述閾值的相關(guān)性的基因相互作用;以及部分網(wǎng)絡(luò)生成步驟,其通過根據(jù)每個生物學(xué)事件對檢測出的基因相互作用進(jìn)行排列來生成針對所述每個生物學(xué)事件的部分網(wǎng)絡(luò)。
根據(jù)本發(fā)明又一方面的一種設(shè)備,所述設(shè)備用于支持對基因相互作用網(wǎng)絡(luò)的分析。所述設(shè)備包括設(shè)置單元,其被構(gòu)造成設(shè)置針對生物學(xué)事件與基因相互作用之間的相關(guān)性的閾值;檢測單元,其被構(gòu)造成從形成所述基因相互作用網(wǎng)絡(luò)的多個基因相互作用中檢測具有等于或高于所述閾值的相關(guān)性的基因相互作用;以及生成單元,其被構(gòu)造成通過根據(jù)每個生物學(xué)事件對檢測出的基因相互作用進(jìn)行排列來生成針對所述每個生物學(xué)事件的部分網(wǎng)絡(luò)。
本發(fā)明的其它目的、特征以及優(yōu)點(diǎn)具體在下文中進(jìn)行闡述,或者當(dāng)結(jié)合附圖進(jìn)行閱讀時,將從本發(fā)明的以下詳細(xì)說明中明了。
圖1是根據(jù)本發(fā)明的實(shí)施例的用于支持對基因相互作用網(wǎng)絡(luò)的分析的設(shè)備的示意圖;圖2是用于例示根據(jù)本實(shí)施例的疾病注釋的示意圖;圖3是用于例示根據(jù)本實(shí)施例的醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(DB)的示意圖;
圖4是用于例示根據(jù)本實(shí)施例的醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(DB)的示意圖;圖5是根據(jù)本實(shí)施例的設(shè)備的框圖;圖6是用于例示由相似度計(jì)算單元執(zhí)行的相似度計(jì)算的示意圖;圖7是生成處理單元的框圖;圖8是由輸入單元輸入的基因相互作用網(wǎng)絡(luò)的示意圖;圖9是用于例示由部分網(wǎng)絡(luò)生成單元進(jìn)行的生成處理的示意圖;圖10是用于例示對聯(lián)合網(wǎng)絡(luò)的生成的示意圖;圖11是分類處理單元的框圖;圖12是用于例示由分類單元進(jìn)行的部分網(wǎng)絡(luò)分類處理的示意圖;圖13是針對分析對象部分網(wǎng)絡(luò)的顯示示例的示意圖;圖14是針對分析對象部分網(wǎng)絡(luò)的顯示示例的示意圖;圖15是由圖5所示的相關(guān)性計(jì)算單元進(jìn)行的相關(guān)性計(jì)算處理的流程圖;圖16是由根據(jù)本實(shí)施例的設(shè)備執(zhí)行的處理的流程圖;圖17是部分網(wǎng)絡(luò)生成處理的流程圖;圖18是部分網(wǎng)絡(luò)生成處理的流程圖;圖19是針對分析對象部分網(wǎng)絡(luò)的另一顯示示例的示意圖;圖20是當(dāng)顯示圖19所示的示例時由輸出單元進(jìn)行的顯示處理的流程圖;以及圖21是基因相互作用網(wǎng)絡(luò)的示意圖。
具體實(shí)施例方式
下面將參照附圖對根據(jù)本發(fā)明的示例性實(shí)施例進(jìn)行詳細(xì)說明。
圖1是根據(jù)本發(fā)明的實(shí)施例的用于支持對基因相互作用網(wǎng)絡(luò)的分析的設(shè)備的示意圖。該設(shè)備包括中央處理單元(CPU)101、只讀存儲器(ROM)102、隨機(jī)存取存儲器(RAM)103、硬盤驅(qū)動器(HDD)104、硬盤(HD)105、軟盤驅(qū)動器(FDD)106、軟盤(FD)107、顯示器108、接口(I/F)109、鍵盤110、鼠標(biāo)111、掃描儀112以及打印機(jī)113。FD 107是可移動記錄介質(zhì)的示例。各組成部分通過總線100相連接。
CPU 101對整個設(shè)備進(jìn)行控制。ROM 102對諸如引導(dǎo)程序的程序進(jìn)行存儲。RAM 103用作CPU 101的工作區(qū)。HDD 104在CPU 101的控制下對從HD 105的數(shù)據(jù)讀取和向HD 105的數(shù)據(jù)寫入進(jìn)行控制。HD 105在HDD 104的控制下對寫入的數(shù)據(jù)進(jìn)行存儲。
FDD 106在CPU 101的控制下對從FD 107的數(shù)據(jù)讀取和向FD 107的數(shù)據(jù)寫入進(jìn)行控制。FD 107在FDD 106的控制下對寫入的數(shù)據(jù)進(jìn)行存儲,并允許該設(shè)備讀取存儲在FD 107中的數(shù)據(jù)。
除FD 107以外,還可以使用光盤只讀存儲器(CD-ROM)、可記錄光盤(CD-R)、可擦寫光盤(CD-RW)、磁光(MO)盤、數(shù)字多媒體盤(DVD)、存儲器卡等作為可移動記錄介質(zhì)。除光標(biāo)、圖標(biāo)以及工具箱以外,顯示器108還顯示諸如文檔、圖像以及功能信息的數(shù)據(jù)。該顯示器108例如可以是陰極射線管(CRT)、薄膜晶體管(TFT)液晶顯示器以及等離子體顯示器。
I/F 109通過通信電路連接到諸如因特網(wǎng)的網(wǎng)絡(luò)114。I/F 109通過該網(wǎng)絡(luò)114連接到其他設(shè)備。I/F 109對本設(shè)備與網(wǎng)絡(luò)114之間的接口進(jìn)行控制,并對來自外部設(shè)備的數(shù)據(jù)輸入和到外部設(shè)備的數(shù)據(jù)輸出進(jìn)行控制。I/F 109例如可以是調(diào)制解調(diào)器或LAN適配器。
鍵盤110包括用于輸入字符、數(shù)字、各種指令等的多個鍵。鍵盤110執(zhí)行數(shù)據(jù)輸入。鍵盤110也可以是觸摸板型輸入板、數(shù)字小鍵盤等。鼠標(biāo)111使光標(biāo)移動、對范圍進(jìn)行選擇、對窗口進(jìn)行移動、改變窗口大小等。鼠標(biāo)111也可以是功能與定點(diǎn)(pointing)裝置類似的追蹤球、操縱桿等。
掃描儀112光學(xué)地讀取圖像并將圖像數(shù)據(jù)裝載到本設(shè)備中。掃描儀112可以具有光學(xué)字符識別(OCR)功能。打印機(jī)113打印圖像數(shù)據(jù)和文檔數(shù)據(jù)。打印機(jī)113例如可以是激光打印機(jī)或噴墨打印機(jī)。
圖2是用于例示根據(jù)本實(shí)施例的疾病注釋的示意圖。疾病注釋200是知識文檔(knowledge document)的主體。在疾病注釋200中,采用自然語言對生物學(xué)事件(例如包括與疾病有關(guān)的物質(zhì)生理作用、生物學(xué)響應(yīng)、臨床癥狀等)進(jìn)行系統(tǒng)的描述。例如,按章節(jié)和段落寫入與疾病有關(guān)的說明。
為每種疾病提供說明。例如,在“章節(jié)1”的“段落1-1”中的說明200-1中對“疾病D1”進(jìn)行說明。在“章節(jié)1”的“段落1-2”中的說明200-2中對“疾病D2”進(jìn)行說明。在“章節(jié)2”的“段落2-1”中的說明200-3中對“疾病D3”進(jìn)行說明。
疾病注釋200例如是已被轉(zhuǎn)換成文本的電子文檔??梢詮膱D1所示的I/F 109輸入疾病注釋200,或者可以將疾病注釋200記錄在諸如ROM 102、RAM 103以及HD 105的記錄介質(zhì)上。
可以使用電子文檔、在線人類孟德爾遺傳(Online MendelianInheritance in Man,OMIM)等作為疾病注釋200。
OMIM是“人類孟德爾遺傳”(對與人類基因紊亂的表型、基因座位等有關(guān)的信息的收集,作者為Victor A.McKusick博士)的電子版(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=OMIM)。
圖3是用于例示存儲在根據(jù)本實(shí)施例的醫(yī)學(xué)文獻(xiàn)DB中的內(nèi)容的示意圖。醫(yī)學(xué)文獻(xiàn)DB 300存儲有包含與基因之間的相互作用有關(guān)的生物學(xué)和醫(yī)學(xué)研究結(jié)果的電子文獻(xiàn)A(Ai:i=1到n)等。
電子文獻(xiàn)A是電子數(shù)據(jù),諸如存儲在在線醫(yī)學(xué)文獻(xiàn)分析和檢索系統(tǒng)(MEDLINE)和類似于MEDLINE的數(shù)據(jù)庫中的摘要。
MEDLINE是醫(yī)學(xué)文獻(xiàn)的索引和摘要的次級來源數(shù)據(jù)庫,由美國國家醫(yī)學(xué)圖書館(NLM)提供。PubMed是被廣泛使用的針對MEDLINE的文獻(xiàn)檢索工具,由國家生物技術(shù)信息中心(NCBI)提供(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=PubMed)。電子文獻(xiàn)A被轉(zhuǎn)換成文本并存儲在數(shù)據(jù)庫中。
在本實(shí)施例中,除了電子文獻(xiàn)Ai的內(nèi)容(文本)以外,還使用電子文獻(xiàn)Ai與電子文獻(xiàn)Ai中報道的基因相互作用之間的對應(yīng)關(guān)系。如果所述對應(yīng)關(guān)系包括在電子文獻(xiàn)Ai中的文獻(xiàn)目錄信息等中,則可以使用所包括的所述對應(yīng)關(guān)系。
在MEDLINE數(shù)據(jù)庫中,在由NLM公開的Entrez基因數(shù)據(jù)庫(http://www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene)中提供的“相互作用”信息中包括基因相互作用與MEDLINE文獻(xiàn)之間的對應(yīng)關(guān)系。因此,可以使用所述對應(yīng)關(guān)系。此后,將與電子文獻(xiàn)A1到An中的任何一個相對應(yīng)的基因相互作用稱為基因相互作用I(Ij:j=1,2,等)。
圖4是用于例示存儲在根據(jù)本實(shí)施例的相關(guān)性DB中的內(nèi)容的示意圖。相關(guān)性DB 400對相關(guān)性進(jìn)行存儲。
相關(guān)性是由指定了各疾病和作為基因相互作用的基礎(chǔ)的兩個基因的疾病注釋200的段落號所指定的值。例如,通過圖2所示的疾病注釋200和圖3中的醫(yī)學(xué)文獻(xiàn)DB 300內(nèi)的電子文獻(xiàn)A來計(jì)算相關(guān)性。如果相關(guān)性是R,則相關(guān)性R是0≤R≤1。如果相關(guān)性R的值大,則認(rèn)為疾病與基因相互作用之間的聯(lián)系強(qiáng)。
圖5是根據(jù)本實(shí)施例的設(shè)備的框圖。用于支持對基因相互作用網(wǎng)絡(luò)500的分析的設(shè)備包括疾病注釋200、醫(yī)學(xué)文獻(xiàn)DB 300、相關(guān)性DB 400、相關(guān)性計(jì)算單元501、輸入單元502、生成處理單元503、分類處理單元504以及輸出處理單元505。
相關(guān)性計(jì)算單元501對存儲在相關(guān)性DB 400中的相關(guān)性R進(jìn)行計(jì)算。具體來說,相關(guān)性計(jì)算單元501包括相似度計(jì)算單元511和相關(guān)性設(shè)置單元512。相似度計(jì)算單元511對疾病注釋200與醫(yī)學(xué)文獻(xiàn)DB 300中的各電子文獻(xiàn)Ai之間的相似度進(jìn)行計(jì)算。
圖6是用于例示由相似度計(jì)算單元511執(zhí)行的相似度計(jì)算的示意圖。通過詞頻率反文檔頻率(TFIDF)方法來計(jì)算說明200-k(k=1,2等)與電子文獻(xiàn)Ai之間的文本相似度。利用疾病注釋200中的疾病Dk的說明200-k中的文本數(shù)據(jù)和電子文獻(xiàn)Ai中的文本數(shù)據(jù)來計(jì)算該文本相似度。
具體來說,通過詞頻率(TF)獲得候選關(guān)鍵詞在說明200-k中的出現(xiàn)頻率和該候選關(guān)鍵詞在電子文獻(xiàn)Ai中的出現(xiàn)頻率。通過反文檔頻率(IDF)(反文檔的對數(shù))獲得候選關(guān)鍵詞在文檔(說明200-k和電子文獻(xiàn)Ai)中的出現(xiàn)頻率的倒數(shù)的對數(shù)。針對每篇文檔(說明200-k和電子文獻(xiàn)Ai)計(jì)算通過TF與IDF之積而獲得的TFIDF向量。
說明200-k的TFIDF向量與電子文獻(xiàn)Ai的TFIDF向量的余弦值(歸一化到大小1的向量的點(diǎn)積值)是說明200-k與電子文獻(xiàn)Ai的文本相似度Ski(0≤Ski≤1)。文本相似度Ski的值越大,說明200-k與電子文獻(xiàn)Ai就越相似。
相關(guān)性設(shè)置單元512利用疾病注釋200和電子文獻(xiàn)A對基因相互作用Ij與疾病Dk之間的相關(guān)性R進(jìn)行設(shè)置。具體來說,相關(guān)性設(shè)置單元512基于由相似度計(jì)算單元511針對各電子文獻(xiàn)Ai計(jì)算出的文本相似度Ski,對基因相互作用Ij與疾病Dk之間的相關(guān)性Rjk進(jìn)行設(shè)置。更具體來說,相關(guān)性設(shè)置單元512基于與基因相互作用Ij相對應(yīng)的m(m≤n)個文本相似度的集合∑jk,對相關(guān)性Rjk進(jìn)行設(shè)置。集合∑jk是多個文本相似度的集合。集合∑jk的元素是Sk1到Skn中與基因相互作用Ij相對應(yīng)的文本相似度。
例如,相關(guān)性Rjk可以是所述m個文本相似度∑jk中的最高文本相似度。作為另一種選擇,相關(guān)性Rjk可以是所述m個文本相似度∑jk中的最低文本相似度。相關(guān)性Rjk還可以是所述m個文本相似度∑jk的中間值或所述m個文本相似度∑jk的平均值。圖4中的相關(guān)性R是以此方式針對基因相互作用Ij與說明200-k的每個組合而獲得的相關(guān)性Rjk的集合。
如上所述,可以通過由相關(guān)性計(jì)算單元501進(jìn)行的計(jì)算來創(chuàng)建相關(guān)性DB 400。然而,在設(shè)備500中也可以使用預(yù)先設(shè)置有相關(guān)性Rjk的相關(guān)性DB 400。
輸入單元502接收對如圖21所示的基因相互作用網(wǎng)絡(luò)2100的輸入。具體來說,通過圖1所示的鍵盤110或鼠標(biāo)111的操作,從ROM 102、RAM103、HD 105、I/F 109、掃描儀1102等輸入基因相互作用網(wǎng)絡(luò)2100。
生成處理單元503基于生物學(xué)事件與基因相互作用之間的相關(guān)性R,針對每個生物學(xué)事件生成多個部分網(wǎng)絡(luò)集合510。部分網(wǎng)絡(luò)集合510是基因相互作用網(wǎng)絡(luò)2100的一部分。下文將對生成處理單元503的詳情進(jìn)行描述。
分類處理單元504從部分網(wǎng)絡(luò)集合510中選擇待成為分析對象的部分網(wǎng)絡(luò)集合(以下稱為“分析對象部分網(wǎng)絡(luò)集合S”)?;谟缮商幚韱卧?03針對每個生物學(xué)事件所生成的部分網(wǎng)絡(luò)集合510中的多個邊來選擇分析對象部分網(wǎng)絡(luò)集合S。下文將對分類處理單元504的詳情進(jìn)行描述。輸出處理單元505輸出分析對象部分網(wǎng)絡(luò)集合S。具體來說,輸出處理單元505在顯示器108的顯示屏幕上顯示分析對象部分網(wǎng)絡(luò)集合S或者從打印機(jī)113打印輸出分析對象部分網(wǎng)絡(luò)集合S。
例如,通過執(zhí)行記錄在諸如ROM 102、RAM 103以及HD 105的記錄介質(zhì)上的程序來實(shí)現(xiàn)相關(guān)性計(jì)算單元501、輸入單元502、生成處理單元503、分類處理單元504以及輸出處理單元505的功能。作為另一種選擇,由I/F 109來實(shí)現(xiàn)這些功能。
圖7是生成處理單元503的框圖。生成處理單元503包括閾值設(shè)置單元701、閾值調(diào)節(jié)單元702、檢測單元703、部分網(wǎng)絡(luò)生成單元704、第一條件設(shè)置單元705、部分網(wǎng)絡(luò)提取單元706、聯(lián)合網(wǎng)絡(luò)生成單元707、覆蓋率計(jì)算單元708、第二條件設(shè)置單元709以及覆蓋率判斷單元710。
閾值設(shè)置單元701對關(guān)于生物學(xué)事件與基因相互作用I之間的相關(guān)性的閾值T進(jìn)行設(shè)置。閾值T用于對具有等于或高于該閾值T的相關(guān)性的基因相互作用I進(jìn)行檢測。閾值T由用戶任意設(shè)置??梢酝ㄟ^分級地降低來調(diào)節(jié)閾值T。因此,優(yōu)選的是,將初始值設(shè)置為相關(guān)性R的最大值Tmax。
閾值調(diào)節(jié)單元702對閾值T進(jìn)行調(diào)節(jié),使得閾值T分級地下降。閾值T的下降量ΔT可由用戶任意設(shè)置??梢宰杂傻卦O(shè)置量ΔT。例如,ΔT=0.01。下文將對調(diào)節(jié)閾值T的定時進(jìn)行描述。
檢測單元703對形成基因相互作用網(wǎng)絡(luò)的基因相互作用I中的基因相互作用Ijk進(jìn)行檢測?;蛳嗷プ饔肐jk具有等于或高于閾值T的相關(guān)性R。具體來說,檢測單元703從相關(guān)性DB 400中檢測出基因相互作用Ij?;蛳嗷プ饔肐中的基因相互作用Ij與疾病Dk中的任何一個之間具有等于或高于閾值T的相關(guān)性Rjk。
例如,如圖4所示,如果閾值T=0.30,則在段落1-1列(疾病D1)中的兩行(相關(guān)性R=0.30)和段落2-1列(疾病D3)中的一行(相關(guān)性R=0.31)中有等于或大于0.30的相關(guān)性R。檢測到3個組合(基因G1,基因G3)、(基因G2,基因G3)以及(基因G3,基因G5)作為對應(yīng)于以上相關(guān)性的基因相互作用。
基因相互作用I中的基因相互作用Ij與疾病Dk中的任何一個之間具有等于或高于閾值T的相關(guān)性Rjk。如果未從相關(guān)性DB 400檢測出基因相互作用Ij,則閾值調(diào)節(jié)單元702將閾值T減少預(yù)定量ΔT。因此,已降低了預(yù)定量ΔT的閾值T成為由檢測單元703用以進(jìn)行檢測的基準(zhǔn)值。以此方式,可以通過分級地調(diào)節(jié)閾值T來找出與任何一個疾病之間具有等于或高于閾值T的相關(guān)性的至少一個基因相互作用。
部分網(wǎng)絡(luò)生成單元704基于疾病Dk與基因相互作用Ij之間的相關(guān)性Rjk,針對每種疾病Dk生成部分網(wǎng)絡(luò)集合510。由檢測單元703來檢測基因相互作用Ij。圖8是由輸入單元502輸入的基因相互作用網(wǎng)絡(luò)的示意圖。圖9是用于例示由部分網(wǎng)絡(luò)生成單元704進(jìn)行的生成處理的示意圖。
如圖8所示,基因相互作用網(wǎng)絡(luò)800包括節(jié)點(diǎn)Nx(x=1到5)和邊Exy(y=1到5,y≠x)。節(jié)點(diǎn)Nx指定基因Gx。邊Exy連接節(jié)點(diǎn)Nx與節(jié)點(diǎn)Ny。在實(shí)際中,基因相互作用網(wǎng)絡(luò)800是復(fù)雜的?;蛳嗷プ饔镁W(wǎng)絡(luò)800如圖21所示的基因相互作用網(wǎng)絡(luò)2100那樣具有大量節(jié)點(diǎn)和邊。然而,在本示例中,基因相互作用網(wǎng)絡(luò)800被簡化并且具有5個節(jié)點(diǎn)和7條邊。
圖9所示的上部例示了存儲在相關(guān)性DB 400中的內(nèi)容。中部例示了檢測單元703的檢測結(jié)果。下部例示了所生成的部分網(wǎng)絡(luò)901到903。當(dāng)相關(guān)性R的閾值T例如是T=0.27時,等于或高于閾值T的相關(guān)性Rjk是在上部中示出的無陰影的相關(guān)性Rjk。
在中部中,左手側(cè)的基因相互作用網(wǎng)絡(luò)800示出了對與段落1-1中的疾病有關(guān)的基因相互作用的檢測結(jié)果。由虛線包圍的節(jié)點(diǎn)和邊是所檢測出的基因相互作用。中央的基因相互作用網(wǎng)絡(luò)800示出了對與段落1-2中的疾病有關(guān)的基因相互作用的檢測結(jié)果。由虛線包圍的節(jié)點(diǎn)和邊是所檢測出的基因相互作用。右手側(cè)的基因相互作用網(wǎng)絡(luò)800示出了對與段落2-1中的疾病有關(guān)的基因相互作用的檢測結(jié)果。由虛線包圍的節(jié)點(diǎn)和邊是所檢測出的基因相互作用。
如下部所示,針對各段落(疾病),獲得由中部中的虛線包圍的形成基因相互作用的節(jié)點(diǎn)和邊作為部分網(wǎng)絡(luò)901到903。
圖7所示的第一條件設(shè)置單元705設(shè)置對所生成的部分網(wǎng)絡(luò)的大小或復(fù)雜度進(jìn)行限制的第一條件。對部分網(wǎng)絡(luò)的大小進(jìn)行限制的條件將部分網(wǎng)絡(luò)的大小限制到預(yù)定范圍。該預(yù)定范圍例如是表示要包括在每個部分網(wǎng)絡(luò)中的基因的節(jié)點(diǎn)的數(shù)量范圍、要包括在網(wǎng)絡(luò)中的節(jié)點(diǎn)的類型的數(shù)量范圍,等等。
對部分網(wǎng)絡(luò)的復(fù)雜度進(jìn)行限制的條件將部分網(wǎng)絡(luò)的復(fù)雜度限制到預(yù)定水平。該預(yù)定水平例如是表示要包括在每個部分網(wǎng)絡(luò)中的基因相互作用的邊的數(shù)量范圍、要包括在網(wǎng)絡(luò)中的邊的類型的數(shù)量范圍(或表示基因相互作用的邊的類型的數(shù)量與表示基因的節(jié)點(diǎn)的類型的數(shù)量之比),等等。
部分網(wǎng)絡(luò)提取單元706從部分網(wǎng)絡(luò)集合510中提取滿足第一條件的部分網(wǎng)絡(luò)。例如,如果第一條件是“少于3個節(jié)點(diǎn)”,則提取部分網(wǎng)絡(luò)集合510內(nèi)的具有少于3個節(jié)點(diǎn)的部分網(wǎng)絡(luò)。
根據(jù)第一條件設(shè)置單元705和部分網(wǎng)絡(luò)提取單元706,可以對待作為候選分析對象的部分網(wǎng)絡(luò)的大小和復(fù)雜度進(jìn)行控制。因此,可以對具有簡單結(jié)構(gòu)的小規(guī)模部分網(wǎng)絡(luò)進(jìn)行分析。
聯(lián)合網(wǎng)絡(luò)生成單元707通過對這些部分網(wǎng)絡(luò)進(jìn)行編輯來生成聯(lián)合網(wǎng)絡(luò)。成為聯(lián)合網(wǎng)絡(luò)的生成元素(generator)的部分網(wǎng)絡(luò)可以是由部分網(wǎng)絡(luò)生成單元704生成的部分網(wǎng)絡(luò)和由部分網(wǎng)絡(luò)提取單元706提取的任何部分網(wǎng)絡(luò)。聯(lián)合網(wǎng)絡(luò)包括成為生成元素的所有部分網(wǎng)絡(luò)。不包括在成為生成元素的任何部分網(wǎng)絡(luò)中都未包括的節(jié)點(diǎn)和邊。
圖10是用于例示聯(lián)合網(wǎng)絡(luò)的生成的示意圖。當(dāng)生成聯(lián)合時,聯(lián)合網(wǎng)絡(luò)1000包括在各部分網(wǎng)絡(luò)901到903中包括的節(jié)點(diǎn)Nx和邊Exy。聯(lián)合網(wǎng)絡(luò)1000包括節(jié)點(diǎn)N1到N5,和邊E12、E13、E23、E35以及E45。
圖7所示的覆蓋率計(jì)算單元708對表示聯(lián)合網(wǎng)絡(luò)被包括在基因相互作用網(wǎng)絡(luò)中的程度的覆蓋率進(jìn)行計(jì)算。具體來說,可以由以下公式1或公式2來表示該覆蓋率。
C=Me1/Me0 (1)C=Mn1/Mn0 (2)C為覆蓋率。Me1為聯(lián)合網(wǎng)絡(luò)中的邊的數(shù)量。Me0為基因相互作用網(wǎng)絡(luò)中的邊的數(shù)量。Mn1為聯(lián)合網(wǎng)絡(luò)中的節(jié)點(diǎn)的數(shù)量。Mn0為基因相互作用網(wǎng)絡(luò)中的節(jié)點(diǎn)的數(shù)量。用戶對使用節(jié)點(diǎn)數(shù)量還是使用邊數(shù)量進(jìn)行設(shè)置。然而,當(dāng)假設(shè)分析的目的是推斷基因在生物學(xué)事件等中的作用時,基因的作用可能依賴于作為相互作用伙伴的基因。因此,通過邊的數(shù)量來計(jì)算的覆蓋率(1)是優(yōu)選的。通過邊的數(shù)量來計(jì)算覆蓋率等同于按基因相互作用來計(jì)算覆蓋率。
在圖10所示的示例中,當(dāng)通過邊的數(shù)量來計(jì)算覆蓋率時,聯(lián)合網(wǎng)絡(luò)1000具有5條邊而基因相互作用網(wǎng)絡(luò)800具有7條邊。因此,覆蓋率C是5/7。
第二條件設(shè)置單元709設(shè)置對分析對象的覆蓋率進(jìn)行限制的條件。對分析對象的覆蓋率進(jìn)行限制的條件對表示應(yīng)當(dāng)被共同地包括在多個部分網(wǎng)絡(luò)中的基因相互作用的邊的數(shù)量進(jìn)行限制。例如,設(shè)置了指定覆蓋率Ct。該指定覆蓋率Ct是上述覆蓋率的閾值。當(dāng)提高聯(lián)合網(wǎng)絡(luò)的總體覆蓋率時,增大指定覆蓋率Ct的值。
覆蓋率判斷單元710對覆蓋率C是否滿足第二條件進(jìn)行判斷。例如,覆蓋率判斷單元710對所計(jì)算出的覆蓋率C是否等于或高于指定覆蓋率Ct進(jìn)行判斷。如果覆蓋率C等于或高于指定覆蓋率Ct,則增大了部分網(wǎng)絡(luò)集合510的總體覆蓋率。部分網(wǎng)絡(luò)集合510成為覆蓋率C的計(jì)算源。
因此,滿足了對提高覆蓋率的用戶請求。在此情況下,部分網(wǎng)絡(luò)生成單元704輸出成為覆蓋率C的計(jì)算源的部分網(wǎng)絡(luò)集合510。另一方面,如果覆蓋率C低于指定覆蓋率Ct,則減小了成為覆蓋率C的計(jì)算源的部分網(wǎng)絡(luò)的總體覆蓋率。因此,用戶請求未得到滿足。
在此情況下,閾值調(diào)節(jié)單元702將閾值T降低預(yù)定量ΔT。當(dāng)將閾值降低了ΔT時,檢測單元703從相關(guān)性DB 400中檢測出基因相互作用Ij?;蛳嗷プ饔肐中的基因相互作用Ij與疾病Dk中的任何一個之間具有等于或高于被降低了ΔT后的預(yù)定閾值T的相關(guān)性Rjk。因此,增加了所檢測出的基因相互作用的數(shù)量,因而由部分網(wǎng)絡(luò)生成單元704生成的部分網(wǎng)絡(luò)變大。因此,聯(lián)合網(wǎng)絡(luò)也變大。當(dāng)前計(jì)算出的覆蓋率C是比先前計(jì)算出的覆蓋率C更大的值。
可以通過分級地調(diào)節(jié)閾值T來對在所輸出的多個部分網(wǎng)絡(luò)中共同包括的基因相互作用的數(shù)量進(jìn)行控制。因此,例如,如果對所有輸出的部分網(wǎng)絡(luò)進(jìn)行分析,則可以滿足以下用戶請求。用戶請求保證可以對在原始基因相互作用網(wǎng)絡(luò)中包括的大部分相互作用進(jìn)行綜合分析。
以此方式,當(dāng)將基因相互作用網(wǎng)絡(luò)800和2100分成各生物學(xué)事件(疾病)時,生成處理單元503可以提供合適大小的部分網(wǎng)絡(luò)。此外,生成處理單元503可以將基因相互作用網(wǎng)絡(luò)800和2100的部分網(wǎng)絡(luò)的覆蓋率提高到極限程度。
如果覆蓋率高,則聯(lián)合網(wǎng)絡(luò)1000中的節(jié)點(diǎn)數(shù)量和邊數(shù)量增加,因而聯(lián)合網(wǎng)絡(luò)1000中的基因相互作用變復(fù)雜。然而,基因相互作用網(wǎng)絡(luò)800是針對每個生物學(xué)事件而生成的。因此,可以獲得被合適地縮放到用于進(jìn)行分析所需的最小尺寸的部分網(wǎng)絡(luò)901到903。
圖11是分類處理單元504的框圖。分類處理單元504包括獲取基準(zhǔn)設(shè)置單元1101、邊數(shù)量調(diào)節(jié)單元1102、部分網(wǎng)絡(luò)獲取單元1103、交疊計(jì)算單元1104、邊數(shù)量設(shè)置單元1105以及分類單元1106。
首先,獲取基準(zhǔn)設(shè)置單元1101對作為部分網(wǎng)絡(luò)獲取單元1103獲取部分網(wǎng)絡(luò)的獲取基準(zhǔn)的邊數(shù)量Ne進(jìn)行設(shè)置。邊數(shù)量Ne的初始值例如是部分網(wǎng)絡(luò)集合510中的邊數(shù)量中的最大邊數(shù)量Nmax。
邊數(shù)量調(diào)節(jié)單元1102對獲取基準(zhǔn)進(jìn)行調(diào)節(jié),使得邊數(shù)量分級地減小。具體來說,邊數(shù)量Ne按預(yù)定數(shù)量(例如1)減小。如果在部分網(wǎng)絡(luò)集合510中沒有邊數(shù)量為Ne的部分網(wǎng)絡(luò),則將邊數(shù)量Ne減小。
部分網(wǎng)絡(luò)獲取單元1103從部分網(wǎng)絡(luò)集合510中獲取具有由獲取基準(zhǔn)設(shè)置單元1101設(shè)置的邊數(shù)量Ne的部分網(wǎng)絡(luò)。如果在部分網(wǎng)絡(luò)集合510中沒有邊數(shù)量為Ne的部分網(wǎng)絡(luò),則邊數(shù)量調(diào)節(jié)單元1102將邊數(shù)量Ne減小。
部分網(wǎng)絡(luò)獲取單元1103從部分網(wǎng)絡(luò)集合510中獲取具有已由邊數(shù)量調(diào)節(jié)單元1102調(diào)節(jié)的邊數(shù)量Ne的部分網(wǎng)絡(luò)。如果在部分網(wǎng)絡(luò)集合510中沒有可獲取的部分網(wǎng)絡(luò),則完成了獲取處理。
交疊計(jì)算單元1104對邊數(shù)量為Ne的部分網(wǎng)絡(luò)(以下稱為“已獲取部分網(wǎng)絡(luò)”)與早先被選擇為分析對象的部分網(wǎng)絡(luò)的集合S(分析對象部分網(wǎng)絡(luò)集合)的相互交疊程度進(jìn)行計(jì)算。具體來說,計(jì)算已獲取部分網(wǎng)絡(luò)與分析對象部分網(wǎng)絡(luò)集合S共享的邊數(shù)量(公共邊的數(shù)量Nc)作為交疊度。
邊數(shù)量設(shè)置單元1105將邊數(shù)量Ncu(Ncu≥1)設(shè)置為分類基準(zhǔn)。邊數(shù)量Ncu是由分類單元1106用來對部分網(wǎng)絡(luò)集合510進(jìn)行分類的基準(zhǔn)。邊數(shù)量Ncu由用戶指定。邊數(shù)量Ncu是部分網(wǎng)絡(luò)與分析對象部分網(wǎng)絡(luò)集合S共有的公共邊的數(shù)量Nc的上限。部分網(wǎng)絡(luò)是由部分網(wǎng)絡(luò)獲取單元1103獲取的。由分類單元1106對分析對象部分網(wǎng)絡(luò)集合S進(jìn)行分類。
分類單元1106基于所述交疊度將部分網(wǎng)絡(luò)集合510中的部分網(wǎng)絡(luò)分類成分析對象和非分析對象。具體來說,基于公共邊數(shù)量Nc和邊數(shù)量Ncu,將所獲取的部分網(wǎng)絡(luò)分成分析對象的部分網(wǎng)絡(luò)(以下稱為“分析對象部分網(wǎng)絡(luò)”)和非分析對象的部分網(wǎng)絡(luò)(以下稱為“非分析對象部分網(wǎng)絡(luò)”)。
當(dāng)將公共邊數(shù)量Nc與作為公共邊數(shù)量Nc的上限的邊數(shù)量Ncu進(jìn)行比較并且Nc>Ncu不成立時,分類單元1106將已獲取部分網(wǎng)絡(luò)確定為新選定的部分網(wǎng)絡(luò)。分類單元1106將該已獲取部分網(wǎng)絡(luò)加入分析對象部分網(wǎng)絡(luò)集合S中。如果分析對象部分網(wǎng)絡(luò)集合S是空集(S=Φ),或者換句話說存在非分析對象部分網(wǎng)絡(luò),則Nc=0。因此,將該已獲取部分網(wǎng)絡(luò)確定為分析對象部分網(wǎng)絡(luò)并將其加入分析對象部分網(wǎng)絡(luò)集合S。
圖12是用于例示由分類單元1106進(jìn)行的部分網(wǎng)絡(luò)分類處理的示意圖。由生成處理單元503最終生成圖12所示的部分網(wǎng)絡(luò)1201到1203。
部分網(wǎng)絡(luò)1201與疾病注釋200的段落1-1(疾病D1)相關(guān)聯(lián)。部分網(wǎng)絡(luò)1202與疾病注釋200的段落1-2(疾病D2)相關(guān)聯(lián)。部分網(wǎng)絡(luò)1203與疾病注釋200的段落2-1(疾病D3)相關(guān)聯(lián)。
如果部分網(wǎng)絡(luò)1201是所選定的部分網(wǎng)絡(luò)并且部分網(wǎng)絡(luò)1202是已獲取部分網(wǎng)絡(luò),則邊E12、E13以及E23是共享邊(由圖12中的粗線表示)。因此,部分網(wǎng)絡(luò)1201與1202的公共邊數(shù)量Nc是3條邊。
以此方式,從輸出處理單元505輸出了最終在分析對象部分網(wǎng)絡(luò)集合S中的部分網(wǎng)絡(luò)。在圖12中的示例中,首先,從部分網(wǎng)絡(luò)集合510獲取具有最大邊數(shù)量Ne(4條邊)的部分網(wǎng)絡(luò)1201。此時不存在分析對象部分網(wǎng)絡(luò)。因此,將具有最大邊數(shù)量Ne(4條邊)的部分網(wǎng)絡(luò)1201確定為分析對象部分網(wǎng)絡(luò)并將其加入分析對象部分網(wǎng)絡(luò)集合S。
將具有最大邊數(shù)量Ne的部分網(wǎng)絡(luò)1201無條件地確定為分析對象部分網(wǎng)絡(luò)。因此,可以覆蓋邊數(shù)量等于或少于最大邊數(shù)量Ne且等于或高于與部分網(wǎng)絡(luò)1201共享的公共邊數(shù)量Nc的部分網(wǎng)絡(luò)的基因相互作用。
接著,部分網(wǎng)絡(luò)獲取單元1103從部分網(wǎng)絡(luò)集合510中獲取邊數(shù)量Ne=3的部分網(wǎng)絡(luò)1202。同樣,部分網(wǎng)絡(luò)1203中的邊數(shù)量Ne=3。如果多個部分網(wǎng)絡(luò)具有相同的邊數(shù)量Ne,那么可以獲取這些部分網(wǎng)絡(luò)中的任何一個。
這里,首先獲取部分網(wǎng)絡(luò)1202。交疊計(jì)算單元1104計(jì)算與分析對象部分網(wǎng)絡(luò)集合S內(nèi)的部分網(wǎng)絡(luò)1201共有的公共邊數(shù)量Nc。在此情況下,如圖12所示,公共邊數(shù)量Nc=3。如果上限Ncu=2,則滿足Nc>Ncu。因此,不將部分網(wǎng)絡(luò)1202確定為分析對象部分網(wǎng)絡(luò)。
換句話說,在部分網(wǎng)絡(luò)1201中包括指定部分網(wǎng)絡(luò)1202的基因相互作用的節(jié)點(diǎn)N1到N3和邊E12、E13以及E23。因此,可以將部分網(wǎng)絡(luò)1202從分析對象中排除掉。因此,可以抑制作為分析對象的分析對象部分網(wǎng)絡(luò)的交疊,因而可以更有效率地執(zhí)行分析。
最后,部分網(wǎng)絡(luò)獲取單元1103從部分網(wǎng)絡(luò)集合510獲取邊數(shù)量Ne=3的部分網(wǎng)絡(luò)1203。部分網(wǎng)絡(luò)1203與部分網(wǎng)絡(luò)1201共有的公共邊數(shù)量是Nc=0。因此,將部分網(wǎng)絡(luò)1203加入分析對象部分網(wǎng)絡(luò)集合S作為新的分析對象網(wǎng)絡(luò)。選擇部分網(wǎng)絡(luò)1201和1203作為分析對象部分網(wǎng)絡(luò)。
圖13和圖14是分析對象部分網(wǎng)絡(luò)的顯示示例。如圖13所示,將各分析對象部分網(wǎng)絡(luò)的詳細(xì)信息1311顯示在顯示屏面1300的左窗格1301上。詳細(xì)信息1311例如是針對每種疾病D1到D9的分析對象部分網(wǎng)絡(luò)的節(jié)點(diǎn)量、邊數(shù)量以及累積覆蓋率。
可以通過圖1所示的鍵盤110或鼠標(biāo)111來指定每種疾病D1到D9。通過察看詳細(xì)信息1311,用戶可以指定用戶希望分析的疾病的分析對象部分網(wǎng)絡(luò)。當(dāng)用戶例如指定了疾病D3時,在右窗格1302上顯示出表示與所指定的疾病D3有關(guān)的部分網(wǎng)絡(luò)的網(wǎng)絡(luò)圖1312。
如圖14所示,顯示了與詳細(xì)信息1311不同的詳細(xì)信息1411。將圖2所示的疾病注釋200的知識樹1412的主體顯示為詳細(xì)信息1411。將疾病D1到D9顯示在樹1412的端部處。
如圖13所示,可以通過鍵盤110或鼠標(biāo)111來指定疾病D1到D9中的每一個。通過察看詳細(xì)信息1411,用戶可以指定用戶希望分析的疾病的分析對象部分網(wǎng)絡(luò)。當(dāng)用戶例如指定了疾病D3時,在右窗格1302上顯示出表示與所指定的疾病D3有關(guān)的部分網(wǎng)絡(luò)的網(wǎng)絡(luò)圖1312。
圖15是由相關(guān)性計(jì)算單元501進(jìn)行的相關(guān)性計(jì)算處理的流程圖。獲取圖2所示的疾病注釋200(步驟S1501)。從醫(yī)學(xué)文獻(xiàn)DB中提取電子文獻(xiàn)A1到An(步驟S1502)。相似度計(jì)算單元511對疾病注釋200中的說明200-k與各電子文獻(xiàn)Ai之間的相似度進(jìn)行計(jì)算(步驟S1503)。說明200-k指定疾病Dk。相關(guān)性設(shè)置單元512對基因相互作用Ij與疾病Dk之間的相關(guān)性Rjk進(jìn)行設(shè)置(步驟S1504)。
相關(guān)性DB 400保持所設(shè)置的相關(guān)性Rjk(步驟S1505)。然后,對在疾病注釋200內(nèi)是否存在未處理說明進(jìn)行判斷(步驟S1506)。如果存在未處理說明(步驟S1506是),則處理返回到步驟S1503并對未處理說明與各電子文獻(xiàn)Ai之間的相似度進(jìn)行計(jì)算。同時,若不存在未處理說明(步驟S1506否),則完成了處理系列。因此,可以自動構(gòu)造出相關(guān)性DB 400。
圖16是由設(shè)備500執(zhí)行的處理的流程圖。首先,執(zhí)行初始設(shè)置(步驟S1601)。在初始設(shè)置中,設(shè)置如下量相關(guān)性R的閾值T、相關(guān)性R的減小量ΔT、作為合成網(wǎng)絡(luò)的合成源的部分網(wǎng)絡(luò)的節(jié)點(diǎn)量和邊數(shù)量(預(yù)定值Na)、指定覆蓋率Ct、公共邊數(shù)量Nc的上限Ncu等。將相關(guān)性E的閾值T設(shè)置為相關(guān)性R的上限。
接著,生成處理單元503執(zhí)行部分網(wǎng)絡(luò)生成處理(步驟S1602)。分類處理單元504執(zhí)行部分網(wǎng)絡(luò)分類處理(步驟S1603)。輸出處理單元505對分析對象部分網(wǎng)絡(luò)執(zhí)行顯示處理(步驟S1604)。因此,可以顯示分析對象部分網(wǎng)絡(luò)的詳細(xì)信息1311和詳細(xì)信息1411以及網(wǎng)絡(luò)圖1312,如圖13和圖14所示的那些。
圖17是部分網(wǎng)絡(luò)生成處理的流程圖。首先,將相關(guān)性R的閾值T設(shè)置為Tmax(步驟S1701)。相關(guān)性Rjk的上限=1,因此,T=1。
接著,對在相關(guān)性DB 400中是否存在基因相互作用Ij進(jìn)行判斷(步驟S1702)。基因相互作用Ij與疾病Dk中的任何一個之間具有等于或高于閾值T的相關(guān)性Rjk。如果不存在基因相互作用Ij(步驟S1702否),則將閾值T減小ΔT(步驟S1703)并且處理返回到步驟S1702。
同時,如果在相關(guān)性DB 400中存在對應(yīng)的基因相互作用Ij,則從相關(guān)性DB 400中檢測出所有基因相互作用Ij(指定了基因相互作用Ij的多個基因的組合)(步驟S1704)。
針對每種疾病對基因相互作用網(wǎng)絡(luò)800進(jìn)行劃分,然后生成了部分網(wǎng)絡(luò)901到903(步驟S1705)。接著,聯(lián)合網(wǎng)絡(luò)生成單元707從部分網(wǎng)絡(luò)901到903中提取節(jié)點(diǎn)數(shù)量(或邊數(shù)量)為Na的部分網(wǎng)絡(luò)(步驟S1706)。然后,聯(lián)合網(wǎng)絡(luò)生成單元707生成聯(lián)合網(wǎng)絡(luò)1000(步驟S1707)。覆蓋率計(jì)算單元708對聯(lián)合網(wǎng)絡(luò)1000的覆蓋率進(jìn)行計(jì)算(步驟S1708)。
然后,覆蓋率判斷單元710判斷是否滿足C≥Ct(步驟S1709)。如果不滿足C≥Ct(步驟S1709否),則處理返回到步驟S1703。通過處理循環(huán)來減小閾值T,從而增加在步驟S1704處檢測到的基因相互作用的數(shù)量。因此,可以利用減小量ΔT來逐漸增加步驟S1707處的聯(lián)合網(wǎng)絡(luò)??梢蕴岣卟糠志W(wǎng)絡(luò)集合510的基因相互作用網(wǎng)絡(luò)800的覆蓋率。
同時,如果滿足C≥Ct(步驟S1709是),則保持部分網(wǎng)絡(luò)901到903(步驟S1710)。然后,處理返回到部分網(wǎng)絡(luò)分類處理(步驟S1603)。
圖18是部分網(wǎng)絡(luò)分類處理的流程圖。將獲取基準(zhǔn)設(shè)置為部分網(wǎng)絡(luò)集合510中的部分網(wǎng)絡(luò)的邊數(shù)量中的最大邊數(shù)量(Ne=Nmax)。在初始階段,分析對象部分網(wǎng)絡(luò)集合S是空集(S=Φ)(步驟S1801)。
在步驟S1802處,部分網(wǎng)絡(luò)獲取單元1103對在部分網(wǎng)絡(luò)集合510中是否存在邊數(shù)量為Ne的部分網(wǎng)絡(luò)進(jìn)行判斷。如果在部分網(wǎng)絡(luò)集合510中存在這種部分網(wǎng)絡(luò)(步驟S1802是),則獲取邊數(shù)量為Ne的部分網(wǎng)絡(luò)(步驟S1803)。然后,交疊計(jì)算單元1104對所獲得的部分網(wǎng)絡(luò)與分析對象部分網(wǎng)絡(luò)集合S內(nèi)的部分網(wǎng)絡(luò)共有的公共邊數(shù)量Nc進(jìn)行計(jì)算(步驟S1804)。在初始階段,S=Φ,因此,公共邊數(shù)量Nc=0。
然后,判斷是否滿足Nc>Ncu(步驟S1805)。如果不滿足Nc>Ncu(步驟S1805否),則將所獲得的部分網(wǎng)絡(luò)加入分析對象部分網(wǎng)絡(luò)集合S(步驟S1806),然后處理返回到步驟S1802。同時,如果滿足Nc>Ncu(步驟S1805是),則處理在不將所提取的部分網(wǎng)絡(luò)加入分析對象部分網(wǎng)絡(luò)集合S的情況下返回到步驟S1802。
如果在步驟S1802處不存在邊數(shù)量為Ne的部分網(wǎng)絡(luò)(步驟S1802否),則對邊數(shù)量Ne是否為部分網(wǎng)絡(luò)集合510中的最小邊數(shù)量Nmin進(jìn)行判斷(步驟S1807)。
如果Ne不等于Nmin(步驟S1807否),則將邊數(shù)量Ne遞減(步驟S1808),然后處理返回到步驟S1802。同時,如果Ne=Nmin(步驟S1807是),則保持分析對象部分網(wǎng)絡(luò)集合S(步驟S1809)。然后,處理進(jìn)行到顯示處理(步驟S1604)。
以此方式,根據(jù)以上實(shí)施例,針對每個生物學(xué)事件(疾病等)將基因相互作用網(wǎng)絡(luò)(800和2100)劃分成具有合適大小的多個部分網(wǎng)絡(luò)。此外,提高了這些部分網(wǎng)絡(luò)的整體覆蓋率。
因此,在考慮與所關(guān)注的疾病之間的關(guān)系的情況下,用戶可以從數(shù)量上相對少的,具有便于分析的大小的部分網(wǎng)絡(luò)中選擇待優(yōu)先分析的部分網(wǎng)絡(luò)。因此,針對其中可以看到基因表現(xiàn)中的變化的基因簇,可以從大量可能的基因相互作用中容易地選擇出所關(guān)注的基因相互作用。
在由輸出處理單元505進(jìn)行的顯示處理中(步驟S1604),顯示內(nèi)容如圖13和圖14所示。然而,也可以進(jìn)行其它形式的顯示。圖19是分析對象部分網(wǎng)絡(luò)顯示的另一顯示示例的示意圖。當(dāng)從左窗格1301中的詳細(xì)信息1311中選擇例如疾病D3時,在上右窗格1903中顯示與疾病D3的部分網(wǎng)絡(luò)類似的部分網(wǎng)絡(luò)的詳細(xì)信息1913。可以通過公共節(jié)點(diǎn)和公共邊的數(shù)量來判斷部分網(wǎng)絡(luò)是否類似。
如果在上右窗格1903中的疾病D10到D12中指定例如疾病D10,則在右窗格1302中顯示合成網(wǎng)絡(luò)的網(wǎng)絡(luò)圖1900。該合成網(wǎng)絡(luò)是在左窗格1301中指定的疾病D3的部分網(wǎng)絡(luò)與在上右窗格1903中指定的疾病D10的部分網(wǎng)絡(luò)的合成。
在右窗格1302中的網(wǎng)絡(luò)圖1900中,根據(jù)疾病對節(jié)點(diǎn)上色。將公共節(jié)點(diǎn)上色成相同顏色。當(dāng)邊的兩端的節(jié)點(diǎn)指定不同的基因或相同的基因時,以及當(dāng)邊的兩端的節(jié)點(diǎn)中的任何一個是公共節(jié)點(diǎn)時,將這些節(jié)點(diǎn)上色成不同的顏色。因此,在顯示這些節(jié)點(diǎn)時,便于在視覺上理解。
圖20是由圖19所示的顯示示例的輸出處理單元505進(jìn)行的顯示處理的流程圖。首先,對分析對象部分網(wǎng)絡(luò)的詳細(xì)信息1311進(jìn)行顯示(步驟S2001)。然后,輸出處理單元505等待從詳細(xì)信息1311中對疾病的指定(步驟S2002否)。
當(dāng)接收到對疾病(例如疾病D3)的指定時(步驟S2002是),顯示與疾病D3有關(guān)的分析對象部分網(wǎng)絡(luò)的網(wǎng)絡(luò)圖1312(見圖13)(步驟S2003)。
還顯示與所指定的疾病D3的部分網(wǎng)絡(luò)類似的部分網(wǎng)絡(luò)的詳細(xì)信息1913(步驟S2004)。輸出處理單元505等待從詳細(xì)信息1913中對疾病的指定(步驟S2005否)。當(dāng)接收到對疾病(例如疾病D10)的指定時(步驟S2005是),顯示合成網(wǎng)絡(luò)的網(wǎng)絡(luò)圖1900(步驟S2006)。該合成網(wǎng)絡(luò)是疾病D3的部分網(wǎng)絡(luò)與疾病D10的部分網(wǎng)絡(luò)的合成。然后,完成了該系列處理。
根據(jù)該顯示處理,可以通過指定用戶希望分析的多個疾病,來顯示出表示多個疾病的基因相互作用的合成網(wǎng)絡(luò)。因此,即使用戶希望關(guān)注于多個疾病,也可以提供大小合適的具有提高了的總體覆蓋率的合成網(wǎng)絡(luò)。此外,可以便于對基因相互作用進(jìn)行分析。
根據(jù)本實(shí)施例,用戶可以對針對每個生物學(xué)事件生成的基因相互作用的部分網(wǎng)絡(luò)進(jìn)行選擇和分析。因此,即使在原始基因相互作用網(wǎng)絡(luò)中存在由各種生物學(xué)事件導(dǎo)致的基因相互作用,用戶也可以通過將分析縮減到只對與所指定的生物學(xué)事件有關(guān)的部分進(jìn)行分析來高效地執(zhí)行分析。
此外,根據(jù)本實(shí)施例,當(dāng)基于與生物學(xué)事件之間的相關(guān)性來選擇基因相互作用時,可以自動地確定相關(guān)性R的閾值??梢赃x擇與生物學(xué)事件之間具有等于或高于該閾值的相關(guān)性R的基因相互作用。因此,可以滿足針對待生成的個體部分網(wǎng)絡(luò)的大小和復(fù)雜度的預(yù)定條件和針對在所生成的多個部分網(wǎng)絡(luò)中應(yīng)當(dāng)共同地包括的基因相互作用的數(shù)量的預(yù)定條件。
針對部分網(wǎng)絡(luò)的大小的條件可以是要包括在各部分網(wǎng)絡(luò)中的基因的數(shù)量的范圍等。針對部分網(wǎng)絡(luò)的復(fù)雜度的條件可以是要包括在各部分網(wǎng)絡(luò)中的基因相互作用的數(shù)量的范圍(或基因的數(shù)量與基因相互作用的數(shù)量之比)等。針對在所述多個部分網(wǎng)絡(luò)中應(yīng)當(dāng)共同地包括的基因相互作用的數(shù)量的條件可以是基于在原始基因網(wǎng)絡(luò)中包括的基因相互作用的比例(覆蓋率)等。
因此,可以對待成為候選分析對象的部分網(wǎng)絡(luò)的大小和復(fù)雜度進(jìn)行控制。因此,可以對具有簡單結(jié)構(gòu)的小規(guī)模部分網(wǎng)絡(luò)進(jìn)行分析。還可以對在所輸出的多個部分網(wǎng)絡(luò)中共同包括的基因相互作用的數(shù)量進(jìn)行控制。因此,如果對所有輸出的部分網(wǎng)絡(luò)進(jìn)行分析,可以滿足以下用戶請求。該用戶請求保證可以對在原始基因相互作用網(wǎng)絡(luò)中包括的大部分相互作用進(jìn)行綜合分析。
此外,根據(jù)本實(shí)施例,對各部分網(wǎng)絡(luò)與另一部分網(wǎng)絡(luò)(其包括比前者更多的基因相互作用)之間的基因相互作用的交疊(邊交疊)進(jìn)行計(jì)算。如果與任何部分網(wǎng)絡(luò)之間的交疊都大于預(yù)定比例,則將該部分網(wǎng)絡(luò)從分析對象中排除。因此,可以選擇這些部分網(wǎng)絡(luò)中的彼此之間具有大差異的代表性部分網(wǎng)絡(luò)作為分析對象部分網(wǎng)絡(luò)。
因此,可以只將具有大差異的代表性部分網(wǎng)絡(luò)處理成分析對象部分網(wǎng)絡(luò)。因此,可以通過只對相對小數(shù)量的部分網(wǎng)絡(luò)進(jìn)行分析來分析大數(shù)量的基因相互作用。
此外,根據(jù)本實(shí)施例的另一方面,通過與高度相似于非分析對象部分網(wǎng)絡(luò)(在所包括的基因相互作用之間的差異很小)的分析對象部分網(wǎng)絡(luò)之間的對應(yīng)關(guān)系,還可以從分析對象部分網(wǎng)絡(luò)中獨(dú)立地輸出非分析對象部分網(wǎng)絡(luò)。
因此,在指定了具有高重要性的代表性分析對象部分網(wǎng)絡(luò)之后,除了該代表性分析對象部分網(wǎng)絡(luò)以外,用戶還可以對類似于該代表性分析對象部分網(wǎng)絡(luò)的部分網(wǎng)絡(luò)進(jìn)行更詳細(xì)的分析。如果這樣分級地加寬分析范圍,可以在不降低分析效率的情況下對基因相互作用進(jìn)行綜合分析。所分析的基因相互作用包括在只分析代表性分析對象部分網(wǎng)絡(luò)的情況下會忽略掉的基因相互作用(未包括在代表性分析對象部分網(wǎng)絡(luò)中的基因相互作用)。
根據(jù)一種用于支持基因相互作用網(wǎng)絡(luò)分析支持程序的計(jì)算機(jī)程序、一種記錄有該基因相互作用網(wǎng)絡(luò)分析支持程序的記錄介質(zhì)、一種支持基因相互作用分析網(wǎng)絡(luò)的方法以及用于支持對基因相互作用網(wǎng)絡(luò)的分析的設(shè)備,提供了可易于分析的基因相互作用網(wǎng)絡(luò),從而提高了用戶的分析效率。
可以通過諸如個人計(jì)算機(jī)和工作站的計(jì)算機(jī)對程序的執(zhí)行來實(shí)現(xiàn)在本實(shí)施例中說明的方法。該程序可預(yù)先提供。該程序記錄在可以由計(jì)算機(jī)讀取的記錄介質(zhì)(如HD、FD、CD-ROM、MO盤以及DVD)上。由計(jì)算機(jī)從記錄介質(zhì)讀出程序以執(zhí)行該程序。該程序也可以是可以通過諸如因特網(wǎng)的網(wǎng)絡(luò)來發(fā)布的傳輸介質(zhì)。
根據(jù)上述實(shí)施例,可以提高對基因相互作用網(wǎng)絡(luò)的分析效率。
盡管為了充分和清楚公開的目的,針對具體實(shí)施例對本發(fā)明進(jìn)行了描述,但是所附權(quán)利要求并不由此受到限制,而應(yīng)被解釋成實(shí)現(xiàn)了本領(lǐng)域的技術(shù)人員可以想到的落入在此闡述的基本教導(dǎo)之內(nèi)的所有修改和另選結(jié)構(gòu)。
本申請基于并且要求2006年4月21日提交的在先日本專利申請第2006-118013號的優(yōu)先權(quán),通過引用將其全部內(nèi)容合并于此。
權(quán)利要求
1.一種支持對基因相互作用網(wǎng)絡(luò)進(jìn)行分析的方法,所述方法包括以下步驟閾值設(shè)置步驟,其設(shè)置針對生物學(xué)事件與基因相互作用之間的相關(guān)性的閾值;第一基因相互作用檢測步驟,其從形成所述基因相互作用網(wǎng)絡(luò)的多個基因相互作用中檢測具有等于或高于所述閾值的相關(guān)性的基因相互作用;以及部分網(wǎng)絡(luò)生成步驟,其通過根據(jù)所述生物學(xué)事件來對檢測出的基因相互作用進(jìn)行排列來生成針對各生物學(xué)事件的多個部分網(wǎng)絡(luò)。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括以下步驟閾值調(diào)節(jié)步驟,當(dāng)在所述基因相互作用檢測步驟處未檢測到基因相互作用時,所述閾值調(diào)節(jié)步驟將所述閾值調(diào)節(jié)成較低值;和第二基因相互作用檢測步驟,其從所述多個基因相互作用中檢測具有等于或高于調(diào)節(jié)后的閾值的相關(guān)性的基因相互作用,其中所述部分網(wǎng)絡(luò)生成步驟包括通過對具有等于或高于所述調(diào)節(jié)后的閾值的相關(guān)性的基因相互作用進(jìn)行排列,來生成所述多個部分網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括以下步驟第一條件設(shè)置步驟,其設(shè)置對基因的數(shù)量和基因相互作用的數(shù)量中的任何一個進(jìn)行限制的條件;和部分網(wǎng)絡(luò)提取步驟,其從在所述部分網(wǎng)絡(luò)生成步驟處生成的所述多個部分網(wǎng)絡(luò)中提取滿足所述條件的部分網(wǎng)絡(luò)。
4.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括以下步驟第二條件設(shè)置步驟,其設(shè)置針對分析對象的覆蓋率的條件;聯(lián)合網(wǎng)絡(luò)生成步驟,其通過針對各生物學(xué)事件對所述多個部分網(wǎng)絡(luò)進(jìn)行排列來生成聯(lián)合網(wǎng)絡(luò);覆蓋率計(jì)算步驟,其對表示所述聯(lián)合網(wǎng)絡(luò)被包括在所述基因相互作用網(wǎng)絡(luò)中的程度的覆蓋率進(jìn)行計(jì)算;以及判斷步驟,其判斷所述覆蓋率是否滿足所述針對分析對象的覆蓋率的條件,并且所述閾值調(diào)節(jié)步驟包括當(dāng)所述覆蓋率不滿足所述針對分析對象的覆蓋率的條件時,將所述閾值調(diào)節(jié)為較低值。
5.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括以下步驟分類步驟,其基于所述多個部分網(wǎng)絡(luò)相互之間的交疊程度,將所述多個部分網(wǎng)絡(luò)分類成分析對象和非分析對象。
6.根據(jù)權(quán)利要求5所述的方法,其中,所述方法還包括以下步驟獲取基準(zhǔn)設(shè)置步驟,其設(shè)置作為用于獲取所述部分網(wǎng)絡(luò)的獲取基準(zhǔn)的邊數(shù)量;獲取基準(zhǔn)調(diào)節(jié)步驟,其對所述獲取基準(zhǔn)進(jìn)行調(diào)節(jié),使得所述邊數(shù)量分級地減?。徊糠志W(wǎng)絡(luò)獲取步驟,其從所述多個部分網(wǎng)絡(luò)的集合中獲取其邊數(shù)量與所述獲取基準(zhǔn)相同的部分網(wǎng)絡(luò);以及交疊程度計(jì)算步驟,其對所獲取的部分網(wǎng)絡(luò)與被分類成所述分析對象的部分網(wǎng)絡(luò)的集合之間的交疊程度進(jìn)行計(jì)算,并且所述分類步驟還包括基于所述交疊程度,將獲取的部分網(wǎng)絡(luò)分類成所述分析對象和所述非分析對象。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述獲取基準(zhǔn)調(diào)節(jié)步驟包括當(dāng)在所述多個部分網(wǎng)絡(luò)中不存在其邊數(shù)量與所述獲取基準(zhǔn)相同的部分網(wǎng)絡(luò)時,通過將邊數(shù)量減小預(yù)定數(shù)量來調(diào)節(jié)所述獲取基準(zhǔn);并且所述部分網(wǎng)絡(luò)獲取步驟包括獲取其邊數(shù)量與調(diào)節(jié)后的獲取基準(zhǔn)相同的部分網(wǎng)絡(luò)。
8.根據(jù)權(quán)利要求6所述的方法,其中所述方法還包括分類基準(zhǔn)設(shè)置步驟,所述分類基準(zhǔn)設(shè)置步驟將邊數(shù)量設(shè)置為用于對所述多個部分網(wǎng)絡(luò)進(jìn)行分類的分類基準(zhǔn),并且所述分類步驟包括基于所述交疊程度和所述分類基準(zhǔn),將所述多個部分網(wǎng)絡(luò)分類成所述分析對象和所述非分析對象。
9.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括顯示步驟,所述顯示步驟在顯示屏面上顯示所述多個部分網(wǎng)絡(luò)。
10.根據(jù)權(quán)利要求9所述的方法,其中,所述顯示步驟包括當(dāng)從所述多個部分網(wǎng)絡(luò)中指定生物學(xué)事件部分網(wǎng)絡(luò)時,顯示所述生物學(xué)事件部分網(wǎng)絡(luò)與類似于所述生物學(xué)事件部分網(wǎng)絡(luò)的部分網(wǎng)絡(luò)的合成網(wǎng)絡(luò)。
11.根據(jù)權(quán)利要求1所述的方法,其中,所述方法還包括相關(guān)性設(shè)置步驟,所述相關(guān)性設(shè)置步驟基于對所述生物學(xué)事件進(jìn)行說明的文檔和表示所述基因相互作用的文獻(xiàn),對所述相關(guān)性進(jìn)行設(shè)置,并且所述基因相互作用檢測步驟包括從所述基因相互作用網(wǎng)絡(luò)中檢測針對其設(shè)置的相關(guān)性等于或高于所述閾值的基因相互作用。
12.根據(jù)權(quán)利要求11所述的方法,其中,所述方法還包括相似度計(jì)算步驟,所述相似度計(jì)算步驟針對每個文獻(xiàn),對所述文檔與所述文獻(xiàn)之間的內(nèi)容相似度進(jìn)行計(jì)算,并且所述相關(guān)性設(shè)置步驟包括基于所述相似度對所述相關(guān)性進(jìn)行設(shè)置。
13.一種用于支持對基因相互作用網(wǎng)絡(luò)進(jìn)行分析的設(shè)備,該設(shè)備包括以下單元設(shè)置單元,其被構(gòu)造成設(shè)置針對生物學(xué)事件與基因相互作用之間的相關(guān)性的閾值;檢測單元,其被構(gòu)造成從形成所述基因相互作用網(wǎng)絡(luò)的多個基因相互作用中檢測具有等于或高于所述閾值的相關(guān)性的基因相互作用;以及生成單元,其被構(gòu)造成通過根據(jù)所述生物學(xué)事件對檢測出的基因相互作用進(jìn)行排列來生成針對各生物學(xué)事件的部分網(wǎng)絡(luò)。
14.根據(jù)權(quán)利要求13所述的設(shè)備,所述設(shè)備還包括調(diào)節(jié)單元,所述調(diào)節(jié)單元被構(gòu)造成在所述檢測單元未檢測到基因相互作用時將所述閾值調(diào)節(jié)成較低值,其中所述檢測單元被構(gòu)造成從所述多個基因相互作用中檢測具有等于或高于調(diào)節(jié)后的閾值的相關(guān)性的基因相互作用。
全文摘要
本發(fā)明涉及支持基因相互作用網(wǎng)絡(luò)分析的方法和設(shè)備以及計(jì)算機(jī)產(chǎn)品。在屏面的左窗格上顯示了各分析對象部分網(wǎng)絡(luò)的詳細(xì)信息。該詳細(xì)信息包括針對每種疾病的分析對象部分網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)量、邊數(shù)量以及累積覆蓋率?;谠撛敿?xì)信息,用戶可以指定用戶希望分析的疾病的分析對象部分網(wǎng)絡(luò)。當(dāng)用戶指定了疾病時,在右窗格上顯示出表示與所指定的疾病有關(guān)的部分網(wǎng)絡(luò)的網(wǎng)絡(luò)圖。
文檔編號G06F19/26GK101059824SQ200710104440
公開日2007年10月24日 申請日期2007年4月20日 優(yōu)先權(quán)日2006年4月21日
發(fā)明者丸橋弘治, 山川宏, 仲尾由雄 申請人:富士通株式會社