專利名稱:用于信息發(fā)現(xiàn)以及關(guān)聯(lián)分析的計(jì)算機(jī)程序產(chǎn)品、系統(tǒng)以及方法
技術(shù)領(lǐng)域:
本發(fā)明大致上涉及知識(shí)發(fā)現(xiàn)領(lǐng)域,特別是涉及通過(guò)關(guān)聯(lián)分析作為鏈接先前未關(guān)聯(lián)對(duì)象的方法用以識(shí)別并評(píng)估共享的關(guān)聯(lián)。
背景技術(shù):
早期,識(shí)別介于獨(dú)立的信息或數(shù)據(jù)片段(parcel)之間新的關(guān)聯(lián)的方法依賴于會(huì)產(chǎn)生大量錯(cuò)誤事實(shí)的無(wú)邊際檢索。不幸的是,盡管可用以探索的數(shù)據(jù)量(以及由數(shù)據(jù)所組成的對(duì)象)每天不斷地?cái)U(kuò)展,然而每個(gè)用戶通常受限于其能力而無(wú)法累積并使用這些不斷擴(kuò)展的數(shù)據(jù)來(lái)源。同等重要的是,用戶還受限于理解新數(shù)據(jù)的許多涵義以及介于新舊數(shù)據(jù)之間的潛在關(guān)聯(lián)。舉例而言,在生物領(lǐng)域中,在過(guò)去的十年內(nèi)數(shù)據(jù)的數(shù)量呈現(xiàn)爆炸性的增長(zhǎng)。在2002年初期,DNA序列已累積超過(guò)117,764個(gè)種類且通過(guò)已識(shí)別的117,481種化合物的分子結(jié)構(gòu)列出352,924種已知的化學(xué)化合物。此外,已識(shí)別出超過(guò)18,000個(gè)具有至少一個(gè)功能的人類基因位置。一個(gè)數(shù)據(jù)來(lái)源(數(shù)據(jù)庫(kù))包括至少13,034種人類疾病、健康狀態(tài)或綜合癥。涵蓋相關(guān)生物數(shù)據(jù)的最大文獻(xiàn)數(shù)據(jù)來(lái)源是MEDLINE。在2002年初期,此數(shù)據(jù)來(lái)源包含大約一千二百萬(wàn)筆記錄,并以每年500,000筆記錄的比率持續(xù)增加。
隨著數(shù)據(jù)量的持續(xù)擴(kuò)展,現(xiàn)今所需要的不僅是提供數(shù)據(jù)的儲(chǔ)藏室,而且還需要可通過(guò)檢索、解釋、鏈接以及關(guān)聯(lián)數(shù)據(jù)對(duì)象來(lái)″了解″這些數(shù)據(jù)的管理者,特別是對(duì)于以前被視為無(wú)關(guān)聯(lián)的數(shù)據(jù)對(duì)象。事實(shí)上,最經(jīng)濟(jì)的數(shù)據(jù)管理方法是有效地利用現(xiàn)有的數(shù)據(jù)而達(dá)到創(chuàng)新的解釋。因此,知識(shí)發(fā)現(xiàn)必須同時(shí)依賴現(xiàn)存與新的對(duì)象;其必須自一個(gè)或多個(gè)已鏈接的或未鏈接的數(shù)據(jù)來(lái)源中檢索出對(duì)象(包括新的與現(xiàn)有的對(duì)象),其必須檢查可能在這些對(duì)象間共享的潛在的關(guān)聯(lián),針對(duì)這些對(duì)象提供新穎的功能與解釋,并針對(duì)未來(lái)的操作及/或額外的分析儲(chǔ)存這些新的關(guān)聯(lián)、功能以及解釋。
數(shù)據(jù)挖掘技術(shù)提供在現(xiàn)今的新信息年代中所要求的某些解釋。ARROWSMITH是其中一種檢索工具,其依賴一種通過(guò)″橋接(bridging)″兩個(gè)確定的關(guān)注區(qū)域作為新信息檢索的方法。不幸的是,此工具僅能在單一層級(jí)中搜索,因此只能單向地搜索,無(wú)法記錄結(jié)果且僅提供有限深度的分析。OPUS是另一種搜索工具,其用以識(shí)別與現(xiàn)象相關(guān)的基因。盡管0PUS是一種有效的基因工具,但在其它信息領(lǐng)域中則有其限制。同樣受到限制的還有Perez-Iratxeta及其同僚于2002年7月發(fā)行的第21卷Nature Genetics第316至319頁(yè)中所描述的數(shù)據(jù)挖掘技術(shù),該技術(shù)通過(guò)雙位關(guān)聯(lián)中的模糊邏輯將基因鏈接至基因遺傳疾病。
發(fā)明內(nèi)容
通過(guò)前述的說(shuō)明可以證實(shí),目前需要一種用以管理并分析大量無(wú)關(guān)聯(lián)的數(shù)據(jù)與信息的符合成本效益的系統(tǒng)。該系統(tǒng)可應(yīng)用于多個(gè)數(shù)據(jù)來(lái)源的系統(tǒng),通過(guò)多層級(jí)的分析提供用戶友好的格式,并提供通過(guò)現(xiàn)有的基于詢問(wèn)的方法或單一層級(jí)檢索所無(wú)法實(shí)現(xiàn)的無(wú)關(guān)聯(lián)內(nèi)容的新發(fā)現(xiàn)。通過(guò)這種自動(dòng)知識(shí)發(fā)現(xiàn)系統(tǒng)的操作,各用戶與機(jī)構(gòu)獲得可以提升其對(duì)于現(xiàn)有可用數(shù)據(jù)的了解的基于知識(shí)的工具,而實(shí)現(xiàn)將先前不存在鏈接的數(shù)據(jù)處建立新的關(guān)聯(lián),且通過(guò)增加的經(jīng)濟(jì)利益,可實(shí)現(xiàn)符合社會(huì)利益的有效且可行的關(guān)鍵解釋。
本發(fā)明披露了一種在對(duì)象間建立關(guān)聯(lián)網(wǎng)絡(luò)的自動(dòng)知識(shí)發(fā)現(xiàn)系統(tǒng),以識(shí)別、評(píng)估并記錄新關(guān)聯(lián)。此網(wǎng)絡(luò)還可用以識(shí)別并評(píng)估在這些對(duì)象集合中共享的關(guān)聯(lián),并識(shí)別與評(píng)估僅憑借其共享的關(guān)聯(lián)暗示得知的對(duì)象。該經(jīng)過(guò)識(shí)別與評(píng)估的關(guān)聯(lián)的記錄也集成到本發(fā)明的系統(tǒng)中。本發(fā)明的系統(tǒng)可與其它用以研究、發(fā)現(xiàn)、篩選、診斷以及解釋管理的索引共同或不共同使用。本發(fā)明并不限制用于商業(yè)機(jī)構(gòu)或政府機(jī)構(gòu)戰(zhàn)略管理,用于群體(消費(fèi)者、病人等等)行為的預(yù)測(cè),用于環(huán)境影響預(yù)測(cè),用于識(shí)別欺詐,用于識(shí)別資源利用的模式,以及用于如生物技術(shù)、化學(xué)、物理、工程、天文學(xué)、地質(zhì)學(xué)、管理科學(xué)等科學(xué)的知識(shí)發(fā)現(xiàn)。
信息學(xué)方法必須管理大量的非結(jié)構(gòu)化或結(jié)構(gòu)化的數(shù)據(jù),以識(shí)別介于數(shù)據(jù)中的對(duì)象間新的與共享的關(guān)聯(lián),并針對(duì)這些對(duì)象達(dá)成新的解釋以及潛在的功能。信息學(xué)提供對(duì)象的邏輯解釋并實(shí)現(xiàn)新關(guān)聯(lián)的派生。
在一個(gè)方面,本發(fā)明提供一種在自動(dòng)化的方式下通過(guò)自一個(gè)或多個(gè)數(shù)據(jù)來(lái)源提取信息以建立介于對(duì)象間的關(guān)聯(lián)網(wǎng)絡(luò)的系統(tǒng)。本發(fā)明的系統(tǒng)通過(guò)基于實(shí)體的網(wǎng)絡(luò)的計(jì)算機(jī)篩選(in silico)結(jié)構(gòu)以確定介于數(shù)據(jù)來(lái)源中的對(duì)象間隱含的關(guān)聯(lián)。優(yōu)選的是,該數(shù)據(jù)來(lái)源包含文本。更優(yōu)選的是,該數(shù)據(jù)來(lái)源包含非結(jié)構(gòu)化的任意文本。本發(fā)明的系統(tǒng)賦予各用戶與機(jī)構(gòu)輸入關(guān)注的對(duì)象并檢索關(guān)于其它包括不同關(guān)聯(lián)強(qiáng)度的直接或間接相關(guān)聯(lián)對(duì)象的信息。舉例而言,當(dāng)在一個(gè)或多個(gè)科學(xué)與技術(shù)領(lǐng)域中操作時(shí),對(duì)象可包括基因(或其對(duì)偶基因、轉(zhuǎn)錄、片段或甲基化反應(yīng)等形式),蛋白質(zhì)(或其加工、未加工、改造或未改造的形式),化學(xué)化合物,疾病及/或臨床顯型(clinical phenotype)。
大體上而言,本發(fā)明的系統(tǒng)利用一個(gè)或多個(gè)數(shù)據(jù)來(lái)源以表示知識(shí)領(lǐng)域。多個(gè)數(shù)據(jù)來(lái)源可包括非結(jié)構(gòu)化或結(jié)構(gòu)化的數(shù)據(jù)。項(xiàng)目(以下稱之為對(duì)象)通過(guò)系統(tǒng)予以評(píng)估并用以識(shí)別該數(shù)據(jù)來(lái)源中的數(shù)據(jù),其中在該數(shù)據(jù)來(lái)源中項(xiàng)目的同現(xiàn)最終的識(shí)別對(duì)象間的潛在關(guān)聯(lián)。該關(guān)聯(lián)儲(chǔ)存于本發(fā)明的系統(tǒng)的新創(chuàng)設(shè)或已存在的動(dòng)態(tài)數(shù)據(jù)庫(kù)中并用以產(chǎn)生用以進(jìn)一步分析的關(guān)聯(lián)的綜合網(wǎng)絡(luò)。
在一個(gè)方面,本發(fā)明還提供一種多重任務(wù)處理系統(tǒng),其可執(zhí)行一個(gè)或多個(gè),且優(yōu)選包括下列的所有任務(wù)(a)取得所有資源(例如為知識(shí)領(lǐng)域或數(shù)據(jù)庫(kù))并解析該資源以精確地識(shí)別多個(gè)對(duì)象;(b)產(chǎn)生/編排代表性的數(shù)據(jù)庫(kù)及/或項(xiàng)目;(c)處理無(wú)格式的文本(例如為ASCII);(d)處理數(shù)據(jù),例如可通過(guò)針對(duì)公共的或未提供信息的單詞或?qū)ο蟮暮Y選來(lái)減少下一步分析;(e)識(shí)別對(duì)象的大寫(xiě)要求以增加精確度與召回(recall);(f)解決首字母縮略字以增加精確度、已知信息對(duì)象的數(shù)量以及已識(shí)別對(duì)象的數(shù)量;(g)擴(kuò)充同義詞以增加召回;(h)利用內(nèi)部或外部子例程以增強(qiáng)數(shù)據(jù)處理速度以及效率;(i)針對(duì)共享與隱含的關(guān)聯(lián)的分析使用詢問(wèn);(j)結(jié)合用戶友好的界面來(lái)操作;(k)可與其它設(shè)計(jì)系統(tǒng)以及網(wǎng)絡(luò)共同操作;(l)利用記錄機(jī)制以提供輸出關(guān)聯(lián)的測(cè)量;(m)產(chǎn)生具有相關(guān)記錄的輸出檔案;(n)執(zhí)行單一或多個(gè)步驟的分析;及/或(o)針對(duì)大規(guī)模或總體分析而模型化為網(wǎng)絡(luò)。
本發(fā)明的系統(tǒng)通過(guò)如對(duì)象關(guān)系數(shù)據(jù)庫(kù)或稱之為ORD(Object-Relationship Database)、具有與來(lái)自相同數(shù)據(jù)來(lái)源的其它對(duì)象直接與間接關(guān)聯(lián)的集成的對(duì)象數(shù)據(jù)庫(kù)(通常是文本格式)等以執(zhí)行其功能(任務(wù))。ORD還可利用于多個(gè)數(shù)據(jù)來(lái)源。數(shù)據(jù)來(lái)源通常由包含編碼成記錄的百萬(wàn)個(gè)對(duì)象的數(shù)據(jù)庫(kù)或單一的項(xiàng)目。
本發(fā)明的系統(tǒng)針對(duì)(a)數(shù)據(jù)格式化;(b)數(shù)據(jù)處理;(c)自文本源的數(shù)據(jù)或信息的提??;(d)添加記錄至ORD中;(e)數(shù)據(jù)來(lái)源參考;(f)用于品質(zhì)檢查的例程;(g)內(nèi)部與外部數(shù)據(jù)庫(kù)維護(hù);(h)網(wǎng)絡(luò)接口;(i)用戶接口;(j)用于數(shù)據(jù)項(xiàng)、分析與輸出的例程中的一個(gè)或多個(gè)提供主要的與支持的編碼。額外的程序或例程也包含于本發(fā)明的系統(tǒng)的范圍中。
在一實(shí)施例中本發(fā)明是一用以存取信息領(lǐng)域的系統(tǒng)以及用以發(fā)現(xiàn)兩個(gè)或多個(gè)已識(shí)別、檢索、分類、排列、過(guò)濾以及數(shù)值評(píng)估的對(duì)象間的關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)引擎,在該系統(tǒng)中的包括一個(gè)或多個(gè)信息領(lǐng)域的數(shù)據(jù)來(lái)源通過(guò)對(duì)象關(guān)系數(shù)據(jù)庫(kù)予以存取以集成來(lái)自一個(gè)或多個(gè)信息領(lǐng)域的對(duì)象。正如此處所用的,對(duì)象可為任何關(guān)注的項(xiàng)目或信息(通常為文字上的,包括名詞、動(dòng)詞、形容詞、副詞、詞組、句子、符號(hào)、數(shù)字等等)。因此,對(duì)象是指任何可以形成關(guān)聯(lián)以及任何可以自數(shù)據(jù)來(lái)源中取得、識(shí)別及/或檢索的事物。該數(shù)據(jù)來(lái)源可為一個(gè)或多個(gè)具有文本的信息、數(shù)值的信息、符號(hào)的信息以及這些信息的結(jié)合的數(shù)據(jù)庫(kù)或知識(shí)領(lǐng)域(其并不必須為數(shù)據(jù)庫(kù))。介于一個(gè)或多個(gè)對(duì)象間的關(guān)聯(lián)可視為直接或間接,且甚至可依據(jù)介于直接或間接對(duì)象之間的關(guān)聯(lián)的相對(duì)強(qiáng)度予以歸類??赏ㄟ^(guò)將關(guān)聯(lián)排列到從由正向、負(fù)向、物理以及邏輯關(guān)聯(lián)所組成的群組選出的分類中而將該關(guān)聯(lián)予以分類。應(yīng)用于本發(fā)明的信息領(lǐng)域可利用作為信息的數(shù)據(jù)片斷可為文本、符號(hào)、數(shù)值以及前述內(nèi)容的組合。在一個(gè)方面,本發(fā)明的系統(tǒng)系部分或全部的自動(dòng)化。在另一方面,該知識(shí)發(fā)現(xiàn)引擎通過(guò)詞匯處理以整理一個(gè)或多個(gè)對(duì)象。
在另一個(gè)方面,本發(fā)明的用以產(chǎn)生對(duì)象關(guān)系數(shù)據(jù)庫(kù)的系統(tǒng)執(zhí)行但不限于下列的功能編輯一個(gè)或多個(gè)系統(tǒng)數(shù)據(jù)庫(kù)對(duì)象、增加數(shù)據(jù)庫(kù)對(duì)象的同義字、將關(guān)于一個(gè)或多個(gè)數(shù)據(jù)庫(kù)中的對(duì)象間的關(guān)聯(lián)的信息分組到對(duì)象關(guān)系數(shù)據(jù)庫(kù)中、自該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中建構(gòu)詞匯變體的數(shù)據(jù)庫(kù)、通過(guò)該詞匯變體數(shù)據(jù)庫(kù)掃描該對(duì)象關(guān)系數(shù)據(jù)庫(kù)以減少重復(fù)部分并檢查該對(duì)象關(guān)系數(shù)據(jù)庫(kù)的錯(cuò)誤。通過(guò)如給每一個(gè)對(duì)象分配唯一的數(shù)值識(shí)別碼(如一長(zhǎng)整數(shù)等)并通過(guò)最低識(shí)別碼優(yōu)先的方式儲(chǔ)存無(wú)指向性(adirectional)關(guān)聯(lián)等可增加本發(fā)明的系統(tǒng)的效率。
數(shù)據(jù)收集器或來(lái)源數(shù)據(jù)庫(kù)可用作數(shù)據(jù)來(lái)源且通常用以編輯該系統(tǒng)數(shù)據(jù)庫(kù)對(duì)象,該來(lái)源數(shù)據(jù)庫(kù)可包括如化學(xué)化合物、小分子藥物、ChemID、MeSH、以及FDA軌跡鏈接(locusLink)、GDB、HGNC、MeSH及OMIM等等數(shù)據(jù)庫(kù)。篩選出常見(jiàn)單詞并識(shí)別大寫(xiě)字體可通過(guò)存取單詞數(shù)據(jù)庫(kù)予以實(shí)現(xiàn)??衫萌缤x字?jǐn)?shù)據(jù)庫(kù)或首字母縮略字分解算法等方法識(shí)別詞匯變體。在一個(gè)方面,本發(fā)明的系統(tǒng)還在與該系統(tǒng)通訊的圖形用戶界面上提供單擊詢問(wèn)鈕或控制組件以供用戶查看在該系統(tǒng)數(shù)據(jù)庫(kù)中自該數(shù)據(jù)來(lái)源的文本所取得的對(duì)象。舉例而言,用戶可在圖形用戶界面上查看其所顯示來(lái)自該數(shù)據(jù)來(lái)源的文本,標(biāo)示該文本的一段落(如詞組或摘要等),以及點(diǎn)擊如按鈕等的控制組件,該按鈕在該詞組中的一個(gè)或多個(gè)單詞以對(duì)象儲(chǔ)存于該系統(tǒng)數(shù)據(jù)庫(kù)中時(shí)令該系統(tǒng)顯示。如下所述,新對(duì)象可包括于系統(tǒng)數(shù)據(jù)庫(kù)中。
在一個(gè)方面,本發(fā)明的系統(tǒng)包含對(duì)象關(guān)系數(shù)據(jù)庫(kù),該對(duì)象關(guān)系數(shù)據(jù)庫(kù)通過(guò)輸入來(lái)自數(shù)據(jù)來(lái)源的文本區(qū)段,自該數(shù)據(jù)來(lái)源提取如標(biāo)題、摘要、日期以及期刊識(shí)別碼(PMID)信息組信息等選擇的信息以產(chǎn)生記錄,將該記錄解析轉(zhuǎn)換成句子,將每一個(gè)句子解析轉(zhuǎn)換成單詞,產(chǎn)生一個(gè)或多個(gè)陣列以將單詞與該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的詞組相比較,以及解析首字母縮略字等方式予以建構(gòu)。文本區(qū)段可從由單詞、詞組、章節(jié)、書(shū)本、報(bào)紙、雜志、網(wǎng)頁(yè)的部分以及表格所組成的群組選擇。當(dāng)信息來(lái)源被認(rèn)為具有高于其它類似的來(lái)源的影響時(shí),特定的文本區(qū)段會(huì)被分配較高的值,舉例而言,來(lái)自″Science″或″New England Journalof Medicine″文獻(xiàn)的摘要中的對(duì)象間的關(guān)聯(lián)會(huì)賦予比″Journal ofIrreproducible Result″的摘要中的對(duì)象間的關(guān)聯(lián)更高的權(quán)重。
本發(fā)明的另一實(shí)施例提供一種用以關(guān)聯(lián)先前無(wú)關(guān)聯(lián)的對(duì)象的系統(tǒng)。在一個(gè)方面,本發(fā)明的系統(tǒng)包括從具有一個(gè)或多個(gè)信息來(lái)源數(shù)據(jù)庫(kù)的數(shù)據(jù)來(lái)源所產(chǎn)生的對(duì)象關(guān)系數(shù)據(jù)庫(kù)以及可識(shí)別介于該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的對(duì)象間有意義的關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)引擎。優(yōu)選的是,該知識(shí)發(fā)現(xiàn)引擎識(shí)別在該數(shù)據(jù)來(lái)源中一個(gè)或多個(gè)對(duì)象的同現(xiàn)并產(chǎn)生關(guān)聯(lián)的綜合網(wǎng)絡(luò)。在一個(gè)方面,識(shí)別出的關(guān)聯(lián)儲(chǔ)存于系統(tǒng)數(shù)據(jù)庫(kù)中并通過(guò)一個(gè)或多個(gè)統(tǒng)計(jì)上有界的網(wǎng)絡(luò)模型(如貝葉斯網(wǎng)絡(luò)模型)以及允許用戶從該知識(shí)發(fā)現(xiàn)引擎所識(shí)別出的關(guān)聯(lián)識(shí)別出隱含關(guān)聯(lián)的詢問(wèn)模塊予以評(píng)估。
本發(fā)明可用作為一種用以識(shí)別如新療法、新使用或適應(yīng)癥、禁忌癥、副作用及/或現(xiàn)有藥物的并發(fā)癥以及藥物相互影響、藥物副作用與針對(duì)現(xiàn)有與候選藥物的基因藥理學(xué)影響等的系統(tǒng)。本發(fā)明的系統(tǒng)可通過(guò)詢問(wèn)數(shù)據(jù)來(lái)源以識(shí)別出與治療劑相關(guān)的對(duì)象及/或通過(guò)詢問(wèn)數(shù)據(jù)來(lái)源以識(shí)別出與該疾病相關(guān)的對(duì)象而用以識(shí)別介于候選治療劑(如藥物、基因、核酸、反意義分子、配體(aptamer)等等)與疾病間的關(guān)聯(lián)。在一個(gè)方面,本發(fā)明的系統(tǒng)提供現(xiàn)有藥物(例如當(dāng)前由FDA針對(duì)現(xiàn)有適應(yīng)癥所核準(zhǔn)的藥物)新適應(yīng)癥的預(yù)測(cè)。舉例而言,本發(fā)明的系統(tǒng)可用以識(shí)別西地那非(sildenafil,viagra_的學(xué)名)的新用途。
在一個(gè)方面,本發(fā)明的系統(tǒng)由包含有一個(gè)或多個(gè)信息來(lái)源數(shù)據(jù)庫(kù)的數(shù)據(jù)來(lái)源產(chǎn)生對(duì)象關(guān)系數(shù)據(jù)庫(kù)并利用知識(shí)發(fā)現(xiàn)引擎,該知識(shí)發(fā)現(xiàn)引擎針對(duì)藥物或治療劑識(shí)別出于對(duì)象關(guān)系數(shù)據(jù)庫(kù)中有意義的關(guān)聯(lián),以識(shí)別出在對(duì)象關(guān)系數(shù)據(jù)庫(kù)中一個(gè)或多個(gè)的對(duì)象與該藥物名稱或其同義字的同現(xiàn),并在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)與該藥物間建立關(guān)聯(lián)的綜合網(wǎng)絡(luò)。在一種優(yōu)選的實(shí)施例中,本發(fā)明的系統(tǒng)利用統(tǒng)計(jì)上有界的網(wǎng)絡(luò)模型來(lái)識(shí)別此關(guān)聯(lián)網(wǎng)絡(luò)。優(yōu)選的是,本發(fā)明的系統(tǒng)在系統(tǒng)數(shù)據(jù)庫(kù)中儲(chǔ)存該共享與隱含的關(guān)聯(lián)。該系統(tǒng)數(shù)據(jù)庫(kù)是動(dòng)態(tài)的數(shù)據(jù)庫(kù),因?yàn)楫?dāng)額外的已知或候選藥物被評(píng)估時(shí),儲(chǔ)存于該系統(tǒng)數(shù)據(jù)庫(kù)中的網(wǎng)絡(luò)發(fā)展成包括與這些額外藥物的相互影響。在另一方面,該來(lái)源數(shù)據(jù)庫(kù)包括如患者醫(yī)療史、人口統(tǒng)計(jì)數(shù)據(jù)、家族醫(yī)療史、由患者及/或家族成員所取得的基因數(shù)據(jù)、供研究的排除或包含的標(biāo)準(zhǔn)、不良事件數(shù)據(jù)、功效數(shù)據(jù)、藥物動(dòng)力學(xué)數(shù)據(jù)等臨床數(shù)據(jù)。在又一個(gè)方面,該數(shù)據(jù)包括經(jīng)由縱向研究、追溯研究以及單個(gè)病人研究(例如本發(fā)明的系統(tǒng)可用于個(gè)性化醫(yī)療的領(lǐng)域中)所取得的數(shù)據(jù)。
本發(fā)明還提供一種用以識(shí)別該系統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)中的關(guān)聯(lián)的方法。該方法包括以下步驟在用戶輸入一個(gè)或多個(gè)用于分析的對(duì)象清單后識(shí)別出介于該對(duì)象間共享的關(guān)聯(lián),針對(duì)每一個(gè)對(duì)象從一個(gè)或多個(gè)清單編輯所有的關(guān)聯(lián),為了包含于單一清單,依據(jù)頻率計(jì)算相關(guān)對(duì)象并計(jì)算期望值。在一個(gè)方面,具有低于y%的總體可能性關(guān)聯(lián)(totalpossible connections)或低于y%的實(shí)際/期望比例(observed/expected ratio)的共享對(duì)象從該關(guān)系數(shù)據(jù)庫(kù)排除。
在一個(gè)方面,識(shí)別出隱含關(guān)聯(lián)的對(duì)象。可通過(guò)記錄或排列該關(guān)聯(lián)來(lái)評(píng)估該關(guān)聯(lián)具有意義的可能性,例如通過(guò)確定直接實(shí)際與期望比例并將該值與通往隱含對(duì)象唯一路徑之?dāng)?shù)相乘。
在另一方面,隱含關(guān)聯(lián)可通過(guò)計(jì)算介于一個(gè)或多個(gè)第一、第二與第三對(duì)象間關(guān)聯(lián)強(qiáng)度向量,針對(duì)第一、第二與第三對(duì)象從用于一個(gè)或多個(gè)對(duì)象的來(lái)源影響分?jǐn)?shù)(impact score)的數(shù)據(jù)庫(kù)中取得來(lái)源影響分?jǐn)?shù),以及針對(duì)第一、第二與第三對(duì)象中的一個(gè)或多個(gè)對(duì)象將該強(qiáng)度向量與該來(lái)源影響分?jǐn)?shù)相乘予以識(shí)別。該來(lái)源影響分?jǐn)?shù)可取決于以下非限制性的因素(1)自其中取得一個(gè)或多個(gè)對(duì)象的出版物;(2)該一個(gè)或多個(gè)對(duì)象的來(lái)源已被另一個(gè)來(lái)源所引用的次數(shù);(3)該一個(gè)或多個(gè)對(duì)象的來(lái)源已被論文、教科書(shū)、評(píng)論文章所引用及/或被刊于同級(jí)評(píng)鑒期刊中的次數(shù)。舉例而言,較高評(píng)分的隱含關(guān)聯(lián)可能依據(jù)該一個(gè)或多個(gè)對(duì)象來(lái)源被刊載英國(guó)刊物″Nature″的次數(shù)而給定較高的分?jǐn)?shù)(亦即針對(duì)該關(guān)聯(lián)具有高的來(lái)源影響分?jǐn)?shù))。當(dāng)關(guān)聯(lián)具有影響分?jǐn)?shù)時(shí),一般而言,對(duì)象將不會(huì)具有影響分?jǐn)?shù),其原因在于品質(zhì)(如影響)會(huì)變化的是從數(shù)據(jù)來(lái)源得來(lái)的關(guān)聯(lián)。另一方面,對(duì)象可通過(guò)產(chǎn)生對(duì)象的數(shù)據(jù)來(lái)源所達(dá)到的品質(zhì)予以評(píng)分。該影響分?jǐn)?shù)被給予重要性的評(píng)估,如此處所稱的確定性或相關(guān)性的評(píng)估。
本發(fā)明還包括嵌入于計(jì)算機(jī)可讀介質(zhì)用以從一個(gè)或多個(gè)數(shù)據(jù)來(lái)源存取信息領(lǐng)域的計(jì)算機(jī)程序。在一個(gè)方面,該計(jì)算機(jī)程序包括用以容納包含一個(gè)或多個(gè)信息領(lǐng)域的數(shù)據(jù)來(lái)源的程序代碼區(qū)段,用以維持(如建立、維修、更新等)對(duì)象關(guān)系數(shù)據(jù)庫(kù)以集成來(lái)自一個(gè)或多個(gè)信息領(lǐng)域的對(duì)象的程序代碼區(qū)段以及用以容納用以檢索、分類、排列、過(guò)濾以及檢索一個(gè)或多個(gè)對(duì)象間的關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)引擎的程序代碼區(qū)段。
一種嵌入于計(jì)算機(jī)可讀介質(zhì)以產(chǎn)生對(duì)象關(guān)系數(shù)據(jù)庫(kù)的計(jì)算機(jī)程序,其可包括用以編輯一個(gè)或多個(gè)數(shù)據(jù)庫(kù)對(duì)象的程序代碼區(qū)段,用以將在一個(gè)或多個(gè)數(shù)據(jù)庫(kù)中的信息分組到對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的程序代碼區(qū)段,用以將該對(duì)象關(guān)系數(shù)據(jù)庫(kù)建構(gòu)成詞匯變體數(shù)據(jù)庫(kù)的程序代碼區(qū)段,用以采用該詞匯變體數(shù)據(jù)庫(kù)掃描該對(duì)象關(guān)系數(shù)據(jù)庫(kù)以減少重復(fù)的程序代碼區(qū)段,用以分配給每一個(gè)對(duì)象唯一的數(shù)值識(shí)別碼(長(zhǎng)整數(shù))并通過(guò)最低識(shí)別碼優(yōu)先的方式儲(chǔ)存單一(uni-)或無(wú)指向性關(guān)聯(lián)的程序代碼區(qū)段,以及用以檢查對(duì)象關(guān)系數(shù)據(jù)庫(kù)錯(cuò)誤的程序代碼區(qū)段。
本發(fā)明的另一實(shí)施例是一種用于新藥物療法的候選化合物清單,其通過(guò)包括以下步驟的方法所產(chǎn)生存取包含一個(gè)或多個(gè)信息領(lǐng)域的數(shù)據(jù)來(lái)源,編輯信息領(lǐng)域至對(duì)象關(guān)系數(shù)據(jù)庫(kù)已將一個(gè)或多個(gè)信息領(lǐng)域集成為對(duì)象;以及利用用以識(shí)別、檢索、分組、排列、過(guò)濾以及數(shù)值評(píng)估兩個(gè)或多個(gè)對(duì)象間的關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)引擎。該清單例如可以數(shù)據(jù)結(jié)構(gòu)的形式存在而可與計(jì)算機(jī)程序交互以詢問(wèn)、組織、選擇及/或管理該數(shù)據(jù)。
在此所揭露的本發(fā)明是一種針對(duì)現(xiàn)有化合物或藥物識(shí)別出新療法的方法,其可例如一種通過(guò)識(shí)別出需要心室肥大治療的患者并為該患者提供利用本發(fā)明的系統(tǒng)所識(shí)別出的化合物有效用藥量以治療心室肥大的方法。舉例而言,利用本發(fā)明的系統(tǒng)所識(shí)別出用以治療心室肥大的化合物是″Chlorpromazine″。
利用本發(fā)明所確定的另一種通過(guò)識(shí)別出需要非胰島素依存型糖尿病(NIDDM)治療的患者并為該患者提供利用本發(fā)明的系統(tǒng)所識(shí)別出的化合物有效用藥量以治療非胰島素依存型糖尿病的方法與機(jī)制。在一個(gè)方面,該化合物是增加細(xì)胞核酸的甲基化反應(yīng)(methylation)的藥物合成物,如DNA甲基化反應(yīng)前導(dǎo)等。另一個(gè)發(fā)明則是針對(duì)具有非胰島素依存型糖尿病風(fēng)險(xiǎn)的個(gè)人的營(yíng)養(yǎng)供應(yīng),其包括具有可有效增加整體細(xì)胞的DNA甲基化反應(yīng)的藥量的一個(gè)或多個(gè)DNA甲基化反應(yīng)前導(dǎo)。
本發(fā)明所提供的一種方法包括通過(guò)識(shí)別需要治療頭痛的患者,并提供該患者有效用藥量的西地那非以治療頭痛的方法。作為另一種選擇,提供一種治療識(shí)別肌肉痙攣的方法,其包括識(shí)別出需要肌肉痙攣治療的患者,并為該患者提供有效用藥量的西地那非。
本發(fā)明還包括一種用以篩選的自動(dòng)化系統(tǒng),其包括前述的系統(tǒng)以識(shí)別用以篩選的目標(biāo)基因,用以選擇基因與核酸序列以產(chǎn)生篩選陣列的寡核苷酸選擇模塊,以及用以自該寡核苷酸選擇模塊接收核酸序列并在基底上產(chǎn)生核酸陣列的片上DNA(DNA-on-chip)組合裝置,其中該核酸陣列可用于基因的篩選。在一實(shí)施例中該目標(biāo)基因用以篩選NIDDM,然而本領(lǐng)域技術(shù)人員應(yīng)該了解,其它具有已知或甚至未知基因關(guān)聯(lián)的疾病均可用來(lái)準(zhǔn)備本發(fā)明的篩選陣列。
為更完整地了解本發(fā)明的特征與優(yōu)點(diǎn),參考以下的附圖對(duì)本發(fā)明的內(nèi)容做更詳細(xì)的描述,在附圖中圖1描繪出根據(jù)本發(fā)明的呈指數(shù)的增長(zhǎng)的數(shù)據(jù),其包括(A)列于Genbank數(shù)據(jù)庫(kù)中的核甘酸序列,(B)在Swissport數(shù)據(jù)庫(kù)中的蛋白質(zhì),(C)3-D結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB,(D)在Man的″Online Mendelian Inheritance″中編錄的人類基因與基因失序,以及(E)列于MEDLINE中的文獻(xiàn);圖2描繪出具有某部分共同點(diǎn)的集合(如A與C),該共同點(diǎn)在任一方獨(dú)立檢查時(shí)無(wú)法顯現(xiàn);圖3描繪出利用關(guān)聯(lián)但非交互的資源(文獻(xiàn))來(lái)檢索的方法,其中(A)兩個(gè)概念(A與C)假定有關(guān)聯(lián),但除了通過(guò)中介B之外沒(méi)有支持的證據(jù),以及(B)試圖發(fā)現(xiàn)概念A(yù)的新關(guān)聯(lián),導(dǎo)致通過(guò)關(guān)聯(lián)項(xiàng)目B的檢索,接著進(jìn)行另一個(gè)在C中項(xiàng)目的檢索,該C中的項(xiàng)目在初始檢索A時(shí)無(wú)法發(fā)現(xiàn);圖4描繪出關(guān)鍵詞與摘要之間的關(guān)聯(lián);圖5顯示通用系統(tǒng)邏輯的流程圖;圖6顯示依據(jù)本發(fā)明的一個(gè)方面的系統(tǒng)的關(guān)鍵組件的流程圖;
圖7顯示依據(jù)本發(fā)明的一個(gè)方面的系統(tǒng)編輯數(shù)據(jù)庫(kù)對(duì)象的實(shí)施例的流程圖;圖8顯示根據(jù)本發(fā)明的一個(gè)方面的系統(tǒng)如何通過(guò)首次標(biāo)示模糊首字母縮略字以精練數(shù)據(jù)庫(kù)對(duì)象的流程圖;圖9顯示依據(jù)本發(fā)明的一個(gè)方面的系統(tǒng)針對(duì)現(xiàn)有同現(xiàn)的對(duì)象掃描來(lái)源以減少重復(fù)并產(chǎn)生關(guān)聯(lián)的實(shí)施例的流程圖;圖10顯示根據(jù)本發(fā)明的一個(gè)方面的系統(tǒng)如何通過(guò)分配每一個(gè)對(duì)象唯一的數(shù)值識(shí)別碼并通過(guò)最低識(shí)別碼的方式儲(chǔ)存無(wú)指向性關(guān)聯(lián)以產(chǎn)生一個(gè)或多個(gè)關(guān)聯(lián)的流程圖;圖11顯示系統(tǒng)如何在用戶輸入一個(gè)或多個(gè)用于分析的對(duì)象清單后識(shí)別出共享的關(guān)聯(lián)的實(shí)施例的流程圖;圖12顯示系統(tǒng)從所輸入的信息識(shí)別出隱含關(guān)聯(lián)的流程圖;圖13顯示如何識(shí)別出共享的關(guān)聯(lián)的流程圖;圖14顯示依據(jù)本發(fā)明的一個(gè)方面的系統(tǒng)操作的流程圖;圖15顯示氟西汀(Prozac_)通過(guò)評(píng)分的前6,000個(gè)隱含關(guān)聯(lián)的圖表;圖16A與圖16B顯示根據(jù)本發(fā)明的數(shù)據(jù)庫(kù)中所具有的每一個(gè)對(duì)象的關(guān)聯(lián)數(shù)量的分布(16A),以及隱含分布與直接關(guān)聯(lián)分布(16B);圖17顯示隨機(jī)與主題集合間10個(gè)最高關(guān)聯(lián)對(duì)象的平均實(shí)際一期望比例的比較,其中隨機(jī)集合的n=10,并隨著主題集合變化,n至少為5;圖18A與圖18B顯示與關(guān)聯(lián)強(qiáng)度相互關(guān)聯(lián)的關(guān)聯(lián)對(duì)象的統(tǒng)計(jì)特性;其中20,000個(gè)關(guān)聯(lián)對(duì)象隨機(jī)地選自關(guān)系數(shù)據(jù)庫(kù)且(18A)針對(duì)其所共享的整體已知關(guān)聯(lián)的平均百分比予以分析以及(18B)其所共享的關(guān)聯(lián)的平均強(qiáng)度;圖19顯示針對(duì)心室肥大的發(fā)展的氯丙嗪的保護(hù)作用,其中心臟超音波用以在治療的過(guò)程中評(píng)估多個(gè)不同心臟構(gòu)造的重量與厚度的改變;圖20A與圖20B顯示與基因β連環(huán)素(beta-catenin)關(guān)聯(lián)的對(duì)象與針對(duì)被視為有效的關(guān)聯(lián)變化觀察的最小數(shù)量的作用,其中(A)是整體關(guān)聯(lián)數(shù)量增長(zhǎng)與時(shí)間呈指數(shù)關(guān)系,以及(B)是回溯的觀察在任何給定的時(shí)間點(diǎn)上有多少對(duì)象已知與β連環(huán)素間接地相關(guān)聯(lián);圖21A至圖21D顯示在時(shí)間上對(duì)象整體數(shù)量間接地與β連環(huán)素相關(guān)聯(lián)的圖表,其中(A)顯示僅利用通過(guò)以關(guān)鍵詞″β連環(huán)素″檢索MEDLINE(1992至2002)所取得的1,270個(gè)摘要的主要領(lǐng)域分析(Primary Domain Analysis);(B)是包含wnt的額外的1,970個(gè)記錄(自1989至2002),wnt是與β連環(huán)素緊密相關(guān)聯(lián)的對(duì)象;(C)進(jìn)一步增加與β連環(huán)素直接關(guān)聯(lián)的其它額外的4,028個(gè)早期記錄(1993年之前),其包括對(duì)象Wingless、alpha-catenin、armadillo、N-cadherin、E-cadherin、plakoglobin、uvomorulin與p120;以及(D)是從MeSH領(lǐng)域檢索″magnesium″以及關(guān)鍵詞″increase″所得的額外的9,490個(gè)記錄;圖22顯示通過(guò)依據(jù)本發(fā)明的一個(gè)方面的系統(tǒng)予以執(zhí)行的知識(shí)發(fā)現(xiàn)方法。該系統(tǒng)通過(guò)如NIDDM等主要關(guān)注的對(duì)象(黑色節(jié)點(diǎn))起始,并通過(guò)發(fā)現(xiàn)在MEDLINE中用以表示直接已知的關(guān)聯(lián)的其它對(duì)象識(shí)別所有的共同引用或同現(xiàn)。該系統(tǒng)接著檢查所有這些節(jié)點(diǎn)與其它并非已知與該主要對(duì)象有關(guān)聯(lián)的對(duì)象(白色節(jié)點(diǎn))的關(guān)聯(lián),識(shí)別隱含的關(guān)聯(lián)對(duì)象。與該主要對(duì)象共享許多關(guān)聯(lián)(例如從頂部計(jì)算的第三個(gè)節(jié)點(diǎn))的隱含的關(guān)聯(lián)對(duì)象被視為進(jìn)一步分析的優(yōu)先候選;圖23顯示根據(jù)本發(fā)明的介于甲基化反應(yīng)與NIDDM間重要共享的關(guān)聯(lián),其中介于該二者間全部1,287個(gè)共同引用對(duì)象被識(shí)別出來(lái),其中被評(píng)估的959個(gè)對(duì)象表示非無(wú)效種類的實(shí)際關(guān)聯(lián);圖24顯示通過(guò)依據(jù)本發(fā)明的一個(gè)方面的系統(tǒng)所確認(rèn)的分?jǐn)?shù)與西地那非(Viagra_)直接或隱含關(guān)聯(lián)間的相互關(guān)系的圖表;圖25為對(duì)象詢問(wèn)及其關(guān)聯(lián)的圖表,包括隱含關(guān)聯(lián)、分?jǐn)?shù)以及其它分析,其中的縮寫(xiě)包括″Query object″,其指被詢問(wèn)隱含關(guān)聯(lián)的對(duì)象,″shared rels″,其是查詢對(duì)象與隱含共享的關(guān)聯(lián)數(shù)量,″implicitrelationship″,其是指通過(guò)一組共享的中間關(guān)聯(lián)與該詢問(wèn)對(duì)象隱含關(guān)聯(lián)的對(duì)象,″Type″,其是指對(duì)象(藥物、化學(xué)化合物、基因、顯型等等)的類型,″Quality″,其是指依據(jù)每一個(gè)關(guān)聯(lián)為真實(shí)的集合統(tǒng)計(jì)概率所評(píng)估可為真實(shí)的共享關(guān)聯(lián)的數(shù)量,″AB_int_str″,其是指針對(duì)介于A與B間匹配關(guān)聯(lián)通過(guò)曲線下面積所計(jì)算出的集成強(qiáng)度(亦即A所具有的全部關(guān)聯(lián)中,與B匹配的總體關(guān)聯(lián)強(qiáng)度(如總體的a%),且若所有的關(guān)聯(lián)完全匹配時(shí),該強(qiáng)度為1,而若存在許多不充分的關(guān)聯(lián)匹配時(shí),則該數(shù)值會(huì)很小),″BC_int_str″,C與B之間與前述相同的關(guān)系,″Inp_Int_str″,其是鏈接A與C之間最不充分的關(guān)聯(lián)(隱含強(qiáng)度),″Imp_Int_Ver″,其是準(zhǔn)確分?jǐn)?shù)的曲線下面積且并非就關(guān)聯(lián)的重要性測(cè)量關(guān)聯(lián)的方式,而是評(píng)估其為真實(shí)的可能性,″Direct_Str″,其是指直接強(qiáng)度,在MEDLINE中發(fā)現(xiàn)的共同發(fā)現(xiàn)數(shù)量的函數(shù)且若為隱含時(shí)則為空白,″Expect″,其是指我們所期望在A與C之間有多少關(guān)聯(lián)出現(xiàn)的可能性,″Obs/Exp″,其是評(píng)分的關(guān)鍵,是評(píng)估的″Quality″除以″Expect″值,″Score″,其是指″Quality/Expect″;圖26顯示通過(guò)依據(jù)本發(fā)明的系統(tǒng)所執(zhí)行的信息提取步驟的流程圖;以及圖27-1至圖27-45顯示利用依據(jù)本發(fā)明的一個(gè)方面的系統(tǒng)通過(guò)微陣列分析而識(shí)別出的關(guān)聯(lián)。
具體實(shí)施例方式
下面將詳細(xì)披露本發(fā)明的多種實(shí)施例的形成與使用,應(yīng)該理解的是,本發(fā)明提供可在很大范圍的具體內(nèi)容中實(shí)現(xiàn)的許多可應(yīng)用的創(chuàng)新概念。在此所揭露的具體實(shí)施例僅用以說(shuō)明具體形成與使用本發(fā)明的方式,而并非用以限制本發(fā)明的范圍。本領(lǐng)域技術(shù)人員在參考本說(shuō)明書(shū)后可輕易了解所揭露的實(shí)施例的各種修飾與組合以及本發(fā)明的其它實(shí)施例。因此后附的權(quán)利要求將涵蓋所有這些修飾或?qū)嵤├?br>
定義除非另做定義,在本文中所使用的所有技術(shù)與科學(xué)術(shù)語(yǔ)具有本領(lǐng)域技術(shù)人員通常理解的意義。為了促使對(duì)于本發(fā)明的了解,一些術(shù)語(yǔ)將定義如下。在此所定義的術(shù)語(yǔ)具有為本發(fā)明相關(guān)領(lǐng)域的技術(shù)人士所通常理解的意義。
如″一″或″該″等術(shù)語(yǔ)并非僅用以視為單一個(gè)體,而包括用于說(shuō)明的具體實(shí)施例的普通種類。此處的專門術(shù)語(yǔ)用以說(shuō)明本發(fā)明的具體實(shí)施例,然而其并非用以限制本發(fā)明,除非在權(quán)利要求中予以描述。
以下所述是應(yīng)用于本發(fā)明的術(shù)語(yǔ)。
正如此處所用的,″對(duì)象″可為任何關(guān)注的項(xiàng)目或信息(通常為文字上的,包括名詞、動(dòng)詞、形容詞、副詞、詞組、句子、符號(hào)、數(shù)字等等)。因此,對(duì)象是指任何可以形成關(guān)聯(lián)以及任何可以自數(shù)據(jù)來(lái)源中取得、識(shí)別及/或檢索的事物。″對(duì)象″包括但不限于關(guān)注的實(shí)體,如基因、蛋白質(zhì)、疾病、顯型、機(jī)制、藥物等等。如后所述,在某些方面,對(duì)象可為數(shù)據(jù)。
″關(guān)聯(lián)″是指相同單元(如詞組、句子、文本的二行或多行、段落、網(wǎng)頁(yè)的部分、頁(yè)面、雜志、報(bào)紙以及書(shū)本等等)中對(duì)象的同現(xiàn)。其可為文本、符號(hào)、數(shù)字及前述的組合。
″元數(shù)據(jù)內(nèi)容″提供關(guān)于數(shù)據(jù)來(lái)源中文本組織的信息。元數(shù)據(jù)可包含標(biāo)準(zhǔn)元數(shù)據(jù),如都柏林核心集(Dublin Core)元數(shù)據(jù)或特定集合(collection-specific)等。元數(shù)據(jù)格式的例示包括但不限定于,例如用于圖書(shū)館目錄的機(jī)器可讀目錄(MARC)記錄,資源描述格式(RDF)以及可擴(kuò)展標(biāo)記語(yǔ)言(XML)等。元對(duì)象可以手動(dòng)方式或通過(guò)自動(dòng)信息提取算法來(lái)產(chǎn)生。
正如此處所用的,″引擎″是為其它程序執(zhí)行核心或必要的功能的程序。舉例而言,引擎可以是在操作系統(tǒng)或應(yīng)用程序中協(xié)調(diào)其它程序整體操作的中央程序。術(shù)語(yǔ)″引擎″還可指包含可變換算法的程序。舉例而言,知識(shí)發(fā)現(xiàn)引擎可被設(shè)計(jì)成其識(shí)別關(guān)聯(lián)的方法可被改變以反映識(shí)別或排列關(guān)聯(lián)的新規(guī)則。
多種分析類型可用來(lái)評(píng)估數(shù)據(jù)?!迤醋终_分析″是在由字符代碼所組成的文本中有意義的單元的識(shí)別。在英文中,通常是通過(guò)白空格(空白、制表鍵、換行符等)來(lái)分離文本并接著將所產(chǎn)生的單元或記號(hào)(token)視為單詞。針對(duì)缺乏文字邊界的語(yǔ)言而言,一種通用的方式是利用滑動(dòng)的窗口以形成交疊的n-字符序列,其通常被稱之為″字符多連(n-grams)″或″多圖(n-graphs)″?!逭Z(yǔ)義分析″識(shí)別表示相同概念的單詞間的關(guān)系,例如通過(guò)后綴移除或截?cái)嗷蛘咿o典的利用?!褰y(tǒng)計(jì)分析″是指依據(jù)每一個(gè)術(shù)語(yǔ)(單詞、字根、詞干、多連、詞組等等)出現(xiàn)次數(shù)的計(jì)算的技術(shù)。在關(guān)于主題的無(wú)限制收集中,用于不同上下文的詞組會(huì)代表不同的概念。詞組同現(xiàn)的統(tǒng)計(jì)分析可有助于解決文字意義不明確?!寰浞ǚ治觥蹇赏ㄟ^(guò)詞類分析用以進(jìn)一步的減少不明確。正如此處所用的,前述的一個(gè)或多個(gè)分析可更一般地稱作″詞匯分析″。″人工智能″是指通過(guò)一種可令如計(jì)算機(jī)等無(wú)人裝置執(zhí)行人類會(huì)認(rèn)為有意義或″智能″的任務(wù)的方法。例如識(shí)別圖像、理解口語(yǔ)單詞或書(shū)寫(xiě)文本以及解決問(wèn)題。
正如此處所用的,術(shù)語(yǔ)″數(shù)據(jù)庫(kù)″是用以包括用于原始或編輯后的數(shù)據(jù)的儲(chǔ)存器,即便有多種的信息面(informational facet)均可建立于數(shù)據(jù)信息組中。數(shù)據(jù)庫(kù)通常被組織過(guò)以使得其內(nèi)容可被存取、管理與更新(如該數(shù)據(jù)庫(kù)是動(dòng)態(tài)的)。術(shù)語(yǔ)″數(shù)據(jù)庫(kù)″與″來(lái)源″在本發(fā)明中還互換使用,因?yàn)橹饕臄?shù)據(jù)或信息來(lái)源是數(shù)據(jù)庫(kù)。然而,一般而言,″來(lái)源數(shù)據(jù)庫(kù)″或″來(lái)源數(shù)據(jù)″是指如非結(jié)構(gòu)化及/或結(jié)構(gòu)化的文本等輸入至該系統(tǒng)以識(shí)別對(duì)象及確定關(guān)聯(lián)的數(shù)據(jù)。來(lái)源數(shù)據(jù)庫(kù)可為也可不為關(guān)系數(shù)據(jù)庫(kù)。然而,系統(tǒng)數(shù)據(jù)庫(kù)優(yōu)選包含關(guān)系數(shù)據(jù)庫(kù)或某些同類型的數(shù)據(jù)庫(kù)以儲(chǔ)存關(guān)于對(duì)象間關(guān)聯(lián)的值。
正如此處所用的,″系統(tǒng)數(shù)據(jù)庫(kù)″與″關(guān)系數(shù)據(jù)庫(kù)″可互換使用。更具體而言,″關(guān)系數(shù)據(jù)庫(kù)″是指組織成包含適于預(yù)設(shè)類型的數(shù)據(jù)的表格集合的數(shù)據(jù)收集。舉例而言,數(shù)據(jù)庫(kù)表格可包含一個(gè)或多個(gè)通過(guò)列所界定的類型(如屬性等),而數(shù)據(jù)庫(kù)的行可包含針對(duì)通過(guò)列所界定的類型的唯一對(duì)象。因此,如基因等對(duì)象可能會(huì)具有核甘酸序列、胺基酸序列、特定組織或細(xì)胞的表達(dá)、原始生命體(organism of origin)、與顯型的關(guān)聯(lián)等行。關(guān)系數(shù)據(jù)庫(kù)的行也可稱之為″集合″且通常通過(guò)其列的值予以界定。在關(guān)系數(shù)據(jù)庫(kù)的環(huán)境中的″領(lǐng)域″是評(píng)估如列可包含的領(lǐng)域的有效范圍。
正如此處所用的,″知識(shí)領(lǐng)域″是指本發(fā)明的系統(tǒng)在其上可操作的研究領(lǐng)域,舉例而言,所有的生物醫(yī)學(xué)數(shù)據(jù)等。須特別指出的是本發(fā)明具有結(jié)合幾個(gè)領(lǐng)域的數(shù)據(jù)的優(yōu)點(diǎn),例如生物醫(yī)學(xué)數(shù)據(jù)與工程學(xué)數(shù)據(jù),對(duì)于這種不同分類的數(shù)據(jù)有時(shí)可以鏈接某些對(duì)象,這些對(duì)象無(wú)法被僅熟悉一種研究/學(xué)習(xí)的領(lǐng)域的正常人士結(jié)合在一起。
″分布式數(shù)據(jù)庫(kù)″是可于網(wǎng)絡(luò)的不同點(diǎn)中間散布或復(fù)制的數(shù)據(jù)庫(kù)。
術(shù)語(yǔ)″數(shù)據(jù)″與″信息″通??苫Q使用,如同″信息″與″知識(shí)″,因此,有必要了解這些術(shù)語(yǔ)間的區(qū)別?!鍞?shù)據(jù)″是最基本的單元,其包含經(jīng)驗(yàn)上的測(cè)量或測(cè)量的集合。數(shù)據(jù)被編輯以為信息服務(wù),但是其基本上與其獨(dú)立。相比較而言,信息由關(guān)注的內(nèi)容所取得。舉例而言,為了尋找與心臟疾病風(fēng)險(xiǎn)相關(guān)聯(lián)的變量,可以收集關(guān)于身高、體重、人種以及飲食的數(shù)據(jù)。但是相同的數(shù)據(jù)可用以研制處方(formula)或產(chǎn)生關(guān)于身高/體重或人種/飲食關(guān)聯(lián)的信息。
當(dāng)″信息″是指數(shù)據(jù)集合時(shí)包括數(shù)值、數(shù)值集合、或最終的結(jié)果或自數(shù)據(jù)集合所取得的結(jié)果。然后″信息″是測(cè)量或統(tǒng)計(jì)以及信息的基本單位?!逍畔ⅰ暹€可包括其它類型的數(shù)據(jù),如單詞、符號(hào)、文本(如非結(jié)構(gòu)化不固定文本)、程序代碼等等?!逯R(shí)″較松散地定義為信息集合,其給出對(duì)系統(tǒng)的充分理解以模擬原因與結(jié)果。繼續(xù)前面的例子,關(guān)于人種與飲食的信息可用以研究食品銷售的區(qū)域行銷策略,而關(guān)于身高/重量的比例可被醫(yī)生用于飲食建議的指引。須特別說(shuō)明的是在數(shù)據(jù)、信息以及知識(shí)間并沒(méi)有嚴(yán)格的界線;這三種術(shù)語(yǔ)有時(shí)會(huì)被視為相等。一般而言,數(shù)據(jù)來(lái)自于調(diào)查,信息來(lái)自于關(guān)聯(lián),而知識(shí)來(lái)自于模型化。
正如此處所用的,″程序″或″計(jì)算機(jī)程序″通常是符合特定程序語(yǔ)言的規(guī)則的語(yǔ)法單元并由宣告與聲明或指令組成,且可分割成需要解決或執(zhí)行特定功能、任務(wù)或問(wèn)題的″程序代碼區(qū)段″。程序語(yǔ)言通常為用于表達(dá)程序的人工語(yǔ)言。
″系統(tǒng)″或″計(jì)算機(jī)系統(tǒng)″通常包括一個(gè)或多個(gè)用以執(zhí)行數(shù)據(jù)處理的計(jì)算機(jī)、接口設(shè)備以及軟件。″用戶″或″系統(tǒng)操作員″通常包括為了數(shù)據(jù)處理與信息交換通過(guò)″用戶裝置″(如計(jì)算機(jī)、無(wú)線裝置等等)而利用計(jì)算機(jī)網(wǎng)絡(luò)存取的人?!逵?jì)算機(jī)″通常是可執(zhí)行大量計(jì)算的功能性單元,其包括大量算術(shù)運(yùn)算以及邏輯運(yùn)算而無(wú)須人為介入。
″應(yīng)用軟件″或″應(yīng)用程序″通常是用于應(yīng)用問(wèn)題的解決的特定軟件或程序?!鍛?yīng)用問(wèn)題″通常為終端用戶所發(fā)出的問(wèn)題并要求其解釋的信息處理。
″自然語(yǔ)言″是一種語(yǔ)言,其規(guī)則是根據(jù)當(dāng)前的文法而并未被具體規(guī)定。自然語(yǔ)言的例子可包括如英文、俄文或中文等。對(duì)比之下,″人工語(yǔ)言″是一種在使用前已明確建立其規(guī)則的語(yǔ)言。人工語(yǔ)言的例子可包括計(jì)算機(jī)程序語(yǔ)言,如C、Java、BASIC、FORTRAN或COBOL。
正如此處所用的,″實(shí)體關(guān)聯(lián)″是指于數(shù)據(jù)來(lái)源的選定的部分(如詞組、行、段、節(jié)、章或書(shū))中對(duì)象的同現(xiàn)。
正如此處所用的,″邏輯關(guān)聯(lián)″是指通過(guò)邏輯操作數(shù)如″非″、″包括″、″及″、″或″等鏈接的關(guān)聯(lián),其中連接詞以特定方式使對(duì)象關(guān)聯(lián),舉例而言,″我們研究基因XX、YY、ZZ,并發(fā)現(xiàn)它們與癌癥無(wú)基因上的關(guān)聯(lián)″,在此例中,XX、YY、ZZ僅可利用同現(xiàn)而被鏈接,但是從此句所余留的上下文的邏輯上,它們并未被鏈接。邏輯關(guān)聯(lián)可為來(lái)自數(shù)據(jù)庫(kù)的對(duì)象且已經(jīng)明確的被鏈接或關(guān)聯(lián),如基因本質(zhì)論(Genome Ontology)中的那些。
正如此處所用的,″關(guān)聯(lián)的綜合網(wǎng)絡(luò)″是指盡可能完整的網(wǎng)絡(luò),其包括來(lái)自許多來(lái)源或知識(shí)領(lǐng)域的數(shù)據(jù)。優(yōu)選的是,與該網(wǎng)絡(luò)相關(guān)聯(lián)的數(shù)據(jù)可在不受任何限制的情況下予以存取,這種限制可例如為″僅給我顯示與Medline文本相關(guān)聯(lián)而不包括由其它文獻(xiàn)所產(chǎn)生的關(guān)聯(lián)″。
正如此處所用的,″部分網(wǎng)絡(luò)″是指僅計(jì)算來(lái)自有效數(shù)據(jù)來(lái)源的部分的網(wǎng)絡(luò)(如在科學(xué)雜志中所發(fā)表的文章)。定義于一個(gè)數(shù)據(jù)來(lái)源中的部分網(wǎng)絡(luò)可與定義于另一個(gè)數(shù)據(jù)來(lái)源中的部分網(wǎng)絡(luò)相比較以確認(rèn)關(guān)聯(lián)。此術(shù)語(yǔ)還指僅使用任何預(yù)先計(jì)算網(wǎng)絡(luò)的部分,舉例而言,″僅給我顯示來(lái)自于Medline的文獻(xiàn)的連接″或″僅給我顯示來(lái)自于Medline文獻(xiàn)中討論癌癥的連接″。
正如此處所用的,″主題群組(topical cluster)″是指通過(guò)主題關(guān)聯(lián)的對(duì)象群組,如″乳腺癌″或″當(dāng)研究在心臟疾病與正常專利時(shí)這些具有可重制性差異表現(xiàn)的基因″或由任何用戶所產(chǎn)生的對(duì)象的任意分組以產(chǎn)生額外的信息或針對(duì)其所給定的研究或假說(shuō)而驗(yàn)證信息。
正如此處所用的,″統(tǒng)計(jì)的關(guān)聯(lián)″是指擾亂(tousing)一個(gè)或多個(gè)排列配置(實(shí)際/期望比例,強(qiáng)度等等),其中若關(guān)聯(lián)發(fā)生的頻率明顯大于隨機(jī)偶然的預(yù)期則該關(guān)聯(lián)會(huì)被確認(rèn)具有統(tǒng)計(jì)的關(guān)聯(lián)。
正如此處所用的,″解析″是指驗(yàn)證對(duì)象在對(duì)象關(guān)系數(shù)據(jù)庫(kù)中并確保詞匯變體與同義字等也包含于針對(duì)該對(duì)象的該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中。其也是指接著從文獻(xiàn)中尋找對(duì)象以及任何該對(duì)象的變體,亦即成功從該文獻(xiàn)中提取該對(duì)象及其變體。
正如此處所用的,″為關(guān)聯(lián)分配屬性″是指任何用以區(qū)別不同種類的關(guān)聯(lián)的方法,且其可包括僅因?yàn)橥F(xiàn)所產(chǎn)生的關(guān)聯(lián)以及因?yàn)榘谔囟▽?duì)象種類(如藥物、基因等等)所產(chǎn)生的關(guān)聯(lián)。其還包括可揭露關(guān)于對(duì)象集合的某些方面的結(jié)果對(duì)象,如作為該集合的成員通常是″轉(zhuǎn)錄因子″并因此指示某種控制功能且可能包含DNA與某蛋白質(zhì)間的相互作用。
知識(shí)發(fā)現(xiàn)在某些技術(shù)中,如科學(xué)等,通過(guò)數(shù)據(jù)的收集來(lái)取得有關(guān)所關(guān)注的對(duì)象的信息及/或知識(shí),但是其還可包含或產(chǎn)生其它關(guān)于起初并不想研究的對(duì)象的新信息。有許多軼聞關(guān)于科學(xué)上發(fā)現(xiàn)是通過(guò)意外所啟發(fā)或在研究不相關(guān)的領(lǐng)域時(shí)意外頓悟所致。這些經(jīng)驗(yàn)觀察顯示介于表面上無(wú)關(guān)聯(lián)的對(duì)象間仍存在有潛在的關(guān)鍵性關(guān)聯(lián),并進(jìn)而使這些對(duì)象集成至新的關(guān)聯(lián)集合中。
信息通常是來(lái)自于特定的關(guān)注且大多數(shù)的數(shù)據(jù)的收集追求單一的關(guān)注,依據(jù)本發(fā)明的系統(tǒng)可在個(gè)體不需要增加額外的成本的前提下擴(kuò)展個(gè)體的關(guān)注。因此,本發(fā)明的系統(tǒng)在不額外增加成本的前提下產(chǎn)生更多的知識(shí)。這種附加價(jià)值利益是無(wú)限制的且是本發(fā)明的系統(tǒng)在知識(shí)發(fā)現(xiàn)的角色的來(lái)源。
盡管個(gè)體擅長(zhǎng)發(fā)現(xiàn)數(shù)據(jù)中的模式并闡釋數(shù)據(jù)中的關(guān)聯(lián),但其會(huì)受限于消化新數(shù)據(jù)的數(shù)量和速度。另一方面,計(jì)算機(jī)則受限于其發(fā)現(xiàn)模式或理解關(guān)聯(lián)的能力但卻具有較快以及更全面的數(shù)據(jù)消化能力。為全面地檢索各個(gè)模式的現(xiàn)有數(shù)據(jù),必須利用計(jì)算機(jī)。依據(jù)本發(fā)明的系統(tǒng)實(shí)現(xiàn)多個(gè)用于數(shù)據(jù)的關(guān)聯(lián)分析所需的任務(wù),包括(a)取得電子可讀格式的知識(shí)領(lǐng)域;(b)利用軟件來(lái)識(shí)別包含于該領(lǐng)域中的數(shù)據(jù);(c)識(shí)別介于包含于其中的數(shù)據(jù)項(xiàng)之間的信息關(guān)聯(lián);(d)利用該關(guān)聯(lián)以發(fā)現(xiàn)并識(shí)別新趨勢(shì)、功能或解釋。
無(wú)效率的知識(shí)發(fā)現(xiàn)方法其中一種關(guān)注于追求科學(xué)與技術(shù)中的知識(shí)的數(shù)據(jù)來(lái)源是MEDLINE。在1986年,當(dāng)時(shí)MEDLINE具有少于現(xiàn)在的數(shù)量一半的項(xiàng)目,研究者DonSwanson證明兩個(gè)不具有已知鏈接的生物現(xiàn)象間可通過(guò)中間鏈接以半自動(dòng)的方法產(chǎn)生關(guān)聯(lián)。其概念在圖2中揭露,其中介于A與B間的關(guān)聯(lián)與介于B與C間的關(guān)聯(lián)已被確認(rèn);然而,并未識(shí)別出A與C之間的關(guān)聯(lián)。Swanson稱這種關(guān)聯(lián)為″非交互式文獻(xiàn)″,并開(kāi)發(fā)出一種在非交互式文獻(xiàn)中操作的將來(lái)自MEDLINE記錄的關(guān)鍵詞配對(duì)以識(shí)別介于兩個(gè)文獻(xiàn)集合間的共同性。利用這種方法,其識(shí)別出介于雷諾氏癥(Raynaud’sdisease,一種循環(huán)上的疾病)(文獻(xiàn)A)與魚(yú)油(文獻(xiàn)C)間的關(guān)聯(lián),這是通過(guò)與這兩種現(xiàn)象相關(guān)的血液與血管改變(文獻(xiàn)B)來(lái)完成。因?yàn)檫@一識(shí)別,Swanson能夠假設(shè)魚(yú)油(一種增加許多有益的循環(huán)介質(zhì)的物質(zhì))對(duì)于雷諾氏癥的患者而言具有正面的功效。此方法被用來(lái)識(shí)別其它先前未知的關(guān)聯(lián),如鎂的水平與偏頭痛的關(guān)聯(lián)以及精氨酸水平與等離子生長(zhǎng)調(diào)節(jié)素的關(guān)聯(lián)。
Swanson發(fā)布一種程序ARROWSMITH,其可讓用戶檢索非交互式文獻(xiàn)。圖3A與圖3B示例性顯示ARROWSMITH如何操作。在圖3A中顯示在兩個(gè)概念A(yù)與C之間直接檢索的方法,其中A與C是以用于MEDLINE的主題檢索的文本形式表現(xiàn)的所關(guān)注的一般概念。通過(guò)檢索所取得的標(biāo)題被解析成單個(gè)單詞的集合。通過(guò)這一集合,不提供信息的單詞被過(guò)濾掉而留下關(guān)鍵詞的集合(在A之下未畫(huà)陰影的部分)。具有不同主題檢索的C并不知道與A有交疊。亦即,若用戶就組合的集合″A以及C″檢索MEDLINE時(shí),用戶將不會(huì)檢索到任何東西,亦即沒(méi)有建議關(guān)聯(lián)的項(xiàng)目。通過(guò)利用ARROWSMITH發(fā)現(xiàn)在A與C二者中所共同發(fā)現(xiàn)的關(guān)鍵詞集合用B表示。在此集合中可發(fā)現(xiàn)未記錄的關(guān)聯(lián);然而,留給用戶判斷在B中的鏈接是否相關(guān)或重要。
圖3B顯示ARROWSMITH的非直接檢索的結(jié)果。如果用戶僅關(guān)注于簡(jiǎn)單地尋找與A相關(guān)聯(lián)的新的或關(guān)注的鏈接,則可采用該方法。從由A的主題檢索所取得的初始關(guān)鍵詞集合,用戶可根據(jù)該全部的關(guān)鍵詞集合引導(dǎo)另一次獨(dú)立檢索。此結(jié)果被合并到另一個(gè)關(guān)鍵詞集合B,且再一次由每一個(gè)關(guān)鍵詞引導(dǎo)另一次檢索。關(guān)聯(lián)的這個(gè)第三份清單由檢索B中的所有關(guān)鍵詞的所取得,且可被處理成排除在初始集合A中已被發(fā)現(xiàn)的關(guān)聯(lián),并留下最后的集合C。
如同該方法的創(chuàng)造性一樣,存在一些為何Swanson的方法極度無(wú)效率的原因。首先,ARROWSMITH僅利用文獻(xiàn)的標(biāo)題。并且,當(dāng)通過(guò)減少用戶必須進(jìn)行分析關(guān)鍵詞的數(shù)量而用于實(shí)際用途時(shí),標(biāo)題并不總是以專門術(shù)語(yǔ)描述其發(fā)現(xiàn),同時(shí)也不會(huì)包括太多在該文獻(xiàn)的其它部分(如摘要等)中可發(fā)現(xiàn)的關(guān)聯(lián)信息。其次,僅利用關(guān)鍵詞而非詞組,造成關(guān)鍵部分缺乏區(qū)別。舉例而言,″心臟″會(huì)收集到與″心臟麻痹″與″心臟發(fā)育″相關(guān)聯(lián)的術(shù)語(yǔ)。再者,當(dāng)稱該方法為″自動(dòng)″方法時(shí)事實(shí)上僅為半自動(dòng)方法,因?yàn)槠湟笕巛斎氲氖謩?dòng)的記錄編輯,且必須針對(duì)每一個(gè)匹配的關(guān)鍵詞進(jìn)行關(guān)聯(lián)的另一次手動(dòng)評(píng)估,而該評(píng)估通常要求所關(guān)注的特定領(lǐng)域中的專家來(lái)進(jìn)行。然而,已有一群組利用標(biāo)準(zhǔn)化的關(guān)鍵詞與關(guān)鍵詞組出現(xiàn)的統(tǒng)計(jì)頻率來(lái)嘗試在檢索的頂端標(biāo)示最有關(guān)聯(lián)的單詞與詞組。基于關(guān)鍵詞的方法的缺點(diǎn)除限制數(shù)據(jù)池(data pool)外,還在于被分析領(lǐng)域的范圍。如圖3B所示,即便限制單詞是經(jīng)過(guò)篩選的,唯一關(guān)鍵詞的數(shù)量仍然急劇地增長(zhǎng)。因此,非直接的檢索以及利用這種檢索的方法在大量數(shù)據(jù)或要做分析時(shí)并無(wú)多大的優(yōu)勢(shì)。
單詞配對(duì)及其限制任何利用單詞配對(duì)或術(shù)語(yǔ)的同現(xiàn)的知識(shí)發(fā)現(xiàn)系統(tǒng)受限于分析的規(guī)模。存在于單一來(lái)源的大規(guī)模數(shù)據(jù)的例示可通過(guò)查找數(shù)據(jù)庫(kù)而發(fā)現(xiàn)。數(shù)據(jù)庫(kù)被視為原始數(shù)據(jù)的倉(cāng)庫(kù),即便在數(shù)據(jù)信息組中可發(fā)現(xiàn)不同的信息面。如先前所述,一種廣泛的科學(xué)與技術(shù)知識(shí)的來(lái)源是MEDLINE,其以可擴(kuò)展標(biāo)記語(yǔ)言格式的電子文本形式使公眾無(wú)須付費(fèi)即可自國(guó)家醫(yī)學(xué)圖書(shū)館(National Library of Medicine;NLM)取得。
在2002年初期,MEDLINE包含12,063,000筆記錄,其中6,400,000筆有摘要。在解析后,發(fā)現(xiàn)這一千二百萬(wàn)筆記錄包含超過(guò)4,400,000個(gè)唯一的單詞。為說(shuō)明來(lái)自關(guān)于共同主題的摘要集合的唯一單詞如何的快速增長(zhǎng),通過(guò)關(guān)鍵詞″wnt″的主題檢索獲得973筆MEDLINE記錄的標(biāo)題與摘要,并利用該系統(tǒng)的單詞解析例程將該檢索的內(nèi)容處理成單個(gè)的單詞。在全部191,165個(gè)單詞中檢索出來(lái)總共11,226筆唯一的單詞。僅合并這些單詞簡(jiǎn)單的字根變體(如將″bind″、″binds″以及″binding″視為同一單詞)就將該清單減少到9,479個(gè)單詞。接著通過(guò)過(guò)濾器排除220個(gè)不具意義的單詞(如″hence″、″where″、″did″以及″at″等)以及可能的副詞(單詞后面為″ly″者)。最后的清單包含8,495個(gè)關(guān)鍵詞。這些單詞中的一部分是更復(fù)雜的字根變體(如bind/bound、cell/cellular)、特殊的名詞(如″Beckham″、″Smith″)、數(shù)字或百分比、少數(shù)無(wú)法篩選的不具意義單詞(如″hundred″、″liter″)。還有大量對(duì)于引導(dǎo)另一次檢索幫助不高的單詞(如″ararose″、″filter″)以及大量由于其表達(dá)較為寬廣的概念(如″cell″、″development″、″Drosophila″)而無(wú)法確定其作用的單詞。利用國(guó)家醫(yī)學(xué)圖書(shū)館的PubMed Web網(wǎng)站漸增地通過(guò)該清單上最常見(jiàn)的關(guān)鍵詞詢問(wèn)MEDLINE摘要(亦即一個(gè)單詞,接著兩個(gè)單詞直至五十個(gè)單詞)并計(jì)算其漸進(jìn)線,估計(jì)有6,100,000筆MEDLINE文獻(xiàn)在其摘要中包含一個(gè)或多個(gè)自該″wnt″清單中所取得的關(guān)鍵詞。這表示將近百分之九十七的MEDLINE記錄包含有摘要。因此,針對(duì)潛在的關(guān)聯(lián)而檢查隱含關(guān)聯(lián)文獻(xiàn)的領(lǐng)域等同于閱讀一千二百萬(wàn)筆MEDLINE文獻(xiàn)中大多數(shù)的文獻(xiàn)。
這種類型系統(tǒng)非常無(wú)效率的進(jìn)一步說(shuō)明是,可通過(guò)觀察從隨機(jī)確認(rèn)的記錄所獲得的關(guān)鍵詞增長(zhǎng)速度來(lái)示出。在圖4中,由該″wnt″摘要所取得的唯一關(guān)鍵詞的總體增長(zhǎng)是依據(jù)相同數(shù)量的有效的隨機(jī)摘要(利用關(guān)鍵詞″result″自MEDLINE中所取得者)予以繪制。在該摘要中的所有單詞被記錄到數(shù)據(jù)庫(kù)中,每一次發(fā)現(xiàn)新的單詞時(shí)增加至累積總數(shù)。
如圖4所示,一個(gè)相對(duì)小的100筆摘要的集合快速膨脹至4,000唯一單詞。wnt關(guān)鍵詞增長(zhǎng)分析顯示關(guān)于范圍不小的起始領(lǐng)域的非直接檢索快速地變成無(wú)效率與不切實(shí)際。因此,有效率的系統(tǒng)還能夠從分析中減少無(wú)關(guān)聯(lián)的關(guān)鍵詞。本發(fā)明的系統(tǒng)即可實(shí)現(xiàn)這種功能。
利用基于文本的來(lái)源克服知識(shí)發(fā)現(xiàn)中的障礙一種評(píng)估任何來(lái)源的非常實(shí)際的方法是通過(guò)回答以下三個(gè)問(wèn)題(1)該來(lái)源的廣泛性為何?;(2)該來(lái)源的錯(cuò)誤率為何?;以及(3)識(shí)別新的但是有用的關(guān)聯(lián)必須耗多少工?假設(shè)當(dāng)評(píng)估關(guān)聯(lián)的有效性時(shí),用戶面對(duì)非常實(shí)際的時(shí)間與金錢的限制,本發(fā)明的系統(tǒng)被設(shè)計(jì)成限制僅對(duì)于特定關(guān)注的領(lǐng)域中已知所關(guān)心及/或關(guān)聯(lián)的客體進(jìn)行分析。舉例而言,在生物技術(shù)中,當(dāng)前所關(guān)注的領(lǐng)域通常是在基因、疾病、臨床顯型、蛋白質(zhì)、小分子、作用機(jī)制、潛在新藥物以及治療化學(xué)化合物。依據(jù)本發(fā)明的系統(tǒng)還特別地設(shè)計(jì)成將分析限制在關(guān)注領(lǐng)域的來(lái)源。舉例而言,利用MEDLINE作為來(lái)源,檢索限制于標(biāo)題與摘要。這主要因?yàn)檫@些領(lǐng)域涵蓋適于新關(guān)聯(lián)發(fā)現(xiàn)的最大量信息。
就利用具有大量文本的數(shù)據(jù)來(lái)源產(chǎn)生關(guān)聯(lián)分析方面而論,其具有大量本質(zhì)上的困難必須予以克服。最大的困難是在其放置的上下文中適當(dāng)?shù)胤峙洳⒃u(píng)估文本。人為的關(guān)聯(lián)本質(zhì)上可能僅存在于上下文中,這對(duì)于科學(xué)來(lái)源而言尤其重要。舉例而言,摘要可識(shí)別根據(jù)測(cè)試條件的相互影響。包含有基因淘汰突變(knockout mutation)的動(dòng)物血緣可被用來(lái)確定藥物的功效且可建構(gòu)介于藥物及其功效間誤導(dǎo)的關(guān)聯(lián),如″藥物ABC會(huì)致命″。為克服信息的錯(cuò)誤評(píng)估,在一個(gè)方面,本發(fā)明的系統(tǒng)包括對(duì)每一次識(shí)別出對(duì)象或關(guān)聯(lián)進(jìn)行計(jì)數(shù)的漸增計(jì)數(shù)器。若對(duì)象碰巧落入特別情況的分類中時(shí),與對(duì)象出現(xiàn)次數(shù)之和相比,記錄的關(guān)聯(lián)應(yīng)具有相稱的小計(jì)數(shù)器。
另一個(gè)必須克服的問(wèn)題是利用非標(biāo)準(zhǔn)標(biāo)示來(lái)描述人為構(gòu)造。以陳述″ABCΔ130-140蛋白質(zhì)無(wú)法約束DEF″為例。從該陳述中可以理解二件事ABC原則上拘束DEF(隱含的)以及沒(méi)有胺基酸130-140ABC無(wú)法拘束DEF。若標(biāo)示是標(biāo)準(zhǔn)則該標(biāo)示可輕易地予以符合,但是有幾種顯示此刪除的方法,包括ABCΔ1d(用于第一領(lǐng)域),ΔABC-2(用于第二刪除構(gòu)造)。ABC-DEFBR(不具有DEF拘束區(qū)域的ABC)或任何數(shù)量的關(guān)于何者被研究的方法。本發(fā)明的方法僅登記已識(shí)別的對(duì)象的關(guān)聯(lián)。
另外兩種類型的錯(cuò)誤可能存在于數(shù)據(jù)來(lái)源中。舉例而言,可教導(dǎo)本發(fā)明的系統(tǒng)以正確地識(shí)別對(duì)象/關(guān)聯(lián)或該研究的結(jié)論/結(jié)果。依賴一個(gè)或多個(gè)計(jì)數(shù)器變量可執(zhí)行更好的評(píng)估,其中該變量是計(jì)算介于兩個(gè)對(duì)象間的關(guān)聯(lián)被識(shí)別出的總次數(shù)并用以協(xié)助識(shí)別錯(cuò)誤。該評(píng)估涉及提取在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中項(xiàng)目的子集合,回復(fù)至原始的參考并評(píng)估有多少是精確的。該評(píng)估的精確性對(duì)于提供分?jǐn)?shù)以排列潛在未記錄的關(guān)聯(lián)是關(guān)鍵的。因此,在此所述的系統(tǒng)設(shè)計(jì)成用來(lái)減少在建立對(duì)象關(guān)系數(shù)據(jù)庫(kù)的過(guò)程中的系統(tǒng)錯(cuò)誤。因?yàn)橄∩倩虿蛔愕恼Z(yǔ)義學(xué)的語(yǔ)法所產(chǎn)生的其它類型的錯(cuò)誤表現(xiàn)出更大的挑戰(zhàn)。優(yōu)選的是,本發(fā)明的系統(tǒng)強(qiáng)調(diào)精確性更勝于完全性,亦即本發(fā)明的系統(tǒng)可接受忽視極為罕見(jiàn)的關(guān)聯(lián)有助于尋找識(shí)別正確的關(guān)聯(lián)。
通過(guò)向被研究的對(duì)象提供一致且標(biāo)準(zhǔn)的分類,前述提及的大部分障礙可被克服。此外,如針對(duì)其多元主題詞表(Metathesaurus)的美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館的MetaMap等工具可首先通過(guò)包含于該多元主題詞表中的概念而用來(lái)匹配詞組與單詞變體。一旦用戶以手工的方法輸入其一般關(guān)注對(duì)象,該多元主題詞表幫助用戶選擇各種的主題領(lǐng)域。
新穎的知識(shí)發(fā)現(xiàn)系統(tǒng)通過(guò)本發(fā)明所解決的問(wèn)題是利用來(lái)源來(lái)廣泛地識(shí)別關(guān)聯(lián)并隨后模型化這些關(guān)聯(lián),以在研究領(lǐng)域(如檢索領(lǐng)域)中發(fā)現(xiàn)新的知識(shí)并識(shí)別出局部與整體的趨勢(shì)。
在一個(gè)方面,本發(fā)明的系統(tǒng)包含用以儲(chǔ)存可自其中挖掘信息的文件的存儲(chǔ)器。另一種選擇是,或可額外附加的是,本發(fā)明的系統(tǒng)包含可連接至網(wǎng)絡(luò)的處理器,通過(guò)該網(wǎng)絡(luò)可存取一個(gè)或多個(gè)文件的集合(總的來(lái)說(shuō),數(shù)據(jù)來(lái)源)。
優(yōu)選的是,本發(fā)明的系統(tǒng)的處理器包含中央處理單元(CPU),其執(zhí)行嵌入計(jì)算機(jī)可讀介質(zhì)的一個(gè)或多個(gè)程序(計(jì)算機(jī)程序產(chǎn)品)以執(zhí)行后面披露的評(píng)估方法。計(jì)算機(jī)可讀介質(zhì)包括但不限于硬盤、軟盤、光盤、數(shù)字影像光盤、閃存、在線互聯(lián)網(wǎng)網(wǎng)站、內(nèi)聯(lián)網(wǎng)網(wǎng)站;其它的光學(xué)、磁性或數(shù)字,易失性或非易失性儲(chǔ)存介質(zhì)類型。正如此處所用的,″計(jì)算機(jī)可讀介質(zhì)″包括合作的或互連的計(jì)算機(jī)可讀介質(zhì)。其可專屬地存在于單一計(jì)算機(jī)系統(tǒng)中或者分布在多個(gè)本地或遠(yuǎn)程互連的計(jì)算機(jī)系統(tǒng)中。因此,在一個(gè)方面,該處理器執(zhí)行接收并完成來(lái)自客戶端(如計(jì)算機(jī)、工作站、便攜式裝置、如Dell 4600等多CPU服務(wù)器、膝上型計(jì)算機(jī)、辦公助理、或其它可連接至網(wǎng)絡(luò)的無(wú)線裝置)請(qǐng)求的服務(wù)器程序以實(shí)現(xiàn)一個(gè)或多個(gè)系統(tǒng)功能。通過(guò)該服務(wù)器所執(zhí)行的服務(wù)器程序可用來(lái)有規(guī)律地再計(jì)算對(duì)象關(guān)聯(lián)的網(wǎng)絡(luò)(容后詳述),提供可接著被下載至客戶端機(jī)器的網(wǎng)絡(luò)數(shù)據(jù)庫(kù),在該客戶端機(jī)器中用戶可與其交互或詢問(wèn)??商娲?,該服務(wù)器計(jì)算機(jī)保留該網(wǎng)絡(luò)數(shù)據(jù)庫(kù),而客戶端/用戶在不需要在客戶端機(jī)器保存本地副本的情況下通過(guò)該服務(wù)器與該網(wǎng)絡(luò)數(shù)據(jù)庫(kù)交互。此架構(gòu)提供容許數(shù)據(jù)庫(kù)擴(kuò)充的彈性,提供較客戶端/用戶機(jī)器中所取得的更多的磁盤空間與速度。
適合應(yīng)用于本發(fā)明的系統(tǒng)的服務(wù)器端包括但不限于SQL服務(wù)器、Oracle以及Microsoft Access。
在一個(gè)優(yōu)選的方面,本發(fā)明的系統(tǒng)還包括用以開(kāi)發(fā)、部署以及管理企業(yè)數(shù)據(jù)庫(kù)的應(yīng)用程序(如Microsoft Access程序)。
在一個(gè)方面,本發(fā)明的系統(tǒng)包含引擎,該引擎用以監(jiān)視網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的再計(jì)算結(jié)果以識(shí)別可能突然通過(guò)新增的對(duì)象或來(lái)源數(shù)據(jù)而鏈接的對(duì)象群組,提供用以執(zhí)行具有程序代碼區(qū)段的程序的標(biāo)識(shí)符或系統(tǒng)觸發(fā)器,其中該程序代碼區(qū)段包含用以審查結(jié)果的指令。以這種方式,本發(fā)明的系統(tǒng)識(shí)別可提供新發(fā)現(xiàn)機(jī)會(huì)的關(guān)聯(lián)(例如通過(guò)識(shí)別后選藥物目標(biāo))。因此,本發(fā)明的系統(tǒng)模型化典型的人類思想與科學(xué)方法,產(chǎn)生某些發(fā)現(xiàn),然后本發(fā)明的系統(tǒng)利用此新發(fā)現(xiàn)以產(chǎn)生額外新的發(fā)現(xiàn)。
在此所述的計(jì)算機(jī)程序產(chǎn)品用以執(zhí)行在通用計(jì)算機(jī)中操作的系統(tǒng)功能。計(jì)算機(jī)可包括獨(dú)立單元或多個(gè)互連單元。功能性單元被視為具有完成特定目的能力的硬件實(shí)體或軟件實(shí)體或二者兼具。硬件包括信息處理系統(tǒng)的全部或部分的物理組件,該處理系統(tǒng)例如計(jì)算機(jī)或外圍裝置。
優(yōu)選的是,該系統(tǒng)還包括用以顯示該數(shù)據(jù)評(píng)估方法的結(jié)果的用戶接口。該用戶接口可提供于客戶端系統(tǒng)中,該客戶端系統(tǒng)通過(guò)存取服務(wù)器的方式存取依據(jù)本發(fā)明的系統(tǒng),或者該用戶接口與系統(tǒng)可共同的包含于通用計(jì)算機(jī)中。依據(jù)被執(zhí)行數(shù)據(jù)挖掘運(yùn)算的類型可提供定制的窗口(如具有限定的邊界的顯示影像的一部分,其中在該邊界中顯示數(shù)據(jù))。舉例而言,可定制該窗口以在用戶友好的圖形格式下顯示與基因、蛋白質(zhì)、化學(xué)化合物、其功能及/或相互影響等相關(guān)聯(lián)的數(shù)據(jù)。舉例言之,該窗口可包括如標(biāo)題欄、工具欄、下拉式選單以及如按鈕或鏈接等控制組件等組件。
在一個(gè)方面,該用戶接口包括但不限于用以接收由用戶所輸入與用戶的關(guān)注內(nèi)容(如詢問(wèn))相關(guān)聯(lián)的文本或與來(lái)自數(shù)據(jù)來(lái)源的數(shù)據(jù)相關(guān)聯(lián)的輸入(文本、數(shù)值、符號(hào)、化學(xué)方程式、數(shù)學(xué)方程式及其它類似者)的信息組,一個(gè)或多個(gè)用以接收來(lái)自遠(yuǎn)程計(jì)算機(jī)的輸入的信息組,其中該遠(yuǎn)程計(jì)算機(jī)通過(guò)該系統(tǒng)響應(yīng)該用戶通過(guò)該接口的交互予以存取,該交互例如用戶在控制組件(如按鈕、下拉式選單、任務(wù)欄、鏈接等)上的選擇或點(diǎn)擊操作。該用戶接口可被定制以反映用戶的特定關(guān)注,例如包括鏈接至與用戶的特定關(guān)注相關(guān)聯(lián)的數(shù)據(jù)來(lái)源。
與來(lái)自數(shù)據(jù)來(lái)源相關(guān)聯(lián)的輸入可轉(zhuǎn)換至簡(jiǎn)單的可互換格式,如利用標(biāo)準(zhǔn)文本或數(shù)據(jù)轉(zhuǎn)換器的可擴(kuò)展標(biāo)記語(yǔ)言。因此,數(shù)據(jù)來(lái)源包含可被轉(zhuǎn)換至如可擴(kuò)展標(biāo)記語(yǔ)言等格式的pdf、bmp、tiff格式、HTML、CHM、RTF、HLP、TXT(ANSI與Unicode)、DOC、XLS、MCW、WRI、WPD、WL4、WPS、SAM、RFT、WSD。在本發(fā)明的一個(gè)優(yōu)選的方面中,本發(fā)明的系統(tǒng)的數(shù)據(jù)轉(zhuǎn)換器功能被用來(lái)將數(shù)據(jù)轉(zhuǎn)換至與諸如Medline等數(shù)據(jù)來(lái)源相似的格式。
依據(jù)本發(fā)明的一個(gè)示例性系統(tǒng),利用例如具有256MB RDRAM與36GB SCSI硬盤驅(qū)動(dòng)器的桌上型800MHz Pentium III以及具有1GB RDRAM、36GB SCSI硬盤驅(qū)動(dòng)器與備用72GB SCSI硬盤驅(qū)動(dòng)器的Pentium-4個(gè)人計(jì)算機(jī)來(lái)執(zhí)行計(jì)算。在以下所述的實(shí)施例中,由于本地1.3太字節(jié)(terabyte)的集群是不穩(wěn)定的,因此在本地將MEDLINE儲(chǔ)存于72GB硬盤驅(qū)動(dòng)器中。在一個(gè)方面,用于本發(fā)明的系統(tǒng)的程序代碼用VisualBasic 6.0(VB 6)撰寫(xiě);然而,通過(guò)本發(fā)明的揭露,本領(lǐng)域技術(shù)人員應(yīng)該了解可利用多種程序語(yǔ)言中的任何一個(gè)來(lái)實(shí)現(xiàn)本發(fā)明。舉例而言,本發(fā)明的系統(tǒng)可利用如開(kāi)發(fā)式數(shù)據(jù)庫(kù)互連(ODBC)擴(kuò)展以從MicrosoftAccess 2000執(zhí)行數(shù)據(jù)庫(kù)存取。VB 6也可通過(guò)ODBC提供SQL服務(wù)器擴(kuò)展,使其能夠升級(jí)。
本發(fā)明的系統(tǒng)所執(zhí)行的評(píng)估方法或數(shù)據(jù)挖掘操作大致上可劃分成以下部分1.知識(shí)領(lǐng)域中的信息關(guān)聯(lián)被消化。
2.有意義關(guān)聯(lián)的識(shí)別(在知識(shí)領(lǐng)域中,如數(shù)據(jù)來(lái)源等)是根據(jù)主要領(lǐng)域以通用方式予以分類的假設(shè),且這些分類充分重要以被包含于特定的數(shù)據(jù)庫(kù)中。
3.在該知識(shí)領(lǐng)域中綜合的關(guān)聯(lián)識(shí)別是通過(guò)在知識(shí)領(lǐng)域的關(guān)鍵領(lǐng)域中對(duì)象的同現(xiàn)所產(chǎn)生。
4.關(guān)聯(lián)的綜合網(wǎng)絡(luò)儲(chǔ)存于數(shù)據(jù)庫(kù)中并接著用以產(chǎn)生包含共享的關(guān)聯(lián)及那些僅隱含地知悉的關(guān)聯(lián)的詢問(wèn)。
5.共享與隱含的關(guān)聯(lián)利用有界的網(wǎng)絡(luò)模型予以統(tǒng)計(jì)上的評(píng)估。
6.該識(shí)別的關(guān)聯(lián)通過(guò)將其應(yīng)用到現(xiàn)有的問(wèn)題來(lái)測(cè)試其精確性。
在知識(shí)領(lǐng)域中信息關(guān)聯(lián)的消化通常以從數(shù)據(jù)來(lái)源向系統(tǒng)提供輸入而開(kāi)始。
例示的數(shù)據(jù)來(lái)源包括但不限于公開(kāi)的研究報(bào)告(如ScienceCitation Index、Medline、BIOSIS)、公開(kāi)的技術(shù)報(bào)告(如EngineeringCompendex)、會(huì)議公報(bào)記錄、公開(kāi)技術(shù)報(bào)告成果數(shù)據(jù)庫(kù)(如NTIS)、專利數(shù)據(jù)庫(kù)(可在www.uspto.gov獲得,以及諸如DERWENT、LEXIS、WESTLAW、DELPHION、MICROPATENT等數(shù)據(jù)庫(kù))、程序敘述數(shù)據(jù)庫(kù)(如RADIUS)、管理機(jī)構(gòu)網(wǎng)頁(yè)(如FDA、NIH、USPTO、FTC、SEC網(wǎng)頁(yè))、信函、備忘錄、白皮書(shū)、聊天室文本、法院判決、新聞報(bào)導(dǎo)、在百科全書(shū)中的文章、書(shū)籍、論文、名單、表格、目錄、索引、市場(chǎng)分析、以及其它一般在線公布或以數(shù)字形式存在的數(shù)據(jù)。除互聯(lián)網(wǎng)來(lái)源外,內(nèi)聯(lián)網(wǎng)來(lái)源及其它特定企業(yè)結(jié)構(gòu)所特有的及/或該企業(yè)所有的可轉(zhuǎn)換成數(shù)據(jù)來(lái)源的文件,其可包括但不限于備忘錄、信函、企業(yè)計(jì)劃、研究報(bào)告、授權(quán)提案、電子郵件、手冊(cè)、指南、科學(xué)數(shù)據(jù)(包括已處理與未處理者)、顧客信息、競(jìng)爭(zhēng)者信息等等。此外,教育或參考材料亦可包括在內(nèi),如書(shū)籍(如Physician’s Desk Reference,Merck Manual,Goodmanand Gilman’s,The Phamacological Basis of Therapeutics,TenthEdition,A.Gilman,J.Hardman and L.Limbird,eds.,McGraw-HillPress,155-173,2001;在http://onlinebooks.library.upenn.edu/new.html,http://www.bartleby.com/,http://www.ipl.org/div/books/,http://promo.net/pg/,http://www.biblimania.com/,www.netlibrary.com.等可以獲得的各種在線書(shū)籍)。
文件包括那些當(dāng)前在線上以及那些隨后轉(zhuǎn)換至電子文件的文件,如通過(guò)光學(xué)字符識(shí)別(OCR)掃描。舉例而言,不存在于線上的文件或歷史文件可通過(guò)標(biāo)準(zhǔn)復(fù)印技術(shù)及/或掃描儀予以復(fù)制。
在一個(gè)方面,依據(jù)本發(fā)明的系統(tǒng)包含光學(xué)字符識(shí)別模塊,該光學(xué)字符識(shí)別模塊包含掃描儀以及與該掃描儀通訊的處理器,該處理器還與鏈接至該系統(tǒng)數(shù)據(jù)庫(kù)的系統(tǒng)處理器相通訊。優(yōu)選的是,該掃描儀用來(lái)取得數(shù)據(jù)來(lái)源(如書(shū)籍、雜志、信函、實(shí)驗(yàn)室筆記本等等)的影像且該處理器與該掃描儀通訊,而該系統(tǒng)將該文本從印刷格式轉(zhuǎn)換至可用作為數(shù)據(jù)來(lái)源的文件。
該模塊可用以一次掃描整頁(yè)或二頁(yè)(如利用平板掃描儀)或可以掃描一頁(yè)中所選定的部分(如該掃描儀可為可攜式裝置的形式)。在一個(gè)方面,該掃描儀包含進(jìn)紙系統(tǒng)用以掃描大量分離的文件,或可自用后即丟的書(shū)籍分離的紙張或者可沿著其書(shū)脊裁切以分離頁(yè)面的書(shū)籍的紙張。
在一個(gè)方面,該數(shù)據(jù)來(lái)源文件是可編輯文本文件或圖像,從其中可提取出相關(guān)聯(lián)的數(shù)據(jù)。通過(guò)該系統(tǒng)所掃描的文件優(yōu)選關(guān)聯(lián)至與該文件的至少一關(guān)鍵特征相關(guān)聯(lián)的至少一元對(duì)象。該文件與元對(duì)象的關(guān)聯(lián)可要求與該系統(tǒng)的操作員交互,該操作員行使該掃描或轉(zhuǎn)換方法的控制,使得不具有該至少一個(gè)元對(duì)象的文件不會(huì)轉(zhuǎn)換成該系統(tǒng)數(shù)據(jù)來(lái)源的部分。在一個(gè)方面,產(chǎn)生暫時(shí)性數(shù)據(jù)庫(kù)用以儲(chǔ)存待審查與排除以作為數(shù)據(jù)來(lái)源或被編輯至摘要內(nèi)容的文件。操作員可為專家或經(jīng)過(guò)訓(xùn)練以檢閱文檔中一個(gè)或多個(gè)關(guān)鍵詞的存在的個(gè)人。
在文件以聲音形式儲(chǔ)存或包含圖像組件的情況中,可利用自該組件中提取文本化數(shù)據(jù)的方法(如語(yǔ)音轉(zhuǎn)文字算法或光學(xué)字符識(shí)別算法)以產(chǎn)生額外的數(shù)據(jù)來(lái)源。提供至數(shù)據(jù)來(lái)源的該文件可儲(chǔ)存在單一的內(nèi)存或分散于許多連接至如全球網(wǎng)或互聯(lián)網(wǎng)的服務(wù)器。該文件可通過(guò)該系統(tǒng)的處理器在后述的方法實(shí)施前或?qū)嵤┲薪?jīng)由網(wǎng)絡(luò)予以存取??衫镁W(wǎng)絡(luò)爬行器(web crawler)來(lái)產(chǎn)生通過(guò)該系統(tǒng)予以操作的文件集合。
來(lái)源的選擇可取決于被評(píng)估的特定技術(shù)領(lǐng)域及/或被執(zhí)行評(píng)估的目的(如藥物發(fā)現(xiàn)與藥物反效果的識(shí)別的比較,藥物相互影響的識(shí)別,消費(fèi)者趨勢(shì)的識(shí)別等)。其它重要的標(biāo)準(zhǔn)包括但不限于數(shù)據(jù)來(lái)源的臨時(shí)涵蓋范圍(如最近公開(kāi)或選定的時(shí)間標(biāo)記)以識(shí)別新興的趨勢(shì),以及地理范圍(如公開(kāi)的位置)。
在一個(gè)方面,被評(píng)估的數(shù)據(jù)來(lái)源結(jié)合多個(gè)數(shù)據(jù)庫(kù),如涵蓋相關(guān)聯(lián)及/或相異的技術(shù)領(lǐng)域或多個(gè)知識(shí)領(lǐng)域的數(shù)據(jù)庫(kù)。舉例而言,相結(jié)合的數(shù)據(jù)庫(kù)可包括藥物與生物技術(shù)數(shù)據(jù)庫(kù),生物醫(yī)藥與工程數(shù)據(jù)庫(kù),生物技術(shù)與信息技術(shù)數(shù)據(jù)庫(kù)等,此處僅列舉幾個(gè)結(jié)合。在某些方面,當(dāng)數(shù)據(jù)來(lái)源被識(shí)別出以評(píng)估時(shí),關(guān)于技術(shù)方面并不做任何限制。舉例而言,DIALOG與STN數(shù)據(jù)來(lái)源包括來(lái)自相異技術(shù)領(lǐng)域的數(shù)據(jù)庫(kù),其可以相結(jié)合或相分離的方式評(píng)估。
在另一個(gè)方面,數(shù)據(jù)來(lái)源包含非結(jié)構(gòu)化的文本數(shù)據(jù)(如來(lái)自科學(xué)文獻(xiàn)的文本)以及結(jié)構(gòu)化的數(shù)據(jù)。在一個(gè)方面,數(shù)據(jù)來(lái)源包含來(lái)自具有DNA序列同源數(shù)據(jù)、基因本體群體名稱、蛋白質(zhì)結(jié)構(gòu)相似以及其它類似物的科學(xué)文獻(xiàn)的數(shù)據(jù)收集的非結(jié)構(gòu)化文本(如期刊文獻(xiàn)、教科書(shū)、專利文件、網(wǎng)站數(shù)據(jù))。
系統(tǒng)功能的綜述圖5顯示利用如MEDLINE等各種來(lái)源的一般系統(tǒng)邏輯的流程圖的流程圖。在方框53中,文本掃描該選定的來(lái)源,如線上科學(xué)文本50、MEDLINE摘要51或電子數(shù)據(jù)庫(kù)52。此方法可完全被自動(dòng)化或可用交互的方式執(zhí)行。當(dāng)多個(gè)文本集合被用作數(shù)據(jù)來(lái)源時(shí),該數(shù)據(jù)可儲(chǔ)存于單一的機(jī)器或客戶端/服務(wù)器端架構(gòu)中。特定集合(collection-specific)元對(duì)象可與每一個(gè)集合產(chǎn)生關(guān)聯(lián)。
在方框53中,信息自選定的來(lái)源通過(guò)″推斷提取″予以提取并饋至對(duì)象關(guān)系數(shù)據(jù)庫(kù)54中。數(shù)據(jù)可自存在于不同格式的數(shù)據(jù)來(lái)源中提取,該格式例如文件目錄、ASCII、DOC、PDF、數(shù)據(jù)庫(kù)記錄、平面文件(flatfile)等等。在一個(gè)方面,本發(fā)明的系統(tǒng)提供程序代碼以轉(zhuǎn)換儲(chǔ)存于多種不同檔案類型的數(shù)據(jù)至單一格式,例如以PDF、TIFF、Word、Text文件儲(chǔ)存的非結(jié)構(gòu)化的數(shù)據(jù)可轉(zhuǎn)換至XML。
ORD 54饋入發(fā)現(xiàn)引擎55以執(zhí)行關(guān)聯(lián)網(wǎng)絡(luò)分支檢索與整理。該發(fā)現(xiàn)引擎55通過(guò)間接關(guān)聯(lián)57及/或當(dāng)前間接關(guān)聯(lián)56的排列清單產(chǎn)生歷史性發(fā)現(xiàn)。
圖6顯示本發(fā)明的系統(tǒng)的關(guān)鍵組件的流程圖。一般而言,依據(jù)本發(fā)明的系統(tǒng)在方框60中編輯數(shù)據(jù)庫(kù)對(duì)象,接著在方框61中提煉該數(shù)據(jù)庫(kù)對(duì)象,在方框63中產(chǎn)生一個(gè)或多個(gè)關(guān)系數(shù)據(jù)庫(kù)。該關(guān)系數(shù)據(jù)庫(kù)63可在方框67中識(shí)別共享的關(guān)聯(lián),在方框64中識(shí)別隱含關(guān)聯(lián),及/或在方框65中識(shí)別共享的隱含關(guān)聯(lián)。
在一個(gè)方面,本發(fā)明的系統(tǒng)如圖7所示般編輯數(shù)據(jù)庫(kù)對(duì)象。信息組是可被分組到相同群組的關(guān)注的范圍以及涵蓋相同信息群組而在需要時(shí)可獨(dú)立于結(jié)合的使用的數(shù)據(jù)庫(kù)。舉例而言,三個(gè)在科學(xué)與技術(shù)中關(guān)注的信息組為基因71(其中的數(shù)據(jù)庫(kù)可包括locuslink 71a、GDB 71b以及HGNC 71c);化學(xué)化合物、小分子與藥物72(其中的數(shù)據(jù)庫(kù)可包括ChemID 72a、MeSH 72b以及FDA 72c);以及疾病與臨床顯型73(其中的數(shù)據(jù)庫(kù)可為MeSH 73a以及OMIM 73b)。在方框74中接著將用于基因71、化學(xué)化合物、小分子與藥物72以及疾病與臨床顯型73的數(shù)據(jù)庫(kù)群組予以預(yù)先處理并格式化為數(shù)據(jù)庫(kù)項(xiàng)目。在方框75中接著將項(xiàng)目予以分解并結(jié)合,并在方框76中檢查錯(cuò)誤。任何不期望或不具意義的項(xiàng)目可(自動(dòng)化的或通過(guò)用戶定義的)在方框77中予以刪除。
在另一個(gè)方面,本發(fā)明的系統(tǒng)的用戶檢視來(lái)自數(shù)據(jù)來(lái)源(如線上或通過(guò)光學(xué)字符識(shí)別模塊提供給該系統(tǒng))的文本的顯示并可選擇與標(biāo)記文本以將新單詞增加至對(duì)象清單。優(yōu)選的是,顯示有文本的圖形用戶界面還包括顯示在文本中被檢視的單詞中哪些當(dāng)前存在于對(duì)象清單中。以此方式,文本可快速地被掃描以選擇當(dāng)前尚未被使用的重要的新對(duì)象。
該處理后的信息可與來(lái)自其它數(shù)據(jù)來(lái)源及/或自先前編輯與關(guān)聯(lián)確認(rèn)步驟所取得的信息相結(jié)合。在某些實(shí)施例中,該信息還可利用如集群、分類及預(yù)測(cè)模塊化等傳統(tǒng)數(shù)據(jù)挖掘技術(shù)予以評(píng)估。
如圖8所示,在一個(gè)方面,為精練該數(shù)據(jù)庫(kù)對(duì)象,在方框81中,本發(fā)明的系統(tǒng)首先標(biāo)示模糊的首字母縮略字(利用如首字母縮略字-解析程序,容后詳述)。在方框82中,共同單詞利用另一單詞數(shù)據(jù)庫(kù)或如Merriam-Webster Database(M-W)等資源予以大致上的標(biāo)示。此外,在方框83中,在大寫(xiě)模式重要的地方將項(xiàng)目予以標(biāo)示(再次利用自動(dòng)化系統(tǒng)、工具或如M-W等資源)。在方框84中,另一個(gè)提煉是利用如首字母縮略字-解析程序等尋找詞匯變體并在區(qū)段85中利用如首字母縮略字-解析程序?qū)ふ翌~外的同義字。
如圖9中所示,本發(fā)明的系統(tǒng)接著掃描所存在的同現(xiàn)對(duì)象的來(lái)源以減少冗余并產(chǎn)生關(guān)聯(lián)。舉例言之,在方框90中,文本塊從諸如來(lái)源平坦線(flat-line)等的數(shù)據(jù)來(lái)源予以輸入。在方框91中該系統(tǒng)接著自該來(lái)源提取信息片段。舉例言之,利用MEDLINE作為來(lái)源,該系統(tǒng)可為每一筆記錄提取包括標(biāo)題、摘要、日期以及PMID信息組等信息。在方框92中本發(fā)明的系統(tǒng)可預(yù)先處理并格式化來(lái)自該來(lái)源的記錄,在方框93中將該記錄解析成句子,在方框94中將該句子解析成單詞并在方框95終將該單詞放置于一個(gè)或多個(gè)陣列中。此外,本發(fā)明的系統(tǒng)可依據(jù)詞組針對(duì)匹配檢索該對(duì)象數(shù)據(jù)庫(kù)(其中一至五個(gè)集中的單詞從任何陣列中形成詞組。在方框97中接著決定是否存在如同確認(rèn)的匹配。若存在匹配,在方框98中解析任何標(biāo)示的首字母縮略字,若有標(biāo)示時(shí)在方框99中檢查大寫(xiě)字。若不存在匹配,則處理返回到方框94,其中新的單詞集合從句子解析出來(lái)并繼續(xù)先前所述流程。在方框100中任何依據(jù)確認(rèn)匹配的新關(guān)聯(lián)(在所有的標(biāo)示均被檢查與解析后)在方框102中以新關(guān)聯(lián)被增加到數(shù)據(jù)庫(kù)中)。然而,若沒(méi)有發(fā)現(xiàn)新關(guān)聯(lián),則在方框101中增加共同觀察計(jì)數(shù)器的值。
圖10顯示本發(fā)明的系統(tǒng)在方框105中如何通過(guò)分配每一個(gè)對(duì)象一個(gè)唯一的數(shù)值識(shí)別碼(長(zhǎng)整數(shù))來(lái)產(chǎn)生一個(gè)或多個(gè)關(guān)聯(lián)以及在方框106中通過(guò)低識(shí)別碼優(yōu)先的方式儲(chǔ)存無(wú)指向性關(guān)聯(lián)。
如圖11所示,在方框110中本發(fā)明的系統(tǒng)在用戶輸入一個(gè)或多個(gè)用于分析的對(duì)象清單后識(shí)別共享的關(guān)聯(lián)。從一個(gè)或多個(gè)輸入清單,在方框112中每一個(gè)對(duì)象的所有關(guān)聯(lián)被編輯至單一清單中,且在方框114中關(guān)聯(lián)的對(duì)象根據(jù)頻率予以計(jì)數(shù)并計(jì)算期望值。該期望值取決于等同于對(duì)象間非無(wú)意義關(guān)聯(lián)的對(duì)象同現(xiàn)的可能性。
如圖12所示,本發(fā)明的系統(tǒng)接著從所輸入的信息中識(shí)別隱含的關(guān)聯(lián)。如前所述,在方框120中,用戶或自動(dòng)化系統(tǒng)輸入用于分析的對(duì)象,在方框122中,識(shí)別每一個(gè)對(duì)象所有的直接關(guān)聯(lián)。在方框124中,與對(duì)象直接關(guān)聯(lián)相關(guān)的所有對(duì)象被識(shí)別為隱含的關(guān)聯(lián),且在方框126中,如后詳述,識(shí)別、計(jì)數(shù)與評(píng)分所有通往隱含的相關(guān)對(duì)象的路徑。
共享的隱含關(guān)聯(lián)系如圖13所示被識(shí)別。在此,在方框130中用戶或自動(dòng)化系統(tǒng)輸入一個(gè)或多個(gè)用于分析的對(duì)象列表。在方框132中,識(shí)別每一個(gè)對(duì)象所有的直接關(guān)聯(lián),接著在方框134中,排除低于總體可能關(guān)聯(lián)的x%或低于實(shí)際/期望比例的y%的共享對(duì)象。在方框136中針對(duì)每一個(gè)共享的關(guān)聯(lián)識(shí)別隱含的關(guān)聯(lián)對(duì)象,在方框138中,通過(guò)直接實(shí)際/期望比例與通往隱含對(duì)象的唯一路徑的數(shù)量相乘來(lái)評(píng)分隱含的關(guān)聯(lián)對(duì)象。
圖14顯示本發(fā)明的系統(tǒng)操作中的流程圖。在方框140中,如摘要等數(shù)據(jù)來(lái)源輸入至數(shù)據(jù)庫(kù)中,并在方框141中針對(duì)元對(duì)象予以掃描。若在方框141中未發(fā)現(xiàn)元對(duì)象則接著在方框142中針對(duì)關(guān)聯(lián)掃描該數(shù)據(jù)來(lái)源140,然而,若在數(shù)據(jù)來(lái)源140中發(fā)現(xiàn)元對(duì)象則接著在方框146中將該元對(duì)象儲(chǔ)存至對(duì)象表格中。接著在方框142針對(duì)關(guān)聯(lián)掃描在方框146中所儲(chǔ)存的對(duì)象。若在方框141中未發(fā)現(xiàn)元對(duì)象,則在方框142針對(duì)該關(guān)聯(lián)掃描該數(shù)據(jù)來(lái)源140,若發(fā)現(xiàn)關(guān)聯(lián)則接著在方框144針對(duì)對(duì)象掃描該元對(duì)象,若未發(fā)現(xiàn)關(guān)聯(lián)則該系統(tǒng)接著返回以在方框140輸入另一個(gè)如摘要等的數(shù)據(jù)來(lái)源。若在方框144的對(duì)象掃描成功,則接著在方框145到達(dá)決策樹(shù),其確認(rèn)該知識(shí)引擎是否確定介于對(duì)象間的關(guān)聯(lián),若識(shí)別出關(guān)聯(lián)則在方框149儲(chǔ)存該關(guān)聯(lián),若未識(shí)別出關(guān)聯(lián)則該系統(tǒng)返回到方框140以輸入另一個(gè)摘要。
本發(fā)明的系統(tǒng)總結(jié)數(shù)據(jù)并顯示識(shí)別出的關(guān)聯(lián)的表示。一般采用圖像(如可視的)呈現(xiàn),然而在某些情況中包含其它感官(如聽(tīng)覺(jué)上的呈現(xiàn))上的呈現(xiàn)是有益的。
圖15顯示根據(jù)本發(fā)明的一個(gè)方面的系統(tǒng)所識(shí)別出的分?jǐn)?shù)所得的氟西汀(Prozac_)前6,000個(gè)隱含關(guān)聯(lián)。直接強(qiáng)度由直接關(guān)聯(lián)的數(shù)量來(lái)測(cè)量。強(qiáng)度是兩個(gè)對(duì)象具有同現(xiàn)次數(shù)以及每一個(gè)同現(xiàn)表示非平凡的關(guān)聯(lián)的可能性的函數(shù)。隱含的關(guān)聯(lián)在圖中以零來(lái)表示。
在本發(fā)明的一個(gè)實(shí)施例中,用戶接口允許用戶點(diǎn)選表示隱含的關(guān)聯(lián)的圖表中的區(qū)域及/或線條以瀏覽通過(guò)本發(fā)明的系統(tǒng)所發(fā)現(xiàn)的隱含關(guān)聯(lián)的實(shí)際來(lái)源。可替代的,用戶可選擇指向在該表格中的位置甚至指向該隱含的關(guān)聯(lián)被發(fā)現(xiàn)的原始來(lái)源數(shù)據(jù)中。為增進(jìn)評(píng)分的效率,本發(fā)明的系統(tǒng)甚至可指向篩選出提供高直接強(qiáng)度關(guān)聯(lián)的來(lái)源,以改變信噪比并增加隱含的關(guān)聯(lián)分?jǐn)?shù)。
本發(fā)明的系統(tǒng)還可用以篩選出不相關(guān)或負(fù)向的關(guān)聯(lián)。在該圖表的底部的分?jǐn)?shù)顯示該系統(tǒng)坐落的關(guān)聯(lián)鏈接的數(shù)量,某種意義而言是指該關(guān)聯(lián)向量的強(qiáng)度。在特定閾值之下(該閾值取決于該技術(shù)擁擠的程度、數(shù)據(jù)庫(kù)的容量、來(lái)源的可靠性或影響力、轉(zhuǎn)換至對(duì)象的文本大小等等),該評(píng)分很可能不相關(guān),且因此該用戶關(guān)注的焦點(diǎn)放在高于特定強(qiáng)度的分?jǐn)?shù)閾值的隱含關(guān)聯(lián)上。
處理增加新對(duì)象至本發(fā)明的系統(tǒng)的數(shù)據(jù)庫(kù)中會(huì)使檢索時(shí)間按照反指數(shù)函數(shù)(1/n2,其中n>0)增加。全文掃描所增加的時(shí)間則呈線性增長(zhǎng)。數(shù)據(jù)庫(kù)的容量以及文本的數(shù)量二者均會(huì)持續(xù)的增加。
對(duì)象為基礎(chǔ)的分析大多數(shù)的來(lái)源包含結(jié)構(gòu)上復(fù)雜的數(shù)據(jù)和信息,其具有不同的格式以及未明確定義的標(biāo)準(zhǔn)。另一方面,大多數(shù)的資源提供用于術(shù)語(yǔ)識(shí)別的良好介質(zhì)。
在一個(gè)方面,系統(tǒng)例程撰寫(xiě)成用以處理一些不同文本的格式以將對(duì)象移入對(duì)象關(guān)系數(shù)據(jù)庫(kù)中。在另一方面,依據(jù)本發(fā)明的系統(tǒng)提供一些用以識(shí)別在科學(xué)與技術(shù)中新關(guān)聯(lián)的額外特性。舉例言之,基因項(xiàng)目從涵蓋公認(rèn)基因命名標(biāo)準(zhǔn)的基因組數(shù)據(jù)庫(kù)(Genome Data Base,GDB)與人類基因組命名委員會(huì)(the Human Genome Nomenclaturecommittee,HGNC)數(shù)據(jù)來(lái)源以及Locuslink所取得。產(chǎn)生出針對(duì)所有三個(gè)表格中的項(xiàng)目的超過(guò)13,104官方基因名稱(包括官方名稱)的超過(guò)35,579表列的同義名。關(guān)于遺傳異常(以及潛在的異常)的OMIM項(xiàng)目針對(duì)超過(guò)7,290個(gè)項(xiàng)目編給超過(guò)13,068疾病名稱且是合并的,且包括大多數(shù)的臨床顯型。超過(guò)7,713個(gè)來(lái)自MeSH的小標(biāo)題當(dāng)它們處于″D″主要類別時(shí)被合并且分類為小分子(藥物、代謝物、化學(xué)制品、元素)。若該項(xiàng)目在MeSH″C″分類之下,則該項(xiàng)目被分類為疾病/顯型。所使用的多個(gè)檔案的互聯(lián)網(wǎng)地址在表1中給出。MEDLINE是以可擴(kuò)展標(biāo)記語(yǔ)言格式從NLM取得,并在本地置于計(jì)算機(jī)的73GB硬盤中;副本則保存于可存取的網(wǎng)站。因此,本發(fā)明的系統(tǒng)可集成非結(jié)構(gòu)化文本數(shù)據(jù)(例如來(lái)自科學(xué)期刊的文本)與結(jié)構(gòu)化的數(shù)據(jù)(例如為序列信息;如由微陣列分析所取得的表現(xiàn)數(shù)據(jù);與藥物功效相關(guān)的數(shù)據(jù),介于藥物間的相互影響,關(guān)于藥物與藥物結(jié)合的功效及/或安全數(shù)據(jù);及其它相類似者)二者的評(píng)估。
一些例示的生物技術(shù)的數(shù)據(jù)來(lái)源(如生物技術(shù)、生物醫(yī)學(xué))在下列的表1中列出。
表1顯示許多用以建構(gòu)對(duì)象關(guān)系數(shù)據(jù)庫(kù)的來(lái)源。此外,表1包含額外線上基于文本的來(lái)源,其可提供科學(xué)與技術(shù)的補(bǔ)充數(shù)據(jù)(如同義字或類型)。盡管表1顯示出主要的生物或化學(xué)物質(zhì)數(shù)據(jù)庫(kù),其它許多來(lái)自其它領(lǐng)域的數(shù)據(jù)庫(kù)可作為如同前述般的數(shù)據(jù)來(lái)源。本發(fā)明的系統(tǒng)是動(dòng)態(tài)的,因?yàn)樾庐a(chǎn)生的數(shù)據(jù)庫(kù)在其產(chǎn)生時(shí)可作為本發(fā)明的系統(tǒng)數(shù)據(jù)來(lái)源。同樣的,數(shù)據(jù)來(lái)源可被更新以將加入現(xiàn)有數(shù)據(jù)庫(kù)的新數(shù)據(jù)加以合并。
根據(jù)本發(fā)明的額外的數(shù)據(jù)來(lái)源包括從正在進(jìn)行的實(shí)驗(yàn)中取得的數(shù)據(jù)集合,例如為高產(chǎn)量的篩選試驗(yàn)或微陣列數(shù)據(jù)。在一個(gè)方面,該數(shù)據(jù)來(lái)源包括如寡核苷酸陣列、表現(xiàn)的序列陣列、互補(bǔ)DNA陣列、單一核甘酸陣列、蛋白質(zhì)或縮氨酸陣列、抗體陣列、糖蛋白陣列、組織陣列及其它相類似的生物分子陣列的表現(xiàn)數(shù)據(jù)。該數(shù)據(jù)來(lái)源可包括但不限于如基因名稱、存取號(hào)碼、核酸序列、胺基酸序列、細(xì)胞線號(hào)碼(如美國(guó)標(biāo)準(zhǔn)菌種中心(ATCC)號(hào)碼)、結(jié)合親和力(binding affinity)、修改狀態(tài)、Tm、表現(xiàn)模式、選擇的對(duì)偶基因、微陣列的配位(coordinate)、以及與該陣列接觸的樣本相關(guān)的信息,例如從中取得該樣本的有機(jī)體、細(xì)胞類型、組織類型、譜系、發(fā)展階段、將該樣本曝露至試劑、在該樣本中的細(xì)胞的顯型/型態(tài)、取自于如人類等哺乳動(dòng)物的樣本的患者信息及其它相類似的。自微陣列分析所取得的表現(xiàn)數(shù)據(jù)可予以定性(表現(xiàn)或非表現(xiàn))或定量(關(guān)于表現(xiàn)的層級(jí))。該數(shù)據(jù)可額外地與其它數(shù)據(jù)來(lái)源相關(guān)聯(lián)或鏈接;例如涉及與疾病相關(guān)聯(lián)的多態(tài)序列的數(shù)據(jù)可鏈接至這種數(shù)據(jù),該數(shù)據(jù)涉及多種類型功能、藥物與基因產(chǎn)品相互影響等、在MEDLINE中的信息及/或任何列于上述表1中的數(shù)據(jù)來(lái)源。
同樣的,其它高產(chǎn)量的篩選方式也可提供數(shù)據(jù)來(lái)源,如來(lái)自依據(jù)質(zhì)譜儀的系統(tǒng)的輸出、基于細(xì)胞的試驗(yàn)、轉(zhuǎn)錄試驗(yàn)、鍵合試驗(yàn)、基于螢光共振能量移轉(zhuǎn)(FRET)的試驗(yàn)等等可提供待本發(fā)明的系統(tǒng)評(píng)估的數(shù)據(jù)來(lái)源。
在一個(gè)方面,依據(jù)通過(guò)本發(fā)明的系統(tǒng)關(guān)于對(duì)象間新關(guān)聯(lián)所做出的預(yù)測(cè),所執(zhí)行的實(shí)驗(yàn)以及由該實(shí)驗(yàn)所獲得的數(shù)據(jù)被用作該系統(tǒng)所執(zhí)行的方法的額外數(shù)據(jù)來(lái)源。
由于系統(tǒng)數(shù)據(jù)庫(kù)中的項(xiàng)目針對(duì)文本匹配而不是分類,因此在系統(tǒng)數(shù)據(jù)庫(kù)中的項(xiàng)目可要求額外的格式化。舉例而言,如″盒,三磷酸腺接合(Cassette,ATP-Binding)″優(yōu)選應(yīng)該在摘要中將其寫(xiě)成″三磷酸腺接合盒(ATP-Binding Cassette)″。同樣的,括號(hào)內(nèi)的說(shuō)明,如″色盲(x-linked)綜合癥″依據(jù)文本的輸入可能不會(huì)匹配。這種格式問(wèn)題有必要如后述般予以解決。
由于用于知識(shí)發(fā)現(xiàn)的基于關(guān)鍵詞的方法當(dāng)前尚不可行(在MEDLINE中有超過(guò)四百二十萬(wàn)個(gè)唯一的單詞、單獨(dú)以及僅有的單一關(guān)鍵詞通常在操作上受限制),因此必須利用其它的方法。這種方法限制在不相關(guān)聯(lián)的″the″與″what″術(shù)語(yǔ)上花費(fèi)大量的計(jì)算能力。依據(jù)本發(fā)明的系統(tǒng)將分析集中在預(yù)先定義的對(duì)象上,使得可獲得具有高度具有意義的可能性的關(guān)系。其它自然語(yǔ)言系統(tǒng)通常依據(jù)某些規(guī)則集合提取所有的單詞,然而,由于真實(shí)語(yǔ)言是如此的復(fù)雜因此許多這些系統(tǒng)都已被淘汰。通過(guò)預(yù)先定義對(duì)象集合而非任由該系統(tǒng)無(wú)限制地選擇對(duì)象,僅有來(lái)自對(duì)象清單數(shù)據(jù)庫(kù)所編輯的實(shí)際關(guān)聯(lián)對(duì)象或那些離開(kāi)自動(dòng)化提取系統(tǒng)而以手動(dòng)的或由人工驗(yàn)證的對(duì)象將大幅減少通過(guò)無(wú)意義單詞的鏈接所產(chǎn)生的錯(cuò)誤正向關(guān)聯(lián)。想象若單詞″the″未予以排除的情況,則每一個(gè)對(duì)象均會(huì)鏈接至其它每個(gè)對(duì)象并產(chǎn)生不相關(guān)的關(guān)聯(lián)。重要的是,本發(fā)明的系統(tǒng)并不需要盡可能地消化許多的對(duì)象,而是必須具有表示非常廣泛與普及的使用/關(guān)注的范圍或領(lǐng)域的對(duì)象集合。
利用同現(xiàn)的術(shù)語(yǔ)以徹底識(shí)別潛在的關(guān)聯(lián)依據(jù)本發(fā)明的系統(tǒng)被設(shè)計(jì)成識(shí)別盡可能多的關(guān)聯(lián),這通過(guò)當(dāng)兩個(gè)對(duì)象被觀察到同現(xiàn)于相同的數(shù)據(jù)記錄(如摘要)中時(shí)推定這兩個(gè)對(duì)象間存在潛在的關(guān)聯(lián)。同現(xiàn)在數(shù)據(jù)記錄以及文本擴(kuò)展(如句子)二者中予以計(jì)算,通過(guò)推定兩個(gè)對(duì)象在相同的文本延伸中被提及更有可能表示非平凡的關(guān)聯(lián)。集群同現(xiàn)的對(duì)象以識(shí)別其關(guān)聯(lián)的頻率可通過(guò)產(chǎn)生同現(xiàn)矩陣或通過(guò)顯示詞組如何與其它詞組鏈接的樹(shù)狀圖,或者其它公知的統(tǒng)計(jì)算法來(lái)實(shí)現(xiàn)。
為測(cè)試這種方法,隨機(jī)選出一組25筆MEDLINE記錄(標(biāo)題與摘要)且在每一篇摘要中的對(duì)象同現(xiàn)被人工評(píng)估,以確立其是否共享非平凡的關(guān)聯(lián)。其確認(rèn)出兩個(gè)對(duì)象在相同句子中共同被提及在非平凡的程度上,對(duì)比相同摘要中共同被提及的對(duì)象(58%)更具有與另一個(gè)對(duì)象相關(guān)聯(lián)的可能性(83%)。然而,句子的共同提及具有相對(duì)高的假負(fù)向(false-negagive)率,錯(cuò)失在摘要中43%的非無(wú)意義關(guān)聯(lián)。
觀察到兩種假正向(false-postive)錯(cuò)誤的種類亦即隨機(jī)的與分類的。舉例而言,當(dāng)摘要中的對(duì)象是特定于例如實(shí)驗(yàn)而非研究(如鈉,乙二胺四乙酸),當(dāng)無(wú)關(guān)聯(lián)存在時(shí)(例如″我們?cè)贏與B間未發(fā)現(xiàn)關(guān)聯(lián)″),或當(dāng)包括有推測(cè)信息時(shí)(如″我們假設(shè)在…中可能的角色″)等等時(shí),隨機(jī)假正向錯(cuò)誤會(huì)發(fā)生。然而,隨機(jī)假正向錯(cuò)誤是可以預(yù)測(cè)的;在兩個(gè)對(duì)象間所觀察到的共同提及越多,則隨機(jī)的錯(cuò)誤來(lái)源變得越不重要,這是因?yàn)榧幢汴P(guān)聯(lián)的數(shù)量是不精確的,但關(guān)聯(lián)的存在是正確的。
然而,分類的假正向錯(cuò)誤卻是更有問(wèn)題的;這些錯(cuò)誤會(huì)使介于所觀察到的共同提及間的關(guān)聯(lián)無(wú)效化,而其幾率自1%至100%均有可能。分類的錯(cuò)誤主要發(fā)生在類同形異義字(homonym-like)以及類相似字(polynym-like)的術(shù)語(yǔ)上。同形異義字是指在拼寫(xiě)上相同但具有不同意義的單詞;類同形異義字術(shù)語(yǔ)是指與不需要的單詞相符合但是能夠涵蓋首字母縮略字或縮寫(xiě)字。相似字是相同拼寫(xiě)的首字母縮略字但是具有多重的定義;類相似字術(shù)語(yǔ)就其本身而言涵蓋并非必需單詞的首字母縮略字的符號(hào),但是可用來(lái)指相同群組(如基因)中不同的對(duì)象。
首字母縮略字解析增加精確與喚回(recall)的關(guān)鍵。首字母縮略字、縮寫(xiě)字以及其它形式的單詞或詞組縮寫(xiě)的格式(以下一并稱之為″首字母縮略字″)有助于通訊時(shí)的效率,但是當(dāng)首字母縮略字具有多重定義(亦即是相似字)時(shí)卻混淆了文本挖掘軟件。一些在數(shù)據(jù)來(lái)源MEDLINE中所發(fā)現(xiàn)的混淆的首字母縮略字的例子顯示于表2中。當(dāng)在文獻(xiàn)中首字母縮略字具有不同的意義時(shí),在該數(shù)據(jù)來(lái)源中每一個(gè)定義出現(xiàn)的頻率可通過(guò)唯一首字母縮略字定義百分比(Defination Percentage of unique Acronym;DPA)分?jǐn)?shù)予以評(píng)估。DPA是通過(guò)將用于唯一首字母縮略字的一個(gè)特殊定義的次數(shù)(#)除以用于該首字母縮略字的定義的總次數(shù)(#)來(lái)計(jì)算。
表2.于來(lái)源中混淆的首字母縮略字的例示
在一種實(shí)施例中,為移除首字母縮略字的模糊不清,本發(fā)明的系統(tǒng)執(zhí)行首字母縮略字解析程序代碼。優(yōu)選的是,該程序代碼提供自動(dòng)化的、精確的以及可擴(kuò)展的方法以識(shí)別首字母縮略字定義配對(duì)已被開(kāi)發(fā)。舉例而言,可利用包含在″首字母縮略字解析總體試探″(AcronymResolving General Heuristic;ARGH)軟件中的程序(Wren,J.與Garner,H.針對(duì)在文本中首字母縮略字定義模式的識(shí)別試探關(guān)于全面的首字母縮略字定義字典的自動(dòng)化結(jié)構(gòu)。2000種醫(yī)學(xué)信息的方法,參考以及關(guān)聯(lián)部分將結(jié)合于此作為參考)。
首字母縮略字解析程序允許依據(jù)本發(fā)明的系統(tǒng)解析在文本中作者定義的首字母縮略字的功能。在一個(gè)方面,通過(guò)本發(fā)明的系統(tǒng)執(zhí)行的首字母縮略字解析程序允許包含多個(gè)首字母縮略字定義。優(yōu)選的是,該首字母縮略字解析程序允許針對(duì)可替代的首字母縮略字與定義以及針對(duì)唯一首字母縮略字定義配對(duì)的拼寫(xiě)、語(yǔ)法與用連字符號(hào)連接的變體進(jìn)行關(guān)聯(lián)頻率的識(shí)別。試探的集合定位并精確地識(shí)別首字母縮略字定義配對(duì)的邊界且精練來(lái)源記錄子集合的精確度與喚回。這些子集合(稱之為訓(xùn)練集合)的規(guī)模逐漸增加并接著通過(guò)試探再評(píng)估以確??蓴U(kuò)展性。本發(fā)明的系統(tǒng)的首字母縮略字解析組件可針對(duì)特定的來(lái)源進(jìn)行訂做,以提升精確度。
在一個(gè)方面,本發(fā)明的系統(tǒng)的首字母縮略字解析程序不同于線上首字母縮略字與縮寫(xiě)字定義數(shù)據(jù)庫(kù),其差異之處在于不要求手動(dòng)的編輯與管理(curation)。優(yōu)選的是,本發(fā)明的系統(tǒng)的首字母縮略字解析組件不具有狹窄的范圍,且一般針對(duì)特定來(lái)源予以訂做而不是如同其它程序般包含過(guò)多不同的來(lái)源。此外,由于依據(jù)本發(fā)明的系統(tǒng)必須″決定″哪一個(gè)首字母縮略字將要求解析,因此每當(dāng)在關(guān)聯(lián)建立之前首字母縮略字出現(xiàn)于文本中時(shí),依據(jù)本發(fā)明的首字母縮略字解析系統(tǒng)標(biāo)示在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的首字母縮略字,其主要意義由90%以下針對(duì)另外的首字母縮略字解析所識(shí)別出的定義所構(gòu)成。
其它自動(dòng)化的方法/程序預(yù)先定義首字母縮略字看起來(lái)應(yīng)該像什么,接著針對(duì)其識(shí)別撰寫(xiě)規(guī)則。舉例而言,其它的程序可能要求首字母縮略字以字母開(kāi)頭,且包含特定字符長(zhǎng)度(如三至六個(gè)字符長(zhǎng)度)。這種程序通常接著測(cè)量該預(yù)先定義的規(guī)則集合的精確度與喚回。優(yōu)選的是,依據(jù)本發(fā)明的系統(tǒng)執(zhí)行首字母縮略字解析程序以識(shí)別盡可能多的首字母縮略字以助于試探減少假正向的數(shù)量。在使用本發(fā)明的首字母縮略字解析程序幾回合后,持續(xù)追蹤假正向與假負(fù)向率,進(jìn)一步精練首字母縮略字的解析且可用于如具有超過(guò)一千二百萬(wàn)筆摘要的MEDLINE等的極大數(shù)量的來(lái)源。
優(yōu)選的是,通過(guò)本發(fā)明的系統(tǒng)所執(zhí)行的首字母縮略字解析程序不會(huì)針對(duì)首字母縮略字定義配對(duì)預(yù)先定義模式。在一個(gè)方面,該程序由右自左的移動(dòng)方式貫穿文本,將首字母縮略字中所發(fā)現(xiàn)的連續(xù)字母與首字母縮略字定義清單的定義中的字母相匹配,接著再利用試探集合以區(qū)別有效與無(wú)效模式匹配。此外,優(yōu)選的是,該首字母縮略字解析程序關(guān)于定義與首字母縮略字的長(zhǎng)度僅要求非常寬松的長(zhǎng)度限制(如可到達(dá)255個(gè)字符長(zhǎng)度),且為取代在匹配模式中使用要被跳過(guò)的″無(wú)關(guān)重要的單詞(noise word)″清單,本發(fā)明的程序僅提供有限數(shù)量的非匹配中間單詞(如″rats″用作″Sprague-Dawley rats(SD)″時(shí)則被跳過(guò))。
表3顯示在如MEDLINE等科學(xué)與技術(shù)來(lái)源中的首字母縮略字是如何予以構(gòu)建的部分例示。在此,審查100篇摘要的樣本并識(shí)別出多個(gè)首字母縮略字以及縮寫(xiě)字。這些字被識(shí)別為″術(shù)語(yǔ)″。術(shù)語(yǔ)接著被分類至一個(gè)或兩個(gè)主要類型類首字母縮略字(類型I)以及類縮寫(xiě)字(類型II)。每個(gè)類型還包含多個(gè)定義為子集合的變體。舉例而言,類型IIa通過(guò)利用以非連續(xù)的順序定義字母的方式脫離標(biāo)準(zhǔn)構(gòu)建縮寫(xiě)字的方法。表3還顯示每一種類型的關(guān)聯(lián)頻率。
在一個(gè)方面,首字母縮略字解析程序定義通過(guò)相應(yīng)的定義將首字母縮略字定義為任何單詞或詞組的縮寫(xiě),而不是實(shí)際上的純粹符號(hào)。鉀(K)與銀(Ag)是純粹符號(hào)的表示的例示,因?yàn)橛脕?lái)表示這些單詞的這些符號(hào)并非取自該單詞本身。從首字母縮略字本身所代表的單詞與符號(hào)的參考相結(jié)合取得的首字母縮略字不視為有效的首字母縮略字(如triiodothyronine″T3″)。定義與首字母縮略字也不超過(guò)255個(gè)字符長(zhǎng)度。此外,精確率和喚回率的分類精確率(真正向/(真正向+假正向)),分類喚回率(真正向/(真正向+假負(fù)向))以及每一個(gè)識(shí)別事件(per-identification-event)率被確定。
″分類率″是指數(shù)據(jù)庫(kù)項(xiàng)目并反映來(lái)自來(lái)源(下稱文獻(xiàn))中的集合的已編輯的首字母縮略字定義模式的精確程度與包含。每一個(gè)識(shí)別事件率是指該系統(tǒng)識(shí)別在文本中首字母縮略字定義模式的情況的能力。此二者并不相同,這是因?yàn)橄到y(tǒng)在相對(duì)小的文獻(xiàn)集合中可具有驚人的98%的每一個(gè)識(shí)別事件精確度,因此其適用于自動(dòng)化識(shí)別在文本處理中的術(shù)語(yǔ),但可能無(wú)法勝任自動(dòng)化的構(gòu)建,其原因在于處理的文獻(xiàn)越多,在數(shù)據(jù)庫(kù)中的錯(cuò)誤也不斷累積。
被視為假正向的項(xiàng)目是指包含與首字母縮略字的定義無(wú)關(guān)聯(lián)的單詞。舉例而言,針對(duì)首字母縮略字″IL-2″的定義″interleukin-2″(白細(xì)胞間介素-2)會(huì)被視為假正向錯(cuò)誤。若試探增加排除此項(xiàng)目且該項(xiàng)目是唯一包含針對(duì)″IL-2″的定義″interleukin-2″,此排除會(huì)影響分類喚回。然而,如果該試探排除此項(xiàng)目但沒(méi)有其它包含針對(duì)″IL-2″的有效的定義,其僅會(huì)降低每一個(gè)識(shí)別事件喚回。如針對(duì)″IL-2″的定義″interleukin-2 gene(基因)″將不會(huì)被視為錯(cuò)誤,即便該單詞″gene″并不由該首字母縮略字中的任何符號(hào)予以表示,其直接與何謂″IL-2″的描述關(guān)聯(lián)且可被視為定義變體。最后,僅由軟件識(shí)別錯(cuò)誤所造成的項(xiàng)目被視為假正向。舉例言之,針對(duì)″IL-2″的定義″interleukin-2″最可能為拼寫(xiě)錯(cuò)誤,但其也可為有效的變體(如″armor″與″armour″的比較)。這種拼寫(xiě)變體在根據(jù)本發(fā)明的系統(tǒng)容許范圍內(nèi)。
依據(jù)本發(fā)明的一個(gè)方面,用于首字母縮略字解析程序中的試探集合在表4與5中總結(jié)。表4顯示用以定位首字母縮略字定義配對(duì)及其界線的試探。在該表所示的實(shí)施例中,試探的集合累積地施加于記錄的批次中(在此實(shí)施例中,是指MEDLINE標(biāo)題與摘要)以識(shí)別首字母縮略字定義模式。當(dāng)該數(shù)據(jù)庫(kù)的容量增加時(shí),在首字母縮略字定義模式被構(gòu)建的方法中可觀察到更多的變體,要求增加新的試探以提升整體精確度。額外規(guī)則的假負(fù)向會(huì)被報(bào)告成有多少額外有效的項(xiàng)目被排除于數(shù)據(jù)庫(kù)外。
表4.用于定位首字母縮略字的基本試探
表5顯示用以減少于大規(guī)模來(lái)源中錯(cuò)誤率的試探,亦即該來(lái)源具有超過(guò)一百萬(wàn)個(gè)數(shù)據(jù)集合,如記錄等。如表4所示當(dāng)用于識(shí)別首字母縮略字定義模式的基本測(cè)試在較小的數(shù)據(jù)集合操作良好,當(dāng)更多的文本被分析時(shí),在構(gòu)建這些模式中的變化性最終會(huì)降低該分類的精確度(正確項(xiàng)目的數(shù)量(#)/項(xiàng)目的總數(shù)量(#))。對(duì)表5而言,在1,000,000筆MEDLINE記錄中識(shí)別出超過(guò)153,616個(gè)唯一首字母縮略字定義模式。發(fā)現(xiàn)大約133,031個(gè)唯一首字母縮略字定義模式是有效的項(xiàng)目。
表5.為減少錯(cuò)誤率開(kāi)發(fā)的試探
表5還顯示處理取自國(guó)家醫(yī)學(xué)圖書(shū)館所有可擴(kuò)展標(biāo)記語(yǔ)言格式的記錄的結(jié)果,表示更新至2002年2月的總數(shù)12,037,763筆的記錄(37.3GB的大小)。由總數(shù)6,418,919篇摘要中,依據(jù)本發(fā)明的首字母縮略字處理模塊識(shí)別出4,562,567個(gè)首字母縮略字定義模式,其中98.8%發(fā)現(xiàn)于形式定義(首字母縮略字)中而其它1.2%則發(fā)現(xiàn)于形式首字母縮略字(定義)中。從這些模式中產(chǎn)生出737,330筆記錄的數(shù)據(jù)庫(kù),其包含174,940個(gè)唯一的首字母縮略字/縮寫(xiě)字(下稱″首字母縮略字″)以及638,976個(gè)唯一的定義。在該唯一首字母縮略字中,63,440個(gè)(36%)首字母縮略字與超過(guò)一個(gè)定義產(chǎn)生關(guān)聯(lián),且62,974個(gè)定義(10%)與超過(guò)一個(gè)首字母縮略字產(chǎn)生關(guān)聯(lián)。
為評(píng)估每一個(gè)數(shù)據(jù)庫(kù)項(xiàng)目的總體精確度,500筆記錄的3個(gè)隨機(jī)子集合通過(guò)產(chǎn)生隨機(jī)記錄識(shí)別號(hào)碼所選出。每一個(gè)子集合識(shí)別出分別為19,15或18個(gè)假正向錯(cuò)誤。因此該總體分類精確率是每個(gè)項(xiàng)目96.5%±0.4%。通過(guò)觀察排除的唯一首字母縮略字定義模式的數(shù)量,該分類喚回率評(píng)估為92.8%。為驗(yàn)證此評(píng)估的精確度,因此通過(guò)利用非主題關(guān)鍵詞″determined″、″below″以及″set″檢索PubMed收集到100篇隨機(jī)摘要中額外的3個(gè)集合(不同于前面的集合)。針對(duì)每一個(gè)集合在標(biāo)題與摘要中以任何方法所定義的首字母縮略字?jǐn)?shù)量如同相應(yīng)的首字母縮略字定義配對(duì)的存在般以人為方式予以確認(rèn)。針對(duì)該集合的識(shí)別的/存在的首字母縮略字定義配對(duì)的比例分別為139/152(94.1%),101/105(96.1%)以及86/94(91.5%),產(chǎn)生的總體率為93.0±2.7%。
頻率統(tǒng)計(jì)針對(duì)每一個(gè)在MEDLINE中所發(fā)現(xiàn)的首字母縮略字定義模式予以編輯;該統(tǒng)計(jì)用于線上接口以依據(jù)其相對(duì)多的數(shù)量排序首字母縮略字或定義。頻率統(tǒng)計(jì)的使用允許用戶在缺乏額外信息的情況中可快速的識(shí)別首字母縮略字/定義是更加共同的或可能是隱含的。頻率排列還可用以識(shí)別優(yōu)選的或″標(biāo)準(zhǔn)″的拼寫(xiě)、連字符連接或語(yǔ)法的變體。每一個(gè)首字母縮略字或定義最早出現(xiàn)的日期也包括于該數(shù)據(jù)庫(kù)中(用于歷史觀察,數(shù)量或變體增長(zhǎng)的分析)。
圖16A與圖16B顯示對(duì)象與關(guān)聯(lián)的分布。在該數(shù)據(jù)庫(kù)中僅有相對(duì)小的對(duì)象部分是直接相關(guān)的,而大量的關(guān)聯(lián)是隱含的(圖16A)。實(shí)際上,在數(shù)據(jù)庫(kù)中大多數(shù)的對(duì)象不是直接便是隱含地與其它對(duì)象相關(guān)聯(lián)。這種本質(zhì)上的特性突顯需要一種方法來(lái)評(píng)分隱含關(guān)聯(lián)并將其潛在關(guān)聯(lián)予以排列。在原始文本中缺乏定義的情況下,首字母縮略字明確地與所期望的定義產(chǎn)生關(guān)聯(lián)的機(jī)會(huì)很少。由于這種關(guān)聯(lián),因此知悉給定的首字母縮略字與特定定義產(chǎn)生關(guān)聯(lián)的可能性是重要的,反之亦然。為產(chǎn)生這種關(guān)聯(lián),計(jì)算唯一首字母縮略字定義百分比以及唯一定義首字母縮略字百分比(Acronym Percentage of unique Definition;APD)在缺乏明確定義的情況下作為評(píng)估特定首字母縮略字與特定定義產(chǎn)生關(guān)聯(lián)的可能性的方法。
表6顯示具有大量的可替代定義的首字母縮略字,提供在數(shù)據(jù)庫(kù)中兩個(gè)最通常的定義及其唯一首字母縮略字定義百分比分?jǐn)?shù)。如″CT″等部分的首字母縮略字顯著地與一個(gè)定義(或其變體)產(chǎn)生關(guān)聯(lián),而其它如″PA″則非如此。如表6所示,該不明確性通過(guò)定義致使首字母縮略字的產(chǎn)生。在MEDLINE中,一些首字母縮略字具有許多不同的定義(相似字)。表6包括十個(gè)最不明確的首字母縮略字,其中的許多具有最少的字母結(jié)合數(shù)量以表示其本身。該唯一首字母縮略字定義百分比核心提供在缺乏定義的情況下量化的評(píng)估首字母縮略字特別與定義產(chǎn)生關(guān)聯(lián)的可能性。
表6.具有相似字的首字母縮略字
表6顯示多個(gè)首字母縮略字可針對(duì)在來(lái)源中一個(gè)唯一的定義而存在。首字母縮略字可用不同的方法通過(guò)定義予以產(chǎn)生,在首字母縮略字與定義產(chǎn)生唯一的關(guān)聯(lián)的情況下增加不同種類的不確定性。表7顯示十個(gè)具有最多數(shù)量的首字母縮略字及/或縮寫(xiě)字的定義及其唯一定義首字母縮略字百分比分?jǐn)?shù),提供對(duì)于一個(gè)特定的首字母縮略字用以表示一個(gè)唯一的定義的頻率的評(píng)估。需注意的是唯一定義首字母縮略字百分比分?jǐn)?shù)并不考慮在表示其它的定義的情況中的首字母縮略字的不明確性。舉例而言,″BG″被定義為beta-glucuronidase 40次以及Blood-Glucose 199次。
表7.針對(duì)一個(gè)唯一定義的多個(gè)首字母縮略字的例示
DPA分?jǐn)?shù)。DPA有助于評(píng)估首字母縮略字有多少不明確性(在缺乏定義的情況下)。然而,當(dāng)定義具有廣泛的拼寫(xiě)、連字符連接模式或語(yǔ)法變體時(shí)該DPA分?jǐn)?shù)是受限的。舉例而言,在單一數(shù)據(jù)庫(kù)中″JNK″具有77種不同的定義,但全部都是定義″c-Jun N-terminal kinase″方面的變體。對(duì)于這一首字母縮略字而言,針對(duì)最常見(jiàn)的定義具有41.6%的DPA分?jǐn)?shù)會(huì)給予深刻的印象認(rèn)為″JNK″具有可替代的定義,而事實(shí)上卻不是如此。作為這一問(wèn)題的部分解釋,產(chǎn)生首字母縮略字解析數(shù)據(jù)庫(kù)的″去梗(stemmed)″版本。這里多個(gè)字尾、空格以及標(biāo)點(diǎn)符號(hào)均已移除。去梗法將唯一定義的數(shù)量減少至540,821個(gè)(原始數(shù)量的85%);對(duì)于如″JNK″的部分項(xiàng)目而言,其第二個(gè)最常見(jiàn)的定義是″c-JUNNH2-terminal kinase″,其并未減少該唯一定義的數(shù)量。之后遂開(kāi)發(fā)出用以校準(zhǔn)該定義并比較相似分?jǐn)?shù)的例程,且發(fā)現(xiàn)一般來(lái)說(shuō)是有用的(請(qǐng)參閱表8)。然而,該例程無(wú)法區(qū)別次要變體對(duì)于定義的意義有關(guān)鍵影響的情況(請(qǐng)參閱表9)。雖然如此,該例程通過(guò)其語(yǔ)義學(xué)上的變體匹配概念上相同的定義。該例程允許確認(rèn)在單一連續(xù)的文本區(qū)段中是否存有差異且另外是否在與其長(zhǎng)度給定的百分比相等。因此,關(guān)于相同意義的術(shù)語(yǔ)可被評(píng)估。
表8.用于校準(zhǔn)定義的例程
文本要求以及篩選無(wú)意義的單詞當(dāng)處理直接文本的比較時(shí),文本單詞的大寫(xiě)模式是重要的。舉例而言,在科學(xué)及技術(shù)數(shù)據(jù)庫(kù)中,并非所有的基因名稱均為大寫(xiě)(如alpha-2-microglobulin);然而,若該文本單詞是句子的起始則會(huì)被強(qiáng)制地予以大寫(xiě)。此外,部分大寫(xiě)模式在通過(guò)數(shù)據(jù)庫(kù)所提供的對(duì)象與呈現(xiàn)于文本中的對(duì)象間是不一致的。因此,在一個(gè)方面,依據(jù)本發(fā)明的系統(tǒng)在小寫(xiě)的情況中處理所有的單詞比較。
在表10中所示是五個(gè)匹配通用單詞的基因名稱,且是具有通過(guò)PubMed詢問(wèn)所響應(yīng)的最多項(xiàng)目的基因。這五個(gè)基因單詞與常見(jiàn)單詞共享相同的拼寫(xiě)。在文本掃描期間,這種類型的錯(cuò)誤可通過(guò)檢查大寫(xiě)型態(tài)予以修正。
表10.基因名稱與單詞的匹配
為確認(rèn)該大寫(xiě)模式是否存在于單詞中,可自古騰堡電子書(shū)計(jì)劃(Project Gutenberg)中消化韋氏(Merriam-Webster;MW)字典。盡管任何文本單詞的來(lái)源(如國(guó)際性雜志)均可操作,但是以電子形式存在的來(lái)源更有助益。將在對(duì)象關(guān)系數(shù)據(jù)庫(kù)中與來(lái)自韋氏字典的項(xiàng)目匹配的單詞予以標(biāo)示,使得當(dāng)在文本中被識(shí)別出來(lái)時(shí),其大寫(xiě)模式會(huì)通過(guò)在對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的單詞予以檢查。在少數(shù)的情況中,本發(fā)明的方法仍然會(huì)產(chǎn)生重復(fù)/不規(guī)則(表11)。就一般而言,本發(fā)明的方法顯示與″共同″單詞(如通過(guò)韋氏字典所定義者)相同的術(shù)語(yǔ)的數(shù)量如表12所示隨著每一個(gè)來(lái)源而變化。
表11.對(duì)象關(guān)系數(shù)據(jù)庫(kù)匹配
表12.來(lái)自不同來(lái)源的常見(jiàn)單詞
在韋氏字典中所發(fā)現(xiàn)的全部150,922個(gè)單詞被消化至數(shù)據(jù)庫(kù)中,并與表12中所使用的來(lái)源中每一個(gè)單一的單詞項(xiàng)目相比較。通過(guò)處理該比較,那些要求大寫(xiě)檢查的項(xiàng)目被視為有效且可發(fā)現(xiàn)那些不顧大寫(xiě)而具有與常見(jiàn)單詞相混淆的高可能性的項(xiàng)目。
術(shù)語(yǔ)變化與識(shí)別如前所述,許多在來(lái)源中或來(lái)源間具有多種的拼寫(xiě)方式。此外,部分術(shù)語(yǔ)被指定仍然被識(shí)別/用作其它術(shù)語(yǔ)的首字母縮略字或縮寫(xiě)字的官方縮寫(xiě)字或符號(hào)。舉例言之,人類基因組命名委員會(huì)(HGNC)為每一個(gè)基因指定官方的名稱以避免符號(hào)的重復(fù);然而,許多″符號(hào)″在一個(gè)或多個(gè)記錄中仍然具有同義字或與其它用于/輸入至數(shù)據(jù)庫(kù)中的通用縮寫(xiě)字、符號(hào)、首字母縮略字同義者(請(qǐng)參閱表13)。
表13.同時(shí)作為主要名稱的符號(hào)
符號(hào)(如縮寫(xiě)字、首字母縮略字、官方名稱)隨著時(shí)間改變或發(fā)展并非罕見(jiàn);然而,較早的記錄并未針對(duì)這些發(fā)展更新為″正確″。此會(huì)證明在術(shù)語(yǔ)的正確識(shí)別中產(chǎn)生問(wèn)題。如表14所示的是在MEDLINE中所觀察到與特定定義相關(guān)聯(lián)的特定″符號(hào)″的次數(shù)。對(duì)如″TNFR2″等首字母縮略字而言,副本還可通過(guò)在比較產(chǎn)生前擴(kuò)展交疊的首字母縮略字(如TNF)至整個(gè)定義中并確認(rèn)是否有兩個(gè)定義相等的方式而予以部分地解決。若兩個(gè)術(shù)語(yǔ)仍然不相同,例如具有定義″TNF-receptor type 2″的情況,一種不完整的解決方式是如同前述般″校準(zhǔn)″該不同的定義。
表14.符號(hào)與定義的關(guān)聯(lián)
利用MEDLINE作為知識(shí)來(lái)源的分析在一實(shí)施例中,依據(jù)本發(fā)明的系統(tǒng)被用來(lái)處理來(lái)自MEDLINE(下稱″來(lái)源″;從1967年至2002年一月的記錄)的12,037,763筆文本記錄并用以產(chǎn)生介于數(shù)據(jù)庫(kù)中的對(duì)象間3,482,204個(gè)唯一關(guān)聯(lián)的網(wǎng)絡(luò)。在該數(shù)據(jù)庫(kù)中大約2/3的對(duì)象發(fā)現(xiàn)精確的文字匹配,在該數(shù)據(jù)庫(kù)中33,539個(gè)唯一的對(duì)象(當(dāng)包括同義字時(shí)總術(shù)語(yǔ)為85,234個(gè))中的22,482個(gè)識(shí)別出至少一個(gè)關(guān)聯(lián)。
作為對(duì)象識(shí)別基礎(chǔ)的項(xiàng)目在一個(gè)方面,系統(tǒng)的喚回率通過(guò)選取自MEDLINE的記錄集合(亦即,檢閱文獻(xiàn))予以評(píng)估。從本發(fā)明的系統(tǒng)的關(guān)聯(lián)對(duì)象數(shù)據(jù)庫(kù)中所隨機(jī)選出四個(gè)對(duì)象表示每一種對(duì)象類型的一種,其選擇的規(guī)則是至少兩個(gè)MEDLINE記錄(檢閱文獻(xiàn))在最近三年中關(guān)于該對(duì)象。接著選擇2至3個(gè)檢閱文獻(xiàn)記錄的集合,以及編輯所有其它對(duì)象的清單,其中該清單具有任何與原始詢問(wèn)對(duì)象非平凡的關(guān)聯(lián)。僅有相同類型如同那些在集中的數(shù)據(jù)庫(kù)中的對(duì)象般的對(duì)象會(huì)被計(jì)算在內(nèi)(如基因、疾病、顯型以及小分子)。檢閱文獻(xiàn)記錄針對(duì)CTLA-4(基因)、Fragile-X Syndrome(疾病)、cachexia(臨床顯型)以及dynorphin(小分子)予以選擇。由每一個(gè)記錄集合所產(chǎn)生的清單接著與通過(guò)本發(fā)明的系統(tǒng)在處理所有的MEDLINE之后所識(shí)別出的關(guān)聯(lián)相比較。
如表15所示,包含在該關(guān)聯(lián)系統(tǒng)數(shù)據(jù)庫(kù)中的對(duì)象顯示在前述所選出的記錄中所發(fā)現(xiàn)的這些類型的對(duì)象的總數(shù)的78%(141/181)。在此,在該MEDLINE記錄中的關(guān)聯(lián)與選定的記錄中的對(duì)象間相關(guān)關(guān)聯(lián)比較。在文獻(xiàn)中提及但未在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)的40個(gè)對(duì)象中,是2個(gè)疾病、9個(gè)顯型、7基因以及22個(gè)小分子。該2個(gè)疾病名稱(Graves’Opthalamopathy以及Relapsing-remitting ExperimentalAutoimmune Encephalomyelitis)及9個(gè)顯型則未在OMIM中提及。這些顯型中的其中三個(gè)證明是介于該OMIM與MEDLINE間語(yǔ)義學(xué)上差異的結(jié)果(亦即″rocking″與″body-rocking″;″greater interoculardistance″與″increased interocular distance″以及″fetalakinesia″與″akinesia″)。有趣的是,就小分子分類而言,在MEDLINE中提及的許多的化學(xué)物質(zhì)與藥物(如DAMGO、DADLE、isoprenaline)并未在其MeSH樹(shù)狀數(shù)據(jù)庫(kù)中發(fā)現(xiàn)。
表15.通過(guò)本發(fā)明的系統(tǒng)用以識(shí)別相關(guān)關(guān)聯(lián)的數(shù)據(jù)庫(kù)對(duì)象
進(jìn)一步的分析顯示在該MEDLINE記錄中所引用的141筆數(shù)據(jù)庫(kù)對(duì)象中與集中詢問(wèn)對(duì)象之一相關(guān)聯(lián)的17筆未在與該詢問(wèn)對(duì)象相關(guān)的任何MEDLINE標(biāo)題或摘要中被提及。其中的9個(gè)因?yàn)槠磳?xiě)/語(yǔ)法上的差異而無(wú)關(guān)聯(lián),其中的1個(gè)因?yàn)楸粯?biāo)示為含糊不清的首字母縮略字且未定義于記錄中(PKI),其中的1個(gè)因?yàn)樵撐墨I(xiàn)檢閱記錄使用的名稱(NFAT)并未用于MEDLINE摘要中,其余的6個(gè)無(wú)關(guān)聯(lián)對(duì)象顯示在檢閱文獻(xiàn)記錄的標(biāo)題/摘要中未提及的關(guān)聯(lián)。從138個(gè)在MEDLINE(亦即標(biāo)題與摘要)中所提及的相關(guān)關(guān)聯(lián),依據(jù)本發(fā)明的一個(gè)方面的系統(tǒng)識(shí)別出其中的127個(gè),證明關(guān)于識(shí)別在文本的輸入中的數(shù)據(jù)庫(kù)對(duì)象的概念上的出現(xiàn)具有92%的喚回率。
就識(shí)別在MEDLINE中不同對(duì)象類型間有意義的關(guān)聯(lián)而論,本發(fā)明的系統(tǒng)以70%(127/181)評(píng)估喚回率(識(shí)別于領(lǐng)域中相關(guān)的關(guān)聯(lián))的識(shí)別出這些視為相關(guān)關(guān)聯(lián)中的78%(141/181)。
該FNs(亦即于文本中未識(shí)別出的對(duì)象)通常被發(fā)現(xiàn)有分類錯(cuò)誤(如MeSH項(xiàng)目5,8,11,14,17-Eicosapentaenoic Acid在MEDLINE中幾乎總是被簡(jiǎn)化視為eicosapentaenoic acid)。失敗在其比率上有所變化。舉例言之,JNK有81種不同的拼寫(xiě)方式,包括″c-Jun N-terminalkinase″(605次)、″c-Jun NH2-terminal kinase″(154次)以及″c-Junamino-terminal kinase″(62次)。
評(píng)分評(píng)分機(jī)制依據(jù)在網(wǎng)絡(luò)中關(guān)聯(lián)的統(tǒng)計(jì)特性予以發(fā)展。如圖所述,每一個(gè)對(duì)象所識(shí)別出的關(guān)聯(lián)數(shù)量按照指數(shù)遞減分布(圖16A),指示出在來(lái)源中對(duì)象術(shù)語(yǔ)高度不平衡的分布。以MEDLINE來(lái)源作為示例,鈉被發(fā)現(xiàn)是被提及最多的對(duì)象。發(fā)現(xiàn)到至少一次在相同摘要中具有8,868個(gè)其它對(duì)象(所有識(shí)別出的對(duì)象的-40%)。利用其作為關(guān)聯(lián)網(wǎng)絡(luò),可呈現(xiàn)出每一個(gè)對(duì)象直接關(guān)聯(lián)數(shù)量與純粹間接(隱含的)關(guān)聯(lián)的數(shù)量的比較(圖16B)。所呈現(xiàn)的特性顯示當(dāng)該直接關(guān)聯(lián)數(shù)量增加時(shí),隱含關(guān)聯(lián)的數(shù)量快速地接近理論上的極大值,亦即在該網(wǎng)絡(luò)中節(jié)點(diǎn)的總數(shù)量。即使具有相對(duì)少數(shù)的直接關(guān)聯(lián)的對(duì)象仍然會(huì)與網(wǎng)絡(luò)中絕大多數(shù)的對(duì)象產(chǎn)生隱含關(guān)聯(lián)。當(dāng)這種高程度的隱含關(guān)聯(lián)至少就某種程度上而言歸結(jié)于部分如鈉等的對(duì)象與極大量的術(shù)語(yǔ)產(chǎn)生關(guān)聯(lián)時(shí),這種情況也顯示出隱含關(guān)聯(lián)實(shí)際上是如何的無(wú)價(jià)值。
因此,在識(shí)別具有潛在價(jià)值的新關(guān)聯(lián)中最重要的挑戰(zhàn)依賴于關(guān)聯(lián)以及對(duì)每一個(gè)隱含關(guān)聯(lián)的關(guān)聯(lián)指定。此外,本發(fā)明的系統(tǒng)必須能夠確認(rèn)在網(wǎng)絡(luò)的上下文中共享關(guān)聯(lián)的相關(guān)性(作為唯一性的測(cè)量)以及其連接的特性。
就兩個(gè)對(duì)象間直接的關(guān)聯(lián)而言,有一個(gè)簡(jiǎn)單的方法依據(jù)所評(píng)估的錯(cuò)誤率以及同現(xiàn)的頻率指定強(qiáng)度分?jǐn)?shù)給每一個(gè)關(guān)聯(lián)。同現(xiàn)的出現(xiàn)愈頻繁的術(shù)語(yǔ)更有可能表示有效的關(guān)聯(lián);因此,對(duì)象關(guān)聯(lián)依據(jù)所觀察到的共同提及類型與數(shù)量(亦即摘要與句子相比)及其相應(yīng)的錯(cuò)誤率來(lái)指定分?jǐn)?shù)。
套用改編自圖論的術(shù)語(yǔ),對(duì)象可被視為″節(jié)點(diǎn)″而關(guān)聯(lián)(共同引用或同現(xiàn))則被視為″連接″,亦如同所知的介于節(jié)點(diǎn)間的″邊″。隱含的關(guān)聯(lián)節(jié)點(diǎn)(C)被定義為與詢問(wèn)節(jié)點(diǎn)(A)無(wú)直接關(guān)聯(lián),也連接至一個(gè)或多個(gè)同時(shí)連接至A的中間節(jié)點(diǎn)(B)。為評(píng)估隱含的關(guān)聯(lián)節(jié)點(diǎn)的潛在重要性,由詢問(wèn)節(jié)點(diǎn)A與隱含節(jié)點(diǎn)C二者所共享的i節(jié)點(diǎn)(Bi)集合可與隨機(jī)網(wǎng)絡(luò)模型進(jìn)行比較。因?yàn)楣?jié)點(diǎn)A是被關(guān)注的且與A相關(guān)的文獻(xiàn)與集合Bi中的所有節(jié)點(diǎn)有所關(guān)聯(lián),可確認(rèn)介于Bi與C間偶然出現(xiàn)的關(guān)聯(lián)的數(shù)量。舉例而言,若C與1000個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)中每一個(gè)節(jié)點(diǎn)均有關(guān)聯(lián)且A在此網(wǎng)絡(luò)中具有100個(gè)連接,則其所有的聯(lián)接與C共享,此是可以期待的且因此不容許有例外的。因此,將所觀察到介于Bi與C間連接的數(shù)量(Obs)除以期望偶然產(chǎn)生的連接數(shù)量(Exp)提供反映出共享的連接在統(tǒng)計(jì)上的重要性的數(shù)值。
該數(shù)值允許確認(rèn)連接集合的潛在關(guān)聯(lián)的評(píng)估。舉例而言,若鏈接疾病(A)至化學(xué)物質(zhì)(C)的連接集合包含高度常見(jiàn)的節(jié)點(diǎn),如″鈉″與″癥狀″,無(wú)論真實(shí)與否,這些充分模糊的連接類型對(duì)于科學(xué)人士假設(shè)A與C如何通過(guò)此中介而具有令人關(guān)注與特定的連接方面無(wú)多大的助益。若該共享的連接包含特定的轉(zhuǎn)運(yùn)體或基因,且其不會(huì)如此頻繁的在文獻(xiàn)中被提及,則假設(shè)(C)的特定作用是如何產(chǎn)生(A)會(huì)變得更容易。
在A與B間的關(guān)聯(lián)是錯(cuò)誤的幾率以兩個(gè)對(duì)象共同提及的次數(shù)n以及與用以建立該關(guān)聯(lián)的共同提及相關(guān)的隨機(jī)錯(cuò)誤率r的函數(shù)來(lái)表示,該函數(shù)系P(錯(cuò)誤)=rn(1)因此,該關(guān)聯(lián)有效的幾率可表示為P(有效)=1-rn(2)關(guān)聯(lián)的強(qiáng)度可被看作所觀察到的次數(shù)以及每一個(gè)觀察為錯(cuò)誤的集合幾率的函數(shù)。因?yàn)閮蓚€(gè)不同關(guān)聯(lián)測(cè)量計(jì)算如下句子共同提及(Cs),以及摘要共同提及(Ca),總體關(guān)聯(lián)強(qiáng)度分?jǐn)?shù)(S)分別取決于各自的錯(cuò)誤率,rs(17%假正向)以及ra(42%假正向),而成為以下的公式S=Cs×(1-rs)+Ca×(1-ra) (3)就隱含關(guān)聯(lián)而言其不具有明確的與表示有效關(guān)聯(lián)的幾率有關(guān)聯(lián)的統(tǒng)計(jì)參數(shù);然而,可以假設(shè)隱含關(guān)聯(lián)(A-B-C)有效的幾率不會(huì)大于鏈接其的兩個(gè)獨(dú)立關(guān)聯(lián)(A-B或B-C)的最低可能性。因此,符號(hào)″_″定義為介于兩個(gè)對(duì)象間無(wú)指向性關(guān)聯(lián)的存在,其被評(píng)估如下P(A_C)≤P(A_B)*P(B_C) (4)提供針對(duì)關(guān)聯(lián)與隱含關(guān)聯(lián)的集合的控制以確認(rèn)對(duì)象的分組是否有意義是重要的。盡管證明部分強(qiáng)有力的隱含關(guān)聯(lián),如觀察到具有共同對(duì)象″癌″的許多共享關(guān)聯(lián)并不具有意義很困難,唯一性的測(cè)量仍可依據(jù)在該網(wǎng)絡(luò)中每一個(gè)對(duì)象所具有的關(guān)聯(lián)總數(shù)量指派給該關(guān)聯(lián)。假設(shè)一些對(duì)象如圖16A中所示在具有相同關(guān)聯(lián)的網(wǎng)絡(luò)中隨機(jī)地連接,可計(jì)算出任兩個(gè)對(duì)象具有隱含關(guān)聯(lián)的幾率以及該對(duì)象期望共享多少中間關(guān)聯(lián)。在網(wǎng)絡(luò)中兩個(gè)對(duì)象A與B相互間具有關(guān)聯(lián)的幾率,假設(shè)隨機(jī)的分布,假設(shè)在包含總數(shù)Nt個(gè)節(jié)點(diǎn)的網(wǎng)絡(luò)中已知每一個(gè)對(duì)象分別與KA與KB對(duì)象的總數(shù)相關(guān),則假定的公式如下(A↔B)=1-(1-KANt)*(1-KBNt)...(5)]]>將每一個(gè)獨(dú)立關(guān)聯(lián)的幾率相加,可擴(kuò)展該公式以評(píng)估在集合中的對(duì)象B與另一個(gè)對(duì)象A關(guān)聯(lián)所期望的次數(shù)n,其等式如下P(A↔B1n)Σ1n1-(1-KANt)*(1-KB1nNt)...(6)]]>公式(5)能用來(lái)預(yù)測(cè)兩個(gè)對(duì)象關(guān)聯(lián)的幾率,假定隨機(jī)的連接網(wǎng)絡(luò),通過(guò)分配隨機(jī)的關(guān)聯(lián)數(shù)量(1至10,000)給10,000個(gè)節(jié)點(diǎn)網(wǎng)絡(luò)中兩個(gè)對(duì)象并確認(rèn)這些關(guān)聯(lián)的其中之一是否與該兩個(gè)對(duì)象相關(guān)聯(lián)來(lái)確認(rèn)。其可允許重復(fù)10,000次的執(zhí)行并與關(guān)聯(lián)的期望數(shù)量相比較。當(dāng)該集合的大小增加時(shí),其結(jié)果是實(shí)際/期望比例向1.0收斂,證明公式(5)精確地預(yù)測(cè)在這種類型的網(wǎng)絡(luò)中的行為。這可針對(duì)本發(fā)明的系統(tǒng)的自文獻(xiàn)取得的網(wǎng)絡(luò)重復(fù)執(zhí)行,隨機(jī)地選取兩個(gè)對(duì)象,每一個(gè)對(duì)象具有至少一個(gè)在網(wǎng)絡(luò)中的關(guān)聯(lián),并執(zhí)行10,000次,則實(shí)際與期望關(guān)聯(lián)的比例確認(rèn)為0.40。小于1的比例與其關(guān)聯(lián)性并非隨機(jī)的網(wǎng)絡(luò)相一致。
為證實(shí)公式(6)有助于數(shù)量上評(píng)估關(guān)聯(lián)分組,自該數(shù)據(jù)庫(kù)中隨機(jī)產(chǎn)生的對(duì)象集合與期望分享共同組件的對(duì)象集合(利用來(lái)自基因組本體數(shù)據(jù)庫(kù)中特別的本體分類中的基因來(lái)取得)相比較。利用公式(6)計(jì)算在對(duì)象間前十個(gè)最頻繁的共享關(guān)聯(lián)的平均實(shí)際-期望比例,如圖17所示針對(duì)主題集合或集群的比例一貫高于針對(duì)隨機(jī)集合的比例。
通過(guò)兩個(gè)對(duì)象的共享的關(guān)聯(lián)評(píng)估該兩個(gè)對(duì)象的關(guān)聯(lián)性在一個(gè)方面,公式(6)被用來(lái)評(píng)估隱含關(guān)聯(lián)具有多少的特殊性,假定在網(wǎng)絡(luò)中兩個(gè)對(duì)象的每一個(gè)對(duì)象具有相對(duì)多數(shù)的隱含關(guān)聯(lián)。此評(píng)分方法評(píng)估潛在的一種對(duì)象的集合中共享的關(guān)聯(lián)或特性的幾率,在評(píng)估隱含的關(guān)聯(lián)時(shí),通常必須確認(rèn)介于如A與C間的特定關(guān)聯(lián)如何相關(guān)。依據(jù)本發(fā)明的系統(tǒng)允許關(guān)聯(lián)是主觀質(zhì)量(subjective quality)。因此,介于A與C間的關(guān)聯(lián)具有多少的重要性取決于分析、條件、研究等等。通過(guò)評(píng)估已知相關(guān)的關(guān)聯(lián)的定量的統(tǒng)計(jì)特性,其可與被懷疑具有隱含關(guān)聯(lián)的對(duì)象的相同特性相比較。
如圖18A所示,在一些特性中,介于兩個(gè)對(duì)象間的關(guān)聯(lián)強(qiáng)度愈大,其傾向于共享的關(guān)聯(lián)愈多,且如圖18B所示,這些傾向共享的關(guān)聯(lián)的強(qiáng)度愈強(qiáng)。據(jù)此,兩個(gè)對(duì)象共享的關(guān)聯(lián)數(shù)量愈多且這些共享的關(guān)聯(lián)強(qiáng)度愈強(qiáng),則此兩個(gè)對(duì)象愈有可能有所關(guān)聯(lián)。定量的評(píng)估兩個(gè)對(duì)象如何相關(guān)聯(lián)可通過(guò)計(jì)算交疊關(guān)聯(lián)的百分比來(lái)獲得。
本發(fā)明的系統(tǒng)可評(píng)估重要關(guān)聯(lián)共享的比例為何。當(dāng)對(duì)象A與另一個(gè)對(duì)象C間通過(guò)一些中介B而具有隱含的關(guān)聯(lián),若A與C所共享的是強(qiáng)有力而非微弱的關(guān)聯(lián),則可預(yù)測(cè)介于A與C間具有關(guān)聯(lián)的幾率較大。通過(guò)將所有共享關(guān)聯(lián)的總強(qiáng)度除以所有關(guān)聯(lián)的總強(qiáng)度,可以評(píng)估重要關(guān)聯(lián)所共享的比例。在曲線下的區(qū)域可如同該關(guān)聯(lián)的總體強(qiáng)度的積分方式進(jìn)行計(jì)算,借此提供總體強(qiáng)度數(shù)值或向量。該總體強(qiáng)度數(shù)值可針對(duì)由A或C所共享的關(guān)聯(lián)來(lái)計(jì)算,在某種程度上反映出該關(guān)聯(lián)的指向性。舉例而言,心室肥大的發(fā)展與原發(fā)性高血壓的存在非常高的關(guān)聯(lián)。許多與心室肥大共享的關(guān)聯(lián)已知會(huì)促成原發(fā)性高血壓(如基因或顯型)。然而,原發(fā)性高血壓與其它人類狀況亦有所關(guān)聯(lián),如糖尿病、中風(fēng)與肥胖等。與心室肥大共享的關(guān)聯(lián)強(qiáng)度則相應(yīng)地降低。
這種指數(shù)加權(quán)配置的缺點(diǎn)在于高優(yōu)先級(jí)給予少數(shù)包含該曲線最左部分的關(guān)聯(lián),其中許多的關(guān)聯(lián)大致上已經(jīng)是理解的或已經(jīng)被考慮的,因此不是新穎的。如前所述,就某種程度而言,同現(xiàn)的高頻率可以作為關(guān)聯(lián)已知悉多長(zhǎng)的時(shí)間的功能。新的、重要的關(guān)聯(lián)可能不會(huì)有足夠的時(shí)間去累積高頻率的同現(xiàn)。為克服這一缺點(diǎn),該曲線可通過(guò)關(guān)聯(lián)的強(qiáng)度轉(zhuǎn)換成線性的關(guān)聯(lián)排列,以降低且未排除將次數(shù)的相對(duì)重要性視為因素的影響。舉例言之,生物介質(zhì)鈣調(diào)磷酸酶素(calcineurin)是相對(duì)新且重要的負(fù)責(zé)轉(zhuǎn)導(dǎo)由分子所組成的訊號(hào)的因子且其會(huì)導(dǎo)致心室肥大的發(fā)展。在指數(shù)加權(quán)配置下,鈣調(diào)磷酸酶素的相對(duì)貢獻(xiàn)在曲線下的面積為″X″。利用線性排列則提升其相對(duì)貢獻(xiàn)成為″Y″。
一些額外的因素可用以排列關(guān)聯(lián)。舉例而言,額外用以排列結(jié)果的項(xiàng)目可包括鏈接對(duì)象的信息的影響因子或重要性(例如給予來(lái)自″Science″文獻(xiàn)的摘要中所形成的對(duì)象間的連接高于來(lái)自″Journal ofIrreproducible Result″的文獻(xiàn)的權(quán)重),文獻(xiàn)發(fā)表的日期,給予近期連接對(duì)象的文獻(xiàn)優(yōu)先性,關(guān)聯(lián)的強(qiáng)度-以至于若對(duì)象A鏈接至進(jìn)一步鏈接至對(duì)象C的對(duì)象B且每一個(gè)鏈接的強(qiáng)度非常強(qiáng),則其排名會(huì)較A-B-D間(其中B-D的關(guān)聯(lián)薄弱)的關(guān)聯(lián)為高。強(qiáng)度是依據(jù)出現(xiàn)的數(shù)量以及出現(xiàn)的期望數(shù)量。其它的因素還包括但不限于以作者的可信度或作者所在的機(jī)構(gòu)作為排列該作品重要性的方法;由于兩個(gè)分離的文獻(xiàn)集合(如Medline摘要與書(shū)籍)中出現(xiàn)而作關(guān)聯(lián)有效的認(rèn)定。此外,可依據(jù)標(biāo)準(zhǔn)化到在網(wǎng)絡(luò)(文獻(xiàn)數(shù)據(jù)庫(kù))中任何對(duì)象與其它對(duì)象間關(guān)聯(lián)數(shù)量的對(duì)象間關(guān)聯(lián)數(shù)量而定。因?yàn)殛P(guān)聯(lián)是重要的,且可能比網(wǎng)絡(luò)(文獻(xiàn))中所出現(xiàn)的對(duì)象(單詞)的次數(shù)更為重要。在所選定的例示中,本發(fā)明的系統(tǒng)會(huì)依據(jù)標(biāo)準(zhǔn)化至B連接至所有其它對(duì)象的次數(shù)的連接至B以及從B所連接的實(shí)際數(shù)量計(jì)算其排名。舉例而言,對(duì)象″cancer″出現(xiàn)于所有Medline摘要的其中20%篇摘要中,其可用以依據(jù)對(duì)象的使用計(jì)算該實(shí)際/期望比例,但該對(duì)象可連接至Medline中所有不同對(duì)象中的27%,且因此可產(chǎn)生依據(jù)該關(guān)聯(lián)數(shù)量的實(shí)際/期望比例。當(dāng)然,當(dāng)項(xiàng)目在10項(xiàng)以上時(shí),所有后續(xù)的項(xiàng)目,包括其本身在內(nèi)形成由包含所有不同的經(jīng)過(guò)適當(dāng)加權(quán)的標(biāo)準(zhǔn)的代數(shù)排列值所構(gòu)成的基準(zhǔn)。
在一個(gè)方面,關(guān)聯(lián)利用通過(guò)本發(fā)明的系統(tǒng)所執(zhí)行的模糊集合程序來(lái)識(shí)別及排列。傳統(tǒng)上,集合由其成員定義。一個(gè)對(duì)象可具有一個(gè)針對(duì)該集合的隸屬度(μ),若該隸屬度等于1(μ=1)亦即其是該集合的成員或該隸屬度等于零(μ=0),亦即其不是該集合的成員。模糊集合理論可就某些程度(該隸屬度可介于零與一之間(亦即0≤μ≤1))識(shí)別任何可為該集合的對(duì)象,亦即,模糊集合理論識(shí)別在不是總明確界定的集合中的隸屬關(guān)系。
通過(guò)處理包含多個(gè)知識(shí)領(lǐng)域的數(shù)據(jù)來(lái)源,產(chǎn)生暫時(shí)性關(guān)聯(lián)的綜合網(wǎng)絡(luò)允許該對(duì)象集合的關(guān)聯(lián)性可依據(jù)其所共享的關(guān)聯(lián)予以評(píng)估。指定″聚合″的測(cè)量給集合的標(biāo)準(zhǔn)允許研究者推測(cè)實(shí)驗(yàn)的分組是有意義的(假設(shè)經(jīng)過(guò)分組的對(duì)象適當(dāng)?shù)爻霈F(xiàn)在文獻(xiàn)中)。聚合依據(jù)集合的平均實(shí)際/期望分?jǐn)?shù)高于隨機(jī)平均值多少予以確定。當(dāng)用以分析由對(duì)象的集合所共享的關(guān)聯(lián)時(shí),一般的″主題″可伴隨著在清單(如影響基因群組活動(dòng)的藥物)中統(tǒng)計(jì)上的特殊分類予以識(shí)別(如癌、細(xì)胞凋亡(Apoptosis)、糖尿病)。此外,其提供通過(guò)這些成員與該群組總體的關(guān)聯(lián)性以識(shí)別集合中的″遺失成員″的方法。
在一個(gè)方面,本發(fā)明的系統(tǒng)執(zhí)行其本身的評(píng)分功能以評(píng)估微陣列數(shù)據(jù)。舉例而言,本發(fā)明的系統(tǒng)提供一種確認(rèn)轉(zhuǎn)錄響應(yīng)者集合是否包含具有檔案化關(guān)聯(lián)的成員的方法。在此方法中,研究者可決定該實(shí)驗(yàn)是否測(cè)量到特定的反應(yīng),提供該可能性以識(shí)別何時(shí)轉(zhuǎn)錄反應(yīng)的結(jié)果系缺乏令人信服的雜化條件或如交叉雜化(cross hybridization)的錯(cuò)誤。重要的是,本發(fā)明的系統(tǒng)提供一種聯(lián)系來(lái)自微陣列實(shí)驗(yàn)而待識(shí)別與排列的非基因因子的途徑。
真實(shí)分?jǐn)?shù)在某些情況中,關(guān)聯(lián)強(qiáng)度未必如同其實(shí)際般重要。舉例而言,若兩個(gè)對(duì)象共享關(guān)聯(lián)的子集合且其關(guān)聯(lián)至與特定生物過(guò)程(如急性階段免疫響應(yīng)、細(xì)胞分裂、微管形成等)相關(guān)聯(lián)的對(duì)象,這種關(guān)聯(lián)的相對(duì)強(qiáng)度并不必然如同共享的關(guān)聯(lián)般重要。在此情況下,優(yōu)選評(píng)估該共同提及是否表示實(shí)際的關(guān)聯(lián)。假設(shè)一次共同提及是假正向錯(cuò)誤的幾率為50%,利用該真實(shí)的分?jǐn)?shù),則二次同現(xiàn)為錯(cuò)誤的幾率則為50%×50%=25%或0.25。該針對(duì)任何給定關(guān)聯(lián)的真實(shí)分?jǐn)?shù)的范圍通常從針對(duì)同現(xiàn)所測(cè)量出最低可能性的假正向率到1。共享的關(guān)聯(lián)就整體真實(shí)分?jǐn)?shù)而論也可被標(biāo)繪。
系統(tǒng)邏輯元關(guān)聯(lián)(meta-relationship)、語(yǔ)義解析、信息提取在一種用以檢索研究關(guān)注的項(xiàng)目(例如利用PubMed所執(zhí)行的檢索)的標(biāo)準(zhǔn)基于詢問(wèn)的方法中,時(shí)常會(huì)取得無(wú)關(guān)聯(lián)的結(jié)果。盡管通過(guò)圖形用戶接口可讓用戶簡(jiǎn)單且直覺(jué)式地與PubMed交互,但是可用的信息越多,會(huì)使得尋找關(guān)注的項(xiàng)目越困難。
舉例而言,研究者關(guān)注導(dǎo)致鎂程度增加的現(xiàn)象可在檢索中利用單詞″magnesium″與″increase″或是這些單詞的變體。以詞組為基礎(chǔ)的檢索允許用戶利用連接的術(shù)語(yǔ),如″increases magnesium 1evels″。然而,連接的術(shù)語(yǔ)具有大量的排列數(shù)量,如″found to increase magnesiumconcentration″或″observed elevated intracellular levels ofmagnesium″,″demonstrated higher magnesium 1evels″等等。標(biāo)準(zhǔn)的基于詢問(wèn)的方法利用布爾運(yùn)算檢索研究關(guān)注的項(xiàng)目。然而,這種詢問(wèn)的限制存在于因果關(guān)系的連鎖中-針對(duì)″‘magnesium’and(和)‘increase’″實(shí)施布爾檢索所回復(fù)的結(jié)果可能難以解釋。舉例而言,其對(duì)于所回復(fù)的結(jié)果是否關(guān)于鎂增加的效果,何者會(huì)增加鎂,鎂是如何增加的、什么會(huì)影響鎂的增加等等是不明確的。此外,該結(jié)果可能包括一些假正向,該假正向包含與選定的檢索單詞匹配的詞組,該詞組例如″…can cause intracellular magnesium depletion and anincrease in intracellular calcium″。因?yàn)橛脩艨赡芡瑫r(shí)想確認(rèn)并未遺漏如″increasing″以及″increased″的單詞字根變體,用戶可利用如″increas*″的通配符號(hào)。通配符號(hào)可有助于檢索更為廣泛,但是也急劇增加了假正向的數(shù)量。更糟的是,描述相同現(xiàn)象的同義字,如″Mg2+″、″e(cuò)levation″、″rise″″higher levels of″等不會(huì)被包括于該檢索中。
部分的來(lái)源通過(guò)提供一種針對(duì)信息分類將單詞映射到受控制詞表的方法以解決這些多個(gè)變體。MEDLINE利用MeSH來(lái)將單詞或詞組映射到主題(主體標(biāo)題)檢索,其有助于在檢索中涵蓋同義字并提供尋找文件的功能,該文件一般使用與研究有關(guān)的關(guān)鍵詞但卻未被涵蓋于標(biāo)題或摘要中。MeSH允許將單詞或詞組映射到主題(主體標(biāo)題)檢索,即便并非所有生物醫(yī)學(xué)相關(guān)的同義字都被映射,當(dāng)檢索信息或獨(dú)立的主題時(shí)MeSH操作的相當(dāng)好,甚至允許子標(biāo)題的選擇。然而,MeSH主要限定在名詞的檢索且無(wú)法提供名詞可能所具有的相互作用類型。其既不提供上下文內(nèi)容也不提供說(shuō)明介于所關(guān)注的項(xiàng)目間的關(guān)聯(lián)的有效方法。表16.顯示通過(guò)MEDLINE檢索所返回的結(jié)果中關(guān)鍵詞變化。
表16.依據(jù)詢問(wèn)的構(gòu)建變化的結(jié)果的例示*
具有驚人數(shù)量的數(shù)據(jù)與信息存在于檢索結(jié)果中,諷刺的是,這樣使得尋找相關(guān)信息更加困難。科學(xué)家利用多種的捷徑來(lái)幫助此任務(wù)的執(zhí)行,例如將他們所閱讀的雜志范圍縮小到其所認(rèn)為關(guān)注以及高品質(zhì),并期待將會(huì)發(fā)行的相關(guān)信息以及出席國(guó)家會(huì)議以保持與其領(lǐng)域中的同行和當(dāng)前研究聯(lián)系。盡管這種方法提供某種程度上的幫助,但是他們必須倚賴其它人,而這些人受限于其本身所僅能提供的信息覆蓋與篩選。并且不幸的是,即便這些策略有助于保持人們消息靈通,但卻無(wú)法將其置于知識(shí)的前沿。如果不能提供其它的功效,則由于有太多的假正向結(jié)果,因此明顯需要一種針對(duì)關(guān)注的現(xiàn)象檢索文獻(xiàn)的更有效方法。
為減少假正向結(jié)果的數(shù)量,依據(jù)本發(fā)明的系統(tǒng)提供一種推論提取引擎,其接收關(guān)于數(shù)據(jù)分?jǐn)?shù)的輸入(如文本及/或數(shù)據(jù))并以對(duì)象形式提供輸出。本發(fā)明的系統(tǒng)接著確認(rèn)是否有樣本(例如,在摘要中同現(xiàn)的對(duì)象;在句子中同現(xiàn)的對(duì)象)存在于輸出中,以確認(rèn)介于對(duì)象間的關(guān)聯(lián)并識(shí)別主題集群(topical cluster)。正如此處所用的,″主題集群″或″主題集合(topical set)″可以互換使用,且是指關(guān)注(作為術(shù)語(yǔ)、詞組、分類)的信息(數(shù)據(jù))的群組(grouping)。當(dāng)對(duì)象同現(xiàn)于主題集群中時(shí),其存在有對(duì)象與主題集群相關(guān)聯(lián)的機(jī)會(huì)。主題單元也可是通過(guò)來(lái)源所定義的群組,而每一個(gè)來(lái)源可具有不同的群組。舉例而言,在MEDLINE(作為來(lái)源)中,該主題集群可為摘要。在另一來(lái)源中,該主題集群可為段落、頁(yè)、電子表格,而該群組可為數(shù)字的、文字的、符號(hào)的或前述的組合等。
此外,本發(fā)明的系統(tǒng)可利用其它連接以及歸納/演繹的邏輯以假設(shè)當(dāng)假定于其它相同對(duì)象中相同的關(guān)聯(lián)集合時(shí)對(duì)象應(yīng)該具有如何的特性或行為的分類(sort)。在一個(gè)方面,本發(fā)明的系統(tǒng)依賴于共同引用以建立實(shí)際上單向性的關(guān)聯(lián)。在另一個(gè)方面,本發(fā)明的系統(tǒng)當(dāng)該關(guān)聯(lián)的種類未知時(shí)(如檢索反對(duì)或互補(bǔ)現(xiàn)象)可完成不同類型的分析,以使該關(guān)聯(lián)的種類可被識(shí)別。此規(guī)則確認(rèn)該推論提取引擎的功能,該功能可用于分類關(guān)聯(lián),例如后述般識(shí)別元關(guān)聯(lián)。
元關(guān)聯(lián)一個(gè)對(duì)象可具有許多的同義字,無(wú)論是單詞或詞組,其會(huì)導(dǎo)致″多對(duì)一″的映射。同樣的,作用、反應(yīng)、交換、變化或任何其它類型等對(duì)象可能具有與其它對(duì)象間的關(guān)聯(lián)可以許多不同的方式來(lái)描述。針對(duì)關(guān)聯(lián)確認(rèn)同義字是不充分的,因?yàn)槠涫且话泐愋偷年P(guān)聯(lián)或表示所關(guān)注的不同的同義字的分類。這種包含多種相互影響的一般類型的關(guān)聯(lián),或分類集群,在此被稱之為″元關(guān)聯(lián)″。
舉例而言,可觀察到關(guān)于兩個(gè)蛋白質(zhì)的相互影響以及利用如″asociate″、″dissociate″、″adhere″或″bind″等術(shù)語(yǔ)來(lái)描述。鑒于″asociate″與″bind″在意義上具有微妙的差異,將相互影響分類至如″physical association″的一般術(shù)語(yǔ)下而不是將其分類于每一個(gè)獨(dú)立的標(biāo)題并非完全的錯(cuò)誤。這種分類集群方式的一例示可見(jiàn)于NCI’sMedMiner中,其試圖將包含檢索關(guān)鍵詞的句子分類至一般類目中,但是一種更精確的比較是HIN’s UMLS系統(tǒng)所稱的″語(yǔ)義的關(guān)聯(lián)″且同樣包含大量的的術(shù)語(yǔ)。
在一個(gè)方面,本發(fā)明的系統(tǒng)識(shí)別四種基本類型的元關(guān)聯(lián)正面影響(增加)、負(fù)面影響(減少)、實(shí)體關(guān)聯(lián)以及邏輯關(guān)聯(lián)。用以表示該關(guān)聯(lián)的關(guān)鍵詞的字根形式顯示于以下的表17中,其用以顯示這些單詞或其字根形式變體出現(xiàn)于MEDLINE的頻率。已針對(duì)每一個(gè)單詞檢查單詞拼寫(xiě)變體(如″releaser″與″releasor″,″disassociate″與″dissociate″)且將不會(huì)包括在內(nèi),其原因在于其僅包含其所使用的少部分(通常<2%)。
表17.2000年12月18日在MEDLINE中的字根元關(guān)聯(lián)關(guān)鍵詞
這些特定的元關(guān)聯(lián)是針對(duì)后端利用之目的予以選擇,亦即并非僅定義關(guān)注的對(duì)象,同時(shí)也特性化這些對(duì)象。一般關(guān)聯(lián)以及分類有助于多種用途以及取得量上而非質(zhì)上的改變,以允許本發(fā)明的系統(tǒng)檢索互補(bǔ)與反面的現(xiàn)象。已知該疾病的顯型與其它產(chǎn)生相同顯型與相對(duì)顯型的現(xiàn)象可有助于確認(rèn)該疾病的起源以及潛在療法的檢索。
舉例而言,醫(yī)療狀況會(huì)導(dǎo)致乙醇脫氫酶(ADH)的減少。這種量化的顯型將會(huì)是本發(fā)明的系統(tǒng)所關(guān)注的,其原因在于處理此癥狀的方式將會(huì)涉及ADH水平的增加。相同的狀況可能具有另一個(gè)肝毒顯型,但是毒性的相對(duì)面難以定義,即便可以想象到可能的反對(duì)單詞如″恢復(fù)″、″再生″或″增長(zhǎng)″等。毒性是相對(duì)的基因術(shù)語(yǔ),性質(zhì)上用于描述現(xiàn)象且難以定義其反面或互補(bǔ)的術(shù)語(yǔ)為何。然而,當(dāng)用戶處理因不明原因遭受肝毒的患者時(shí),其對(duì)于理解是有用的。
量上的關(guān)聯(lián)是指在其中如″increase″、″upregulates″或″e(cuò)levates the levels of″的動(dòng)詞與動(dòng)詞詞組被用來(lái)描述這些關(guān)聯(lián)。質(zhì)上的關(guān)聯(lián)是指那些可被量化評(píng)估的,并被加進(jìn)具有更多或更少的特性的廣義術(shù)語(yǔ)。其通過(guò)如″hypertrophic″、″hypoplasia″或″megalencephaly″等形容詞或名詞予以指出。在一種優(yōu)選的方面,在本發(fā)明的系統(tǒng)中該推論提取引擎包括額外的語(yǔ)言能力以包含鏈接至當(dāng)前對(duì)象的術(shù)語(yǔ)(如動(dòng)詞、副詞、形容詞)的關(guān)聯(lián)分析,例如在生物醫(yī)學(xué)領(lǐng)域中所通用的(如″increase″、″binds″、″regulates″)以及否定的術(shù)語(yǔ)(如″Does not″、″not″或″inversely″)。
如圖26所示,在一個(gè)方面,本發(fā)明的系統(tǒng)的推論提取引擎針對(duì)待分類至對(duì)象表格(″tblObjectSynonyms″)的元對(duì)象掃描由摘要(如取自MEDLINE或其它來(lái)源)所取得的句子。接著針對(duì)用以指示可能的關(guān)聯(lián)的元關(guān)聯(lián)關(guān)鍵詞掃描文本。若發(fā)現(xiàn)關(guān)聯(lián),則本發(fā)明的系統(tǒng)接著針對(duì)對(duì)象掃描句子。若所發(fā)現(xiàn)的對(duì)象少于兩個(gè)時(shí),掃描下一句子。若發(fā)現(xiàn)關(guān)聯(lián)以及兩個(gè)對(duì)象時(shí),本發(fā)明的系統(tǒng)傳送該句子至文法解析器接著至推論提取規(guī)則確認(rèn)集合,以嘗試適當(dāng)?shù)貙⒃撽P(guān)聯(lián)予以分類。若發(fā)現(xiàn)良好的匹配,則將其儲(chǔ)存至系統(tǒng)數(shù)據(jù)庫(kù)中。
關(guān)聯(lián)鏈接A至B如下表所示,對(duì)象之間的關(guān)聯(lián)就其所具有的元關(guān)聯(lián)予以儲(chǔ)存,但是相同類型的關(guān)聯(lián)可通過(guò)多種不同的文法結(jié)構(gòu)而表達(dá)于文獻(xiàn)中。優(yōu)選的是,依據(jù)本發(fā)明的系統(tǒng)可從數(shù)據(jù)來(lái)源中提取這些關(guān)聯(lián)(亦即確認(rèn)相應(yīng)于元關(guān)聯(lián)的″inhibit″,″decrease″)及其對(duì)象(″wnt″,″the quaternarycomplex″)。下表顯示用以表達(dá)概念的不同的文法結(jié)構(gòu),″wnt signalingsomehow inhibits the kinase activity of the quaternary complex″。
表18.多種用以表示該基因wnt關(guān)于四基復(fù)合物的激酶素活動(dòng)
包括于元關(guān)聯(lián)中的術(shù)語(yǔ)以及詞組可根據(jù)需要來(lái)增加或修改。部分的元關(guān)聯(lián)例子及其如何使用顯示于表19中。
表19.當(dāng)元對(duì)象增加時(shí)元關(guān)聯(lián)的例示
對(duì)象關(guān)系數(shù)據(jù)庫(kù)本發(fā)明的系統(tǒng)所利用的對(duì)象關(guān)系數(shù)據(jù)庫(kù)(ORD)是其主要的功能。部分表格與詢問(wèn)的構(gòu)建與布局顯示于表20中。
表20.對(duì)象關(guān)系數(shù)據(jù)庫(kù)的布局
該對(duì)象關(guān)系數(shù)據(jù)庫(kù)是動(dòng)態(tài)者,正如同提供輸入至本發(fā)明的系統(tǒng)的數(shù)據(jù)來(lái)源是動(dòng)態(tài)的一樣。在一個(gè)方面,本發(fā)明的系統(tǒng)在與該系統(tǒng)通訊的圖形用戶界面(如按鈕或下拉式選單)上提供控制組件以允許用戶查看在系統(tǒng)數(shù)據(jù)庫(kù)中取自數(shù)據(jù)來(lái)源的文本的對(duì)象。舉例而言,用戶可在圖形用戶界面上查看來(lái)自數(shù)據(jù)來(lái)源的顯示文本,標(biāo)示該文本的一部分(如詞組或摘要),以及點(diǎn)選如按鈕等使得該系統(tǒng)顯示該詞組中的一個(gè)或多個(gè)單詞是否作為對(duì)象而儲(chǔ)存于系統(tǒng)數(shù)據(jù)庫(kù)中的控制組件。新對(duì)象可包括于系統(tǒng)數(shù)據(jù)庫(kù)中(如下面進(jìn)一步討論的對(duì)象關(guān)系數(shù)據(jù)庫(kù)等)。這有助于用戶通過(guò)掃描文獻(xiàn)以識(shí)別并標(biāo)示新對(duì)象,以編輯這些對(duì)象來(lái)增加至對(duì)象清單,以供用以評(píng)估連接的網(wǎng)絡(luò)的下一次編輯使用。
語(yǔ)義解析以及信息提取輸入并解析如具有一個(gè)或多個(gè)單詞的記錄或摘要等的文本信息。適當(dāng)?shù)慕馕銎靼ǖ幌抻赿parser、Essens、Gary、opars、ipars、lfg、Olex、Parsec、SPARK Scanning、Parsing and Rewriting Kit、T-Gen T-Gen-The Parser Generator(針對(duì)Visualworks、ftp、aSmallTal的解析器產(chǎn)生器)、TGrep2(下一代解析樹(shù)的檢索引擎)等等。
若該記錄包括句子,則這些句子經(jīng)過(guò)逐句解析,并針對(duì)元對(duì)象以及元關(guān)聯(lián)檢查。在圖14中顯示了通過(guò)本發(fā)明的系統(tǒng)所執(zhí)行的信息提取步驟的流程。信息提取還可包括解析非文本或結(jié)構(gòu)化數(shù)據(jù)的信息。舉例而言,信息提取可包含掃描高密度陣列,該高密度陣列包含化學(xué)或生物數(shù)據(jù)(如核酸探針、寡核苷酸、蛋白質(zhì)、多肽、有機(jī)或無(wú)機(jī)分子/化合物等等)??衫冒^(guò)65,000個(gè)信息部分(如探針、分子、化學(xué)物質(zhì)等等)的陣列,如利用公知的光刻法所制造的陣列。可利用更傳統(tǒng)的技術(shù)或化學(xué)物質(zhì)將分子或化學(xué)物質(zhì)附著至基底的表面,且依據(jù)該基底的種類、該待附著的分子/化學(xué)物質(zhì)與其它因素對(duì)于化學(xué)附著與合成技術(shù)領(lǐng)域的技術(shù)人員而言是可以理解的。生物陣列用于基因分析、篩選、診斷等等。部分陣列具有至少20微米的小特征尺寸。
舉例而言,在基底表面上的核酸結(jié)構(gòu)可能提供信息提取的數(shù)據(jù)來(lái)源。統(tǒng)計(jì)上相關(guān)的表現(xiàn)分析可針對(duì)表現(xiàn)序列標(biāo)示的cDNA序列數(shù)據(jù)庫(kù)通過(guò)序列相似檢索所有詢問(wèn)開(kāi)放讀取框架或基因序列予以完成。包括美國(guó)國(guó)家衛(wèi)生研究院癌癥研究所(NIH-NCI)在內(nèi)的基因網(wǎng)絡(luò)研究計(jì)劃特別適宜采用本發(fā)明的系統(tǒng)。
本發(fā)明的系統(tǒng)提供一種工具,用以在任何研究領(lǐng)域中針對(duì)當(dāng)前所識(shí)別出的問(wèn)題識(shí)別出一個(gè)或多個(gè)新的影響或的潛在的解釋。本發(fā)明的系統(tǒng)可以符合成本效益的方式識(shí)別出一個(gè)或多個(gè)介于對(duì)象間的未知關(guān)聯(lián)。如下面例1進(jìn)一步討論的,本發(fā)明的系統(tǒng)識(shí)別出已知藥物氯丙嗪的新治療應(yīng)用,亦即,其用作為心室肥大(一種具有嚴(yán)重且令人衰弱的后果的疾病)治療的治療劑。在其它情況中,本發(fā)明的系統(tǒng)還識(shí)別出非胰島素依存型糖尿病(non-insulin dependent diabetes mellitus;NIDDM)的潛在的病因來(lái)源是起源于后天的。
在一個(gè)方面,本發(fā)明的系統(tǒng)連接至自動(dòng)篩選系統(tǒng)。利用該系統(tǒng)以掃描關(guān)于非胰島素依存型糖尿病基因的文獻(xiàn),目標(biāo)基因針對(duì)甲基化反應(yīng)篩選予以識(shí)別。本發(fā)明的系統(tǒng)檢索并下載該目標(biāo)序列,設(shè)計(jì)可在如篩選陣列上的作為探針的寡核苷酸。該篩選陣列利用如數(shù)字光學(xué)化學(xué)作用甚或麻煩的光刻DNA芯片方式予以組合并用以篩選、診斷與追蹤可能的或當(dāng)前的非胰島素依存型糖尿病患者的甲基化反應(yīng)狀態(tài)。在一個(gè)方面,該陣列的設(shè)計(jì)連接至線上訂購(gòu)單,因此用戶可與本發(fā)明的系統(tǒng)交互,直至完成包含適當(dāng)序列的陣列的制造訂單。該圖形用戶接口可顯示該陣列的描畫(huà)。在一個(gè)方面,移動(dòng)光標(biāo)至陣列上特定的坐標(biāo)集合,可使得本發(fā)明的系統(tǒng)顯示位于該坐標(biāo)的探針的信息(如核甘酸序列、基因名稱、已知的表現(xiàn)輪廓、功能等等)。
例示本發(fā)明將進(jìn)一步伴隨著以下的例示予以說(shuō)明。應(yīng)該理解的是,以下的說(shuō)明僅作為例示之用,并可在本發(fā)明所涵蓋的保護(hù)范圍進(jìn)行修改。
例示1.系統(tǒng)的確認(rèn)用以治療心室肥大的藥劑本發(fā)明的系統(tǒng)可針對(duì)心室肥大識(shí)別出新的且有用的隱含關(guān)聯(lián)的能力利用MEDLINE作為來(lái)源予以執(zhí)行,心室肥大是一種具有許多已知且公認(rèn)的關(guān)聯(lián)的癥狀。分析的目標(biāo)是識(shí)別出先前不具關(guān)聯(lián)的化合物與心室肥大及潛在治療效果的隱含的關(guān)聯(lián)。
系統(tǒng)的新關(guān)聯(lián)發(fā)現(xiàn)心室肥大是一種會(huì)使心臟中的細(xì)胞的體積擴(kuò)大的病癥,最后會(huì)導(dǎo)致心臟供血功能的降低。這種情況已被廣泛的研究,這點(diǎn)從MEDLINE中有超過(guò)3,654篇文獻(xiàn)包含有″心室肥大″的詞組即可得知。通過(guò)這些文獻(xiàn),依據(jù)本發(fā)明的系統(tǒng)識(shí)別出與心室肥大有隱含關(guān)聯(lián)的至少大約2,102個(gè)對(duì)象以及至少大約19,718個(gè)唯一對(duì)象;使用1,841,599個(gè)不同的路徑。利用本發(fā)明的系統(tǒng)的評(píng)分配置,編輯與心室肥大間具有隱含的關(guān)聯(lián)的小分子(如藥物、新陳代謝、以及化學(xué)物質(zhì)化合物)排名清單,其中的二十筆在表21中顯示。該評(píng)分是每一個(gè)關(guān)聯(lián)獨(dú)立有效的幾率、每一個(gè)對(duì)象期待所具有的關(guān)聯(lián)數(shù)量(已知其在網(wǎng)絡(luò)中的相對(duì)數(shù)量),以及每一個(gè)連接關(guān)聯(lián)的隱含強(qiáng)度等的復(fù)合函數(shù)。介于心室肥大與隱含的關(guān)聯(lián)對(duì)象間共享的關(guān)聯(lián)數(shù)量以″唯一路徑(Unique Paths)″表示。這些唯一路徑有多少表示有效關(guān)聯(lián)的統(tǒng)計(jì)評(píng)估以″品質(zhì)評(píng)估(QualityEstimate)″表示。在網(wǎng)絡(luò)中每一個(gè)隱含的對(duì)象的頻率以″關(guān)聯(lián)的數(shù)量(Number of Relationship;Number of Rel.)″表示,以及給定每一個(gè)對(duì)象的相關(guān)頻率時(shí)期待偶然出現(xiàn)的關(guān)聯(lián)數(shù)量(已知每一個(gè)對(duì)象的相對(duì)數(shù)量)以″期望(Expect)″表示。
表21.與心室肥大與小分子間隱含關(guān)聯(lián)的排名
從該排名清單中選出一個(gè)分子″氯丙嗪(Chlorpromazine)″用于進(jìn)一步的分析。氯丙嗪是一種脂肪族的硫代二苯胺化合物,主要用于抗精神疾病或止吐劑。其顯示一些具有多個(gè)小分子的目標(biāo)的生理作用。一個(gè)已知的功能是作為甲型腎上腺素阻斷劑(alpha-Adrenergicblockers)。利用依據(jù)本發(fā)明的系統(tǒng),發(fā)現(xiàn)到未知的關(guān)聯(lián),亦即,氯丙嗪是通過(guò)促效劑使甲型腎上腺素接收體過(guò)度刺激而與心室肥大產(chǎn)生關(guān)聯(lián)且其影響可通過(guò)甲型腎上腺素阻斷劑予以阻斷。因此,依據(jù)本發(fā)明的系統(tǒng)發(fā)現(xiàn)介于氯丙嗪與心室肥大間在先前所未知的關(guān)聯(lián)。
此分析通過(guò)直接檢索MEDLINE而并未顯示二者間有任何直接關(guān)聯(lián)被建立而可證明具有新穎性。
證實(shí)系統(tǒng)的新發(fā)現(xiàn)介于氯丙嗪與心室肥大間相對(duì)關(guān)聯(lián)的確認(rèn)是通過(guò)一系列老鼠的實(shí)驗(yàn)室研究,其包括將已知的乙型腎上腺素促效劑(同時(shí)已知會(huì)導(dǎo)致肥大)、異丙腎上腺素以及異丙腎上腺素添加氯丙嗪相比較。
簡(jiǎn)而言之,該研究包括二組八只安裝滲透性注射泵的老鼠。其中一組持續(xù)的給予每天每公斤20毫克的異丙腎上腺素劑量而另一組則給予每天每公斤20毫克的異丙腎上腺素加上每天每公斤10毫克的氯丙嗪。在較大的氯丙嗪劑量之前選擇較小的氯丙嗪劑量以縮小喂食反應(yīng)的變化。此外,其縮小介于氯丙嗪與麻醉劑″阿佛丁(三溴乙醇)″間不利的影響。在治療前與開(kāi)始注射后的七天進(jìn)行心臟超音波檢查。將這些老鼠處死并稱量其心臟的重量。
圖19與表22總結(jié)該研究的發(fā)現(xiàn)。大體而言,心室肥大(通過(guò)心臟超音波檢查評(píng)估)在以氯丙嗪添加異丙腎上腺素治療的老鼠中是減少的。圖19顯示氯丙嗪保護(hù)老鼠抵抗心室肥大的形成。心臟超音波檢查用以評(píng)估在治療過(guò)程中一些心臟的結(jié)構(gòu)重量或厚度的改變。就圖19而言,十只老鼠接受異丙腎上腺素而八只接受異丙腎上腺素與氯丙嗪(CPZ+ISO),其中LVW=左心室重量(CPZ+ISO 11±27%,ISO 51±43%,P<0.02);LVMI=左心室的質(zhì)量指數(shù)(CPZ+ISO 11±28%,ISO 50±52%,P<0.04);PWT=后壁厚度(CPZ+ISO 16±16%,ISO 36±27%,P<0.05);IVSWT=室內(nèi)隔膜壁厚度(CPZ+ISO 19±18%,ISO 31±20%,P<0.12)。
表22.在氯丙嗪(CPZ+ISO)對(duì)抗異丙腎上腺素后心室肥大的形成
利用本發(fā)明的系統(tǒng)在計(jì)算機(jī)中所識(shí)別出的額外的治療劑包括″Rofecoxib″、″Naproxen″、″Prostaglandin″、″Melatonin″、″Naloxone″以及″Naltrexone″?!錘aloxone″作為治療劑的功效通過(guò)在確認(rèn)前述心室肥大的老鼠模型中藥物的功效予以證實(shí)。依據(jù)與其相似的藥理學(xué)效果,″Naloxone″在活體中也可能有效果且由于″Naloxone″的優(yōu)越的藥物動(dòng)力學(xué)特性(如其較長(zhǎng)的半衰期),因此其可作為較好的藥物。
依據(jù)本發(fā)明的系統(tǒng)額外的識(shí)別出其它用于治療其它種類心肌癥狀的候選藥物。提供先前并未被識(shí)別出可作為這種狀況的治療劑的后選藥物清單,本發(fā)明的系統(tǒng)在依據(jù)與該心臟疾病直接或間接的藥理學(xué)聯(lián)系(如先前所確認(rèn)作為肌肉細(xì)胞保護(hù)劑的藥物)而初步地選擇后,可排列出可能影響心肌癥的候選藥物。此分析的結(jié)果將進(jìn)一步的討論于后,其中等級(jí)為″5″是最高的分?jǐn)?shù)且指示該藥物在活體實(shí)驗(yàn)中成功的可能性極大。等級(jí)″3″以及更高者用以識(shí)別出作為治療心肌癥的候選藥物的化合物。
三碘甲狀腺氨酸(T3)3T3與甲狀腺素(T4)構(gòu)成有效的甲狀腺荷爾蒙。甲狀腺荷爾蒙,特別是T3,已經(jīng)被證實(shí)可提升心臟肌細(xì)胞質(zhì)膜離子輸送單元。臨床研究顯示心肌癥患者存在不期望的高風(fēng)險(xiǎn)的甲狀腺機(jī)能衰退以及低T3并發(fā)癥。盡管T3潛在的有利于心血管疾病的功效,然而僅有少數(shù)評(píng)估其在心血管疾病功效的研究。迄今仍然沒(méi)有對(duì)于具有心血管疾病的患者嚴(yán)格的臨床調(diào)查,其留給T3令人關(guān)注但卻未過(guò)度曝光的藥物測(cè)試。
氯壓定4交感神經(jīng)系統(tǒng)在血壓的調(diào)節(jié)以及心臟功能中扮演重要的角色。仿交感神經(jīng)作用劑的效果是通過(guò)包括甲型與乙型子類型的腎上腺素受體予以傳達(dá)。氯壓定是一種甲二型腎上腺素受體促效劑。其作用于中樞交感神經(jīng),強(qiáng)調(diào)其″sympathoinbibitory″功能,因此導(dǎo)致正腎上腺素釋放以及交感神經(jīng)活動(dòng)的減少并進(jìn)而減少交感神經(jīng)狀況的降低。當(dāng)前通過(guò)乙型受體阻斷劑治療心肌的擴(kuò)大與肥大,然而甲型阻斷劑的使用并未在先前被揭露。氯壓定被導(dǎo)入作為抗高血壓交感神經(jīng)系統(tǒng)的抑制劑已有35年但僅至現(xiàn)今才針對(duì)其它治療方法予以調(diào)查。舉例而言,氯壓定顯示其對(duì)于心肌局部缺血與放血的心臟衰弱的治療有其功效。介于氯壓定與其它腎上腺素受體藥劑間的差異在于其中樞系統(tǒng)作用的位置,這可提供潛在的廣泛用途。
雌激素3心血管疾病顯示出明顯的以性別為基礎(chǔ)的差異。雌激素在心臟疾病發(fā)病中扮演重要的角色且可控制疾病的發(fā)展。關(guān)注雌激素正面影響的焦點(diǎn)逐漸從血管系統(tǒng)移轉(zhuǎn)至心肌。功能性雌激素受體的存在已經(jīng)獲得證實(shí)。在嚙齒目動(dòng)物的左心室肥大的模型中,雌激素的補(bǔ)充減緩左右心室肥大的發(fā)展。雌激素還使用于心肌衰弱缺血中以提供廣泛的心肌保護(hù)。劑量范圍對(duì)于雌激素而言非常重要。不同的劑量會(huì)具有實(shí)質(zhì)上不同的影響。舉例而言,每日0.625毫克的雌激素用于更年期,而每日20~35微克則用于口服避孕。
它莫西芬3它莫西芬是一種臨床使用活化雌激素受體的化合物。其對(duì)于心血管系統(tǒng)具有類似雌激素的功效。
秋水仙素3秋水仙素是有效且快速的嗜中性白血球的抑制劑,可減少炎發(fā)性的白血球增多,防止缺血后心肌衰弱嗜中性白血球的累積并保護(hù)心肌。盡管只完成少數(shù)針對(duì)秋水仙素對(duì)于心血管的影響的研究,然而其中的部分顯示具有正面的影響(減弱心室肥大的發(fā)展)。
緩激肽4緩激肽是新的且有可能的心臟肌肉細(xì)胞保護(hù)者。激肽釋放酶-激肽(kallikrein-kinin)系統(tǒng)是一種血壓調(diào)節(jié)系統(tǒng)。如同重要的激肽釋放酶-激肽一樣,緩激肽除已知多年的可擴(kuò)展冠狀動(dòng)脈與血管床等功效外還具有其它的功能。在近期的研究中,緩激肽顯示出可增強(qiáng)心臟血管缺血的耐受性。由于局部缺血是導(dǎo)致擴(kuò)展心肌癥的原因且心肌衰弱缺血在擴(kuò)展與肥大的心肌癥中均為常見(jiàn),因此緩激肽是治療心肌癥的候選藥物。
Omapatrilat4緩激肽通過(guò)一些酶素有效且快速地被降解,特別是血管收縮素轉(zhuǎn)化酶素(ACE)以及中性肽鏈內(nèi)切酶(NEP)。因此,作為具有阻止血管收縮素轉(zhuǎn)化酶素以及中性肽鏈內(nèi)切酶二者的新化合物的″omapatrilat″將邏輯上的具有如同緩激肽的效果。″Omapatrilat″現(xiàn)正實(shí)驗(yàn)性用于慢性心臟衰弱的臨床上。
Apstatin4盡管血管收縮素轉(zhuǎn)化酶素以及中性內(nèi)肽酶素在緩激肽分解作用中似乎扮演重要的角色,近期的報(bào)告意味著″氨肽酶P(aminopeptidaseP)″可能為內(nèi)生的緩激肽翻轉(zhuǎn)的重要促成因素。作為氨肽酶抑制劑的″apstatin″是肌肉細(xì)胞保護(hù)的候選藥物。
COX-2選擇性抑制劑(Celecoxib)3此化合物對(duì)于心血管的影響是復(fù)雜的。一方面,此藥物的使用會(huì)減少造成血管損害與動(dòng)脈粥樣化血栓的炎癥性因素。另一方面,由于其減少″vasodilatory″與″antiaggregatory″趨血栓阻塞性形成(prothrombotic production),因此服用此藥物會(huì)導(dǎo)致血壓上升以及趨血栓阻塞性活動(dòng)。因此見(jiàn)到從不同實(shí)驗(yàn)所得的所有相互對(duì)立的結(jié)果并不令人驚訝。由于其在計(jì)算機(jī)篩選中的排名,″Celecoxib″是用于測(cè)試其在活體中對(duì)于心室肥大的影響的候選藥物。
5-LOX抑制劑(Licofelone)45-LOX抑制劑象征一種具有抗血小板、抗白血球以及抗炎癥性的特性卻不具有Cox-1對(duì)于胃的副作用以及Cox-2的血栓形成風(fēng)險(xiǎn)的新化合物。″Licofelone″現(xiàn)已針對(duì)骨關(guān)節(jié)炎進(jìn)行到第三階段的臨床研究。
血栓素A2受體對(duì)抗藥(thromboxane A2 Receptor Antagonist)(Sultroban)3TXA2是一種有效的血管收縮劑以及血小板聚集與釋放的強(qiáng)力誘導(dǎo)物。其與前列腺素相比具有調(diào)節(jié)血小板的相對(duì)機(jī)制。相對(duì)于在正常的心臟中,血栓素受體密度在受損的心臟中顯著的增加,其暗示出血栓素受體代表顯著的治療目標(biāo)。TXA2酶素抑制劑或TXA2受體抑制劑可能對(duì)于心肌癥的患者有所助益。
褪黑激素(Melatonin)2褪黑激素是最為著名的腦部松果體生成物。其它所為人熟知的角色是用作直接影響晝夜節(jié)律的抗氧化劑,其在人體中扮演相當(dāng)角色。由近十年所得的證據(jù)顯示出褪黑激素影響心血管系統(tǒng)。動(dòng)脈與心室受體的存在已被證明。褪黑激素還可促成心臟衰弱缺血后的心臟保護(hù)作用。依據(jù)已完成少數(shù)關(guān)于褪黑激素的安全性、副作用、與藥物的相互影響以及長(zhǎng)期效果的研究,褪黑激素當(dāng)前在一定程度上并被視為藥物。
下面的其它候選化合物是利用依據(jù)本發(fā)明的系統(tǒng)識(shí)別出來(lái)的。
嗎啡嗎啡是一種鴉片縮氨酸(opioid peptide),其可發(fā)揮重要的心血管功效。特定鴉片受體的作用導(dǎo)致有效的心臟保護(hù)作用,以減少實(shí)驗(yàn)動(dòng)物的梗塞的范圍并減少在孤立的心肌細(xì)胞中的細(xì)胞死亡。此藥物可能被限制于短期間或緊急使用。
那諾松(Naloxone)那諾松是一種鴉片類對(duì)抗藥(opioid antagonist)。在正常情況下,除非預(yù)先已控制鴉片否則其將產(chǎn)生少量的效果。然而,內(nèi)生的鴉片系統(tǒng)在如在心肌衰弱的梗塞或擴(kuò)展的心肌癥等特定形式的壓力下會(huì)被活化,那諾松會(huì)阻止嗎啡系統(tǒng)的心臟保護(hù)作用。其對(duì)于疾病具有負(fù)面的影響。如前所述,那諾松在計(jì)算機(jī)篩選中所預(yù)測(cè)的正面效果已在活體中予以證實(shí)。
華法令/肝素(Warfarin/Heparin)此兩種藥物阻止作用的凝血因子,而因此具有抗凝血的效果。由于心肌癥患者具有血栓性栓塞癥的風(fēng)險(xiǎn),warfarin以及heparin是用于預(yù)防中風(fēng)與末梢栓塞的候選藥物。這兩種藥物已被報(bào)導(dǎo)對(duì)于擴(kuò)展的心肌癥有所幫助,特別是伴隨心房纖維顫動(dòng)(atrial fibrillation)。
皮質(zhì)醇(Cortisol)皮質(zhì)醇是在人體中主要的糖皮質(zhì)激素。皮質(zhì)類固醇具有多種且廣泛的效果。在心血管系統(tǒng)中,皮質(zhì)醇的的攻擊效果是用以誘導(dǎo)高血壓以及高血壓的心肌癥,盡管其基礎(chǔ)機(jī)制是未知的。皮質(zhì)醇是一種抗炎癥性以及抑制免疫力劑,其可以抑制淋巴球進(jìn)入造成心肌癥的第二期。然而,當(dāng)前許多的臨床對(duì)于糖皮質(zhì)激素的使用是依據(jù)經(jīng)驗(yàn)方法,而不是依據(jù)對(duì)于該藥物作用機(jī)制的詳細(xì)理解。皮質(zhì)醇在先前已被提出關(guān)于擴(kuò)展的心肌癥的治療。此療法并未顯現(xiàn)出具有臨床上的重要效果且與重大的并發(fā)癥有所關(guān)聯(lián)。針對(duì)其目前的應(yīng)用,當(dāng)前并不建議作為例行的臨床使用,但是針對(duì)新的功效,伴隨新的劑量療法,此化合物的使用是可能恢復(fù)的。
例示2.評(píng)估連接間接連接與β連環(huán)素(beta-catenin)
本發(fā)明的系統(tǒng)所欲達(dá)成的另一個(gè)任務(wù)是顯示現(xiàn)今有多少介于對(duì)象間直接與相關(guān)的關(guān)聯(lián)曾經(jīng)是間接的關(guān)聯(lián)??梢韵胂罂赏ㄟ^(guò)兩種方法發(fā)現(xiàn)知識(shí)(1)重新發(fā)現(xiàn);或(2)依靠先前的知識(shí)。重要的是,重新發(fā)現(xiàn)可能是偶然的或可能在經(jīng)過(guò)結(jié)構(gòu)化的隨機(jī)測(cè)試方法而達(dá)到并非所期望的連接時(shí)出現(xiàn)。同樣的,先前的知識(shí)導(dǎo)致明確的假設(shè)(如A與C相互影響)或隱含的假設(shè)(如一個(gè)具有特定特征/特性的目標(biāo)與多個(gè)可在測(cè)試所有的候選藥物后被發(fā)現(xiàn)的可能的候選對(duì)抗藥相互影響)。
從歷史角度觀之,知識(shí)發(fā)現(xiàn)已由兩種類型發(fā)現(xiàn)予以構(gòu)成。通過(guò)以知識(shí)為推論所達(dá)成的發(fā)現(xiàn)可通過(guò)將一對(duì)象與它對(duì)象間的關(guān)聯(lián)分類予以評(píng)估。在任何假設(shè)的時(shí)間點(diǎn),一個(gè)對(duì)象應(yīng)該具有一些與其它對(duì)象間的直接關(guān)聯(lián)以及一些與其它潛在對(duì)象之間接關(guān)聯(lián)。若假設(shè)某些數(shù)量的間接關(guān)聯(lián)會(huì)如同直接關(guān)聯(lián)般的被發(fā)現(xiàn),接著下一步驟則是測(cè)量與評(píng)估有多少在歷史上的間接連接最終變成直接連接。
舉例言之,假設(shè)在1995年時(shí),A(基因)被發(fā)現(xiàn)到與B(疾病)產(chǎn)生關(guān)聯(lián)。在此時(shí)已知B與C(顯型)有所關(guān)聯(lián)。可以依據(jù)該關(guān)聯(lián)的種類合理地推測(cè)介于A與C之間有所連接?;蛟S該顯型見(jiàn)諸于其它的疾病而該疾病是A所直接或間接導(dǎo)致的。因此,該A至C的連接可通過(guò)額外的分析或研究而明顯與確認(rèn)。另一方面,該關(guān)聯(lián)可能并不明顯(如該關(guān)聯(lián)在該時(shí)期并未呈現(xiàn)相關(guān)性)。這就是本發(fā)明的系統(tǒng)所關(guān)注的方面。
本發(fā)明的系統(tǒng)將通過(guò)如下所述的另一種分析提出測(cè)試。
利用關(guān)鍵詞″beta-catenin″自MEDLINE來(lái)源下載至少大約1,270篇摘要的群組?!錬eta-catenin(β連接素)″是有關(guān)于哺乳動(dòng)物上皮中黏著接合的組成且其基因位于人類染色體3p21,該區(qū)域具有多個(gè)至腫瘤形成的鏈接。就此分析而言,對(duì)象為″n″而與該對(duì)象直接相關(guān)聯(lián)的對(duì)象為″n+1″。直接與″n+1″對(duì)象相關(guān)聯(lián)但與n隱含的關(guān)聯(lián)稱之為″n+2″。圖20A顯示總關(guān)聯(lián)數(shù)在時(shí)間上如何成指數(shù)方式的增加;圖20B顯示有多少在現(xiàn)今觀察具有直接關(guān)聯(lián)的對(duì)象在較早的幾年中僅具有間接的關(guān)聯(lián),可能是通過(guò)中介(不同中間物的數(shù)量并未顯示)。因?yàn)椴糠诌B接可能是假的,因此建立下游連接所需的最小觀察數(shù)量在1至3間變化。介于n與n+1間的最小關(guān)聯(lián)數(shù)量保持為1,以增加對(duì)于新發(fā)現(xiàn)的敏感性并允許可能建立的下游連接的發(fā)現(xiàn)。當(dāng)放寬最小觀察要求時(shí),對(duì)象的總數(shù)量會(huì)增加。通過(guò)利用現(xiàn)今的直接連接來(lái)評(píng)估有多少在較早時(shí)期所存在的未發(fā)現(xiàn)的間接連接,當(dāng)該區(qū)線愈接近現(xiàn)今時(shí)該區(qū)線必然地降至零。
從中完成測(cè)試集合分析的數(shù)據(jù)集合(如文獻(xiàn))被稱之為主要領(lǐng)域分析(PDA)。該主要領(lǐng)域分析集中在一個(gè)基于關(guān)鍵詞的主題(一般是文本);當(dāng)利用主要領(lǐng)域分析時(shí),所有間接與未發(fā)現(xiàn)的關(guān)聯(lián)獨(dú)自地從該數(shù)據(jù)集合中取得。任何的關(guān)鍵詞通常會(huì)落入三種一般類目其中之一,該三種一般類目包括(a)是該數(shù)據(jù)或記錄的主要特征/對(duì)象;(b)是該數(shù)據(jù)或記錄的次要因素;及/或(c)與該數(shù)據(jù)或記錄保持略為觸及的關(guān)聯(lián)。在圖20A與圖20B中顯示的作用會(huì)依據(jù)對(duì)象被發(fā)現(xiàn)時(shí)已知的連接數(shù)量而改變。當(dāng)檢索超越主要領(lǐng)域分析時(shí)該間接連接的數(shù)量會(huì)增加(如通過(guò)結(jié)合大量在主要領(lǐng)域分析外的現(xiàn)有知識(shí)、信息及/或數(shù)據(jù))。如圖21A至圖21D所示,與現(xiàn)今關(guān)聯(lián)的間接連接的百分比隨著時(shí)間而降低。所觀察到的降低其原因可能是沒(méi)有足夠已過(guò)去的時(shí)間來(lái)顯示關(guān)聯(lián)或是因?yàn)樽钤绲闹苯雨P(guān)聯(lián)是最強(qiáng)的。在圖21A至圖21D的圖表中還顯示通過(guò)僅增加少數(shù)的間接連接,則總連接的數(shù)量即大幅的增加。在此的增加,接著會(huì)增加針對(duì)識(shí)別下游連接的嚴(yán)格度而大幅的影響之后發(fā)現(xiàn)成為直接連接的間接連接的數(shù)量。
為分析在連接頻率中的改變,所有具有之后會(huì)變成與β連接素產(chǎn)生直接連接的初始間接關(guān)聯(lián)的對(duì)象均會(huì)被檢查。對(duì)象包括那些具有n+3的網(wǎng)絡(luò)距離以及存在于1997年之前的數(shù)據(jù)庫(kù)中的對(duì)象。通過(guò)本發(fā)明的系統(tǒng)所檢索出的對(duì)象清單通過(guò)至β連接素的唯一路徑以及用以確認(rèn)連接所必要的最小觀察數(shù)量(亦即在相同句子中該對(duì)象的同現(xiàn))而列于表23中。此分析利用在圖21A至圖21D中同樣的最小數(shù)量觀察參數(shù)。
表23.在1997年與β連接素間接連接及在2001年直接連接的對(duì)象的子集合
檢閱表23,發(fā)現(xiàn)EGFR(表皮細(xì)胞生長(zhǎng)因子受體)是在1997年以前與β連接素之間具有間接連接數(shù)量最多的三個(gè)對(duì)象之一。在該連接鏈中,時(shí)間回到1992年發(fā)現(xiàn)E黏著蛋白(E-cadherin)具有與β連接素相當(dāng)強(qiáng)的關(guān)聯(lián)。而β連接素與E黏著蛋白間具有分子的關(guān)聯(lián),通過(guò)與肌動(dòng)蛋白細(xì)胞骨架(actin cytoskeleton)以及E黏著蛋白的相互影響,當(dāng)暴露于表皮細(xì)胞生長(zhǎng)因子受體中時(shí)其會(huì)自細(xì)胞外矩陣脫離。因此,該29個(gè)唯一路徑中的每一個(gè)路徑通過(guò)該經(jīng)由不同中介所產(chǎn)生的表皮細(xì)胞生長(zhǎng)因子受體與E黏著蛋白間的關(guān)聯(lián)而具有間接的β連接素與E黏著蛋白間的分支。本發(fā)明的系統(tǒng)顯示當(dāng)表皮細(xì)胞生長(zhǎng)因子受體被發(fā)現(xiàn)磷酸化(phosphorylate)β連接素時(shí),第一次表皮細(xì)胞生長(zhǎng)因子受體與β連接素相互間產(chǎn)生直接的關(guān)聯(lián)是在1997年7月。有趣的是,在此日期之前,有一筆鏈接表皮細(xì)胞生長(zhǎng)因子受體至β連接素的記錄,然而,其是通過(guò)表皮細(xì)胞生長(zhǎng)因子而非表皮細(xì)胞生長(zhǎng)因子受體。該系統(tǒng)從報(bào)告中識(shí)別出表皮細(xì)胞生長(zhǎng)因子與β連接素間的連接,但不理解介于表皮細(xì)胞生長(zhǎng)因子與表皮細(xì)胞生長(zhǎng)因子受體間的關(guān)聯(lián)。該系統(tǒng)所識(shí)別出并分類于對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的β連接素與表皮細(xì)胞生長(zhǎng)因子受體間的連接顯示于表24。為確保沒(méi)有任何在1997年之前建立連接的指示代名詞,MEDLINE針對(duì)關(guān)鍵詞″beta-catenin″以及″EGFR″予以檢索表24.與″beta-catenin″關(guān)聯(lián)的間接對(duì)象的目錄
第二個(gè)連接最常見(jiàn)的對(duì)象而與β連接素產(chǎn)生間接關(guān)聯(lián)的是″pemphigus vulgaris″(慢性天皰瘡),一種罕見(jiàn),會(huì)影響皮膚與黏膜的起泡的自我免疫疾病(參見(jiàn)OMIM記錄169610)。如同間接的″EGFR″連接,大多數(shù)中間連接共享一個(gè)常見(jiàn)的中介路徑黏著蛋白與慢性天皰瘡,第一個(gè)連接由1994年的記錄建立。依據(jù)本發(fā)明的系統(tǒng)發(fā)現(xiàn)該關(guān)聯(lián)直至1998年2月之前并未被建立。1994年的文獻(xiàn)提及β連接素與天皰瘡之間的關(guān)聯(lián);然而,該兩個(gè)對(duì)象并未包括于相同的句子中,且是使用該疾病的縮寫(xiě)″PVA″而不是使用適當(dāng)?shù)膯卧~。因此,由于假設(shè)是按照分析,因此該系統(tǒng)并未識(shí)別出該關(guān)聯(lián)。
本發(fā)明的系統(tǒng)還發(fā)現(xiàn)″vanadate″(釩酸鹽)與″Beta-catenin″之間的關(guān)聯(lián)。釩酸鹽是用于多種生物路徑中的微小過(guò)度金屬氧負(fù)離子(transition metal oxyanion),通常是酪氨酸磷酸酶的抑制劑。介于該二對(duì)象間的強(qiáng)有力的連接通過(guò)介于酪氨酸與釩酸鹽間的中間關(guān)聯(lián)予已發(fā)現(xiàn)。該中間關(guān)聯(lián)是在1995年2月第一次被提及且之后又被提及幾次。介于β連接素與酪氨酸的連接也在早于1992年12月即頻繁的被觀察到。此外,直到1997年10月β連接素與酪氨酸才被第一次提及。
″PTPRU″是U型蛋白質(zhì)酪氨酸磷酸酶受體的縮寫(xiě),在″HGNC″數(shù)據(jù)庫(kù)中,縮寫(xiě)字″PTP″以″PTPRU″的同義字被列出,其可能不是完全的精確,因?yàn)椤錚TP″或″Protein Tyrosine Phosphatases″(蛋白質(zhì)酪氨酸磷酸酶)與″PTPRU″雖有關(guān)聯(lián)但卻是截然不同的對(duì)象。因此,本發(fā)明的系統(tǒng)實(shí)際上在先前所建立與釩酸鹽的中間關(guān)聯(lián)中已識(shí)別出介于β連接素與″PTP″間的關(guān)聯(lián),亦即與酪氨酸共同操作的蛋白質(zhì)。
β連接素具有與″wnt″間的強(qiáng)關(guān)聯(lián)且因此與″wnt″相關(guān)聯(lián)的基因與β連接素共同被提及并不令人意外。β連接素與″gene frizzled″(基因卷曲)間的間接關(guān)聯(lián)通過(guò)″wnt″與″wingless″二者展開(kāi)且該基因直接與″LEF-1″、″APC″、″JUP″以及″dsh″相關(guān)聯(lián)。介于β連接素與″wnt″間的連接早在1993年10月的文獻(xiàn)中即被提及。介于″wnt″與″frizzled″間的連接則更早被知悉,但其卻是在1996年(記錄中未給出月份,因此本發(fā)明的系統(tǒng)采取較為妥當(dāng)?shù)姆绞綄⑷掌陬A(yù)設(shè)為一月一日)的此摘要集合中被第一次提及。
″Beta-catenin″與″frizzled″是在1997年八月第一次被共同提及,但僅是在與研究線蟲(chóng)(C.elegans)相同的關(guān)于基因的清單中。直至下一篇共同提及,這二者的摘要在1998年5月發(fā)布時(shí)其功能性的關(guān)聯(lián)始變得顯著。針對(duì)這兩個(gè)術(shù)語(yǔ)的摘要檢索確認(rèn)在1997年前不具有直接關(guān)聯(lián)。
必須強(qiáng)調(diào)的是,依據(jù)本發(fā)明的系統(tǒng)數(shù)據(jù)庫(kù)可持續(xù)地被精練。舉例而言,在諸如剛才的分析執(zhí)行之后,多余的關(guān)聯(lián)可從該數(shù)據(jù)庫(kù)中移除。
例示3.系統(tǒng)的確認(rèn)糖尿病與非遺傳性顯然的,已顯示出依據(jù)本發(fā)明的系統(tǒng)在疾病、基因、顯型以及化學(xué)物質(zhì)化合物(統(tǒng)稱為″對(duì)象″)的名稱與同義字出現(xiàn)在如MEDLINE等來(lái)源的標(biāo)題與摘要中時(shí)可識(shí)別出該名稱與同義字。本發(fā)明的系統(tǒng)還可解析縮寫(xiě)字以避免術(shù)語(yǔ)的混淆。
在另一例示中,所有的MEDLINE記錄(在2002年1月的至少大約12,063,817筆記錄)通過(guò)本發(fā)明的系統(tǒng)予以處理以構(gòu)成廣泛的對(duì)象關(guān)聯(lián)網(wǎng)絡(luò)。接著評(píng)估對(duì)象集合中共享的關(guān)聯(lián),其中包括介于兩個(gè)其它非已知具有關(guān)聯(lián)的對(duì)象間所共享的關(guān)聯(lián)。這些隱含的關(guān)聯(lián)用以識(shí)別新的關(guān)聯(lián)。舉例而言,在科學(xué)與技術(shù)中,該新關(guān)聯(lián)有助于理解疾病病原學(xué)的機(jī)制、藥物作用、新療法、診斷方法以及可作為用以篩選一個(gè)或多個(gè)對(duì)象的符合成本效益的方法,特別是介于疾病成因與療法間相關(guān)的關(guān)聯(lián)。
非胰島素依存型糖尿病(NIDDM)是一種全球逐漸普遍的疾病,特別是在美國(guó),其中在1991年至2000年間新患者數(shù)量增長(zhǎng)49%。NIDDM的經(jīng)濟(jì)成本是非常巨大的,在1997年評(píng)估為980億美元且影響美國(guó)6%的人口。NIDDM主要的特征在于胰島素抵抗以及高血液葡萄糖濃度且經(jīng)常與葡萄糖耐受不良(Glucose intolerance)、高胰島素癥(hyperinsulinemia)、高膽固醇癥(hypercholesterolemia)以及高脂血癥(hyperlipidemia)有關(guān)。許多與NIDDM形成的風(fēng)險(xiǎn)相關(guān)的因素已被識(shí)別出來(lái),但是因果關(guān)系被證明是難以理解的。NIDDM因此被稱之為″綜合性″失序癥(″complex″disorder),被認(rèn)為介于環(huán)境影響與基因背景間綜合性相互影響的結(jié)果。迄今,并未有報(bào)告指出介于NIDDM的病原與如DNA甲基化反應(yīng)狀態(tài)改變或核染色質(zhì)縮短等外遺傳改變間有所關(guān)聯(lián)。
DNA甲基化反應(yīng)是在真核生物(eukaryotes)中基礎(chǔ)的重要現(xiàn)象,其用作區(qū)別主體DNA與外來(lái)DNA的機(jī)制,以確認(rèn)哪個(gè)DNA的組成部分是新復(fù)制者并用以提供核染色質(zhì)縮短的訊號(hào)以至于可鈍化轉(zhuǎn)錄程序,其是在正常形成過(guò)程中特別重要的方法。隨著在某些腫瘤中已知一些基因因?yàn)榧谆磻?yīng)的喪失而難以控制,在控制的DNA區(qū)域中甲基化反應(yīng)的喪失已成為癌癥中積極研究的領(lǐng)域。盡管DNA甲基化反應(yīng)的喪失可由化學(xué)的方式(如通過(guò)5aza-2’-deoxycytidine)引起,但是存在于環(huán)境中的何種因素會(huì)具有相似的效果仍不明確。
系統(tǒng)識(shí)別與NIDDM的新關(guān)聯(lián)本發(fā)明的系統(tǒng)用以識(shí)別并排列在MEDLINE中與第二型糖尿病(亦稱之為非胰島素依存型糖尿病(NIDDM))相關(guān)的對(duì)象。NIDDM被發(fā)現(xiàn)與數(shù)據(jù)庫(kù)中兩個(gè)特定的對(duì)象(″甲基化反應(yīng)″以及″核染色質(zhì)″(表25))共享許多關(guān)聯(lián)。
表25.排名領(lǐng)先的具有與NIDDM共享關(guān)聯(lián)的對(duì)象
表25顯示與NIDDM(顯示在頂端作為針對(duì)詢問(wèn)的正向控制)間具有隱含的關(guān)聯(lián)的前五個(gè)對(duì)象(基因、疾病、顯型以及小分子)。這些對(duì)象并非已知(在MEDLINE中)與NIDDM間具有直接的關(guān)聯(lián)且通過(guò)許多共享關(guān)聯(lián)的功效而與之具有隱含的關(guān)聯(lián)(請(qǐng)參閱圖22)。每一個(gè)隱含關(guān)聯(lián)的種類將會(huì)變化且必須通過(guò)中間連接的審查予以確認(rèn)?!錏xpect″是期望值且表示有多少共享的關(guān)聯(lián)是被期望的,且假定具有相同特性的隨機(jī)連接的關(guān)聯(lián)網(wǎng)絡(luò)是以文獻(xiàn)取得為基礎(chǔ)?!錛uality″是分?jǐn)?shù)以及依據(jù)同現(xiàn)對(duì)象的頻率在統(tǒng)計(jì)上表示實(shí)際關(guān)聯(lián)的共同提及的數(shù)量的評(píng)估。″Implicit Relationship″可依據(jù)最多共享的關(guān)聯(lián)(在此所處理的是用以識(shí)別廣泛與重要的趨勢(shì))、依據(jù)任何給定的關(guān)聯(lián)集合的期望程度(依據(jù)實(shí)際/期望分?jǐn)?shù)的排列)或是依據(jù)前述二者的結(jié)合(未示出)而予以優(yōu)先化。
科學(xué)人員在假設(shè)介于對(duì)象間的新關(guān)聯(lián)時(shí)所面對(duì)的首要阻礙是常見(jiàn)關(guān)聯(lián)的察覺(jué)。認(rèn)為存在有用以假設(shè)介于外遺傳改變與NIDDM間的新關(guān)聯(lián)的推論,仍然必須閱讀與識(shí)別24,752篇關(guān)于NIDDM的文獻(xiàn)以及25,338篇關(guān)于甲基化反應(yīng)的文獻(xiàn)以識(shí)別常見(jiàn)性(該數(shù)量是在2002年7月通過(guò)MEDLINE關(guān)鍵詞詢問(wèn)所確認(rèn))。需要一種用以收集如此規(guī)模的數(shù)據(jù)的信息方法。
通過(guò)確認(rèn)與NIDDM相關(guān)的MEDLINE文獻(xiàn)的整體,本發(fā)明的系統(tǒng)通過(guò)NIDDM與其它對(duì)象在相同期刊摘要中的同現(xiàn)識(shí)別出NIDDM與其它對(duì)象間所有的隱含關(guān)聯(lián)。在文本中本發(fā)明的系統(tǒng)可識(shí)別出的33,534個(gè)唯一對(duì)象中,總數(shù)2,105個(gè)對(duì)象被發(fā)現(xiàn)與NIDDM有直接關(guān)聯(lián)。本發(fā)明的系統(tǒng)接著針對(duì)與該2,105個(gè)對(duì)象有直接關(guān)聯(lián)的所有對(duì)象分析MEDLINE,移除那些已經(jīng)列于直接關(guān)聯(lián)清單的。產(chǎn)生出的清單包含已知的僅為隱含的關(guān)聯(lián),其用以說(shuō)明在MEDLINE標(biāo)題與摘要的主體中并未發(fā)現(xiàn)介于兩個(gè)對(duì)象間的關(guān)聯(lián)。這些隱含的關(guān)聯(lián)接著通過(guò)本發(fā)明的系統(tǒng)依據(jù)其相互間所共享的關(guān)聯(lián)數(shù)量、每一個(gè)關(guān)聯(lián)的相對(duì)強(qiáng)度、關(guān)聯(lián)的品質(zhì)(每一個(gè)關(guān)聯(lián)有效的統(tǒng)計(jì)上的幾率)以及該兩個(gè)對(duì)象偶然的共享關(guān)聯(lián)集合的可能性予以評(píng)估,已知在網(wǎng)絡(luò)中兩個(gè)對(duì)象的相對(duì)數(shù)量及其共享的中介。
并未在″methylation″和NIDDM間共享的所有1,287關(guān)聯(lián)都需要因果關(guān)系,相關(guān)性或甚至有意義,但是很多是這樣??偟膩?lái)說(shuō),這些關(guān)聯(lián)提供證明在外遺傳控制與NIDDM之間存在關(guān)聯(lián),這然后被用來(lái)發(fā)展一種關(guān)于NIDDM的外遺傳病因?qū)W和發(fā)病機(jī)理的更綜合的理論。
NIDDM共享關(guān)聯(lián)如圖23所示,本發(fā)明的系統(tǒng)識(shí)別出一些發(fā)作的常見(jiàn)顯型以及還與和甲基化反應(yīng)狀態(tài)相關(guān)的疾病共享的NIDDM病理。這些共享的關(guān)聯(lián)提供關(guān)于一些不容易通過(guò)環(huán)境或基因突變模型予以解釋的NIDDM令人困惑的特性的觀察。舉例而言,NIDDM是一種具有可變與晚發(fā)性、通過(guò)如X鏈接基因的異常表現(xiàn)等DNA去甲基化反應(yīng)(hypomethylation)鏈接至某些外遺傳失序的顯型、杭丁頓氏癥的發(fā)作以及腫瘤的生成等的疾病。并非所有晚發(fā)性的疾病均起因于外遺傳的改變,但多數(shù)其它共享的顯型異常是該疾病所獨(dú)有的,如在帕金森氏癥中阿茲罕莫與列維體中淀粉前驅(qū)蛋白質(zhì)(amyloid precursor protein)的累積。NIDDM與肥胖以及前行性糖化終產(chǎn)物(advanced glycosylation end product;AGEs)有高度的關(guān)聯(lián)但既非其形成的要件亦非該疾病所獨(dú)有者。NIDDM的嚴(yán)重性會(huì)產(chǎn)生變化,通常隨著時(shí)間而增加。其嚴(yán)重性的增加與某些在激活子序列(promoter sequence)經(jīng)過(guò)甲基化反應(yīng)改變的腫瘤所共享的顯型,進(jìn)而導(dǎo)致更高的基因表現(xiàn)與更具侵略性的顯型。另一個(gè)關(guān)于NIDDM有趣的觀察是在母性效果(maternal effect)中NIDDM患者描述到母系方面具有糖尿病的歷史的頻率較高。
這種影響當(dāng)在形成期間DNA序列的重新甲基化反應(yīng)是由于母系的影響時(shí)可予以解釋。這種顯型,事實(shí)上已在老鼠身上觀察到。
本發(fā)明的系統(tǒng)還識(shí)別出一些新陳代謝在主體甲基化與NIDDM存在或易患NIDDM相關(guān)的DNA的能力上有所改變。舉例言之,已發(fā)現(xiàn)在NIDDM患者高半胱胺酸(homocysteine)的程度會(huì)提高,并與由死亡率所界定的疾病嚴(yán)重性的增加相關(guān)聯(lián)。高半胱胺酸細(xì)關(guān)鍵的新陳代謝中介負(fù)責(zé)執(zhí)行甲基化反應(yīng),且其免疫血清程度的提升還與DNA去甲基化反應(yīng)相關(guān)。也有報(bào)告指出缺硫(sulfur-poor)的飲食會(huì)迫使通過(guò)蛋氨酸所產(chǎn)生的半胱氨酸合成使個(gè)體在生命后期也產(chǎn)生第二型糖尿病。由于蛋氨酸會(huì)影響″S-二磷酸腺苷(SAM)″,SAM用于新合成DNA的甲基化反應(yīng)的甲基供體,這些個(gè)體隨著重新建立DNA甲基化反應(yīng)樣本能力的減弱而形成。導(dǎo)致甲基化反應(yīng)路徑不足的基因因子還顯示在易形成NIDDM的個(gè)體上。已知在甲烯基四氫葉酸還原脢(methylenetetrahydrofolatereductase;MTHFR)中的多態(tài)現(xiàn)象(polymorphism)(C677T)會(huì)降低其本身的效果,導(dǎo)致整體的DNA去甲基化反應(yīng)。具有這種突變的個(gè)體也容易形成NIDDM以及其它新陳代謝綜合癥狀的并發(fā)癥。
已顯示出異常的甲基化反應(yīng)樣本會(huì)導(dǎo)致另一種糖尿病型態(tài)的糖尿病癥狀,暫時(shí)性新生兒糖尿病(Transient Neonatal DiabetesMellitus;TNDM),其是基因印痕的結(jié)果。相同的印痕區(qū)域是TNDM產(chǎn)生的原因,然而,并不知道NIDDM產(chǎn)生的原因。若外遺傳改變是NIDDM產(chǎn)生的原因,接著自然會(huì)產(chǎn)生三個(gè)問(wèn)題首先,哪一個(gè)未知的因素是NIDDM顯型產(chǎn)生的原因?其次,哪一個(gè)導(dǎo)致NIDDM顯型的組織類型是表現(xiàn)出該因素的原因?再者,哪一個(gè)環(huán)境因素會(huì)導(dǎo)致甲基化反應(yīng)的喪失并進(jìn)而造成該未知的因素的失調(diào)?觀察到針對(duì)第一個(gè)問(wèn)題的答案來(lái)自表25中系統(tǒng)清單上評(píng)分最高的隱含關(guān)聯(lián)對(duì)象,亦即″內(nèi)毒素″(endotoxin)。盡管不知道內(nèi)毒素與NIDDM有關(guān)聯(lián)或會(huì)導(dǎo)致NIDDM,其已顯示出會(huì)導(dǎo)致肥胖與胰島素抵抗。多數(shù)介于NIDDM與內(nèi)毒素間所共享的關(guān)聯(lián)是影響或涉及免疫反應(yīng)的對(duì)象,特別是細(xì)胞激素與炎癥性因素。前炎癥性細(xì)胞激素程度的提升已在NIDDM患者中發(fā)現(xiàn),與肥胖具有正向關(guān)聯(lián),如″TNF alpha″等的某些因素發(fā)現(xiàn)會(huì)導(dǎo)致胰島素抵抗。更確切而言,證明細(xì)胞激素,更具體而言是前炎癥性細(xì)胞激素產(chǎn)生NIDDM顯型的原因的主體不斷的增加。舉例而言,已觀察到NIDDM癥狀的反轉(zhuǎn)可通過(guò)高劑量的阿司匹林將炎癥性予以分解而實(shí)現(xiàn)?!錞roglitazone″是用于治療NIDDM的藥物,也已發(fā)現(xiàn)具有抗炎癥性的特性,且依據(jù)運(yùn)動(dòng)與飲食等生活方式的改變而改變對(duì)于NIDDM患者的處方已成功的反轉(zhuǎn)NIDDM顯型且也與炎癥性細(xì)胞激素的減少有關(guān)聯(lián)。
由于有證據(jù)顯示前炎癥性細(xì)胞激素是導(dǎo)致NIDDM的因素,因此識(shí)別其來(lái)源是令人關(guān)注。除B細(xì)胞(B-cell)與T(T-cell)細(xì)胞外,脂肪細(xì)胞(adipocytes)與內(nèi)皮(endothelial)細(xì)胞是已知僅有的其它種類的可正常產(chǎn)生細(xì)胞激素者。在T細(xì)胞中,細(xì)胞激素表現(xiàn)通過(guò)DNA甲基化反應(yīng)樣本予以確認(rèn)且可以脫甲基劑代替。由于T細(xì)胞與B細(xì)胞在其新的或因經(jīng)驗(yàn)而造成的不停的行為修正(memory)的形式中并不太進(jìn)行代謝活動(dòng)且其較活躍的分化形式是相對(duì)短暫的,因此這二者不太可能成為候選藥物。然而,脂肪細(xì)胞主要的脂質(zhì)儲(chǔ)存單元并產(chǎn)生與如其體積或周圍的肥胖程度等因素成比例的細(xì)胞激素。有趣的是,研究顯示短鏈脂肪酸(short-chain fatty acids;SCFAs)提升活躍的轉(zhuǎn)錄區(qū)域的甲基化反應(yīng)。短鏈脂肪酸還通過(guò)阻止HDAC影響核染色質(zhì)結(jié)構(gòu),導(dǎo)致組織蛋白的高度乙醯化(hyperacetylation)并令DNA區(qū)域更易受轉(zhuǎn)錄因子的影響。在脂肪細(xì)胞中短鏈脂肪酸通常不會(huì)呈現(xiàn)高濃度,但通常是儲(chǔ)存于脂肪細(xì)胞中的長(zhǎng)鏈脂肪酸的代謝副產(chǎn)品。在脂肪細(xì)胞中較高數(shù)量的短鏈脂肪酸代謝可能提供可能出現(xiàn)DNA甲基化反應(yīng)喪失的環(huán)境,且與活躍的轉(zhuǎn)錄活動(dòng)相結(jié)合會(huì)導(dǎo)致去甲基化反應(yīng)并進(jìn)而造成導(dǎo)致NIDDM形成的細(xì)胞激素或類細(xì)胞激素因子的失調(diào)。在胃束帶外科手術(shù)執(zhí)行前與執(zhí)行一年后觀察二十名女性的IL-6與TNF-alpha的程度。在此,其它造成肥胖的的因素如C反應(yīng)蛋白的程度會(huì)降低,但I(xiàn)L-6與TNF-alpha的程度卻不會(huì)降低。
在提出的模型中,在脂肪細(xì)胞中NIDDM病因的出現(xiàn),意味著在由脂肪細(xì)胞所正常分泌的細(xì)胞激素或類細(xì)胞激素的激活子(promoter)周圍DNA甲基化反應(yīng)逐漸的喪失。甲基化反應(yīng)的喪失在肥胖所造成的環(huán)境下是有利的且是通過(guò)轉(zhuǎn)錄的活動(dòng)而產(chǎn)生。隨之而來(lái)的甲基化反應(yīng)喪失導(dǎo)致這些因素的失調(diào),并產(chǎn)生在通過(guò)脂肪細(xì)胞所產(chǎn)生的細(xì)胞激素中構(gòu)成分子的增加。負(fù)向調(diào)節(jié)因素可減少這些因素的表現(xiàn),使NIDDM顯型的管理成為可能,但只要它們存在。
用于本發(fā)明的總體細(xì)胞試驗(yàn)的例示可為以下的一個(gè)或多個(gè)基因(包括GenBank參考識(shí)別符)FIZZ?(NM.sub.--020415);IL-6(NM.sub.--000600);TNF-alpha(NM.sub.--000594);Leptin(NM.sub.--000230);IL1beta(NM.sub.--000576);IFN-gamma(NM.sub.--000619);L-4(NM.sub.--000589);PPAR-gamma(NM.sub.--005037);STAT3(NM.sub.--003150);NF-KappaB(NM.sub.--003998);IL-8(NM.sub.--000584);IKK-beta(XM.sub.--032491)。利用甲基化反應(yīng)陣列通過(guò)監(jiān)視這些基因的一個(gè)或多個(gè)甲基化反應(yīng),可評(píng)估包含一個(gè)或多個(gè)甲基化反應(yīng)前導(dǎo)的營(yíng)養(yǎng)補(bǔ)充劑的效果以顯示個(gè)體在NIDDM或細(xì)胞的對(duì)位性基因體甲基化反應(yīng)樣本的提升的風(fēng)險(xiǎn)上的影響。
NIDDM的病因模型這一新提出的模型是以三個(gè)現(xiàn)存針對(duì)NIDDM的病因與發(fā)病的模型為背景予以檢視,該三個(gè)模型是基因、環(huán)境以及這兩個(gè)因素的復(fù)合的相互影響。
基因研究已顯示遺傳在確認(rèn)個(gè)體形成NIDDM的風(fēng)險(xiǎn)中扮演一定的角色。盡管投入大量的人力,且在連鎖研究中已描繪出一些潛在易受影響的區(qū)域,但仍然無(wú)法成功地識(shí)別出造成最普遍的NIDDM形式的特定的基因或基因集合。介于肥胖與NIDDM間已知的關(guān)聯(lián)還指出環(huán)境的變量影響NIDDM的顯型。然而,環(huán)境的變量是有關(guān)聯(lián)的而非成因。主要的理論認(rèn)為NIDDM的發(fā)作是由一個(gè)或多個(gè)環(huán)境的變量在具有許多促成基因的基因背景中作用所導(dǎo)致者。此理論解釋NIDDM是如何受到如人種等基因背景以及如飲食與運(yùn)動(dòng)等環(huán)境的變量所影響。其它關(guān)于NIDDM種類的觀察顯示該復(fù)合的模型不能解釋但外遺傳模型可以解釋考慮時(shí)間因素以及系統(tǒng)記憶。
即便當(dāng)環(huán)境的變量呈現(xiàn)于易受影響的基因背景中,該NIDDM的發(fā)作仍然考慮時(shí)間因素。亦即,形成NIDDM的風(fēng)險(xiǎn)與年齡確實(shí)具有關(guān)聯(lián)。除非在假設(shè)迄今為止仍未知的觸發(fā)事件(如感染)的情況下是很難通過(guò)復(fù)合的疾病模型予以解釋。即便其為真實(shí),仍然無(wú)法解釋NIDDM在發(fā)作后持續(xù)的現(xiàn)象。NIDDM通過(guò)患者所遭受的胰島素抵抗以及葡萄糖耐受不良的程度予以診斷,該程度可通過(guò)生活方式的顯著改變而轉(zhuǎn)換成前期糖尿病程度。然而,NIDDM是無(wú)法反轉(zhuǎn)的?,F(xiàn)有的模型中不具有造成主體可″記憶″其狀態(tài)的機(jī)制者。然而,基因的甲基化反應(yīng)狀態(tài)被視為相對(duì)的持續(xù)現(xiàn)象,并用以使細(xì)胞進(jìn)入分化(differentiated)狀態(tài)。已知DNA甲基化反應(yīng)與年齡相關(guān),則位于基因組中的甲基化的數(shù)量由遺傳所決定,且甲基化反應(yīng)的喪失會(huì)受到環(huán)境變量的影響,似乎所提出的外遺傳模型應(yīng)予以認(rèn)真的考慮。
與以突變?yōu)橹行牡哪P拖喾矗浼僭O(shè)依據(jù)在DNA中的細(xì)胞體或遺傳的突變其中之一而改變功能或活動(dòng),外遺傳模型包含單一基因或基因集合的失調(diào)。由這些基因的表現(xiàn)所導(dǎo)致的顯型在其它的生理狀況下會(huì)符合生物學(xué)上的意義。當(dāng)考慮免疫系統(tǒng)功能的背景通過(guò)誘導(dǎo)胰島素抵抗以防止能量進(jìn)入細(xì)胞內(nèi)是合理的。如先前所討論者,細(xì)胞激素的表現(xiàn)會(huì)誘導(dǎo)NIDDM癥狀,特別是前炎癥細(xì)胞激素,如IL-6、TNF-alpha以及IL-1b等。在病原體能復(fù)制的期間以B-細(xì)胞成熟為形式的后天性免疫以及抗體生成要耗費(fèi)時(shí)間。一部分的早期抗體反應(yīng)包含在循環(huán)的血液流動(dòng)中前炎癥細(xì)胞激素存在的增加。這些早期反應(yīng)的其中一個(gè)功能會(huì)阻止如同葡萄糖進(jìn)入細(xì)胞中般的物質(zhì)的進(jìn)入以防止其為無(wú)效的病原體利用是合理的。由于脂肪細(xì)胞包含大量的能量?jī)?chǔ)存單元,這會(huì)使其成為無(wú)效的病原體的理想目標(biāo)且會(huì)迫使其超越其它細(xì)胞體的細(xì)胞在對(duì)抗感染上更為積極。
最后,若為正確,則此理論將提供我們?cè)\斷患者當(dāng)前外遺傳朝向NIDDM進(jìn)展的程度并提供以突變?yōu)橹行牡哪P退鶡o(wú)法輕易提供的NIDDM治療的希望。雖然就特定區(qū)域甲基化反應(yīng)如何能夠再被誘導(dǎo)至受影響的區(qū)域仍不明確,但是由于在形成的過(guò)程中重新甲基化反應(yīng)是正常的程序,則理所當(dāng)然的是該機(jī)制如此的操作已經(jīng)是適當(dāng)?shù)摹?br>
例示4.利用系統(tǒng)來(lái)識(shí)別西地那非(VIAGRA_)的新的治療應(yīng)用利用本發(fā)明的系統(tǒng),執(zhí)行西地那非(VIAGRA_)的關(guān)聯(lián)分析。在一種實(shí)施例中,此分析識(shí)別出介于大約1,000篇與西地那非相關(guān)的以電子檔案形式存在于MEDLINE摘要中的關(guān)聯(lián)。此外,依據(jù)該藥物與對(duì)象(如其它的化學(xué)物質(zhì)、基因、藥物、顯型及/或疾病)的關(guān)聯(lián)針對(duì)該藥物的新用法予以評(píng)分與評(píng)估。僅審查前50高分的關(guān)聯(lián),本發(fā)明的系統(tǒng)識(shí)別出多個(gè)該藥物潛在的替代用法。如所預(yù)期的,最高分的關(guān)聯(lián)是那些已在先前提出與抗高血壓藥物有關(guān)的。
與氣喘的關(guān)聯(lián)(278個(gè)共享的關(guān)聯(lián))在系統(tǒng)的前20個(gè)識(shí)別出與西地那非的關(guān)聯(lián)中,有多個(gè)關(guān)聯(lián)與氣喘以及用以治療氣喘的化合物(亦即腎上腺素以及茶堿)。有趣的是,cGMP-5是一種在肺臟及陰莖組織中大量存在的酶素。此外,已觀察到使用西地那非可改善具有慢性阻塞性肺部疾病(Chronic ObstructivePulmonary Disease;COPD)的患者的呼吸。本發(fā)明的系統(tǒng)已發(fā)現(xiàn)如同血管擴(kuò)展劑般,西地那非可降低與肺泡壓縮有關(guān)的癥狀的潛在關(guān)聯(lián)。其它的證據(jù)(如在肺部組織中目標(biāo)酶素″PDE5″的控制地位)支持此識(shí)別出的關(guān)聯(lián)以及此藥物用于額外的治療(且盡管其效果尚未被確認(rèn),在個(gè)體患者中所存在的某些生理狀況可能會(huì)排斥其它藥物的使用,其中西地那非可能會(huì)呈現(xiàn)優(yōu)選的治療效果)。
與動(dòng)脈硬化的關(guān)聯(lián)(268個(gè)共享的關(guān)聯(lián))本發(fā)明的系統(tǒng)還識(shí)別出與動(dòng)脈硬化的潛在關(guān)聯(lián)。在此,有多個(gè)由西地那非所誘導(dǎo)的血管改變及其針對(duì)動(dòng)脈硬化風(fēng)險(xiǎn)因子的潛在治療用法之間的關(guān)聯(lián)。其中一個(gè)風(fēng)險(xiǎn)因子為高血壓。盡管利用西地那非治療是不切實(shí)際的,但其確可暫時(shí)性地緩解高血壓(如增加末梢血管的血液流量),且因此該風(fēng)險(xiǎn)因子與動(dòng)脈硬化產(chǎn)生關(guān)聯(lián)。
與偏頭痛的關(guān)聯(lián)(216個(gè)共享的關(guān)聯(lián))介于西地那非與偏頭痛間的關(guān)聯(lián)是不甚明確的。多個(gè)具有選擇性的血管收縮特性的制劑,如″triptans″(經(jīng)由″5-HTlb″受體的臘粉(Sumatriptan)),是用以治療偏頭痛;然而,其它的抗偏頭痛制劑并非通過(guò)血管收縮操作(血管收縮可能有關(guān)聯(lián)或?yàn)槠涑梢?。盡管頭痛是西地那非(以及其它血管舒張繼)常見(jiàn)的副作用,偏頭痛(一種唯一且特定的頭痛類型)通常并非被歸類為此藥物的經(jīng)常性副作用??赡苁俏鞯啬欠堑牡脱獕盒Ч麑?shí)際上抵消在偏頭痛背后未知的機(jī)制。本發(fā)明的系統(tǒng)識(shí)別出介于持續(xù)的偏頭痛與同時(shí)存在的高血壓間的候選關(guān)聯(lián)。
與痙孿的關(guān)聯(lián)(220個(gè)共享的關(guān)聯(lián))本發(fā)明的系統(tǒng)識(shí)別出介于西地那非與痙孿一般的關(guān)聯(lián)(并未使用過(guò)濾機(jī)制以區(qū)別痙孿的不同的臨床類型,如平滑、骨骼以及心臟肌肉或微巨血管(microor macrovasculature)等)。同樣的,存在有介于西地那非以及所識(shí)別出的肌肉群組的突發(fā)焦點(diǎn)收縮間的關(guān)聯(lián)。有趣的是,西地那非起初針對(duì)利用增加至心臟的血液流量的冠狀動(dòng)脈心絞痛治療予以評(píng)估。分析提供西地那非作為控制痙孿的作用的假設(shè)。先前假設(shè)該藥物通過(guò)限制血液流量(通過(guò)傷害、局部缺血或痙孿)影響心絞痛。
因此,本發(fā)明的系統(tǒng)專注于針對(duì)識(shí)別多個(gè)且先前未知的對(duì)象使用的研究并提供更有效率的技術(shù)與財(cái)務(wù)資源利用。其還可識(shí)別出該先前未知的對(duì)象可相互影響的潛在機(jī)制。
通過(guò)本發(fā)明的系統(tǒng)所進(jìn)行的分析通過(guò)改變中間(共享的)關(guān)聯(lián)的數(shù)量而產(chǎn)生與西地那非相關(guān)聯(lián)的一些對(duì)象。關(guān)聯(lián)通過(guò)直接強(qiáng)度分?jǐn)?shù)予以識(shí)別。圖24是簡(jiǎn)化所識(shí)別出的純粹的隱含關(guān)聯(lián)的圖表,其中其以圖表中較小或不存在的長(zhǎng)條予以顯示。已知的關(guān)聯(lián)包括本發(fā)明的系統(tǒng)所識(shí)別出的相關(guān)關(guān)聯(lián)以提供用戶信心的評(píng)估,以及何對(duì)象可在如MEDLINE等來(lái)源中予以識(shí)別的概念。本發(fā)明的系統(tǒng)自通過(guò)實(shí)際文獻(xiàn)的強(qiáng)度對(duì)于共享關(guān)聯(lián)的分析所取得的分?jǐn)?shù)關(guān)聯(lián)從表列與標(biāo)繪在評(píng)分圖表的評(píng)分矩陣中予以取得。如圖24所示,該最強(qiáng)的已知關(guān)聯(lián)(勃起障礙是偏離圖表左邊的刻度)與本發(fā)明的系統(tǒng)僅利用該共享關(guān)聯(lián)所指派的分?jǐn)?shù)相關(guān)聯(lián)。缺口指示隱含關(guān)聯(lián)的存在。通過(guò)本發(fā)明的系統(tǒng)所產(chǎn)生的最后輸出的″共享關(guān)聯(lián)″包含許多連接西地那非與先前所提及的對(duì)象的關(guān)聯(lián)的清單。介于如有助于治療病理狀況的藥物等對(duì)象間額外的共享與隱含的關(guān)聯(lián)系顯示于圖25中。圖25中識(shí)別出許多針對(duì)多個(gè)詢問(wèn)的對(duì)象在先前不相關(guān)的新的隱含關(guān)聯(lián)。該詢問(wèn)對(duì)象包括經(jīng)過(guò)美國(guó)聯(lián)邦核準(zhǔn)適應(yīng)癥治療一種或多種人類的病理狀況的藥劑。該藥劑包括″alendronate″、″atorvastatin″、″celecoxib″、″finasteride″、″fluoxetine″、″gemcitabine″、″indinavir″、″losartin″、″olanzapine、″omeprazole″、″pioglitazone″、″rofecoxib″、″sertraline″、″simvistatin″以及″tirofiban″。圖25顯示依據(jù)本發(fā)明的系統(tǒng)可輕易地識(shí)別出這些藥劑新的用法,以針對(duì)這些藥劑建立新的適應(yīng)癥與用法。
例示5作為對(duì)象群組的結(jié)合分析的例示的與乳癌相關(guān)聯(lián)的基因的識(shí)別取自乳癌微陣列的基因群組通過(guò)依據(jù)本發(fā)明的系統(tǒng)予以取得與處理,以確認(rèn)基因常見(jiàn)分享的生物醫(yī)學(xué)對(duì)象為何。這種類型的分析可有助于確認(rèn)存在在基因集合中常見(jiàn)的主題或組件并引起對(duì)于特別異常的關(guān)注,此分析也可稱之為結(jié)合分析(cohesion analysis)。在通過(guò)品質(zhì)分?jǐn)?shù)(是該對(duì)象被觀察到與該集合的成員有關(guān)聯(lián)的次數(shù)與針對(duì)每一個(gè)特定的觀察的總體統(tǒng)計(jì)的錯(cuò)誤率相乘之積)所排列的集合中,當(dāng)涉及肌動(dòng)蛋白重塑(actin remodeling)與轉(zhuǎn)錄程序的起始時(shí)本發(fā)明的系統(tǒng)識(shí)別出這些基因的一部分。請(qǐng)參閱圖27。再者,這些基因的部分具有反復(fù)的序列、暗示多態(tài)現(xiàn)象的幾率以及擇一的銜接位置,在擇一的銜接位置的不同的銜接類型會(huì)導(dǎo)致乳癌或與乳癌有關(guān)聯(lián)。在該清單中部分項(xiàng)目的關(guān)聯(lián)可能并不顯著,如蛋氨酸等,其可能與常見(jiàn)胺基酸間形成假性的關(guān)聯(lián),但移轉(zhuǎn)性的乳癌腫瘤高度依存這種胺基酸且其耗盡會(huì)導(dǎo)致腫瘤專一性生長(zhǎng)抑止(PMID 97194776)。這些基因的部分涉及蛋氨酸新陳代謝/分配且因此是候選藥物目標(biāo)。
當(dāng)此清單通過(guò)實(shí)際/期望比例重新排列,本發(fā)明的系統(tǒng)以遠(yuǎn)大于基因在文獻(xiàn)中的相對(duì)數(shù)量的比例識(shí)別出一些與該基因清單相關(guān)聯(lián)暗示高度相關(guān)關(guān)聯(lián)的基因。舉例而言,ERBB4與3是可在正常與轉(zhuǎn)化細(xì)胞的增長(zhǎng)/變異中作用的細(xì)胞膜間酪氨酸激脢(transmembrane tyrosinekinases)且是表皮細(xì)胞生長(zhǎng)因子受體家族的成員。若這些基因中的部分與ERBB3/4相關(guān)聯(lián),則將會(huì)高度暗示其在乳房組織的致癌基因轉(zhuǎn)化中扮演重要的角色。此角色可能是非轉(zhuǎn)錄型的,且其是此微陣列分析在此分析階段所不會(huì)偵測(cè)的。然而,微陣列數(shù)據(jù)可與取自其它數(shù)據(jù)來(lái)源(如Medline)的數(shù)據(jù)相結(jié)合以識(shí)別額外功能性的關(guān)聯(lián)。
盡管本發(fā)明已參照說(shuō)明性實(shí)施例予以揭露,但本說(shuō)明書(shū)并非用以限制本發(fā)明解釋的范圍。本領(lǐng)域技術(shù)人員參考本說(shuō)明書(shū)后,本發(fā)明的用以說(shuō)明的實(shí)施例的不同修飾與結(jié)合以及其它實(shí)施例將變得顯而易見(jiàn)。因此所附的權(quán)利要求將包含任何修飾或?qū)嵤├?br>
權(quán)利要求
1.一種用于自一個(gè)或多個(gè)數(shù)據(jù)來(lái)源挖掘數(shù)據(jù)的系統(tǒng),其包含數(shù)據(jù)來(lái)源,其包含一個(gè)或多個(gè)信息領(lǐng)域;對(duì)象關(guān)系數(shù)據(jù)庫(kù),其包含來(lái)自該一個(gè)或多個(gè)信息領(lǐng)域的對(duì)象;以及知識(shí)發(fā)現(xiàn)引擎,其中在兩個(gè)或多個(gè)集成的對(duì)象間的關(guān)聯(lián)被識(shí)別、檢索、分類、排列、過(guò)濾以及數(shù)值評(píng)估。
2.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該來(lái)源是一個(gè)或多個(gè)包含文本信息的數(shù)據(jù)庫(kù)。
3.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該來(lái)源是一個(gè)或多個(gè)包含數(shù)值信息的數(shù)據(jù)庫(kù)。
4.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該介于兩個(gè)或多個(gè)對(duì)象間的關(guān)聯(lián)被識(shí)別為直接關(guān)聯(lián)或間接關(guān)聯(lián)。
5.根據(jù)權(quán)利要求4所述的系統(tǒng),其中該兩個(gè)或多個(gè)集成的對(duì)象間的關(guān)聯(lián)是依據(jù)介于直接與間接對(duì)象間關(guān)聯(lián)的相對(duì)強(qiáng)度予以排列。
6.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該關(guān)聯(lián)被設(shè)定至類目中,該類目選自包含正向、負(fù)向、實(shí)體以及邏輯關(guān)聯(lián)的群組。
7.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該信息領(lǐng)域包含如文本、符號(hào)、數(shù)值以及前述內(nèi)容的組合的信息的數(shù)據(jù)片段。
8.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該系統(tǒng)至少是部分自動(dòng)化的。
9.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該信息發(fā)現(xiàn)引擎通過(guò)詞匯處理以過(guò)濾該兩個(gè)或多個(gè)集成的對(duì)象。
10.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該對(duì)象關(guān)系數(shù)據(jù)庫(kù)利用一種包含以下步驟的方法予以產(chǎn)生編輯一個(gè)或多個(gè)數(shù)據(jù)來(lái)源對(duì)象;增加該數(shù)據(jù)來(lái)源對(duì)象同義字;以及將該一個(gè)或多個(gè)數(shù)據(jù)來(lái)源中的信息分組到對(duì)象關(guān)系數(shù)據(jù)庫(kù)中。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),進(jìn)一步包含來(lái)自數(shù)據(jù)來(lái)源的詞匯變體的數(shù)據(jù)庫(kù)。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中該系統(tǒng)進(jìn)一步包含利用該詞匯變體的數(shù)據(jù)庫(kù)掃描該對(duì)象關(guān)系數(shù)據(jù)庫(kù)以增加同義字的程序。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其中該系統(tǒng)包含用以檢查該對(duì)象關(guān)系數(shù)據(jù)庫(kù)的錯(cuò)誤的程序。
14.根據(jù)權(quán)利要求10所述的系統(tǒng),其中該對(duì)象關(guān)系數(shù)據(jù)庫(kù)產(chǎn)生方法進(jìn)一步包含通過(guò)為每一個(gè)對(duì)象分配唯一的數(shù)值識(shí)別碼并通過(guò)最低識(shí)別碼優(yōu)先的方式儲(chǔ)存無(wú)指向性關(guān)聯(lián)以增加該系統(tǒng)效率的步驟。
15.根據(jù)權(quán)利要求1所述的系統(tǒng),其中對(duì)象檢索自非結(jié)構(gòu)化的文本、結(jié)構(gòu)化的數(shù)據(jù)、清單、表格、詞組、段落、摘要、程序、手冊(cè)、教科書(shū)、參考書(shū)、論文、實(shí)驗(yàn)室筆記、信函、備忘錄、電子郵件、目錄、索引、雜志、文章、科學(xué)文獻(xiàn)、專利、專利申請(qǐng)書(shū)、國(guó)際申請(qǐng)案、網(wǎng)頁(yè)、電子表格、統(tǒng)一資源定位符、關(guān)系型數(shù)據(jù)庫(kù)以及前述的結(jié)合。
16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中該對(duì)象選自于由基因、蛋白質(zhì)、化學(xué)物質(zhì)化合物、小分子、藥物、疾病、臨床顯型以及從包含ChemID、MeSH、FDA、locuslink、GDB、HGNC、MeSH、Medline、Snowmed以及OMIM的群組所選出的其它識(shí)別符所組成的群組。
17.根據(jù)權(quán)利要求10所述的系統(tǒng),其中該對(duì)象關(guān)系型數(shù)據(jù)庫(kù)產(chǎn)生方法進(jìn)一步包含篩選出常見(jiàn)單詞的步驟。
18.根據(jù)權(quán)利要求10所述的系統(tǒng),其中該對(duì)象關(guān)系型數(shù)據(jù)庫(kù)進(jìn)一步包括通過(guò)存取單詞數(shù)據(jù)庫(kù)以識(shí)別單詞大寫(xiě)或模式的步驟。
19.根據(jù)權(quán)利要求11所述的系統(tǒng),其中建構(gòu)詞匯變體的步驟進(jìn)一步包含利用同義字?jǐn)?shù)據(jù)庫(kù)。
20.根據(jù)權(quán)利要求10所述的系統(tǒng),其中建構(gòu)詞匯變體的步驟進(jìn)一步包含利用首字母縮略字分解算法。
21.根據(jù)權(quán)利要求1所述的系統(tǒng),進(jìn)一步包含用以顯示一個(gè)或多個(gè)對(duì)象的圖形用戶接口。
22.根據(jù)權(quán)利要求21所述的系統(tǒng),其中該接口包含控制組件,該控制組件可被點(diǎn)擊以顯示從該來(lái)源數(shù)據(jù)上下文取得的集成的對(duì)象。
23.根據(jù)權(quán)利要求1所述的系統(tǒng),其中該對(duì)象關(guān)系數(shù)據(jù)庫(kù)的部分利用包含以下的步驟的方法予以建構(gòu)輸入來(lái)自數(shù)據(jù)來(lái)源的文本區(qū)段;自該來(lái)源提取信息以產(chǎn)生記錄;以及產(chǎn)生一個(gè)或多個(gè)陣列以依據(jù)該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的詞組匹配在該記錄中的單詞。
24.根據(jù)權(quán)利要求23所述的系統(tǒng),其中該方法進(jìn)一步包含解析首字母縮略字。
25.根據(jù)權(quán)利要求23或24所述的系統(tǒng),其中該方法進(jìn)一步包括解析該記錄至句子并解析該句子至單詞。
26.根據(jù)權(quán)利要求23所述的系統(tǒng),其中該信息包含標(biāo)題、摘要、數(shù)據(jù)以及期刊識(shí)別碼信息組。
27.根據(jù)權(quán)利要求22所述的系統(tǒng),其中該文本區(qū)段選自清單、表格、詞組、段落、摘要、程序、手冊(cè)、教科書(shū)、參考書(shū)、論文、實(shí)驗(yàn)室筆記、信函、備忘錄、電子郵件、目錄、索引、雜志、文章、科學(xué)文獻(xiàn)、專利、專利申請(qǐng)書(shū)、國(guó)際申請(qǐng)案、網(wǎng)頁(yè)、電子表格、統(tǒng)一資源定位符、關(guān)系型數(shù)據(jù)庫(kù)以及前述的結(jié)合。
28.根據(jù)權(quán)利要求27所述的系統(tǒng),其中該文本區(qū)段選自美國(guó)藥典。
29.根據(jù)權(quán)利要求23所述的系統(tǒng),其中該當(dāng)該信息的來(lái)源依據(jù)所選定的影響標(biāo)準(zhǔn)被視為較其它類似的來(lái)源具有更高的影響時(shí),給予該文本區(qū)段較高的值。
30.一種用以關(guān)聯(lián)對(duì)象的系統(tǒng),其包含對(duì)象關(guān)系數(shù)據(jù)庫(kù),其由包含一個(gè)或多個(gè)信息領(lǐng)域的數(shù)據(jù)來(lái)源所產(chǎn)生;知識(shí)發(fā)現(xiàn)引擎,其識(shí)別數(shù)據(jù)來(lái)源中對(duì)象之間的關(guān)聯(lián),其中該知識(shí)發(fā)現(xiàn)引擎識(shí)別在該數(shù)據(jù)來(lái)源中一個(gè)或多個(gè)對(duì)象的同現(xiàn),并識(shí)別這些對(duì)象之間的隱含關(guān)聯(lián)。
31.根據(jù)權(quán)利要求30所述的系統(tǒng),其中該知識(shí)發(fā)現(xiàn)引擎產(chǎn)生關(guān)聯(lián)的綜合網(wǎng)絡(luò)。
32.根據(jù)權(quán)利要求31所述的系統(tǒng),其中該知識(shí)發(fā)現(xiàn)網(wǎng)絡(luò)產(chǎn)生部分的關(guān)聯(lián)網(wǎng)絡(luò)。
33.根據(jù)權(quán)利要求30所述的系統(tǒng),其中該識(shí)別出的關(guān)聯(lián)被儲(chǔ)存于系統(tǒng)數(shù)據(jù)庫(kù)中且該系統(tǒng)進(jìn)一步包括允許用戶存取關(guān)于該隱含關(guān)聯(lián)的信息的詢問(wèn)模塊。
34.根據(jù)權(quán)利要求30所述的系統(tǒng),其中該知識(shí)發(fā)現(xiàn)引擎利用一個(gè)或多個(gè)統(tǒng)計(jì)上有界的網(wǎng)絡(luò)模型評(píng)估關(guān)聯(lián)。
35.一種用以識(shí)別藥物的新適應(yīng)癥的系統(tǒng),其包含對(duì)象關(guān)系數(shù)據(jù)庫(kù),其由一個(gè)或多個(gè)包括與該藥物相關(guān)的信息的信息領(lǐng)域的數(shù)據(jù)來(lái)源所產(chǎn)生;以及知識(shí)發(fā)現(xiàn)引擎,其針對(duì)該藥物識(shí)別在該數(shù)據(jù)來(lái)源中有意義的關(guān)聯(lián),其中該知識(shí)發(fā)現(xiàn)引擎識(shí)別在該數(shù)據(jù)來(lái)源和該藥物中的一個(gè)或多個(gè)對(duì)象的同現(xiàn);及產(chǎn)生介于該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的對(duì)象與該藥物間的關(guān)聯(lián)的綜合網(wǎng)絡(luò),其中至少一個(gè)關(guān)聯(lián)確定該藥物的新適應(yīng)癥。
36.根據(jù)權(quán)利要求35所述的系統(tǒng),其中該知識(shí)發(fā)現(xiàn)引擎利用一個(gè)或多個(gè)統(tǒng)計(jì)上有界的網(wǎng)絡(luò)模型評(píng)估關(guān)聯(lián)。
37.根據(jù)權(quán)利要求35所述的系統(tǒng),其中該系統(tǒng)進(jìn)一步將共享與隱含的關(guān)聯(lián)儲(chǔ)存在結(jié)果數(shù)據(jù)庫(kù)中。
38.一種用以識(shí)別藥物的禁忌癥及/或副作用的系統(tǒng),其包含對(duì)象關(guān)系數(shù)據(jù)庫(kù),其由一個(gè)或多個(gè)包括與該藥物相關(guān)的信息的信息領(lǐng)域的數(shù)據(jù)來(lái)源所產(chǎn)生;以及知識(shí)發(fā)現(xiàn)引擎,其識(shí)別在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中有意義的關(guān)聯(lián),其中該知識(shí)發(fā)現(xiàn)引擎識(shí)別于該數(shù)據(jù)來(lái)源中對(duì)象與該藥物的一個(gè)或多個(gè)同現(xiàn),識(shí)別該對(duì)象與該藥物之間共享與隱含的關(guān)聯(lián),并識(shí)別出一個(gè)或多個(gè)關(guān)聯(lián)指示該藥物的一個(gè)或多個(gè)禁忌癥及/或副作用的可能性。
39.根據(jù)權(quán)利要求38所述的系統(tǒng),其中該知識(shí)發(fā)現(xiàn)引擎產(chǎn)生介于該數(shù)據(jù)來(lái)源中的數(shù)據(jù)與該藥物間的關(guān)聯(lián)的綜合網(wǎng)絡(luò),并儲(chǔ)存利用一個(gè)或多個(gè)統(tǒng)計(jì)上有界的網(wǎng)絡(luò)模型評(píng)估的共享與隱含的關(guān)聯(lián)。
40.一種用以識(shí)別介于至少兩個(gè)藥物間相互影響的系統(tǒng),其包含對(duì)象關(guān)系數(shù)據(jù)庫(kù),其由一個(gè)或多個(gè)包括與該至少兩個(gè)藥物相關(guān)的信息的信息領(lǐng)域的數(shù)據(jù)來(lái)源所產(chǎn)生;以及知識(shí)發(fā)現(xiàn)引擎,其識(shí)別在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中有意義的關(guān)聯(lián),其中該知識(shí)發(fā)現(xiàn)引擎識(shí)別在該數(shù)據(jù)來(lái)源中的對(duì)象與該藥物的一個(gè)或多個(gè)同現(xiàn),識(shí)別該對(duì)象與該藥物之間共享與隱含的關(guān)聯(lián),并識(shí)別出該一個(gè)或多個(gè)對(duì)象與該至少兩個(gè)藥物的同現(xiàn)指示介于該至少兩個(gè)對(duì)象間相互影響的可能性;其還可為兩個(gè)基因或一個(gè)基因與一個(gè)藥物,亦即其它值的關(guān)聯(lián)。
41.根據(jù)權(quán)利要求40所述的系統(tǒng),其中該知識(shí)發(fā)現(xiàn)引擎產(chǎn)生介于該數(shù)據(jù)來(lái)源中的數(shù)據(jù)與該藥物間的關(guān)聯(lián)的綜合網(wǎng)絡(luò),并儲(chǔ)存利用一個(gè)或多個(gè)統(tǒng)計(jì)上有界的網(wǎng)絡(luò)模型評(píng)估的共享與隱含的關(guān)聯(lián)。
42.一種用以識(shí)別介于化學(xué)化合物或生物分子與疾病間的關(guān)聯(lián)的系統(tǒng),其包含對(duì)象關(guān)系數(shù)據(jù)庫(kù),其由一個(gè)或多個(gè)包括與該疾病與化學(xué)化合物或生物分子相關(guān)的信息的信息領(lǐng)域的數(shù)據(jù)來(lái)源所產(chǎn)生;以及知識(shí)發(fā)現(xiàn)引擎,其針對(duì)該疾病識(shí)別在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中有意義的關(guān)聯(lián),其中該知識(shí)發(fā)現(xiàn)引擎識(shí)別在該數(shù)據(jù)來(lái)源中的對(duì)象疾病及/或化學(xué)化合物或生物分子的一個(gè)或多個(gè)同現(xiàn),并識(shí)別介于該化學(xué)化合物或生物分子與疾病之間共享與隱含的關(guān)聯(lián)。
43.根據(jù)權(quán)利要求42所述的系統(tǒng),其中該知識(shí)發(fā)現(xiàn)引擎產(chǎn)生介于該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)與該疾病間的關(guān)聯(lián)的綜合網(wǎng)絡(luò),并儲(chǔ)存利用一個(gè)或多個(gè)統(tǒng)計(jì)上有界的網(wǎng)絡(luò)模型評(píng)估的共享與隱含的關(guān)聯(lián)。
44.根據(jù)權(quán)利要求42所述的系統(tǒng),其中該生物分子是核酸或蛋白質(zhì)。
45.根據(jù)權(quán)利要求1、30、35、38、40或42中任一項(xiàng)所述的系統(tǒng),進(jìn)一步包含掃描模塊,該掃描模塊包含用以掃描印刷格式信息并產(chǎn)生來(lái)自該印刷格式信息的數(shù)據(jù)來(lái)源的掃描儀。
46.根據(jù)權(quán)利要求1、30、35、38、40或42中任一項(xiàng)所述的系統(tǒng),其中該系統(tǒng)包含用以執(zhí)行該知識(shí)引擎的功能的處理器。
47.根據(jù)權(quán)利要求46所述的系統(tǒng),進(jìn)一步包含用以儲(chǔ)存該對(duì)象關(guān)系數(shù)據(jù)庫(kù)的計(jì)算機(jī)可讀介質(zhì)。
48.根據(jù)權(quán)利要求47所述的系統(tǒng),進(jìn)一步包含客戶端/服務(wù)器架構(gòu),其中該系統(tǒng)的至少兩個(gè)功能系分布于一個(gè)服務(wù)器端與至少一個(gè)可連接至網(wǎng)絡(luò)的客戶端計(jì)算機(jī)中。
49.根據(jù)權(quán)利要求48所述的系統(tǒng),其中該系統(tǒng)包含用以存取一個(gè)或多個(gè)數(shù)據(jù)來(lái)源的程序。
50.根據(jù)權(quán)利要求48所述的系統(tǒng),其中該對(duì)象關(guān)系數(shù)據(jù)庫(kù)是動(dòng)態(tài)的,并增加來(lái)自該一個(gè)或多個(gè)數(shù)據(jù)來(lái)源的新對(duì)象至該數(shù)據(jù)庫(kù)中。
51.根據(jù)權(quán)利要求50所述的系統(tǒng),其中該系統(tǒng)當(dāng)新對(duì)象由該一個(gè)或多個(gè)數(shù)據(jù)來(lái)源予以增加時(shí)再計(jì)算對(duì)象網(wǎng)絡(luò)。
52.根據(jù)權(quán)利要求51所述的系統(tǒng),其中該系統(tǒng)進(jìn)一步包含用以監(jiān)視再計(jì)算結(jié)果的引擎;且其中該系統(tǒng)再評(píng)估介于對(duì)象間的關(guān)聯(lián)。
53.根據(jù)權(quán)利要求48所述的系統(tǒng),其中該數(shù)據(jù)庫(kù)可下載至至少一個(gè)客戶端計(jì)算機(jī)。
54.根據(jù)權(quán)利要求48所述的系統(tǒng),其中該數(shù)據(jù)庫(kù)或網(wǎng)絡(luò)儲(chǔ)存于該服務(wù)器端計(jì)算機(jī)的存儲(chǔ)單元中且該至少一個(gè)客戶端可通過(guò)與該服務(wù)器端通訊的方式存取該數(shù)據(jù)庫(kù)。
55.根據(jù)權(quán)利要求1、30、35、38、40或42中任一項(xiàng)所述的系統(tǒng),其中該系統(tǒng)進(jìn)一步包含結(jié)果與分析數(shù)據(jù)庫(kù),其中該結(jié)果與分析數(shù)據(jù)庫(kù)包含與對(duì)象關(guān)系有關(guān)的詢問(wèn)以及該詢問(wèn)的結(jié)果相關(guān)聯(lián)的信息。
56.根據(jù)權(quán)利要求55所述的系統(tǒng),其中該結(jié)果與分析數(shù)據(jù)庫(kù)進(jìn)一步包含記錄,該記錄包含與該結(jié)果的解釋相關(guān)的信息。
57.根據(jù)權(quán)利要求55所述的系統(tǒng),其中該結(jié)果與分析數(shù)據(jù)庫(kù)進(jìn)一步包含確認(rèn)該結(jié)果的數(shù)據(jù)。
58.根據(jù)權(quán)利要求1、30、35、38、40或42中任一項(xiàng)所述的系統(tǒng),其中該系統(tǒng)進(jìn)一步包含用以執(zhí)行包含用于排列關(guān)聯(lián)的指令的計(jì)算機(jī)程序碼的應(yīng)用程序。
59.根據(jù)權(quán)利要求58所述的系統(tǒng),其中該計(jì)算機(jī)程序碼包括用于系統(tǒng)處理器以產(chǎn)生個(gè)別的排名因素的線性或非線性分類的指令。
60.根據(jù)權(quán)利要求59所述的系統(tǒng),其中每一個(gè)個(gè)別的排名因素系與加權(quán)每一個(gè)項(xiàng)目的系數(shù)。
61.根據(jù)權(quán)利要求60所述的系統(tǒng),其中加權(quán)通過(guò)以下因素中的一個(gè)或多個(gè)予以決定該數(shù)據(jù)來(lái)源的來(lái)源;該數(shù)據(jù)來(lái)源被發(fā)布的日期;觀察到的對(duì)象同現(xiàn)的實(shí)際頻率與對(duì)象同現(xiàn)的期望頻率的比例;與數(shù)據(jù)來(lái)源相關(guān)的作者的名稱;與該數(shù)據(jù)來(lái)源相關(guān)的機(jī)構(gòu)的名稱;以及在不同數(shù)據(jù)來(lái)源中對(duì)象同現(xiàn)的頻率。
62.一種用于從包含一個(gè)或多個(gè)知識(shí)領(lǐng)域的數(shù)據(jù)來(lái)源挖掘數(shù)據(jù)的方法,其包含以下步驟取得或存取數(shù)據(jù)來(lái)源;產(chǎn)生包含來(lái)自該數(shù)據(jù)來(lái)源數(shù)據(jù)的對(duì)象的對(duì)象關(guān)系數(shù)據(jù)庫(kù);以及識(shí)別在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中直接或隱含的關(guān)聯(lián)的強(qiáng)度。
63.根據(jù)權(quán)利要求62所述的方法,其中在該數(shù)據(jù)來(lái)源中的數(shù)據(jù)針對(duì)在該數(shù)據(jù)來(lái)源中對(duì)象的同現(xiàn)予以檢索,并從該數(shù)據(jù)來(lái)源取得對(duì)象以依據(jù)該同現(xiàn)儲(chǔ)存于該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中。
64.根據(jù)權(quán)利要求61所述的方法,其中該數(shù)據(jù)選自非結(jié)構(gòu)化的文本、結(jié)構(gòu)化的數(shù)據(jù)、清單、表格、詞組、段落、摘要、程序、手冊(cè)、教科書(shū)、參考書(shū)、論文、實(shí)驗(yàn)室筆記、信函、備忘錄、電子郵件、目錄、索引、雜志、文章、科學(xué)文獻(xiàn)、專利、專利申請(qǐng)書(shū)、國(guó)際申請(qǐng)案、網(wǎng)頁(yè)、電子表格、統(tǒng)一資源定位符、關(guān)系型數(shù)據(jù)庫(kù)以及前述的結(jié)合。
65.根據(jù)權(quán)利要求63所述的方法,其中關(guān)聯(lián)依據(jù)其強(qiáng)度予以排列。
66.根據(jù)權(quán)利要求63所述的方法,其中強(qiáng)度通過(guò)以下因素中的一個(gè)或多個(gè)予以決定該數(shù)據(jù)來(lái)源的來(lái)源;該數(shù)據(jù)來(lái)源被發(fā)布的日期;觀察到的對(duì)象同現(xiàn)的實(shí)際頻率與對(duì)象同現(xiàn)的期望頻率的比例;與該數(shù)據(jù)來(lái)源相關(guān)的作者的名稱;與該數(shù)據(jù)來(lái)源相關(guān)的機(jī)構(gòu)的名稱;以及在不同數(shù)據(jù)來(lái)源中對(duì)象同現(xiàn)的頻率。
67.一種用以關(guān)聯(lián)對(duì)象的方法,其包含以下步驟產(chǎn)生由包含一個(gè)或多個(gè)數(shù)據(jù)來(lái)源的數(shù)據(jù)來(lái)源所形成的對(duì)象關(guān)系數(shù)據(jù)庫(kù),或存取該對(duì)象關(guān)系數(shù)據(jù)庫(kù);利用知識(shí)發(fā)現(xiàn)引擎識(shí)別介于對(duì)象間隱含的關(guān)聯(lián);以及確認(rèn)該關(guān)聯(lián)的強(qiáng)度。
68.根據(jù)權(quán)利要求61所述的方法,其中在該數(shù)據(jù)來(lái)源中對(duì)象同現(xiàn)的頻率被確認(rèn)。
69.根據(jù)權(quán)利要求61所述的方法,其中該知識(shí)發(fā)現(xiàn)引擎產(chǎn)生關(guān)聯(lián)的綜合網(wǎng)絡(luò)以識(shí)別該隱含的關(guān)聯(lián)。
70.根據(jù)權(quán)利要求67所述的方法,其中該關(guān)聯(lián)的強(qiáng)度利用一個(gè)或多個(gè)統(tǒng)計(jì)上有界的網(wǎng)絡(luò)模型予以評(píng)估。
71.一種用以針對(duì)藥物識(shí)別新適應(yīng)癥的方法,其包含取得或存取由包括與該藥物相關(guān)的信息的數(shù)據(jù)來(lái)源所產(chǎn)生的對(duì)象關(guān)系數(shù)據(jù)庫(kù);以及用識(shí)別有意義的關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)引擎通過(guò)識(shí)別一個(gè)或多個(gè)來(lái)自數(shù)據(jù)來(lái)源的對(duì)象的同現(xiàn);產(chǎn)生介于該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的對(duì)象與該藥物間的關(guān)聯(lián)的綜合網(wǎng)絡(luò)以識(shí)別介于該對(duì)象與該藥物間隱含的關(guān)聯(lián)以處理在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的信息,其中至少一個(gè)關(guān)聯(lián)確定該藥物的新適應(yīng)癥。
72.根據(jù)權(quán)利要求71所述的方法,進(jìn)一步包含儲(chǔ)存利用一個(gè)或多個(gè)統(tǒng)計(jì)上有界的網(wǎng)絡(luò)模型予以評(píng)估的共享的關(guān)聯(lián)。
73.一種用以識(shí)別藥物的禁忌癥或副作用的方法,其包含取得或存取由包括與該藥物相關(guān)的信息的一個(gè)或多個(gè)信息領(lǐng)域的數(shù)據(jù)來(lái)源所形成的對(duì)象關(guān)系數(shù)據(jù)庫(kù);以及通過(guò)識(shí)別在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中有意義的關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)引擎處理在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的信息,其中該知識(shí)發(fā)現(xiàn)引擎識(shí)別在數(shù)據(jù)來(lái)源中對(duì)象與藥物的一個(gè)或多個(gè)同現(xiàn),識(shí)別介于該對(duì)象與該藥物間共享與隱含的關(guān)聯(lián),并識(shí)別出一個(gè)或多個(gè)關(guān)聯(lián)指示該藥物的一個(gè)或多個(gè)禁忌癥的可能性。
74.一種用以識(shí)別至少兩個(gè)藥物間相互影響的方法,其包含取得或存取由包括與該至少兩個(gè)藥物相關(guān)的信息的一個(gè)或多個(gè)信息領(lǐng)域的數(shù)據(jù)來(lái)源所形成的對(duì)象關(guān)系數(shù)據(jù)庫(kù);以及通過(guò)識(shí)別在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中有意義的關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)引擎處理在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的信息,其中該知識(shí)發(fā)現(xiàn)引擎識(shí)別在數(shù)據(jù)來(lái)源中對(duì)象與藥物的一個(gè)或多個(gè)同現(xiàn),識(shí)別介于該對(duì)象與該藥物間共享與隱含的關(guān)聯(lián),并識(shí)別出一個(gè)或多個(gè)對(duì)象與該至少兩個(gè)藥物的同現(xiàn)指示介于該至少兩個(gè)藥物間的相互影響的可能性。
75.一種用以識(shí)別介于化學(xué)物質(zhì)化合物或生物分子與疾病間的關(guān)聯(lián)的方法,其包含取得由包含一個(gè)或多個(gè)信息領(lǐng)域的數(shù)據(jù)來(lái)源所形成的對(duì)象關(guān)系數(shù)據(jù)庫(kù);以及利用知識(shí)發(fā)現(xiàn)引擎處理在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的信息,其中該知識(shí)發(fā)現(xiàn)引擎識(shí)別在數(shù)據(jù)來(lái)源中對(duì)象、疾病及/或化學(xué)化合物或生物分子的一個(gè)或多個(gè)同現(xiàn),并識(shí)別介于該化學(xué)物質(zhì)化合物或生物分子與疾病間共享與隱含的關(guān)聯(lián)。
76.一種用以產(chǎn)生對(duì)象關(guān)系數(shù)據(jù)庫(kù)的方法,其包含以下步驟編輯一個(gè)或多個(gè)來(lái)自一個(gè)或多個(gè)數(shù)據(jù)來(lái)源的對(duì)象;將該一個(gè)或多個(gè)數(shù)據(jù)來(lái)源中的信息分組至對(duì)象關(guān)系數(shù)據(jù)庫(kù)中;建構(gòu)來(lái)自一個(gè)或多個(gè)數(shù)據(jù)來(lái)源的詞匯變體數(shù)據(jù)庫(kù);將該詞匯變體數(shù)據(jù)庫(kù)與該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的對(duì)象予以比較;通過(guò)該詞匯變體數(shù)據(jù)庫(kù)掃描該對(duì)象關(guān)系數(shù)據(jù)庫(kù)以增加同義字;為每一個(gè)對(duì)象分配唯一的數(shù)值識(shí)別碼,并通過(guò)最低識(shí)別碼優(yōu)先的方式儲(chǔ)存無(wú)指向性關(guān)聯(lián);以及檢查該對(duì)象關(guān)系數(shù)據(jù)庫(kù)的錯(cuò)誤。
77.根據(jù)權(quán)利要求76所述的方法,其中該用以編輯該數(shù)據(jù)庫(kù)對(duì)象的數(shù)據(jù)來(lái)源選自由化學(xué)物質(zhì)化合物、小分子、疾病、顯型、基因、蛋白質(zhì)、臨床數(shù)據(jù)、藥物、來(lái)自ChemID的識(shí)別符、來(lái)自MeSH的識(shí)別符、來(lái)自FDA的識(shí)別符、來(lái)自locuslink的識(shí)別符、來(lái)自GDB的識(shí)別符、來(lái)自HGNC的識(shí)別符、來(lái)自MeSH的識(shí)別符、來(lái)自O(shè)MIM的識(shí)別符所組成的群組。
78.根據(jù)權(quán)利要求76所述的方法,其中用以編輯該數(shù)據(jù)庫(kù)對(duì)象的數(shù)據(jù)來(lái)源包括清單、表格、詞組、段落、摘要、程序、手冊(cè)、教科書(shū)、參考書(shū)、論文、實(shí)驗(yàn)室筆記、信函、備忘錄、電子郵件、目錄、索引、雜志、文章、科學(xué)文獻(xiàn)、專利、專利申請(qǐng)書(shū)、國(guó)際申請(qǐng)案、網(wǎng)頁(yè)、電子表格、統(tǒng)一資源定位符、關(guān)系型數(shù)據(jù)庫(kù)以及前述的結(jié)合。
79.根據(jù)權(quán)利要求76所述的方法,其中掃描一個(gè)或多個(gè)數(shù)據(jù)來(lái)源或一個(gè)或多個(gè)數(shù)據(jù)來(lái)源的部分以提取新對(duì)象。
80.根據(jù)權(quán)利要求76所述的方法,其中該提取步驟包含選擇來(lái)自一個(gè)或多個(gè)數(shù)據(jù)來(lái)源或一個(gè)或多個(gè)數(shù)據(jù)來(lái)源的部分的數(shù)據(jù)上下文中的對(duì)象并確認(rèn)該對(duì)象是否包括于該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中。
81.根據(jù)權(quán)利要求80所述的方法,其中若該對(duì)象并未被包括于該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中,儲(chǔ)存該對(duì)象至該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中。
82.根據(jù)權(quán)利要求80所述的方法,其中與該對(duì)象是否被包括于該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中相關(guān)的信息顯示于圖形用戶界面。
83.根據(jù)權(quán)利要求82所述的方法,其中掃描與選擇的數(shù)據(jù)還顯示于圖形用戶界面。
84.根據(jù)權(quán)利要求76所述的方法,其中在該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的對(duì)象是文本、數(shù)字或符號(hào)。
85.根據(jù)權(quán)利要求76所述的方法,進(jìn)一步包含針對(duì)含糊不清的首字母縮略字利用單詞數(shù)據(jù)庫(kù)過(guò)濾該對(duì)象關(guān)系數(shù)據(jù)庫(kù)的步驟。
86.根據(jù)權(quán)利要求76所述的方法,進(jìn)一步包含利用同義字?jǐn)?shù)據(jù)庫(kù)識(shí)別詞匯變體的步驟。
87.根據(jù)權(quán)利要求76或85所述的方法,進(jìn)一步包含利用首字母縮略字分解算法識(shí)別詞匯變體的步驟。
88.根據(jù)權(quán)利要求76所述的方法,進(jìn)一步包含提供來(lái)自該數(shù)據(jù)庫(kù)中的該數(shù)據(jù)來(lái)源的文本的上下文中的對(duì)象的步驟。
89.根據(jù)權(quán)利要求76所述的方法,進(jìn)一步包含減少在該數(shù)據(jù)來(lái)源中的重復(fù)的步驟。
90.根據(jù)權(quán)利要求89所述的方法,其中該減少在該數(shù)據(jù)來(lái)源中的重復(fù)的方法包含以下步驟輸入來(lái)自來(lái)源的文本區(qū)段;自該來(lái)源提取信息以產(chǎn)生記錄;解析該記錄至句子;解析該句子至單詞;產(chǎn)生一個(gè)或多個(gè)陣列以依據(jù)該對(duì)象關(guān)系數(shù)據(jù)庫(kù)中的詞組匹配該單詞;標(biāo)示首字母縮略字;以及將該首字母縮略字儲(chǔ)存至詞匯變體數(shù)據(jù)庫(kù)中。
91.一種用以識(shí)別新的相關(guān)關(guān)聯(lián)的方法,其包含以下步驟識(shí)別來(lái)自數(shù)據(jù)來(lái)源的一個(gè)或多個(gè)主題集群;編輯來(lái)自一個(gè)或多個(gè)主題集群的對(duì)象數(shù)據(jù)庫(kù);精練該對(duì)象數(shù)據(jù)庫(kù)以減少重復(fù);針對(duì)同現(xiàn)的對(duì)象掃描來(lái)自數(shù)據(jù)來(lái)源的主題集合;將該同現(xiàn)對(duì)象識(shí)別為關(guān)聯(lián);針對(duì)與一個(gè)或多個(gè)對(duì)象有關(guān)的統(tǒng)計(jì)的關(guān)聯(lián)分析該識(shí)別出的關(guān)聯(lián);產(chǎn)生一個(gè)或多個(gè)關(guān)聯(lián)數(shù)據(jù)庫(kù);以及儲(chǔ)存該關(guān)聯(lián)與關(guān)聯(lián)數(shù)據(jù)庫(kù)。
92.根據(jù)權(quán)利要求91所述的方法,其中編輯該對(duì)象的數(shù)據(jù)庫(kù)進(jìn)一步包含以下步驟產(chǎn)生被共同分組的關(guān)注信息組;識(shí)別涵蓋相似信息群組的數(shù)據(jù)庫(kù);預(yù)先處理該數(shù)據(jù)庫(kù)項(xiàng)目至預(yù)先定義的格式;解析該項(xiàng)目;以及依據(jù)預(yù)先定義的標(biāo)準(zhǔn)檢查錯(cuò)誤以移除不關(guān)注的項(xiàng)目。
93.根據(jù)權(quán)利要求91所述的方法,其中精練該對(duì)象數(shù)據(jù)庫(kù)的步驟進(jìn)一步包含針對(duì)詞匯變體利用單詞數(shù)據(jù)庫(kù)標(biāo)示含糊不清的首字母縮略字的步驟。
94.根據(jù)權(quán)利要求91所述的方法,其中精練該對(duì)象數(shù)據(jù)庫(kù)的步驟進(jìn)一步包含針對(duì)該同現(xiàn)的對(duì)象的存在掃描來(lái)源的步驟以減少重復(fù)并產(chǎn)生關(guān)聯(lián),該步驟包含輸入來(lái)自來(lái)源的文本區(qū)段;自該文本區(qū)段提取數(shù)據(jù);解析該數(shù)據(jù)至句子;解析每一個(gè)句子至單詞;輸入該單詞至一個(gè)或多個(gè)陣列;針對(duì)匹配依據(jù)來(lái)自任何陣列的單詞匹配該對(duì)象數(shù)據(jù)庫(kù);以及確認(rèn)介于該對(duì)象數(shù)據(jù)庫(kù)與來(lái)自該陣列的單詞間是否存在匹配。
95.根據(jù)權(quán)利要求94所述的方法,其中識(shí)別在該關(guān)系數(shù)據(jù)庫(kù)中的關(guān)聯(lián)的步驟包含為每一個(gè)對(duì)象分配唯一的數(shù)值識(shí)別碼;以及通過(guò)最低識(shí)別碼優(yōu)先的方式儲(chǔ)存無(wú)指向性關(guān)聯(lián)。
96.根據(jù)權(quán)利要求94所述的方法,其中識(shí)別在該關(guān)系數(shù)據(jù)庫(kù)中的關(guān)聯(lián)的步驟包含在用戶輸入一個(gè)或多個(gè)用于分析的對(duì)象清單后識(shí)別出共享的關(guān)聯(lián);編輯所有一個(gè)或多個(gè)針對(duì)每一個(gè)對(duì)象的所有關(guān)聯(lián)的清單至單一的清單;通過(guò)頻率計(jì)數(shù)關(guān)聯(lián)對(duì)象;以及計(jì)算期望值。
97.根據(jù)權(quán)利要求85所述的方法,進(jìn)一步包含以下步驟排除具有低于總體可能連接的x%或低于實(shí)際/期望比例的y%的共享對(duì)象;針對(duì)每一個(gè)共享的關(guān)聯(lián)識(shí)別隱含的關(guān)聯(lián)對(duì)象;以及通過(guò)直接實(shí)際/期望比例與至該隱含的對(duì)象的唯一路徑的數(shù)量相乘之積評(píng)分隱含的關(guān)聯(lián)對(duì)象。
98.根據(jù)權(quán)利要求97所述的方法,其中用戶改變?cè)摽傮w可能連接的x%以改變隱含的關(guān)聯(lián)的分?jǐn)?shù)。
99.根據(jù)權(quán)利要求97所述的方法,其中用戶改變?cè)搶?shí)際/期望比例的y%以改變隱含的關(guān)聯(lián)的分?jǐn)?shù)。
100.根據(jù)權(quán)利要求97所述的方法,其中該相關(guān)關(guān)聯(lián)介于藥物、化學(xué)物質(zhì)化合物、小分子、顯型、疾病、基因、基因類型以及前述的結(jié)合之間。
101.一種評(píng)估介在一個(gè)或多個(gè)對(duì)象間直接關(guān)聯(lián)的方法包含以下步驟計(jì)算介于一個(gè)或多個(gè)第一、第二與第三個(gè)對(duì)象間關(guān)聯(lián)強(qiáng)度向量;針對(duì)該一個(gè)或多個(gè)第一、第二與第三個(gè)對(duì)象從來(lái)源影響分?jǐn)?shù)的數(shù)據(jù)庫(kù)取得來(lái)源影響分?jǐn)?shù);以及將該強(qiáng)度向量與針對(duì)該一個(gè)或多個(gè)第一、第二與第三個(gè)對(duì)象的來(lái)源影響分?jǐn)?shù)相乘。
102.根據(jù)權(quán)利要求101所述的方法,其中該來(lái)源影響分?jǐn)?shù)取決于取得該一個(gè)或多個(gè)對(duì)象的出版物。
103.根據(jù)權(quán)利要求101所述的方法,其中該來(lái)源影響分?jǐn)?shù)取決于該一個(gè)或多個(gè)對(duì)象的來(lái)源為其它來(lái)源所引用的次數(shù)。
103.根據(jù)權(quán)利要求101所述的方法,其中該來(lái)源影響分?jǐn)?shù)取決于該一個(gè)或多個(gè)對(duì)象的來(lái)源為論文所引用的次數(shù)。
104.根據(jù)權(quán)利要求101所述的方法,其中該來(lái)源影響分?jǐn)?shù)取決于該一個(gè)或多個(gè)對(duì)象的來(lái)源為一本或多本教科書(shū)所引用的次數(shù)。
105.根據(jù)權(quán)利要求101所述的方法,其中該來(lái)源影響分?jǐn)?shù)系取決于該一個(gè)或多個(gè)對(duì)象的來(lái)源為評(píng)論文獻(xiàn)所引用的次數(shù)。
106.根據(jù)權(quán)利要求101所述的方法,其中該來(lái)源影響分?jǐn)?shù)依據(jù)其被評(píng)估的重要與關(guān)聯(lián)給定分?jǐn)?shù)。
107.根據(jù)權(quán)利要求101所述的方法,其中該來(lái)源影響分?jǐn)?shù)依據(jù)一個(gè)或多個(gè)對(duì)象的來(lái)源發(fā)布在同等級(jí)的評(píng)論期刊的次數(shù)給定分?jǐn)?shù)。
108.根據(jù)權(quán)利要求101所述的方法,其中較高的影響分?jǐn)?shù)表示較高的重要與關(guān)聯(lián)。
109.一種嵌入計(jì)算機(jī)可讀介質(zhì)用以存取知識(shí)領(lǐng)域的計(jì)算機(jī)程序,其包含用以容納包含一個(gè)或多個(gè)信息領(lǐng)域的數(shù)據(jù)來(lái)源的程序代碼區(qū)段;用以維護(hù)對(duì)象關(guān)系型數(shù)據(jù)庫(kù)的程序代碼區(qū)段;以及用以容納執(zhí)行檢索、分類、排列、過(guò)濾以及檢索兩個(gè)或多個(gè)對(duì)象間的關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)引擎的程序代碼區(qū)段。
110.一種嵌入計(jì)算機(jī)可讀介質(zhì)用以產(chǎn)生對(duì)象關(guān)系數(shù)據(jù)庫(kù)的計(jì)算機(jī)程序,其包含用以編輯一個(gè)或多個(gè)數(shù)據(jù)庫(kù)對(duì)象的程序代碼區(qū)段;用以分組一個(gè)或多個(gè)數(shù)據(jù)庫(kù)中的信息至對(duì)象關(guān)系數(shù)據(jù)庫(kù)的程序代碼區(qū)段;用以建構(gòu)來(lái)自一個(gè)或多個(gè)數(shù)據(jù)庫(kù)的詞匯變體數(shù)據(jù)庫(kù)的程序代碼區(qū)段;用以利用詞匯變體數(shù)據(jù)庫(kù)掃描該對(duì)象關(guān)系數(shù)據(jù)庫(kù)以增加同義字的程序代碼區(qū)段;用以為每一個(gè)對(duì)象分配唯一的數(shù)值識(shí)別碼并通過(guò)最低識(shí)別碼優(yōu)先的方式儲(chǔ)存無(wú)指向性關(guān)聯(lián)的程序代碼區(qū)段;以及用以檢查該對(duì)象關(guān)系數(shù)據(jù)庫(kù)錯(cuò)誤的程序代碼區(qū)段。
111.一種包含針對(duì)通過(guò)包含以下步驟的方法所產(chǎn)生的新藥物療法的多個(gè)候選化合物的數(shù)據(jù)結(jié)構(gòu)存取包含一個(gè)或多個(gè)信息領(lǐng)域的數(shù)據(jù)來(lái)源;編輯該信息領(lǐng)域至對(duì)象關(guān)系數(shù)據(jù)庫(kù)用以集成來(lái)自該一個(gè)或多個(gè)信息領(lǐng)域的對(duì)象;以及利用知識(shí)發(fā)現(xiàn)引擎,以識(shí)別、檢索、分類、排列、過(guò)濾以及數(shù)值評(píng)估兩個(gè)或多個(gè)集成的對(duì)象間的關(guān)聯(lián)。
112.一種包含針對(duì)通過(guò)包含以下步驟的方法所產(chǎn)生的評(píng)估的多個(gè)候選化合物的數(shù)據(jù)結(jié)構(gòu)取得由包含一個(gè)或多個(gè)信息數(shù)據(jù)庫(kù)的數(shù)據(jù)來(lái)源所產(chǎn)生的對(duì)象關(guān)系數(shù)據(jù)庫(kù);以及利用知識(shí)發(fā)現(xiàn)引擎處理一個(gè)或多個(gè)對(duì)象以由數(shù)據(jù)來(lái)源識(shí)別出有意義的關(guān)聯(lián),其包含以下步驟由數(shù)據(jù)來(lái)源識(shí)別一個(gè)或多個(gè)對(duì)象的同現(xiàn);產(chǎn)生關(guān)聯(lián)的綜合網(wǎng)絡(luò);以及儲(chǔ)存利用一個(gè)或多個(gè)統(tǒng)計(jì)上有界的網(wǎng)絡(luò)模型所評(píng)估的共享的關(guān)聯(lián),其中是在共享的關(guān)聯(lián)上執(zhí)行詢問(wèn)以自該關(guān)聯(lián)的綜合網(wǎng)絡(luò)識(shí)別出新的關(guān)聯(lián)。
113.一種用以針對(duì)化合物識(shí)別先前未識(shí)別的用途的方法,其包含以下步驟取得由包含一個(gè)或多個(gè)包括與該化合物相關(guān)的信息的信息領(lǐng)域所形成的對(duì)象關(guān)系數(shù)據(jù)庫(kù);以及利用知識(shí)發(fā)現(xiàn)引擎處理在該數(shù)據(jù)來(lái)源中的信息,該知識(shí)發(fā)現(xiàn)引擎通過(guò)識(shí)別在數(shù)據(jù)來(lái)源中一個(gè)或多個(gè)對(duì)象的同現(xiàn)識(shí)別介于藥物與一個(gè)或多個(gè)對(duì)象間有意義的關(guān)聯(lián);產(chǎn)生關(guān)聯(lián)的綜合網(wǎng)絡(luò);以及儲(chǔ)存利用一個(gè)或多個(gè)統(tǒng)計(jì)上有界的網(wǎng)絡(luò)模型所評(píng)估的共享的關(guān)聯(lián)。
114.一種治療心室肥大的方法,其包含以下步驟確認(rèn)患者需要心室肥大的治療;以及提供該患者利用包含″心室肥大″術(shù)語(yǔ)的詢問(wèn)通過(guò)權(quán)利要求第1項(xiàng)的系統(tǒng)所識(shí)別出的化合物的有效劑量。
115.一種治療心室肥大的方法,其包含以下步驟提供給需要治療的患者一份有效劑量的氯丙嗪。
116.一種治療心室肥大的方法,其包含以下步驟提供需要治療的患者有效劑量的氯丙嗪。
117.一種治療心室肥大的方法,其包含以下步驟提供需要治療的患者有效劑量的化合物(構(gòu)成其它權(quán)利要求項(xiàng)的化合物群組可在結(jié)合治療中結(jié)合使用),該化合物選自由″Naloxone″、″Naltrexone″、″Triiodothyronine″、″Clonidine″、″Estrogen″,″Tamoxifen″、″Colchicine″、″Bradykinin″,″Omapatrilat″、″Apstatin″、″COX-2selective inhibitor″、″5-LOX inhibitor″、″Thromboxane A2 Receptor Antagonist″、″Melatonin″、″Morphine″、″Warfarin/Heparin″、″Cortisol″以及″Methionine″所組成的群組。
118.一種治療患者非胰島素依存型糖尿病的方法,其包含以下步驟確認(rèn)患者需要非胰島素依存型糖尿病的治療;以及提供該患者通過(guò)權(quán)利要求第1項(xiàng)的系統(tǒng)所識(shí)別出的化合物的有效劑量。
119.一種治療患者非胰島素依存型糖尿病的方法,其包含以下步驟給予需要治療非胰島素依存型糖尿病的患者增加細(xì)胞核酸的甲基化反應(yīng)的化合物的有效劑量。
120.一種治療患者非胰島素依存型糖尿病的方法,其包含以下步驟給予需要治療非胰島素依存型糖尿病的患者DNA甲基化反應(yīng)前導(dǎo)的有效劑量。
121.一種針對(duì)處于非胰島素依存型糖尿病風(fēng)險(xiǎn)的患者的營(yíng)養(yǎng)補(bǔ)充劑,其包含有效正?;疍NA甲基化反應(yīng)的程度劑量的一個(gè)或多個(gè)單位的DNA甲基化反應(yīng)前導(dǎo)。
122.一種治療偏頭痛的方法,其包含以下步驟確認(rèn)患者需要偏頭痛的治療;以及提供該患者有效劑量的西地那非。
123.一種治療肌肉痙孿的方法,其包含以下步驟確認(rèn)患者需要肌肉痙孿的治療;以及提供該患者有效劑量的西地那非。
124.一種用以自動(dòng)化篩選的系統(tǒng),其包含根據(jù)權(quán)利要求1所述的系統(tǒng),其中該對(duì)象關(guān)系數(shù)據(jù)庫(kù)包括對(duì)象,該對(duì)象是核酸或蛋白質(zhì)序列或該序列的識(shí)別符;寡核苷酸選擇模塊利用該知識(shí)發(fā)現(xiàn)引擎依據(jù)介于對(duì)象與基因間相應(yīng)于該核酸及/或蛋白質(zhì)序列及/或該序列的識(shí)別符的關(guān)聯(lián)選擇核酸序列,并提供指令至DNA芯片組合裝置以在固態(tài)襯底上固定選定的核酸序列。
125.根據(jù)權(quán)利要求124所述的方法,其中通過(guò)該系統(tǒng)的用戶提供該指令至該裝置。
126.根據(jù)權(quán)利要求124所述的方法,其中該核酸序列已通過(guò)該系統(tǒng)予以識(shí)別為具有與非胰島素依存型糖尿病的關(guān)聯(lián)。
127.一種用以數(shù)值化分配重要性給利用權(quán)利要求1的系統(tǒng)所識(shí)別出的每一個(gè)關(guān)聯(lián),其包含以下步驟識(shí)別一個(gè)或多個(gè)在信息領(lǐng)域的一個(gè)或多個(gè)主題集合中的對(duì)象的同現(xiàn);以及評(píng)估該一個(gè)或多個(gè)對(duì)象的同現(xiàn)表示在一個(gè)或多個(gè)主題集合中有意義的關(guān)聯(lián)的幾率。
128.根據(jù)權(quán)利要求127所述的方法,其中該重要性系兩個(gè)對(duì)象于信息領(lǐng)域的主題集合中同現(xiàn)的次數(shù)的函數(shù)。
129.根據(jù)權(quán)利要求127所述的方法,其中該重要性是該介于兩個(gè)對(duì)象間的文本距離的函數(shù)。
130.根據(jù)權(quán)利要求127所述的方法,其中該重要性取決于該主題集合的外部測(cè)量,其中該外部測(cè)量選自由重要性、關(guān)聯(lián)性以及品質(zhì)所組成的群組。
131.根據(jù)權(quán)利要求127所述的方法,其中該重要性包括在時(shí)間上一個(gè)或多個(gè)同現(xiàn)模式的評(píng)估。
132.根據(jù)權(quán)利要求127所述的方法,其中自然語(yǔ)言處理引擎用以識(shí)別一個(gè)或多個(gè)對(duì)象的同現(xiàn)。
133.根據(jù)權(quán)利要求127所述的方法,其中在該主題集合中的上下文的信息用以分配重要性。
134.根據(jù)權(quán)利要求133所述的方法,其中在該文本的主題單元中的上下文的信息用以分配該關(guān)聯(lián)的屬性。
135.根據(jù)權(quán)利要求127所述的方法,其中該重要性是真實(shí)。
136.一種尋找隱含關(guān)聯(lián)的方法,其包含以下步驟識(shí)別一個(gè)或多個(gè)對(duì)象與一個(gè)或多個(gè)詢問(wèn)對(duì)象直接關(guān)聯(lián)為直接關(guān)聯(lián)對(duì)象的集合;識(shí)別與該直接關(guān)聯(lián)對(duì)象的集合相關(guān)聯(lián)的一個(gè)或多個(gè)對(duì)象為隱含關(guān)聯(lián)對(duì)象的集合;以及量化評(píng)估每一個(gè)隱含關(guān)聯(lián)對(duì)象以通過(guò)取得重要性分?jǐn)?shù)以及真實(shí)分?jǐn)?shù)確認(rèn)其共享有意義的關(guān)聯(lián)的幾率。
137.根據(jù)權(quán)利要求136所述的方法,其中量化評(píng)估進(jìn)一步包含統(tǒng)計(jì)上相似關(guān)聯(lián)可隨機(jī)被觀察到的幾率。
138.根據(jù)權(quán)利要求136所述的方法,其中利用以下的公式P(A↔B1n)=Σ1n1-(1-KANt)*(1-KB1nNt)]]>
139.一種識(shí)別由包含多個(gè)對(duì)象的集合中的一個(gè)或多個(gè)對(duì)象所共享的關(guān)聯(lián)的方法,其包含以下步驟列舉對(duì)象的集合;自該數(shù)據(jù)來(lái)源識(shí)別出與該集合相關(guān)的所有新對(duì)象;以及量化評(píng)估該新對(duì)象與該集合相關(guān)聯(lián)的統(tǒng)計(jì)上重要性。
140.根據(jù)權(quán)利要求139所述的方法,其中鏈接其它對(duì)象至該集合的對(duì)象被識(shí)別出并用以識(shí)別與該集合所常見(jiàn)的一個(gè)或多個(gè)關(guān)聯(lián)。
141.根據(jù)權(quán)利要求139所述的方法,其中在該集合中的一個(gè)或多個(gè)主題分類依據(jù)其內(nèi)聚性從隨機(jī)的分組中識(shí)別和區(qū)分。
142.根據(jù)權(quán)利要求139所述的方法,其中當(dāng)該統(tǒng)計(jì)上重要性符合選定值時(shí)增加該新對(duì)象至該集合。
143.根據(jù)權(quán)利要求139所述的方法,其中至少一個(gè)對(duì)象對(duì)應(yīng)于排列在微陣列上的生物分子、鍵合至該陣列的生物分子、基因、生物分子表現(xiàn)值、顯型、疾病、小分子、化學(xué)物質(zhì)化合物、新陳代謝、藥物、治療劑、候選基因、表現(xiàn)的序列以及前述的結(jié)合。
144.根據(jù)權(quán)利要求143所述的方法,其中該表現(xiàn)值包含″0″或″1″,其中″0″是不表現(xiàn)而″1″為表現(xiàn)。
145.根據(jù)權(quán)利要求143所述的方法,其中該表現(xiàn)值包含該表現(xiàn)的量化評(píng)估。
146.根據(jù)權(quán)利要求143所述的方法,其中該集合包含對(duì)象,該對(duì)象包括表現(xiàn)值以及包含表現(xiàn)值的新對(duì)象。
147.根據(jù)權(quán)利要求146所述的方法,其中該新對(duì)象的表現(xiàn)值被評(píng)估以確認(rèn)其與該集合的已知對(duì)象間的關(guān)聯(lián)。
148.根據(jù)權(quán)利要求139所述的方法,其中該新對(duì)象與該集合共享有意義的關(guān)聯(lián)的幾率的量化評(píng)估是通過(guò)取得重要性分?jǐn)?shù)與真實(shí)分?jǐn)?shù)來(lái)確定。
149.根據(jù)權(quán)利要求139所述的方法,其中量化評(píng)估進(jìn)一步包含統(tǒng)計(jì)上相似關(guān)聯(lián)可隨機(jī)被觀察到的幾率。
150.一種包含顯示于圖25中的隱含關(guān)聯(lián)的數(shù)據(jù)結(jié)構(gòu)。
151.一種儲(chǔ)存于計(jì)算機(jī)可讀介質(zhì)包含用以執(zhí)行權(quán)利要求第1、30、35、38、40或42及124項(xiàng)的系統(tǒng)功能的程序代碼的計(jì)算機(jī)程序產(chǎn)品。
152.根據(jù)權(quán)利要求第71項(xiàng)的方法,其中該藥物是西地那非。
全文摘要
一種用以存取信息領(lǐng)域以識(shí)別先前未知的不同數(shù)據(jù)來(lái)源間的關(guān)聯(lián)以尋找及取得知識(shí)的系統(tǒng)與方法,該系統(tǒng)與方法包括具有一個(gè)或多個(gè)信息領(lǐng)域的數(shù)據(jù)來(lái)源,用以集成來(lái)自一個(gè)或多個(gè)數(shù)據(jù)來(lái)源的對(duì)象的對(duì)象關(guān)系數(shù)據(jù)庫(kù)以及用以識(shí)別、檢索、分類、排列、過(guò)濾以及數(shù)值評(píng)估兩個(gè)或多個(gè)對(duì)象間的關(guān)聯(lián)的知識(shí)發(fā)現(xiàn)引擎。
文檔編號(hào)G06F7/00GK1701343SQ03825294
公開(kāi)日2005年11月23日 申請(qǐng)日期2003年9月19日 優(yōu)先權(quán)日2002年9月20日
發(fā)明者H·R·加恩, J·D·雷恩 申請(qǐng)人:德克薩斯大學(xué)董事會(huì)