欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種生物醫(yī)學(xué)事件的觸發(fā)詞標(biāo)注系統(tǒng)及方法

文檔序號(hào):9506170閱讀:1046來源:國知局
一種生物醫(yī)學(xué)事件的觸發(fā)詞標(biāo)注系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種生物醫(yī)學(xué)事件的觸發(fā)詞標(biāo)注方法及系統(tǒng),屬于計(jì)算機(jī)與信息技術(shù) 領(lǐng)域。
【背景技術(shù)】
[0002] 生物和信息技術(shù)的發(fā)展讓生命科學(xué)的實(shí)驗(yàn)研究越來越深入,來自生命科學(xué)各個(gè)層 次的實(shí)驗(yàn)數(shù)據(jù)正在從各個(gè)角度越來越全面的揭示生命的奧秘。記載這些生命奧秘的生物醫(yī) 學(xué)文獻(xiàn)數(shù)量也呈現(xiàn)出指數(shù)級(jí)地增長,加之其媒體形式的多樣性和結(jié)構(gòu)上復(fù)雜性讓這些文獻(xiàn) 成為當(dāng)下名副其實(shí)的大數(shù)據(jù)。截至2014年底,美國國家醫(yī)學(xué)圖書館(即NCBI)數(shù)據(jù)庫就有 超過2400萬條生物醫(yī)學(xué)文獻(xiàn)的引文記錄。神奇莫測(cè)的生命信息都像一顆顆珍珠散落在這 些海量生物科技文獻(xiàn)里,而對(duì)于醫(yī)學(xué)利用人員來說,精準(zhǔn)檢索這些信息猶如大海撈針,如何 將這些珍珠有效地穿起一條項(xiàng)鏈,方便被利用是目前生物信息技術(shù)的一個(gè)很重要的研究任 務(wù)。
[0003] BioNLP2009的任務(wù)中就開始關(guān)注生物醫(yī)學(xué)事件抽取,也稱之為分子事件抽取,其 目標(biāo)就是要從非結(jié)構(gòu)化的文本數(shù)據(jù)中將描述分子層面蛋白質(zhì)所發(fā)生的事件類型,事件動(dòng)作 和事件主體抽取出來,如 "Down-regulation of interferon regulatory factor 4gene expression in leukemic cells due to hypermethylation of CpG motifs in the promoter region·",其中"interferon regulatory factor 4"為蛋白質(zhì)分子D 該語句中 有兩個(gè)事件,分別是:
[0004] El (事件類型:Negative_regulation,觸發(fā)詞:Down_regulation,主體:E2)
[0005] E2 (事件類型:Gene_expression,觸發(fā)詞〖expression,主體:interferon regulatory factor 4)
[0006] 生物醫(yī)學(xué)事件抽取的關(guān)鍵就是觸發(fā)詞標(biāo)注,標(biāo)出觸發(fā)詞的種類,為生物醫(yī)學(xué)事件 抽取奠定基礎(chǔ)。
[0007] 生物醫(yī)學(xué)事件抽取流程一般分為兩步,第一步識(shí)別出生物醫(yī)學(xué)事件的觸發(fā)詞,第 二步則是識(shí)別出事件的元素或者說參與事件的主體。第一步是關(guān)鍵,也是本發(fā)明需要解決 的問題。目前識(shí)別觸發(fā)詞的方法主要分為三類,即基于字典的方法、基于規(guī)則的方法和機(jī)器 學(xué)習(xí)的方法?;谧值涞氖录|發(fā)詞識(shí)別需要先建立一個(gè)觸發(fā)詞字典,當(dāng)有字典中的詞出 現(xiàn)即判定為觸發(fā)詞。
[0008] 上述基于字典的方法的結(jié)果依賴于字典的完備性,當(dāng)有新的觸發(fā)詞出現(xiàn)時(shí),識(shí)別 性能就會(huì)下降?;谝?guī)則的觸發(fā)詞識(shí)別方法類似于編譯器的詞法分析,先建立一套文法規(guī) 則或者產(chǎn)生式來識(shí)別觸發(fā)詞,凡是能夠依規(guī)則生成的詞或者依規(guī)則歸約到起始符的詞都認(rèn) 為是觸發(fā)詞。但是,該方法與基于字典的方法類似,其結(jié)果也是依賴于規(guī)則的完備性?;?機(jī)器學(xué)習(xí)的方法,就是使用統(tǒng)計(jì)的方法將觸發(fā)詞識(shí)別看成分類問題,選擇合適的特征和適 當(dāng)?shù)姆诸惼鱽硗瓿?。該方法與前兩種方法相比更加智能,推廣能力更強(qiáng)。但是也存在不能 充分利用上下文信息,需要假設(shè)特征輸出獨(dú)立性等缺點(diǎn)。所以如何避免假設(shè)特征輸出獨(dú)立 性,更加真實(shí)地對(duì)序列中的相互作用的特征進(jìn)行建模,使觸發(fā)詞特征更加全局化,且有效提 高事件觸發(fā)詞的識(shí)別性能是急需解決的問題。而本發(fā)明能夠很好地解決上面的問題。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明目的在于提供了一種生物醫(yī)學(xué)事件的觸發(fā)詞標(biāo)注系統(tǒng)及方法,該系統(tǒng)對(duì)原 始文本進(jìn)行事件觸發(fā)詞標(biāo)注,得到生物醫(yī)學(xué)事件的觸發(fā)詞,為生物醫(yī)學(xué)事件抽取奠定基礎(chǔ); 提供一種事件觸發(fā)詞標(biāo)注系統(tǒng)的實(shí)現(xiàn)方法,該方法對(duì)觀察序列不做任何假設(shè),使得事件觸 發(fā)詞特征更加全局化且有效提高觸發(fā)詞識(shí)別性能。
[0010] 本發(fā)明解決其技術(shù)問題所采取的技術(shù)方案:一種生物醫(yī)學(xué)事件的觸發(fā)詞標(biāo)注系 統(tǒng),該系統(tǒng)包括預(yù)處理模塊、標(biāo)注模型建立模塊和標(biāo)注模塊,如圖1所示。
[0011] 預(yù)處理模塊用于為訓(xùn)練和測(cè)試準(zhǔn)備好標(biāo)記樣本,主要包括獲得分詞單元、蛋白質(zhì) 分子識(shí)別單元、特征抽取單元和預(yù)標(biāo)記單元。
[0012] 分詞單元:用于將原始的文本分隔成單詞序列;
[0013] 蛋白質(zhì)分子識(shí)別單元:用于識(shí)別單詞序列中得蛋白質(zhì)分子,有大量蛋白質(zhì)分子全 稱是由多個(gè)單詞甚至還有希臘字母和數(shù)字組成,為了排除這些詞對(duì)觸發(fā)詞標(biāo)注的干擾,將 識(shí)別出的蛋白質(zhì)分子都統(tǒng)一替換成Protein+數(shù)字的形式;
[0014] 特征抽取單元:用于抽取蛋白質(zhì)分子的句法特征和語義特征,并獲取相應(yīng)的特征 向量;
[0015] 預(yù)標(biāo)記單元:用于為訓(xùn)練和測(cè)試CRFs觸發(fā)詞標(biāo)注模型而準(zhǔn)備標(biāo)記樣本,預(yù)先標(biāo)記 觸發(fā)詞的真值;
[0016] 標(biāo)注模型建立模塊用于建立特征模板,生成序列的特征函數(shù)的集合,估計(jì)CRFs模 型參數(shù),建立CRFs觸發(fā)詞標(biāo)注模型。
[0017] 標(biāo)注模塊用于利用所建立的CRFs觸發(fā)詞標(biāo)注模型標(biāo)注未知的單詞序列,其標(biāo)記 序列的聯(lián)合概率最大值所對(duì)應(yīng)的標(biāo)記序列,即為標(biāo)注結(jié)果。
[0018] 本發(fā)明還提供了一種生物醫(yī)學(xué)事件的觸發(fā)詞標(biāo)注系統(tǒng)的實(shí)現(xiàn)方法,該方法是基于 機(jī)器學(xué)習(xí),但不是孤立的簡單的對(duì)詞進(jìn)行分類,而是從序列數(shù)據(jù)本身出發(fā),利用條件隨機(jī)域 模型,在給定需要標(biāo)記的觀察序列條件下,計(jì)算整個(gè)標(biāo)記序列的聯(lián)合概率,而不是在給定當(dāng) 前狀態(tài)條件下,定義下一個(gè)狀態(tài)的分布。標(biāo)記序列的分布條件屬性可以讓CRFs很好的擬合 序列數(shù)據(jù),在這些數(shù)據(jù)中標(biāo)記序列的條件概率依賴于觀察序列中非獨(dú)立的、相互作用的特 征。方法包括三步,即:序列文本預(yù)處理、訓(xùn)練、標(biāo)注,如圖3所示。
[0019] 方法流程:
[0020] 步驟1 :序列文本預(yù)處理
[0021] 序列文本預(yù)處理的目標(biāo)就是為訓(xùn)練CRFs觸發(fā)詞標(biāo)注模型過程中的參數(shù)估計(jì)準(zhǔn)備 好訓(xùn)練樣本,為評(píng)估性能準(zhǔn)備好測(cè)試樣本,包括四個(gè)子步驟:分詞、蛋白質(zhì)分子識(shí)別、特征抽 取和預(yù)標(biāo)記。
[0022] 步驟1-1 :分詞
[0023] 分詞是將原始的文本語句分成單詞的序列,與中文文本相比,英文的單詞間有天 然的空格作為分隔符,所以分詞相對(duì)簡單,分詞之后每行一個(gè)單詞,標(biāo)點(diǎn)符號(hào)也占一行,語 句之間留一空行作為分隔。
[0024] 步驟1-2 :蛋白質(zhì)分子識(shí)別
[0025] 生物醫(yī)學(xué)事件的觸發(fā)詞標(biāo)注是在已知蛋白質(zhì)分子的條件下進(jìn)行的,所以在特征抽 取之前需要利用abner(-種命名實(shí)體識(shí)別工具)識(shí)別出原始文本中的蛋白質(zhì)分子。有大 量蛋白質(zhì)分子全稱是由多個(gè)單詞甚至還有希臘字母和數(shù)字組成,也有的是以縮寫詞的形式 存在,例如蛋白質(zhì)分子"interferon regulatory factor 4"也可以寫成"IRF-4",為了排 除這些詞的書寫形式多樣性對(duì)觸發(fā)詞標(biāo)注的干擾,將識(shí)別出的蛋白質(zhì)分子都統(tǒng)一替換成 Protein+數(shù)字的形式。
[0026] 步驟1-3 :特征抽取
[0027] 特征抽取,抽取單詞句法特征和語義特征。
[0028] 句法特征又包括詞形特征、詞性特征、ngram上下文特征。
[0029] 語義特征也叫依存關(guān)系特征包括語義ngram特征、與protein的最短距離特征。
[0030] 這些特征按照向量形式組織在與單詞同一行的不同列中,中間以制表符分隔。
[0031] 步驟1-4 :預(yù)標(biāo)記
[0032] 預(yù)標(biāo)記就是為了訓(xùn)練和測(cè)試,人工準(zhǔn)備足夠多的訓(xùn)練樣本,樣本的真值由領(lǐng)域?qū)?家根據(jù)領(lǐng)域知識(shí)和經(jīng)驗(yàn)對(duì)單詞序列進(jìn)行預(yù)標(biāo)記。
[0033] 步驟2:訓(xùn)練
[0034] 訓(xùn)練過程就是利用上述準(zhǔn)備好的訓(xùn)練樣本估計(jì)特征函數(shù)的權(quán)值參數(shù),來確定標(biāo)記 序列的條件概率,為了描述清楚,先給出條件隨機(jī)域的定義。設(shè)X為觀測(cè)數(shù)據(jù)序列,Y為其 對(duì)應(yīng)的標(biāo)記序列,P (YIX)為給定隨機(jī)變
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
昭平县| 兴山县| 柳林县| 长汀县| 齐齐哈尔市| 昌邑市| 巍山| 蓝田县| 连山| 克东县| 永康市| 德安县| 嵊州市| 大城县| 日土县| 临清市| 海原县| 新蔡县| 宁强县| 定边县| 尼玛县| 黄大仙区| 阿勒泰市| 靖安县| 富顺县| 社旗县| 汕头市| 汉川市| 天津市| 临潭县| 浑源县| 灵宝市| 恭城| 锡林浩特市| 莱芜市| 南投县| 揭西县| 乐昌市| 东光县| 钟山县| 濮阳县|