欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種中醫(yī)針灸領(lǐng)域知識(shí)自動(dòng)抽取的實(shí)現(xiàn)方法

文檔序號(hào):9217167閱讀:640來源:國(guó)知局
一種中醫(yī)針灸領(lǐng)域知識(shí)自動(dòng)抽取的實(shí)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種知識(shí)抽取技術(shù),尤其涉及一種中醫(yī)針灸領(lǐng)域知識(shí)自動(dòng)抽取的實(shí)現(xiàn) 方法。
【背景技術(shù)】
[0002] 術(shù)語(yǔ)解釋:
[0003] (1)中醫(yī)針灸領(lǐng)域的術(shù)語(yǔ):主要涉及經(jīng)絡(luò)、腧穴、針灸療法、中醫(yī)學(xué)病癥名及其他 含義抽象的針灸學(xué)術(shù)語(yǔ)。本技術(shù)方案將中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)分為如下五類:
[0004] ①經(jīng)絡(luò)術(shù)語(yǔ):指運(yùn)行氣血、聯(lián)系臟腑和體表及全身各部的通道,包括:十二經(jīng)脈、 奇經(jīng)八脈、十五絡(luò)脈等。
[0005] ②腧穴術(shù)語(yǔ):指人體經(jīng)絡(luò)線上特殊的點(diǎn)區(qū)部位,多為神經(jīng)末梢和血管較少的地方, 中醫(yī)可以通過針灸或者推拿、點(diǎn)按、艾炙刺激相應(yīng)的經(jīng)絡(luò)點(diǎn)來治療疾病。
[0006] ③針灸療法術(shù)語(yǔ):包括刺法、灸法、拔罐、推拿等治療方法以及治療用具術(shù)語(yǔ)。
[0007] ④中醫(yī)病癥名術(shù)語(yǔ):指具體的疾病名稱。
[0008] ⑤抽象術(shù)語(yǔ):指不能歸入上述四類且含義抽象的針灸術(shù)語(yǔ)。
[0009] (2)中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)構(gòu)件:是指那些更大概率地出現(xiàn)在中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)中的 字、單詞或復(fù)合詞,術(shù)語(yǔ)構(gòu)件可以是詞根、前綴、后綴或某些包含于中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)中的 字符串。
[0010] 文本信息抽取研宄始于上世紀(jì)60年代,隨后召開的MUC (Message Understanding Conference)和ACE (Automatic Content Extraction)評(píng)測(cè)會(huì)議推動(dòng)了信息抽取技術(shù)的發(fā) 展。在生物醫(yī)學(xué)領(lǐng)域,文本信息抽取主要解決的是從生物醫(yī)學(xué)文本中識(shí)別出生物醫(yī)學(xué)實(shí)體, 進(jìn)而探宄它們之間可能存在的關(guān)系,包括:基因與基因的關(guān)系、蛋白質(zhì)與蛋白質(zhì)相互作用關(guān) 系、基因與疾病的關(guān)系、蛋白質(zhì)與疾病的關(guān)系、基因與藥物的關(guān)系、疾病與治療的關(guān)系等,并 最終以人們可以理解的方式表達(dá)出來的問題。國(guó)內(nèi)外對(duì)信息抽取的方法主要有三大類:基 于語(yǔ)言規(guī)則的方法、基于統(tǒng)計(jì)信息的方法、規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。人們針對(duì)生物醫(yī)學(xué)命 名實(shí)體識(shí)別任務(wù)展開了研宄;采用了包括詞、關(guān)鍵詞、蛋白質(zhì)實(shí)體名距離、關(guān)聯(lián)路徑等特征 組合成特征模板,使用支持向量機(jī)統(tǒng)計(jì)模型來抽取蛋白質(zhì)關(guān)系。人們將兩個(gè)實(shí)體所在的句 子信息以及兩個(gè)實(shí)體周圍的局部上下文信息組合在一起應(yīng)用于藥物關(guān)系抽取,取得了較好 的結(jié)果。"基于半監(jiān)督方法的生物醫(yī)學(xué)事件抽取的研宄"采用基于半監(jiān)督的方法,在生物醫(yī) 學(xué)事件觸發(fā)詞識(shí)別上,先分析了各種特征對(duì)識(shí)別的影響,然后結(jié)合未標(biāo)注語(yǔ)料信息,利用蛋 白質(zhì)-觸發(fā)詞對(duì)關(guān)系,來進(jìn)行觸發(fā)詞識(shí)別模型的構(gòu)建;在生物醫(yī)學(xué)事件元素的識(shí)別上,充分 利用特征在標(biāo)注語(yǔ)料和未標(biāo)注語(yǔ)料中的共現(xiàn)信息,將有強(qiáng)分類能力的稀疏特征進(jìn)行融合, 從而將識(shí)別問題映射到一個(gè)新的維度空間去解決。這兩種結(jié)合未標(biāo)注語(yǔ)料的方法,都有效 的減輕了數(shù)據(jù)稀疏所帶來的影響,提高了生物醫(yī)學(xué)事件抽取的精度。
[0011] 當(dāng)前,生物醫(yī)學(xué)領(lǐng)域信息抽取任務(wù)主要集中在對(duì)英文醫(yī)學(xué)文獻(xiàn)的研宄上,例如研 宄英文生物醫(yī)學(xué)文獻(xiàn)中命名實(shí)體的抽??;研宄英文醫(yī)學(xué)文獻(xiàn)中藥物相互作用關(guān)系的抽?。?研宄英文醫(yī)學(xué)文獻(xiàn)中事件的抽取。對(duì)于在中醫(yī)針灸領(lǐng)域文獻(xiàn)中抽取知識(shí)的關(guān)鍵技術(shù)研宄還 是空白,缺乏對(duì)中醫(yī)針灸領(lǐng)域文獻(xiàn)信息抽取技術(shù)的研宄以及系統(tǒng)的開發(fā)。中醫(yī)針灸是基于 漢民族文化,具有中國(guó)特色的醫(yī)療保健技術(shù),其內(nèi)容包括針灸理論、腧穴、針灸技術(shù)以及相 關(guān)器具。中醫(yī)針灸文獻(xiàn)作為針灸醫(yī)學(xué)領(lǐng)域成果展示和學(xué)術(shù)交流的主要載體,但是其內(nèi)容組 織和知識(shí)表達(dá)與英文文獻(xiàn)以及中文通用領(lǐng)域文獻(xiàn)都具有很大的差異性。

【發(fā)明內(nèi)容】

[0012] 為解決上述問題本發(fā)明提供了一種中醫(yī)針灸領(lǐng)域知識(shí)自動(dòng)抽取的實(shí)現(xiàn)方法。本 發(fā)明的目的是針對(duì)中醫(yī)針灸領(lǐng)域文獻(xiàn)的特點(diǎn),研宄并開發(fā)中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)抽取系統(tǒng),從 海量的中醫(yī)針灸領(lǐng)域文獻(xiàn)中快速有效地提取領(lǐng)域術(shù)語(yǔ),形成結(jié)構(gòu)化的數(shù)據(jù)并存入一個(gè)數(shù)據(jù) 庫(kù),供用戶查詢和使用。
[0013] 為達(dá)到上述技術(shù)效果,本發(fā)明的技術(shù)方案是:
[0014] 一種中醫(yī)針灸領(lǐng)域知識(shí)自動(dòng)抽取的實(shí)現(xiàn)方法,包括如下步驟:
[0015] 步驟一)種子集構(gòu)建:從爬取的醫(yī)學(xué)論文中抽取關(guān)鍵字信息構(gòu)建中醫(yī)針灸領(lǐng)域術(shù) 語(yǔ)種子集;
[0016] 步驟二)語(yǔ)料庫(kù)構(gòu)建:從爬取的醫(yī)學(xué)論文中抽取中文摘要信息構(gòu)建中醫(yī)針灸領(lǐng)域 語(yǔ)料庫(kù);
[0017] 步驟三)術(shù)語(yǔ)構(gòu)建集的生成:調(diào)用術(shù)語(yǔ)構(gòu)件生成器,用構(gòu)件集中的構(gòu)件切分中醫(yī) 針灸領(lǐng)域術(shù)語(yǔ)種子集中的每個(gè)術(shù)語(yǔ);將最佳切分中產(chǎn)生的新構(gòu)件添加到構(gòu)件集中,迭代學(xué) 習(xí)新構(gòu)件直至算法收斂,生成中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)構(gòu)件集;對(duì)種子集S中的一個(gè)術(shù)語(yǔ)s,用構(gòu) 件集Tc中的構(gòu)件進(jìn)行切分,得到多個(gè)不同的切分結(jié)果,如公式(1):
[0020] i表示術(shù)語(yǔ)s被構(gòu)件集Tc中的構(gòu)件切分后的某種切分結(jié)果,& (s)表示第i種切 分結(jié)果;t表示構(gòu)件集中的構(gòu)件;r表示術(shù)語(yǔ)被構(gòu)件集中的構(gòu)件切分后產(chǎn)生的字串;j表示 術(shù)語(yǔ)s被切分后,切分術(shù)語(yǔ)的構(gòu)件t和切分后產(chǎn)生的字串r按順序從左到右的編號(hào);
[0021] 切分R"s)的權(quán)重計(jì)算方法如公式⑵所示:
[0023]其中,
,a和0為調(diào)節(jié)參數(shù),其值通過實(shí)驗(yàn)效 果調(diào)節(jié);
[0024] length(s)表示術(shù)語(yǔ)s的長(zhǎng)度,即術(shù)語(yǔ)s所含漢字個(gè)數(shù);m表示術(shù)語(yǔ)s的一種切分 結(jié)果Ri(s)中所含的構(gòu)件數(shù);tip表示術(shù)語(yǔ)s的第i個(gè)切分結(jié)果Ms)中從左到右數(shù)的第p 個(gè)構(gòu)件;length(tip)表示構(gòu)件tip所含漢字個(gè)數(shù);p表示術(shù)語(yǔ)s切分結(jié)果Ms)中從第1個(gè) 構(gòu)件到最后1個(gè)構(gòu)件的變量;m'表示術(shù)語(yǔ)s的第i個(gè)切分結(jié)果Ri(s)中長(zhǎng)度不為0的字串 &的個(gè)數(shù);
[0025]選擇權(quán)重最大的切分為最佳切分,將其產(chǎn)生的新構(gòu)件44,...,^i+1添加 到構(gòu)件集Tc中;其中構(gòu)件過濾規(guī)則如下:
[0026] 1. 3. 1)丟棄最佳切分Rjs)首部、中部產(chǎn)生的單字長(zhǎng)構(gòu)件,將尾部產(chǎn)生的頻率>1 的單字長(zhǎng)構(gòu)件添加到Tc中;
[0027] 1. 3. 2)將最佳切分氏(s)中長(zhǎng)度>1且頻率>1的新構(gòu)件添加到Tc中;
[0028] 步驟四)候選術(shù)語(yǔ)集的生成:以中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)構(gòu)件集為領(lǐng)域詞典,調(diào)用候選 術(shù)語(yǔ)抽取器抽取中醫(yī)針灸領(lǐng)域語(yǔ)料庫(kù)中的術(shù)語(yǔ),生成中醫(yī)針灸領(lǐng)域候選術(shù)語(yǔ)集;
[0029] 步驟五)術(shù)語(yǔ)集的生成:調(diào)用術(shù)語(yǔ)過濾器,利用規(guī)則集對(duì)候選術(shù)語(yǔ)集中的候選術(shù) 語(yǔ)進(jìn)行過濾,生成中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)集。
[0030] 進(jìn)一步的改進(jìn),所述步驟四)中抽取中醫(yī)針灸領(lǐng)域語(yǔ)料庫(kù)中的術(shù)語(yǔ)的方法為:從 未標(biāo)注無結(jié)構(gòu)的中醫(yī)針灸領(lǐng)域語(yǔ)料庫(kù)中逐句讀取字串,采用最大向前匹配算法,以術(shù)語(yǔ)構(gòu) 件集Tc作為領(lǐng)域詞典切分字串,切分結(jié)果如公式(3)所示:
[0032] 其中,12 0, |x,,+11S: 0, |xp | > 0(2Sn)(TcttjeTc
[0033] e表示從中醫(yī)針灸語(yǔ)料庫(kù)中讀取的句子,tn,t12,…,tnin為術(shù)語(yǔ)構(gòu)件,
[0034] Xl,x2,…,xn+1是句子中分隔候選術(shù)語(yǔ)的普通字串;
[0035] 抽取xk和x,+1之間的串(1 <女< /?)作為中醫(yī)針灸領(lǐng)域候選術(shù)語(yǔ),用術(shù) 語(yǔ)過濾規(guī)則模板過濾候選術(shù)語(yǔ),生成中醫(yī)針灸領(lǐng)域術(shù)語(yǔ),直至中醫(yī)針灸領(lǐng)域語(yǔ)料庫(kù)中的語(yǔ) 料處理完畢。
[0036] 進(jìn)一步的改進(jìn),術(shù)語(yǔ)過濾的方法如下:首先通過中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)種子集獲得術(shù) 語(yǔ)首詞列表和術(shù)語(yǔ)尾詞列表;然后術(shù)語(yǔ)過濾規(guī)則如下:
[0037] 3. 1)限定首詞:將候選術(shù)語(yǔ)依次在術(shù)語(yǔ)首詞列表中檢測(cè),若候選術(shù)語(yǔ)左邊第一個(gè) 構(gòu)件不在首詞列表中,則去除該構(gòu)件,將剩余部分作為候選術(shù)語(yǔ)繼續(xù)該操作,直至候選術(shù)語(yǔ) 左邊第一個(gè)構(gòu)件出現(xiàn)在術(shù)語(yǔ)首詞列表中或候選術(shù)語(yǔ)字符串為空時(shí)結(jié)束;
[0038] 3. 2)限定尾詞:將候選術(shù)語(yǔ)依次在術(shù)語(yǔ)尾詞列表中檢測(cè),若候選術(shù)語(yǔ)右邊第一個(gè) 構(gòu)件不在尾詞列表中,則去除該構(gòu)件,將剩余部分作為候選術(shù)語(yǔ)繼續(xù)該操作,直至候選術(shù)語(yǔ) 右邊第一個(gè)構(gòu)件出現(xiàn)在術(shù)語(yǔ)尾詞列表中或字符串為空時(shí)結(jié)束;
[0039] 3. 3)若候選術(shù)語(yǔ)右邊第一和第二個(gè)構(gòu)件都出現(xiàn)在尾詞列表中,則去除右邊第一個(gè) 構(gòu)件,將剩余部分視為候選術(shù)語(yǔ);
[0040] 3. 4)若組成候選術(shù)語(yǔ)的所有構(gòu)件都不在中醫(yī)針灸領(lǐng)域術(shù)語(yǔ)種子集中,則舍棄該候 選術(shù)語(yǔ);
[0041] 3. 5)若候選術(shù)語(yǔ)為單字組成的字串,
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阿拉善右旗| 射洪县| 博野县| 高阳县| 固安县| 万全县| 娱乐| 天峻县| 宁晋县| 盐源县| 宁远县| 天柱县| 辽中县| 苏尼特左旗| 任丘市| 呈贡县| 临高县| 贵州省| 兴安县| 永春县| 皋兰县| 华安县| 凭祥市| 南康市| 凤山县| 康保县| 红桥区| 沿河| 阿城市| 仙游县| 云安县| 大竹县| 岚皋县| 呼图壁县| 友谊县| 成都市| 山阳县| 高青县| 分宜县| 宁阳县| 和平区|