本發(fā)明提出了中醫(yī)醫(yī)案命名實體識別方法。提升中醫(yī)醫(yī)案命名實體識別的準(zhǔn)確性與效率,適用于中醫(yī)醫(yī)案數(shù)據(jù)的數(shù)字化、標(biāo)準(zhǔn)化與智能化處理,進而推動中醫(yī)知識的廣泛應(yīng)用與傳播。
背景技術(shù):
1、中醫(yī)醫(yī)案作為中醫(yī)理論與實踐的重要記錄,包含了豐富的中醫(yī)知識,是中醫(yī)藥學(xué)術(shù)研究和臨床實踐的寶貴資源。然而,由于中醫(yī)醫(yī)案的文本內(nèi)容往往以自然語言表達,且包含大量專有名詞、古文用語及中醫(yī)專有術(shù)語,導(dǎo)致傳統(tǒng)的自然語言處理技術(shù)難以有效識別和提取其中的關(guān)鍵信息。
2、現(xiàn)有的命名實體識別方法主要基于規(guī)則匹配、統(tǒng)計學(xué)習(xí)或深度學(xué)習(xí)技術(shù),雖然這些方法在處理一般領(lǐng)域的命名實體識別任務(wù)中表現(xiàn)良好,但在中醫(yī)醫(yī)案領(lǐng)域,由于其特有的語境和復(fù)雜性,仍然存在較大的改進空間。例如,基于規(guī)則匹配的方法在處理中醫(yī)醫(yī)案時,由于規(guī)則編寫復(fù)雜且難以覆蓋所有情況,往往表現(xiàn)不佳;基于統(tǒng)計學(xué)習(xí)的方法則依賴大量標(biāo)注數(shù)據(jù),但中醫(yī)醫(yī)案領(lǐng)域的標(biāo)注數(shù)據(jù)相對稀缺;而基于深度學(xué)習(xí)的方法雖然具有較強的建模能力,但對語義理解和上下文關(guān)聯(lián)性的捕捉仍有待加強。
3、因此,需能夠充分利用中醫(yī)醫(yī)案文本特征的命名實體識別方法,以提高識別的準(zhǔn)確性和效率,從而推動中醫(yī)醫(yī)案的數(shù)字化、標(biāo)準(zhǔn)化和智能化處理。
技術(shù)實現(xiàn)思路
1、本發(fā)明旨在提供基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,以解決現(xiàn)有技術(shù)中存在的識別準(zhǔn)確性低、特征提取不充分等問題。
2、本發(fā)明的方法主要包括以下步驟:首先,醫(yī)案數(shù)據(jù)集的處理與分析,數(shù)據(jù)集來自于《清宮醫(yī)案研究》,選取600條高質(zhì)量醫(yī)案。對數(shù)據(jù)集進行人工標(biāo)注,并結(jié)合中醫(yī)藥命名實體提取數(shù)據(jù)集和中藥說明書實體識別數(shù)據(jù)集進行數(shù)據(jù)補充。數(shù)據(jù)集包括4個實體類型,分別為疾病(disease)、癥狀(symptom)、方藥(prescription)、劑量(dosage)。將數(shù)據(jù)集按照90%和10%的比例劃分為訓(xùn)練集和驗證集,訓(xùn)練集與驗證集的比例為9:1。對于訓(xùn)練樣本,進行了平移、翻轉(zhuǎn)、調(diào)整飽和度和對比度等一系列數(shù)據(jù)增強操作,以增加模型的泛化能力。本研究使用bio標(biāo)注法,b-x代表實體x的開頭,i-x代表實體x的中間部分,o表示不屬于任何類型的字符。
3、通過albert模型獲取中醫(yī)醫(yī)案文本中的字符和詞匯特征。為了充分利用這些特征,本發(fā)明提出了top-k注意力分數(shù)篩選機制,對字符特征和詞匯特征進行篩選,以保留與命名實體最相關(guān)的特征信息。接著,利用卷積神經(jīng)網(wǎng)絡(luò)(cnn)提取漢字的部首和筆畫特征,這些特征能夠捕捉漢字的細節(jié)信息,并與篩選后的字符和詞匯特征進行拼接。
4、為了進一步提高特征的表達能力,本發(fā)明引入了多尺度通道注意力模塊(ms-cam),通過對拼接后的特征進行多尺度處理,增強了特征的語義信息表達。融合后的特征輸入到雙向長短期記憶網(wǎng)絡(luò)(bilstm)中,利用其對序列數(shù)據(jù)的建模能力,捕捉中醫(yī)醫(yī)案文本中的上下文信息,最后通過條件隨機場(crf)層對bilstm的輸出結(jié)果進行修正,得到最優(yōu)的標(biāo)簽序列。
5、本發(fā)明的方法不僅能夠有效提升中醫(yī)醫(yī)案命名實體識別的準(zhǔn)確性,還能夠處理多種不同類型的命名實體,具有較強的魯棒性和通用性。
1.中醫(yī)醫(yī)案命名實體識別方法,其特征在于:包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,其特征在于,所述步驟一:
3.根據(jù)權(quán)利要求1所述的基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,其特征在于,所述步驟二:
4.根據(jù)權(quán)利要求1所述的基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,其特征在于,所述步驟三:
5.根據(jù)權(quán)利要求1所述的基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,其特征在于,所述步驟四:
6.根據(jù)權(quán)利要求1所述的基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,其特征在于,所述步驟五
7.根據(jù)權(quán)利要求1所述的基于注意力特征融合的中醫(yī)醫(yī)案命名實體識別方法,其特征在于,所述步驟六