一種藥品規(guī)格數(shù)據(jù)相似度匹配方法

文檔序號(hào)：6505586閱讀：1019來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種藥品規(guī)格數(shù)據(jù)相似度匹配方法
【專利摘要】本發(fā)明提供一種藥品規(guī)格數(shù)據(jù)相似度匹配方法，用于將采集的藥品規(guī)格數(shù)據(jù)與標(biāo)準(zhǔn)庫(kù)中的藥品規(guī)格數(shù)據(jù)相匹配，首先生成語(yǔ)料庫(kù)主題詞信息量文件和前置詞信息量文件，該方法還包括如下步驟：（1）將藥品規(guī)格數(shù)據(jù)轉(zhuǎn)化為分層鏈表形式的數(shù)據(jù)結(jié)構(gòu)；（2）在標(biāo)準(zhǔn)庫(kù)中找到與采集的藥品規(guī)格數(shù)據(jù)有效成分含量相同的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S；（3）找到采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S的前置詞和主題詞的信息量；（4）計(jì)算采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S的相似度；（5）選取相似度最大的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)作為采集的藥品規(guī)格數(shù)據(jù)的匹配數(shù)據(jù)。相對(duì)于現(xiàn)有技術(shù)，本發(fā)明提高了藥品規(guī)格數(shù)據(jù)相似度計(jì)算的準(zhǔn)確度。
【專利說(shuō)明】一種藥品規(guī)格數(shù)據(jù)相似度匹配方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域，特別涉及藥品規(guī)格數(shù)據(jù)的相似度計(jì)算以及匹配方法。
【背景技術(shù)】
[0002]當(dāng)前，在自然語(yǔ)言處理領(lǐng)域，文本相似度在很多方面中有著廣泛的應(yīng)用，如信息檢索、信息抽取、文本分類、詞義排歧、機(jī)器翻譯等等。文本相似度是表示兩個(gè)或多個(gè)文本數(shù)據(jù)匹配程度的一個(gè)度量參數(shù)，相似度值越大，說(shuō)明文本相似度越高，反之文本相似度越低。
[0003]雖然國(guó)內(nèi)外對(duì)于文本相似度的計(jì)算方法已經(jīng)有了大量的研究，且均在特定領(lǐng)域取得了良好的效果，但由于藥品規(guī)格數(shù)據(jù)的特殊性，直接套用其他領(lǐng)域的相似度計(jì)算方法并不能取到很好的匹配效果；另外，有些方法復(fù)雜度太大，影響匹配效率。

【發(fā)明內(nèi)容】

[0004]針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題，本發(fā)明的主要目的在于提供針對(duì)藥品規(guī)格數(shù)據(jù)，匹配準(zhǔn)確度高的數(shù)據(jù)相似度匹配方法。
[0005]為實(shí)現(xiàn)上述目的，本發(fā)明提供一種藥品規(guī)格數(shù)據(jù)相似度匹配方法的實(shí)施例，用于將采集的藥品規(guī)格數(shù)據(jù)與標(biāo)準(zhǔn)庫(kù)中的藥品規(guī)格數(shù)據(jù)相匹配，該藥品規(guī)格數(shù)據(jù)包含藥品的有效成分和有效成分含量，首先進(jìn)行數(shù)據(jù)準(zhǔn)備工作:在語(yǔ)料庫(kù)中找出所有主題詞和前置詞，分別計(jì)算主題詞和前置詞的信息量，生成語(yǔ)料庫(kù)主題詞信息量文件和前置詞信息量文件，該方法還包括如下步驟:
[0006](I)將采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)庫(kù)的藥品規(guī)格數(shù)據(jù)轉(zhuǎn)化為分層鏈表形式的數(shù)據(jù)結(jié)構(gòu)；
[0007](2)在標(biāo)準(zhǔn)庫(kù)中找到與采集的藥品規(guī)格數(shù)據(jù)有效成分含量相同的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S ;
[0008](3)在語(yǔ)料庫(kù)主題詞信息量文件和前置詞信息量文件中分別找到采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S的前置詞和主題詞的信息量；
[0009](4)利用采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S的前置詞和主題詞的信息量，計(jì)算采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S中的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)的相似度；
[0010](5)在標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S中選取相似度最大的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)作為采集的藥品規(guī)格數(shù)據(jù)的匹配數(shù)據(jù)。
[0011]進(jìn)一步地，步驟在語(yǔ)料庫(kù)中找出所有主題詞和前置詞具體包含如下步驟:
[0012](I)導(dǎo)入語(yǔ)料庫(kù)，以藥品名詞典對(duì)導(dǎo)入的語(yǔ)料庫(kù)進(jìn)行中文分詞處理，保存分詞結(jié)果，可利用中文分詞引擎對(duì)導(dǎo)入的語(yǔ)料庫(kù)進(jìn)行中文分詞處理。
[0013](2)遍歷分詞結(jié)果，將分詞結(jié)果中的藥品名詞作為主題詞，藥品名詞前面的中文詞匯作為前置詞。
[0014]進(jìn)一步地，步驟分別計(jì)算主題詞和前置詞的信息量具體包含如下步驟:[0015](I)統(tǒng)計(jì)主題詞的TF值，統(tǒng)計(jì)前置詞的RIDF值，主題詞的TF值TFCffkey) =COUnt (Wkey) / Σ w e SMNC0Unt (W)，前置詞的 RIDF 值
[0016]RIDF (Wpre) = Σ w e SMNCout (ffpre+ff) / Σ w e SMNCount (W)，其中 Wkey 代表主題詞，Count (Wkey)代表主題詞出現(xiàn)的次數(shù)，SMN代表藥品名詞典中的藥品名稱集合，W代表藥品名稱集合中的詞，Count (W)代表詞出現(xiàn)的次數(shù)，Wpre代表前置詞，Count (Wpre)代表前置詞出現(xiàn)的次數(shù)；
[0017](2)計(jì)算主題詞和前置詞的信息量，主題詞的信息量I(Wkey)=TF(Wkey),前置詞
的信息量
【權(quán)利要求】
1.一種藥品規(guī)格數(shù)據(jù)相似度匹配方法，用于將采集的藥品規(guī)格數(shù)據(jù)與標(biāo)準(zhǔn)庫(kù)中的藥品規(guī)格數(shù)據(jù)相匹配，所述藥品規(guī)格數(shù)據(jù)包含藥品的有效成分和有效成分含量，其特征在于:在語(yǔ)料庫(kù)中找出所有主題詞和前置詞，分別計(jì)算主題詞和前置詞的信息量，生成語(yǔ)料庫(kù)主題詞信息量文件和前置詞信息量文件，所述藥品規(guī)格數(shù)據(jù)相似度匹配方法還包括如下步驟: (1)將采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)庫(kù)的藥品規(guī)格數(shù)據(jù)轉(zhuǎn)化為分層鏈表形式的數(shù)據(jù)結(jié)構(gòu)； (2)在標(biāo)準(zhǔn)庫(kù)中找到與采集的藥品規(guī)格數(shù)據(jù)有效成分含量相同的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S ； (3)在語(yǔ)料庫(kù)主題詞信息量文件和前置詞信息量文件中分別找到所述采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S的前置詞和主題詞的信息量； (4)利用采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S的前置詞和主題詞的信息量，計(jì)算采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S中的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)的相似度； (5)在標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S中選取相似度最大的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)作為采集的藥品規(guī)格數(shù)據(jù)的匹配數(shù)據(jù)。
2.如權(quán)利要求1所述的藥品規(guī)格數(shù)據(jù)相似度匹配方法，其特征在于:所述步驟在語(yǔ)料庫(kù)中找出所有主題詞和前置詞包含如下步驟: (O導(dǎo)入語(yǔ)料庫(kù)，以藥品名詞典對(duì)導(dǎo)入的語(yǔ)料庫(kù)進(jìn)行中文分詞處理，保存分詞結(jié)果； (2)遍歷分詞結(jié)果，將分詞結(jié)果中的藥品名詞作為主題詞，藥品名詞前面的中文詞匯作為前置詞。
3.如權(quán)利要求2所述的藥品規(guī)格數(shù)據(jù)相似度匹配方法，其特征在于:利用中文分詞引擎對(duì)導(dǎo)入的語(yǔ)料庫(kù)進(jìn)行中文分詞處理。
4.如權(quán)利要求3所述的藥品規(guī)格數(shù)據(jù)相似度匹配方法，其特征在于:所述步驟分別計(jì)算主題詞和前置詞的信息量包含如下步驟: Cl)統(tǒng)計(jì)主題詞的TF值，統(tǒng)計(jì)前置詞的RIDF值，所述主題詞的TF值 TT (Wkey) =Count (Wkey)/Σψ e sMNCOUnt (W)，所述前置詞的 RIDF 值RIDF (Wpre) = Swe SMNCount (ffpre+ff) / Σ w e SMNCount (W)，其中 Wkey 代表主題詞，Count (Wkey)代表主題詞出現(xiàn)的次數(shù)，SMN代表藥品名詞典中的藥品名稱集合，W代表藥品名稱集合中的詞，Count (W)代表詞出現(xiàn)的次數(shù)，Wpre代表前置詞，Count (Wpre)代表前置詞出現(xiàn)的次數(shù)；(2)計(jì)算主題詞和前置詞的信息量，所述主題詞的信息量I(Wkey)=TF(Wkey),所述前置詞的信息量= tog—^.；0
5.如權(quán)利要求1-4任一所述的藥品規(guī)格數(shù)據(jù)相似度匹配方法，其特征在于:所述步驟將采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)庫(kù)的藥品規(guī)格數(shù)據(jù)轉(zhuǎn)化為分層鏈表形式的數(shù)據(jù)結(jié)構(gòu)包含如下步驟: (1)統(tǒng)一采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)庫(kù)的藥品規(guī)格數(shù)據(jù)中有效成分含量的單位； (2)針對(duì)采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)庫(kù)的藥品規(guī)格數(shù)據(jù)進(jìn)行BNF語(yǔ)法規(guī)則定義； (3)采用語(yǔ)法分析生成器對(duì)采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)庫(kù)的藥品規(guī)格數(shù)據(jù)進(jìn)行語(yǔ)法分析，生成分層鏈表形式的數(shù)據(jù)結(jié)構(gòu)。
6.如權(quán)利要求5所述的藥品規(guī)格數(shù)據(jù)相似度匹配方法，其特征在于:所述語(yǔ)法分析生成器為JAVACC。
7.如權(quán)利要求5所述的藥品規(guī)格數(shù)據(jù)相似度匹配方法，其特征在于:采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)的相似度具體為:
【文檔編號(hào)】G06F17/27GK103678435SQ201310286121
【公開(kāi)日】2014年3月26日申請(qǐng)日期:2013年7月8日優(yōu)先權(quán)日:2013年7月8日
【發(fā)明者】張矩, 向林泓, 趙學(xué)良, 楊涌, 王湘申請(qǐng)人:重慶綠色智能技術(shù)研究院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張矩;向林泓;趙學(xué)良;楊涌;王湘;
技術(shù)所有人：重慶綠色智能技術(shù)研究院;
我是此專利的發(fā)明人

上一篇：觸控板的制作方法
上一篇：一種在線升級(jí)主樣本模型的kNN故障檢測(cè)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

字符串相似度匹配算法相關(guān)技術(shù)

excel相似度匹配相關(guān)技術(shù)

中文相似度匹配算法相關(guān)技術(shù)

java字符串相似度匹配相關(guān)技術(shù)

excel相似匹配相關(guān)技術(shù)

語(yǔ)音相似度匹配算法相關(guān)技術(shù)

相似度匹配相關(guān)技術(shù)

相似度匹配算法相關(guān)技術(shù)

欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種藥品規(guī)格數(shù)據(jù)相似度匹配方法