欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種藥品規(guī)格數(shù)據(jù)相似度匹配方法

文檔序號(hào):6505586閱讀:1019來(lái)源:國(guó)知局
一種藥品規(guī)格數(shù)據(jù)相似度匹配方法
【專利摘要】本發(fā)明提供一種藥品規(guī)格數(shù)據(jù)相似度匹配方法,用于將采集的藥品規(guī)格數(shù)據(jù)與標(biāo)準(zhǔn)庫(kù)中的藥品規(guī)格數(shù)據(jù)相匹配,首先生成語(yǔ)料庫(kù)主題詞信息量文件和前置詞信息量文件,該方法還包括如下步驟:(1)將藥品規(guī)格數(shù)據(jù)轉(zhuǎn)化為分層鏈表形式的數(shù)據(jù)結(jié)構(gòu);(2)在標(biāo)準(zhǔn)庫(kù)中找到與采集的藥品規(guī)格數(shù)據(jù)有效成分含量相同的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S;(3)找到采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S的前置詞和主題詞的信息量;(4)計(jì)算采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S的相似度;(5)選取相似度最大的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)作為采集的藥品規(guī)格數(shù)據(jù)的匹配數(shù)據(jù)。相對(duì)于現(xiàn)有技術(shù),本發(fā)明提高了藥品規(guī)格數(shù)據(jù)相似度計(jì)算的準(zhǔn)確度。
【專利說(shuō)明】一種藥品規(guī)格數(shù)據(jù)相似度匹配方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理領(lǐng)域,特別涉及藥品規(guī)格數(shù)據(jù)的相似度計(jì)算以及匹配方法。
【背景技術(shù)】
[0002]當(dāng)前,在自然語(yǔ)言處理領(lǐng)域,文本相似度在很多方面中有著廣泛的應(yīng)用,如信息檢索、信息抽取、文本分類、詞義排歧、機(jī)器翻譯等等。文本相似度是表示兩個(gè)或多個(gè)文本數(shù)據(jù)匹配程度的一個(gè)度量參數(shù),相似度值越大,說(shuō)明文本相似度越高,反之文本相似度越低。
[0003]雖然國(guó)內(nèi)外對(duì)于文本相似度的計(jì)算方法已經(jīng)有了大量的研究,且均在特定領(lǐng)域取得了良好的效果,但由于藥品規(guī)格數(shù)據(jù)的特殊性,直接套用其他領(lǐng)域的相似度計(jì)算方法并不能取到很好的匹配效果;另外,有些方法復(fù)雜度太大,影響匹配效率。

【發(fā)明內(nèi)容】

[0004]針對(duì)現(xiàn)有技術(shù)存在的問(wèn)題,本發(fā)明的主要目的在于提供針對(duì)藥品規(guī)格數(shù)據(jù),匹配準(zhǔn)確度高的數(shù)據(jù)相似度匹配方法。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明提供一種藥品規(guī)格數(shù)據(jù)相似度匹配方法的實(shí)施例,用于將采集的藥品規(guī)格數(shù)據(jù)與標(biāo)準(zhǔn)庫(kù)中的藥品規(guī)格數(shù)據(jù)相匹配,該藥品規(guī)格數(shù)據(jù)包含藥品的有效成分和有效成分含量,首先進(jìn)行數(shù)據(jù)準(zhǔn)備工作:在語(yǔ)料庫(kù)中找出所有主題詞和前置詞,分別計(jì)算主題詞和前置詞的信息量,生成語(yǔ)料庫(kù)主題詞信息量文件和前置詞信息量文件,該方法還包括如下步驟:
[0006](I)將采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)庫(kù)的藥品規(guī)格數(shù)據(jù)轉(zhuǎn)化為分層鏈表形式的數(shù)據(jù)結(jié)構(gòu);
[0007](2)在標(biāo)準(zhǔn)庫(kù)中找到與采集的藥品規(guī)格數(shù)據(jù)有效成分含量相同的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S ;
[0008](3)在語(yǔ)料庫(kù)主題詞信息量文件和前置詞信息量文件中分別找到采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S的前置詞和主題詞的信息量;
[0009](4)利用采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S的前置詞和主題詞的信息量,計(jì)算采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S中的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)的相似度;
[0010](5)在標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S中選取相似度最大的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)作為采集的藥品規(guī)格數(shù)據(jù)的匹配數(shù)據(jù)。
[0011]進(jìn)一步地,步驟在語(yǔ)料庫(kù)中找出所有主題詞和前置詞具體包含如下步驟:
[0012](I)導(dǎo)入語(yǔ)料庫(kù),以藥品名詞典對(duì)導(dǎo)入的語(yǔ)料庫(kù)進(jìn)行中文分詞處理,保存分詞結(jié)果,可利用中文分詞引擎對(duì)導(dǎo)入的語(yǔ)料庫(kù)進(jìn)行中文分詞處理。
[0013](2)遍歷分詞結(jié)果,將分詞結(jié)果中的藥品名詞作為主題詞,藥品名詞前面的中文詞匯作為前置詞。
[0014]進(jìn)一步地,步驟分別計(jì)算主題詞和前置詞的信息量具體包含如下步驟:[0015](I)統(tǒng)計(jì)主題詞的TF值,統(tǒng)計(jì)前置詞的RIDF值,主題詞的TF值TFCffkey) =COUnt (Wkey) / Σ w e SMNC0Unt (W),前置詞的 RIDF 值
[0016]RIDF (Wpre) = Σ w e SMNCout (ffpre+ff) / Σ w e SMNCount (W),其中 Wkey 代表主題詞,Count (Wkey)代表主題詞出現(xiàn)的次數(shù),SMN代表藥品名詞典中的藥品名稱集合,W代表藥品名稱集合中的詞,Count (W)代表詞出現(xiàn)的次數(shù),Wpre代表前置詞,Count (Wpre)代表前置詞出現(xiàn)的次數(shù);
[0017](2)計(jì)算主題詞和前置詞的信息量,主題詞的信息量I(Wkey)=TF(Wkey),前置詞
的信息量
【權(quán)利要求】
1.一種藥品規(guī)格數(shù)據(jù)相似度匹配方法,用于將采集的藥品規(guī)格數(shù)據(jù)與標(biāo)準(zhǔn)庫(kù)中的藥品規(guī)格數(shù)據(jù)相匹配,所述藥品規(guī)格數(shù)據(jù)包含藥品的有效成分和有效成分含量,其特征在于:在語(yǔ)料庫(kù)中找出所有主題詞和前置詞,分別計(jì)算主題詞和前置詞的信息量,生成語(yǔ)料庫(kù)主題詞信息量文件和前置詞信息量文件,所述藥品規(guī)格數(shù)據(jù)相似度匹配方法還包括如下步驟: (1)將采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)庫(kù)的藥品規(guī)格數(shù)據(jù)轉(zhuǎn)化為分層鏈表形式的數(shù)據(jù)結(jié)構(gòu); (2)在標(biāo)準(zhǔn)庫(kù)中找到與采集的藥品規(guī)格數(shù)據(jù)有效成分含量相同的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S ; (3)在語(yǔ)料庫(kù)主題詞信息量文件和前置詞信息量文件中分別找到所述采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S的前置詞和主題詞的信息量; (4)利用采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S的前置詞和主題詞的信息量,計(jì)算采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S中的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)的相似度; (5)在標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)集S中選取相似度最大的標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)作為采集的藥品規(guī)格數(shù)據(jù)的匹配數(shù)據(jù)。
2.如權(quán)利要求1所述的藥品規(guī)格數(shù)據(jù)相似度匹配方法,其特征在于:所述步驟在語(yǔ)料庫(kù)中找出所有主題詞和前置詞包含如下步驟: (O導(dǎo)入語(yǔ)料庫(kù),以藥品名詞典對(duì)導(dǎo)入的語(yǔ)料庫(kù)進(jìn)行中文分詞處理,保存分詞結(jié)果; (2)遍歷分詞結(jié)果,將分詞結(jié)果中的藥品名詞作為主題詞,藥品名詞前面的中文詞匯作為前置詞。
3.如權(quán)利要求2所述的藥品規(guī)格數(shù)據(jù)相似度匹配方法,其特征在于:利用中文分詞引擎對(duì)導(dǎo)入的語(yǔ)料庫(kù)進(jìn)行中文分詞處理。
4.如權(quán)利要求3所述的藥品規(guī)格數(shù)據(jù)相似度匹配方法,其特征在于:所述步驟分別計(jì)算主題詞和前置詞的信息量包含如下步驟: Cl)統(tǒng)計(jì)主題詞的TF值,統(tǒng)計(jì)前置詞的RIDF值,所述主題詞的TF值 TT (Wkey) =Count (Wkey)/Σψ e sMNCOUnt (W),所述前置詞的 RIDF 值RIDF (Wpre) = Swe SMNCount (ffpre+ff) / Σ w e SMNCount (W),其中 Wkey 代表主題詞,Count (Wkey)代表主題詞出現(xiàn)的次數(shù),SMN代表藥品名詞典中的藥品名稱集合,W代表藥品名稱集合中的詞,Count (W)代表詞出現(xiàn)的次數(shù),Wpre代表前置詞,Count (Wpre)代表前置詞出現(xiàn)的次數(shù);(2)計(jì)算主題詞和前置詞的信息量,所述主題詞的信息量I(Wkey)=TF(Wkey),所述前置詞的信息量= tog—^.;0
5.如權(quán)利要求1-4任一所述的藥品規(guī)格數(shù)據(jù)相似度匹配方法,其特征在于:所述步驟將采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)庫(kù)的藥品規(guī)格數(shù)據(jù)轉(zhuǎn)化為分層鏈表形式的數(shù)據(jù)結(jié)構(gòu)包含如下步驟: (1)統(tǒng)一采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)庫(kù)的藥品規(guī)格數(shù)據(jù)中有效成分含量的單位; (2)針對(duì)采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)庫(kù)的藥品規(guī)格數(shù)據(jù)進(jìn)行BNF語(yǔ)法規(guī)則定義; (3)采用語(yǔ)法分析生成器對(duì)采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)庫(kù)的藥品規(guī)格數(shù)據(jù)進(jìn)行語(yǔ)法分析,生成分層鏈表形式的數(shù)據(jù)結(jié)構(gòu)。
6.如權(quán)利要求5所述的藥品規(guī)格數(shù)據(jù)相似度匹配方法,其特征在于:所述語(yǔ)法分析生成器為JAVACC。
7.如權(quán)利要求5所述的藥品規(guī)格數(shù)據(jù)相似度匹配方法,其特征在于:采集的藥品規(guī)格數(shù)據(jù)和標(biāo)準(zhǔn)藥品規(guī)格數(shù)據(jù)的相似度具體為:
【文檔編號(hào)】G06F17/27GK103678435SQ201310286121
【公開(kāi)日】2014年3月26日 申請(qǐng)日期:2013年7月8日 優(yōu)先權(quán)日:2013年7月8日
【發(fā)明者】張矩, 向林泓, 趙學(xué)良, 楊涌, 王湘 申請(qǐng)人:重慶綠色智能技術(shù)研究院
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1
阜宁县| 兴城市| 崇信县| 怀柔区| 汶川县| 长子县| 桂林市| 樟树市| 安平县| 东兰县| 浦东新区| 阿勒泰市| 乐昌市| 航空| 绥中县| 逊克县| 塔河县| 都匀市| 遂溪县| 婺源县| 淮阳县| 临沂市| 太湖县| 黄浦区| 乌兰浩特市| 且末县| 福泉市| 澳门| 嘉荫县| 安龙县| 青州市| 梨树县| 福贡县| 全州县| 泾源县| 信阳市| 牙克石市| 民权县| 济阳县| 宜兰市| 南京市|