一種面向大眾醫(yī)療決策的用戶搜索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)信息搜索技術(shù)領(lǐng)域,尤其是一種基于Google和百度文本挖掘 的面向大眾醫(yī)療決策的用戶搜索方法。
【背景技術(shù)】
[0002] 目前,互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,互聯(lián)網(wǎng)上的信息資源繁多,數(shù)字信息開始呈指數(shù)型 增長。隨著社會的平穩(wěn)進步和經(jīng)濟的快速發(fā)展,各種污染和輻射也日益加劇,各種稀奇古 怪的疾病層出不窮,生病的人群也越來越多。所謂術(shù)業(yè)有專攻,全球六十多億人口中,醫(yī)生 (護士)所占的比重遠遠小于萬分之一,甚至十萬分之一,而醫(yī)學專家更是少之又少,因此, 醫(yī)院里面總是人滿為患。如何將醫(yī)學知識大眾化,成為把醫(yī)學工作者從繁重的臨床診斷工 作中解放出來的關(guān)鍵?;ヂ?lián)網(wǎng)的興起和大眾化的使用,使得信息的擴散速度和面積大大加 快?;ヂ?lián)網(wǎng)上有很多醫(yī)學相關(guān)的網(wǎng)站,如:維基百科、百度百科等,這些網(wǎng)站中對各種醫(yī)學疾 病做了匯總,同時,也記錄了疾病的發(fā)病時的癥狀、檢測手段、治療方法等很多有用的信息。 由于這些信息具有權(quán)威性的,因此,普通大眾可以通過這些信息來了解所患的疾病,同時找 到一些疾病的預防和急救方法?;ヂ?lián)網(wǎng)上的醫(yī)學信息確實會給人們帶來很多便利,但是科 技的發(fā)展也帶來了信息的爆炸,在現(xiàn)在這樣一個大數(shù)據(jù)時代,如何從包羅萬象的互聯(lián)網(wǎng)上 尋找到有用的信息成為了亟待解決的問題,醫(yī)學信息的檢索也同樣如此。在百度等搜索引 擎中檢索醫(yī)學名詞,一般會檢索出很多廣告網(wǎng)站,由于算法的原因,這些廣告網(wǎng)站的排名還 比較靠前,一般會出現(xiàn)的首頁中,但這些并不是用戶想要獲取的信息。如何解析用戶有關(guān)臨 床醫(yī)學的查詢語句,從而進行再搜索以返回用戶需要的信息,是我們要重點研宄的問題。
[0003] 現(xiàn)有技術(shù)的搜索引擎查詢還沒有通過文本來為用戶進行診斷和醫(yī)療檢測推薦或 提供治療方案等臨床醫(yī)學決策。其主要難點在于,普通大眾對疾病的描述方式與專家的描 述方式不同,一般不包含醫(yī)學專有名詞,這就增加了檢索出精確有用結(jié)果的難度。另外,疾 病的治療方式因人而異,如何根據(jù)不同體質(zhì)自動給出治療方案,以獲得用戶預期的目的和 效果,也是一個亟待解決的問題。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足而設(shè)計的一種面向大眾醫(yī)療決策的用戶搜 索方法,利用維基百科的開源數(shù)據(jù)建立醫(yī)學詞典,同時,通過百度對用戶查詢語句進行擴 展,利用擴展后的查詢語句進行檢索,從而得到用戶需要的信息,能夠為用戶實時的提供醫(yī) 療信息,并且為用戶返回的信息可靠實用,使用戶能隨時了解疾病護理知識,在一定程度上 降低發(fā)病死亡率,提高了國家醫(yī)療水平。
[0005] 本發(fā)明的目的是這樣實現(xiàn)的:一種面向大眾醫(yī)療決策的用戶搜索方法,其特點是 利用維基百科抓取的醫(yī)學數(shù)據(jù),建立包括病狀、病癥以及相關(guān)的檢測手段和治療方案的醫(yī) 學詞典,將擴展后的查詢語句在醫(yī)學詞典里搜索出相關(guān)的醫(yī)療信息推薦給用戶,以幫助用 戶了解病情和疾病治療,具體操作按下述步驟進行:
[0006] (一)、網(wǎng)頁的抓取
[0007] 從維基百科的分類索引入口抓取"醫(yī)學"和"藥學"分類下的所有網(wǎng)頁建立醫(yī)學分 類索引。
[0008] (二)、醫(yī)學詞典的建立
[0009] 對上述抓取的網(wǎng)頁進行解析處理,抽取帶有醫(yī)學標簽的名詞,建立按疾病名稱為 索引的醫(yī)學詞典。
[0010] (三)、查詢語句的擴展
[0011] 將用戶有關(guān)臨床醫(yī)學的查詢語句在百度或Google中搜索,抓取前十個檢索結(jié)果 的網(wǎng)頁,對抓取的百度網(wǎng)頁去停用詞后找出頻率最高的五個詞,作為用擴展詞加入到用戶 查詢語句中進行擴展。
[0012] (四)、醫(yī)療信息的推薦
[0013] 將上述擴展后的查詢語句在已建立的醫(yī)學詞典中,利用DFR模型進行檢索,將搜 索到的文檔按下式(a)計分排名,篩選出排名前三的文檔推薦給用戶,以幫助用戶了解疾 病的檢測和診斷以及治療的臨床醫(yī)學決策;
[0014]
[0015]
[0016] TF為查詢詞在整個字典中出現(xiàn)的頻率;
[0017] tf為查詢詞在文檔d中出現(xiàn)的頻率;
[0018] N為文檔總數(shù)。
[0019] 本發(fā)明與現(xiàn)有技術(shù)相比具有以下優(yōu)點:
[0020] (1)、易行性:維基百科的數(shù)據(jù)為開源數(shù)據(jù),不需要額外成本。
[0021] ⑵、簡單性:只要掌握一定的網(wǎng)頁抓取和解析技術(shù),以及信息檢索技術(shù)即
[0022] 可自行實現(xiàn)。
[0023] ⑶、實時性:根據(jù)用戶的查詢,可以及時給用戶提供相關(guān)信息。
[0024] ⑷、主客觀相結(jié)合:維基百科中數(shù)據(jù)時經(jīng)過科學和經(jīng)驗論證的,具有權(quán)威性和有效 性,在百度網(wǎng)頁中的查詢擴展具有一般經(jīng)驗性,因此,最后的查詢結(jié)果結(jié)合了客觀事實和主 管診斷,具有很強的可靠性。
【附圖說明】
[0025] 圖1為本發(fā)明操作流程圖。
【具體實施方式】
[0026] 參閱附圖1,本發(fā)明利用維基百科抓取的醫(yī)學數(shù)據(jù),建立包括病狀、病癥以及相關(guān) 的檢測手段和治療方案的醫(yī)學詞典,將擴展后的查詢語句在醫(yī)學詞典里搜索出相關(guān)的醫(yī)療 信息推薦給用戶,以幫助用戶了解病情和疾病治療,具體操作按下述步驟進行:
[0027] ( 一)、醫(yī)學詞典的建立
[0028] 第一步:抓取維基百科醫(yī)學數(shù)據(jù),從維基百科分類索引入口找到"醫(yī)學"和"藥學" 兩個分類,進入并抓取這兩個主類下的所有頁面。
[0029] 第二步:按照維基百科的分類索引建立醫(yī)學分類索引。
[0030] 第三步:對抓取的網(wǎng)頁進行解析處理,抽取包括病名、癥狀、治療、種類、預防和傳 播等帶有醫(yī)學標簽的信息。
[0031] 第四步:對抽取的醫(yī)學信息按疾病名稱為索引建立醫(yī)學詞典。
[0032] (二)、查詢語句的擴展
[0033] 第一步:將用戶有關(guān)臨床醫(yī)學的查詢語句在百度或Google中搜索,并抓取前十個 檢索結(jié)果的網(wǎng)頁。
[0034] 第二步:對抓取的百度網(wǎng)頁進行解析,去停用詞后找到出現(xiàn)頻率最高的五個詞,作 為用戶查詢語句的擴展,并加入到用戶查詢語句中。
[0035] (三)、醫(yī)療信息的推薦
[0036] 將用戶有關(guān)臨床醫(yī)學的查詢語句在百度或Google中搜索,抓取前十個檢索結(jié)果 的網(wǎng)頁,對抓取的百度網(wǎng)頁去停用詞后找出頻率最高的五個詞,作為用擴展詞加入到用戶 查詢語句中進行擴展;
[0037] (四)、醫(yī)療信息的推薦
[0038] 將上述擴展后的查詢語句在已建立的醫(yī)學詞典中,利用DFR模型進行檢索,將搜 索到的文檔按下式(a)計分排名,篩選出排名前三的文檔推薦給用戶,以幫助用戶了解疾 病的檢測和診斷以及治療的臨床醫(yī)學決策;
[0039]
[0040]
[0041] TF為查詢詞在整個字典中出現(xiàn)的頻率;
[0042] tf為查詢詞在文檔d中出現(xiàn)的頻率;
[0043] N為文檔總數(shù)。
[0044] 以上只是對本發(fā)明作進一步的說明,并非用以限制本專利,凡為本發(fā)明等效實施, 均應(yīng)包含于本專利的權(quán)利要求范圍之內(nèi)。
【主權(quán)項】
1. 一種面向大眾醫(yī)療決策的用戶搜索方法,其特征在于利用維基百科抓取的醫(yī)學數(shù) 據(jù),建立包括病狀、病癥以及相關(guān)的檢測手段和治療方案的醫(yī)學詞典,將擴展后的查詢語句 在醫(yī)學詞典里搜索出相關(guān)的醫(yī)療信息推薦給用戶,以幫助用戶了解病情和疾病治療,具體 操作按下述步驟進行: (一) 、網(wǎng)頁的抓取 從維基百科的分類索引入口抓取"醫(yī)學"和"藥學"分類下的所有網(wǎng)頁建立醫(yī)學分類索 引; (二)、醫(yī)學詞典的建立 對上述抓取的網(wǎng)頁進行解析處理,抽取帶有醫(yī)學標簽的名詞,建立按疾病名稱為索引 的醫(yī)學詞典; (三) 、查詢語句的擴展 將用戶有關(guān)臨床醫(yī)學的查詢語句在百度或Google中搜索,抓取前十個檢索結(jié)果的網(wǎng) 頁,對抓取的百度網(wǎng)頁去停用詞后找出頻率最高的五個詞,作為用擴展詞加入到用戶查詢 語句中進行擴展; (四) 、醫(yī)療信息的推薦 將上述擴展后的查詢語句在已建立的醫(yī)學詞典中,利用DFR模型進行檢索,將搜索到 的文檔按下式(a)計分排名,篩選出排名前三的文檔推薦給用戶,以幫助用戶了解疾病的 檢測和診斷以及治療的臨床醫(yī)學決策;TF為查詢詞在整個字典中出現(xiàn)的頻率; tf?為查詢詞在文檔d中出現(xiàn)的頻率; N為文檔總數(shù)。
【專利摘要】本發(fā)明公開了一種面向大眾醫(yī)療決策的用戶搜索方法,其特點是利用維基百科抓取的醫(yī)學數(shù)據(jù),建立包括病狀、病癥以及相關(guān)的檢測手段和治療方案的醫(yī)學詞典,將擴展后的查詢語句在醫(yī)學詞典里搜索出相關(guān)的醫(yī)療信息推薦給用戶,以幫助用戶了解疾病的檢測和診斷以及治療的臨床醫(yī)學決策。本發(fā)明與現(xiàn)有技術(shù)相比查詢結(jié)果結(jié)合了客觀事實和主管診斷,具有很強的可靠性,有效解決了用戶查詢語句短的問題,方法簡便,準確性好。
【IPC分類】G06F17/30, G06Q50/22
【公開號】CN104915406
【申請?zhí)枴緾N201510295494
【發(fā)明人】胡琴敏, 宋揚, 賀樑
【申請人】華東師范大學
【公開日】2015年9月16日
【申請日】2015年6月2日