專(zhuān)利名稱(chēng):基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種中藥復(fù)雜網(wǎng)絡(luò)建模方法,以及在該中藥藥物復(fù)雜網(wǎng)絡(luò)TCM上采用并行標(biāo)簽傳播算法挖掘中藥藥物社団的技木。
背景技術(shù):
利用數(shù)據(jù)挖掘技術(shù)可以智能分析中藥復(fù)方數(shù)據(jù),發(fā)現(xiàn)潛在中藥配伍規(guī)律。常用的中藥數(shù)據(jù)挖掘中有ー類(lèi)應(yīng)用是藥物的聚類(lèi)算法,其基于事務(wù)項(xiàng)模型(把復(fù)方看成由多種藥物組成的事務(wù)并儲(chǔ)存在事務(wù)數(shù)據(jù)庫(kù)中)對(duì)相似藥物進(jìn)行聚合以發(fā)現(xiàn)頻繁組方的藥物組。傳統(tǒng)基于事務(wù)項(xiàng)模型的中藥藥物聚類(lèi)算法很難挖掘間接組方配伍的藥物,而且往往忽略對(duì)生僻藥物的處理,不利于深入研究每種藥物的配伍規(guī)律知識(shí)。本發(fā)明嘗試用復(fù)雜網(wǎng)絡(luò)模型建模中藥藥物網(wǎng)絡(luò),在藥物網(wǎng)絡(luò)中應(yīng)用社團(tuán)發(fā)現(xiàn)算法挖掘藥性相似的藥物組。在復(fù)雜網(wǎng)絡(luò)分析中對(duì)網(wǎng)絡(luò)社團(tuán)結(jié)構(gòu)的研究已經(jīng)有很長(zhǎng)的歷史,其涉及到計(jì)算機(jī)科學(xué)、社會(huì)學(xué)、生命科學(xué)等各個(gè)領(lǐng)域。分析和掲示網(wǎng)絡(luò)中的社團(tuán)結(jié)構(gòu),對(duì)于了解網(wǎng)絡(luò)結(jié)構(gòu)與分析網(wǎng)絡(luò)特性都是非常重要的。在中藥復(fù)雜網(wǎng)絡(luò)中進(jìn)行社團(tuán)發(fā)現(xiàn)與傳統(tǒng)基于事務(wù)項(xiàng)模型的藥物聚類(lèi)分析的目的很相近,都是將頻繁在一起組方的藥物聚合在同一類(lèi)別中,并挖掘出藥性相似的藥物以便研究中藥配伍規(guī)律。基于復(fù)雜網(wǎng)絡(luò)模型構(gòu)建中藥藥物復(fù)雜網(wǎng)絡(luò)這一思路打破了傳統(tǒng)中藥數(shù)據(jù)挖掘都基于事務(wù)項(xiàng)的建模模型的慣例,并且采用復(fù)雜網(wǎng)絡(luò)分析中的標(biāo)簽傳播算法可以深入挖掘中藥藥物社団,發(fā)現(xiàn)藥性相似、社団內(nèi)部相對(duì)頻繁組方的藥物組,克服了傳統(tǒng)基于事務(wù)項(xiàng)聚類(lèi)算法不能發(fā)現(xiàn)間接配伍以及忽略生僻藥物的缺陷。近期以來(lái),隨著中藥復(fù)方數(shù)據(jù)的激増,非并行的算法已不再適用于較大規(guī)模中藥數(shù)據(jù)的社団發(fā)現(xiàn)。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是實(shí)現(xiàn)中藥復(fù)雜網(wǎng)絡(luò)建摸,并在該模型上采用并行標(biāo)簽傳播算法,以快速有效地發(fā)現(xiàn)藥物社団。為解決上述問(wèn)題,本發(fā)明的基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法包括如下步驟I)組網(wǎng)階段a預(yù)處理以生成中藥數(shù)據(jù)集,格式化為初始文本數(shù)據(jù);b將初始文本數(shù)據(jù)部署至Hadoop平臺(tái);c并行化組建中藥藥物網(wǎng)絡(luò),即TCM網(wǎng)絡(luò),該網(wǎng)絡(luò)以藥物為節(jié)點(diǎn),將SCab大于給定閾值的節(jié)點(diǎn)連邊;d 結(jié)束。2)挖掘階段
a獲取步驟I)-c處理生成的中藥藥物網(wǎng)絡(luò)文本文件;b將上述TCM網(wǎng)絡(luò)文本文件部署至Hadoop平臺(tái);c實(shí)施并行化標(biāo)簽傳播算法,即采用MapReduce框架并行化的標(biāo)簽傳播算法,利用節(jié)點(diǎn)鄰居信息迭代更新自身標(biāo)簽(即所屬社団號(hào)),以發(fā)現(xiàn)藥物社団;d)結(jié)束。步驟I)-a中所說(shuō)的預(yù)處理為抽取中藥復(fù)方數(shù)據(jù)中所有復(fù)方的藥物組成。步驟l)-b中所說(shuō)的部署為將步驟l)_a生成的初始文本數(shù)據(jù)上傳至Hadoop平臺(tái) 的分布式文件系統(tǒng)(HDFS)。進(jìn)一歩,步驟I) -C的具體過(guò)程如下I)為每個(gè)中藥復(fù)方,即ー行文本數(shù)據(jù),設(shè)定ー個(gè)唯一標(biāo)識(shí)ID2)建立從藥物到復(fù)方標(biāo)識(shí)ID之間的倒排索引;3)為每個(gè)藥物設(shè)定唯一藥物標(biāo)識(shí)id,其中包含該藥物在復(fù)方中出現(xiàn)的頻次;4)對(duì)倒排索引進(jìn)行還原,即再次實(shí)行倒排索引算法,每行復(fù)方讀入此次任務(wù)的某個(gè)Map函數(shù)中,還原中藥復(fù)方文本數(shù)據(jù);5)每個(gè)Map函數(shù)讀取一行文本,解析出藥物節(jié)點(diǎn)信息;6)判斷該Map函數(shù)中的復(fù)方所含藥物還能否兩兩組建聯(lián)合鍵值〈Key,Value),是則執(zhí)行7),否則執(zhí)行8);7)組建聯(lián)合鍵值〈Key,Value〉;8)〈Key, Value〉經(jīng)過(guò) shuff le&&sort 發(fā)送到 Reduce 中,Reduce 接收相同 Key 下組成的[Value]數(shù)組,按照下式計(jì)算兩兩藥物間度量,將大于設(shè)定閾值的藥對(duì)寫(xiě)入文件并保存至HDFS中SCab = —\FaC^Fb\
min{ \ Fa\,\Fb\)其中|FA n FbI表示藥物A、B—起組方的次數(shù),min{ I Fa I,I Fb |}表示藥物A、B中組方次數(shù)較少的藥物的出現(xiàn)次數(shù),而SCab表示藥物A、B共現(xiàn)次數(shù)與最少出現(xiàn)藥物次數(shù)的比率;9)讀取6)中生成的藥對(duì)文件,即藥物復(fù)雜網(wǎng)絡(luò)的邊集,格式化為鄰接表形式保存中藥網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu);10)結(jié)束。進(jìn)ー步,步驟2)-C中利用鄰居節(jié)點(diǎn)所屬標(biāo)簽更新自身標(biāo)簽(一般為頻次最大的標(biāo)簽,如果最大頻次標(biāo)簽有多個(gè)則采取一定的隨機(jī)選擇)。并行化標(biāo)簽傳播算法總過(guò)程是基于迭代式的,迭代終止條件是各節(jié)點(diǎn)標(biāo)簽基本穩(wěn)定,例如大于90%的節(jié)點(diǎn)標(biāo)簽不發(fā)生變化等。在此給出迭代步驟中的某次迭代算法流程,即其中并行化標(biāo)簽傳播算法的一次迭代過(guò)程具體如下I)為每個(gè)藥物節(jié)點(diǎn)設(shè)置唯一的初始標(biāo)簽id ;2)每個(gè)Map函數(shù)從HDFS讀取一行文本,存入Value變量中;3)解析Value變量中的數(shù)據(jù),用臨時(shí)數(shù)組Tmp [O]保存節(jié)點(diǎn)id,Tmp [I]保存鄰接表 AdjList 及 Label ;4)發(fā)送節(jié)點(diǎn)數(shù)據(jù)結(jié)構(gòu);
5)判斷Label中是否只含有ー個(gè)標(biāo)簽,即首次迭代,執(zhí)行6),否則執(zhí)行7);6)令變量V =標(biāo)簽I ;7)令變量V =標(biāo)簽1&&標(biāo)簽2,其中標(biāo)簽I表示t-Ι次迭代的標(biāo)簽和標(biāo)簽2表示t-2次迭代的標(biāo)簽;8)令變量 i = 0;9)判斷i是否小于AdjList. length,是則執(zhí)行步驟10,否則執(zhí)行步驟1210)發(fā)送〈AdjList. get (i),V>ll)i 自增 1,執(zhí)行 8);12)Map 過(guò)程結(jié)束,Hadoop 執(zhí)行 shuffle&&sort ; 13)Reduce解析[Value]數(shù)組,分別用數(shù)據(jù)結(jié)構(gòu)AdjLabelPA保存節(jié)點(diǎn)結(jié)構(gòu),臨時(shí)鏈表Is1, Is2分別保存每個(gè)傳遞過(guò)來(lái)的し、I2的值(如果有兩個(gè)標(biāo)簽,否則Is2為空)14)根據(jù)下式找出新的節(jié)點(diǎn)標(biāo)簽;Cx(0=/(C^-iX-.Cx^-i)^*C^-2),..,w*c^-2))15)其中表示t-Ι次迭代Xk節(jié)點(diǎn)的標(biāo)簽,f函數(shù)返回的是鄰居節(jié)點(diǎn)傳遞過(guò)來(lái)頻次最多的標(biāo)記;16)更新AdjLabel中的t_l標(biāo)簽和t標(biāo)簽分別為Cx(t_l)與Cx (t);17)保存此次迭代的結(jié)果至分布式文件系統(tǒng)HDFS中;18)結(jié)束。本發(fā)明的基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法建立了中藥藥物復(fù)雜網(wǎng)絡(luò)模型,利用并行化技術(shù)提高了組網(wǎng)以及標(biāo)簽傳播算法的可擴(kuò)展性和運(yùn)行速度,并且能有效挖掘復(fù)方中藥性相似的藥物社團(tuán),幫助研究中藥配伍規(guī)律。
圖I為藥物社團(tuán)發(fā)現(xiàn)操作流程圖。圖2為本發(fā)明的基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法的流程圖。圖3為生成中藥藥物(TCM)網(wǎng)絡(luò)的流程圖。圖4為在中藥藥物(TCM)網(wǎng)絡(luò)上利用標(biāo)簽傳播算法(某一次迭代)挖掘藥物社団的流程圖。
具體實(shí)施例方式為了更了解本發(fā)明的技術(shù)內(nèi)容,特舉具體實(shí)施例并配合所附圖式說(shuō)明如下。如圖I所示,核心藥物挖掘通過(guò)方劑數(shù)據(jù)庫(kù)查詢(xún)、不規(guī)則文本數(shù)據(jù)提取等獲取中藥復(fù)方數(shù)據(jù),經(jīng)數(shù)據(jù)規(guī)范化、格式化等預(yù)處理生成文本數(shù)據(jù),然后在Hadoop平臺(tái)上并行化組建中藥藥物復(fù)雜網(wǎng)絡(luò),最后在該網(wǎng)絡(luò)上運(yùn)行并行化標(biāo)簽傳播算法以挖掘藥物社団。中藥復(fù)方數(shù)據(jù)組網(wǎng)與行化標(biāo)簽傳播算法挖掘藥物社団是該發(fā)明的主要步驟,本發(fā)明的思路就是通過(guò)復(fù)雜網(wǎng)絡(luò)建模和并行化標(biāo)簽傳播算法有效挖掘藥物社団,同時(shí)提高算法可擴(kuò)展性和運(yùn)行速度。本發(fā)明的基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法的流程圖如圖2所示。步驟O為本發(fā)明的藥物社團(tuán)發(fā)現(xiàn)方法的起始狀態(tài);在組網(wǎng)階段(步驟1-3),步驟I是從數(shù)據(jù)庫(kù)或者其他不規(guī)則文本數(shù)據(jù)中獲取初始的中藥復(fù)方組網(wǎng)數(shù)據(jù),并且格式化為文本數(shù)據(jù)以便上傳至Hadoop平臺(tái)的分布式文件系統(tǒng)(HDFS);步驟2是在初始數(shù)據(jù)集中并行組建中藥藥物(TCM)網(wǎng)絡(luò),包括兩次倒排索引以及兩兩組建藥對(duì)聯(lián)合鍵值對(duì);步驟3是把生成的TCM網(wǎng)絡(luò)保存至Hadoop平臺(tái)的HDFS。在挖掘階段(步驟4-5),步驟4,在步驟3所生成的TCM網(wǎng)絡(luò)中運(yùn)行并行化標(biāo)簽傳 播算法; 步驟5是將挖掘出的結(jié)果保存至HDFS ;步驟6是本發(fā)明的基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法的結(jié)束步驟。圖3是對(duì)圖2中步驟2的詳細(xì)描述。步驟20為起始步驟;步驟21是為每個(gè)中藥復(fù)方設(shè)定一個(gè)唯一的ID值,從標(biāo)號(hào)I開(kāi)始;步驟22是建立藥物到復(fù)方ID的倒排索引;步驟23是為每個(gè)藥物設(shè)定id,從標(biāo)號(hào)I % N,其中N表示該藥物在復(fù)方中出現(xiàn)的頻次,即倒排索引的長(zhǎng)度;步驟24對(duì)倒排索引進(jìn)行還原,即再次實(shí)行倒排索引算法,每行復(fù)方讀入此次任務(wù)的某個(gè)Map函數(shù)中;步驟25判斷該Map函數(shù)中的復(fù)方所含藥物還能否兩兩組建聯(lián)合鍵值,可以即執(zhí)行26,否則執(zhí)行27 (注意此時(shí)應(yīng)該是說(shuō)該次任務(wù)的Map過(guò)程結(jié)束);步驟26為組建聯(lián)合鍵值〈Key, Value〉(其中Key小于Value);步驟27為Reduce函數(shù)中利用式I計(jì)算SCab的值
權(quán)利要求
1.一種基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法,其特征在于,包括如下步驟 1)組網(wǎng)階段 a預(yù)處理以生成中藥數(shù)據(jù)集,格式化為初始文本數(shù)據(jù); b將初始文本數(shù)據(jù)部署至Hadoop平臺(tái); c并行化組建中藥藥物網(wǎng)絡(luò),該網(wǎng)絡(luò)以藥物為節(jié)點(diǎn),將SCab大于給定閾值的節(jié)點(diǎn)連邊; d結(jié)束。
2)挖掘階段 a獲取步驟l)-c處理生成的中藥藥物網(wǎng)絡(luò)文本文件; b將上述中藥藥物網(wǎng)絡(luò)文本文件部署至Hadoop平臺(tái); c實(shí)施并行化標(biāo)簽傳播算法,即采用MapReduce框架并行化的標(biāo)簽傳播算法,利用節(jié)點(diǎn)鄰居信息迭代更新自身標(biāo)簽,以發(fā)現(xiàn)藥物社団;d)結(jié)束。
2.根據(jù)權(quán)利要求I所述的基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法,其特征在于,其中步驟l)_a中所說(shuō)的預(yù)處理為抽取中藥復(fù)方數(shù)據(jù)中所有復(fù)方的藥物組成。
3.根據(jù)權(quán)利要求I所述的基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法,其特征在于,其中步驟l)_b中所說(shuō)的部署為將步驟l)_a生成的初始文本數(shù)據(jù)上傳至Hadoop平臺(tái)的分布式文件系統(tǒng)。
4.根據(jù)權(quán)利要求I所述的基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法,其特征在于,其中步驟l)-c的具體過(guò)程如下 1)為每個(gè)中藥復(fù)方,即ー行文本數(shù)據(jù),設(shè)定ー個(gè)唯一標(biāo)識(shí)ID 2)建立從藥物到復(fù)方標(biāo)識(shí)ID之間的倒排索引; 3)為每個(gè)藥物設(shè)定唯一藥物標(biāo)識(shí)id,其中包含該藥物在復(fù)方中出現(xiàn)的頻次; 4)對(duì)倒排索引進(jìn)行還原,即再次實(shí)行倒排索引算法,每行復(fù)方讀入此次任務(wù)的某個(gè)Map函數(shù)中,還原中藥復(fù)方文本數(shù)據(jù); 5)每個(gè)Map函數(shù)讀取一行文本,解析出藥物節(jié)點(diǎn)信息; 6)判斷該Map函數(shù)中的復(fù)方所含藥物還能否兩兩組建聯(lián)合鍵值〈Key,Value〉,是則執(zhí)行7),否則執(zhí)行8); 7)組建聯(lián)合鍵值〈Key,Value); 8)〈Key,Value〉經(jīng)過(guò)shuff le&&sort發(fā)送到Reduce中,Reduce接收相同Key下組成的[Value]數(shù)組,按照下式計(jì)算兩兩藥物間度量,將大于設(shè)定閾值的藥對(duì)寫(xiě)入文件并保存至分布式文件系統(tǒng)中
5.根據(jù)權(quán)利要求I所述的基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法,其特征在于,步驟2)-c中并行化標(biāo)簽傳播算法總過(guò)程是基于迭代式的,迭代終止條件是各節(jié)點(diǎn)標(biāo)簽基本穩(wěn)定,其中并行化標(biāo)簽傳播算法的一次迭代過(guò)程具體如下 1)為每個(gè)藥物節(jié)點(diǎn)設(shè)置唯一的初始標(biāo)簽id; 2)每個(gè)Map函數(shù)從HDFS讀取一行文本,存入Value變量中; 3)解析Value變量中的數(shù)據(jù),用臨時(shí)數(shù)組Tmp
保存節(jié)點(diǎn)id,Tmp[I]保存鄰接表AdjList 及 Label ; 4)發(fā)送節(jié)點(diǎn)數(shù)據(jù)結(jié)構(gòu); 5)判斷Label中是否只含有ー個(gè)標(biāo)簽,即首次迭代,執(zhí)行6),否則執(zhí)行7); 6)令變量V=標(biāo)簽I ; 7)令變量V=標(biāo)簽1&&標(biāo)簽2,其中標(biāo)簽I表示t-1次迭代的標(biāo)簽和標(biāo)簽2表示t-2次迭代的標(biāo)簽; 8)令變量i= 0 ; 9)判斷i是否小于AdjList.length,是則執(zhí)行步驟10,否則執(zhí)行步驟1210)發(fā)送〈AdjList.get (i),V> 11)i自增1,執(zhí)行8); 12)Map過(guò)程結(jié)束,Hadoop 執(zhí)行 shuffle&&sort ; 13)Reduce解析[Value]數(shù)組,分別用數(shù)據(jù)結(jié)構(gòu)AdjLabelPA保存節(jié)點(diǎn)結(jié)構(gòu),臨時(shí)鏈表Is1, Is2分別保存每個(gè)傳遞過(guò)來(lái)的し、I2的值(如果有兩個(gè)標(biāo)簽,否則Is2為空) 14)根據(jù)下式找出新的節(jié)點(diǎn)標(biāo)簽; 15)其中GxtOf-1)表示t-l次迭代Xk節(jié)點(diǎn)的標(biāo)簽,f函數(shù)返回的是鄰居節(jié)點(diǎn)傳遞過(guò)來(lái)頻次最多的標(biāo)記; 16)更新AdjLabel中的t-l標(biāo)簽和t標(biāo)簽分別為Cx(t-l)與Cx⑴; 17)保存此次迭代的結(jié)果至分布式文件系統(tǒng)中; 18)結(jié)束。
全文摘要
本發(fā)明提供一種基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法,包括如下步驟組網(wǎng)階段a)預(yù)處理生成中藥數(shù)據(jù)集,格式化為文本數(shù)據(jù);b)將初始文本數(shù)據(jù)部署至Hadoop平臺(tái);c)并行化組建中藥藥物(Traditional Chinese Medicine簡(jiǎn)稱(chēng)TCM)網(wǎng)絡(luò);d)結(jié)束。挖掘階段a)獲取步驟1-c處理生成的TCM網(wǎng)絡(luò)文本文件;b)將TCM網(wǎng)絡(luò)文本文件部署至Hadoop平臺(tái);c)實(shí)施并行化標(biāo)簽傳播算法發(fā)現(xiàn)藥物社團(tuán);d)結(jié)束。本發(fā)明的基于復(fù)雜網(wǎng)絡(luò)模型并行化標(biāo)簽傳播算法的藥物社團(tuán)發(fā)現(xiàn)方法建立了TCM網(wǎng)絡(luò)模型,利用并行化技術(shù)提高了組網(wǎng)以及標(biāo)簽傳播算法的可擴(kuò)展性和運(yùn)行速度,并且能有效挖掘復(fù)方中藥性相似的藥物社團(tuán),幫助研究中藥配伍規(guī)律。
文檔編號(hào)G06F17/30GK102663108SQ20121011117
公開(kāi)日2012年9月12日 申請(qǐng)日期2012年4月16日 優(yōu)先權(quán)日2012年4月16日
發(fā)明者劉正, 孫道平, 楊鴻超, 王崇駿, 謝俊元 申請(qǐng)人:南京大學(xué)