一種基于共生關(guān)系分析的服務(wù)組合主題演化圖構(gòu)造方法
【專利摘要】本發(fā)明提出一種基于服務(wù)共生關(guān)系分析的服務(wù)組合主題演化圖構(gòu)造方法。該方法通過利用服務(wù)歷史使用信息,挖掘服務(wù)之間的“共生”關(guān)系,并以此為基礎(chǔ)重構(gòu)服務(wù)系統(tǒng)中服務(wù)的描述文檔?;谥貥?gòu)的描述文檔,利用主題模型來挖掘隱含的服務(wù)組合的主題,揭發(fā)服務(wù)間隱含的組合模式。最后,本發(fā)明提出構(gòu)造服務(wù)組合主題演化圖的詳細方法。通過構(gòu)造服務(wù)組合主題的演化圖,能夠直觀地顯示不同服務(wù)組合主題的重要程度、時間特性和依賴關(guān)系等等,為開發(fā)者理解服務(wù)組合的趨勢及篩選相應(yīng)的服務(wù)提供幫助。
【專利說明】
一種基于共生關(guān)系分析的服務(wù)組合主題演化圖構(gòu)造方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及一種服務(wù)組合主題演化圖的構(gòu)造方法。該方法通過利用服務(wù)歷史使用 信息,挖掘隱含的服務(wù)組合的主題,并基于此提出構(gòu)造服務(wù)組合主題演化圖的方法。該方法 屬于計算機系統(tǒng)建模以及數(shù)據(jù)分析領(lǐng)域。
【背景技術(shù)】
[0002] 近年來,伴隨著Web service的不斷發(fā)展,互聯(lián)網(wǎng)正在經(jīng)歷由"數(shù)據(jù)為中心"到"以 服務(wù)為中心"的轉(zhuǎn)變,Web服務(wù)成為面向服務(wù)架構(gòu)(Service Oriented Architecture,簡稱 S0A)下實施資源共享和業(yè)務(wù)集成的主要形式。互聯(lián)網(wǎng)上大量的軟件提供商改變了自己的傳 統(tǒng)經(jīng)營模式,開始采用軟件即服務(wù)(Software as a Service,簡稱SaaS)的模式來提供軟件 服務(wù)(以下均簡稱服務(wù));與此同時,大量用戶利用互聯(lián)網(wǎng)上SaaS模式的開放服務(wù)來開發(fā)自 己的應(yīng)用。為了進一步滿足用戶多樣化的需求,服務(wù)組合的形式應(yīng)運而生,眾多的服務(wù)個體 以動態(tài)組合的形式被開發(fā)者組合并包裝成新的服務(wù),產(chǎn)生了附加價值。隨著服務(wù)系統(tǒng)的不 斷發(fā)展,服務(wù)組合開發(fā)者的工作也變得越來越困難,一方面,服務(wù)組合中不同服務(wù)的共生關(guān) 系往往蘊含著一些隱含的服務(wù)組合主題關(guān)聯(lián),開發(fā)者無法獲知服務(wù)系統(tǒng)中都有哪些服務(wù)組 合的主題,以及這些主題的具體含義是什么、每個主題下都有哪些代表性的服務(wù)等;另一方 面,由于服務(wù)的多樣性和服務(wù)系統(tǒng)的復(fù)雜性,導(dǎo)致服務(wù)開發(fā)者無法從宏觀角度上了解服務(wù) 系統(tǒng)中的服務(wù)組合的演化趨勢,從而無法準(zhǔn)確把握創(chuàng)建服務(wù)組合的趨勢,并對構(gòu)建服務(wù)組 合的工作給予方向性的指導(dǎo)。
[0003] 在服務(wù)系統(tǒng)的相關(guān)研究中,傳統(tǒng)的服務(wù)主題分析是基于服務(wù)的文本描述文檔分析 出服務(wù)功能主題,具有類似功能的服務(wù)會被劃分到同一個主題下。比如"地圖"的服務(wù)功能 主題下,會包含如"谷歌地圖"、"百度地圖"和"高德地圖"等服務(wù)。與功能主題不同,服務(wù)組 合的主題則揭示的是不同服務(wù)之間隱含的組合模式。在創(chuàng)建新的服務(wù)組合時,某些服務(wù)總 是被同時使用來實現(xiàn)一定的功能,那么這些服務(wù)其實就包含一個隱含的服務(wù)組合的主題。 比如,在"融入定位信息的社交平臺"服務(wù)組合主題下,會包含一些地圖類的服務(wù)和社交類 的服務(wù),如"谷歌地圖"、"百度地圖"會經(jīng)常和"Facebook"、"微博"等服務(wù)同時使用構(gòu)成新的 服務(wù)組合,來共同實現(xiàn)社交平臺中的定位信息的獲取和應(yīng)用等功能。
[0004] 此外,為了指導(dǎo)服務(wù)開發(fā)者更高效地進行服務(wù)組合的開發(fā),除了獲取單個服務(wù)組 合主題的相關(guān)信息外,還需要了解這些主題之間的關(guān)系以及演化的趨勢等等。構(gòu)建一個服 務(wù)組合主題的演化圖是一個較為合適的方法,演化圖可以直觀地表述出服務(wù)組合的主題及 主題間的依賴和演化關(guān)系。然而,在主題分析的相關(guān)研究中,一些傳統(tǒng)的方法只能給出不同 主題間的相似度或相關(guān)性的處理方法,這是一種無向的、數(shù)值的關(guān)系;主題間的依賴關(guān)系應(yīng) 是有向的,表示一個(或多個)主題是由另一個(或多個)主題發(fā)展、擴充而逐漸形成的。主題 間也有時間先后的順序之分,比如一個(或多個)較舊的主題演化而形成較新的主題。
[0005]針對以上傳統(tǒng)方法的不足,本發(fā)明提出了一種基于服務(wù)共生關(guān)系分析的服務(wù)組合 主題演化圖的構(gòu)造方法:該方法能夠有效地利用服務(wù)歷史組合信息,挖掘出服務(wù)組合層面 的隱含主題,計算主題的時間特性和依賴關(guān)系,并構(gòu)造服務(wù)組合主題的演化圖。該方法在真 實數(shù)據(jù)集上取得了較好的效果,挖掘出了隱含的服務(wù)組合主題,并構(gòu)建出了服務(wù)主題的演 化圖,與先驗知識較為吻合。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明首次提出一種基于服務(wù)共生關(guān)系分析的服務(wù)組合主題演化圖構(gòu)造方法。本 發(fā)明的服務(wù)組合主題演化圖構(gòu)造方法包含兩個過程:1)基于服務(wù)共生關(guān)系分析的服務(wù)組合 主題挖掘過程;2)基于服務(wù)組合主題的演化圖構(gòu)造過程。
[0007] 1)基于服務(wù)共生關(guān)系分析的服務(wù)組合主題挖掘過程包含三個階段:
[0008] (1)基于已知的服務(wù)歷史使用記錄,抽取得到服務(wù)之間的共生關(guān)系矩陣SSC(見步 驟1中說明);
[0009] (2)基于服務(wù)之間的共生關(guān)系矩陣,構(gòu)造"服務(wù)共生文檔",即用有共生關(guān)系的其他 服務(wù)來重構(gòu)每個服務(wù)的描述,并得到服務(wù)系統(tǒng)的重構(gòu)描述文檔集D(見步驟2中說明);
[0010] (3)基于重構(gòu)的服務(wù)描述文檔,基于LDA(Latent Dirichlet Allocation)改進主 題模型,挖掘出隱含的服務(wù)組合主題。
[0011] 2)基于服務(wù)組合主題的演化圖構(gòu)造過程包含三個階段:
[0012] (1)根據(jù)服務(wù)組合主題挖掘的結(jié)果,結(jié)合服務(wù)的時間標(biāo)簽,挖掘單個服務(wù)組合主題 的時間信息,并繪制單個服務(wù)組合主題的時間特性曲線;
[0013] (2)根據(jù)服務(wù)組合主題挖掘的結(jié)果,挖掘不同主題之間的依賴關(guān)系;
[0014] (3)根據(jù)服務(wù)組合主題挖掘的結(jié)果,結(jié)合主題間的依賴關(guān)系,制定剪枝策略保留下 有意義的主題依賴關(guān)系,并據(jù)此繪制服務(wù)組合主題演化圖。
[0015] 本發(fā)明提出一種基于服務(wù)引用關(guān)系分析的服務(wù)組合主題演化圖構(gòu)造方法,具有以 下兩方面的優(yōu)點:
[0016] (1)通過服務(wù)的而歷史使用記錄信息,本發(fā)明重構(gòu)了服務(wù)描述,建立"服務(wù)共生文 檔",并基于這個文檔使用概率生成模型得到隱含的服務(wù)組合主題信息;
[0017] (2)本發(fā)明處理得到不同服務(wù)組合主題的時間特性,以及不同主題之間的有向依 賴關(guān)系,并根據(jù)這些信息構(gòu)造了服務(wù)組合主題的演化圖。
【附圖說明】
[0018] 圖1是本發(fā)明中基于服務(wù)引用關(guān)系分析的服務(wù)組合主題挖掘方法的圖示。
[0019] 圖2是本發(fā)明中基于服務(wù)組合主題的演化圖構(gòu)造方法圖示。
[0020] 圖3是本發(fā)明中服務(wù)共生主題模型的概率圖模型圖示。
[0021] 圖4是本發(fā)明中服務(wù)組合主題的時間特性曲線圖示。
[0022] 圖5是本發(fā)明中服務(wù)組合的主題演化圖示例。
【具體實施方式】
[0023] 描述本發(fā)明所涉及的符號意義以及具體步驟。
[0024]具體實施步驟分為兩大部分:
[0025]第一部分,(步驟1~步驟3),根據(jù)服務(wù)的歷史使用記錄,基于服務(wù)共生關(guān)系挖掘服 務(wù)組合主題;第二部分(步驟4~步驟8),根據(jù)第一部分得到的服務(wù)組合主題信息,結(jié)合服務(wù) 時間標(biāo)簽等信息,構(gòu)造服務(wù)組合主題演化圖。
[0026]參見圖1,基于服務(wù)共生關(guān)系挖掘服務(wù)組合主題分為三個階段。
[0027] 階段1對應(yīng)步驟1
[0028] 步驟1:根據(jù)服務(wù)歷史使用記錄信息,抽取不同服務(wù)之間的共生關(guān)系信息,得到矩 陣SSC。服務(wù)的歷史使用記錄即構(gòu)建服務(wù)組合時不同服務(wù)被調(diào)用的記錄,表示為R={M 1 = {Sn,Si2,? ? ?,SiNi},i = 1,2,? ? ?,Nm}。其中,Mi表示第i個服務(wù)組合,Sij表示第i個服務(wù)組合中 調(diào)用的第j個服務(wù),Nm表示總的服務(wù)組合。根據(jù)服務(wù)歷史使用記錄得到的SSC為NsXNs維矩 陣,Ns表示服務(wù)系統(tǒng)中服務(wù)的總數(shù)量。SSC第i行第j個元素 SSC(i,j)表示服務(wù)j與服務(wù)i的共 生關(guān)系,即共同被同一個服務(wù)組合調(diào)用的次數(shù)。特別地,不考慮服務(wù)于自己的共生關(guān)系,即 矩陣SSC的對角線元素均為零。
[0029] 階段2對應(yīng)步驟2
[0030] 步驟2:根據(jù)步驟1得到的服務(wù)共生關(guān)系矩陣,構(gòu)造服務(wù)系統(tǒng)的重構(gòu)描述文檔集D。 矩陣SSC的第i行描述了服務(wù)i與服務(wù)系統(tǒng)中所有其他服務(wù)的共生關(guān)系。據(jù)此,依次抽取SSC 每一行的信息,即對于每一個服務(wù),用與其有共生關(guān)系的其他服務(wù)來描述它,構(gòu)造服務(wù)系統(tǒng) 的重構(gòu)描述文檔集D。特別地,對于服務(wù)i,其基于共生關(guān)系的描述文檔為di={#Sj = SSC(i, j),j = 1,2,. . .,Ns,j辛i}。其中,#Sj表示在服務(wù)i的描述文檔中,服務(wù)j出現(xiàn)的次數(shù)。在傳統(tǒng) 的服務(wù)主題分析方法中,使用的是服務(wù)的文本描述信息。而在得到的文檔集D中,則是使用 與一個特定服務(wù)共生的其他服務(wù)來描述它,并以此為基礎(chǔ)分析服務(wù)組合的主題。
[0031] 階段3對應(yīng)步驟3
[0032] 步驟3:基于重構(gòu)的服務(wù)描述文檔集D,改進LDA主題模型,分析服務(wù)組合主題相關(guān) 信息。因為文檔集D是基于服務(wù)共生關(guān)系的,所以稱改進后的模型為"服務(wù)共生主題模型"。 通過對重構(gòu)的服務(wù)描述文檔集的主題分析,我們可以挖掘出隱含的服務(wù)組合的主題,并同 時處理得到"服務(wù)-主題分布"和"主題_服務(wù)分布"。
[0033]我們假設(shè)服務(wù)組合主題的總數(shù)量為K個;0為NsXK維的"服務(wù)-主題分布"矩陣,矩 陣的每一行描述了 一個服務(wù)文檔的主題分布;〇為Ns X K維的"主題-服務(wù)分布"矩陣,矩陣 的每一列描述了服務(wù)組合主題基于服務(wù)的分布;a和0分別為0和?的先驗分布的參數(shù)。 [0034]該模型的概率圖如圖3所示。對于服務(wù)共生文檔,我們建立如下的概率生成模型: [0035]對于服務(wù)系統(tǒng)中的任意服務(wù)i:
[0036] ?根據(jù)參數(shù)為a的狄利克雷分布,抽取服務(wù)i的主題分布參數(shù)01;
[0037] ?對于服務(wù)Si的每一個共生的服務(wù)Sin:
[0038] ?根據(jù)參數(shù)為0:的多項式分布,抽取該服務(wù)分配的主題Zin;
[0039] ?根據(jù)主題Zin到服務(wù)的多項式分布(i)in,抽取^第!!個共生的服務(wù)S in。
[0040]我們采用吉布斯采樣來估計模型中的隱含參數(shù),最終得到如下結(jié)果:
[0043]每個服務(wù)組合主題的流行度可以用下式估算: (3)
[0045]根據(jù)服務(wù)組合主題信息,結(jié)合服務(wù)時間標(biāo)簽等信息,構(gòu)造服務(wù)組合主題演化圖分 為三個階段。詳情可參見圖2,對于服務(wù)開發(fā)者而言,既需要了解服務(wù)系統(tǒng)中包含哪些服務(wù) 組合的主題,又需要了解這些主題的時間特性,如是新興的主題還是比較陳舊的主題,以及 主題之間的依賴關(guān)系等等。通過挖掘這些信息,并構(gòu)造一個服務(wù)組合主題的演化圖,可以對 服務(wù)開發(fā)者的服務(wù)組合工作起到指導(dǎo)性的作用。
[0046] 階段1對應(yīng)步驟4、5
[0047] 步驟4:根據(jù)服務(wù)組合主題挖掘的結(jié)果,結(jié)合服務(wù)的時間標(biāo)簽,挖掘單個服務(wù)組合 主題的時間信息。我們利用每個服務(wù)的發(fā)布時間,挖掘服務(wù)組合主題的時間特性。對于主題 k,我們采用"天"為基本單位,計算出其概率質(zhì)量函數(shù)Z = /f)= Z 其中, ^ Jmie( ^ )=/ timet表示具體的天數(shù)t,time(s) = t表示發(fā)布時間為t的服務(wù),巾k,s表示在服務(wù)組合主題k 下,服務(wù)s出現(xiàn)的概率大小。
[0048] 步驟5:繪制單個服務(wù)組合主題的時間特性曲線。每個服務(wù)組合主題的生命周期一 般都包含如下三個階段:出現(xiàn)期、流行期、衰退期。在出現(xiàn)期,有關(guān)該主題的服務(wù)開始出現(xiàn), 并被開發(fā)者開始用來開發(fā)服務(wù)組合;隨著發(fā)展,進入流行期后,大量代表性的服務(wù)不斷出 現(xiàn),并且越來越多的開發(fā)者選用這些服務(wù)來開發(fā)該主題相關(guān)的服務(wù)組合;到達衰退期后,開 發(fā)者們對該服務(wù)組合主題的興趣會逐漸衰退,轉(zhuǎn)向其他熱門的服務(wù)組合主題。因此,可以假 設(shè)服務(wù)組合主題流行度的時間分布與正態(tài)分布是類似的?;谶@個假設(shè),我們差值求出服 務(wù)組合主題每個時間點的流行度,并進行特性曲線的繪制。
[0049] 對于服務(wù)組合主題k,我們采用如下公式差值得出每一天的概率質(zhì)量密度:
[0051]根據(jù)得出的結(jié)果,可以繪制單個服務(wù)組合主題的時間特性曲線,如圖4所示。圖中 紅色和藍色分別代表兩個不同的服務(wù)組合主題,橫軸代表時間,縱軸代表服務(wù)組合主題基 于服務(wù)的概率大??;小矩形表示主題中的代表性服務(wù),縱坐標(biāo)越大的矩形代表當(dāng)前主題下 更具代表性的服務(wù);虛線代表擬合后的主題基于服務(wù)的概率分布曲線;實心直線代表主題 的期望時間。
[0052] 階段2對應(yīng)步驟6
[0053]步驟6:根據(jù)服務(wù)組合主題挖掘的結(jié)果,挖掘不同主題之間的依賴關(guān)系。與一些傳 統(tǒng)主題模型中計算的主題相似度不同,我們挖掘的是一種有向的主題間的關(guān)聯(lián)。給定兩個 主題k#Pk2,基于全概率公式,主題k 2對主題h的影響大小(依賴大小)可以用下式來計算: Pr(^, k{\k,) = EJP\\lopk\ =^k2 \k{))
[0054] = Z, ?(toPk\ = ki i servic,) nscrvicx\ | k,) (
[0055] 上式的直觀含義是,當(dāng)在服務(wù)組合主題ki下任選一個服務(wù)時,Pr(k2-kilkO表示 選擇的這個服務(wù)包含主題k2的概率大小。PHks-lullu)表示的是服務(wù)組合主題1?對1^的影 響大小,即1^對1?的依賴關(guān)系大小。通過此步驟我們可以得到服務(wù)組合主題依賴關(guān)系矩陣 TR,其中的每一個元素 TR(i,j)表示主題匕對主題k」的依賴程度。
[0056] 階段3對應(yīng)步驟7、8
[0057]步驟7:制定剪枝策略保留下有意義的主題依賴關(guān)系。
[0058]制定的剪枝規(guī)則如下:
[0059] ?閾值剪枝:設(shè)定閾值刪除矩陣TR中所有小于該閾值的元素,以消除噪聲和干 擾信息的影響。
[0060] ?邏輯剪枝:根據(jù)常識,較舊的主題對較新的主題是不符合邏輯的。通過計算服務(wù) 組合主題的期望時間⑴= '刪除矩陣TR中不符邏輯的元素。
[0061] 步驟8:繪制服務(wù)組合主題演化圖。
[0062] 根據(jù)剪枝后的矩陣TR,進行服務(wù)組合主題演化圖的繪制,詳細步驟如下:
[0063] ?繪制服務(wù)組合主題。在主題演化圖中,先用圓圈表示每個主題;再用圓圈的大小 提現(xiàn)主題的流行程度Pr(z = k|D)的大小,越流行的主題,代表其的圓圈也越大;最后圓圈的 顏色表示主題的時間Es|z= k(t)的新舊,越舊的主題,其顏色偏綠,反之越新的主題,其顏色 越紅。
[0064] ?繪制主題依賴關(guān)系。在主題演化圖中,用圓圈之間的有向線段表示兩個主題之 間的依賴關(guān)系。一條由主題4指向h的有向線段表示主題lu依賴于I依賴的程度,即TR(i, j)的大小,由線段的粗細體現(xiàn)。依賴程度越大,有向線段越粗。
[0065] 服務(wù)組合主題演化圖的示例如圖5所示。圖中每個圓圈代表一個服務(wù)組合的主題; 圓圈的大小代表主題的流行度,越流行的主題越大;圓圈的顏色代表主題的期望時間,偏綠 表示主題較舊,偏紅表示主題較新;圓圈間的有向線段表示服務(wù)組合主題間的依賴關(guān)系,線 段越粗表示依賴關(guān)系越強。
[0066] 通過本發(fā)明的基于服務(wù)共生關(guān)系分析的服務(wù)組合主題演化圖構(gòu)造方法:能夠使用 服務(wù)的歷史使用記錄信息,挖掘服務(wù)間的共生關(guān)系;能夠基于服務(wù)的共生關(guān)系,用共生的服 務(wù)來描述某一個特定的服務(wù),重構(gòu)服務(wù)的描述文檔并挖掘出服務(wù)系統(tǒng)中隱含的服務(wù)組合主 題;能夠利用服務(wù)的時間信息挖掘出服務(wù)組合主題的時間特性,并繪制相應(yīng)的擬合曲線圖; 能夠挖掘出不同服務(wù)組合主題之間的有向依賴關(guān)系;能夠繪制體現(xiàn)服務(wù)組合主題流行程 度、時間信息和依賴關(guān)系的服務(wù)組合主題演化圖。經(jīng)數(shù)據(jù)驗證,本發(fā)明的方法能夠有效地實 現(xiàn)相應(yīng)的目標(biāo),挖掘的信息與實證信信息基本相符。
【主權(quán)項】
1. 一種基于服務(wù)共生關(guān)系分析的服務(wù)組合主題演化圖構(gòu)造方法,其特征在于,所述服 務(wù)組合主題演化圖構(gòu)造方法包含兩個過程:1)基于服務(wù)共生關(guān)系分析的服務(wù)組合主題挖掘 過程,和2)基于服務(wù)組合主題的演化圖構(gòu)造過程;其中: 1) 基于服務(wù)共生關(guān)系分析的服務(wù)組合主題挖掘過程包含三個階段: (1) 基于已知的服務(wù)歷史使用記錄,抽取得到服務(wù)之間的共生關(guān)系矩陣SSC; (2) 基于服務(wù)之間的共生關(guān)系矩陣,構(gòu)造"服務(wù)共生文檔",即用有共生關(guān)系的其他服務(wù) 來重構(gòu)每個服務(wù)的描述,并得到服務(wù)系統(tǒng)的重構(gòu)描述文檔集D; (3) 基于重構(gòu)的服務(wù)描述文檔集D,基于LDA(Latent Dirichlet Allocation)改進主題 模型,挖掘出隱含的服務(wù)組合主題; 2) 基于服務(wù)組合主題的演化圖構(gòu)造過程包含三個階段: (1) 根據(jù)服務(wù)組合主題挖掘的結(jié)果,結(jié)合服務(wù)的時間標(biāo)簽,挖掘單個服務(wù)組合主題的時 間信息,并繪制單個服務(wù)組合主題的時間特性曲線; (2) 根據(jù)服務(wù)組合主題挖掘的結(jié)果,挖掘不同主題之間的依賴關(guān)系; (3) 根據(jù)服務(wù)組合主題挖掘的結(jié)果,結(jié)合主題間的依賴關(guān)系,制定剪枝策略保留下有意 義的主題依賴關(guān)系,并據(jù)此繪制服務(wù)組合主題演化圖。2. 根據(jù)權(quán)利要求1所述的服務(wù)組合主題演化圖構(gòu)造方法,其特征在于,所述過程1)第 (1)階段包括: 步驟1:服務(wù)的歷史使用記錄即構(gòu)建服務(wù)組合時不同服務(wù)被調(diào)用的記錄,表示為RiiMi = · · ·,SiNi},i = l,2, · · ·,Nm},其中,Mi表示第i個服務(wù)組合,Sij表示第i個服務(wù)組合 中調(diào)用的第j個服務(wù),Nm表示總的服務(wù)組合;根據(jù)服務(wù)歷史使用記錄得到的SSC為NsXNs維矩 陣,Ns表示服務(wù)系統(tǒng)中服務(wù)的總數(shù)量;SSC第i行第j個元素 SSC( i,j)表示服務(wù)j與服務(wù)i的共 生關(guān)系,即共同被同一個服務(wù)組合調(diào)用的次數(shù)。3. 根據(jù)權(quán)利要求1至2中任一項所述的服務(wù)組合主題演化圖構(gòu)造方法,其特征在于,所 述過程1)第(2)階段包括: 步驟2:依次抽取SSC每一行的信息,構(gòu)造服務(wù)系統(tǒng)的重構(gòu)描述文檔集D。4. 根據(jù)權(quán)利要求1至3中任一項所述的服務(wù)組合主題演化圖構(gòu)造方法,其特征在于,所 述過程1)第(3)階段包括: 步驟3:通過對重構(gòu)的服務(wù)描述文檔集的主題分析,挖掘出隱含的服務(wù)組合的主題,并 同時處理得到"服務(wù)-主題分布"和"主題-服務(wù)分布";令服務(wù)組合主題的總數(shù)量為K個;Θ為 NsXK維的"服務(wù)-主題分布"矩陣,矩陣的每一行描述了一個服務(wù)文檔的主題分布;Φ為NsX K維的"主題-服務(wù)分布"矩陣,矩陣的每一列描述了服務(wù)組合主題基于服務(wù)的分布;α和β分 別為Θ和Φ的先驗分布的參數(shù);建立如下的概率生成模型: 對于服務(wù)系統(tǒng)中的任意服務(wù)i: ?根據(jù)參數(shù)為α的狄利克雷分布,抽取服務(wù)i的主題分布參數(shù)θ1; ?對于服務(wù)&的每一個共生的服務(wù)Sin: 根據(jù)參數(shù)為的多項式分布,抽取該服務(wù)分配的主題zin; 根據(jù)主題ζιη到服務(wù)的多項式分布φιη,抽取31第11個共生的服務(wù)S in; 采用吉布斯采樣來估計模型中的隱含參數(shù),最終得到如下結(jié)果:每個服務(wù)組合主題的流行度用下式估算:5. 根據(jù)權(quán)利要求1至4中任一項所述的服務(wù)組合主題演化圖構(gòu)造方法,其特征在于,所 述過程2)第(1)階段包括: 步驟4:對于主題k,采用"天"為基本單位,計算出其概率質(zhì)量函數(shù) 其中,timet表示具體的天數(shù)t,time(s) = t表示發(fā)布時間為t的服務(wù),<^,3表示在服務(wù)組合 主題k下,服務(wù)s出現(xiàn)的概率大??; 步驟5:對于服務(wù)組合主題k,采用如下公式差值得出每一天的概率質(zhì)量密度:Pr*(timei|z = k)表示插值后的第i天的概率質(zhì)量密度;t_和tmax分別表示設(shè)定的天數(shù) 的最小值和最大值;f~N(0,〇),即函數(shù)f(x)服從位置參數(shù)為0,尺度參數(shù)為〇的正態(tài)分布,根據(jù)(4)得出的結(jié)果,以時間(天為單位)為橫軸,插值后的概率質(zhì)量密度為縱軸,繪制 單個服務(wù)組合主題的時間特性曲線。6. 根據(jù)權(quán)利要求1至5中任一項所述的服務(wù)組合主題演化圖構(gòu)造方法,其特征在于,所 述過程2)第(2)階段包括: 步驟6:給定兩個主題kjPk2,基于全概率公式,主題k2對主題h的影響大?。ㄒ蕾嚧笮。?可以用下式來計算:Pr(k2-ki | ki)表不的是服務(wù)組合主題k2對ki的影響大小,即ki對k2的依賴關(guān)系大小;得 到服務(wù)組合主題依賴關(guān)系矩陣TR,其中的每一個元素 TR( i,j)表示主題1^對主題h的依賴程 度。7. 根據(jù)權(quán)利要求1至6中任一項所述的服務(wù)組合主題演化圖構(gòu)造方法,其特征在于,所 述過程2)第(3)階段包括: 步驟7:制定的剪枝規(guī)則如下: ?閾值剪枝:設(shè)定閾值ξ,刪除矩陣TR中所有小于該閾值的元素,以消除噪聲和干擾信 息的影響; ?邏輯剪枝:根據(jù)常識,較舊的主題對較新的主題是不符合邏輯的;通過計算服務(wù)組合 主題的期望時間,刪除矩陣TR中不符邏輯的元素; 步驟8:根據(jù)剪枝后的矩陣TR,進行服務(wù)組合主題演化圖的繪制,詳細步驟如下: ?繪制服務(wù)組合主題,在主題演化圖中,先用圓圈表示每個主題;再用圓圈的大小提現(xiàn) 主題的流行程度Pr(z = k|D)的大小,越流行的主題,代表其的圓圈也越大;最后圓圈的顏色 表示主題的時間Es|z= k(t)的新舊; ?繪制主題依賴關(guān)系,在主題演化圖中,用圓圈之間的有向線段表示兩個主題之間的 依賴關(guān)系,一條由主題4指向h的有向線段表示主題lu依賴于I依賴的程度,即TR(i,j)的 大小,由線段的粗細體現(xiàn)。
【文檔編號】G06F17/30GK105930404SQ201610237904
【公開日】2016年9月7日
【申請日】2016年4月15日
【發(fā)明人】范玉順, 郜振鋒, 吳澄, 陳曙輝, 白冰
【申請人】清華大學(xué)