一種挖掘稀有均衡序列的方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種挖掘稀有均衡序列的方法及裝置,屬于計算機(jī)領(lǐng)域。所述方法包括:從原始序列集合中選擇支持度小于預(yù)設(shè)支持度閾值的序列作為稀有序列并組成稀有序列集合;獲取所述稀有序列的均衡系數(shù),所述均衡系數(shù)用于反映所述稀有序列分布的均衡程度;選擇均衡系數(shù)小于預(yù)設(shè)均衡系數(shù)閾值的稀有序列作為稀有均衡序列。所述裝置包括:第一選擇模塊、第一獲取模塊和第二選擇模塊。本發(fā)明能夠提高挖掘稀有均衡序列的精度。
【專利說明】一種挖掘稀有均衡序列的方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計算機(jī)領(lǐng)域,特別涉及一種挖掘稀有均衡序列的方法及裝置。
【背景技術(shù)】
[0002] 序列是被排成一列的數(shù)據(jù)元素,近年來在很多領(lǐng)域中出現(xiàn)大量的序列,例如,軌跡 數(shù)據(jù)、DNA (Deoxyribonucleicacid,脫氧核糖核酸)序列數(shù)據(jù)和Web (網(wǎng)絡(luò))訪問日志等。如 在導(dǎo)航領(lǐng)域中,用戶的軌跡數(shù)據(jù)可以組成序列,序列包括的數(shù)據(jù)元素為用戶停留的位置點, 如用戶從家到工作地點所停留的位置點構(gòu)成了一個序列。
[0003] 在大量的序列中往往具有一類出現(xiàn)頻率低且分布均衡的序列,這類序列被稱為稀 有均衡序列;例如,用戶在某個時間段裝修房子,該用戶的序列中出現(xiàn)了從家到建材市場 的裝修序列,裝修序列只有在該時間段內(nèi)出現(xiàn),所以出現(xiàn)頻率低,但裝修序列不是該用戶獨 有,很多其他用戶也有裝修序列,因此裝修序列分布均衡,所以該用戶的裝修序列為稀有均 衡序列。稀有均衡序列所反應(yīng)的規(guī)律不易被人們發(fā)現(xiàn),但其具有較高的價值;例如,可以通 過稀有均衡序列進(jìn)行信息推送,如當(dāng)發(fā)現(xiàn)某個用戶出現(xiàn)裝修序列,可以將建材市場的促銷 信息發(fā)送給該用戶,或?qū)⑵渌脩舫Hサ慕ú氖袌鏊诘奈恢冒l(fā)送給該用戶。所以,基于稀 有均衡序列具有較高的價值,使得如何挖掘出稀有均衡序列的技術(shù)越來越被人們所重視。
[0004] 目前,現(xiàn)有技術(shù)提供了一種挖掘稀有均衡序列的技術(shù),可以為:第一步:從數(shù)據(jù)庫 包括的原始序列中選擇長度最長的序列,其中,由于同一長度的原始序列可能有多個,所以 選擇的長度最長的序列也可能是多個;第二步:計算選擇的長度最長的序列中的每個序列 的支持度,序列的支持度用于反映該序列在數(shù)據(jù)庫中出現(xiàn)的頻率;第三步:從選擇的長度 最長的序列中獲取支持度小于預(yù)設(shè)閾值的序列,將獲取的序列作為稀有均衡序列;第四步: 從選擇的長度最長的序列中的每個序列中減去一個數(shù)據(jù)元素,此時,數(shù)據(jù)庫中包括未選擇 的原始序列和被減去數(shù)據(jù)元素的序列,然后再從數(shù)據(jù)庫中選擇長度最長的序列,并返回執(zhí) 行第二步,直到將數(shù)據(jù)庫中的每個原始序列包括的數(shù)據(jù)元素減為1時為止。
[0005] 在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:
[0006] 現(xiàn)有技術(shù)挖掘出來的稀有均衡序列中包括大量分布不均衡的序列,而這些分布不 均衡的序列并非稀有均衡序列,所以現(xiàn)有技術(shù)挖掘稀有均衡序列的精度較低。
【發(fā)明內(nèi)容】
[0007] 為了提高挖掘稀有均衡序列的精度,本發(fā)明提供了一種挖掘稀有均衡序列的方法 及裝置。所述技術(shù)方案如下:
[0008] -種挖掘稀有均衡序列的方法,所述方法包括:
[0009] 從原始序列集合中選擇支持度小于預(yù)設(shè)支持度閾值的序列作為稀有序列并組成 稀有序列集合;
[0010] 獲取所述稀有序列的均衡系數(shù),所述均衡系數(shù)用于反映所述稀有序列分布的均衡 程度; toon] 選擇均衡系數(shù)小于預(yù)設(shè)均衡系數(shù)閾值的稀有序列作為稀有均衡序列。
[0012] 一種挖掘稀有均衡序列的裝置,所述裝置包括:
[0013] 第一選擇模塊,用于從原始序列集合中選擇支持度小于預(yù)設(shè)支持度閾值的序列作 為稀有序列并組成稀有序列集合;
[0014] 第一獲取模塊,用于獲取所述稀有序列的均衡系數(shù),所述均衡系數(shù)用于反映所述 稀有序列分布的均衡程度;
[0015] 第二選擇模塊,用于選擇均衡系數(shù)小于預(yù)設(shè)均衡系數(shù)閾值的稀有序列作為稀有均 衡序列。
[0016] 在本發(fā)明實施例中,由于獲取支持度小于預(yù)設(shè)支持度閾值的稀有序列的均衡系 數(shù),均衡系數(shù)用于反映稀有序列分布的均衡程度,所以選擇出均衡系數(shù)小于預(yù)設(shè)均衡系數(shù) 閾值的稀有序列作為稀有均衡序列,可以提1?挖掘稀有均衡序列的精度。
【專利附圖】
【附圖說明】
[0017] 圖1是本發(fā)明實施例1提供的一種挖掘稀有均衡序列的方法流程圖;
[0018] 圖2-1是本發(fā)明實施例2提供的一種挖掘稀有均衡序列的方法流程圖;
[0019] 圖2-2是本發(fā)明實施例2提供的一種通過滑動窗口切分原始序列的流程圖;
[0020] 圖2-3是本發(fā)明實施例2提供的通過滑動窗口切分原始序列的第一示意圖;
[0021] 圖2-4是本發(fā)明實施例2提供的通過滑動窗口切分原始序列的第二示意圖;
[0022] 圖2-5是本發(fā)明實施例2提供的通過滑動窗口切分原始序列的第三示意圖;
[0023] 圖2-6是本發(fā)明實施例2提供的通過滑動窗口切分原始序列的第四示意圖;
[0024] 圖2-7是本發(fā)明實施例2提供的通過滑動窗口切分原始序列的第五示意圖;
[0025] 圖3是本發(fā)明實施例3提供的一種挖掘稀有均衡序列的裝置結(jié)構(gòu)示意圖。
【具體實施方式】
[0026] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方 式作進(jìn)一步地詳細(xì)描述。
[0027] 實施例1
[0028] 參見圖1,本發(fā)明實施例提供了一種挖掘稀有均衡序列的方法,包括:
[0029] 步驟101 :從原始序列集合中選擇支持度小于預(yù)設(shè)支持度閾值的序列作為稀有序 列并組成稀有序列集合;
[0030] 步驟102 :獲取選擇的稀有序列的均衡系數(shù),均衡系數(shù)用于反映稀有序列分布的 均衡程度;
[0031] 步驟103 :選擇均衡系數(shù)小于預(yù)設(shè)均衡系數(shù)閾值的稀有序列作為稀有均衡序列。
[0032] 在本發(fā)明實施例中,由于獲取支持度小于預(yù)設(shè)支持度閾值的稀有序列的均衡系 數(shù),均衡系數(shù)用于反映稀有序列分布的均衡程度,所以選擇出均衡系數(shù)小于預(yù)設(shè)均衡系數(shù) 閾值的稀有序列作為稀有均衡序列,可以提1?挖掘稀有均衡序列的精度。
[0033] 實施例2
[0034] 參見圖2-1,本發(fā)明實施例提供了一種挖掘稀有均衡序列的方法。
[0035] 步驟201 :獲取原始序列集合包括的原始序列的子序列,獲取的子序列的長度相 等且長度都為預(yù)設(shè)長度;
[0036] 原始序列集合是指包括屬于同一類別的每個分析對象的原始序列,每個原始序列 都是一個數(shù)據(jù)元素序列,該數(shù)據(jù)元素都是按順序排列,該數(shù)據(jù)元素的順序參數(shù)可以為該數(shù) 據(jù)元素出現(xiàn)的時間戳等。
[0037] 在進(jìn)行挖掘稀有均衡序列之前,首先獲取屬于同一分析對象的數(shù)據(jù)元素,根據(jù)數(shù) 據(jù)元素的順序參數(shù)對于屬于同一分析對象的數(shù)據(jù)元素進(jìn)行排序得到原始序列。
[0038] 例如,事先采集到如表1所示的用戶1、用戶2……、用戶η的軌跡數(shù)據(jù),其中,表1 中的每個字母表示用戶停留的位置;每個用戶的軌跡數(shù)據(jù)組成該用戶對應(yīng)的原始序列,表 1中的η個用戶的軌跡數(shù)據(jù)組成了原始序列集合。
[0039] 表 1
[0040]
【權(quán)利要求】
1. 一種挖掘稀有均衡序列的方法,其特征在于,所述方法包括: 從原始序列集合中選擇支持度小于預(yù)設(shè)支持度閾值的序列作為稀有序列并組成稀有 序列集合; 獲取所述稀有序列的均衡系數(shù),所述均衡系數(shù)用于反映所述稀有序列分布的均衡程 度; 選擇均衡系數(shù)小于預(yù)設(shè)均衡系數(shù)閾值的稀有序列作為稀有均衡序列。
2. 如權(quán)利要求1所述的方法,其特征在于,所述從原始序列集合中選擇支持度小于預(yù) 設(shè)支持度閾值的序列作為稀有序列,包括: 獲取原始序列集合包括的原始序列的子序列,所述獲取的子序列的長度相等且都為預(yù) 設(shè)長度; 從長度為預(yù)設(shè)長度的子序列中選擇支持度小于預(yù)設(shè)支持度閾值的序列作為稀有序列。
3. 如權(quán)利要求2所述的方法,其特征在于,所述從長度為預(yù)設(shè)長度的子序列中選擇支 持度小于預(yù)設(shè)支持度閾值的序列作為稀有序列之前,還包括: 從所述原始序列集合包括的每個原始序列的子序列中統(tǒng)計出包括待計算的子序列的 數(shù)量,得到所述待計算的子序列在所述每個原始序列中的支持度,所述待計算的子序列是 任一長度為預(yù)設(shè)長度的子序列,對所述待計算的子序列在所述每個原始序列中的支持度進(jìn) 行累加,得到所述待計算的子序列的支持度。
4. 如權(quán)利要求1所述的方法,其特征在于,所述選擇支持度小于預(yù)設(shè)支持度閾值的序 列作為稀有序列并組成稀有序列集合之后,還包括: 從所述稀有序列集合中的長度為L-i*k的稀有序列中減去k個數(shù)據(jù)元素,得到長度為 L- (i+1) *k的子序列,L為預(yù)設(shè)長度,i為O至(L-2) /k中的任一整數(shù),k為大于或等于1 的整數(shù); 從長度為L- (i+1) *k的子序列中選擇支持度小于預(yù)設(shè)支持度閾值的子序列作為稀有 序列并加入所述稀有序列集合。
5. 如權(quán)利要求4所述的方法,其特征在于,所述從長度為L- (i+l)*k的子序列中選 擇支持度小于預(yù)設(shè)支持度閾值的子序列作為稀有序列并加入所述稀有序列集合之前,還包 括: 從長度為L- (i+1 )*k的子序列中獲取第一子序列和第二子序列,所述第一子序列是非 稀有序列的子序列、所述第二子序列不是非稀有序列的子序列,確定所述第一子序列的支 持度大于或等于預(yù)設(shè)支持度閾值,以及計算出所述第二子序列的支持度。
6. 如權(quán)利要求1至5任一項權(quán)利要求所述的方法,其特征在于,所述選擇支持度小于預(yù) 設(shè)支持度閾值的序列作為稀有序列并組成稀有序列集合之后,還包括: 對所述稀有序列集合包括的任意兩個長度相等的稀有序列進(jìn)行交集運算,從交集運算 的結(jié)果中選擇支持度小于預(yù)設(shè)支持度閾值的序列作為稀有序列并加入所述稀有序列集合。
7. 如權(quán)利要求6所述的方法,其特征在于,所述對所述稀有序列集合包括的任意兩個 長度相等的稀有序列進(jìn)行交集運算,從交集運算的結(jié)果中選擇支持度小于預(yù)設(shè)支持度閾值 的序列作為稀有序列并加入所述稀有序列集合,包括: 對所述稀有序列集合包括的任意兩個長度為L-j*k的稀有序列進(jìn)行交集運算得到交 集運算的結(jié)果,L為預(yù)設(shè)長度,j為O至(L-2) /k中的任一整數(shù),k為大于或等于1的整數(shù); 從交集運算的結(jié)果中選擇長度為L- (j+l)*k且支持度小于預(yù)設(shè)支持度閾值的序列作 為稀有序列并加入所述稀有序列集合。
8. 如權(quán)利要求6所述的方法,其特征在于,所述從交集運算的結(jié)果中選擇支持度小于 預(yù)設(shè)支持度閾值的序列作為稀有序列并加入所述稀有序列集合之前,還包括: 從交集運算的結(jié)果中獲取第一序列和第二序列,所述第一序列是非稀有序列的子序 列,所述第二序列不是非稀有序列的子序列,確定第一序列的支持度大于或等于預(yù)設(shè)支持 度閾值,以及計算所述第二序列的支持度。
9. 如權(quán)利要求1所述的方法,其特征在于,所述獲取所述稀有序列集合包括的稀有序 列的均衡系數(shù),包括: 通過如下公式(1)計算出所述稀有序列的均衡系數(shù);
其中,在公式(1)中,E為所述稀有序列的均衡系數(shù),η為原始序列的數(shù)目,X為所述稀 有序列,SupSi (X)為所述稀有序列X在原始序列Si中的支持度,SupSijnax為原始序列 Si的支持度,SupSj (X)為所述稀有序列X在原始序列Sj中的支持度,SupSj_max為原始 序列Sj的支持度,u如下公式(2);
其中,在公式(2)中,SupSi_max為原始序列Si的支持度。
10. 如權(quán)利要求1所述的方法,其特征在于,所述獲取所述稀有序列集合包括的稀有序 列的均衡系數(shù),包括: 通過如下公式(3)計算出所述稀有序列的均衡系數(shù);
其中,在公式(3)中,〇為所述稀有序列的均衡系數(shù),η為原始序列的數(shù)目,X為所述稀 有序列,Si為第i個原始序列,SupSi (X)為所述稀有序列X在原始序列Si中的支持度, SupSijnax為原始序列Si的支持度,Sj為第j個原始序列,SupSj (X)為所述稀有序列X 在原始序列Sj中的支持度,SupSj_max為原始序列Sj的支持度,u如下公式(4);
其中,在公式(2)中,SupSi_max為原始序列Si的支持度。
11. 如權(quán)利要求1所述的方法,其特征在于,所述從原始序列中選擇支持度小于預(yù)設(shè)支 持度閾值的序列作為稀有序列之前,還包括: 獲取屬于同一分析對象的數(shù)據(jù)元素,根據(jù)數(shù)據(jù)元素的順序參數(shù)對屬于同一分析對象的 數(shù)據(jù)元素進(jìn)行排序得到原始序列。
12. -種挖掘稀有均衡序列的裝置,其特征在于,所述裝置包括: 第一選擇模塊,用于從原始序列集合中選擇支持度小于預(yù)設(shè)支持度閾值的序列作為稀 有序列并組成稀有序列集合; 第一獲取模塊,用于獲取所述稀有序列的均衡系數(shù),所述均衡系數(shù)用于反映所述稀有 序列分布的均衡程度; 第二選擇模塊,用于選擇均衡系數(shù)小于預(yù)設(shè)均衡系數(shù)閾值的稀有序列作為稀有均衡序 列。
13. 如權(quán)利要求12所述的裝置,其特征在于,所述第一選擇模塊包括: 第一獲取單元,用于獲取原始序列集合包括的原始序列的子序列,所述獲取的子序列 的長度相等且都為預(yù)設(shè)長度; 第一選擇單元,用于從長度為預(yù)設(shè)長度的子序列中選擇支持度小于預(yù)設(shè)支持度閾值的 序列作為稀有序列。
14. 如權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括: 計算模塊,用于從所述原始序列集合包括的每個原始序列的子序列中統(tǒng)計出包括待計 算的子序列的數(shù)量,得到所述待計算的子序列在所述每個原始序列中的支持度,所述待計 算的子序列是任一長度為預(yù)設(shè)長度的子序列,對所述待計算的子序列在所述每個原始序列 中的支持度進(jìn)行累加,得到所述待計算的子序列的支持度。
15. 如權(quán)利要求13所述的裝置,其特征在于,所述裝置還包括: 第二獲取模塊,用于從所述稀有序列集合包括的長度為L-i*k的稀有序列中減去k個 數(shù)據(jù)元素,得到長度為L- (i+l)*k的子序列,L為預(yù)設(shè)長度,i為O至(L-2)/k中的任一整 數(shù),k為大于或等于1的整數(shù);從長度為L- (i+1) *k的子序列中選擇支持度小于預(yù)設(shè)支持 度閾值的子序列作為稀有序列并加入所述稀有序列集合。
16. 如權(quán)利要求15所述的裝置,其特征在于,所述裝置還包括: 第三獲取模塊,用于從長度為L- (i+1) *k的子序列中獲取第一子序列和第二子序列, 所述第一子序列是非稀有序列的子序列、所述第二子序列不是非稀有序列的子序列,確定 所述第一子序列的支持度大于或等于預(yù)設(shè)支持度閾值,以及計算出所述第二子序列的支持 度。
17. 如權(quán)利要求12至16任一項權(quán)利要求所述的裝置,其特征在于,所述裝置還包括: 運算模塊,用于對所述稀有序列集合包括的任意兩個長度相等的稀有序列進(jìn)行交集運 算,從交集運算的結(jié)果中選擇支持度小于預(yù)設(shè)支持度閾值的序列作為稀有序列并加入所述 稀有序列集合。
18. 如權(quán)利要求17所述的裝置,其特征在于,所述運算模塊包括: 運算單元,用于對所述稀有序列集合包括的任意兩個長度為L-j*k的稀有序列進(jìn)行交 集運算得到交集運算的結(jié)果,L為預(yù)設(shè)長度,j為O至(L-2)/k中的任一整數(shù),k為大于或等 于1的整數(shù); 第三選擇單元,用于從交集運算的結(jié)果中選擇長度為L-(j+l)*k且支持度小于預(yù)設(shè)支 持度閾值的序列作為稀有序列并加入所述稀有序列集合。
19. 如權(quán)利要求17所述的裝置,其特征在于,所述裝置還包括: 第四獲取模塊,用于從交集運算的結(jié)果中獲取第一序列和第二序列,所述第一序列是 非稀有序列的子序列,所述第二序列不是非稀有序列的子序列,確定第一序列的支持度大 于或等于預(yù)設(shè)支持度閾值,以及計算所述第二序列的支持度。
20. 如權(quán)利要求12所述的裝置,其特征在于, 所述第一獲取模塊,用于通過如下公式(1)計算出所述稀有序列的均衡系數(shù);
其中,在公式(1)中,E為所述稀有序列的均衡系數(shù),η為原始序列的數(shù)目,X為所述稀 有序列,SupSi (X)為所述稀有序列X在原始序列Si中的支持度,SupSijnax為原始序列 Si的支持度,SupSj (X)為所述稀有序列X在原始序列Sj中的支持度,SupSj_max為原始 序列Sj的支持度,u如下公式(2);
其中,在公式(2)中,SupSi_max為原始序列Si的支持度。
21. 如權(quán)利要求12所述的裝置,其特征在于, 所述第一獲取模塊,用于通過如下公式(3)計算出所述稀有序列的均衡系數(shù);
其中,在公式(3)中,〇為所述稀有序列的均衡系數(shù),η為原始序列的數(shù)目,X為所述稀 有序列,Si為第i個原始序列,SupSi (X)為所述稀有序列X在原始序列Si中的支持度, SupSijnax為原始序列Si的支持度,Sj為第j個原始序列,SupSj (X)為所述稀有序列X 在原始序列Sj中的支持度,SupSj_max為原始序列Sj的支持度,u如下公式(4);
其中,在公式(2)中,SupSi_max為原始序列Si的支持度。
22. 如權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括: 第五獲取模塊,用于獲取屬于同一分析對象的數(shù)據(jù)元素,根據(jù)數(shù)據(jù)元素的順序參數(shù)對 屬于同一分析對象的數(shù)據(jù)元素進(jìn)行排序得到原始序列。
【文檔編號】G06F17/30GK104516905SQ201310456801
【公開日】2015年4月15日 申請日期:2013年9月29日 優(yōu)先權(quán)日:2013年9月29日
【發(fā)明者】李曼, 胡衛(wèi)松 申請人:日電(中國)有限公司