C)原始數據,市區(qū)公交原始數 據,郊區(qū)公交原始數據以及站距表數據。在SQL-Server 2008導入原始數據。
[0123] 2、站距表系統(tǒng)中站點聚類具體為:在通勤特征提取前,首先需要對站距表系統(tǒng)中 站點進行聚類,生成新的聚類站點。由于公交站點在某些區(qū)域分布相對比較密集,通勤乘客 可根據當時所處位置選擇公交站點,而這類站點距離工作地或者居住地相對比較近,如果 把這類站點分開計算,那么通勤乘客識別準確率會降低。因此,對站距表系統(tǒng)中的站點進行 聚類是必要的。對于有經煒度的站點,將DBSCAN(Density_Based Spatial Clustering of Applications with Noise)算法進行改進,設置距離為300m,最少數目為1,并設置一個聚 類內的最大類內距離為l〇〇〇m,當類內距離超過1000m時,重新調用基于密度的空間聚類方 法,并減小距離,進行類內分裂;對于沒有經煒度坐標的站點,當區(qū)域、線路以及站點完全相 同時才視為一類,站距表系統(tǒng)聚類后賦予新的車站標識,即聚類站點。
[0124] 3、數據預處理:合成出行0D鏈并提取首次和末次出行0D鏈:
[0125] 由于目前北京公共交通普遍采用分段計價模式,不存在一票制收費模式,上下車 站點都已知,只需要根據換乘時間決定是否為同一條出行0D鏈(出行0D鏈可能包括一種交 通工具出行0D鏈、也可能包括換乘后多個交通工具的組合后的組合出行0D鏈)。換乘交通的 方式由8種變成有3種:地鐵換乘公交,第一公交換乘第二公交,公交換乘地鐵。
[0126] 根據對換乘時間間隔閾值的研究,合成每日出行0D鏈。時段是以半小時為一個單 位,時段1至24為上半天,時段25至48為下半天,時段的劃分都是基于下車時間,因為分段計 價的下車時間是沒有缺失的。提取時段小于等于24的出行0D鏈中的第一條出行0D鏈為首次 出行0D鏈,提取時段大于等于25的出行0D鏈中的最后一條出行0D鏈為末次出行0D鏈。
[0127] 表1為換乘時間間隔閾值表
[0128]
[0129]表1
[0130] 4、通勤乘客特征的提取方法中提取的特征:
[0131] 通勤乘客的相同出行天數為統(tǒng)計的通勤乘客的實際出行天數;
[0132] 通勤乘客的相同通勤時段為,首先提取首次和末次出行0D鏈中最頻首次出行時段 及最頻末次出行時段,然后統(tǒng)計最頻首次出行時段及最頻末次出行時段次數,最后對其進 行加和;
[0133] 通勤乘客的相同通勤站點為,首先將首次和末次出行0D鏈中首次出行0D鏈的起始 點和末次出行0D鏈的終止點設為居住地,將首次出行0D鏈的終止點和末次出行0D鏈的起始 點設為工作地;然后統(tǒng)計最頻居住地及最頻工作地,統(tǒng)計最頻居住地次數與最頻居住地次 數,最后對統(tǒng)計的次數進行加和;
[0134] 通勤乘客的相同通勤線路,首先提取首次和末次出行0D鏈中的最頻首次出行線路 及最頻末次出行線路,統(tǒng)計所述首次和末次出行0D鏈中的最頻首次出行線路及最頻末次出 行線路次數;然后統(tǒng)計首次和末次出行0D鏈中非最頻首次出行線路但是起點為最頻居住 地,終點為最頻工作地的次數,統(tǒng)計首次和末次出行0D鏈中最頻末次出行線路但是起點為 最頻工作地,終點為最頻居住地的次數;然后對統(tǒng)計的次數進行加和。
[0135] 以北京市公交集團2015年6月1日至2015年6月30日的公交1C卡數據,共18,137, 393個公交卡號,共計364,846,374條公交1C卡刷卡記錄作為算例數據。算法程序運行的計 算機硬件環(huán)境為:i5處理器,2.5GHz,8G內存,500G硬盤。軟件環(huán)境為:Windows XP操作系統(tǒng); SQL Server 2008數據庫:Matlab2013b〇
[0136] 站距表系統(tǒng)中的站點進行聚類。對于有經煒度的站點,將DBSCAN算法(基于密度的 聚類算法)進行改進,設置一個聚類內的最大類內距離為l〇〇〇m,距離為300米,最少數目為 1;對于沒有經煒度坐標的站點,當區(qū)域、線路以及站點完全相同時才視為一類。站距表系統(tǒng) 聚類后賦予新的車站標識。
[0137] 表2為聚類后的站距表系統(tǒng)字段及數據示例
[0140] 表2
[0141] 基于換乘時間間隔閾值的要求,合成出行0D鏈,其中出行0D鏈中的0D站點標識為 站距表系統(tǒng)聚類更新后的車站標識。
[0142] 表3為出行0D鏈表字段及數據示例
[0145] 表3
[0146] 由于通勤乘客通勤出行一般是一天內的第一次出行和最后一次出行,基于出行0D 鏈,提取首次和末次出行〇D鏈。由于不論是公交還是地鐵,都有下車時間,因此,下車時間是 無需推算,準確率較高。將下車時間視為出行的時段標識,出行時段閾值為半小時,并且以 12:00為界,12:00以前提取的為首次出行0D鏈,12:00以后提取的為末次出行0D鏈。
[0147]表4為提取的日首次和末次出行0D鏈字段及數據示例
[0151] 表4
[0152] 表4將站點信息劃分為工作地以及居住地兩類。將首次出行的0視為居住地,D視為 工作地;將末次出行的〇視為工作地,D視為居住地。基于此提取公交乘客的通勤參數。
[0153] 表5為乘客的通勤特征表字段及數據示例
[0155]表5
[0156] 本發(fā)明實施例還提供一種基于上述的公交1C卡乘客通勤特征的判定方法,如圖3 和圖4所示,包括:
[0157] 步驟H,通過優(yōu)劣解距離法對提取的所述通勤乘客的相同出行天數、所述通勤乘客 的相同通勤時段、所述通勤乘客的相同通勤站點、所述通勤乘客的相同通勤線路的數據進 行打分分析;
[0158] 步驟I,通過迭代自組織數據分析方法對提取的所述通勤乘客的相同出行天數、所 述通勤乘客的相同通勤時段、所述通勤乘客的相同通勤站點、所述通勤乘客的相同通勤線 路的數據進行聚類分析;
[0159] 步驟J,通過所述打分分析與所述聚類分析判定所述乘客是否為滿足預定要求的 通勤乘客。
[0160] 其中,步驟Η包括:
[0161] 步驟Η1:將多組(m)所述通勤乘客的相同出行天數Χη、所述通勤乘客的相同通勤時 段Χ12、所述通勤乘客的相同通勤站點Χ 13、所述通勤乘客的相同通勤線路Χ14;輸入指標矩陣:
;
[0162] 步驟Η2:將多組(m)所述通勤乘客的相同出行天數Χη、所述通勤乘客的相同通勤時 段Χ12、所述通勤乘客的相同通勤站點Χ 13、所述通勤乘客的相同通勤線路Χ14進行歸一化數據 (r):
[0164]步驟H3:計算多組(m)所述通勤乘客的相同出行天數Xn、所述通勤乘客的相同通勤 時段X12、所述通勤乘客的相同通勤站點X13、所述通勤乘客的相同通勤線路Xm的熵權值(w):
[0166] 其中k = l/ln m,數目m為上述已知的組數,保證
[0167]通過所述熵權值對所述歸一化數據進行加權處理(vij),Vij = rij · wj (i = 1,2,…, m; j = l,2, ...,4);
[0168]步驟H4:確定正負理想解,并求出各個指標的距離:
[0174] 步驟H6:轉化為優(yōu)劣解距離法百分制打分score(i) :score(i)=50 · logl0(100 · Ci)+50,(i = l,2,.",m)
[0175] 其中步驟I包括:
[0176] 步驟II:輸入預選參數(:、1(、(^、03、0(:、1以及1^,并輸入~個模式樣本{114 = 1, 2,…,N};預選C個初始聚類中心{zi,Z2,"_zc};
[0177] 步驟12:將N個樣本分給最近的聚類Sj,如果Dj=min{ | |x_zi| |,i = l,2,…C},BP | | x_zi| I的距離最小,貝fJxESj;
[0178] 步驟13:如果&的樣本數目小于0N,則取消該樣本子集,此時C減去1
[0180]步驟15:計算各聚類域&中模式樣本與各聚類中心間的平均距離:
[0182] 步驟16:計算全部模式樣本和其對應聚類中心的總平均距離:
[0183] 步驟17:判別分裂、合并及迭代運算:
[0184] (1)若迭代運算次數已達到I次,即最后一次迭代,則置0C = 0,轉至步驟111;
[0185] 即聚類中心的數目小于或等于規(guī)定值的一半,則轉至步驟18; f
[0186] (3)若迭代運算的次數是偶數次,或C22K,不進行分裂處理,轉至步驟111;否則, 即既不是偶數次迭代,又不滿足c 2 2K,轉至步驟18;
[0187]步驟18:計算每個聚類中樣本距離的標準差向量:〇" = (συ,o2j,…,onj )τ
[0188] 其中,i = l,2,…,η,η為樣本特征向量的維度,j = l,2,…,C為聚類數,Nj為Sj的樣 本個數;
[0189] 步驟19:求每一標準差向量{〇」,j = l,2,···,C}中的最大分量{〇」max, j = l,2,…,C} 為代表;
[0190]步驟110:在任一最大分量集{〇j max,j = 1,2,…,C}中,若有〇j max>〇S,同時又滿足 如下兩個條件之一:
[0191] (1)乃,>D和Nj>2(0N+l),即Sj中樣本總數超過值的一倍以上;
[0193] 貝1J將分裂成兩個新的聚類中心zj+和&,且C加1,其中印對應于〇jmax的分量加上 k · 〇j max,zj對應于〇j max的分量減去k · 〇j max,其中k = 0.5;
[019