一種基于公交ic卡數(shù)據(jù)的通勤乘客特征提取及判定方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及智能公交系統(tǒng)領(lǐng)域,具體地說,涉及一種基于公交1C卡數(shù)據(jù)的通勤乘 客特征提取及判定方法。
【背景技術(shù)】
[0002] 公交出行中通勤出行占主體,每日通勤乘客在公交出行乘客中的比例很大。公交 通勤乘客實質(zhì)是指使用公交卡比較頻繁,出行目的為上下班或者上下學(xué),有較為固定的通 勤0D(起點和終點)的乘客,其中通勤0D(起點和終點)一般為居住地與工作地或工作地與居 住地;通勤乘客主要的通勤出行的時段是早、晚高峰。
[0003] 2014年底北京公交進行票制改革,對公交通勤乘客影響較大,因此需要提取公交 通勤特征,分析公交出行規(guī)律以及公交乘客通勤程度,制定合理而完善的公交收費體系,對 于優(yōu)化公交系統(tǒng),改善公交運行機制具有重要意義。
[0004] 目前,對于通勤0D分布以及公交通勤特征提取以及規(guī)律分析的研究存在較少,然 而有以下幾個問題:數(shù)據(jù)量不足以及數(shù)據(jù)本身的不夠精確,有的是基于問卷調(diào)查,有的是基 于天數(shù)較少的數(shù)據(jù),偶然性比較大,所得結(jié)果說服力不夠強,現(xiàn)實意義不大;乘客的通勤特 征提取得出的出行信息的完整度不夠,并且對于冗雜錯誤數(shù)據(jù)的處理不夠完善;通勤特征 的提取大部分是通勤距離,通勤時間等等。
[0005]針對目前通勤乘客特征提取困難,導(dǎo)致難以作為判定通勤乘客的依據(jù);國內(nèi)外關(guān) 于通勤乘客判定的方法文獻很少,并且通勤乘客判定沒有實際驗證。
【發(fā)明內(nèi)容】
[0006] 為了克服針對目前通勤乘客特征提取困難,導(dǎo)致難以作為判定通勤乘客的依據(jù)的 問題,本發(fā)明提供一種基于公交1C卡數(shù)據(jù)的通勤乘客特征提取及判定方法。
[0007] 一方面,本發(fā)明提供了一種基于公交ic卡數(shù)據(jù)的通勤乘客特征提取方法,包括:
[0008] 采集公交系統(tǒng)中公交ic卡使用數(shù)據(jù);
[0009] 根據(jù)所述1C卡使用數(shù)據(jù)提取使用所述1C卡的通勤乘客的出行0D鏈,并根據(jù)所述出 行0D鏈提取所述通勤乘客在一天時間中首次和末次出行0D鏈;
[0010] 根據(jù)所述1C卡使用數(shù)據(jù)及所述首次和末次出行0D鏈提取所述通勤乘客的相同出 行天數(shù)、所述通勤乘客的相同通勤時段、所述通勤乘客的相同通勤站點、所述通勤乘客的相 同通勤線路。
[0011] 進一步地,所述采集公交系統(tǒng)中公交1C卡使用數(shù)據(jù)的步驟,包括:
[0012] 采集地鐵自動售檢票系統(tǒng)中公交1C卡使用的原始數(shù)據(jù);
[0013] 采集市區(qū)公交車系統(tǒng)中公交1C卡使用的原始數(shù)據(jù);
[0014] 采集郊區(qū)公交車系統(tǒng)中公交1C卡使用的原始數(shù)據(jù);以及,
[0015] 采集公交車和地鐵中的站距表數(shù)據(jù)。
[0016] 進一步地,所述根據(jù)所述1C卡使用數(shù)據(jù)提取使用所述1C卡的乘客的出行0D鏈,并 根據(jù)所述出行0D鏈提取所述乘客在一天時間中首次和末次出行0D鏈的步驟中:
[0017] 根據(jù)采集的公交車和地鐵中的站距表數(shù)據(jù)信息,將所述站距表中預(yù)定區(qū)域的站點 進行劃分聚類;
[0018] 根據(jù)所述公交1C卡使用數(shù)據(jù)基于換乘時間間隔閾值小于預(yù)定值的情況下合并生 成所述出行0D鏈;
[0019] 根據(jù)所述站距表中預(yù)定區(qū)域的站點進行劃分聚類后,更新所述出行0D鏈;
[0020] 根據(jù)更新后的所述出行0D鏈提取所述乘客在一天時間中首次和末次出行0D鏈。
[0021] 進一步地,所述通勤乘客的相同出行天數(shù)為統(tǒng)計的所述通勤乘客的實際出行天 數(shù);
[0022] 所述通勤乘客的相同通勤時段為,首先提取所述首次和末次出行0D鏈中最頻首次 出行時段及最頻末次出行時段,然后統(tǒng)計所述最頻首次出行時段及所述最頻末次出行時段 次數(shù),最后對其進行加和;
[0023] 所述通勤乘客的相同通勤站點為,首先將所述首次和末次出行0D鏈中首次出行0D 鏈的起始點和末次出行0D鏈的終止點設(shè)為居住地,將所述首次出行0D鏈的終止點和所述末 次出行0D鏈的起始點設(shè)為工作地;然后統(tǒng)計最頻居住地及最頻工作地,統(tǒng)計所述最頻居住 地次數(shù)與所述最頻居住地次數(shù),最后對統(tǒng)計的次數(shù)進行加和;
[0024] 所述通勤乘客的相同通勤線路,首先提取所述首次和末次出行0D鏈中的最頻首次 出行線路及最頻末次出行線路,統(tǒng)計所述最頻首次出行線路及所述最頻末次出行線路次 數(shù);然后統(tǒng)計所述首次和末次出行0D鏈中非所述最頻首次出行線路但是起點為所述最頻居 住地,終點為所述最頻工作地的次數(shù),統(tǒng)計所述首次和末次出行0D鏈中最頻末次出行線路 但是起點為所述最頻工作地,終點為所述最頻居住地的次數(shù);然后對上述統(tǒng)計的次數(shù)進行 加和。
[0025] 進一步地,所述將所述站距表中預(yù)定區(qū)域的站點進行劃分聚類的步驟中:
[0026] 通過空間聚類方法對所述站距表中預(yù)定區(qū)域的站點進行劃分聚類;和/或,
[0027] 所述在根據(jù)所述公交1C卡使用數(shù)據(jù)基于換乘時間間隔閾值小于預(yù)定值的情況下 合并生成所述出行0D鏈的步驟中:
[0028] 換乘的方式包括地鐵換乘公交、第一公交換乘第二公交以及公交換乘地鐵;
[0029] 所述地鐵換乘公交的交易時間差為所述公交下車時間減去所述地鐵下車時間,換 乘時間間隔閾值為104分鐘;
[0030] 所述第一公交換乘第二公交的交易時間差為換乘后所述第二公交下車時間減去 換乘前所述第一公交下車時間,換乘時間間隔閾值為112分鐘;
[0031] 所述公交換乘地鐵的交易時間差為所述地鐵上車時間減去所述公交下車時間,換 乘時間間隔閾值為20分鐘;和/或,
[0032]所述首先提取所述首次和末次出行0D鏈中最頻首次出行時段及最頻末次出行時 段步驟中:提取時段是以半小時為一個單位,時段1至24為上半天,時段25至48為下半天,時 段的劃分均基于下車時間。
[0033]本發(fā)明還提供一種基于公交1C卡數(shù)據(jù)的通勤乘客判定方法,包括:通過優(yōu)劣解距 離法對提取的所述通勤乘客的相同出行天數(shù)、所述通勤乘客的相同通勤時段、所述通勤乘 客的相同通勤站點、所述通勤乘客的相同通勤線路的數(shù)據(jù)進行打分分析;
[0034] 通過迭代自組織數(shù)據(jù)分析方法對提取的所述通勤乘客的相同出行天數(shù)、所述通勤 乘客的相同通勤時段、所述通勤乘客的相同通勤站點、所述通勤乘客的相同通勤線路的數(shù) 據(jù)進行聚類分析;
[0035] 通過所述打分分析與所述聚類分析判定所述乘客是否為滿足預(yù)定要求的通勤乘 客。
[0036] 進一步地,所述通過優(yōu)劣解距離法對提取的所述通勤乘客的相同出行天數(shù)、所述 通勤乘客的相同通勤時段、所述通勤乘客的相同通勤站點、所述通勤乘客的相同通勤線路 的數(shù)據(jù)進行打分分析;的步驟包括:
[0037] 步驟一:將多組(m)所述通勤乘客的相同出行天數(shù)Xn、所述通勤乘客的相同通勤時 段X12、所述通勤乘客的相同通勤站點X 13、所述通勤乘客的相同通勤線路X14;輸入指標(biāo)矩陣:
[0038] 步驟二:將多組(m)所述通勤乘客的相同出行天數(shù)Χη、所述通勤乘客的相同通勤時 段Χ12、所述通勤乘客的相同通勤站點Χ 13、所述通勤乘客的相同通勤線路Χ14;進行歸一化數(shù) 據(jù)(r):
[0040]步驟三:計算多組(m)所述通勤乘客的相同出行天數(shù)Xn、所述通勤乘客的相同通勤 時段X12、所述通勤乘客的相同通勤站點X13、所述通勤乘客的相同通勤線路Xm;的熵權(quán)值 (w):
[0042] 其中k = l/ln m,數(shù)目m為上述已知的組數(shù),保證
[0043] 通過所述熵權(quán)值對所述歸一化數(shù)據(jù)進行加權(quán)處理(Vij),Vij = rij · Wj(i = l,2,…, m; j = l,2, ...,4);
[0044] 步驟四:確定正負理想解,并求出各個指標(biāo)的距離:
[0050] 步驟六:轉(zhuǎn)化為優(yōu)劣解距離法百分制打分score(i) :score(i)=50 · logl0(100 · Ci)+50,(i = l,2,.",m)〇
[0051]進一步地,所述通過迭代自組織數(shù)據(jù)分析方法對提取的所述通勤乘客的相同出行 天數(shù)、所述通勤乘客的相同通勤時段、所述通勤乘客的相同通勤站點、所述通勤乘客的相同 通勤線路的數(shù)據(jù)進行聚類分析的步驟包括:
[0052] 步驟一:輸入預(yù)選參數(shù)(:、1(、(^、03、0(:、1以及1^,并輸入~個模式樣本&14 = 1, 2,…,N};預(yù)選C個初始聚類中心{zi,Z2,"_zc};
[0053] 步驟二:將N個樣本分給最近的聚類Sj,如果Dj=min{ | |x-zi| |,i = l,2,…C},BP | x_zi| I的距離最小,貝fJxESj;
[0054] 步驟三:如果&的樣本數(shù)目小于ON,則取消該樣本子集,此時C減去1
[0056]步驟五::計算各聚類域&中模式樣本與各聚類中心間的平均距離:
[0058] 步驟六:計算全部模式樣本和其對應(yīng)聚類中心的總平均距離
[0059] 步驟七:判別分裂、合并及迭代運算:
[0060] (1)若迭代運算次數(shù)已達到I次,即最后一次迭代,則置0C = 0,轉(zhuǎn)至步驟十一;
[0061] 即聚類中心的數(shù)目小于或等于規(guī)定值的一半,則轉(zhuǎn)至步驟八; ,
[0062] (3)若迭代運算的次數(shù)是偶數(shù)次,或C22K,不進行分裂處理,轉(zhuǎn)至步驟十一;否則, 即既不是偶數(shù)次迭代,又不滿足C 2 2K,轉(zhuǎn)至步驟八;
[0063]步驟八:計算每個聚類中樣本距離的標(biāo)準(zhǔn)差向量:〇ij = (συ,o2j,…,onj )τ
[0064] 其中,i = l,2,…,η,η為樣本特征向量的維度,j = l,2,…,C為聚類數(shù),Nj為Sj的樣 本個數(shù);