一種基于微博的交通數(shù)據(jù)獲取方法
【專利摘要】本發(fā)明公開一種基于微博的交通數(shù)據(jù)獲取方法,通過(guò)采集公開的交通相關(guān)微博,通過(guò)對(duì)每條微博進(jìn)行分詞處理,獲取每條微博的詞語(yǔ)組成;在分詞結(jié)果的基礎(chǔ)上,生成每條微博的空間向量,通過(guò)對(duì)每條微博的空間向量進(jìn)行支持向量機(jī)訓(xùn)練及分類分析,最終實(shí)現(xiàn)對(duì)微博的計(jì)算機(jī)自動(dòng)分類判別,并提取出有價(jià)值的信息。該發(fā)明方法從微博中紛繁大量的、無(wú)序的數(shù)據(jù)中,自動(dòng)、快速、并行的獲取交通相關(guān)數(shù)據(jù),同時(shí)將數(shù)據(jù)中的特征可視化的表現(xiàn)出來(lái),并準(zhǔn)確的對(duì)數(shù)據(jù)進(jìn)行篩選分類。本發(fā)明方法在很低的投入下便能獲取大量的、分類的交通相關(guān)數(shù)據(jù),具有較大的實(shí)用意義。
【專利說(shuō)明】一種基于微博的交通數(shù)據(jù)獲取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種數(shù)據(jù)采集及處理方法,具體涉及一種基于微博的交通數(shù)據(jù)獲取方 法。
【背景技術(shù)】
[0002] 隨著我國(guó)社會(huì)經(jīng)濟(jì)的迅猛發(fā)展,各大城市均產(chǎn)生了一系列以交通擁堵、交通環(huán)境 污染及交通事故為代表的問(wèn)題,其根源是交通供給與需求間的失衡。相較于數(shù)學(xué)、物理等純 粹的自然科學(xué)對(duì)公式與實(shí)驗(yàn)的依賴,交通科學(xué)則更多的是一項(xiàng)系統(tǒng)工程科學(xué)。因而,對(duì)于此 類問(wèn)題的解決,并不能完全寄希望于理論公式的迭代與模擬仿真實(shí)驗(yàn)。在探尋交通問(wèn)題解 決方法、進(jìn)行交通設(shè)計(jì)、交通設(shè)施新建、改擴(kuò)建等工程時(shí),必須基于對(duì)現(xiàn)實(shí)交通需求的合理 有效把握,這其中就需要對(duì)交通的參與者進(jìn)行科學(xué)、有效的調(diào)查。在我國(guó),由于各個(gè)城市的 人口較多,因而對(duì)于交通系統(tǒng)的調(diào)查將會(huì)耗費(fèi)大量的人力、財(cái)力與時(shí)間。以城市的公交線網(wǎng) 優(yōu)化為例,假若城市的常住人口為500萬(wàn)人,采用2%的抽樣比例調(diào)查城市居民的出行分布 與出行需求,并根據(jù)此優(yōu)化公交線網(wǎng)。這其中涉及到的城市居民就有10萬(wàn)人,并且還需要 很多的調(diào)查資金投入。并且,目前我國(guó)的交通調(diào)查還停留在較為陳舊的人工調(diào)查階段,沒(méi)有 很好的利用一些信息化技術(shù)。如何在較少的資金與人力投入的前提下,方便、快速、準(zhǔn)確的 獲取質(zhì)量較高的交通數(shù)據(jù),是擺在城市管理者與交通學(xué)者面前的一道難題,亟待提出新的 解決方案。
[0003] 在我國(guó)現(xiàn)有的交通數(shù)據(jù)的調(diào)查與獲取過(guò)程中,人工的調(diào)查方式存在的包含耗時(shí)、 耗人力、耗資金等在內(nèi)的缺陷,以及該方式獲取的交通數(shù)據(jù)存在的時(shí)效性較低、覆蓋面較窄 等的問(wèn)題。
[0004] 隨著我國(guó)網(wǎng)絡(luò)的迅速普及,越來(lái)越多的網(wǎng)民在使用微博這一社交網(wǎng)絡(luò),并且具有 移動(dòng)定位功能的手機(jī)微博(手機(jī)微博用戶可以實(shí)時(shí)發(fā)布有關(guān)交通狀況的微博內(nèi)容)更是給 了交通數(shù)據(jù)的采集以非常好的解決途經(jīng)。據(jù)統(tǒng)計(jì),世界最大的微博網(wǎng)站Twitter,共有用戶 6.4億,每天會(huì)產(chǎn)生5800萬(wàn)條微博。這其中,約有2%的微博含有交通關(guān)鍵詞。而我國(guó)最大 的微博網(wǎng)站新浪微博,每天包含"公交"關(guān)鍵詞的微博數(shù)量則是在10萬(wàn)條以上。如若能將 微博中蘊(yùn)含的大量的交通相關(guān)數(shù)據(jù)進(jìn)行自動(dòng)的提取與分類,并將其利用起來(lái),可以降低目 前對(duì)于交通調(diào)查的人力與材料投入。并且由于微博往往都是實(shí)時(shí)發(fā)布的,采用基于微博的 交通相關(guān)數(shù)據(jù)也能保證升交通分析的時(shí)效性。
【發(fā)明內(nèi)容】
[0005] 發(fā)明目的:本發(fā)明的目的在于解決現(xiàn)有技術(shù)中的不足,提供一種基于微博的交通 數(shù)據(jù)獲取方法。
[0006] 技術(shù)方案:本發(fā)明的一種基于微博的交通數(shù)據(jù)獲取方法,具體包含以下步驟:
[0007] 步驟1、根據(jù)需要采集微博數(shù)據(jù):根據(jù)需要獲取的交通數(shù)據(jù)類型,選取待采集的微 博關(guān)鍵詞,然后通過(guò)微博的官方開放平臺(tái)及其API接口,采集含有上述微博關(guān)鍵詞的所有 微博;
[0008] 步驟2、預(yù)處理所采集的微博:刪除步驟1中采集到的微博中的冗余微博,設(shè)剩余 微博的總數(shù)量為N,然后將這N條微博按照微博發(fā)出的時(shí)間先后順序存入微博數(shù)據(jù)庫(kù)S1 中;
[0009] 步驟3、選取部分微博進(jìn)行人工分類:選取微博數(shù)據(jù)庫(kù)S1中的部分微博進(jìn)行人工 分類;
[0010] 步驟4、將微博進(jìn)行分詞及刪除停用詞處理,并生成微博數(shù)據(jù)的詞云;
[0011] 步驟5、生成每條微博的空間向量;
[0012] 步驟6、訓(xùn)練支持向量機(jī);
[0013] 步驟7、微博數(shù)據(jù)的自動(dòng)分類。
[0014] 進(jìn)一步的,所述步驟4的具體方法為:
[0015] (4. 1)采用ICTCLAS法,依次將微博數(shù)據(jù)庫(kù)S1中的每條微博進(jìn)行分詞處理;
[0016] (4. 2)刪除步驟(4. 1)分詞結(jié)果中的停用詞,并記錄第i條微博在分詞并刪除停用 詞后所得到的詞語(yǔ)數(shù)量Pi ;
[0017] (4. 3)將該P(yáng)i個(gè)詞語(yǔ)按照分詞的拼音字母順序存入微博分詞數(shù)據(jù)庫(kù)S2中;
[0018] (4. 4)統(tǒng)計(jì)微博分詞數(shù)據(jù)庫(kù)S2中出現(xiàn)的所有不同的詞語(yǔ)的總數(shù)M,將每個(gè)詞語(yǔ)按 照其在微博分詞數(shù)據(jù)庫(kù)S2中出現(xiàn)的次數(shù)從高到低排序并存入分詞統(tǒng)計(jì)數(shù)據(jù)庫(kù)S3中,并統(tǒng) 計(jì)分詞統(tǒng)計(jì)數(shù)據(jù)庫(kù)S3中第j條詞語(yǔ)j在S2中出現(xiàn)的總次數(shù)kj ;
[0019] (4. 5)選擇出現(xiàn)次數(shù)前100的詞語(yǔ)繪制詞云;
[0020] 其中,i為微博數(shù)據(jù)庫(kù)S1中各條微博的序號(hào),i為整數(shù)且K i < N,Pi為第i條 微博分詞并刪除停用詞后的詞語(yǔ)數(shù)量,Pi為大于〇的整數(shù),Μ為微博分詞數(shù)據(jù)庫(kù)S2中出現(xiàn) 的所有不同的詞語(yǔ)的總數(shù),Μ為大于0的整數(shù);j為將詞語(yǔ)按照其在所有微博中出現(xiàn)的次數(shù) 從高到低排序后的詞語(yǔ)的序號(hào),j為整數(shù)且1 < j < M 為分詞結(jié)果中詞語(yǔ)j在所有微博 中出現(xiàn)的總次數(shù),kj為大于0的整數(shù)。
[0021] 進(jìn)一步的,所述步驟5的具體方法為:依次將步驟2中微博數(shù)據(jù)庫(kù)S1中的第i條 微博轉(zhuǎn)化為空間向量Ci,Ci的空間坐標(biāo)為(c n,ci2, ci3,…Cip…ciM),其中,為第i條微博 轉(zhuǎn)化的空間向量中第j個(gè)坐標(biāo)值,為大于等于〇的整數(shù)。
[0022] 進(jìn)一步的,所示步驟6的具體方法為:
[0023] 將步驟3中在微博數(shù)據(jù)庫(kù)S1中的進(jìn)行人工分類的部分微博的分類序號(hào)及其在步 驟5中所對(duì)應(yīng)的空間向量作為輸入量,帶入Matlab軟件環(huán)境下并訓(xùn)練支持向量機(jī)。
[0024] 進(jìn)一步的,所述步驟7的具體步驟為:將步驟3中在微博數(shù)據(jù)庫(kù)S1中的未進(jìn)行人 工分類的部分微博的分類序號(hào)及其在步驟5中所對(duì)應(yīng)的空間向量作為輸入量,帶入步驟6 中訓(xùn)練好的支持向量機(jī)中,得到每條微博對(duì)應(yīng)的分類。
[0025] 進(jìn)一步的,所述步驟1中所述微博關(guān)鍵詞分為兩部分,第一部分為屬性關(guān)鍵詞,包 含需要獲取的交通數(shù)據(jù)的地域范圍、時(shí)間范圍;第二部分為類型關(guān)鍵詞,為需要獲取的交通 數(shù)據(jù)的具體細(xì)分類型,包含但不限于駕駛員、乘客、行人、公共交通、道路、橋梁、交通政策、 交通法規(guī)、交通事故、交通發(fā)展、交通管理、交通控制、交通規(guī)劃、交通行為。
[0026] 進(jìn)一步的,所述步驟2中刪除冗余微博的方法為:采用KMP法搜索所述步驟1中采 集得到的所有微博,找尋其中完全相同的微博即轉(zhuǎn)發(fā)微博,然后對(duì)每組完全相同的微博僅 保留一條,并刪除其余的完全相同的微博。
[0027] 進(jìn)一步的,所述步驟3具體包括以下步驟:隨機(jī)的選取微博數(shù)據(jù)庫(kù)S1中的部分微 博,其數(shù)量為微博數(shù)據(jù)庫(kù)S1中所有微博條數(shù)的30 %和3000條的較小值,選擇微博的方法為 簡(jiǎn)單隨機(jī)抽樣,根據(jù)該微博的內(nèi)容,對(duì)微博進(jìn)行人工分類,分類的類別有:1)與需要獲取的 交通數(shù)據(jù)相關(guān)的新聞?lì)愇⒉?)與需要獲取的交通數(shù)據(jù)不相關(guān)的新聞?lì)愇⒉?)與需要獲 取的交通數(shù)據(jù)不相關(guān)的個(gè)人發(fā)布的微博;4);與需要獲取的交通數(shù)據(jù)相關(guān)的個(gè)人發(fā)布的微 博。
[0028] 進(jìn)一步的,所述步驟5中空間向量Q的轉(zhuǎn)化,包含如下步驟:
[0029] (5. 1)空間坐標(biāo)初始化:將Q的空間坐標(biāo)初始化為一個(gè)全是0的坐標(biāo),即賦值Cij =〇 ;
[0030] (5. 2)生成空間向量Q :依次將微博分詞數(shù)據(jù)庫(kù)S2中的第i條微博的Pi個(gè)詞語(yǔ), 與步驟4分詞統(tǒng)計(jì)數(shù)據(jù)庫(kù)S3中的Μ個(gè)詞語(yǔ)進(jìn)行匹配,當(dāng)發(fā)現(xiàn)Pi個(gè)詞語(yǔ)中,有q個(gè)詞語(yǔ)與分 詞統(tǒng)計(jì)數(shù)據(jù)庫(kù)S3中的第j個(gè)詞語(yǔ)相同,則= q,其中,q為大于0的整數(shù)。
[0031] 有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
[0032] (1)本發(fā)明可以很好的獲取任何類型的交通數(shù)據(jù),通過(guò)計(jì)算機(jī)的自動(dòng)微博采集、中 文分詞、文本分類,實(shí)現(xiàn)從微博數(shù)據(jù)到交通數(shù)據(jù)的轉(zhuǎn)化。
[0033] (2)本發(fā)明的操作使用并不需要很強(qiáng)的計(jì)算機(jī)編程背景知識(shí),通過(guò)簡(jiǎn)單的培訓(xùn)學(xué) 習(xí),交通工程人員可以很好的掌握該方法,即本發(fā)明易于實(shí)現(xiàn),技術(shù)層面上便于移植,且可 操作性強(qiáng)。
[0034] (3)在本發(fā)明中的交通數(shù)據(jù)獲取上,并不需要很大的人力、與技術(shù)投入,資金投入 非常少,對(duì)于交通數(shù)據(jù)的獲取具有很強(qiáng)的時(shí)效性,非常適合經(jīng)濟(jì)水平較高且人口較多的城 市或地區(qū)。
[0035] (4)基于微博使用用戶的龐大基數(shù),本發(fā)明通過(guò)微博來(lái)獲取相關(guān)的交通數(shù)據(jù),具有 實(shí)時(shí)性、廣泛性和靈活性。
【專利附圖】
【附圖說(shuō)明】
[0036] 圖1為本發(fā)明的總體流程圖;
[0037] 圖2為本發(fā)明的實(shí)施例中生成的詞云示意圖。
【具體實(shí)施方式】
[0038] 下面對(duì)本發(fā)明技術(shù)方案結(jié)合附圖進(jìn)行詳細(xì)說(shuō)明,但是本發(fā)明的保護(hù)范圍不局限于 所述實(shí)施例。
[0039] 如圖1所示,本發(fā)明的一種基于微博的交通數(shù)據(jù)獲取方法,具體包含以下步驟:
[0040] 步驟1、根據(jù)需要采集微博數(shù)據(jù):根據(jù)需要獲取的交通數(shù)據(jù)類型,選取待采集的微 博關(guān)鍵詞,然后通過(guò)微博的官方開放平臺(tái)及其API接口,采集含有上述微博關(guān)鍵詞的所有 微博;
[0041] 步驟2、預(yù)處理所采集的微博:刪除步驟1中采集到的微博中的冗余微博,設(shè)剩余 微博的總數(shù)量為N,然后將這N條微博按照微博發(fā)出的時(shí)間先后順序存入微博數(shù)據(jù)庫(kù)S1 中;
[0042] 步驟3、選取部分微博進(jìn)行人工分類:選取微博數(shù)據(jù)庫(kù)S1中的部分微博進(jìn)行人工 分類;
[0043] 步驟4、將微博進(jìn)行分詞及刪除停用詞處理,并生成微博數(shù)據(jù)的詞云:
[0044] (4. 1)采用ICTCLAS法,依次將微博數(shù)據(jù)庫(kù)S1中的每條微博進(jìn)行分詞處理;
[0045] (4. 2)刪除步驟(4. 1)分詞結(jié)果中的停用詞,并記錄第i條微博在分詞并刪除停用 詞后所得到的詞語(yǔ)數(shù)量Pi ;
[0046] (4. 3)將該P(yáng)i個(gè)詞語(yǔ)按照分詞的拼音字母順序存入微博分詞數(shù)據(jù)庫(kù)S2中;
[0047] (4. 4)統(tǒng)計(jì)微博分詞數(shù)據(jù)庫(kù)S2中出現(xiàn)的所有不同的詞語(yǔ)的總數(shù)M,將每個(gè)詞語(yǔ)按 照其在微博分詞數(shù)據(jù)庫(kù)S2中出現(xiàn)的次數(shù)從高到低排序并存入分詞統(tǒng)計(jì)數(shù)據(jù)庫(kù)S3中,并統(tǒng) 計(jì)分詞統(tǒng)計(jì)數(shù)據(jù)庫(kù)S3中第j條詞語(yǔ)j在S2中出現(xiàn)的總次數(shù)kj ;
[0048] (4. 5)選擇出現(xiàn)次數(shù)前100的詞語(yǔ)繪制詞云;
[0049] 其中,i為微博數(shù)據(jù)庫(kù)S1中各條微博的序號(hào),i為整數(shù)且K i < N,Pi為第i條 微博分詞并刪除停用詞后的詞語(yǔ)數(shù)量,Pi為大于〇的整數(shù),Μ為微博分詞數(shù)據(jù)庫(kù)S2中出現(xiàn) 的所有不同的詞語(yǔ)的總數(shù),Μ為大于0的整數(shù);j為將詞語(yǔ)按照其在所有微博中出現(xiàn)的次數(shù) 從高到低排序后的詞語(yǔ)的序號(hào),j為整數(shù)且1 < j < M 為分詞結(jié)果中詞語(yǔ)j在所有微博 中出現(xiàn)的總次數(shù),kj為大于0的整數(shù)。
[0050] 步驟5、生成每條微博的空間向量:依次將步驟2中微博數(shù)據(jù)庫(kù)S1中的第i條微 博轉(zhuǎn)化為空間向量Q,Q的空間坐標(biāo)為(c n,ci2, ci3,…Cij,…ciM),其中,Cij為第i條微博轉(zhuǎn) 化的空間向量中第j個(gè)坐標(biāo)值,為大于等于〇的整數(shù);
[0051] 步驟6、訓(xùn)練支持向量機(jī):將步驟3中在微博數(shù)據(jù)庫(kù)S1中的進(jìn)行人工分類的部分 微博的分類序號(hào)及其在步驟5中所對(duì)應(yīng)的空間向量作為輸入量,帶入Matlab軟件環(huán)境下并 訓(xùn)練支持向量機(jī);
[0052] 步驟7、微博數(shù)據(jù)的自動(dòng)分類:將步驟3中在微博數(shù)據(jù)庫(kù)S1中的未進(jìn)行人工分類 的部分微博的分類序號(hào)及其在步驟5中所對(duì)應(yīng)的空間向量作為輸入量,帶入步驟6中訓(xùn)練 好的支持向量機(jī)中,得到每條微博對(duì)應(yīng)的分類。
[0053] 上述步驟1中所述微博關(guān)鍵詞分為兩部分,第一部分為屬性關(guān)鍵詞,包含需要獲 取的交通數(shù)據(jù)的地域范圍(如:"南京"、"北京"、"江蘇"等)、時(shí)間范圍(如:"2013年"、"3 月"、"第一季度"、"春季"等);第二部分為類型關(guān)鍵詞,為需要獲取的交通數(shù)據(jù)的具體細(xì)分 類型,包含但不限于駕駛員、乘客、行人、公共交通、道路、橋梁、交通政策、交通法規(guī)、交通事 故、交通發(fā)展、交通管理、交通控制、交通規(guī)劃、交通行為,如:"公交"、"地鐵"、"自行車"、"線 網(wǎng)優(yōu)化"、"相撞"、"封路"、"修路"、"行人"、"公交卡"、"交通事故"等。
[0054] 上述步驟2中刪除冗余微博的方法為:采用KMP法搜索所述步驟1中采集得到的 所有微博,找尋其中完全相同的微博即轉(zhuǎn)發(fā)微博,然后對(duì)每組完全相同的微博僅保留一條, 并刪除其余的完全相同的微博。
[0055] 上述步驟3具體包括以下步驟:隨機(jī)的選取微博數(shù)據(jù)庫(kù)S1中的部分微博,其數(shù)量 為微博數(shù)據(jù)庫(kù)S1中所有微博條數(shù)的30%和3000條的較小值,選擇微博的方法為簡(jiǎn)單隨機(jī) 抽樣,根據(jù)該微博的內(nèi)容,對(duì)微博進(jìn)行人工分類,分類的類別有:1)與需要獲取的交通數(shù)據(jù) 相關(guān)的新聞?lì)愇⒉?)與需要獲取的交通數(shù)據(jù)不相關(guān)的新聞?lì)愇⒉?)與需要獲取的交通 數(shù)據(jù)不相關(guān)的個(gè)人發(fā)布的微博;4);與需要獲取的交通數(shù)據(jù)相關(guān)的個(gè)人發(fā)布的微博。
[0056] 上述步驟5中空間向量Q的轉(zhuǎn)化,包含如下步驟:
[0057] (5. 1)空間坐標(biāo)初始化:將Q的空間坐標(biāo)初始化為一個(gè)全是0的坐標(biāo),即賦值Cij. =〇 ;
[0058] (5. 2)生成空間向量Q :依次將微博分詞數(shù)據(jù)庫(kù)S2中的第i條微博的Pi個(gè)詞語(yǔ), 與步驟4分詞統(tǒng)計(jì)數(shù)據(jù)庫(kù)S3中的Μ個(gè)詞語(yǔ)進(jìn)行匹配,當(dāng)發(fā)現(xiàn)Pi個(gè)詞語(yǔ)中,有q個(gè)詞語(yǔ)與分 詞統(tǒng)計(jì)數(shù)據(jù)庫(kù)S3中的第j個(gè)詞語(yǔ)相同,則= q,其中,q為大于0的整數(shù)。
[0059] 實(shí)施例:下面通過(guò)實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。
[0060] 背景介紹:由于公交系統(tǒng)優(yōu)化調(diào)整的需要,南京市需要采集群眾對(duì)于南京公交的 意見(jiàn)或建議,作為公交路線優(yōu)化調(diào)整的重要參考依據(jù),同時(shí),南京市還需要收集整理近期媒 體關(guān)于南京市公交的相關(guān)報(bào)道,一并作為參考。如果采用常規(guī)的調(diào)查方法,則需要話費(fèi)較多 的人力、物力、財(cái)力。并且本實(shí)施例中,以新浪微博為例,具體步驟及結(jié)果如下:
[0061] 步驟1、根據(jù)實(shí)際需要,選取"南京"及"公交"作為微博關(guān)鍵詞。通過(guò)新浪微博的 API平臺(tái),可以采集包含"南京"及"公交"的所有微博。本實(shí)例中,僅采集了 2014年某時(shí)間 段內(nèi)的微博,共計(jì)采集微博8914條。
[0062] 步驟2、首先刪除步驟1中采集得到的8914條微博中的冗余微博:采用KMP法處 理并刪除冗余微博后,剩下4699條完全不同的微博。隨后,將刪除冗余微博后的微博按照 微博發(fā)出的時(shí)間先后順序存入微博數(shù)據(jù)庫(kù)S1中。
[0063] 步驟3、選取部分微博進(jìn)行人工分類:對(duì)微博數(shù)據(jù)庫(kù)S1進(jìn)行簡(jiǎn)單隨機(jī)抽樣,選取 1410條微博(微博數(shù)據(jù)庫(kù)S1中微博條數(shù)的30% )進(jìn)行人工分類;考慮到實(shí)例最后需要對(duì) 本發(fā)明方法的結(jié)果進(jìn)行評(píng)價(jià),因而本實(shí)例將對(duì)全部的4699條微博進(jìn)行人工分類,其中選取 的1410條微博用于訓(xùn)練步驟6中的支持向量機(jī),其余的3289條微博的人工分類結(jié)果用于 驗(yàn)證本發(fā)明的實(shí)際效果。在本發(fā)明的實(shí)際使用中,僅需要從微博數(shù)據(jù)庫(kù)S1中選取30%和 3000條的較小值數(shù)量的微博進(jìn)行人工分類即可。
[0064] 步驟3中人工分完類后,各類微博的分布結(jié)果如表1下:
[0065] 表 1
[0066]
【權(quán)利要求】
1. 一種基于微博的交通數(shù)據(jù)獲取方法,其特征在于具體包含以下步驟: 步驟1、根據(jù)需要采集微博數(shù)據(jù):根據(jù)需要獲取的交通數(shù)據(jù)類型,選取待采集的微博關(guān) 鍵詞,然后通過(guò)微博的官方開放平臺(tái)及其API接口,采集含有上述微博關(guān)鍵詞的所有微博; 步驟2、預(yù)處理所采集的微博:刪除步驟1中采集到的微博中的冗余微博,設(shè)剩余微博 的總數(shù)量為N,然后將這N條微博按照微博發(fā)出的時(shí)間先后順序存入微博數(shù)據(jù)庫(kù)S1中; 步驟3、選取部分微博進(jìn)行人工分類:選取微博數(shù)據(jù)庫(kù)S1中的部分微博進(jìn)行人工分 類; 步驟4、將微博進(jìn)行分詞及刪除停用詞處理,并生成微博數(shù)據(jù)的詞云; 步驟5、生成每條微博的空間向量; 步驟6、訓(xùn)練支持向量機(jī); 步驟7、微博數(shù)據(jù)的自動(dòng)分類。
2. 根據(jù)權(quán)利要求1所述的基于微博的交通數(shù)據(jù)獲取方法,其特征在于:所述步驟4的 具體方法為: (4. 1)采用ICTCLAS法,依次將微博數(shù)據(jù)庫(kù)S1中的每條微博進(jìn)行分詞處理; (4. 2)刪除步驟(4. 1)分詞結(jié)果中的停用詞,并記錄第i條微博在分詞并刪除停用詞后 所得到的詞語(yǔ)數(shù)量Pi ; (4. 3)將該Ρ,個(gè)詞語(yǔ)按照分詞的拼音字母順序存入微博分詞數(shù)據(jù)庫(kù)S2中; (4. 4)統(tǒng)計(jì)微博分詞數(shù)據(jù)庫(kù)S2中出現(xiàn)的所有不同的詞語(yǔ)的總數(shù)M,將每個(gè)詞語(yǔ)按照其 在微博分詞數(shù)據(jù)庫(kù)S2中出現(xiàn)的次數(shù)從高到低排序并存入分詞統(tǒng)計(jì)數(shù)據(jù)庫(kù)S3中,并統(tǒng)計(jì)分 詞統(tǒng)計(jì)數(shù)據(jù)庫(kù)S3中第j條詞語(yǔ)j在S2中出現(xiàn)的總次數(shù)kj ; (4. 5)選擇出現(xiàn)次數(shù)前100的詞語(yǔ)繪制詞云; 其中,i為微博數(shù)據(jù)庫(kù)S1中各條微博的序號(hào),i為整數(shù)且1 < i < N,Pi為第i條微博 分詞并刪除停用詞后的詞語(yǔ)數(shù)量,Pi為大于〇的整數(shù),Μ為微博分詞數(shù)據(jù)庫(kù)S2中出現(xiàn)的所 有不同的詞語(yǔ)的總數(shù),Μ為大于0的整數(shù);j為將詞語(yǔ)按照其在所有微博中出現(xiàn)的次數(shù)從高 到低排序后的詞語(yǔ)的序號(hào),j為整數(shù)且1 < j < M 為分詞結(jié)果中詞語(yǔ)j在所有微博中出 現(xiàn)的總次數(shù),h為大于0的整數(shù)。
3. 根據(jù)權(quán)利要求1所述的基于微博的交通數(shù)據(jù)獲取方法,其特征在于:所述步驟5的 具體方法為:依次將步驟2中微博數(shù)據(jù)庫(kù)S1中的第i條微博轉(zhuǎn)化為空間向量(;,(;的空間 坐標(biāo)為(c n,ci2, ci3,…Cij,…ciM),其中,Cij為第i條微博轉(zhuǎn)化的空間向量中第j個(gè)坐標(biāo)值, cu為大于等于0的整數(shù)。
4. 根據(jù)權(quán)利要求1所述的基于微博的交通數(shù)據(jù)獲取方法,其特征在于:所示步驟6的 具體方法為: 將步驟3中在微博數(shù)據(jù)庫(kù)S1中的進(jìn)行人工分類的部分微博的分類序號(hào)及其在步驟5 中所對(duì)應(yīng)的空間向量作為輸入量,帶入Matlab軟件環(huán)境下并訓(xùn)練支持向量機(jī)。
5. 根據(jù)權(quán)利要求1所述的基于微博的交通數(shù)據(jù)獲取方法,其特征在于:所述步驟7的 具體步驟為:將步驟3中微博數(shù)據(jù)庫(kù)S1中的未進(jìn)行人工分類的微博的分類序號(hào)及其在步驟 5中所對(duì)應(yīng)的空間向量作為輸入量,帶入步驟6中訓(xùn)練好的支持向量機(jī)中,得到每條微博對(duì) 應(yīng)的分類。
6. 根據(jù)權(quán)利要求1所述的基于微博的交通數(shù)據(jù)獲取方法,其特征在于:所述步驟1中 所述微博關(guān)鍵詞分為兩部分,第一部分為屬性關(guān)鍵詞,包含需要獲取的交通數(shù)據(jù)的地域范 圍、時(shí)間范圍;第二部分為類型關(guān)鍵詞,為需要獲取的交通數(shù)據(jù)的具體細(xì)分類型的相關(guān)詞語(yǔ) 及其縮寫,包含但不限于駕駛員、司機(jī)、乘客、行人、公共交通、公交、道路、高速公路、高速、 國(guó)道、橋梁、大橋、交通政策、交通法規(guī)、交通事故、交通發(fā)展、交通管理、交通控制、交通規(guī) 劃、交通行為。
7. 根據(jù)權(quán)利要求1所述的基于微博的交通數(shù)據(jù)獲取方法,其特征在于:所述步驟2中 刪除冗余微博的方法為:采用KMP法搜索所述步驟1中采集得到的所有微博,找尋其中完全 相同的微博即轉(zhuǎn)發(fā)微博,然后對(duì)每組完全相同的微博僅保留一條,并刪除其余的完全相同 的微博。
8. 根據(jù)權(quán)利要求1所述的基于微博的交通數(shù)據(jù)獲取方法,其特征在于:所述步驟3具 體包括以下步驟:隨機(jī)的選取微博數(shù)據(jù)庫(kù)S1中的部分微博,其數(shù)量為微博數(shù)據(jù)庫(kù)S1中微 博條數(shù)的30%和3000條的較小值,選擇微博的方法為簡(jiǎn)單隨機(jī)抽樣,根據(jù)該部分微博的內(nèi) 容,對(duì)微博進(jìn)行人工分類,分類的類別有:1)與需要獲取的交通數(shù)據(jù)相關(guān)的新聞?lì)愇⒉?) 與需要獲取的交通數(shù)據(jù)不相關(guān)的新聞?lì)愇⒉?)與需要獲取的交通數(shù)據(jù)不相關(guān)的個(gè)人發(fā) 布的微博;4);與需要獲取的交通數(shù)據(jù)相關(guān)的個(gè)人發(fā)布的微博。
9. 根據(jù)權(quán)利要求3所述的基于微博的交通數(shù)據(jù)獲取方法,其特征在于:依次將步驟2 中微博數(shù)據(jù)庫(kù)S1中的第i條微博轉(zhuǎn)化為空間向量Cp具體包含如下步驟: (5. 1)空間坐標(biāo)初始化:將Q的空間坐標(biāo)初始化為一個(gè)全是0的坐標(biāo),即賦值Cij = 0 ; (5. 2)生成空間向量Q :依次將微博分詞數(shù)據(jù)庫(kù)S2中的第i條微博的Pi個(gè)詞語(yǔ),與步 驟4分詞統(tǒng)計(jì)數(shù)據(jù)庫(kù)S3中的Μ個(gè)詞語(yǔ)進(jìn)行匹配,當(dāng)發(fā)現(xiàn)Pi個(gè)詞語(yǔ)中,有q個(gè)詞語(yǔ)與分詞統(tǒng) 計(jì)數(shù)據(jù)庫(kù)S3中的第j個(gè)詞語(yǔ)相同,則= q,其中,q為大于0的整數(shù)。
【文檔編號(hào)】G06F17/30GK104156440SQ201410396110
【公開日】2014年11月19日 申請(qǐng)日期:2014年8月12日 優(yōu)先權(quán)日:2014年8月12日
【發(fā)明者】王煒, 華雪東, 張方偉 申請(qǐng)人:東南大學(xué)