欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于gps地理位置數(shù)據(jù)挖掘的用戶分類方法

文檔序號:9249313閱讀:599來源:國知局
一種基于gps地理位置數(shù)據(jù)挖掘的用戶分類方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及大數(shù)據(jù)分析技術(shù)領(lǐng)域,設(shè)及利用機(jī)器學(xué)習(xí)算法對移動大數(shù)據(jù)中GI^S地 理位置數(shù)據(jù)的分析處理,具體設(shè)及一種基于GI^S地理位置數(shù)據(jù)挖掘的用戶分類方法。
【背景技術(shù)】
[0002] 隨著移動智能終端爆炸式的發(fā)展W及定位技術(shù)的成熟,不僅催生了大量的基于位 置的服務(wù)(LocationBasedService,LB巧應(yīng)用,同時也促進(jìn)了移動大數(shù)據(jù)(MobilityBig Data,MBD)的產(chǎn)生。伴隨著位置服務(wù)、車聯(lián)網(wǎng)應(yīng)用W及各式定位技術(shù)的不斷普及和發(fā)展,由 地理數(shù)據(jù)、車輛和人的軌跡W及應(yīng)用記錄等構(gòu)成的移動大數(shù)據(jù)已經(jīng)成為當(dāng)前用來感知人類 社群活動規(guī)律,分析地理國情和構(gòu)建智慧城市的重要戰(zhàn)略資源。
[0003] 移動大數(shù)據(jù)表示通過采集用戶移動時產(chǎn)生的地理位置數(shù)據(jù)信息,其特點(diǎn)具有除大 數(shù)據(jù)4V特點(diǎn)W外,還具有復(fù)雜性、混雜性W及稀疏性。移動大數(shù)據(jù)中的類型可W根據(jù)其采 集方式的不同分為=大類;GI^S數(shù)據(jù)、GSM定位數(shù)據(jù)、WIFI定位數(shù)據(jù)。而其具體的采集方式 可W分為基于衛(wèi)星定位、基于地理信息系統(tǒng)定位、基于無線信號定位、基于傳感器定位和組 合定位等。
[0004] 目前對于移動數(shù)據(jù)的采集越加方便和容易,但因此也導(dǎo)致數(shù)據(jù)量尤為龐大,如 何利用和分析移動大數(shù)據(jù)成為當(dāng)前研究領(lǐng)域的一大難題,同時也是一大熱點(diǎn)。雖然有眾 多研究學(xué)者針對采集的用戶Gl^s數(shù)據(jù)進(jìn)行處理,但是該些研究的重點(diǎn)在于通過多而雜 的GI^S數(shù)據(jù)挖掘用戶的停留區(qū)域,其方法大致分為分割聚類算法值ividingClustering Algorithm)、基于密度的聚類算法值ensity-BasedClusteringAlgorithm)W及基于時 間的聚類算法(Time-BasedClusteringAlgorithm)。該些方法都有著各自的缺點(diǎn)W及優(yōu) 點(diǎn),也能夠在一定程度上挖掘用戶的停留區(qū)域,但是該些研究沒有充分利用移動大數(shù)據(jù)的 價值。(1)、挖掘用戶的停留區(qū)域會導(dǎo)致信息有效性降低,區(qū)域?qū)τ谟脩魜碚f范圍太大,在實(shí) 際的應(yīng)用中價值不高;(2)、即使停留區(qū)域的精度提高了,但是僅僅知道用戶的停留區(qū)域無 法為用戶提供更加高效、精準(zhǔn)的服務(wù)。
[0005] 而目前,有一種基于GI^S地理位置數(shù)據(jù)對用戶分類的算法是通過挖掘用戶停留位 置,然后通過停留位置間的軌跡序列將用戶分類。該種算法首先在效率上較低,需要處理用 戶的移動軌跡序列,并且要分層多次聚類才能完成對用戶的分類;其次該種算法對用戶分 類的研究太過嚴(yán)格,會丟失部分有效信息。
[0006] 因此本發(fā)明主要利用機(jī)器學(xué)習(xí)相關(guān)算法對移動大數(shù)據(jù)中的GI^S地理位置數(shù)據(jù)類 型進(jìn)行分析處理,首先挖掘用戶的停留區(qū)域,其次在停留區(qū)域中挖掘用戶的停留位置,最 后再根據(jù)用戶的停留位置結(jié)合余弦定理W及TF-IDF(TermRrequency-InverseDo州ment 化equency,詞頻逆文本頻率指數(shù))算法思想對用戶進(jìn)行分類。而分類結(jié)果可W進(jìn)一步應(yīng)用 于為推薦引擎提供參考、為異常檢測提供標(biāo)準(zhǔn)等,進(jìn)而更加提高對移動大數(shù)據(jù)的利用,為用 戶提供更加有效、精確的服務(wù)。

【發(fā)明內(nèi)容】

[0007] 針對現(xiàn)有技術(shù)的不足,提出了一種提高對移動大數(shù)據(jù)的利用,為用戶提供更加有 效、精確的服務(wù)的基于GI^S地理位置數(shù)據(jù)挖掘的用戶分類方法。本發(fā)明的技術(shù)方案如下;一 種基于GI^S地理位置數(shù)據(jù)挖掘的用戶分類方法,其包括W下步驟:
[0008] 101、采集用戶的原始GI^S地理位置數(shù)據(jù),并預(yù)處理原始GI^S地理位置數(shù)據(jù),具體 為;將用戶原始GI^S地理位置數(shù)據(jù)按文件夾分類,分別遍歷所有文件夾中存儲用戶原始GPS 地理位置數(shù)據(jù)的文件,提取其中的紳度、經(jīng)度、記錄時間=個屬性,并按用戶ID作為輸出文 件的文件名;
[0009] 102、挖掘用戶停留區(qū)域的步驟;將步驟101整理好的用戶數(shù)據(jù)作為FindStayArea 算法挖掘停留區(qū)域的數(shù)據(jù)輸入,輸出結(jié)果為用戶停留區(qū)域,停留區(qū)域包括停留區(qū)域中屯、點(diǎn) W及其附屬的鄰居節(jié)點(diǎn);
[0010] 103、挖掘用戶停留位置的步驟;將步驟102中輸出結(jié)果的用戶停留區(qū)域作為 FindStayPoint算法挖掘停留位置的數(shù)據(jù)輸入,輸出結(jié)果為用戶停留位置,停留位置是由中 屯、點(diǎn)所表示;
[0011] 104、對用戶分類,將用戶停留位置作為用戶分類化erClassify算法的數(shù)據(jù)輸入, 輸出用戶分類結(jié)果,將類別一致的用戶作為一組用戶輸出。
[0012] 進(jìn)一步的,步驟102中挖掘用戶停留區(qū)域的步驟具體為:
[0013] S21 ;讀取用戶數(shù)據(jù)文件,并將每一個記錄的紳度、經(jīng)度轉(zhuǎn)換成浮點(diǎn)型數(shù)據(jù), 將記錄時間轉(zhuǎn)換成日期型數(shù)據(jù),并保存為Location類類型,構(gòu)建用戶的位置列表 list [Location],列表中的元素為Location類類型;
[0014] S22 ;將單個用戶的位置列表list [Location]作為FindStayArea算法挖掘停留區(qū) 域的輸入數(shù)據(jù)源,并開始挖掘用戶的停留區(qū)域,輸出W計(jì)算開始位置作為key,位置列表作 為value的字典類型數(shù)據(jù)結(jié)果Map化巧:Location, value:list[Location]};
[0015] S23;整理FindStayArea算法的輸出結(jié)果,計(jì)算結(jié)果中所有位置數(shù)據(jù)的平均值作 為停留區(qū)域StayArea類類型的中屯、點(diǎn),將所有位置數(shù)據(jù)作為停留區(qū)域StayArea類類型的 鄰居節(jié)點(diǎn),并構(gòu)建用戶的停留區(qū)域列表list[StayArea],列表中的元素為StayArea類類 型,將結(jié)果W二進(jìn)制文件的形式保存。
[0016] 進(jìn)一步的,所述FindStayArea算法步驟具體為;
[0017]A1、任取用戶某一地點(diǎn)位置作為起始計(jì)算點(diǎn)LP,遍歷該用戶其余所有位置點(diǎn)計(jì)算 與LP的距離,當(dāng)距離小于某一距離閥值mindist時,便將其加入到該點(diǎn)LP的鄰居節(jié)點(diǎn)中; A2、遍歷結(jié)束時,當(dāng)該點(diǎn)LP的鄰居節(jié)點(diǎn)其密度大于最小密度閥值minpoint時,將該點(diǎn)同其 鄰居節(jié)點(diǎn)視為一停留區(qū)域,同時將該點(diǎn)與其鄰居節(jié)點(diǎn)從原始位置數(shù)據(jù)集中刪除;如果遍歷 結(jié)束時,該點(diǎn)LP的鄰居節(jié)點(diǎn)其密度不大于最小密度閥值minpoint時,將該點(diǎn)視為雜點(diǎn),同 時將該點(diǎn)從原始位置數(shù)據(jù)中刪除;重復(fù)該一過程,直到原始位置數(shù)據(jù)中所有的點(diǎn)都經(jīng)過了 該兩步計(jì)算過程,結(jié)束。
[0018] 進(jìn)一步的,步驟103中挖掘用戶停留位置的具體步驟為:
[0019] S31 ;加載用戶停留區(qū)域數(shù)據(jù)二進(jìn)制文件,通過停留區(qū)域中的鄰居節(jié)點(diǎn)數(shù)據(jù)構(gòu)建位 置列表數(shù)據(jù)集list [Location],列表中的元素為Location類類型;
[0020] S32 ;將停留區(qū)域中鄰居節(jié)點(diǎn)構(gòu)建的位置列表list [Location]作為 FindStayPoint算法的輸入數(shù)據(jù)源,并開始挖掘用戶的停留位置,輸出停留位置列表list[StayPoint],列表中的元素為Sta評oint類類型,包括停留位置的中屯、點(diǎn)W及鄰居節(jié) 點(diǎn)。將結(jié)果W二進(jìn)制文件形式保存。
[0021] 進(jìn)一步的,所述FindSta評oint算法的步驟具體為;
[0022] 任取某用戶停留區(qū)域的鄰居節(jié)點(diǎn)中的地點(diǎn)位置作為起始計(jì)算點(diǎn)NLP,遍歷該用戶 該停留區(qū)域的鄰居節(jié)點(diǎn)中其余所有位置點(diǎn)計(jì)算與NLP的距離,當(dāng)找到某點(diǎn)NLP'與NLP的距 離大于某一距離閥值mindist時,計(jì)算NLP'與NLP時間間隔,當(dāng)其時間間隔大于某一時間 閥值mintime時,則將NLP與NLP'之間的點(diǎn)視為該用戶的停留位置,并計(jì)算NLP與NLP'之 間所有點(diǎn)的平均值作為該停留位置的中屯、點(diǎn),同時下次從NLP'之后的某個位置點(diǎn)NLP"重 新開始此計(jì)算步驟;而當(dāng)某點(diǎn)NLP'與NLP的距離不大于某一距離閥值mindist時,從NLP 之后的某個位置點(diǎn)NLP"重新開
當(dāng)前第1頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1
铜川市| 邢台县| 泌阳县| 凤山市| 沿河| 武胜县| 卫辉市| 开远市| 应城市| 内江市| 东光县| 海阳市| 金乡县| 景洪市| 西乡县| 庆阳市| 安丘市| 宣武区| 金沙县| 库伦旗| 泸溪县| 吉隆县| 宽甸| 大姚县| 丹寨县| 邢台县| 鹤庆县| 天峨县| 潞城市| 孟连| 资兴市| 潼南县| 资中县| 怀来县| 庆阳市| 任丘市| 多伦县| 双流县| 株洲县| 三河市| 涿鹿县|