本發(fā)明涉及數(shù)據(jù)收集技術(shù)領(lǐng)域,特別涉及一種基于云服務(wù)的大數(shù)據(jù)收集方法及系統(tǒng)。
背景技術(shù):
數(shù)據(jù)挖掘是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分析總結(jié),提取有用信息和形成結(jié)論而對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)的過(guò)程。這一過(guò)程也是質(zhì)量管理體系的支持過(guò)程。在實(shí)用中,數(shù)據(jù)挖掘可幫助人們作出判斷,以便采取適當(dāng)行動(dòng)。數(shù)據(jù)挖掘的數(shù)學(xué)基礎(chǔ)在20世紀(jì)早期就已確立,但直到計(jì)算機(jī)的出現(xiàn)才使得實(shí)際操作成為可能,并使得數(shù)據(jù)挖掘得以推廣。數(shù)據(jù)挖掘是數(shù)學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的產(chǎn)物。
數(shù)據(jù)多樣化的形成主要有兩方面的原因:一是數(shù)據(jù)來(lái)源多,有搜索引擎、社交網(wǎng)絡(luò)、通話記錄、傳感器等等;二是數(shù)據(jù)格式多,有結(jié)構(gòu)數(shù)據(jù)、半結(jié)構(gòu)數(shù)據(jù)和非結(jié)構(gòu)數(shù)據(jù)。據(jù)相關(guān)數(shù)據(jù)統(tǒng)計(jì),每秒鐘人們發(fā)送290封電子郵件;亞馬遜處理72.9筆訂單;每分鐘人們?cè)趛outube上傳20小時(shí)的視頻;每月人們總共在facebook(臉書(shū))上瀏覽7000億分鐘。
目前的數(shù)據(jù)挖掘面臨的問(wèn)題是數(shù)據(jù)量大、多種結(jié)構(gòu)形式和實(shí)時(shí)性等多樣化要求,這些問(wèn)題增加了數(shù)據(jù)挖掘和整合困難,傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)的架構(gòu)設(shè)計(jì)結(jié)構(gòu)復(fù)雜、效率低、針對(duì)性不強(qiáng)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例的目的在于提供一種基于云服務(wù)的大數(shù)據(jù)收集方法及系統(tǒng),對(duì)數(shù)據(jù)進(jìn)行針對(duì)性采集和整合,結(jié)構(gòu)簡(jiǎn)單、目的性強(qiáng)。
為達(dá)到上述目的,本發(fā)明實(shí)施例公開(kāi)了一種基于云服務(wù)的大數(shù)據(jù)收集方法,方法包括:
信息系統(tǒng)接收和處理用戶預(yù)設(shè)條件的行業(yè)數(shù)據(jù);
針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù);
數(shù)據(jù)挖掘應(yīng)用服務(wù)器用于針對(duì)過(guò)濾得到的完整且不重復(fù)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換和裝載,并將數(shù)據(jù)挖掘結(jié)果導(dǎo)入數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)收集。
為達(dá)到上述目的,本發(fā)明實(shí)施例公開(kāi)了一種基于云服務(wù)的大數(shù)據(jù)收集方法,方法包括:
信息系統(tǒng)接收和處理用戶預(yù)設(shè)條件的行業(yè)數(shù)據(jù);
針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù);
數(shù)據(jù)挖掘應(yīng)用服務(wù)器用于針對(duì)過(guò)濾得到的完整且不重復(fù)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換和裝載,并將數(shù)據(jù)挖掘結(jié)果導(dǎo)入行業(yè)客戶端進(jìn)行存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)收集。
可選的,所述方法還包括:
所述行業(yè)客戶端為用戶提供自身存儲(chǔ)的分析處理后的最終數(shù)據(jù)。
可選的,所述針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù),包括:
利用hadoop分布式模式,針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù)。
可選的,所述數(shù)據(jù)庫(kù)為:關(guān)系數(shù)據(jù)庫(kù)。
為達(dá)到上述目的,本發(fā)明實(shí)施例公開(kāi)了一種基于云服務(wù)的大數(shù)據(jù)收集系統(tǒng),其特征在于,包括:信息系統(tǒng)、數(shù)據(jù)過(guò)濾模塊、數(shù)據(jù)挖掘應(yīng)用服務(wù)器和數(shù)據(jù)庫(kù);
所述信息系統(tǒng)用于接收和處理用戶預(yù)設(shè)條件的行業(yè)數(shù)據(jù);
所述數(shù)據(jù)過(guò)濾模塊用于針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù);
所述數(shù)據(jù)挖掘應(yīng)用服務(wù)器用于針對(duì)過(guò)濾得到的完整且不重復(fù)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換和裝載,并將數(shù)據(jù)挖掘結(jié)果導(dǎo)入數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)收集;
所述數(shù)據(jù)庫(kù)用于為用戶提供自身存儲(chǔ)的分析處理后的最終數(shù)據(jù)。
為達(dá)到上述目的,本發(fā)明實(shí)施例公開(kāi)了一種基于云服務(wù)的大數(shù)據(jù)收集系統(tǒng),其特征在于,包括:信息系統(tǒng)、數(shù)據(jù)過(guò)濾模塊、數(shù)據(jù)挖掘應(yīng)用服務(wù)器和行業(yè)客戶端;
所述信息系統(tǒng)用于接收和處理用戶預(yù)設(shè)條件的行業(yè)數(shù)據(jù),并通過(guò)總線接入該系統(tǒng)中;
所述數(shù)據(jù)過(guò)濾模塊,用于針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù);
所述數(shù)據(jù)挖掘應(yīng)用服務(wù)器用于針對(duì)過(guò)濾得到的完整且不重復(fù)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換和裝載,并將數(shù)據(jù)挖掘結(jié)果導(dǎo)入行業(yè)客戶端進(jìn)行存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)收集;
所述行業(yè)客戶端用于為用戶提供自身存儲(chǔ)的分析處理后的最終數(shù)據(jù)。
可選的,所述信息系統(tǒng)包括:管理信息系統(tǒng)、企業(yè)資源計(jì)劃系統(tǒng)、客戶關(guān)系管理系統(tǒng)和電子商務(wù)系統(tǒng)。
可選的,所述數(shù)據(jù)挖掘應(yīng)用服務(wù)器包括:探索數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘算法庫(kù)和模型庫(kù);
所述探索數(shù)據(jù)倉(cāng)庫(kù)用于讀取所述管理信息系統(tǒng)、企業(yè)資源計(jì)劃系統(tǒng)、客戶關(guān)系管理系統(tǒng)和電子商務(wù)系統(tǒng)中的數(shù)據(jù);
所述數(shù)據(jù)挖掘算法庫(kù)用于根據(jù)模型庫(kù)和探索數(shù)據(jù)倉(cāng)庫(kù)的信息對(duì)數(shù)據(jù)進(jìn)行挖掘計(jì)算并將計(jì)算結(jié)果導(dǎo)入行業(yè)客戶端。
可選的,所述行業(yè)客戶端包括:知識(shí)儲(chǔ)存端和客戶應(yīng)用端;
所述知識(shí)儲(chǔ)存端用于接收所述數(shù)據(jù)挖掘算法庫(kù)導(dǎo)入的數(shù)據(jù)并儲(chǔ)存;
所述客戶應(yīng)用端用于讀取知識(shí)儲(chǔ)存端的數(shù)據(jù)并供客戶查詢。
可見(jiàn),用戶可以根據(jù)自身需要預(yù)設(shè)不同的行業(yè)數(shù)據(jù),數(shù)據(jù)挖掘應(yīng)用服務(wù)器再根據(jù)用戶的預(yù)設(shè)條件進(jìn)行針對(duì)性分析處理,結(jié)構(gòu)簡(jiǎn)單、目的明確、效率高;數(shù)據(jù)挖掘算法庫(kù)采用統(tǒng)計(jì)分析、決策樹(shù)、粗糙集、模糊集、基于范例的理、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法對(duì)信息數(shù)據(jù)集中的海量數(shù)據(jù)進(jìn)行分析、處理、推理、預(yù)測(cè)、最終根據(jù)用戶設(shè)定的條件,實(shí)現(xiàn)最優(yōu)方案的自動(dòng)推送。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的基于云服務(wù)的大數(shù)據(jù)收集方法的一種流程示意圖。
圖2為本發(fā)明實(shí)施例提供的基于云服務(wù)的大數(shù)據(jù)收集方法的另一種流程示意圖。
圖3為本發(fā)明實(shí)施例提供的基于云服務(wù)的大數(shù)據(jù)收集系統(tǒng)的一種結(jié)構(gòu)示意圖。
圖4為本發(fā)明實(shí)施例提供的基于云服務(wù)的大數(shù)據(jù)收集系統(tǒng)的另一種結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖1為本發(fā)明實(shí)施例提供的基于云服務(wù)的大數(shù)據(jù)收集方法的一種流程示意圖,可以包括如下步驟:
s101,信息系統(tǒng)接收和處理用戶預(yù)設(shè)條件的行業(yè)數(shù)據(jù);
具體的,所述信息系統(tǒng)包括:管理信息系統(tǒng)、企業(yè)資源計(jì)劃系統(tǒng)、客戶關(guān)系管理系統(tǒng)和電子商務(wù)系統(tǒng)。
其中,管理信息系統(tǒng)(managementinformationsystem,簡(jiǎn)稱mis)是一個(gè)以人為主導(dǎo),利用計(jì)算機(jī)硬件、軟件、網(wǎng)絡(luò)通信設(shè)備以及其他辦公設(shè)備,進(jìn)行信息的收集、傳輸、加工、儲(chǔ)存、更新、拓展和維護(hù)的系統(tǒng)。
管理信息系統(tǒng)(managementinformationsystems簡(jiǎn)稱mis)是一個(gè)不斷發(fā)展的新型學(xué)科,mis的定義隨著計(jì)算機(jī)技術(shù)和通訊技術(shù)的進(jìn)步也在不斷更新,在現(xiàn)階段普遍認(rèn)為管理信息系統(tǒng)mis、是由人和計(jì)算機(jī)設(shè)備或其他信息處理手段、組成并用于管理信息的系統(tǒng)。
管理信息由信息的采集、信息的傳遞、信息的儲(chǔ)存、信息的加工、信息的維護(hù)和信息的使用六個(gè)方面組成。完善的管理信息系統(tǒng)mis具有以下四個(gè)標(biāo)準(zhǔn):確定的信息需求、信息的可采集與可加工、可以通過(guò)程序?yàn)楣芾砣藛T提供信息、可以對(duì)信息進(jìn)行管理。具有統(tǒng)一規(guī)劃的數(shù)據(jù)庫(kù)是mis成熟的重要標(biāo)志,它象征著管理信息系統(tǒng)mis是軟件工程的產(chǎn)物.、管理信息系統(tǒng)mis是一個(gè)交叉性綜合性學(xué)科,組成部分有:計(jì)算機(jī)學(xué)科(網(wǎng)絡(luò)通訊、數(shù)據(jù)庫(kù)、計(jì)算機(jī)語(yǔ)言等)、數(shù)學(xué)(統(tǒng)計(jì)學(xué)、運(yùn)籌學(xué)、線性規(guī)劃等)、管理學(xué)、仿真等多學(xué)科。信息是管理上的一項(xiàng)極為重要的資源,管理工作的成敗取決于能否做出有效的決策,而決策的正確程度則在很大程度上取決于信息的質(zhì)量。所以能否有效的管理信息成為企業(yè)的首要問(wèn)題,管理信息系統(tǒng)在強(qiáng)調(diào)管理、強(qiáng)調(diào)信息的現(xiàn)代社會(huì)中越來(lái)越得到普及。
企業(yè)資源計(jì)劃(enterpriseresourceplanning)系統(tǒng),即為erp系統(tǒng),是指建立在信息技術(shù)基礎(chǔ)上,集信息技術(shù)與先進(jìn)管理思想于一身,以系統(tǒng)化的管理思想,為企業(yè)員工及決策層提供決策手段的管理平臺(tái)。它是從mrp(物料需求計(jì)劃)發(fā)展而來(lái)的新一代集成化管理信息系統(tǒng),它擴(kuò)展了mrp的功能,其核心思想是供應(yīng)鏈管理。它跳出了傳統(tǒng)企業(yè)邊界,從供應(yīng)鏈范圍去優(yōu)化企業(yè)的資源,優(yōu)化了現(xiàn)代企業(yè)的運(yùn)行模式,反映了市場(chǎng)對(duì)企業(yè)合理調(diào)配資源的要求。它對(duì)于改善企業(yè)業(yè)務(wù)流程、提高企業(yè)核心競(jìng)爭(zhēng)力具有顯著作用。
erp是針對(duì)物資資源管理(物流)、人力資源管理(人流)、財(cái)務(wù)資源管理(財(cái)流)、信息資源管理(信息流)集成一體化的企業(yè)管理軟件。它將包含客戶/服務(wù)架構(gòu),使用圖形用戶接口,應(yīng)用開(kāi)放系統(tǒng)制作。除了已有的標(biāo)準(zhǔn)功能,它還包括其它特性,如品質(zhì)、過(guò)程運(yùn)作管理、以及調(diào)整報(bào)告等。
客戶關(guān)系管理(crm,customerrelationshipmanagement)是利用信息科學(xué)技術(shù),實(shí)現(xiàn)市場(chǎng)營(yíng)銷、銷售、服務(wù)等活動(dòng)自動(dòng)化,使企業(yè)能更高效地為客戶提供滿意、周到的服務(wù),以提高客戶滿意度、忠誠(chéng)度為目的的一種管理經(jīng)營(yíng)方式??蛻絷P(guān)系管理既是一種管理理念,又是一種軟件技術(shù)。以客戶為中心的管理理念是crm實(shí)施的基礎(chǔ)。
電子商務(wù)系統(tǒng),廣義上是指支持電子商務(wù)活動(dòng)的電子技術(shù)手段的集合。狹義上是指狹義的電子商務(wù)系統(tǒng),在internet和其他網(wǎng)絡(luò)的基礎(chǔ)上,以實(shí)現(xiàn)企業(yè)電子商務(wù)活動(dòng)為目標(biāo),滿足企業(yè)生產(chǎn)、銷售、服務(wù)等生產(chǎn)和管理的需要,支持企業(yè)的對(duì)外業(yè)務(wù)協(xié)作,從運(yùn)作,管理和決策等層次全面提高企業(yè)信息化水平,為企業(yè)提供商業(yè)智能的計(jì)算機(jī)系統(tǒng)。
電子商務(wù)整體結(jié)構(gòu)分為電子商務(wù)應(yīng)用層結(jié)構(gòu)(簡(jiǎn)稱應(yīng)用層)和支持應(yīng)用實(shí)現(xiàn)的基礎(chǔ)結(jié)構(gòu)(三層),基礎(chǔ)結(jié)構(gòu)一般包括三個(gè)層次和兩個(gè)支柱。三個(gè)層次自下而上分別為網(wǎng)絡(luò)層、傳輸層和服務(wù)層,兩個(gè)支柱分別是安全協(xié)議與技術(shù)標(biāo)準(zhǔn)、公共政策與法律規(guī)范。前三個(gè)層次為基礎(chǔ)層次,其上就是各種特定的電子商務(wù)應(yīng)用,可見(jiàn)三個(gè)基礎(chǔ)層次和兩個(gè)支柱是電子商務(wù)應(yīng)用的條件。為不失一般性,在此僅對(duì)電子商務(wù)的基礎(chǔ)結(jié)構(gòu)作概括說(shuō)明。
s102,針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù);
具體的,可以利用hadoop分布式模式,針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù)。其中,利用hadoop分布式模式,針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù),為現(xiàn)有技術(shù),本發(fā)明實(shí)施例在此不對(duì)其進(jìn)行贅述。
其中,hadoop是一個(gè)由apache基金會(huì)所開(kāi)發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu)。用戶可以在不了解分布式底層細(xì)節(jié)的情況下,開(kāi)發(fā)分布式程序。充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。
hadoop實(shí)現(xiàn)了一個(gè)分布式文件系統(tǒng)(hadoopdistributedfilesystem),簡(jiǎn)稱hdfs。hdfs有高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來(lái)部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)來(lái)訪問(wèn)應(yīng)用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(largedataset)的應(yīng)用程序。hdfs放寬了(relax)posix的要求,可以以流的形式訪問(wèn)(streamingaccess)文件系統(tǒng)中的數(shù)據(jù)。
hadoop的框架最核心的設(shè)計(jì)就是:hdfs和mapreduce。hdfs為海量的數(shù)據(jù)提供了存儲(chǔ),則mapreduce為海量的數(shù)據(jù)提供了計(jì)算。
需要說(shuō)明的是,本發(fā)明實(shí)施例包括但不限于hadoop分布式模式,也可以利用現(xiàn)有技術(shù)存在的其他數(shù)據(jù)過(guò)濾方法,具體以實(shí)現(xiàn)針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù)為準(zhǔn)。
s103,數(shù)據(jù)挖掘應(yīng)用服務(wù)器用于針對(duì)過(guò)濾得到的完整且不重復(fù)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換和裝載,并將數(shù)據(jù)挖掘結(jié)果導(dǎo)入數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)收集。
數(shù)據(jù)收集,意即數(shù)據(jù)挖掘(datamining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(knowledge-discoveryindatabases,簡(jiǎn)稱:kdd)中的一個(gè)步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過(guò)算法搜索隱藏于其中信息的過(guò)程。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)有關(guān),并通過(guò)統(tǒng)計(jì)、在線分析處理、情報(bào)檢索、機(jī)器學(xué)習(xí)、專家系統(tǒng)(依靠過(guò)去的經(jīng)驗(yàn)法則)和模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)上述目標(biāo)。
具體的,所述數(shù)據(jù)挖掘應(yīng)用服務(wù)器包括:探索數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘算法庫(kù)和模型庫(kù);
所述探索數(shù)據(jù)倉(cāng)庫(kù)用于讀取所述管理信息系統(tǒng)、企業(yè)資源計(jì)劃系統(tǒng)、客戶關(guān)系管理系統(tǒng)和電子商務(wù)系統(tǒng)中的數(shù)據(jù);
所述數(shù)據(jù)挖掘算法庫(kù)用于根據(jù)模型庫(kù)和探索數(shù)據(jù)倉(cāng)庫(kù)的信息對(duì)數(shù)據(jù)進(jìn)行挖掘計(jì)算并將計(jì)算結(jié)果導(dǎo)入數(shù)據(jù)庫(kù)。其中,數(shù)據(jù)挖掘算法庫(kù)采用統(tǒng)計(jì)分析、決策樹(shù)、粗糙集、模糊集、基于范例的理、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法。
具體的,所述數(shù)據(jù)庫(kù)可以為:關(guān)系數(shù)據(jù)庫(kù)。
其中,關(guān)系數(shù)據(jù)庫(kù),是建立在關(guān)系數(shù)據(jù)庫(kù)模型基礎(chǔ)上的數(shù)據(jù)庫(kù),借助于集合代數(shù)等概念和方法來(lái)處理數(shù)據(jù)庫(kù)中的數(shù)據(jù),同時(shí)也是一個(gè)被組織成一組擁有正式描述性的表格,該形式的表格作用的實(shí)質(zhì)是裝載著數(shù)據(jù)項(xiàng)的特殊收集體,這些表格中的數(shù)據(jù)能以許多不同的方式被存取或重新召集而不需要重新組織數(shù)據(jù)庫(kù)表格。關(guān)系數(shù)據(jù)庫(kù)的定義造成元數(shù)據(jù)的一張表格或造成表格、列、范圍和約束的正式描述。每個(gè)表格(有時(shí)被稱為一個(gè)關(guān)系)包含用列表示的一個(gè)或更多的數(shù)據(jù)種類。每行包含一個(gè)唯一的數(shù)據(jù)實(shí)體,這些數(shù)據(jù)是被列定義的種類。當(dāng)創(chuàng)造一個(gè)關(guān)系數(shù)據(jù)庫(kù)的時(shí)候,你能定義數(shù)據(jù)列的可能值的范圍和可能應(yīng)用于那個(gè)數(shù)據(jù)值的進(jìn)一步約束。而sql語(yǔ)言是標(biāo)準(zhǔn)用戶和應(yīng)用程序到關(guān)系數(shù)據(jù)庫(kù)的接口。其優(yōu)勢(shì)是容易擴(kuò)充,且在最初的數(shù)據(jù)庫(kù)創(chuàng)造之后,一個(gè)新的數(shù)據(jù)種類能被添加而不需要修改所有的現(xiàn)有應(yīng)用軟件。主流的關(guān)系數(shù)據(jù)庫(kù)有oracle、db2、sqlserver、sybase、mysql等。
可見(jiàn),用戶可以根據(jù)自身需要預(yù)設(shè)不同的行業(yè)數(shù)據(jù),數(shù)據(jù)挖掘應(yīng)用服務(wù)器再根據(jù)用戶的預(yù)設(shè)條件進(jìn)行針對(duì)性分析處理,結(jié)構(gòu)簡(jiǎn)單、目的明確、效率高;數(shù)據(jù)挖掘算法庫(kù)采用統(tǒng)計(jì)分析、決策樹(shù)、粗糙集、模糊集、基于范例的理、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法對(duì)信息數(shù)據(jù)集中的海量數(shù)據(jù)進(jìn)行分析、處理、推理、預(yù)測(cè)、最終根據(jù)用戶設(shè)定的條件,實(shí)現(xiàn)最優(yōu)方案的自動(dòng)推送。
圖2為本發(fā)明實(shí)施例提供的基于云服務(wù)的大數(shù)據(jù)收集方法的另一種流程示意圖,可以包括如下步驟:
s201,信息系統(tǒng)接收和處理用戶預(yù)設(shè)條件的行業(yè)數(shù)據(jù);
s202,針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù);
s203,數(shù)據(jù)挖掘應(yīng)用服務(wù)器用于針對(duì)過(guò)濾得到的完整且不重復(fù)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換和裝載,并將數(shù)據(jù)挖掘結(jié)果導(dǎo)入行業(yè)客戶端進(jìn)行存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)收集。
具體的,所述數(shù)據(jù)挖掘應(yīng)用服務(wù)器包括:探索數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘算法庫(kù)和模型庫(kù);
所述探索數(shù)據(jù)倉(cāng)庫(kù)用于讀取所述管理信息系統(tǒng)、企業(yè)資源計(jì)劃系統(tǒng)、客戶關(guān)系管理系統(tǒng)和電子商務(wù)系統(tǒng)中的數(shù)據(jù);
所述數(shù)據(jù)挖掘算法庫(kù)用于根據(jù)模型庫(kù)和探索數(shù)據(jù)倉(cāng)庫(kù)的信息對(duì)數(shù)據(jù)進(jìn)行挖掘計(jì)算并將計(jì)算結(jié)果導(dǎo)入行業(yè)客戶端。
具體的,所述行業(yè)客戶端包括:知識(shí)儲(chǔ)存端和客戶應(yīng)用端;
所述知識(shí)儲(chǔ)存端用于接收所述數(shù)據(jù)挖掘算法庫(kù)導(dǎo)入的數(shù)據(jù)并儲(chǔ)存;
所述客戶應(yīng)用端用于讀取知識(shí)儲(chǔ)存端的數(shù)據(jù)并供客戶查詢。
具體的,所述方法還包括:所述行業(yè)客戶端為用戶提供自身存儲(chǔ)的分析處理后的最終數(shù)據(jù)。
可見(jiàn),用戶可以根據(jù)自身需要預(yù)設(shè)不同的行業(yè)數(shù)據(jù),數(shù)據(jù)挖掘應(yīng)用服務(wù)器再根據(jù)用戶的預(yù)設(shè)條件進(jìn)行針對(duì)性分析處理,結(jié)構(gòu)簡(jiǎn)單、目的明確、效率高;數(shù)據(jù)挖掘算法庫(kù)采用統(tǒng)計(jì)分析、決策樹(shù)、粗糙集、模糊集、基于范例的理、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法對(duì)信息數(shù)據(jù)集中的海量數(shù)據(jù)進(jìn)行分析、處理、推理、預(yù)測(cè)、最終根據(jù)用戶設(shè)定的條件,實(shí)現(xiàn)最優(yōu)方案的自動(dòng)推送。
圖3為本發(fā)明實(shí)施例提供的基于云服務(wù)的大數(shù)據(jù)收集系統(tǒng)的一種結(jié)構(gòu)示意圖,包括:信息系統(tǒng)301、數(shù)據(jù)過(guò)濾模塊302、數(shù)據(jù)挖掘應(yīng)用服務(wù)器303和數(shù)據(jù)庫(kù)304;
所述信息系統(tǒng)用于接收和處理用戶預(yù)設(shè)條件的行業(yè)數(shù)據(jù);
所述數(shù)據(jù)過(guò)濾模塊用于針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù);
所述數(shù)據(jù)挖掘應(yīng)用服務(wù)器用于針對(duì)過(guò)濾得到的完整且不重復(fù)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換和裝載,并將數(shù)據(jù)挖掘結(jié)果導(dǎo)入數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)收集;
所述數(shù)據(jù)庫(kù)用于為用戶提供自身存儲(chǔ)的分析處理后的最終數(shù)據(jù)。
可見(jiàn),用戶可以根據(jù)自身需要預(yù)設(shè)不同的行業(yè)數(shù)據(jù),數(shù)據(jù)挖掘應(yīng)用服務(wù)器再根據(jù)用戶的預(yù)設(shè)條件進(jìn)行針對(duì)性分析處理,結(jié)構(gòu)簡(jiǎn)單、目的明確、效率高;數(shù)據(jù)挖掘算法庫(kù)采用統(tǒng)計(jì)分析、決策樹(shù)、粗糙集、模糊集、基于范例的理、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法對(duì)信息數(shù)據(jù)集中的海量數(shù)據(jù)進(jìn)行分析、處理、推理、預(yù)測(cè)、最終根據(jù)用戶設(shè)定的條件,實(shí)現(xiàn)最優(yōu)方案的自動(dòng)推送。
圖4為本發(fā)明實(shí)施例提供的基于云服務(wù)的大數(shù)據(jù)收集系統(tǒng)的另一種結(jié)構(gòu)示意圖,包括:信息系統(tǒng)401、數(shù)據(jù)過(guò)濾模塊402、數(shù)據(jù)挖掘應(yīng)用服務(wù)器403和行業(yè)客戶端404;
所述信息系統(tǒng)401用于接收和處理用戶預(yù)設(shè)條件的行業(yè)數(shù)據(jù),并通過(guò)總線接入該系統(tǒng)中;
所述數(shù)據(jù)過(guò)濾模塊402,用于針對(duì)用戶所預(yù)設(shè)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)過(guò)濾,得到完整且不重復(fù)的行業(yè)數(shù)據(jù);
所述數(shù)據(jù)挖掘應(yīng)用服務(wù)器403用于針對(duì)過(guò)濾得到的完整且不重復(fù)的行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)抽取、轉(zhuǎn)換和裝載,并將數(shù)據(jù)挖掘結(jié)果導(dǎo)入行業(yè)客戶端進(jìn)行存儲(chǔ),實(shí)現(xiàn)數(shù)據(jù)收集;
所述行業(yè)客戶端404用于為用戶提供自身存儲(chǔ)的分析處理后的最終數(shù)據(jù)。
可見(jiàn),用戶可以根據(jù)自身需要預(yù)設(shè)不同的行業(yè)數(shù)據(jù),數(shù)據(jù)挖掘應(yīng)用服務(wù)器再根據(jù)用戶的預(yù)設(shè)條件進(jìn)行針對(duì)性分析處理,結(jié)構(gòu)簡(jiǎn)單、目的明確、效率高;數(shù)據(jù)挖掘算法庫(kù)采用統(tǒng)計(jì)分析、決策樹(shù)、粗糙集、模糊集、基于范例的理、神經(jīng)網(wǎng)絡(luò)等數(shù)據(jù)挖掘方法對(duì)信息數(shù)據(jù)集中的海量數(shù)據(jù)進(jìn)行分析、處理、推理、預(yù)測(cè)、最終根據(jù)用戶設(shè)定的條件,實(shí)現(xiàn)最優(yōu)方案的自動(dòng)推送。
需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說(shuō)明書(shū)中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見(jiàn)即可,每個(gè)實(shí)施例重點(diǎn)說(shuō)明的都是與其他實(shí)施例的不同之處。尤其,對(duì)于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡(jiǎn)單,相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施方式中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,所述的程序可以存儲(chǔ)于計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,這里所稱得的存儲(chǔ)介質(zhì),如:rom/ram、磁碟、光盤(pán)等。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。