專利名稱::資料的整合方法
技術領域:
:本發(fā)明是關于一種可解決不同資料之間內容不對稱,使不同型態(tài)資料得以整合,突破資料使用極限的資料整合方法,并且可將少樣本量的資料擴充為多樣本量資料的資料的整合方法。
背景技術:
:各行各業(yè)為了解自己所提供的服務或產品是否被消費者接受或喜愛,常以問巻調查來了解消費者對該項服務或產品的評價,以此作為改進的依據。而市場調查(MR)上的問題是根據委托方的需求設計的,屬于一種主動資料,其問巻內容的項目可根據業(yè)者想了解的內容進行調整,所以其優(yōu)點為項目(變量的數量)多,但其缺點是訪問人力成本高,獲取樣本數量低,因此資料的參考性無法反映所有對象。另一方面,零售端(PointOfSales,POS)的銷售或客戶消費記錄是一種樣本數量大的資料,但其資料內容僅記錄一些簡單的如日期、種類及消費金額等資料,對于消費習慣等深層的資料并不能確切了解,屬于一種被動式的資料。雖然具有大的樣本量,但無法成為改進服務或創(chuàng)造新商品的決策依據。目前商業(yè)或非商業(yè)領域普遍存在這種資料不對稱的現象,致使資料應用者無法找出最佳可信賴的資料作為供其研究或決策的參考,甚至必須為某一目的再重新制作一份資料,非常耗費成本。有鑒于此,本發(fā)明提供一種資料的整合方法,用于解決上述諸多的資料的問題。
發(fā)明內容本發(fā)明的目的,在于提供一種資料的整合方法,可以將具有不同內容的資料整合,形成具有全面參考價值的新資料,以突破資料使用極限并且節(jié)省重新制作新資料的成本。本發(fā)明的目的,還在于提供一種資料的整合方法,其可以利用系統(tǒng)化的預測將少樣本量的資料推測出一多樣本量的資料,且資料內容包含足夠參考的涉及方面,作為供研究或決策的有效參考。為達成上述目的,本發(fā)明的資料的整合方法包括下列步驟a)、選取一第一資料中的一個項目制定為一關鍵變量;b)、制作一包含有關鍵變量的第二資料;c)、以關鍵變量連接第一資料與第二資料,并將所述第一資料與第二資料輸入一處理器以產生一第三資料;d)、第三資料的準確率驗證,不通過則回步驟c),通過則儲存。如上所述的資料整合方法,其中第一資料、第二資料被定義為主動資料或被動資料;或者,其一被定義為主動資料,另一被定義為被動資料。而第三資料為結合第一資料與第二資料所預測、推測或映像的資料。通過上述方法,可以將個別資料的優(yōu)點整合,缺點彌補,從而獲得一份兼具兩者特性的新資料。新資料中包含了舊資料中例如MR的多個涉及方面,用于提供更深度的資料內容;同時,新資料又具有舊資料例如POS的足夠的樣本量,使被參考的可信度提高。因此,本方法可以解決現有各種不對稱資料的運用缺失,并且提供一種簡便且低成本的資料整合方法。圖1為本發(fā)明第一實施例的步驟流程圖。圖2為本發(fā)明第二實施例的步驟流程圖。圖3為本發(fā)明的資料整合方法的操作原理示意圖。主要組件符號說明10.……POS20.……MR11、21...關鍵變量30.......新資料實施方式本發(fā)明的其它特點及具體實施例可于以下配合附圖的詳細說明中,得到進一步的了解。圖1為本發(fā)明的第一具體實施例的操作流程方塊圖,包括下列步驟a)、選取一第一資料中的一個項目制定為一關鍵變量;b)、制作一包含有關鍵變量的第二資料;c)、以關4囊變量連接第一資料與第二資料,并將所述第一資料與第二資料輸入一處理器以產生一第三資料;d)、第三資料的準確率驗證,不符合則回步驟c),符合則儲存。在步驟a)中,第一資料可以是具有多個項目內容或數據的任何資料,包括一零售端(PointOfSales,POS)記錄,例如記錄有購物種類明細、消費時間及金額的發(fā)票;一使用者資料(UserRawData)或人事資料(HumanResources)等,這些資料由于是根據每一次行為被動獲得的,因此定義為"被動式資料"。而關鍵變量(KeyVariable)指的是選自第一資料中的一個項目,令其成為隨后制作的第二資料及可連接第一資料與第二資料的彼此共同可識別的項目,關鍵變量可選自第一資料中的任一項目。上述步驟b)的第二資料是以第一資料的關鍵變量為基礎所設計的資料集,所以其可以將第一資料中未獲取或呈現的信息加入,以獲取一包括更多項目及涉及方面比第一資料更廣的資料集,例如可以選擇POS零售資料的其中一個項目為基礎,設計成一份訪談內容更深入、涉及方面更廣的市調資料(MarketResearch,MR)。由于第二資料中的項目可隨欲獲取信息而設計,因此可以定義為一"主動式資料"。第一資料與第二資料哪個為主動式資料,哪個為被動式資料,并沒有邏輯關系或嚴格的區(qū)分,但可以確定的是,兩者的資料內容或資料型態(tài)不對稱,如資料量一多一少,但兩者包含了可作為關鍵變量的至少一個相同項目。上述步驟c)以關鍵變量連接第一資料、第二資料后的下一步驟是建立一統(tǒng)計模型,再根據統(tǒng)計模型產生第三資料。其中第一資料與第二資料的連4矣可利用如"結構化查詢語言"(StructuredQueryLanguage,SQL)使個別資料容易建立關聯。而且,因為資料來源及格式未必相同,因此在建立統(tǒng)計^^莫型前,資料最好經過提耳又(Extraction)、轉換(Transformation)和加載(Loading)等資料整理的ETL程序,將不正確或未整理完備的原始資料經過整理,以提高后續(xù)步驟結果的準確性;但也可能資料來源即是經過整理的,因而可以不經該ETL程序。另外,建立統(tǒng)計才莫型可采用多種類型的統(tǒng)計工具,例如直線回歸、曲線回歸、K-Mean、時間序列(TimeSeries)等相關模型。本發(fā)明隨后的較佳實施例使用邏輯回歸才莫型(LogisticRegression)。上述步驟c)在統(tǒng)計模型建立后結合第一資料與第二資料其中之一來預測產生一第三資料,其中第一資料與第二資料的選擇,較佳的方式為選擇兩資料中樣本數量較多的設定為預測變量值,以便預測出足夠且具參考性的樣本量,如本發(fā)明中POS零售資料的數量比MR市調資料多,故選擇POS零售資料與統(tǒng)計模型進行第三資料的預測制作。而第三資料的產生,理論上是利用統(tǒng)計模型根據MR市調資料的每一個項目預測出的一具有POS貴料量的新資料,但由于原先POS資料中并未具有與MR市調資料相應的所有項目,因此所預測推測出的資料值并非反應原來POS資料的真實情形,因此可以定義第三資料為一種預測或推測出的資^K由于是進行預測或推測,因此可^f吏用如SPSS(StatisticalPackageforSocialScience統(tǒng)計軟件包)、SAS或Statistica等不同的統(tǒng)計軟件進行預測。如前所述,由于步驟c)的第三資料是利用統(tǒng)計才莫型根據第一資料的樣本數量所預測推測成的,如果統(tǒng)計模型是適當的模型,則理論上第三資料與第二資料的內容應一致,即預測出來的資料跟原始資料應該是100%—致的。但由于系統(tǒng)所選擇的統(tǒng)計模型有些微誤差,以致預測出來的值會與原始資料有差異。因此,步驟d)即是要將此預測值與原先資料進行比較(CheckoftheData),以判斷其準確率,這個部分系統(tǒng)可以自動完成比較,若準確率不佳,則系統(tǒng)會自動建立不同的統(tǒng)計模型,直到找到最好的模型或改變相應的參數,并完成所有資料的預測。上述的準確率,原則上在80%-90%即可接受。而步驟d)符合該準確率的資料可能有數筆,可選擇全部儲存或儲存準確率最高的一筆。另外,在進行第三資料的準確率判斷前,較佳地能再進行資料的整理,除去不合理或不正確的資料,有利于判斷的正確性。圖2為本發(fā)明第二具體實施例的操作流程方塊圖。本實施例是假設欲結合的兩資料同時存在,且彼此具有至少一個相同的項目的情況下其資料整合的方法,包括以下步驟e)、選取一第四資料及一第五資料中相同的一個項目制定為一關鍵變量;f)、以關鍵變量連接第四資料與第五資料,并將所述第四資料與第五資料輸入一處理器以產生一第六資料;g)、第六資料的準確率驗證,不通過則回步驟f),通過則儲存。關于第四資料、第五資料與第六資料的特性請參考第一資料、第二資料與第三資料。以下舉一具體實施例說明上述各步驟的實際操作,其中以第一資料、第二資料與第三資料的操作步驟進行說明。實施例本實施例以一牛肉面館為例進行說明,上迷步驟中的第一資料設定為該面館每次來客的消費紀錄(如發(fā)票副本,下簡稱為POS),而第二資料設定為由面館所設計針對消費心理及習慣等的市場調查表(下簡稱為MR)。表一<table>tableseeoriginaldocumentpage9</column></row><table>年訪問日期月訪問具體時間曰訪問時間段工作日標識性別節(jié)々支日標識年齡段爽口小菜(數量)職業(yè)湯類(數量)月收入促銷類(數量)這次共有多少人一起用餐?甜品(數量)同行人的身份常態(tài)套餐類(數如何知道"私房牛肉面館"并決定來消費量)的?主餐類(數量)今年第幾次到"私房牛肉面館"?特色卣味類(數請問上次大約是幾天前?量)未來到"私房牛肉面館"消費頻率是?飲料(數量)下次到"私房牛肉面館"消費,平均每人會銷售金額花多少錢?銷售數量本次消費付錢的人?桌號^v地圖上什么地方來的?用餐人數您是通過什么方式到達"私房牛肉面館"*用完餐后打算到地圖上的什么地方?用完餐后打算用什么方式到達您想去的地方?如表一所示,POS記錄了包括店號、發(fā)票號、銷售日期、時間段及用餐人數等項目;MR的項目內容包括問巻號、店名、發(fā)票號、訪問具體日期及"用完餐后打算用什么方式到達您想去的地方?,,等訪問內容。POS的資料為一消費記錄,其資料屬性為被動性資料;而MR的資料是根據資料需求者的意向而設計的,其資料屬性為主動性資料。MR在本實施例中可以根據POS的至少一個項目設計形成其項目內容,或者,與POS同時存在,但其中至少一個項目與POS相同,如本實施例中POS、MR的共同項目為"發(fā)票號"。POS與MR的樣本數量也不同,通常POS為隨消費而累積的一可觀的數量,而MR受限于訪問人力及財力,其樣本數量遠不及POS,如本實施例的POS有7400筆,而MR僅為300筆;但MR的項目內容可以因需要而增加,使其涉及方面比單純消費紀錄的POS深入且廣泛。如圖3所示,選擇上述POS10及MR20相同的一個項目11、21制定為一關鍵變量,如本實施例是選擇發(fā)票號;接著,利用關鍵變量11、21連4妄POS10與MR20,并送入一系統(tǒng)中進行整合,建立統(tǒng)計模型,并利用所建立的統(tǒng)計模型進行預測,最終得到一新資料30。在上述過程中,統(tǒng)計模型的建立是根據結合后的POS及MR(即POS+MR)所運算出的,假設運算出一統(tǒng)計模型Y(購買意愿)=2.15銷售金額+0.19來訪時間-0.73來店人數"e,其中的"銷售金額"、"來店時間"和"來店人數"是POS的項目或變量;"購買意愿"則是MR的項目或變量;新資料30的預測過程即是將Y等式帶入POS的其中一筆從而得到一個新的購買意愿新值,若進行POS的所有筆數(即重復7400次代數過程),最終就會得到7400筆購買意愿的新值;預測推測出的購買意愿新值理論上應與原先MR的購買意愿值相同(因兩者之間的變量一致),例如300筆的MR的"購買意愿"項目會完全一樣地呈現于新資料30中;但由于統(tǒng)計模型的原因導致有些微誤差產生,但原則上新資料30相對于原來的資料的準確率若達到80~90%即屬具有參考價值的資料。在確認新資料30的準確性方面可以設定系統(tǒng)進行至少一次的驗證程序,例如在完成新資料的預測后進行一次驗證;或者,在預測過程中進行一初步驗證,而最后完成新資料時再進行一最終驗證,例如,在300筆新資料完成時即與原先的300筆MR進行比對,若新資料與MR相符程度達到80~90%,則進行后續(xù)其它所有資料的預測。否則,可以另建統(tǒng)計模型或調整參數后再重新預測,直到獲得通過準確率評估的資料為止。如圖3所示,將300筆的MR20及7400筆POS10以關4建變量11和21連接并輸入一系統(tǒng)處理后便可預測、推測或映像出7400筆兼具POS及MR資料特性的新資料30。通過此資料的整合方法,可以將POS與MR所看不到的涉及方面完整呈現于新資料30中,例如POS無法看到消費者的詳細資料、消費動機或意愿;而MR無法具體了解該消費者的消費細項,例如吃了什么,花了多少錢。另外,通過本發(fā)明的資料整合方法,可以將如MR的小樣本數量的資料進行科學的預估,而擴充為一份如POS資料的大樣本數量的資料,解決原來資料在樣本數量及內容項目上的不對稱問題,從而可以打破原來資料的使用限制,得到更多涉及方面及更有參考性的資料,作為供各種的研究、決策的參考。以上所述,僅是為說明本發(fā)明的較佳實施例,不能據此限制本發(fā)明的權利范圍,例如較佳實施例雖例舉MR及POS定義為第一資料與第二資料,而其它可能的實施例還包括如產業(yè)信息、天氣及人事等不同型態(tài)的資料;而較佳實施例的第一資料與第二資料雖定義為一主動資料及一被動資料,而事實上該主動與被動資料包括任何內容或數量不對稱的資料,因此,第一資料與第二資料除是一主動與一被動資料外,還可以是皆為主動資料或皆為被動資料。因此,凡依本發(fā)明專利申請范圍所做的均等變化或修飾,均落入本發(fā)明的技術涵蓋范圍內。權利要求1、一種資料的整合方法,其特征在于,包括下列步驟a)、選取一第一資料中的一項目制定為一關鍵變量;b)、制作一包含有關鍵變量的第二資料;c)、以關鍵變量連接第一資料與第二資料,并將所述第一資料與第二資料輸入一處理器以產生一第三資料;d)、第三資料的準確率驗證,不通過則回步驟c),通過則儲存。2、如權利要求1所述的資料的整合方法,其中第一資料與第二資料定義為一主動資料。3、如權利要求1所述的資料的整合方法,其中第一資料與第二資料定義為一被動資料。4、如權利要求1所述的資料的整合方法,其中第一資料與第二資料其一定義為主動資料,另一定義為被動資料。5、如權利要求1所述的資料的整合方法,其中第一資料為被動資料,第二資料為主動資料。6、如權利要求1所述的資料的整合方法,其中第三資料為一預測、推測或映像的資料。7、如權利要求1所述的資料的整合方法,其中步驟c)的處理器執(zhí)行包括進行結合第一資料與第二資料以建立一統(tǒng)計模型,并利用統(tǒng)計模型結合第一資料以產生第三資料的步驟。8、如權利要求1所述的資料的整合方法,其中步驟d)的第三資料準確率驗證,進一步包括一初步驗證及一最終-瞼證步驟。9、如權利要求1所述的資料的整合方法,其中步驟d)所儲存的第三資料為準確率最高的資料。10、如權利要求1所述的資料的整合方法,其中步驟d)第三資料的準確率為80-90%。11、如權利要求1所述的資料的整合方法,其中進行步驟c)或步驟d)之前,還包括一資料整理步驟。12、一種資料的整合方法,其特征在于,包括下列步驟e)、選取一第四資料及一第五資料中相同的一項目制定為一關鍵變量;f)、以關^:變量連接第四資料與第五資料,并將所述第四資料與第五資料輸入一處理器以產生一第六資料;g)、第六資料的準確率驗證,不通過則回步驟f),通過則儲存。全文摘要本發(fā)明涉及一種資料的整合方法,其步驟包括選取一第一資料中的一項目制定為一關鍵變量;制作一包含有關鍵變量的第二資料;以關鍵變量連接第一資料與第二資料并輸入一處理器以產生一第三資料;第三資料的準確率驗證及儲存。利用上述的資料整合方法,可以將樣本量少的資料進行預估擴充其樣本量,并解決主動與被動資料之間內容不對稱的問題,從而突破資料使用極限。文檔編號G06F17/30GK101599090SQ200810125709公開日2009年12月9日申請日期2008年6月4日優(yōu)先權日2008年6月4日發(fā)明者張聰信申請人:泓廣信息有限公司