地質(zhì)資料數(shù)據(jù)清洗方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及地理信息系統(tǒng)(Geographic Informat1n System,GIS)領(lǐng)域,尤其涉及一種地質(zhì)資料數(shù)據(jù)清洗方法及系統(tǒng)。
【背景技術(shù)】
[0002]地質(zhì)資料是地質(zhì)工作形成的重要基礎(chǔ)信息資源,具有可被重復(fù)開發(fā)利用、能夠長期提供服務(wù)的重要功能。盡管國土資源部發(fā)文(國土資發(fā)
[2006]210號)明確了成果地質(zhì)資料電子文件匯交格式要求,但由于各類專業(yè)技術(shù)工作的成果文件不盡相同,技術(shù)要求中的具體細(xì)節(jié)也并未細(xì)化,加上地質(zhì)資料匯交單位的水平和態(tài)度不一,因此所接收到的匯交數(shù)據(jù)存在著各類的異構(gòu)性、不一致性和質(zhì)量問題,如數(shù)據(jù)與目錄的不一致性,數(shù)據(jù)存儲目錄中存在的不合法性,或檔案標(biāo)識的重復(fù)性等。
[0003]由于地質(zhì)資料數(shù)據(jù)有著從組卷、接收、管理、加工直至服務(wù)全過程獨有的工作特點和應(yīng)用需求,以往的地質(zhì)資料從匯交到管理,再到查閱的諸多環(huán)節(jié)所應(yīng)用的管理手段或者較為粗陋,如以檔為單位的案卷文件夾形式保存資料,但每檔文件夾下的文件管理則任由匯交人組織,不再做細(xì)分的工作,這樣難以滿足數(shù)據(jù)精細(xì)化管理的需求;或者采用的技術(shù)方法和工具自動化程度較低,絕大多數(shù)工作還依賴于人工清洗來完成。這一情況極大地限制了資料管理工作的效率,降低了地質(zhì)資料的利用率,阻礙了國家地質(zhì)工作的開展。
[0004]目前常見的數(shù)據(jù)清洗技術(shù)方案一般是針對結(jié)構(gòu)化數(shù)據(jù)的,而進(jìn)行針對多元異構(gòu)數(shù)據(jù)的數(shù)據(jù)清洗技術(shù)方案并不多見。數(shù)據(jù)清洗技術(shù)一般主要可以包括數(shù)據(jù)檢測和數(shù)據(jù)修正兩個步驟或模塊。數(shù)據(jù)檢測用來檢測文件錯誤(包括不完整數(shù)據(jù)和異常數(shù)據(jù))和重復(fù)與相似重復(fù)記錄。在進(jìn)行統(tǒng)計后,挑出全面的臟數(shù)據(jù)信息。其中,對于重復(fù)與相似重復(fù)記錄一般采用字段匹配和記錄匹配等檢測操作。對檢測出的臟數(shù)據(jù)進(jìn)行清洗的步驟,一般是對不完整數(shù)據(jù)或重復(fù)數(shù)據(jù)采用人工判斷后的刪除、替代的清洗方法,從而使文件中的錯誤問題得到修正。
[0005]在現(xiàn)有的數(shù)據(jù)清洗技術(shù)方案中,通常是按照由算法庫或規(guī)則庫提供的預(yù)先定義好的清洗算法和清洗規(guī)則進(jìn)行清洗工作。然而,在實際的操作工程中,經(jīng)常要針對遇到的不同問題進(jìn)行調(diào)算法和規(guī)則的重新定義和調(diào)整,因此,現(xiàn)有技術(shù)的方案難以做到規(guī)則的通用性。
[0006]另外,對于大量錯誤數(shù)據(jù)而言,現(xiàn)有技術(shù)方案是無法給出有效的清洗建議或統(tǒng)計數(shù)據(jù)的,往往需要提交給用戶,由其手動處理,耗時、費力,也很難保障質(zhì)量。
[0007]另外,對于數(shù)據(jù)的錯誤類型及其他統(tǒng)計信息的統(tǒng)計與分析也很難通過目前的技術(shù)方案簡便地實現(xiàn)。
【發(fā)明內(nèi)容】
[0008]技術(shù)問題
[0009]有鑒于此,本發(fā)明要解決的技術(shù)問題是如何自動地對多元異構(gòu)、來源廣泛的地質(zhì)資料數(shù)據(jù)進(jìn)行清洗。
[0010]解決方案
[0011]為了解決上述技術(shù)問題,根據(jù)本發(fā)明一實施例,提供了一種地質(zhì)資料數(shù)據(jù)清洗方法,包括:
[0012]文件名稱校驗步驟,根據(jù)待處理地質(zhì)資料文件的匯交格式要求,來校驗各所述待處理地質(zhì)資料文件的文件名稱;
[0013]文件格式校驗步驟,對進(jìn)行所述文件名稱校驗步驟之后保留的地質(zhì)資料數(shù)據(jù)的文件格式進(jìn)行校驗與記錄;以及
[0014]文件信息采集步驟,在進(jìn)行所述文件格式校驗步驟之后,針對所記錄的地質(zhì)資料數(shù)據(jù)的文件,分別記錄相對應(yīng)的格式與配置信息。
[0015]對于上述地質(zhì)資料數(shù)據(jù)清洗方法,在一種可能的實現(xiàn)方式中,所述文件名稱校驗步驟包括:
[0016]根據(jù)所述待處理地質(zhì)資料文件的文件名稱的長度來判斷所述待處理地質(zhì)資料文件的有效性;以及
[0017]在所述待處理地質(zhì)資料文件有效的情況下,分別校驗所述待處理地質(zhì)資料文件的文件名稱中的所有字符。
[0018]對于上述地質(zhì)資料數(shù)據(jù)清洗方法,在一種可能的實現(xiàn)方式中,在所述待處理地質(zhì)資料文件有效的情況下,分別校驗所述待處理地質(zhì)資料文件的文件名稱中的所有字符,包括:
[0019]校驗所述待處理地質(zhì)資料文件的文件名稱中的每一個字符是否為有效字符,對于存在無效字符的文件進(jìn)行記錄與預(yù)判;
[0020]根據(jù)所述待處理地質(zhì)資料文件的文件名稱中的類別位來判斷所述待處理地質(zhì)資料文件的文件類型是否符合規(guī)定類型,對于不符合規(guī)定類型的文件進(jìn)行記錄;
[0021]根據(jù)所述待處理地質(zhì)資料文件的文件名稱中的文件序號位,來判斷文件序號的有效性以及該文件序號在地質(zhì)資料數(shù)據(jù)中的連續(xù)性和唯一性。
[0022]對于上述地質(zhì)資料數(shù)據(jù)清洗方法,在一種可能的實現(xiàn)方式中,所述文件格式校驗步驟包括:
[0023]對于進(jìn)行所述文件名稱校驗步驟之后保留的地質(zhì)資料數(shù)據(jù)中的文件,進(jìn)行識別并記錄對應(yīng)的文件格式;
[0024]在存在文件名稱相同但文件格式不同的文件的情況下,按照文件格式優(yōu)先級規(guī)則來確定文件的主格式,所述文件格式優(yōu)先級從高到低的順序為空間數(shù)據(jù)格式、結(jié)構(gòu)化數(shù)據(jù)格式、矢量數(shù)據(jù)格式、制圖數(shù)據(jù)格式、表數(shù)據(jù)格式、文檔數(shù)據(jù)格式、柵格數(shù)據(jù)格式;
[0025]判斷并記錄是否能夠有效地讀取各文件的文件頭信息以及是否能夠有效地打開各文件的內(nèi)容。
[0026]對于上述地質(zhì)資料數(shù)據(jù)清洗方法,在一種可能的實現(xiàn)方式中,所述文件信息采集步驟包括:
[0027]對于空間數(shù)據(jù)格式的文件,記錄文件的格式、版本號、工程文件的信息、投影坐標(biāo)參數(shù)、表達(dá)輔助信息庫信息、以及各圖層的數(shù)據(jù)量信息;
[0028]對于結(jié)構(gòu)化數(shù)據(jù)格式的文件,記錄文件的格式、版本號、記錄數(shù)、字段數(shù)和數(shù)據(jù)量大??;
[0029]對于矢量數(shù)據(jù)或制圖數(shù)據(jù)的文件,記錄文件的格式、版本號和表達(dá)輔助信息庫信息;
[0030]對于表數(shù)據(jù)格式的文件,記錄文件的格式、版本號、記錄數(shù)、字段數(shù)和數(shù)據(jù)量大?。?br>[0031]對于文檔數(shù)據(jù)格式的文件,記錄文件的格式、版本號、字符數(shù)量和數(shù)據(jù)量大??;以及
[0032]對于柵格數(shù)據(jù)格式的文件,記錄文件的格式、壓縮比、點陣和數(shù)據(jù)量大小。
[0033]為了解決上述技術(shù)問題,根據(jù)本發(fā)明另一實施例,提供了一種地質(zhì)資料數(shù)據(jù)清洗系統(tǒng),包括:
[0034]文件名稱校驗?zāi)K,用于根據(jù)待處理地質(zhì)資料文件的匯交格式要求,來校驗各所述待處理地質(zhì)資料文件的文件名稱;
[0035]文件格式校驗?zāi)K,與所述文件名稱校驗?zāi)K連接,用于對利用所述文件名稱校驗?zāi)K處理所述地質(zhì)資料數(shù)據(jù)之后保留的地質(zhì)資料數(shù)據(jù)的文件格式進(jìn)行校驗與記錄;以及
[0036]文件信息采集模塊,與所述文件格式校驗?zāi)K連接,用于針對所記錄的地質(zhì)資料數(shù)據(jù)的文件,分別記錄相對應(yīng)的格式與配置信息。
[0037]對于上述地質(zhì)資料數(shù)據(jù)清洗系統(tǒng),在一種可能的實現(xiàn)方式中,所述文件名稱校驗?zāi)K用于:
[0038]根據(jù)所述待處理地質(zhì)資料文件的文件名稱的長度來判斷所述待處理地質(zhì)資料文件的有效性;以及
[0039]在所述待處理地質(zhì)資料文件有效的情況下,分別校驗所述待處理地質(zhì)資料文件的文件名稱中的所有字符。
[0040]對于上述地質(zhì)資料數(shù)據(jù)清洗系統(tǒng),在一種可能的實現(xiàn)方式中,在所述待處理地質(zhì)資料文件有效的情況下,分別校驗所述待處理地質(zhì)資料文件的文件名稱中的所有字符,包括:
[0041]校驗所述待處理地質(zhì)資料文件的文件名稱中的每一個字符是否為有效字符,對于存在無效字符的文件進(jìn)行記錄與預(yù)判;
[0042]根據(jù)所述待處理地質(zhì)資料文件的文件名稱中的類別位來判斷所述待處理地質(zhì)資料文件的文件類型是否符合規(guī)定類型,對于不符合規(guī)定類型的文件進(jìn)行記錄;
[0043]根據(jù)所述待處理地質(zhì)資料文件的文件名稱中的文件序號位,來判斷文件序號的有效性以及該文件序號在地質(zhì)資料數(shù)據(jù)中的連續(xù)性和唯一性。
[0044]對于上述地質(zhì)資料數(shù)據(jù)清洗系統(tǒng),在一種可能的實現(xiàn)方式中,所述文件格式校驗?zāi)K用于:
[0045]對于進(jìn)行所述文件名稱校驗步驟之后保留的地質(zhì)資料數(shù)據(jù)中的文件,進(jìn)行識別并