欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

比較并選擇數(shù)據(jù)凈化服務(wù)提供者的制作方法

文檔序號:6435346閱讀:290來源:國知局
專利名稱:比較并選擇數(shù)據(jù)凈化服務(wù)提供者的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)凈化,尤其涉及比較并選擇數(shù)據(jù)凈化服務(wù)提供者。
技術(shù)背景
1.背景和相關(guān)技術(shù)
計算機系統(tǒng)和相關(guān)技術(shù)影響社會的許多方面。的確,計算機系統(tǒng)處理信息的能力已轉(zhuǎn)變了人們生活和工作的方式。計算機系統(tǒng)現(xiàn)在通常執(zhí)行在計算機系統(tǒng)出現(xiàn)以前手動執(zhí)行的許多任務(wù)(例如,文字處理、日程安排和會計等)。最近,計算機系統(tǒng)彼此耦合并耦合到其他電子設(shè)備,以形成計算機系統(tǒng)和其他電子設(shè)備可以在其上傳輸電子數(shù)據(jù)的有線和無線計算機網(wǎng)絡(luò)。因此,許多計算任務(wù)的執(zhí)行跨多個不同的計算機系統(tǒng)和/或多個不同的計算環(huán)境分布。
在一些計算環(huán)境中,各種不同類型的數(shù)據(jù)被存儲在數(shù)據(jù)庫中并從數(shù)據(jù)庫中訪問。 一些數(shù)據(jù)庫存儲指定類型的數(shù)據(jù),諸如,例如,客戶地址、員工信息等。通常,數(shù)據(jù)是手動輸入數(shù)據(jù)庫的。手動數(shù)據(jù)輸入易造成人為錯誤。此外,許多錯誤一旦輸入就變得實際上無法檢測到,因為一旦數(shù)據(jù)被輸入,與數(shù)據(jù)的進一步人為交互如果有也很少。此外,一些錯誤,諸如,電話號碼中多余數(shù)字,難以被標(biāo)識。其他數(shù)據(jù)不一致性可能由不同存儲中的相似條目的不同數(shù)據(jù)字典定義、或由傳輸和/或存儲錯誤所導(dǎo)致。因此,數(shù)據(jù)庫可能隨時間積累了各種數(shù)據(jù)錯誤和不一致性。
管理地,不正確或不一致數(shù)據(jù)可導(dǎo)致在公共和私人范圍上的錯誤的結(jié)論和方向錯誤的投資。例如,政府可能希望分析人口普查圖來決定哪些區(qū)域需要在基礎(chǔ)設(shè)施和服務(wù)上進一步花費和投資。在此情況中,訪問可靠數(shù)據(jù)避免錯誤的財政決定將是重要的。
在商業(yè)世界,不正確的數(shù)據(jù)可能是代價昂貴的。許多公司使用客戶信息數(shù)據(jù)庫,其中記錄了諸如聯(lián)系信息、地址,和偏好的數(shù)據(jù)。如果例如,地址不一致,公司將付出重發(fā)郵件甚至丟失客戶的代價。
因此,有時,數(shù)據(jù)庫管理者可“凈化”或“擦洗”數(shù)據(jù)。數(shù)據(jù)凈化或數(shù)據(jù)擦洗包括,從記錄集、表,或數(shù)據(jù)庫檢測和糾正(或移除)破壞的或不準(zhǔn)確的記錄。常常被用于數(shù)據(jù)庫, 數(shù)據(jù)凈化或擦洗可標(biāo)識不完整的、不正確的、不準(zhǔn)確的、不相關(guān)的等數(shù)據(jù)部分,并隨后替換、 修改,或刪除這些“臟”數(shù)據(jù)。在凈化之后,數(shù)據(jù)集與其他類似數(shù)據(jù)集一致(至少更一致)。
數(shù)據(jù)凈化的實際過程可涉及移除打字錯誤或相對于已知條目列表確認(rèn)并糾正值。 確認(rèn)可能是嚴(yán)格的(諸如拒絕不具有有效郵政編碼的任何地址)或模糊的(諸如糾正與現(xiàn)存已知的記錄部分地匹配的記錄)。
已知條目的列表可由配置用于凈化指定類型數(shù)據(jù)的數(shù)據(jù)凈化服務(wù)提供者提供。例如,數(shù)據(jù)凈化服務(wù)可被配置為凈化美國的郵政地址或電話號碼。對于一些類型的數(shù)據(jù),可存在多個(潛在大量)不同數(shù)據(jù)凈化服務(wù)提供者。然而,來自不同數(shù)據(jù)凈化服務(wù)提供者的結(jié)果的充分性可能顯著變化。評估多個不同數(shù)據(jù)凈化服務(wù)提供者以標(biāo)識對于指定類型數(shù)據(jù)的 “最佳”數(shù)據(jù)凈化服務(wù)可能是手動的且勞動密集的過程。發(fā)明內(nèi)容
本發(fā)明涉及用于比較并選擇數(shù)據(jù)凈化服務(wù)提供者的方法、系統(tǒng)和計算機程序產(chǎn)品。在一些實施例中,標(biāo)識用于凈化的參考數(shù)據(jù)服務(wù)提供者。樣本數(shù)據(jù)源被映射到所選數(shù)據(jù)域。數(shù)據(jù)域與具有指定數(shù)據(jù)安排的數(shù)據(jù)元素相關(guān)聯(lián)。樣本數(shù)據(jù)源具有已知的數(shù)據(jù)不一致性。
多個參考數(shù)據(jù)服務(wù)提供者的列表配置用于凈化在所選數(shù)據(jù)域中的數(shù)據(jù)的數(shù)據(jù)元素。接收要對被探查的多個參考數(shù)據(jù)服務(wù)提供者的子集的選擇。樣本數(shù)據(jù)源被提交給參考數(shù)據(jù)服務(wù)提供者的子集中的每個參考數(shù)據(jù)服務(wù)提供者。從參考數(shù)據(jù)服務(wù)提供者的子集中的每個參考數(shù)據(jù)服務(wù)提供者接收回凈化樣本數(shù)據(jù)源的結(jié)果。對于每個參考數(shù)據(jù)服務(wù)提供者, 該結(jié)果包括從樣本數(shù)據(jù)源獲取的所謂已凈化了的樣本數(shù)據(jù)源。
來自多個參考數(shù)據(jù)服務(wù)提供者的子集中的每個參考數(shù)據(jù)服務(wù)提供者的結(jié)果被剖析。剖析包括確定每個參考數(shù)據(jù)服務(wù)提供者如何處理樣本數(shù)據(jù)源中的已知數(shù)據(jù)不一致性。 在顯示設(shè)備上顯示多個參考數(shù)據(jù)服務(wù)提供者的子集間的比較。所顯示的比較基于所剖析的結(jié)果。從所顯示的比較接收對參考數(shù)據(jù)服務(wù)提供者的用戶選擇。將所選參考數(shù)據(jù)服務(wù)提供者指示為適合凈化數(shù)據(jù)域中的進一步的數(shù)據(jù)。
提供本發(fā)明內(nèi)容以便以簡化的形式介紹將在以下的具體實施方式
中進一步描述的一些發(fā)明內(nèi)容。本發(fā)明內(nèi)容并不旨在標(biāo)識所要求保護的主題的關(guān)鍵特征或必要特征,也不旨在用于幫助確定所要求保護的主題的范圍。
本發(fā)明的附加特征和優(yōu)點將在以下描述中敘述,且其一部分根據(jù)本描述將是顯而易見的,或可通過對本發(fā)明的實踐來獲知。本發(fā)明的特征和優(yōu)點可通過在所附權(quán)利要求書中特別指出的工具和組合來實現(xiàn)和獲得。本發(fā)明的這些和其他特征將通過以下描述和所附權(quán)利要求書變得更加顯而易見,或可通過對下文中所述的本發(fā)明的實踐來領(lǐng)會。


為了描述可獲得本發(fā)明的上述和其他優(yōu)點和特征的方式,將通過參考附圖中示出的本發(fā)明的具體實施例來呈現(xiàn)以上簡要描述的本發(fā)明的更具體描述??梢岳斫?,這些附圖僅描述本發(fā)明的典型實施例,從而不被認(rèn)為是對其范圍的限制,本發(fā)明將通過使用附圖用附加特征和細節(jié)來描述和說明,在附圖中
圖1示出了便于比較和選擇數(shù)據(jù)凈化服務(wù)提供者的示例計算機體系結(jié)構(gòu)。
圖2示出了用于標(biāo)識用于凈化數(shù)據(jù)的數(shù)據(jù)凈化服務(wù)提供者的示例方法的流程圖。
具體實施方式
本發(fā)明涉及用于比較并選擇數(shù)據(jù)凈化服務(wù)提供者的方法、系統(tǒng)和計算機程序產(chǎn)品。在一些實施例中,標(biāo)識用于凈化的參考數(shù)據(jù)服務(wù)提供者。樣本數(shù)據(jù)源被映射到所選數(shù)據(jù)域。數(shù)據(jù)域與具有指定數(shù)據(jù)安排的數(shù)據(jù)元素相關(guān)聯(lián)。樣本數(shù)據(jù)源具有已知的數(shù)據(jù)不一致性。
多個參考數(shù)據(jù)服務(wù)提供者的列表配置用于凈化在所選數(shù)據(jù)域中的數(shù)據(jù)的數(shù)據(jù)元素。接收對要被探查的多個參考數(shù)據(jù)服務(wù)提供者的子集的選擇。樣本數(shù)據(jù)源被提交給參考數(shù)據(jù)服務(wù)提供者的子集中的每個參考數(shù)據(jù)服務(wù)提供者。從參考數(shù)據(jù)服務(wù)提供者的子集中的每個參考數(shù)據(jù)服務(wù)提供者接收回凈化樣本數(shù)據(jù)源的結(jié)果。對于每個參考數(shù)據(jù)服務(wù)提供者, 該結(jié)果包括從樣本數(shù)據(jù)源獲取的所謂已凈化了的樣本數(shù)據(jù)源。
來自多個參考數(shù)據(jù)服務(wù)提供者的子集中的每個參考數(shù)據(jù)服務(wù)提供者的結(jié)果被剖析。剖析包括確定每個參考數(shù)據(jù)服務(wù)提供者如何處理樣本數(shù)據(jù)源中的已知數(shù)據(jù)不一致性。 在顯示設(shè)備上顯示多個參考數(shù)據(jù)服務(wù)提供者的子集間的比較。所顯示的比較基于所剖析的結(jié)果。從所顯示的比較接收對參考數(shù)據(jù)服務(wù)提供者的用戶選擇。將所選參考數(shù)據(jù)服務(wù)提供者指示為適合凈化數(shù)據(jù)域中的進一步的數(shù)據(jù)。
本發(fā)明的各實施例可包括或利用專用或通用計算機,該專用或通用計算機包括諸如例如一個或多個處理器和系統(tǒng)存儲器等計算機硬件,如以下更詳細討論的。本發(fā)明范圍內(nèi)的各實施例還包括用于攜帶或存儲計算機可執(zhí)行指令和/或數(shù)據(jù)結(jié)構(gòu)的物理介質(zhì)和其他計算機可讀介質(zhì)。這些計算機可讀介質(zhì)可以是通用或?qū)S糜嬎銠C系統(tǒng)能夠訪問的任何可用介質(zhì)。存儲計算機可執(zhí)行指令的計算機可讀介質(zhì)是計算機存儲介質(zhì)(設(shè)備)。攜帶計算機可執(zhí)行指令的計算機可讀介質(zhì)是傳輸介質(zhì)。由此,作為示例而非限制,本發(fā)明的各實施例可包括至少兩種完全不同類型的計算機可讀介質(zhì)計算機存儲介質(zhì)(設(shè)備)和傳輸介質(zhì)。
計算機存儲介質(zhì)(設(shè)備)包括RAM、ROM、EEPROM、CD-ROM或其他光盤存儲、磁盤存儲或其他磁存儲設(shè)備、或可用于存儲計算機可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)形式的所需程序代碼裝置的且可由通用或?qū)S糜嬎銠C訪問的任何其他介質(zhì)。
“網(wǎng)絡(luò)”被定義為允許在計算機系統(tǒng)和/或模塊和/或其他電子設(shè)備之間傳輸電子數(shù)據(jù)的一個或多個數(shù)據(jù)鏈接。當(dāng)信息通過網(wǎng)絡(luò)或另一個通信連接(硬連線、無線、或者硬連線或無線的組合)傳輸或提供給計算機時,該計算機將該連接適當(dāng)?shù)匾暈閭鬏斀橘|(zhì)。傳輸介質(zhì)可包括可用于攜帶計算機可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)形式的所需程序代碼裝置且可由通用或?qū)S糜嬎銠C訪問的網(wǎng)絡(luò)和/或數(shù)據(jù)鏈接。上述的組合也應(yīng)被包括在計算機可讀介質(zhì)的范圍內(nèi)。
此外,在到達各種計算機系統(tǒng)組件之后,計算機可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)形式的程序代碼裝置可從傳輸介質(zhì)自動傳輸?shù)接嬎銠C存儲介質(zhì)(設(shè)備)(或反之亦然)。例如,通過網(wǎng)絡(luò)或數(shù)據(jù)鏈接接收到的計算機可執(zhí)行指令或數(shù)據(jù)結(jié)構(gòu)可被緩存在網(wǎng)絡(luò)接口模塊(例如, “NIC”)內(nèi)的RAM中,然后最終被傳輸?shù)接嬎銠C系統(tǒng)RAM和/或計算機系統(tǒng)處的較不易失性的計算機存儲介質(zhì)(設(shè)備)。因而,應(yīng)當(dāng)理解,計算機存儲介質(zhì)(設(shè)備)可被包括在還利用 (甚至主要利用)傳輸介質(zhì)的計算機系統(tǒng)組件中。
計算機可執(zhí)行指令例如包括,當(dāng)在處理器處執(zhí)行時使通用計算機、專用計算機、或?qū)S锰幚碓O(shè)備執(zhí)行某一功能或某組功能的指令和數(shù)據(jù)。計算機可執(zhí)行指令可以是例如二進制代碼、諸如匯編語言之類的中間格式指令、或甚至源代碼。盡管用結(jié)構(gòu)特征和/或方法動作專用的語言描述了本主題,但可以理解,所附權(quán)利要求書中定義的主題不必限于上述特征或動作。相反,上述特征和動作是作為實現(xiàn)權(quán)利要求的示例形式而公開的。
本領(lǐng)域的技術(shù)人員將理解,本發(fā)明可以在具有許多類型的計算機系統(tǒng)配置的網(wǎng)絡(luò)計算環(huán)境中實踐,這些計算機系統(tǒng)配置包括個人計算機、臺式計算機、膝上型計算機、消息處理器、手持式設(shè)備、多處理器系統(tǒng)、基于微處理器的或可編程消費電子設(shè)備、網(wǎng)絡(luò)PC、小型計算機、大型計算機、移動電話、PDA、尋呼機、路由器、交換機等等。本發(fā)明也可在其中通過網(wǎng)絡(luò)鏈接(或者通過硬連線數(shù)據(jù)鏈接、無線數(shù)據(jù)鏈接,或者通過硬連線和無線數(shù)據(jù)鏈接的組合)的本地和遠程計算機系統(tǒng)兩者都執(zhí)行任務(wù)的分布式系統(tǒng)環(huán)境中實施。在分布式系統(tǒng)環(huán)境中,程序模塊可位于本地和遠程存儲器存儲設(shè)備中。
圖1示出了便于比較和選擇數(shù)據(jù)凈化服務(wù)提供者的示例計算機體系結(jié)構(gòu)100。參考圖1,計算機體系結(jié)構(gòu)100包括計算機系統(tǒng)102和數(shù)據(jù)質(zhì)量服務(wù)器103。數(shù)據(jù)質(zhì)量服務(wù)器 103還包括域映射器104、服務(wù)提供者選擇模塊106、服務(wù)提供者查詢模塊107,以及結(jié)果剖析器108。所描繪的計算機系統(tǒng)和組件中的每一個可通過諸如例如局域網(wǎng)(“LAN”)、廣域網(wǎng)(“WAN”)或甚至因特網(wǎng)等網(wǎng)絡(luò)(或作為網(wǎng)絡(luò)的一部分)彼此連接。因此,所描繪的計算機系統(tǒng)及組件中的每一個以及任何其他連接的計算機系統(tǒng)及它們的組件都可以創(chuàng)建消息相關(guān)數(shù)據(jù)并通過網(wǎng)絡(luò)交換消息相關(guān)數(shù)據(jù)(例如,網(wǎng)際協(xié)議(“IP”)數(shù)據(jù)報和利用IP數(shù)據(jù)報的其他更高層協(xié)議,諸如傳輸控制協(xié)議(“TCP”)、超文本傳輸協(xié)議(“HTTP”)、簡單郵件傳輸協(xié)議(“SMTP”)等)。
如所描繪的,源數(shù)據(jù)121可被大約存儲在某些類型的數(shù)據(jù)儲存庫中,諸如,例如, 文件、表格、數(shù)據(jù)庫等。源數(shù)據(jù)121可以是指定類型的數(shù)據(jù),諸如例如,客戶數(shù)據(jù)、員工數(shù)據(jù)、 郵寄地址數(shù)據(jù)、電話號碼數(shù)據(jù)、數(shù)學(xué)計算、統(tǒng)計數(shù)據(jù)、公司數(shù)據(jù)、財務(wù)數(shù)據(jù)、經(jīng)濟數(shù)據(jù)、地理數(shù)據(jù)等。
通常,數(shù)據(jù)質(zhì)量服務(wù)器103幫助用戶102探查不同參考數(shù)據(jù)服務(wù)提供者并比較數(shù)據(jù)質(zhì)量結(jié)果。樣本數(shù)據(jù)可被凈化并針對不同參考服務(wù)提供者剖析,以提高質(zhì)量。
域映射器104配置以接收樣本數(shù)據(jù)源并將樣本數(shù)據(jù)源映射到數(shù)據(jù)域。域映射器 104具有對定義各種不同數(shù)據(jù)域(諸如,例如數(shù)據(jù)域112A、112B、112C等)的數(shù)據(jù)的訪問。 每個數(shù)據(jù)域可以對應(yīng)于一種類型的數(shù)據(jù),諸如例如,客戶數(shù)據(jù)、員工數(shù)據(jù)、郵寄地址數(shù)據(jù)、電話號碼數(shù)據(jù)、數(shù)學(xué)計算、統(tǒng)計數(shù)據(jù)、公司數(shù)據(jù)、財務(wù)數(shù)據(jù)、經(jīng)濟數(shù)據(jù)、地理數(shù)據(jù)等。數(shù)據(jù)域也可以是對特定國家、區(qū)域、主題,或分類專用的。例如,美國郵寄地址的數(shù)據(jù)域可不同于英國郵寄地址的數(shù)據(jù)域。
在接收樣本數(shù)據(jù)源后,域映射器104可將所接收到的樣本數(shù)據(jù)源中數(shù)據(jù)元素的安排和/或格式與定義每個不同數(shù)據(jù)域的數(shù)據(jù)進行比較。在數(shù)據(jù)元素的安排和/或格式類似 (或匹配)于定義特定數(shù)據(jù)域的數(shù)據(jù)時,可為樣本數(shù)據(jù)源選擇該數(shù)據(jù)域。
服務(wù)提供者選擇模塊106配置用于接收數(shù)據(jù)域的指示,并標(biāo)識為該數(shù)據(jù)域凈化數(shù)據(jù)的數(shù)據(jù)凈化服務(wù)提供者的列表。服務(wù)提供者選擇模塊106可參考服務(wù)提供者數(shù)據(jù)庫113。 服務(wù)提供者數(shù)據(jù)庫113可為不同數(shù)據(jù)域維護數(shù)據(jù)凈化服務(wù)提供者的列表。服務(wù)提供者選擇模塊106可將數(shù)據(jù)域與服務(wù)提供者數(shù)據(jù)庫113中為該數(shù)據(jù)域凈化數(shù)據(jù)的多個數(shù)據(jù)凈化服務(wù)提供者進行匹配。服務(wù)提供者選擇模塊106可向計算機系統(tǒng)102返回多個數(shù)據(jù)凈化(例如, 在顯示設(shè)備上)供用戶102查看。
服務(wù)提供者查詢模塊107配置用于接收對一個或多個數(shù)據(jù)凈化服務(wù)提供者的用戶選擇。響應(yīng)于用戶選擇,服務(wù)提供者查詢模塊107將樣本數(shù)據(jù)源提交給一個或多個數(shù)據(jù)凈化服務(wù)提供者的每一個。
來自一個或多個數(shù)據(jù)凈化服務(wù)提供者的每一個的凈化結(jié)果被返回到結(jié)果剖析器 108。結(jié)果剖析器108剖析凈化結(jié)果。剖析可包括確定每個數(shù)據(jù)凈化服務(wù)提供者如何解決樣本數(shù)據(jù)源中的已知數(shù)據(jù)不一致性。結(jié)果剖析器108可生成服務(wù)提供者比較,以(例如,在顯示設(shè)備上)呈現(xiàn)給用戶。
圖2示出了用于標(biāo)識用于凈化數(shù)據(jù)的數(shù)據(jù)凈化服務(wù)提供者的示例方法200的流程圖。方法200將參考計算機體系結(jié)構(gòu)100的組件和數(shù)據(jù)來描述。
用戶101是計算機系統(tǒng)102的用戶。用戶101渴望尋找服務(wù)提供者以凈化源數(shù)據(jù) 121。因此,計算機102(按用戶101的指令)可將數(shù)據(jù)樣本111提交給數(shù)據(jù)質(zhì)量服務(wù)器103。 數(shù)據(jù)樣本111可以是源數(shù)據(jù)121的有代表性的部分或類似地格式化了的其他數(shù)據(jù)。樣本數(shù)據(jù)111可包括已知數(shù)據(jù)不一致性(例如,不完整數(shù)據(jù)、不正確數(shù)據(jù)、不準(zhǔn)確數(shù)據(jù)、不相關(guān)數(shù)據(jù)寸J ο
方法200包括將樣本數(shù)據(jù)源映射到所選數(shù)據(jù)域的動作,該數(shù)據(jù)域與具有指定的數(shù)據(jù)安排的數(shù)據(jù)元素相關(guān)聯(lián),樣本數(shù)據(jù)源具有已知的數(shù)據(jù)不一致性(動作201)。例如,域映射器104可接收數(shù)據(jù)樣本111。域映射器104基于數(shù)據(jù)樣本111中的數(shù)據(jù)元素的安排和內(nèi)容, 可為數(shù)據(jù)樣本111標(biāo)識合適的(例如,最接近地匹配的)數(shù)據(jù)域。例如,域映射器104可將數(shù)據(jù)樣本111映射到數(shù)據(jù)域1KB。
方法200包括提供配置用于凈化所選數(shù)據(jù)域中的數(shù)據(jù)的多個參考數(shù)據(jù)服務(wù)提供者的列表的動作(動作20 。例如,域映射器104可將數(shù)據(jù)域112B發(fā)送到服務(wù)提供者選擇模塊106。服務(wù)提供者選擇模塊106可參考服務(wù)提供者數(shù)據(jù)庫113,來獲取配置用于為數(shù)據(jù)域112B凈化數(shù)據(jù)的多個數(shù)據(jù)凈化服務(wù)提供者的列表。服務(wù)提供者選擇模塊106可將該多個數(shù)據(jù)凈化服務(wù)提供者的列表包括在服務(wù)提供者列表114中。服務(wù)提供者選擇模塊106可將服務(wù)提供者列表114發(fā)送到計算機系統(tǒng)102。
計算機系統(tǒng)102可接收服務(wù)提供者列表114。計算機系統(tǒng)102可將服務(wù)提供者列表114在顯示設(shè)備上顯示給用戶102。使用輸入裝置,用戶101可選擇一個或多個(可能全部)包括在服務(wù)提供者列表114中的數(shù)據(jù)凈化服務(wù)提供者,用于基于數(shù)據(jù)樣本111的探查。例如,用戶102可從服務(wù)提供者列表114中選擇服務(wù)提供者109A、109B,和109C。計算機102(按用戶101的指導(dǎo))可將服務(wù)提供者選擇發(fā)送回數(shù)據(jù)質(zhì)量服務(wù)器103。例如,計算機102可將服務(wù)提供者選擇116發(fā)送到數(shù)據(jù)質(zhì)量服務(wù)器103。服務(wù)提供者選擇116可標(biāo)識服務(wù)提供者109A、109B,和109C用于探查。
方法200包括接收對要被探查的多個參考數(shù)據(jù)服務(wù)提供者的子集的選擇的動作 (動作20 。例如,服務(wù)提供者查詢模塊107可接收服務(wù)提供者選擇116。
對于多個參考數(shù)據(jù)服務(wù)提供者的子集中的每個參考數(shù)據(jù)服務(wù)提供者,方法200包括將樣本數(shù)據(jù)源提交給參考數(shù)據(jù)服務(wù)提供者的動作(動作204)。例如,服務(wù)提供者查詢模塊可將數(shù)據(jù)樣本111提交給服務(wù)提供者109A、109B,和109C的每一個。
對于多個參考數(shù)據(jù)服務(wù)提供者的子集中的每個參考數(shù)據(jù)服務(wù)提供者,方法200包括從參考數(shù)據(jù)服務(wù)提供者接收回凈化樣本數(shù)據(jù)源的結(jié)果的動作,該結(jié)果包括從樣本數(shù)據(jù)源獲取的所謂已凈化的樣本數(shù)據(jù)源(動作205)。例如,結(jié)果剖析器108可從服務(wù)提供者109A、 109B,和109C分別接收凈化結(jié)果117A、117B,和117C。每個凈化結(jié)果117A、117B,和117C可包括從數(shù)據(jù)樣本111獲取的所謂已凈化了的數(shù)據(jù)樣本。
方法200包括剖析來自多個參考數(shù)據(jù)服務(wù)提供者的子集中的每個參考數(shù)據(jù)服務(wù)提供者的結(jié)果的動作,包括確定每個參考數(shù)據(jù)服務(wù)提供者如何處理樣本數(shù)據(jù)源中的已知數(shù)據(jù)不一致性(動作206)。例如,結(jié)果剖析器108可剖析凈化結(jié)果117A、117B,和117C的每一個。從結(jié)果117A、117B,和117C,結(jié)果剖析器108可確定服務(wù)提供者109A、109B,和109C 的每一個如何分別處理數(shù)據(jù)樣本111中的已知數(shù)據(jù)不一致性。
剖析凈化結(jié)果可包括以下各項中的一個或多個標(biāo)識凈化結(jié)果中的假否定(未解決的不一致性),標(biāo)識凈化結(jié)果中的假肯定(對一致數(shù)據(jù)的改變),并確定是否包括補充的豐富數(shù)據(jù)(例如地理編碼數(shù)據(jù))。
從已剖析的結(jié)果,結(jié)果剖析器108可為每個數(shù)據(jù)凈化服務(wù)提供者生成服務(wù)質(zhì)量值。例如,結(jié)果剖析器108可從剖析的結(jié)果117A、117B,和117C為每個服務(wù)提供者109A、 109B,和109C分別生成服務(wù)質(zhì)量值。服務(wù)質(zhì)量值提供服務(wù)提供者凈化數(shù)據(jù)樣本111有多好的總體評級。
結(jié)果剖析器108可在服務(wù)提供者比較118中包括每個服務(wù)提供者109A、109B,和 109C的服務(wù)質(zhì)量值和可能的其他剖析數(shù)據(jù)。結(jié)果剖析器108可將服務(wù)提供者比較118發(fā)送到計算機系統(tǒng)102。
方法200包括將多個參考數(shù)據(jù)服務(wù)提供者的子集間的比較顯示在顯示設(shè)備上的動作,所顯示的比較基于剖析結(jié)果(動作207)。例如,計算機系統(tǒng)102可將服務(wù)提供者比較 118在顯示設(shè)備上顯示給用戶101。
方法200包括從所顯示的比較接收用戶對參考數(shù)據(jù)服務(wù)提供者的選擇的動作,所選參考數(shù)據(jù)服務(wù)提供者被指示為適合凈化數(shù)據(jù)域中的進一步的數(shù)據(jù)(動作208)。例如,計算機系統(tǒng)102可以從用戶102接收服務(wù)提供者選擇119。服務(wù)提供者選擇119可指示服務(wù)提供者109C被選來凈化源數(shù)據(jù)121。
響應(yīng)于服務(wù)提供者選擇119或在某些其他時間,計算機系統(tǒng)102可將源數(shù)據(jù)121 提交給服務(wù)提供者109C。服務(wù)提供者109C可凈化源數(shù)據(jù)121以生成已凈化數(shù)據(jù)122。服務(wù)提供者109C可返回已凈化數(shù)據(jù)122。已凈化數(shù)據(jù)123可被合并回源數(shù)據(jù)121中。
因此,本發(fā)明的實施例允許用戶探查不同的數(shù)據(jù)凈化服務(wù)提供者,并以提高了的自動化來比較來自不同的數(shù)據(jù)凈化服務(wù)提供者的質(zhì)量結(jié)果。本發(fā)明可具體化為其它具體形式而不背離其精神或本質(zhì)特征。所描述的實施例在所有方面都應(yīng)被認(rèn)為僅是說明性而非限制性的。因此,本發(fā)明的范圍由所附權(quán)利要求書而非前述描述指示。落入權(quán)利要求書的等效方案的含義和范圍內(nèi)的所有改變被權(quán)利要求書的范圍所涵蓋。
權(quán)利要求
1.在包括一個或多個處理器、系統(tǒng)存儲器,和顯示設(shè)備的計算機系統(tǒng)處,一種用于標(biāo)識用于凈化數(shù)據(jù)的參考數(shù)據(jù)服務(wù)提供者的方法,所述計算機系統(tǒng)還包括數(shù)據(jù)質(zhì)量模塊,所述方法包括將樣本數(shù)據(jù)源(111)映射到所選數(shù)據(jù)域(112B)的動作,所述數(shù)據(jù)域(112B)與具有指定的數(shù)據(jù)安排的數(shù)據(jù)元素相關(guān)聯(lián),所述樣本數(shù)據(jù)源具有已知的數(shù)據(jù)不一致性;提供配置用于凈化所述所選數(shù)據(jù)域(112B)中的數(shù)據(jù)的多個參考數(shù)據(jù)服務(wù)提供者的列表(114)的動作;接收對要被探查的多個參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C)的子集的選擇(116) 的動作;對于所述多個數(shù)據(jù)服務(wù)提供者(109A,109B,109C)的所述子集中的每個參考數(shù)據(jù)服務(wù)提供者將所述樣本數(shù)據(jù)源(111)提交給參考數(shù)據(jù)服務(wù)提供者(109A,109B, 109C)的動作;以及從所述參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C)接收回凈化所述樣本數(shù)據(jù)(111)源的結(jié)果(117A,117B,117C)的動作,所述結(jié)果(117A,117B,117C)包括從所述樣本數(shù)據(jù)源獲取所謂已凈化了的樣本數(shù)據(jù)源;剖析(117A,117B,117C)來自所述多個參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C)的所述子集中的每個參考數(shù)據(jù)服務(wù)提供者的結(jié)果的動作,包括確定每個參考數(shù)據(jù)服務(wù)提供者如何處理所述樣本數(shù)據(jù)源中的已知數(shù)據(jù)不一致性;將所述多個參考數(shù)據(jù)服務(wù)提供者的所述子集間的比較(118)顯示在顯示設(shè)備上的動作,所顯示的比較(118)基于剖析結(jié)果;以及從所顯示的比較接收對參考數(shù)據(jù)服務(wù)提供者的用戶選擇(119)的動作,所選參考數(shù)據(jù)服務(wù)提供者被指示為適合凈化所述數(shù)據(jù)域中的進一步的數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其特征在于,將樣本數(shù)據(jù)源映射到所選數(shù)據(jù)域的動作包括映射到從以下選出的數(shù)據(jù)域的動作客戶數(shù)據(jù)、員工數(shù)據(jù)、郵寄地址數(shù)據(jù)、電話號碼數(shù)據(jù)、 數(shù)學(xué)計算、統(tǒng)計數(shù)據(jù)、公司數(shù)據(jù)、財務(wù)數(shù)據(jù)、經(jīng)濟數(shù)據(jù),和地理數(shù)據(jù)。
3.如權(quán)利要求1所述的方法,其特征在于,將樣本數(shù)據(jù)源映射到所選數(shù)據(jù)域的動作包括映射到對特定國家、區(qū)域、主題,或分類專用的數(shù)據(jù)域的動作。
4.如權(quán)利要求1所述的方法,其特征在于,提供配置用于凈化所述所選數(shù)據(jù)域中的數(shù)據(jù)的多個參考數(shù)據(jù)服務(wù)提供者的列表的動作,包括提供配置用于凈化從以下選出的所選數(shù)據(jù)域中的數(shù)據(jù)的多個參考數(shù)據(jù)服務(wù)提供者的列表的動作客戶數(shù)據(jù)、員工數(shù)據(jù)、郵寄地址數(shù)據(jù)、電話號碼數(shù)據(jù)、數(shù)學(xué)計算、統(tǒng)計數(shù)據(jù)、公司數(shù)據(jù)、財務(wù)數(shù)據(jù)、經(jīng)濟數(shù)據(jù),和地理數(shù)據(jù)。
5.如權(quán)利要求1所述的方法,其特征在于,剖析來自所述多個服務(wù)提供者的所述子集中的每個參考數(shù)據(jù)服務(wù)提供者的結(jié)果的動作,包括確定來自所述每個參考數(shù)據(jù)服務(wù)提供者的假否定的數(shù)量的動作。
6.如權(quán)利要求1所述的方法,其特征在于,剖析來自所述多個服務(wù)提供者的所述子集中的每個參考數(shù)據(jù)服務(wù)提供者的結(jié)果的動作,包括確定來自所述每個參考數(shù)據(jù)服務(wù)提供者的假肯定的數(shù)量的動作。
7.如權(quán)利要求1所述的方法,其特征在于,剖析來自所述多個參考數(shù)據(jù)服務(wù)提供者的所述子集中的每個參考數(shù)據(jù)服務(wù)提供者的結(jié)果的動作,包括確定所述參考數(shù)據(jù)服務(wù)提供者的任何一個是否用其他數(shù)據(jù)豐富了所述結(jié)果的動作。
8.一種供在計算機處使用的計算機程序產(chǎn)品,所述計算機系統(tǒng)包括數(shù)據(jù)質(zhì)量模塊,所述計算機程序產(chǎn)品用于實現(xiàn)一種用于標(biāo)識用于凈化數(shù)據(jù)的參考數(shù)據(jù)服務(wù)提供者的方法,所述計算機程序產(chǎn)品包括其上存儲有計算機可執(zhí)行指令的一個或多個計算機存儲設(shè)備,所述指令在處理器處執(zhí)行時,使得所述計算機系統(tǒng)執(zhí)行所述方法,包括以下將樣本數(shù)據(jù)源(111)映射到所選數(shù)據(jù)域(U2B),所述數(shù)據(jù)域(112B)與具有指定的數(shù)據(jù)安排的數(shù)據(jù)元素相關(guān)聯(lián),所述樣本數(shù)據(jù)源具有已知的數(shù)據(jù)不一致性;提供配置用于凈化所述所選數(shù)據(jù)域(112B)中的數(shù)據(jù)的多個參考數(shù)據(jù)服務(wù)提供者的列表(114);接收對要被探查的多個參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C)的子集的選擇(116);對于所述多個數(shù)據(jù)服務(wù)提供者(109A,109B,109C)的所述子集中的每個參考數(shù)據(jù)服務(wù)提供者將所述樣本數(shù)據(jù)源(111)提交給所述參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C);以及從所述參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C)接收回凈化所述樣本數(shù)據(jù)(111)源的結(jié)果(117A,117B,117C),所述結(jié)果(117A,117B,117C)包括從所述樣本數(shù)據(jù)源獲取所謂已凈化了的樣本數(shù)據(jù)源;剖析(117A,117B,117C)來自所述多個參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C)的所述子集中的每個參考數(shù)據(jù)服務(wù)提供者的結(jié)果,包括確定每個參考數(shù)據(jù)服務(wù)提供者如何處理所述樣本數(shù)據(jù)源中的已知數(shù)據(jù)不一致性;將所述多個參考數(shù)據(jù)服務(wù)提供者的所述子集間的比較(118)顯示在顯示設(shè)備上,所顯示的比較(118)基于剖析結(jié)果;以及從所顯示的比較接收對參考數(shù)據(jù)服務(wù)提供者的用戶選擇(119),所選參考數(shù)據(jù)服務(wù)提供者被指示為適合凈化所述數(shù)據(jù)域中的進一步的數(shù)據(jù)。
9.如權(quán)利要求8所述的計算機程序產(chǎn)品,其特征在于,在被執(zhí)行時使得所述計算機系統(tǒng)將樣本數(shù)據(jù)源映射到所選數(shù)據(jù)域的計算機可執(zhí)行指令包括,在被執(zhí)行時使得所述計算機系統(tǒng)映射到選自以下的數(shù)據(jù)域的計算機可執(zhí)行指令客戶數(shù)據(jù)、員工數(shù)據(jù)、郵寄地址數(shù)據(jù)、 電話號碼數(shù)據(jù)、數(shù)學(xué)計算、統(tǒng)計數(shù)據(jù)、公司數(shù)據(jù)、財務(wù)數(shù)據(jù)、經(jīng)濟數(shù)據(jù),和地理數(shù)據(jù)。
10.如權(quán)利要求8所述的計算機程序產(chǎn)品,其特征在于,在被執(zhí)行時使得所述計算機系統(tǒng)將樣本數(shù)據(jù)源映射到所選數(shù)據(jù)域的計算機可執(zhí)行指令包括,在被執(zhí)行時使得所述計算機系統(tǒng)映射到對特定國家、區(qū)域、主題,或分類專用的數(shù)據(jù)域的計算機可執(zhí)行指令。
11.如權(quán)利要求8所述的計算機程序產(chǎn)品,其特征在于,在被執(zhí)行時使得所述計算機系統(tǒng)提供配置用于凈化所述所選數(shù)據(jù)域中的數(shù)據(jù)的多個參考數(shù)據(jù)服務(wù)提供者的列表的計算機可執(zhí)行指令包括,在被執(zhí)行時使得所述計算機系統(tǒng)提供配置用于凈化所選數(shù)據(jù)域中的數(shù)據(jù)的多個參考數(shù)據(jù)服務(wù)提供者的列表的計算機可執(zhí)行指令,所述數(shù)據(jù)域選自以下客戶數(shù)據(jù)、員工數(shù)據(jù)、郵寄地址數(shù)據(jù)、電話號碼數(shù)據(jù)、數(shù)學(xué)計算、統(tǒng)計數(shù)據(jù)、公司數(shù)據(jù)、財務(wù)數(shù)據(jù)、經(jīng)濟數(shù)據(jù),和地理數(shù)據(jù)。
12.如權(quán)利要求8所述的計算機程序產(chǎn)品,其特征在于,在被執(zhí)行時使得所述計算機系統(tǒng)剖析來自所述多個參考數(shù)據(jù)服務(wù)提供者的所述子集中的每個參考數(shù)據(jù)服務(wù)提供者的結(jié)果的計算機可執(zhí)行指令包括,在被執(zhí)行時使得所述計算機系統(tǒng)確定來自所述每個參考數(shù)據(jù)服務(wù)提供者的假否定的數(shù)量的計算機可執(zhí)行指令。
13.如權(quán)利要求8所述的計算機程序產(chǎn)品,其特征在于,在被執(zhí)行時使得所述計算機系統(tǒng)剖析來自所述多個參考數(shù)據(jù)服務(wù)提供者的所述子集中的每個參考數(shù)據(jù)服務(wù)提供者的結(jié)果的計算機可執(zhí)行指令包括,在被執(zhí)行時使得所述計算機系統(tǒng)確定來自所述每個參考數(shù)據(jù)數(shù)據(jù)服務(wù)提供者的假肯定的數(shù)量的計算機可執(zhí)行指令。
14.如權(quán)利要求8所述的計算機程序產(chǎn)品,其特征在于,在被執(zhí)行時使得所述計算機系統(tǒng)剖析來自所述多個參考數(shù)據(jù)服務(wù)提供者的所述子集中的每個參考數(shù)據(jù)服務(wù)提供者的結(jié)果的計算機可執(zhí)行指令包括,在被執(zhí)行時使得所述計算機系統(tǒng)確定所述參考數(shù)據(jù)服務(wù)提供者的任何一個是否用其他數(shù)據(jù)豐富了所述結(jié)果的計算機可執(zhí)行指令。
15.一種數(shù)據(jù)凈化系統(tǒng),所述數(shù)據(jù)凈化系統(tǒng)包括用戶計算機系統(tǒng)(102),所述用戶計算機系統(tǒng)(102)包括一個或多個處理器和系統(tǒng)存儲器;多個參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C),每個數(shù)據(jù)凈化服務(wù)提供者(109A,109B, 109C)配置用于凈化指定數(shù)據(jù)域(112A,112B,112C)中的數(shù)據(jù);以及數(shù)據(jù)凈化服務(wù)器(103),所述數(shù)據(jù)凈化服務(wù)器包括 一個或多個處理器; 系統(tǒng)存儲器;以及一個或更多個其上存儲有計算機可執(zhí)行指令的計算機存儲設(shè)備,代表域映射(104)、服務(wù)提供者選擇模塊(106)、服務(wù)提供者查詢模塊(107),以及結(jié)果剖析器(108),其中所述域映射器(104)配置用于從所述用戶計算機系統(tǒng)(10 接收樣本數(shù)據(jù)源(111);將所述樣本數(shù)據(jù)源(111)映射到所選數(shù)據(jù)域(112B),所述數(shù)據(jù)域(112B)與具有指定的數(shù)據(jù)安排的數(shù)據(jù)元素相關(guān)聯(lián),所述樣本數(shù)據(jù)源具有已知的數(shù)據(jù)不一致性;以及將所選數(shù)據(jù)域(112B)發(fā)送到所述服務(wù)提供者選擇模塊(106); 其中所述服務(wù)提供者選擇模塊(106)配置用于 從所述域映射器(104)接收所述所選數(shù)據(jù)域(112);參考服務(wù)提供者數(shù)據(jù)庫(113),以從被配置來凈化所述所選數(shù)據(jù)域(112B)中的數(shù)據(jù)的多個數(shù)據(jù)凈化服務(wù)提供者中標(biāo)識參考數(shù)據(jù)服務(wù)提供者列表;將所述參考數(shù)據(jù)服務(wù)提供者列表(114)提供給所述用戶計算機系統(tǒng)(102); 其中所述服務(wù)提供者查詢模塊(107)配置用于 從所述用戶計算機系統(tǒng)接收樣本數(shù)據(jù)源(111);從所述參考數(shù)據(jù)服務(wù)提供者列表(114)接收參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C) 的子集的選擇,參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C)的所選子集標(biāo)識要被探查的參考數(shù)據(jù)服務(wù)提供者;對于參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C)的子集中的每個參考數(shù)據(jù)服務(wù)提供者, 將所述樣本數(shù)據(jù)源提交給所述參考數(shù)據(jù)服務(wù)提供者(109A,109B, 109C); 其中所述結(jié)果剖析器被配置成對于參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C)的子集中的每個參考數(shù)據(jù)服務(wù)提供者, 從所述參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C)接收回凈化所述樣本數(shù)據(jù)源(111)的結(jié)果(117A,117B, 117C),所述結(jié)果包括從所述樣本數(shù)據(jù)源獲取的所謂已凈化了的樣本數(shù)據(jù)源;剖析來自所述參考數(shù)據(jù)服務(wù)提供者(109A,109B,109C)的所述子集中的每個參考數(shù)據(jù)服務(wù)提供者的結(jié)果,包括確定每個服務(wù)提供者如何處理所述樣本數(shù)據(jù)源(111)中的已知數(shù)據(jù)不一致性;基于所剖析的結(jié)果,生成參考數(shù)據(jù)服務(wù)提供者的子集間的比較(118);以及將所述比較(118)發(fā)送到所述用戶計算機系統(tǒng)(102)。
全文摘要
本發(fā)明揭示了比較并選擇數(shù)據(jù)凈化服務(wù)提供者。本發(fā)明涉及用于探查并選擇數(shù)據(jù)凈化服務(wù)提供者的方法、系統(tǒng)和計算機程序產(chǎn)品。本發(fā)明的實施例允許用戶探查不同的數(shù)據(jù)凈化服務(wù)提供者,并比較來自不同的數(shù)據(jù)凈化服務(wù)提供者的質(zhì)量結(jié)果。樣本數(shù)據(jù)被映射到指定數(shù)據(jù)域。向用戶提供用于為所選數(shù)據(jù)域凈化數(shù)據(jù)的服務(wù)提供者列表。用戶選擇服務(wù)提供者子集。樣本數(shù)據(jù)被提交給服務(wù)提供者子集,該服務(wù)提供者子集返回包括所謂已凈化了的數(shù)據(jù)的結(jié)果。剖析結(jié)果,并將服務(wù)提供者子集的比較呈現(xiàn)給用戶。當(dāng)凈化進一步的數(shù)據(jù)時,用戶選擇一個服務(wù)提供者來使用。
文檔編號G06F17/30GK102521226SQ20111030776
公開日2012年6月27日 申請日期2011年9月28日 優(yōu)先權(quán)日2010年9月29日
發(fā)明者E·胡迪斯, E·齊克利克, G·皮萊格, N·哈比 申請人:微軟公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
五家渠市| 宜宾市| 黑龙江省| 定边县| 且末县| 新邵县| 安溪县| 永和县| 资阳市| 宁明县| 昌平区| 吴忠市| 新余市| 临夏市| 县级市| 永修县| 永川市| 宜章县| 灵武市| 金沙县| 大厂| 墨竹工卡县| 甘德县| 甘谷县| 高雄县| 炎陵县| 北海市| 拜城县| 宜城市| 大悟县| 禄劝| 南和县| 慈利县| 南木林县| 毕节市| 昌宁县| 平潭县| 孝义市| 安乡县| 翼城县| 沛县|