本發(fā)明涉及地理信息系統(tǒng),具體涉及一種基于商事登記地址的數(shù)據(jù)治理方法。
背景技術(shù):
1、地址分詞技術(shù)是自然語言處理(nlp)的一部分,旨在將連續(xù)的地址文本切分為有意義的地址組成部分,如省、市、區(qū)、街道、門牌號等,現(xiàn)有的地址分詞技術(shù)主要包括基于規(guī)則的方法、統(tǒng)計方法和基于深度學(xué)習(xí)的方法。
2、基于規(guī)則的方法:該方法利用預(yù)定義的規(guī)則庫和統(tǒng)計模型對地址文本進(jìn)行分詞,規(guī)則庫包含大量的地址詞典和分詞規(guī)則,通過匹配規(guī)則和詞典條目實現(xiàn)地址分詞,這種方法簡單直觀,但維護(hù)成本高,且難以適應(yīng)多樣化的地址表達(dá)形式。
3、基于統(tǒng)計的方法:例如,使用隱馬爾可夫模型(hmm)和條件隨機場(crf)等統(tǒng)計模型進(jìn)行地址分詞,這些方法通過學(xué)習(xí)大量標(biāo)注數(shù)據(jù)中的統(tǒng)計規(guī)律,對新地址文本進(jìn)行分詞,雖然統(tǒng)計方法較規(guī)則方法更具靈活性,但其分詞效果依賴于訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量。
4、基于深度學(xué)習(xí)的方法:該方法利用深度神經(jīng)網(wǎng)絡(luò)(如lstm、bilstm、transformer等)對地址文本進(jìn)行分詞,具有較高的準(zhǔn)確性和泛化能力,然而,深度學(xué)習(xí)模型的訓(xùn)練需要大量的標(biāo)注數(shù)據(jù),且計算資源消耗較大。
5、地址標(biāo)準(zhǔn)化技術(shù)旨在將多樣化、非標(biāo)準(zhǔn)化的地址數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的、規(guī)范的地址格式,確保地址數(shù)據(jù)的一致性和準(zhǔn)確性,現(xiàn)有的地址標(biāo)準(zhǔn)化技術(shù)主要包括基于模板匹配的方法和基于機器學(xué)習(xí)的方法。
6、基于模板匹配的方法:這種方法通過預(yù)定義的地址標(biāo)準(zhǔn)化模板,將輸入的非標(biāo)準(zhǔn)化地址匹配到模板中,并進(jìn)行格式轉(zhuǎn)換,這種方法實現(xiàn)簡單,但模板的設(shè)計和維護(hù)較為復(fù)雜,且難以處理模板外的地址表達(dá)。
7、基于機器學(xué)習(xí)的方法:例如,使用決策樹、支持向量機(svm)和神經(jīng)網(wǎng)絡(luò)等機器學(xué)習(xí)模型進(jìn)行地址標(biāo)準(zhǔn)化,這些方法通過學(xué)習(xí)大量標(biāo)準(zhǔn)化地址數(shù)據(jù),自動生成標(biāo)準(zhǔn)化規(guī)則,對新地址數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,機器學(xué)習(xí)方法具有較好的靈活性和適應(yīng)性,但需要大量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練。
8、佛山本地地址數(shù)據(jù)冗余和不規(guī)范:大量地址數(shù)據(jù)存在冗余、不規(guī)范和錯誤信息,并且行政區(qū)劃變化較為頻繁,影響了存量地址庫中地理編碼和位置服務(wù)的準(zhǔn)確性。
9、規(guī)則庫維護(hù)成本高:基于規(guī)則的地址分詞和標(biāo)準(zhǔn)化方法需要不斷更新和維護(hù)規(guī)則庫,增加了復(fù)雜度和成本。
10、處理多樣化地址表達(dá)的能力有限:現(xiàn)有方法在處理不同格式和表達(dá)方式的地址時,準(zhǔn)確性和魯棒性較差。
11、訓(xùn)練數(shù)據(jù)需求量大:基于深度學(xué)習(xí)的地址分詞和標(biāo)準(zhǔn)化方法需要大量的標(biāo)注數(shù)據(jù),增加了模型訓(xùn)練的難度。
12、目前市面上的地址服務(wù)商提供的地址治理服務(wù)基于的地址分級標(biāo)準(zhǔn)各不一致,并且每個服務(wù)商的標(biāo)準(zhǔn)地址庫數(shù)據(jù)范圍過于廣泛,導(dǎo)致現(xiàn)有的地址治理算法無法準(zhǔn)確、細(xì)致地區(qū)分佛山本地的各大小地名,這種局限性主要表現(xiàn)在地址解析和標(biāo)準(zhǔn)化過程中,算法難以針對本地特有的地名、地方性表達(dá)以及行政區(qū)劃變化進(jìn)行有效處理,導(dǎo)致解析結(jié)果不準(zhǔn)確,影響了實際應(yīng)用的效果,因此提出一種基于商事登記地址的數(shù)據(jù)治理方法,來為佛山本地地名進(jìn)行全面的語料庫收集,通過大規(guī)模地收集和整理佛山地區(qū)的地名、街道名稱、社區(qū)信息及其常見表達(dá)方式,構(gòu)建一個詳盡的本地化地址數(shù)據(jù)庫,在此基礎(chǔ)上,利用先進(jìn)的人工智能深度學(xué)習(xí)算法,對該語料庫進(jìn)行訓(xùn)練,以建立一個專門針對佛山地區(qū)的地址治理模型,通過對本地化數(shù)據(jù)的深度學(xué)習(xí),能夠更準(zhǔn)確地識別和分級佛山本地的各類地名,顯著提高地址解析和標(biāo)準(zhǔn)化的準(zhǔn)確度和細(xì)致度,此外,模型的分級算法也能夠更靈活地適應(yīng)佛山本地的地址體系,確保在處理復(fù)雜地址結(jié)構(gòu)時能給出最符合實際的結(jié)果。
技術(shù)實現(xiàn)思路
1、針對現(xiàn)有技術(shù)中的問題,本發(fā)明提供了一種基于商事登記地址的數(shù)據(jù)治理方法,便于為佛山本地地名進(jìn)行全面的語料庫收集,通過大規(guī)模地收集和整理佛山地區(qū)的地名、街道名稱、社區(qū)信息及其常見表達(dá)方式,構(gòu)建一個詳盡的本地化地址數(shù)據(jù)庫,在此基礎(chǔ)上,利用先進(jìn)的人工智能深度學(xué)習(xí)算法,對該語料庫進(jìn)行訓(xùn)練,以建立一個專門針對佛山地區(qū)的地址治理模型,通過對本地化數(shù)據(jù)的深度學(xué)習(xí),能夠更準(zhǔn)確地識別和分級佛山本地的各類地名,顯著提高地址解析和標(biāo)準(zhǔn)化的準(zhǔn)確度和細(xì)致度,此外,模型的分級算法也能夠更靈活地適應(yīng)佛山本地的地址體系,確保在處理復(fù)雜地址結(jié)構(gòu)時能給出最符合實際的結(jié)果。
2、本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是一種基于商事登記地址的數(shù)據(jù)治理方法,包括以下具體步驟:
3、步驟一:構(gòu)建一個具有高度兼容的系統(tǒng)和能夠通過標(biāo)準(zhǔn)化接口進(jìn)行調(diào)用的標(biāo)準(zhǔn)地址數(shù)據(jù)庫,且標(biāo)準(zhǔn)地址數(shù)據(jù)庫存有當(dāng)?shù)匾欢〝?shù)量的標(biāo)準(zhǔn)地址,用于支持地址治理算法模型的開發(fā),旨在為算法訓(xùn)練提供高質(zhì)量、豐富的語料資源,確保模型能夠在各種復(fù)雜情況下實現(xiàn)準(zhǔn)確的地址解析和標(biāo)準(zhǔn)化處理;
4、步驟二:使用roberta模型算法作為ai算法訓(xùn)練模塊,并從標(biāo)準(zhǔn)地址數(shù)據(jù)庫中抽取一端比例的地址作為roberta模型算法的訓(xùn)練集和測試集,在抽取過程中,需要確保數(shù)據(jù)的多樣性和代表性,以覆蓋盡可能多的地址表達(dá)形式和不同地域的地址特點,以驗證模型的泛化能力;
5、步驟三:準(zhǔn)備好包括訓(xùn)練集和測試集的語料褲,進(jìn)行包括地址文本的清洗、標(biāo)注和分詞等步驟的數(shù)據(jù)預(yù)處理,形成數(shù)據(jù)湖,確保數(shù)據(jù)格式符合roberta模型的輸入要求,使用預(yù)處理后的數(shù)據(jù)對roberta模型進(jìn)行訓(xùn)練,通過多輪迭代優(yōu)化模型參數(shù),利用交叉驗證和超參數(shù)調(diào)優(yōu)技術(shù),提高模型的準(zhǔn)確性和魯棒性,形成地址標(biāo)準(zhǔn)化算法;
6、步驟四:訓(xùn)練完成后,將以roberta模型算法訓(xùn)練的地址標(biāo)準(zhǔn)化算法模型部署到服務(wù)器,并通過設(shè)置算法的api接口,該接口能夠接收輸入的地址數(shù)據(jù),調(diào)用訓(xùn)練好的roberta模型進(jìn)行處理,返回標(biāo)準(zhǔn)化后的地址結(jié)果。
7、具體的,所述步驟二中訓(xùn)練集和測試集的比例為80%的數(shù)據(jù)用于訓(xùn)練,20%的數(shù)據(jù)用于測試。
8、具體的,所述步驟一中的地質(zhì)數(shù)據(jù)需要進(jìn)行數(shù)據(jù)標(biāo)注,形成標(biāo)準(zhǔn)化地質(zhì)。
9、具體的,所述api接口提供地址解析、地址分詞補全和標(biāo)準(zhǔn)化服務(wù)。
10、具體的,所述訓(xùn)練好的roberta模型采用負(fù)載均衡和緩存技術(shù),支持高并發(fā)請求,并定期更新模型和數(shù)據(jù)庫,以保持?jǐn)?shù)據(jù)的最新和準(zhǔn)確。
11、本發(fā)明的有益效果:將不同的地址描述轉(zhuǎn)化為同一標(biāo)準(zhǔn)地址描述,方便根據(jù)地址進(jìn)行聚合計算,更好發(fā)現(xiàn)地址動態(tài)規(guī)律,助力各種需求場景的數(shù)據(jù)挖掘需求,同時該技術(shù)算法提供補充缺失地址級別的功能,算法會關(guān)聯(lián)相關(guān)的應(yīng)用數(shù)據(jù)庫,并集成第三方地址標(biāo)準(zhǔn)化接口,對空缺的地址級別信息進(jìn)行補全,利用標(biāo)準(zhǔn)化語料庫、地址匹配技術(shù)和語義識別轉(zhuǎn)換技術(shù),將數(shù)據(jù)湖中的地址數(shù)據(jù)進(jìn)行清洗,將海量數(shù)據(jù)中同一地址的多種不同自然語言描述標(biāo)準(zhǔn)化,其中包括同音字、錯別字等類別的標(biāo)準(zhǔn)化,并將不符合標(biāo)準(zhǔn)的地名轉(zhuǎn)換成標(biāo)準(zhǔn)化名稱,與以往的地址模型算法相比,本算法模型在訓(xùn)練時僅使用佛山本地地名作為語料庫,這種針對性的數(shù)據(jù)選擇使得算法能夠更好地理解和處理佛山地區(qū)的地址特點,包括本地的地名、街道名稱、行政區(qū)劃和常見的地址表達(dá)方式,通過這種本地化的訓(xùn)練方法,模型在進(jìn)行佛山地址的分詞和標(biāo)準(zhǔn)化處理時,能夠顯著提高準(zhǔn)確性,專門針對佛山地區(qū)的算法模型,我們不僅提升了在本地使用算法進(jìn)行地址治理的精度和效率,還為本地政府和企業(yè)提供了更加可靠和精準(zhǔn)的地理信息服務(wù),此舉將有助于優(yōu)化城市管理、提高物流配送效率、增強位置服務(wù)的準(zhǔn)確性,并推動佛山智慧城市建設(shè)的進(jìn)程,通過自然語言處理(nlp)技術(shù),對復(fù)雜地址信息進(jìn)行分詞、標(biāo)準(zhǔn)化和驗證,適用于地理編碼、地址匹配、位置服務(wù)和大規(guī)模地址數(shù)據(jù)處理等應(yīng)用場景,為佛山本地地名進(jìn)行全面的語料庫收集,通過大規(guī)模地收集和整理佛山地區(qū)的地名、街道名稱、社區(qū)信息及其常見表達(dá)方式,構(gòu)建一個詳盡的本地化地址數(shù)據(jù)庫,在此基礎(chǔ)上,利用先進(jìn)的人工智能深度學(xué)習(xí)算法,對該語料庫進(jìn)行訓(xùn)練,以建立一個專門針對佛山地區(qū)的地址治理模型,通過對本地化數(shù)據(jù)的深度學(xué)習(xí),能夠更準(zhǔn)確地識別和分級佛山本地的各類地名,顯著提高地址解析和標(biāo)準(zhǔn)化的準(zhǔn)確度和細(xì)致度,此外,模型的分級算法也能夠更靈活地適應(yīng)佛山本地的地址體系,確保在處理復(fù)雜地址結(jié)構(gòu)時能給出最符合實際的結(jié)果,解決現(xiàn)有市面上的地址服務(wù)商提供的地址治理服務(wù)基于的地址分級標(biāo)準(zhǔn)各不一致,并且每個服務(wù)商的標(biāo)準(zhǔn)地址庫數(shù)據(jù)范圍過于廣泛,導(dǎo)致現(xiàn)有的地址治理算法無法準(zhǔn)確、細(xì)致地區(qū)分佛山本地的各大小地名,這種局限性主要表現(xiàn)在地址解析和標(biāo)準(zhǔn)化過程中,算法難以針對本地特有的地名、地方性表達(dá)以及行政區(qū)劃變化進(jìn)行有效處理,導(dǎo)致解析結(jié)果不準(zhǔn)確,影響了實際應(yīng)用的效果,無法滿足對現(xiàn)有佛山本地地址數(shù)據(jù)冗余和不規(guī)范:大量地址數(shù)據(jù)存在冗余、不規(guī)范和錯誤信息,并且行政區(qū)劃變化較為頻繁,影響了存量地址庫中地理編碼和位置服務(wù)的準(zhǔn)確性的問題。