本公開涉及數(shù)據(jù)處理,特別涉及一種社會治理文本的處理方法、裝置、電子設備及存儲介質(zhì)。
背景技術:
1、當前,相關部門為了提升社會治理能力、化解社會矛盾,開設了多種獲取民意和民情信息的渠道,其中民生服務熱線是廣大市民表達訴求的重要渠道。各省市縣自民生服務熱線平臺開通以來積累了大量的民生熱線數(shù)據(jù),這些信息主要包括上報事件發(fā)生的時間、地點和內(nèi)容,蘊含了豐富的當?shù)厣鐣狳c信息,為面向社會治理的文本數(shù)據(jù)分析與挖掘提供了豐富的數(shù)據(jù)挖掘資源。
2、但是,投訴文本數(shù)據(jù)通常為短文本,數(shù)據(jù)稀疏性問題比較嚴重;投訴內(nèi)容一般是由政務人員手動錄入,存在表達不規(guī)范、不統(tǒng)一等問題,還會存在錯別字等噪音;另外,隨著民生服務水平的提高,數(shù)據(jù)量隨之增多。基于上述,人工分析投訴文本數(shù)據(jù)的難度增大,大量的非結構化數(shù)據(jù)的隱藏問題也難以手動挖掘。相關技術中沒有能夠?qū)⒎墙Y構化數(shù)據(jù)轉(zhuǎn)化為結構化數(shù)據(jù),并將這些文本數(shù)據(jù)轉(zhuǎn)化為合理的知識表示的技術手段。
技術實現(xiàn)思路
1、為了解決上述技術問題中的至少一個,本公開提供了一種社會治理文本的處理方法、裝置、電子設備及存儲介質(zhì)。
2、根據(jù)本公開的一個方面提出了一種社會治理文本的處理方法,包括:基于自定義詞典,對各個社會治理文本分別進行預處理,獲取社會治理文本對應的民生特征數(shù)據(jù);調(diào)用文檔主題生成模型對民生特征數(shù)據(jù)進行分析,生成關于社會治理文本的民生分析信息,其中民生分析信息至少包括各個社會治理文本所關聯(lián)的民生主題、民生分詞在民生主題上的分布概率以及各個社會治理文本在民生主題上的分布概率;以及根據(jù)民生分析信息,構建便于讀取的展示頁面。
3、在一些實施方式中,所述基于自定義詞典,對各個社會治理文本分別進行預處理,獲取所述社會治理文本對應的民生特征數(shù)據(jù),包括:對所述社會治理文本進行清洗,至少去除所述社會治理文本中的空缺值、重復值、噪音數(shù)據(jù)和冗余數(shù)據(jù),獲得干凈文本;基于所述自定義詞典,對所述干凈文本進行分詞處理,構建由多個所述民生關鍵詞形成的語料庫;以及將各個所述社會治理文本及相應的所述語料庫進行矩陣形式轉(zhuǎn)換,以構建由文本矩陣和分詞矩陣構成的所述民生特征數(shù)據(jù),其中所述文本矩陣包括文檔編號、文檔序號、民生關鍵詞編號及其詞頻,所述分詞矩陣包括所述民生關鍵詞、所述民生關鍵詞的編號及其詞頻。
4、在一些實施方式中,所述基于所述自定義詞典,對所述干凈文本進行分詞處理,構建由多個所述民生關鍵詞形成的語料庫,包括:基于所述自定義詞典中的地理信息詞典和社會治理類事件詞典,對所述干凈文本進行分詞處理,獲得多個民生分詞;根據(jù)所述自定義詞典中的去停用詞詞典,對多個所述民生分詞進行停用詞去除,篩選出用于表征所述社會治理文本的民生信息的多個所述民生關鍵詞;以及整合各個所述民生關鍵詞,形成由各個所述民生關鍵詞構建的所述語料庫。
5、在一些實施方式中,所述根據(jù)所述民生分析信息,構建便于讀取的展示頁面,包括:對所述民生分析信息進行分析,挖掘出所述社會治理文本的關聯(lián)數(shù)據(jù),其中所述關聯(lián)數(shù)據(jù)至少包括多個熱點事件及其發(fā)展趨勢、所述民生主題的數(shù)量;以及對所述關聯(lián)數(shù)據(jù)進行展示形式處理,形成便于讀取的展示頁面。
6、在一些實施方式中,在所述根據(jù)所述民生分析信息,構建便于讀取的展示頁面之前,還包括:建立可視化交互聚類系統(tǒng),以獲取針對于所述民生分析信息的糾錯約束指令,以優(yōu)化所述文檔主題生成模型。
7、在一些實施方式中,在所述基于自定義詞典,對各個社會治理文本分別進行預處理,獲取所述社會治理文本對應的民生特征數(shù)據(jù)之前,包括:根據(jù)所述社會治理文本的應用場景,構建適用于所述應用場景的自定義詞典,其中所述自定義詞典至少包括地理信息詞典、社會治理類事件詞典和去停用詞詞典。
8、在一些實施方式中,還包括:在所述社會治理文本的任一民生主題中抽取任一所述民生關鍵詞;對所述民生關鍵詞進行語義分析,并將具有所述語義的多個所述民生關鍵詞綁定至相應的同一約束標識中;將所述約束標識所關聯(lián)的多個所述民生關鍵詞映射至所抽取的所述民生主題中。
9、根據(jù)本公開的另一個方面提出了一種社會治理文本的處理裝置,包括:預處理模塊,用于基于自定義詞典,對各個社會治理文本分別進行預處理,獲取所述社會治理文本對應的民生特征數(shù)據(jù);數(shù)據(jù)分析模塊,用于調(diào)用文檔主題生成模型對所述民生特征數(shù)據(jù)進行分析,生成關于所述社會治理文本的民生分析信息,其中所述民生分析信息至少包括各個所述社會治理文本所關聯(lián)的民生主題、所述民生分詞在所述民生主題上的分布概率以及各個所述社會治理文本在所述民生主題上的分布概率;以及展示模塊,用于根據(jù)所述民生分析信息,構建便于讀取的展示頁面,其中所述展示頁面包含約束條件設置區(qū)域。
10、根據(jù)本公開的又一個方面提出了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時,以實現(xiàn)如上述任一實施方式所述的社會治理文本的處理方法。
11、根據(jù)本公開的再一個方面提出了一種可讀存儲介質(zhì),所述可讀存儲介質(zhì)中存儲有執(zhí)行指令,所述執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)如上述任一實施方式所述的社會治理文本的處理方法。
1.一種社會治理文本的處理方法,其特征在于,包括:
2.根據(jù)權利要求1所述的社會治理文本的處理方法,其特征在于,所述基于自定義詞典,對各個社會治理文本分別進行預處理,獲取所述社會治理文本對應的民生特征數(shù)據(jù),包括:
3.根據(jù)權利要求2所述的社會治理文本的處理方法,其特征在于,所述基于所述自定義詞典,對所述干凈文本進行分詞處理,構建由多個所述民生關鍵詞形成的語料庫,包括:
4.根據(jù)權利要求1所述的社會治理文本的處理方法,其特征在于,所述根據(jù)所述民生分析信息,構建便于讀取的展示頁面,包括:
5.根據(jù)權利要求4所述的社會治理文本的處理方法,其特征在于,在所述根據(jù)所述民生分析信息,構建便于讀取的展示頁面之前,還包括:
6.根據(jù)權利要求1或2所述的社會治理文本的處理方法,其特征在于,在所述基于自定義詞典,對各個社會治理文本分別進行預處理,獲取所述社會治理文本對應的民生特征數(shù)據(jù)之前,包括:
7.根據(jù)權利要求1所述的社會治理文本的處理方法,其特征在于,還包括:
8.一種社會治理文本的處理裝置,其特征在于,包括:
9.一種電子設備,其特征在于,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時,以實現(xiàn)如權利要求1至7中任一項所述的社會治理文本的處理方法。
10.一種可讀存儲介質(zhì),其特征在于,所述可讀存儲介質(zhì)中存儲有執(zhí)行指令,所述執(zhí)行指令被處理器執(zhí)行時用于實現(xiàn)權利要求1至7中任一項所述的社會治理文本的處理方法。