本發(fā)明涉及數(shù)據(jù)處理,尤其是涉及一種基于語義分析和大數(shù)據(jù)指數(shù)的政務(wù)文本質(zhì)量評(píng)價(jià)方法。
背景技術(shù):
1、政務(wù)文本質(zhì)量是反映國家工作人員履職效能的核心要素之一,也是最難量化和考核的部分。當(dāng)前,現(xiàn)有技術(shù)中,對(duì)于政務(wù)文本質(zhì)量普遍采用主觀評(píng)價(jià)的方法,也是就通過人工評(píng)價(jià)的方式來進(jìn)行,主要依托于人的判斷力,包括主題和目的明確性:評(píng)估政務(wù)文本是否清晰地表達(dá)了主題和目的,以便讀者能夠快速理解和把握關(guān)鍵信息。邏輯結(jié)構(gòu)合理性:檢查政務(wù)文本是否按照合理的邏輯結(jié)構(gòu)組織內(nèi)容,包括引言、正文和結(jié)尾等部分,確保信息的層次結(jié)構(gòu)清晰明了。信息呈現(xiàn)準(zhǔn)確性:評(píng)估政務(wù)文本是否準(zhǔn)確傳達(dá)了相關(guān)信息,沒有遺漏或誤導(dǎo),確保內(nèi)容具備完整性和可信性。如以召開專家評(píng)審會(huì)的方式由專家對(duì)待評(píng)價(jià)文本進(jìn)行主觀評(píng)價(jià)和打分,對(duì)文本的可讀性、可理解性、情感表達(dá)準(zhǔn)確性、文本的語言清晰度、表達(dá)主題一致性、邏輯性、蘊(yùn)含的信息量、結(jié)構(gòu)化等方面評(píng)價(jià)文本質(zhì)量。
2、人工評(píng)估可以運(yùn)用核對(duì)信息準(zhǔn)確性、簡明扼要、邏輯連貫、使用簡練的語言、注意格式規(guī)范以及校對(duì)文本等技巧,對(duì)政務(wù)文本進(jìn)行細(xì)致的質(zhì)量評(píng)估。這種評(píng)價(jià)方法有三個(gè)弊端,一是不容易操作,為了保證公平性需要召集多位專家進(jìn)行評(píng)價(jià);二是容易受到主觀因素的影響;三是評(píng)價(jià)結(jié)果不易量化和對(duì)比。因此,亟待研究一種并不是完全依賴于人工的方式,且能夠通過智能化算法從相關(guān)性角度對(duì)政務(wù)文本給出客觀、智能的質(zhì)量評(píng)價(jià)結(jié)果,并能對(duì)相關(guān)性高低給出量化評(píng)價(jià)結(jié)果來進(jìn)行政務(wù)文本質(zhì)量評(píng)價(jià)的方法。
3、目前,出現(xiàn)了一些技術(shù)輔助評(píng)價(jià)方式:
4、大數(shù)據(jù)指數(shù):大數(shù)據(jù)指數(shù)是指一切以大數(shù)據(jù)為研究對(duì)象的指數(shù),與傳統(tǒng)統(tǒng)計(jì)調(diào)查指數(shù)互補(bǔ),用來反映某一現(xiàn)象的綜合變動(dòng)程度的相對(duì)數(shù)指標(biāo)。大數(shù)據(jù)指數(shù)結(jié)合了大數(shù)據(jù)和統(tǒng)計(jì)指數(shù)的特點(diǎn),既具有與傳統(tǒng)統(tǒng)計(jì)調(diào)查指數(shù)相類似的數(shù)學(xué)性質(zhì)、經(jīng)濟(jì)學(xué)或社會(huì)學(xué)性質(zhì),又具有傳統(tǒng)統(tǒng)計(jì)調(diào)查指數(shù)所不具備的大數(shù)據(jù)性質(zhì),體現(xiàn)的是廣泛性、連續(xù)性、細(xì)化性。
5、自然語言處理技術(shù):隨著技術(shù)的發(fā)展,自然語言處理技術(shù)(nlp)逐步應(yīng)用于數(shù)字政府應(yīng)用場(chǎng)景中。nlp技術(shù)可以自動(dòng)提取文本中的關(guān)鍵信息,如政策主題、目標(biāo)群體、政策措施等,并對(duì)文本進(jìn)行語義分析。
6、本發(fā)明提出基于語義分析和大數(shù)據(jù)指數(shù)的政務(wù)文本質(zhì)量評(píng)價(jià)方法是上述兩種方法的結(jié)合,可以輔助評(píng)估者對(duì)文本進(jìn)行質(zhì)量評(píng)價(jià)。
7、應(yīng)該注意,上面對(duì)技術(shù)背景的介紹只是為了方便對(duì)本發(fā)明的技術(shù)方案進(jìn)行清楚、完整的說明,并方便本領(lǐng)域技術(shù)人員的理解而闡述的。不能僅僅因?yàn)檫@些技術(shù)方案在本發(fā)明的技術(shù)背景部分進(jìn)行了闡述而認(rèn)為上述技術(shù)方案為本領(lǐng)域技術(shù)人員所公知。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供基于語義分析和大數(shù)據(jù)指數(shù)的政務(wù)文本質(zhì)量評(píng)價(jià)方法,利用大數(shù)據(jù)與人工智能技術(shù),構(gòu)建評(píng)價(jià)政務(wù)文本質(zhì)量的大數(shù)據(jù)指數(shù),該指數(shù)由“1+n”指數(shù)體系構(gòu)成,能夠通過智能化算法從相關(guān)性角度對(duì)政務(wù)文本給出客觀、智能的質(zhì)量評(píng)價(jià)結(jié)果,并能對(duì)相關(guān)性高低給出量化評(píng)價(jià)結(jié)果,相比于傳統(tǒng)的方法,能夠反映不能直接相加的復(fù)雜因素的綜合變動(dòng)程度,且能夠多尺度、多維度地對(duì)文本質(zhì)量進(jìn)行評(píng)估并給出量化指標(biāo):如能夠?qū)Σ煌瑢么蔚恼?wù)文本進(jìn)行總體變化態(tài)勢(shì)的度量;能夠?qū)o定主題的變化與響應(yīng)程度進(jìn)行度量;能夠在單個(gè)文本之間進(jìn)行比較。
2、為實(shí)現(xiàn)上述目的,本發(fā)明提供了以下技術(shù)方案:
3、本發(fā)明提供了一種基于語義分析和大數(shù)據(jù)指數(shù)的政務(wù)文本質(zhì)量評(píng)價(jià)方法,包括如下步驟:
4、第一步:根據(jù)待評(píng)價(jià)政務(wù)文本需要體現(xiàn)的n個(gè)維度設(shè)定對(duì)標(biāo)數(shù)據(jù)采集源并進(jìn)行數(shù)據(jù)采集;
5、第二步:文本數(shù)據(jù)預(yù)處理,對(duì)第一步采集到的n個(gè)對(duì)標(biāo)文本數(shù)據(jù)集進(jìn)行文本數(shù)據(jù)預(yù)處理,所述文本數(shù)據(jù)預(yù)處理包括文本數(shù)據(jù)去噪和去重;
6、第三步:對(duì)標(biāo)政務(wù)文本數(shù)據(jù)集與待評(píng)價(jià)政務(wù)文本數(shù)據(jù)集的自然語言處理;
7、對(duì)經(jīng)過第二步文本數(shù)據(jù)預(yù)處理后得到的n個(gè)對(duì)標(biāo)文本數(shù)據(jù)集與待評(píng)價(jià)政務(wù)文本數(shù)據(jù)集使用自然語言處理技術(shù)進(jìn)行處理,包括分詞、詞性標(biāo)注、文本向量化、命名實(shí)體識(shí)別、關(guān)鍵詞提取、文本分類聚類操作,得到n個(gè)分指數(shù)對(duì)應(yīng)的n個(gè)對(duì)標(biāo)政務(wù)文本數(shù)據(jù)集;
8、第四步:n個(gè)分指數(shù)計(jì)算;
9、依次計(jì)算待評(píng)價(jià)政務(wù)文本數(shù)據(jù)集與n個(gè)對(duì)標(biāo)政務(wù)文本數(shù)據(jù)集的余弦相似度,依次得到分指數(shù)ρ分;
10、通過余弦相似度來求取待評(píng)價(jià)政務(wù)文本與n項(xiàng)主題的相關(guān)程度,即為分指數(shù)ρ分,余弦相似度算法如下:
11、
12、a代表待評(píng)價(jià)政務(wù)文本向量,b代表對(duì)標(biāo)主題向量,余弦值cosθ越接近1說明待評(píng)價(jià)政務(wù)文本向量和對(duì)標(biāo)主題向量兩個(gè)向量距離越小,關(guān)聯(lián)程度越高,向量a,b表示詞頻向量,ai,bi分別代表向量a,b的各個(gè)分量,i是向量a,b的維度,cosθ為余弦相似度,分指數(shù)為ρ分;大數(shù)據(jù)指數(shù)由“1+n”指數(shù)體系構(gòu)成,包括1個(gè)總指數(shù)ρ總和n個(gè)分指數(shù)ρ分;n為正整數(shù);
13、ρ分=cosθ
14、第五步:對(duì)n個(gè)分指數(shù)進(jìn)行加權(quán),得到總指數(shù)ρ總。
15、可選地,第一步中,設(shè)定對(duì)標(biāo)數(shù)據(jù)采集源,采集待評(píng)價(jià)政務(wù)文本需要體現(xiàn)的n個(gè)維度的內(nèi)容,n=5,包括:采集目標(biāo)樣本政策、目標(biāo)樣本政務(wù)工作報(bào)告、目標(biāo)樣本社會(huì)輿情信息、目標(biāo)樣本網(wǎng)民留言線索以及目標(biāo)樣本選題信息需要體現(xiàn)的主題內(nèi)容;
16、第三步中:對(duì)標(biāo)政務(wù)文本數(shù)據(jù)集構(gòu)建;
17、對(duì)經(jīng)過第二步文本數(shù)據(jù)預(yù)處理后得到的對(duì)標(biāo)文本數(shù)據(jù)集使用自然語言處理技術(shù)進(jìn)行處理,得到5個(gè)分指數(shù)對(duì)應(yīng)的5個(gè)對(duì)標(biāo)政務(wù)文本數(shù)據(jù)集;定義分指數(shù)ρ分分別為:政策響應(yīng)度分指數(shù)ρ1、報(bào)告貼合度分指數(shù)ρ2、民情關(guān)切度分指數(shù)ρ3、線索利用度分指數(shù)ρ4、選題參與度分指數(shù)ρ5;政策響應(yīng)度分指數(shù)ρ1、報(bào)告貼合度分指數(shù)ρ2、民情關(guān)切度分指數(shù)ρ3、線索利用度分指數(shù)ρ4、選題參與度分指數(shù)ρ5五個(gè)分指數(shù)加權(quán)得到總指數(shù)ρ總。
18、總之,本發(fā)明利用大數(shù)據(jù)與人工智能技術(shù),構(gòu)建評(píng)價(jià)政務(wù)文本質(zhì)量的大數(shù)據(jù)指數(shù),該指數(shù)由“1+n”指數(shù)體系構(gòu)成,包括1個(gè)總指數(shù),以及n個(gè)分指數(shù)構(gòu)成。通過在語義層面判斷政務(wù)文本與各個(gè)方面的貼合程度進(jìn)行大數(shù)據(jù)指數(shù)計(jì)算,以此反映政務(wù)文本對(duì)各主題的響應(yīng)情況。即,本發(fā)明利用大數(shù)據(jù)與人工智能技術(shù)構(gòu)建的評(píng)價(jià)政務(wù)文本質(zhì)量的大數(shù)據(jù)指數(shù),能夠通過智能化算法從相關(guān)性角度對(duì)政務(wù)文本的質(zhì)量給出客觀、智能的質(zhì)量評(píng)價(jià)結(jié)果。
19、本發(fā)明提供的基于語義分析和大數(shù)據(jù)指數(shù)的政務(wù)文本質(zhì)量評(píng)價(jià)方法,能夠通過智能化算法從相關(guān)性角度對(duì)政務(wù)文本給出客觀、智能的質(zhì)量評(píng)價(jià)結(jié)果,并能對(duì)相關(guān)性高低給出量化評(píng)價(jià)結(jié)果。有助于量化反映和評(píng)價(jià)政務(wù)文本在落實(shí)中央政策、對(duì)接重點(diǎn)工作、體現(xiàn)社情民意等方面的貢獻(xiàn)程度。
1.一種基于語義分析和大數(shù)據(jù)指數(shù)的政務(wù)文本質(zhì)量評(píng)價(jià)方法,其特征在于,包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于語義分析和大數(shù)據(jù)指數(shù)的政務(wù)文本質(zhì)量評(píng)價(jià)方法,其特征在于,第一步中,設(shè)定對(duì)標(biāo)數(shù)據(jù)采集源,采集待評(píng)價(jià)政務(wù)文本需要體現(xiàn)的n個(gè)維度的內(nèi)容,n=5,包括:采集目標(biāo)樣本政策、目標(biāo)樣本政務(wù)工作報(bào)告、目標(biāo)樣本社會(huì)輿情信息、目標(biāo)樣本網(wǎng)民留言線索以及目標(biāo)樣本選題信息需要體現(xiàn)的主題內(nèi)容;