本發(fā)明涉及新聞采編領(lǐng)域,尤其涉及一種電子政務(wù)新聞自動采編方法。
背景技術(shù):
電子政務(wù)新聞采編是現(xiàn)在電子政務(wù)管理的一部分,電子政務(wù)新聞采編的時效性、真實(shí)性、針對性、準(zhǔn)確性直接影響相關(guān)電子政務(wù)的作用?,F(xiàn)有的新聞發(fā)布主要是通過人工瀏覽、人工篩選、人工復(fù)制、人工編輯、人工發(fā)布,人工新聞發(fā)布都需要經(jīng)過這些繁瑣的流程,導(dǎo)致工作不僅枯燥無味,而且工作量大大增加,新聞編輯發(fā)布效率一直無法得到顯著的提高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是,提供一種電子政務(wù)新聞自動采編方法,可以將編輯的重復(fù)性勞動降至最低,提高編輯效率。
為實(shí)現(xiàn)上述目的,提供了一種電子政務(wù)新聞自動采編方法,該方法包括抓取步驟S1、提取步驟S2和偏好監(jiān)測步驟S3,各步驟處理過程如下:
抓取步驟S1:抓取系統(tǒng)根據(jù)設(shè)定的抓取規(guī)則從互聯(lián)網(wǎng)抓取所需新聞,并且將所抓取的新聞發(fā)送至大型分布式計(jì)算平臺進(jìn)行統(tǒng)計(jì)、分析歸類,然后保存至全站數(shù)據(jù)庫;
提取步驟S2:電子政務(wù)網(wǎng)站群根據(jù)實(shí)際需要從全站數(shù)據(jù)庫提取所需類 別的新聞通過系統(tǒng)前端呈現(xiàn);
偏好監(jiān)測步驟S3:通過用戶行為監(jiān)測系統(tǒng)記錄用戶的瀏覽行為并根據(jù)所述瀏覽行為以設(shè)定的標(biāo)準(zhǔn)判定為用戶的偏好,然后保存至數(shù)據(jù)存儲系統(tǒng)服務(wù)器,并且定期推送用戶偏好的新聞信息。
優(yōu)選地,在偏好監(jiān)測步驟S3中,數(shù)據(jù)存儲系統(tǒng)服務(wù)器設(shè)有兩個及以上數(shù)據(jù)存儲單元,各數(shù)據(jù)存儲單元中的每一條數(shù)據(jù)都有標(biāo)簽字段,并且數(shù)據(jù)存儲系統(tǒng)服務(wù)器能將用戶為新聞增加的標(biāo)簽設(shè)置為該新聞的標(biāo)簽字段,從而進(jìn)行偏好處理和偏好新聞推送。
優(yōu)選地,在抓取步驟S1中,抓取系統(tǒng)根據(jù)抓取規(guī)則配置單元配置的抓取規(guī)則,通過爬蟲單元將收集到的網(wǎng)址放到網(wǎng)址庫單元,然后,通過中央調(diào)度器單元依據(jù)調(diào)度規(guī)則從網(wǎng)址庫單元抽取相應(yīng)量的網(wǎng)址放入待抓取隊(duì)列單元進(jìn)行新聞抓取,并且將抓取的內(nèi)容發(fā)送到大型分布式計(jì)算平臺。
優(yōu)選地,在抓取步驟S1中,大型分布式計(jì)算平臺通過政務(wù)分析詞庫單元、圖片BASE64轉(zhuǎn)碼單元、排版編碼轉(zhuǎn)換單元、文章標(biāo)簽提取單元和數(shù)據(jù)壓縮單元的處理,對抓取系統(tǒng)發(fā)送的信息進(jìn)行數(shù)據(jù)分析、轉(zhuǎn)碼、處理、提取、歸類,并且發(fā)送到全站數(shù)據(jù)庫儲存供系統(tǒng)前端提取。
優(yōu)選地,所述大型分布式計(jì)算平臺通過離線處理與抓取系統(tǒng)和數(shù)據(jù)存儲系統(tǒng)服務(wù)器進(jìn)行數(shù)據(jù)傳輸,大型分布式計(jì)算平臺將數(shù)據(jù)通過數(shù)據(jù)壓縮單元壓縮后發(fā)送給數(shù)據(jù)存儲系統(tǒng)服務(wù)器分類,其中,大型分布式計(jì)算平臺通過調(diào)用數(shù)據(jù)存儲系統(tǒng)服務(wù)器的數(shù)據(jù)接口后,根據(jù)各個不同政府單位的類別,獲取與單位內(nèi)容相對應(yīng)的新聞內(nèi)容數(shù)據(jù)。
優(yōu)選地,在提取步驟S2中,系統(tǒng)前端通過在線引擎與數(shù)據(jù)存儲系統(tǒng)服務(wù)器和全站數(shù)據(jù)庫通信連接。
本發(fā)明與現(xiàn)有技術(shù)相比,其有益效果在于:
本發(fā)明通過抓取步驟S1、提取步驟S2和偏好監(jiān)測步驟S3對新聞進(jìn)行抓取,分析歸類,偏好推送,可以將編輯的重復(fù)性勞動降至最低,提高編輯效率。本發(fā)明并可對各類政府單位的新聞采編進(jìn)行自動管理,以實(shí)現(xiàn)新聞采編的半/全自動化,同時,為各種系統(tǒng)提供數(shù)據(jù)接口,其他系統(tǒng)可通過數(shù)據(jù)接口獲取到新聞數(shù)據(jù)。
附圖說明
圖1是本發(fā)明的工作原理框圖;
圖2是本發(fā)明的結(jié)構(gòu)原理框圖。
具體實(shí)施方式
下面結(jié)合實(shí)施例,對本發(fā)明作進(jìn)一步的描述,但不構(gòu)成對本發(fā)明的任何限制,任何在本發(fā)明權(quán)利要求范圍所做的有限次的修改,仍在本發(fā)明的權(quán)利要求范圍內(nèi)。
如圖1至圖2所示,本發(fā)明提供了一種重型車智能診斷方法,該方法包括抓取步驟S1、提取步驟S2和偏好監(jiān)測步驟S3,各步驟處理過程如下:
抓取步驟S1:抓取系統(tǒng)2根據(jù)設(shè)定的抓取規(guī)則從互聯(lián)網(wǎng)1抓取所需新聞,并且將所抓取的新聞發(fā)送至大型分布式計(jì)算平臺7進(jìn)行統(tǒng)計(jì)、分析歸類,然后保存至全站數(shù)據(jù)庫8;
提取步驟S2:電子政務(wù)網(wǎng)站群根據(jù)實(shí)際需要從全站數(shù)據(jù)庫8提取所需類別的新聞通過系統(tǒng)前端6呈現(xiàn);
偏好監(jiān)測步驟S3:通過用戶行為監(jiān)測系統(tǒng)記錄用戶的瀏覽行為并根據(jù)所述瀏覽行為以設(shè)定的標(biāo)準(zhǔn)判定為用戶的偏好,然后保存至數(shù)據(jù)存儲系統(tǒng)服務(wù)器,并且定期推送用戶偏好的新聞信息。
在偏好監(jiān)測步驟S3中,數(shù)據(jù)存儲系統(tǒng)服務(wù)器4設(shè)有三個數(shù)據(jù)存儲單元,各數(shù)據(jù)存儲單元中的每一條數(shù)據(jù)都有標(biāo)簽字段,并且數(shù)據(jù)存儲系統(tǒng)服務(wù)器4能將用戶為新聞增加的標(biāo)簽設(shè)置為該新聞的標(biāo)簽字段,從而進(jìn)行偏好處理和偏好新聞推送。
在本實(shí)施例中,用戶通過B/S模式,即瀏覽器/服務(wù)器模式與抓取系統(tǒng)進(jìn)行交互,各數(shù)據(jù)存儲單元分別為國家政務(wù)新聞、省區(qū)政務(wù)新聞、政策新聞幾個板塊的新聞存儲。
此外,數(shù)據(jù)存儲系統(tǒng)服務(wù)器4還可設(shè)置為兩個或五個或十個或二十個數(shù)據(jù)存儲單元對新聞進(jìn)行分類。
在抓取步驟S1中,抓取系統(tǒng)2根據(jù)抓取規(guī)則配置單元配置的抓取規(guī)則,通過爬蟲單元將收集到的網(wǎng)址放到網(wǎng)址庫單元,然后,通過中央調(diào)度器單元依據(jù)調(diào)度規(guī)則從網(wǎng)址庫單元抽取相應(yīng)量的網(wǎng)址放入待抓取隊(duì)列單元進(jìn)行新聞抓取,并且將抓取的內(nèi)容發(fā)送到大型分布式計(jì)算平臺。其中,抓取規(guī)則和調(diào)度規(guī)則為系統(tǒng)已經(jīng)配置完成的。
在抓取步驟S1中,大型分布式計(jì)算平臺7通過政務(wù)分析詞庫單元、圖片BASE64轉(zhuǎn)碼單元、排版編碼轉(zhuǎn)換單元、文章標(biāo)簽提取單元和數(shù)據(jù)壓縮單元的處理,對抓取系統(tǒng)發(fā)送的信息進(jìn)行數(shù)據(jù)分析、轉(zhuǎn)碼、處理、提取、歸類,并且發(fā)送到全站數(shù)據(jù)庫8儲存供系統(tǒng)前端6提取。
大型分布式計(jì)算平臺7通過離線處理3與抓取系統(tǒng)2和數(shù)據(jù)存儲系統(tǒng)服務(wù)器4進(jìn)行數(shù)據(jù)傳輸,大型分布式計(jì)算平臺7將數(shù)據(jù)通過數(shù)據(jù)壓縮單元壓縮 后發(fā)送給數(shù)據(jù)存儲系統(tǒng)服務(wù)器4分類,其中,大型分布式計(jì)算平臺7通過調(diào)用數(shù)據(jù)存儲系統(tǒng)服務(wù)器4的數(shù)據(jù)接口后,根據(jù)各個不同政府單位的類別,獲取與單位內(nèi)容相對應(yīng)的新聞內(nèi)容數(shù)據(jù)。
在本實(shí)施例中,大型分布式計(jì)算平臺7獲取抓取系統(tǒng)2發(fā)送新聞內(nèi)容后,讀取原有數(shù)據(jù)并通過政務(wù)分析詞庫單元、圖片BASE64轉(zhuǎn)碼單元、排版編碼轉(zhuǎn)換單元、文章標(biāo)簽提取單元進(jìn)行各種分析計(jì)算,獲得新聞內(nèi)容的標(biāo)簽、類別、時間、來源等。
在提取步驟S2中,系統(tǒng)前端6通過在線引擎5與數(shù)據(jù)存儲系統(tǒng)服務(wù)器4和全站數(shù)據(jù)庫8通信連接。
在本實(shí)施例中,系統(tǒng)操作員將需要摘抄新聞網(wǎng)站URL,根據(jù)系統(tǒng)的配置規(guī)則錄入抓取系統(tǒng);然后,電子政務(wù)網(wǎng)站系統(tǒng)前端6調(diào)用系統(tǒng)的數(shù)據(jù)接口,當(dāng)用戶日常瀏覽電子政務(wù)網(wǎng)站系統(tǒng)時,電子政務(wù)網(wǎng)站將獲取到的數(shù)據(jù)通過前端技術(shù)展現(xiàn)給用戶瀏覽,從而實(shí)現(xiàn)電子政務(wù)新聞的自動采編發(fā)布。
在本實(shí)施例中,全站數(shù)據(jù)庫8可設(shè)置于數(shù)據(jù)存儲系統(tǒng)服務(wù)器4中。
以上僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出對于本領(lǐng)域的技術(shù)人員來說,在不脫離本發(fā)明結(jié)構(gòu)的前提下,還可以作出若干變形和改進(jìn),這些都不會影響本發(fā)明實(shí)施的效果和專利的實(shí)用性。