1.一種電子政務新聞自動采編方法,其特征在于:該方法包括抓取步驟S1、提取步驟S2和偏好監(jiān)測步驟S3,各步驟處理過程如下:
抓取步驟S1:抓取系統(tǒng)根據(jù)設定的抓取規(guī)則從互聯(lián)網(wǎng)抓取所需新聞,并且將所抓取的新聞發(fā)送至大型分布式計算平臺進行統(tǒng)計、分析歸類,然后保存至全站數(shù)據(jù)庫;
提取步驟S2:電子政務網(wǎng)站群根據(jù)實際需要從全站數(shù)據(jù)庫提取所需類別的新聞通過系統(tǒng)前端呈現(xiàn);
偏好監(jiān)測步驟S3:通過用戶行為監(jiān)測系統(tǒng)記錄用戶的瀏覽行為并根據(jù)所述瀏覽行為以設定的標準判定為用戶的偏好,然后保存至數(shù)據(jù)存儲系統(tǒng)服務器,并且定期推送用戶偏好的新聞信息。
2.如權利要求1所述的一種電子政務新聞自動采編方法,其特征在于:在偏好監(jiān)測步驟S3中,數(shù)據(jù)存儲系統(tǒng)服務器設有兩個及以上數(shù)據(jù)存儲單元,各數(shù)據(jù)存儲單元中的每一條數(shù)據(jù)都有標簽字段,并且數(shù)據(jù)存儲系統(tǒng)服務器能將用戶為新聞增加的標簽設置為該新聞的標簽字段,從而進行偏好處理和偏好新聞推送。
3.如權利要求1所述的一種電子政務新聞自動采編方法,其特征在于:在抓取步驟S1中,抓取系統(tǒng)根據(jù)抓取規(guī)則配置單元配置的抓取規(guī)則,通過爬蟲單元將收集到的網(wǎng)址放到網(wǎng)址庫單元,然后,通過中央調(diào)度器單元依據(jù)調(diào)度規(guī)則從網(wǎng)址庫單元抽取相應量的網(wǎng)址放入待抓取隊列單元進行新聞抓取,并且將抓取的內(nèi)容發(fā)送到大型分布式計算平臺。
4.如權利要求1或3所述的一種電子政務新聞自動采編方法,其特征在于:在抓取步驟S1中,大型分布式計算平臺通過政務分析詞庫單元、圖片BASE64轉碼單元、排版編碼轉換單元、文章標簽提取單元和數(shù)據(jù)壓縮單元的處理,對抓取系統(tǒng)發(fā)送的信息進行數(shù)據(jù)分析、轉碼、處理、提取、歸類,并且發(fā)送到全站數(shù)據(jù)庫儲存供系統(tǒng)前端提取。
5.如權利要求4所述的一種電子政務新聞自動采編方法,其特征在于:所述大型分布式計算平臺通過離線處理與抓取系統(tǒng)和數(shù)據(jù)存儲系統(tǒng)服務器進行數(shù)據(jù)傳輸,大型分布式計算平臺將數(shù)據(jù)通過數(shù)據(jù)壓縮單元壓縮后發(fā)送給數(shù)據(jù)存儲系統(tǒng)服務器分類,其中,大型分布式計算平臺通過調(diào)用數(shù)據(jù)存儲系統(tǒng)服務器的數(shù)據(jù)接口后,根據(jù)各個不同政府單位的類別,獲取與單位內(nèi)容相對應的新聞內(nèi)容數(shù)據(jù)。
6.如權利要求1所述的一種電子政務新聞自動采編方法,其特征在于:在提取步驟S2中,系統(tǒng)前端通過在線引擎與數(shù)據(jù)存儲系統(tǒng)服務器和全站數(shù)據(jù)庫通信連接。