欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種網(wǎng)絡(luò)內(nèi)容資源評估方法及評估系統(tǒng)的制作方法

文檔序號:9929634閱讀:699來源:國知局
一種網(wǎng)絡(luò)內(nèi)容資源評估方法及評估系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息處理技術(shù)領(lǐng)域,尤其是一種網(wǎng)絡(luò)內(nèi)容資源評估方法及評估系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)已成為被廣泛使用的媒介,已延伸至社會的各個領(lǐng)域,并逐漸成為信息傳播的重要媒介,改變著人們的生產(chǎn)和生活方式、人際交往及思維方式,對社會生活的各個領(lǐng)域和人類自身的生存發(fā)展產(chǎn)生了深刻的影響。網(wǎng)絡(luò)信息內(nèi)容資源是指互聯(lián)網(wǎng)、移動網(wǎng)絡(luò)中的各種信息資源,通過對網(wǎng)絡(luò)信息內(nèi)容資源的分析評估,可以了解網(wǎng)絡(luò)信息傳播的動向,從而及時掌握網(wǎng)絡(luò)輿情動態(tài),但是,現(xiàn)有的網(wǎng)絡(luò)信息內(nèi)容評估存在信息量少、信息滯后等問題,不能客觀地反應(yīng)網(wǎng)絡(luò)輿情動態(tài)。

【發(fā)明內(nèi)容】

[0003]本發(fā)明提供了一種網(wǎng)絡(luò)內(nèi)容資源評估方法及評估系統(tǒng),用于解決現(xiàn)有技術(shù)中信息量少、信息滯后等問題。
[0004]為了解決上述問題,本發(fā)明提供一種網(wǎng)絡(luò)內(nèi)容資源評估方法,包括如下步驟:
[0005]利用網(wǎng)絡(luò)爬蟲模塊有針對性地爬取網(wǎng)絡(luò)信息數(shù)據(jù)并將獲得的網(wǎng)絡(luò)信息數(shù)據(jù)存入數(shù)據(jù)庫;
[0006]對爬取的網(wǎng)絡(luò)信息數(shù)據(jù)進行去重、解析并對網(wǎng)絡(luò)信息數(shù)據(jù)進行分類;
[0007]根據(jù)網(wǎng)絡(luò)信息數(shù)據(jù)的類型進行文本分析或指數(shù)計算并將結(jié)果存入數(shù)據(jù)庫以便于直接從數(shù)據(jù)庫調(diào)用分析結(jié)果進行展示。
[0008]本發(fā)明提供的網(wǎng)絡(luò)信息內(nèi)容資源評估方法還包括以下技術(shù)步驟:
[0009]進一步地,利用基于scrapy構(gòu)造的通用web爬蟲模塊對web網(wǎng)絡(luò)數(shù)據(jù)進行爬取,利用微信數(shù)據(jù)獲取模塊通過代理服務(wù)器對移動客戶端數(shù)據(jù)進行抓取;將獲取的網(wǎng)絡(luò)信息數(shù)據(jù)存入Mongodb數(shù)據(jù)庫。
[0010]進一步地,所述通過代理服務(wù)器對移動客戶端數(shù)據(jù)進行抓取包括:將移動客戶端聯(lián)網(wǎng)設(shè)置代理,數(shù)據(jù)從代理服務(wù)器傳送到客戶端,客戶端使用模擬按鍵來實現(xiàn)自動操作移動客戶端,代理服務(wù)器在數(shù)據(jù)傳送過程中進行數(shù)據(jù)包捕獲,進而對數(shù)據(jù)進行過濾與解析,從而獲取數(shù)據(jù)。
[0011]進一步地,所述指數(shù)計算包括傳播指數(shù)計算、收視指數(shù)計算和輿情指數(shù)計算。
[0012]進一步地,所述文本分析包括文本正負(fù)向判斷、文本詞頻統(tǒng)計、關(guān)聯(lián)詞統(tǒng)計、文本聚類和文本分類。
[0013]第二方面,本發(fā)明提供一種網(wǎng)絡(luò)內(nèi)容資源評估系統(tǒng),包括:
[0014]網(wǎng)絡(luò)爬蟲模塊,所述網(wǎng)絡(luò)爬蟲模塊用于有針對性地爬取網(wǎng)絡(luò)信息數(shù)據(jù);
[0015]數(shù)據(jù)庫,用于存儲所述網(wǎng)絡(luò)爬蟲模塊爬取的網(wǎng)絡(luò)信息數(shù)據(jù);
[0016]數(shù)據(jù)處理模塊,用于對網(wǎng)絡(luò)信息數(shù)據(jù)進行去重與過濾、數(shù)據(jù)解析轉(zhuǎn)換以及數(shù)據(jù)分類;
[0017]指數(shù)計算模塊和文本分析模塊,用于根據(jù)網(wǎng)絡(luò)信息數(shù)據(jù)的類型進行指數(shù)計算或文本分析并將結(jié)果存入數(shù)據(jù)庫以便于直接從數(shù)據(jù)庫調(diào)用分析結(jié)果進行展示。
[0018]本發(fā)明提供的網(wǎng)絡(luò)信息內(nèi)容資源評估系統(tǒng)還包括以下計算特征:
[0019]進一步地,所述網(wǎng)絡(luò)爬蟲模塊包括web爬蟲模塊和微信數(shù)據(jù)抓取模塊,所述web爬蟲模塊為基于scrapy構(gòu)造的通用eb爬蟲模塊,所述微信數(shù)據(jù)抓取模塊通過代理服務(wù)器對移動客戶端數(shù)據(jù)進行抓取。
[0020]進一步地,所述微信數(shù)據(jù)獲取模塊包括模擬按鍵模塊、代理服務(wù)模塊、數(shù)據(jù)包截取模塊,客戶端使用模擬按鍵模塊來實現(xiàn)自動操作移動客戶端,代理服務(wù)模塊在數(shù)據(jù)傳送過程中通過數(shù)據(jù)包截取模塊進行數(shù)據(jù)包捕獲,進而對數(shù)據(jù)進行過濾與解析,從而獲取數(shù)據(jù)。
[0021]進一步地,所述指數(shù)計算模塊包括傳播指數(shù)計算模塊、收視指數(shù)計算模塊和輿情指數(shù)計算模塊。
[0022]進一步地,所述文本分析模塊包括文本正負(fù)向判斷模塊、文本詞頻統(tǒng)計模塊、關(guān)聯(lián)詞統(tǒng)計模塊、文本聚類模塊和文本分類模塊。
[0023]本發(fā)明具有如下有益效果:通過利用網(wǎng)絡(luò)爬蟲模塊有針對性地對網(wǎng)絡(luò)信息數(shù)據(jù)進行抓取,分別獲取web傳播數(shù)據(jù)、社區(qū)網(wǎng)站數(shù)據(jù)、視頻網(wǎng)站數(shù)據(jù)、輿論數(shù)據(jù)和移動互聯(lián)網(wǎng)數(shù)據(jù),對各種網(wǎng)絡(luò)信息數(shù)據(jù)進行去重過濾、數(shù)據(jù)解析轉(zhuǎn)換以及數(shù)據(jù)分類,根據(jù)網(wǎng)絡(luò)信息數(shù)據(jù)的類型進行文本分析或指數(shù)計算以獲得社會輿論的趨勢和走向,數(shù)據(jù)獲取范圍廣、針對性強,?目息獲取和反饋及時。
【附圖說明】
[0024]圖1為本發(fā)明實施例網(wǎng)絡(luò)內(nèi)容資源評估系統(tǒng)的結(jié)構(gòu)示意圖;
[0025]圖2為本發(fā)明實施例網(wǎng)絡(luò)內(nèi)容資源評估系統(tǒng)的工作流程圖;
[0026]圖3為本發(fā)明實施例中微信數(shù)據(jù)獲取模塊的工作狀態(tài)示意圖;
[0027]圖4為本發(fā)明實施例中文本分析模塊的工作流程圖。
【具體實施方式】
[0028]下文中將參考附圖并結(jié)合實施例來詳細(xì)說明本發(fā)明。需要說明的是,在不沖突的情況下,本發(fā)明中的實施例及實施例中的特征可以相互組合。
[0029]本發(fā)明提供一種網(wǎng)絡(luò)內(nèi)容資源評估方法,包括如下步驟:
[0030]S100:利用網(wǎng)絡(luò)爬蟲模塊有針對性地爬取網(wǎng)絡(luò)信息數(shù)據(jù)并將獲得的網(wǎng)絡(luò)信息數(shù)據(jù)存入數(shù)據(jù)庫;
[0031]S200:對爬取的網(wǎng)絡(luò)信息數(shù)據(jù)進行去重、解析并對網(wǎng)絡(luò)信息數(shù)據(jù)進行分類;
[0032]S300:根據(jù)網(wǎng)絡(luò)信息數(shù)據(jù)的類型進行文本分析或指數(shù)計算并將結(jié)果存入數(shù)據(jù)庫以便于直接從數(shù)據(jù)庫調(diào)用分析結(jié)果進行展示。
[0033]在上述方法中,網(wǎng)絡(luò)爬蟲模塊爬取的網(wǎng)絡(luò)信息數(shù)據(jù)包括:1.web傳播數(shù)據(jù),該數(shù)據(jù)包括各大新聞門戶網(wǎng)站的主要新聞文本資源,比如說網(wǎng)易娛樂、新浪新聞、騰訊新聞等各大門戶網(wǎng)站、行業(yè)媒體、專業(yè)媒體等各類新聞;2.社區(qū)網(wǎng)站數(shù)據(jù):該數(shù)據(jù)包括各大社區(qū)網(wǎng)站的評論、分析數(shù)據(jù),如百度貼吧、豆瓣社區(qū)等;3.視頻網(wǎng)站數(shù)據(jù):該數(shù)據(jù)包括各大視頻網(wǎng)站的節(jié)目基本信息、指數(shù)信息以及評論文本,如優(yōu)酷、愛奇藝、芒果tv等;4.輿論數(shù)據(jù):該數(shù)據(jù)主要以微博評論數(shù)據(jù)為主;5.移動互聯(lián)網(wǎng)數(shù)據(jù):該部分?jǐn)?shù)據(jù)主要指pc端無法獲取而在移動客戶端具有高影響力的信息數(shù)據(jù)資源,如微信公共平臺的文章文本資源。本發(fā)明的網(wǎng)絡(luò)信息內(nèi)容資源評估方法,通過利用網(wǎng)絡(luò)爬蟲模塊有針對性地對網(wǎng)絡(luò)信息數(shù)據(jù)進行抓取,分別獲取web傳播數(shù)據(jù)、社區(qū)網(wǎng)站數(shù)據(jù)、視頻網(wǎng)站數(shù)據(jù)、輿論數(shù)據(jù)和.移動互聯(lián)網(wǎng)數(shù)據(jù),對各種網(wǎng)絡(luò)信息數(shù)據(jù)進行去重過濾、數(shù)據(jù)解析轉(zhuǎn)換以及數(shù)據(jù)分類,根據(jù)網(wǎng)絡(luò)信息數(shù)據(jù)的類型進行文本分析或指數(shù)計算以獲得社會輿論的趨勢和走向,數(shù)據(jù)獲取范圍廣、針對性強,信息獲取和反饋及時。
[0034]利用爬蟲技術(shù)將以上資源存入Mongodb數(shù)據(jù)庫,進而對爬取數(shù)據(jù)進行數(shù)據(jù)的初步篩選,由于爬取范圍廣、爬取量大、不可避免的會有許多的重復(fù)、冗余數(shù)據(jù),所以需要對數(shù)據(jù)進行過濾、去重等處理,避免垃圾數(shù)據(jù)影響評價結(jié)果。通過初步的處理對數(shù)據(jù)進行分類,文本型數(shù)據(jù)參與文本分析處理,文本數(shù)據(jù)主要包括各數(shù)據(jù)源的評論文本、新聞文本、分析文本等;指數(shù)型數(shù)據(jù)參與指數(shù)計算,指數(shù)文本主要有個網(wǎng)站對內(nèi)容的評價指數(shù),如豆瓣指數(shù)、百度指數(shù)等以及視頻網(wǎng)站的評論量、點贊量,新聞的閱讀量、微信文章的轉(zhuǎn)發(fā)量等。
[0035]本發(fā)明提供的網(wǎng)絡(luò)信息內(nèi)容資源評估方法還包括以下技術(shù)步驟:
[0036]SI 10:利用基于scrapy構(gòu)造的通用web爬蟲模塊對web網(wǎng)絡(luò)數(shù)據(jù)進行爬取,利用微信數(shù)據(jù)獲取模塊通過代理服務(wù)器對移動客戶端數(shù)據(jù)進行抓取;將獲取的網(wǎng)絡(luò)信息數(shù)據(jù)存入Mongodb數(shù)據(jù)庫。
[0037]Sll 1:所述通過代理服務(wù)器對移動客戶端數(shù)據(jù)進行抓取包括:將移動客戶端聯(lián)網(wǎng)設(shè)置代理,數(shù)據(jù)從代理服務(wù)器傳送到客戶端,客戶端使用模擬按鍵來實現(xiàn)自動操作移動客戶端,代理服務(wù)器在數(shù)據(jù)傳送過程中進行數(shù)據(jù)包捕獲,進而對數(shù)據(jù)進行過濾與解析,從而獲取數(shù)據(jù)。
[0038]S310:所述指數(shù)計算包括傳播指數(shù)計算、收視指數(shù)計算和輿情指數(shù)計算。指數(shù)計算主包括:1.web傳播指數(shù)計算,通過統(tǒng)計相關(guān)內(nèi)容資源的新聞報道量而獲得;2.微信指數(shù),通過微信公眾號的點贊量和閱讀量獲得;3.輿情指數(shù)計算:通過相關(guān)貼吧的帖子量以及會員數(shù)、豆瓣的指數(shù)、視頻網(wǎng)站的評論數(shù)獲得;4收視指數(shù):通過各視頻網(wǎng)站的播放量與點贊量獲得。
[0039]S320:所述文本分析包括文本正負(fù)向判斷、文本詞頻統(tǒng)計、關(guān)聯(lián)詞統(tǒng)計、文本聚類和文本分類。其中文本正負(fù)向判斷,主要用于分析文本的正負(fù)向?qū)傩裕谋緦傩灾饕怯糜谧R別用戶評論的態(tài)度,若用戶的態(tài)度為積極肯定的,我們則認(rèn)為該評論是正向的,反之則為負(fù)向。文本詞頻統(tǒng)計主要用于分析文本的詞頻,將在文本中出現(xiàn)頻率較多的詞語列出并進行統(tǒng)計。關(guān)聯(lián)詞統(tǒng)計主要用于分析文本的關(guān)聯(lián)詞,將文本中出現(xiàn)頻率較多的相關(guān)聯(lián)的詞語列出并進行統(tǒng)計。文本聚類主要用于分析文本的聚類,將文本聚成15類,每類提供一定數(shù)量的描述該類的短語。文本分類可將每個文本分配到對應(yīng)的類別中。
[0040]第二方面,本發(fā)明提供一種網(wǎng)絡(luò)內(nèi)容資源評估系統(tǒng),包括:
[0041]網(wǎng)絡(luò)爬蟲模塊,網(wǎng)絡(luò)爬蟲模塊用于有針對性地爬取網(wǎng)絡(luò)信息數(shù)據(jù);數(shù)據(jù)庫,用于存儲所述網(wǎng)絡(luò)爬蟲模塊爬取的網(wǎng)絡(luò)信息數(shù)據(jù);數(shù)據(jù)處理模塊,用于對網(wǎng)絡(luò)信息數(shù)據(jù)進行去重與過濾、數(shù)據(jù)解析轉(zhuǎn)換以及數(shù)據(jù)分類;指數(shù)計算模塊和文本分析模塊,用于根據(jù)網(wǎng)絡(luò)信息數(shù)據(jù)的類型進行指數(shù)計算或文本分析并將結(jié)果存入數(shù)據(jù)庫以便于直接從數(shù)據(jù)庫調(diào)用分析結(jié)果進行展示。
[0042]本發(fā)明提供的網(wǎng)絡(luò)內(nèi)容資源評估系統(tǒng)還包括以下計算特征:
[0043]網(wǎng)絡(luò)爬蟲模塊包括web爬蟲模塊和微信數(shù)據(jù)抓取模塊,web爬蟲模塊為基于scrapy構(gòu)造的通用web爬蟲模塊,微信數(shù)據(jù)抓取模塊通過代理服務(wù)器對移動客戶端數(shù)據(jù)進行抓取。微信數(shù)據(jù)獲取模塊包括模擬按鍵模塊、代理服務(wù)模塊、數(shù)據(jù)包截取模塊,客戶端使用模擬按鍵模塊來實現(xiàn)自動操作移動客戶端,代理服務(wù)模塊在數(shù)據(jù)傳送過程中通過數(shù)據(jù)包截取模塊進行數(shù)據(jù)包捕獲,進而對數(shù)據(jù)進行過濾與解析,從而獲取數(shù)據(jù)。指數(shù)計算模塊包括傳播指數(shù)計算模塊、收視指數(shù)計算模塊和輿情指數(shù)計算模塊。文本分析模塊包括關(guān)聯(lián)詞分析模塊、詞頻分析模塊、文本傾向性分析模塊以及文本的聚類和分類模塊。
[0044]具體而言,網(wǎng)絡(luò)爬蟲模塊中的web爬蟲模塊為基于scrapy的網(wǎng)絡(luò)爬蟲,具體算法涉及到了圖的廣度優(yōu)先搜索和深度優(yōu)先搜索算法,在對ajax的處理過程中,使用了基于webkit的ghost模塊,用于模擬瀏覽器執(zhí)行解析js;主要用于對web網(wǎng)絡(luò)數(shù)據(jù)的爬取,利用一定的規(guī)則,從入口 url選取合適的url開
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
柳江县| 福安市| 石门县| 永仁县| 阳城县| 本溪市| 肇州县| 临夏市| 苍山县| 清涧县| 金华市| 霍邱县| 德昌县| 北流市| 衡阳市| 北碚区| 栖霞市| 祥云县| 孙吴县| 辽宁省| 秀山| 伊通| 西和县| 北宁市| 天全县| 浦城县| 都兰县| 驻马店市| 乐安县| 射洪县| 固原市| 青川县| 静乐县| 玉溪市| SHOW| 海口市| 绵竹市| 新巴尔虎左旗| 印江| 扎兰屯市| 舟曲县|