本發(fā)明涉及新聞評(píng)論預(yù)測技術(shù)領(lǐng)域,具體而言,涉及一種新聞評(píng)論的預(yù)測方法和一種新聞評(píng)論的預(yù)測系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的飛速發(fā)展,特別是手機(jī)等移動(dòng)終端的普及,網(wǎng)絡(luò)空間上隨處可見對(duì)公眾人物、熱點(diǎn)事件、網(wǎng)購商品、影視作品等新聞的評(píng)論言論。在大型綜合門戶網(wǎng)站,一篇具有較高評(píng)論次數(shù)的新聞往往是網(wǎng)民關(guān)心的熱點(diǎn),輿論的焦點(diǎn),輿情的方向標(biāo)。掌握網(wǎng)民對(duì)新聞的評(píng)論情況對(duì)了解社情民意具有重要意義。
相關(guān)技術(shù)中,通常采用用戶行為數(shù)據(jù)對(duì)新聞評(píng)論進(jìn)行預(yù)測,而不考慮新聞的類型和用戶的隨機(jī)性,從而導(dǎo)致對(duì)新聞評(píng)論的預(yù)測不準(zhǔn)確。
因此,如何提高新聞?lì)l率的預(yù)測方案的準(zhǔn)確性成為亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明正是基于上述技術(shù)問題至少之一,提出了一種新的新聞評(píng)論的預(yù)測方案,通過獲取用戶對(duì)特定領(lǐng)域的新聞的評(píng)論記錄集合,并結(jié)合發(fā)布新聞的內(nèi)容提取關(guān)鍵字和用戶評(píng)論的隨機(jī)性概率,提高了對(duì)特定領(lǐng)域的發(fā)布新聞的評(píng)論進(jìn)行預(yù)測的準(zhǔn)確度,提高了對(duì)互聯(lián)網(wǎng)的輿論熱點(diǎn)新聞的宏觀預(yù)測能力和調(diào)控性。
有鑒于此,根據(jù)本發(fā)明的第一方面的實(shí)施例,提出了一種新聞評(píng)論的預(yù)測方法,包括:確定發(fā)布新聞所屬的領(lǐng)域;獲取預(yù)設(shè)時(shí)間范圍內(nèi)用戶對(duì)所述領(lǐng)域的新聞的評(píng)論記錄集合;根據(jù)所述發(fā)布新聞的關(guān)鍵字,確定所述發(fā)布新聞屬于所述評(píng)論記錄集合的評(píng)論概率;在所述評(píng)論記錄集合中,確 定用戶評(píng)論過的新聞數(shù)量與新聞總數(shù)的評(píng)論比例;根據(jù)所述評(píng)論概率和所述評(píng)論比例對(duì)所述發(fā)布新聞的評(píng)論數(shù)目進(jìn)行預(yù)測。
在該技術(shù)方案中,通過獲取用戶對(duì)特定領(lǐng)域的新聞的評(píng)論記錄集合,并結(jié)合發(fā)布新聞的內(nèi)容提取關(guān)鍵字和用戶評(píng)論的隨機(jī)性概率,提高了對(duì)特定領(lǐng)域的發(fā)布新聞的評(píng)論進(jìn)行預(yù)測的準(zhǔn)確度,提高了對(duì)互聯(lián)網(wǎng)的輿論熱點(diǎn)新聞的宏觀預(yù)測能力和調(diào)控性。
其中,發(fā)布新聞所屬的領(lǐng)域包括體育領(lǐng)域、媒體領(lǐng)域、娛樂領(lǐng)域、政治領(lǐng)域、時(shí)尚領(lǐng)域和教育領(lǐng)域等,預(yù)設(shè)時(shí)間范圍是自發(fā)布新聞的時(shí)刻之前的時(shí)間段,如發(fā)布新聞前一天、一周和一個(gè)月等,獲取服務(wù)器中存儲(chǔ)的評(píng)論記錄集合(包括評(píng)論用戶id、評(píng)論時(shí)間、評(píng)論內(nèi)容和評(píng)論頻率等),通過新聞內(nèi)容確定關(guān)鍵字,以及相應(yīng)的用戶的評(píng)論比例,確定了用戶評(píng)論的隨機(jī)性,另外,評(píng)論記錄集合從一定程度上反映了用戶對(duì)發(fā)布新聞的關(guān)注度,從而提高了對(duì)互聯(lián)網(wǎng)的輿論熱點(diǎn)新聞的宏觀預(yù)測能力和調(diào)控性。
在上述技術(shù)方案中,優(yōu)選地,獲取預(yù)設(shè)時(shí)間范圍內(nèi)用戶對(duì)所述領(lǐng)域的新聞的評(píng)論記錄集合,具體包括以下步驟:獲取所述預(yù)設(shè)時(shí)間范圍內(nèi),創(chuàng)建二維評(píng)論矩陣作為所述評(píng)論記錄集合,其中,所述二維評(píng)論矩陣中的任一元素表示為xij,所述二維評(píng)論矩陣中的行表示一個(gè)用戶,所述二維評(píng)論矩陣的列表示所述領(lǐng)域的一個(gè)新聞,所述賦值xij為1時(shí)表示所述一個(gè)用戶對(duì)所述領(lǐng)域的一個(gè)新聞進(jìn)行了評(píng)論,所述賦值xij為0時(shí)表示所述一個(gè)用戶未對(duì)所述領(lǐng)域的一個(gè)新聞進(jìn)行評(píng)論。
在該技術(shù)方案中,通過創(chuàng)建二維評(píng)論矩陣作為評(píng)論記錄集合,更加直觀地反映了用戶對(duì)發(fā)布新聞進(jìn)行評(píng)論的隨機(jī)概率,其中,二維評(píng)論矩陣采用余弦相似度算法進(jìn)行創(chuàng)建,每個(gè)元素xij還包含新聞的關(guān)鍵詞等標(biāo)識(shí)信息。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,根據(jù)所述評(píng)論概率和所述評(píng)論比例對(duì)所述發(fā)布新聞的評(píng)論數(shù)目進(jìn)行預(yù)測,具體包括以下步驟:計(jì)算所述評(píng)論概率和所述評(píng)論比例的乘積,并作為一個(gè)用戶對(duì)所述發(fā)布新聞進(jìn)行評(píng)論的參考概率;對(duì)所有用戶的參考概率依次進(jìn)行歸一化處理,并進(jìn)行求和處理,以預(yù)測所述發(fā)布新聞的評(píng)論數(shù)目。
在該技術(shù)方案中,通過計(jì)算評(píng)論概率和評(píng)論比例的乘積,以及對(duì)參考概率進(jìn)行歸一化處理,提高了對(duì)發(fā)布信息的評(píng)論情況的預(yù)判性。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,對(duì)所有用戶的參考概率依次進(jìn)行歸一化處理,并進(jìn)行求和處理,以預(yù)測所述發(fā)布新聞的評(píng)論數(shù)目,具體包括以下步驟:在對(duì)所有用戶的參考概率依次進(jìn)行歸一化處理,并進(jìn)行求和處理后,確定參考評(píng)論數(shù)目;在檢測所述參考評(píng)論數(shù)目大于或等于所述評(píng)論閾值后,確定所述參考評(píng)論數(shù)目與預(yù)設(shè)放大因子的乘積作為所述評(píng)論數(shù)目,其中,所述預(yù)設(shè)放大因子大于或等于1。
在該技術(shù)方案中,通過對(duì)參考評(píng)論數(shù)目進(jìn)行判斷,并且增加預(yù)設(shè)放大因子,充分考慮了用戶在新聞評(píng)論過程中的從眾性,進(jìn)一步地優(yōu)化了對(duì)發(fā)布新聞的評(píng)論情況的預(yù)判性,其中,預(yù)設(shè)放大因子的設(shè)定因素包括發(fā)布新聞的時(shí)間、關(guān)鍵字熱度和獨(dú)創(chuàng)性等因素。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述預(yù)設(shè)放大因子的數(shù)值范圍為1~5。
根據(jù)本發(fā)明的第二方面的實(shí)施例,提出了一種新聞評(píng)論的預(yù)測系統(tǒng),包括:確定單元,用于確定發(fā)布新聞所屬的領(lǐng)域;獲取單元,用于獲取預(yù)設(shè)時(shí)間范圍內(nèi)用戶對(duì)所述領(lǐng)域的新聞的評(píng)論記錄集合;所述確定單元還用于:根據(jù)所述發(fā)布新聞的關(guān)鍵字,確定所述發(fā)布新聞屬于所述評(píng)論記錄集合的評(píng)論概率;所述確定單元還用于:在所述評(píng)論記錄集合中,確定用戶評(píng)論過的新聞數(shù)量與新聞總數(shù)的評(píng)論比例;所述新聞評(píng)論的預(yù)測系統(tǒng)還包括:預(yù)測單元,用于根據(jù)所述評(píng)論概率和所述評(píng)論比例對(duì)所述發(fā)布新聞的評(píng)論數(shù)目進(jìn)行預(yù)測。
在該技術(shù)方案中,通過獲取用戶對(duì)特定領(lǐng)域的新聞的評(píng)論記錄集合,并結(jié)合發(fā)布新聞的內(nèi)容提取關(guān)鍵字和用戶評(píng)論的隨機(jī)性概率,提高了對(duì)特定領(lǐng)域的發(fā)布新聞的評(píng)論進(jìn)行預(yù)測的準(zhǔn)確度,提高了對(duì)互聯(lián)網(wǎng)的輿論熱點(diǎn)新聞的宏觀預(yù)測能力和調(diào)控性。
其中,發(fā)布新聞所屬的領(lǐng)域包括體育領(lǐng)域、媒體領(lǐng)域、娛樂領(lǐng)域、政治領(lǐng)域、時(shí)尚領(lǐng)域和教育領(lǐng)域等,預(yù)設(shè)時(shí)間范圍是自發(fā)布新聞的時(shí)刻之前的時(shí)間段,如發(fā)布新聞前一天、一周和一個(gè)月等,獲取服務(wù)器中存儲(chǔ)的評(píng) 論記錄集合(包括評(píng)論用戶id、評(píng)論時(shí)間、評(píng)論內(nèi)容和評(píng)論頻率等),通過新聞內(nèi)容確定關(guān)鍵字,以及相應(yīng)的用戶的評(píng)論比例,確定了用戶評(píng)論的隨機(jī)性,另外,評(píng)論記錄集合從一定程度上反映了用戶對(duì)發(fā)布新聞的關(guān)注度,從而提高了對(duì)互聯(lián)網(wǎng)的輿論熱點(diǎn)新聞的宏觀預(yù)測能力和調(diào)控性。
在上述技術(shù)方案中,優(yōu)選地,所述獲取單元還用于:獲取所述預(yù)設(shè)時(shí)間范圍內(nèi),創(chuàng)建二維評(píng)論矩陣作為所述評(píng)論記錄集合,其中,所述二維評(píng)論矩陣中的任一元素表示為xij,所述二維評(píng)論矩陣中的行表示一個(gè)用戶,所述二維評(píng)論矩陣的列表示所述領(lǐng)域的一個(gè)新聞,所述賦值xij為1時(shí)表示所述一個(gè)用戶對(duì)所述領(lǐng)域的一個(gè)新聞進(jìn)行了評(píng)論,所述賦值xij為0時(shí)表示所述一個(gè)用戶未對(duì)所述領(lǐng)域的一個(gè)新聞進(jìn)行評(píng)論。
在該技術(shù)方案中,通過創(chuàng)建二維評(píng)論矩陣作為評(píng)論記錄集合,更加直觀地反映了用戶對(duì)發(fā)布新聞進(jìn)行評(píng)論的隨機(jī)概率,其中,二維評(píng)論矩陣采用余弦相似度算法進(jìn)行創(chuàng)建,每個(gè)元素xij還包含新聞的關(guān)鍵詞等標(biāo)識(shí)信息。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,還包括:計(jì)算單元,用于計(jì)算所述評(píng)論概率和所述評(píng)論比例的乘積,并作為一個(gè)用戶對(duì)所述發(fā)布新聞進(jìn)行評(píng)論的參考概率;所述計(jì)算單元還用于:對(duì)所有用戶的參考概率依次進(jìn)行歸一化處理,并進(jìn)行求和處理,以預(yù)測所述發(fā)布新聞的評(píng)論數(shù)目。
在該技術(shù)方案中,通過計(jì)算評(píng)論概率和評(píng)論比例的乘積,以及對(duì)參考概率進(jìn)行歸一化處理,提高了對(duì)發(fā)布信息的評(píng)論情況的預(yù)判性。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述確定單元還用于:在對(duì)所有用戶的參考概率依次進(jìn)行歸一化處理,并進(jìn)行求和處理后,確定參考評(píng)論數(shù)目;所述確定單元還用于:在檢測所述參考評(píng)論數(shù)目大于或等于所述評(píng)論閾值后,確定所述參考評(píng)論數(shù)目與預(yù)設(shè)放大因子的乘積作為所述評(píng)論數(shù)目,其中,所述預(yù)設(shè)放大因子大于或等于1。
在該技術(shù)方案中,通過對(duì)參考評(píng)論數(shù)目進(jìn)行判斷,并且增加預(yù)設(shè)放大因子,充分考慮了用戶在新聞評(píng)論過程中的從眾性,進(jìn)一步地優(yōu)化了對(duì)發(fā)布新聞的評(píng)論情況的預(yù)判性,其中,預(yù)設(shè)放大因子的設(shè)定因素包括發(fā)布新聞的時(shí)間、關(guān)鍵字熱度和獨(dú)創(chuàng)性等因素。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述預(yù)設(shè)放大因子的數(shù)值范圍為1~1.5。
通過以上技術(shù)方案,通過獲取用戶對(duì)特定領(lǐng)域的新聞的評(píng)論記錄集合,并結(jié)合發(fā)布新聞的內(nèi)容提取關(guān)鍵字和用戶評(píng)論的隨機(jī)性概率,提高了對(duì)特定領(lǐng)域的發(fā)布新聞的評(píng)論進(jìn)行預(yù)測的準(zhǔn)確度,提高了對(duì)互聯(lián)網(wǎng)的輿論熱點(diǎn)新聞的宏觀預(yù)測能力和調(diào)控性。
附圖說明
圖1示出了根據(jù)本發(fā)明的實(shí)施例的新聞評(píng)論的預(yù)測方法的示意流程圖;
圖2示出了根據(jù)本發(fā)明的實(shí)施例的新聞評(píng)論的預(yù)測系統(tǒng)的示意框圖。
具體實(shí)施方式
為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。
圖1示出了根據(jù)本發(fā)明的實(shí)施例的新聞評(píng)論的預(yù)測方法的示意流程圖。
如圖1所示,根據(jù)本發(fā)明的實(shí)施例的新聞評(píng)論的預(yù)測方法,包括:步驟102,確定發(fā)布新聞所屬的領(lǐng)域;步驟104,獲取預(yù)設(shè)時(shí)間范圍內(nèi)用戶對(duì)所述領(lǐng)域的新聞的評(píng)論記錄集合;步驟106,根據(jù)所述發(fā)布新聞的關(guān)鍵字,確定所述發(fā)布新聞屬于所述評(píng)論記錄集合的評(píng)論概率;步驟108,在所述評(píng)論記錄集合中,確定用戶評(píng)論過的新聞數(shù)量與新聞總數(shù)的評(píng)論比例;步驟110,根據(jù)所述評(píng)論概率和所述評(píng)論比例對(duì)所述發(fā)布新聞的評(píng)論數(shù)目進(jìn)行預(yù)測。
在該技術(shù)方案中,通過獲取用戶對(duì)特定領(lǐng)域的新聞的評(píng)論記錄集合, 并結(jié)合發(fā)布新聞的內(nèi)容提取關(guān)鍵字和用戶評(píng)論的隨機(jī)性概率,提高了對(duì)特定領(lǐng)域的發(fā)布新聞的評(píng)論進(jìn)行預(yù)測的準(zhǔn)確度,提高了對(duì)互聯(lián)網(wǎng)的輿論熱點(diǎn)新聞的宏觀預(yù)測能力和調(diào)控性。
其中,發(fā)布新聞所屬的領(lǐng)域包括體育領(lǐng)域、媒體領(lǐng)域、娛樂領(lǐng)域、政治領(lǐng)域、時(shí)尚領(lǐng)域和教育領(lǐng)域等,預(yù)設(shè)時(shí)間范圍是自發(fā)布新聞的時(shí)刻之前的時(shí)間段,如發(fā)布新聞前一天、一周和一個(gè)月等,獲取服務(wù)器中存儲(chǔ)的評(píng)論記錄集合(包括評(píng)論用戶id、評(píng)論時(shí)間、評(píng)論內(nèi)容和評(píng)論頻率等),通過新聞內(nèi)容確定關(guān)鍵字,以及相應(yīng)的用戶的評(píng)論比例,確定了用戶評(píng)論的隨機(jī)性,另外,評(píng)論記錄集合從一定程度上反映了用戶對(duì)發(fā)布新聞的關(guān)注度,從而提高了對(duì)互聯(lián)網(wǎng)的輿論熱點(diǎn)新聞的宏觀預(yù)測能力和調(diào)控性。
在上述技術(shù)方案中,優(yōu)選地,獲取預(yù)設(shè)時(shí)間范圍內(nèi)用戶對(duì)所述領(lǐng)域的新聞的評(píng)論記錄集合,具體包括以下步驟:獲取所述預(yù)設(shè)時(shí)間范圍內(nèi),創(chuàng)建二維評(píng)論矩陣作為所述評(píng)論記錄集合,其中,所述二維評(píng)論矩陣中的任一元素表示為xij,所述二維評(píng)論矩陣中的行表示一個(gè)用戶,所述二維評(píng)論矩陣的列表示所述領(lǐng)域的一個(gè)新聞,所述賦值xij為1時(shí)表示所述一個(gè)用戶對(duì)所述領(lǐng)域的一個(gè)新聞進(jìn)行了評(píng)論,所述賦值xij為0時(shí)表示所述一個(gè)用戶未對(duì)所述領(lǐng)域的一個(gè)新聞進(jìn)行評(píng)論。
在該技術(shù)方案中,通過創(chuàng)建二維評(píng)論矩陣作為評(píng)論記錄集合,更加直觀地反映了用戶對(duì)發(fā)布新聞進(jìn)行評(píng)論的隨機(jī)概率,其中,二維評(píng)論矩陣采用余弦相似度算法進(jìn)行創(chuàng)建,每個(gè)元素xij還包含新聞的關(guān)鍵詞等標(biāo)識(shí)信息。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,根據(jù)所述評(píng)論概率和所述評(píng)論比例對(duì)所述發(fā)布新聞的評(píng)論數(shù)目進(jìn)行預(yù)測,具體包括以下步驟:計(jì)算所述評(píng)論概率和所述評(píng)論比例的乘積,并作為一個(gè)用戶對(duì)所述發(fā)布新聞進(jìn)行評(píng)論的參考概率;對(duì)所有用戶的參考概率依次進(jìn)行歸一化處理,并進(jìn)行求和處理,以預(yù)測所述發(fā)布新聞的評(píng)論數(shù)目。
在該技術(shù)方案中,通過計(jì)算評(píng)論概率和評(píng)論比例的乘積,以及對(duì)參考概率進(jìn)行歸一化處理,提高了對(duì)發(fā)布信息的評(píng)論情況的預(yù)判性。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,對(duì)所有用戶的參考概率依次進(jìn)行 歸一化處理,并進(jìn)行求和處理,以預(yù)測所述發(fā)布新聞的評(píng)論數(shù)目,具體包括以下步驟:在對(duì)所有用戶的參考概率依次進(jìn)行歸一化處理,并進(jìn)行求和處理后,確定參考評(píng)論數(shù)目;在檢測所述參考評(píng)論數(shù)目大于或等于所述評(píng)論閾值后,確定所述參考評(píng)論數(shù)目與預(yù)設(shè)放大因子的乘積作為所述評(píng)論數(shù)目,其中,所述預(yù)設(shè)放大因子大于或等于1。
在該技術(shù)方案中,通過對(duì)參考評(píng)論數(shù)目進(jìn)行判斷,并且增加預(yù)設(shè)放大因子,充分考慮了用戶在新聞評(píng)論過程中的從眾性,進(jìn)一步地優(yōu)化了對(duì)發(fā)布新聞的評(píng)論情況的預(yù)判性,其中,預(yù)設(shè)放大因子的設(shè)定因素包括發(fā)布新聞的時(shí)間、關(guān)鍵字熱度和獨(dú)創(chuàng)性等因素。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述預(yù)設(shè)放大因子的數(shù)值范圍為1~5。
圖2示出了根據(jù)本發(fā)明的實(shí)施例的新聞評(píng)論的預(yù)測系統(tǒng)的示意框圖。
如圖2所示,根據(jù)本發(fā)明的實(shí)施例的新聞評(píng)論的預(yù)測系統(tǒng)200,包括:確定單元202,用于確定發(fā)布新聞所屬的領(lǐng)域;獲取單元204,用于獲取預(yù)設(shè)時(shí)間范圍內(nèi)用戶對(duì)所述領(lǐng)域的新聞的評(píng)論記錄集合;所述確定單元202還用于:根據(jù)所述發(fā)布新聞的關(guān)鍵字,確定所述發(fā)布新聞屬于所述評(píng)論記錄集合的評(píng)論概率;所述確定單元202還用于:在所述評(píng)論記錄集合中,確定用戶評(píng)論過的新聞數(shù)量與新聞總數(shù)的評(píng)論比例;所述新聞評(píng)論的預(yù)測系統(tǒng)還包括:預(yù)測單元206,用于根據(jù)所述評(píng)論概率和所述評(píng)論比例對(duì)所述發(fā)布新聞的評(píng)論數(shù)目進(jìn)行預(yù)測。
在該技術(shù)方案中,通過獲取用戶對(duì)特定領(lǐng)域的新聞的評(píng)論記錄集合,并結(jié)合發(fā)布新聞的內(nèi)容提取關(guān)鍵字和用戶評(píng)論的隨機(jī)性概率,提高了對(duì)特定領(lǐng)域的發(fā)布新聞的評(píng)論進(jìn)行預(yù)測的準(zhǔn)確度,提高了對(duì)互聯(lián)網(wǎng)的輿論熱點(diǎn)新聞的宏觀預(yù)測能力和調(diào)控性。
其中,發(fā)布新聞所屬的領(lǐng)域包括體育領(lǐng)域、媒體領(lǐng)域、娛樂領(lǐng)域、政治領(lǐng)域、時(shí)尚領(lǐng)域和教育領(lǐng)域等,預(yù)設(shè)時(shí)間范圍是自發(fā)布新聞的時(shí)刻之前的時(shí)間段,如發(fā)布新聞前一天、一周和一個(gè)月等,獲取服務(wù)器中存儲(chǔ)的評(píng)論記錄集合(包括評(píng)論用戶id、評(píng)論時(shí)間、評(píng)論內(nèi)容和評(píng)論頻率等),通過新聞內(nèi)容確定關(guān)鍵字,以及相應(yīng)的用戶的評(píng)論比例,確定了用戶評(píng)論 的隨機(jī)性,另外,評(píng)論記錄集合從一定程度上反映了用戶對(duì)發(fā)布新聞的關(guān)注度,從而提高了對(duì)互聯(lián)網(wǎng)的輿論熱點(diǎn)新聞的宏觀預(yù)測能力和調(diào)控性。
在上述技術(shù)方案中,優(yōu)選地,所述獲取單元204還用于:獲取所述預(yù)設(shè)時(shí)間范圍內(nèi),創(chuàng)建二維評(píng)論矩陣作為所述評(píng)論記錄集合,其中,所述二維評(píng)論矩陣中的任一元素表示為xij,所述二維評(píng)論矩陣中的行表示一個(gè)用戶,所述二維評(píng)論矩陣的列表示所述領(lǐng)域的一個(gè)新聞,所述賦值xij為1時(shí)表示所述一個(gè)用戶對(duì)所述領(lǐng)域的一個(gè)新聞進(jìn)行了評(píng)論,所述賦值xij為0時(shí)表示所述一個(gè)用戶未對(duì)所述領(lǐng)域的一個(gè)新聞進(jìn)行評(píng)論。
在該技術(shù)方案中,通過創(chuàng)建二維評(píng)論矩陣作為評(píng)論記錄集合,更加直觀地反映了用戶對(duì)發(fā)布新聞進(jìn)行評(píng)論的隨機(jī)概率,其中,二維評(píng)論矩陣采用余弦相似度算法進(jìn)行創(chuàng)建,每個(gè)元素xij還包含新聞的關(guān)鍵詞等標(biāo)識(shí)信息。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,還包括:計(jì)算單元208,用于計(jì)算所述評(píng)論概率和所述評(píng)論比例的乘積,并作為一個(gè)用戶對(duì)所述發(fā)布新聞進(jìn)行評(píng)論的參考概率;所述計(jì)算單元208還用于:對(duì)所有用戶的參考概率依次進(jìn)行歸一化處理,并進(jìn)行求和處理,以預(yù)測所述發(fā)布新聞的評(píng)論數(shù)目。
在該技術(shù)方案中,通過計(jì)算評(píng)論概率和評(píng)論比例的乘積,以及對(duì)參考概率進(jìn)行歸一化處理,提高了對(duì)發(fā)布信息的評(píng)論情況的預(yù)判性。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述確定單元202還用于:在對(duì)所有用戶的參考概率依次進(jìn)行歸一化處理,并進(jìn)行求和處理后,確定參考評(píng)論數(shù)目;所述確定單元202還用于:在檢測所述參考評(píng)論數(shù)目大于或等于所述評(píng)論閾值后,確定所述參考評(píng)論數(shù)目與預(yù)設(shè)放大因子的乘積作為所述評(píng)論數(shù)目,其中,所述預(yù)設(shè)放大因子大于或等于1。
在該技術(shù)方案中,通過對(duì)參考評(píng)論數(shù)目進(jìn)行判斷,并且增加預(yù)設(shè)放大因子,充分考慮了用戶在新聞評(píng)論過程中的從眾性,進(jìn)一步地優(yōu)化了對(duì)發(fā)布新聞的評(píng)論情況的預(yù)判性,其中,預(yù)設(shè)放大因子的設(shè)定因素包括發(fā)布新聞的時(shí)間、關(guān)鍵字熱度和獨(dú)創(chuàng)性等因素。
在上述任一項(xiàng)技術(shù)方案中,優(yōu)選地,所述預(yù)設(shè)放大因子的數(shù)值范圍為 1~1.5。
以體育領(lǐng)域的發(fā)布新聞為例,對(duì)根據(jù)本發(fā)明的新聞評(píng)論的預(yù)測方案進(jìn)行說明:
(1)首先,特定領(lǐng)域新聞及其評(píng)論的訓(xùn)練集獲取。例如選擇體育類新聞報(bào)道領(lǐng)域,需要收集過去一段時(shí)期內(nèi),門戶網(wǎng)站上體育頻道的新聞作為正向樣本,選取其它新聞?lì)l道的新聞作為負(fù)向樣本。然后,利用支持向量機(jī)構(gòu)造文本分類器,識(shí)別新發(fā)新聞是否屬于體育新聞。
(2)收集過去一段時(shí)期內(nèi),特定領(lǐng)域新聞的評(píng)論數(shù)據(jù),例如門戶網(wǎng)站上體育頻道的新聞以及對(duì)應(yīng)的評(píng)論內(nèi)容數(shù)據(jù)。假設(shè)在一段時(shí)間范圍內(nèi),共有m個(gè)用戶,n篇新聞。構(gòu)造用戶-新聞評(píng)論矩陣x(即上述二維評(píng)論矩陣),行是用戶,列是新聞,xij元素,為1表示用戶ui評(píng)論新聞tj,0表示沒有評(píng)論。用戶-新聞評(píng)論矩陣x如下所示:
(3)通常綜合門戶網(wǎng)站上新聞的評(píng)論數(shù)據(jù)很稀疏,網(wǎng)站上瀏覽某新聞的用戶占網(wǎng)站只是小部分用戶,而參與評(píng)論的用戶比瀏覽用戶更少,這造成了用戶-新聞評(píng)論矩陣x非常稀疏。在特定新聞?lì)I(lǐng)域內(nèi),用戶ui評(píng)論新聞集為t(ui)={tj|xij≠0},集合大小記為ni。當(dāng)用戶ui看到該領(lǐng)域新發(fā)新聞t時(shí),評(píng)論的概率正比于該新聞t來自該用戶的評(píng)論新聞集t(ui)的模型的概率,評(píng)論的概率記作p(ui,t),prob表征求概率函數(shù),計(jì)算公式為:
p(ui,t)=prob(t∈t(ui))。
(4)用戶看到該領(lǐng)域新發(fā)新聞為隨機(jī)變量s,看到的概率正比于用戶-新聞評(píng)論矩陣x中該用戶所看過的新聞數(shù)ni和總的新聞數(shù)n之比。那么,所有已知用戶對(duì)新聞t的參考評(píng)論數(shù)cr(t)的計(jì)算公式如下所示:
(5)由于從眾效應(yīng),高評(píng)論次數(shù)的新聞往往吸引更多用戶,包含新 用戶(相對(duì)用戶-新聞評(píng)論矩陣x中的已有用戶)評(píng)論新聞,但是隨著時(shí)間推移,新增評(píng)論用戶逐漸變少。c0為評(píng)論次數(shù)的閾值,當(dāng)參考評(píng)論數(shù)目cr(t)超過閾值c0時(shí),引入放大因子α,α大于1。預(yù)測新發(fā)新聞t的評(píng)論次數(shù)c(t)公式如下:
以上結(jié)合附圖詳細(xì)說明了本發(fā)明的技術(shù)方案,考慮到如何提高新聞?lì)l率的預(yù)測方案的準(zhǔn)確性的技術(shù)問題。因此,本發(fā)明提出了一種新的新聞評(píng)論的預(yù)測方案,通過獲取用戶對(duì)特定領(lǐng)域的新聞的評(píng)論記錄集合,并結(jié)合發(fā)布新聞的內(nèi)容提取關(guān)鍵字和用戶評(píng)論的隨機(jī)性概率,提高了對(duì)特定領(lǐng)域的發(fā)布新聞的評(píng)論進(jìn)行預(yù)測的準(zhǔn)確度,提高了對(duì)互聯(lián)網(wǎng)的輿論熱點(diǎn)新聞的宏觀預(yù)測能力和調(diào)控性。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。