網(wǎng)絡(luò)內(nèi)容質(zhì)量評價(jià)方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及網(wǎng)絡(luò)內(nèi)容,尤其涉及網(wǎng)絡(luò)內(nèi)容質(zhì)量評價(jià)方法和裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)及其相關(guān)技術(shù)的發(fā)展,現(xiàn)今人們花在線上活動(dòng)上的時(shí)間越來越多。例如,人們會在線閱讀書籍(例如,連載的小說),在線收聽音樂和網(wǎng)絡(luò)電臺,在線選擇自己喜歡的APP進(jìn)行下載等。
[0003]由于上述網(wǎng)絡(luò)內(nèi)容(例如,書籍、音樂和網(wǎng)絡(luò)電臺、APP等)的大量存在,如何對這些內(nèi)容進(jìn)行更為合理的篩選成為課題。例如,可以使用搜索引擎進(jìn)行關(guān)鍵字搜索,根據(jù)排行榜和分類列表進(jìn)行選擇等。
[0004]現(xiàn)有搜索引擎對搜索結(jié)果的排序通常主要根據(jù)相關(guān)性和熱門度進(jìn)行。在例如單純對信息進(jìn)行搜索的情況下,這種搜索方式效果良好。但是對于某些種類的搜索(例如,書籍,尤其是連載的網(wǎng)絡(luò)小說),由于一本小說可能被大量不同網(wǎng)站轉(zhuǎn)載,即使同一本小說在不同網(wǎng)站也會有不同的標(biāo)題,更有不同質(zhì)量的問題,所以依據(jù)上述兩個(gè)特征對小說搜索結(jié)果排序時(shí)可能抓取到大量低質(zhì)重復(fù)的書。
[0005]根據(jù)本申請人另一待決申請“一種基于simhash和章節(jié)匹配的同本識別”所公開的方法,可以做到識別出“同本”,但并不能判斷出這些“同本”的書籍哪本質(zhì)量更好,哪本更適合在排序中優(yōu)先展示。
[0006]另外,對于能夠根據(jù)某些參數(shù)對其質(zhì)量本身進(jìn)行評價(jià)的網(wǎng)絡(luò)內(nèi)容,諸如音樂、網(wǎng)絡(luò)電臺和APP等,同樣存在對其質(zhì)量進(jìn)行評價(jià)以方便用戶選擇的需要。
[0007]因此,我們需要一種網(wǎng)絡(luò)內(nèi)容質(zhì)量評價(jià)方法及裝置。
【發(fā)明內(nèi)容】
[0008]本發(fā)明所要解決的一個(gè)技術(shù)問題是提供一種網(wǎng)絡(luò)內(nèi)容質(zhì)量評價(jià)方法和裝置,其能夠?qū)W(wǎng)絡(luò)內(nèi)容本身的質(zhì)量做出評價(jià),由此方便人們對網(wǎng)絡(luò)內(nèi)容進(jìn)行選擇。
[0009]根據(jù)本發(fā)明的一個(gè)方面,公開了一種網(wǎng)絡(luò)內(nèi)容質(zhì)量評價(jià)方法,包括:獲取網(wǎng)絡(luò)內(nèi)容的內(nèi)容質(zhì)量特征,所述內(nèi)容質(zhì)量特征包括目錄特征、來源質(zhì)量特征、元信息特征以及主體質(zhì)量特征中的至少一項(xiàng)特征;計(jì)算所述至少一項(xiàng)特征中每一項(xiàng)的特征分值;以及根據(jù)所述特征分值計(jì)算所述網(wǎng)絡(luò)內(nèi)容的質(zhì)量分。
[0010]由此,就能夠根據(jù)網(wǎng)絡(luò)內(nèi)容的諸如目錄特征、來源、元信息和主體質(zhì)量的至少一個(gè)方面來具體實(shí)現(xiàn)對網(wǎng)絡(luò)內(nèi)容本身質(zhì)量的評價(jià),從而為基于質(zhì)量的網(wǎng)絡(luò)內(nèi)容推選提供基礎(chǔ)。
[0011]優(yōu)選地,網(wǎng)絡(luò)內(nèi)容是由如下各項(xiàng)中的任一項(xiàng):書籍、音樂、APP、網(wǎng)絡(luò)電臺。
[0012]對于書籍(例如,連載的網(wǎng)絡(luò)小說)而言,就可以根據(jù)該書籍本身的目錄特征、書籍來源、書籍元信息及其正文質(zhì)量(即,書籍的主體質(zhì)量)等來評價(jià)書籍本身的質(zhì)量。
[0013]對于音樂而言,可以對其諸如音軌或光盤編號的目錄特征、源自諸如QQ音樂或是百度音樂的來源特征、諸如專輯、歌手、歌曲名的元信息特征、以及歌曲星級評價(jià)等的主體質(zhì)量特征中的至少一項(xiàng)來具體評價(jià)音樂質(zhì)量。
[0014]對于APP和網(wǎng)絡(luò)電臺而言,也可以針對其具體的目錄、來源、元信息和主體質(zhì)量的至少一項(xiàng)來具體評價(jià)其質(zhì)量。
[0015]優(yōu)選地,內(nèi)容質(zhì)量特征包括目錄特征、來源質(zhì)量特征、元信息特征以及主體質(zhì)量特征中的至少兩項(xiàng)特征。并且本發(fā)明所公開的網(wǎng)絡(luò)內(nèi)容質(zhì)量評價(jià)方法還包括:為所述至少兩項(xiàng)特征中的每一項(xiàng)分配特征權(quán)重,其中,通過對所述至少兩項(xiàng)特征的特征分值進(jìn)行加權(quán)求和來計(jì)算所述網(wǎng)絡(luò)內(nèi)容的質(zhì)量分。
[0016]這樣,就能夠根據(jù)網(wǎng)絡(luò)內(nèi)容的諸如目錄特征、來源、元信息和主體質(zhì)量的至少兩個(gè)方面,并在考慮這些方面的不同的重要性的情況下具體實(shí)現(xiàn)對網(wǎng)絡(luò)內(nèi)容本身質(zhì)量的評價(jià),從而使得質(zhì)量評價(jià)更為全面、靈活和準(zhǔn)確。
[0017]優(yōu)選地,目錄特征包括以下特征中的一項(xiàng)或多項(xiàng):更新及時(shí)率;空章率;無用章率;章節(jié)長度;為所述網(wǎng)絡(luò)內(nèi)容的主站分配的主站權(quán)威分;以及該主站的實(shí)際章節(jié)率。
[0018]這樣,就能夠根據(jù)更細(xì)化的參數(shù)來評價(jià)目錄特征,從而進(jìn)一步提高內(nèi)容質(zhì)量評價(jià)的全面性和準(zhǔn)確性。
[0019]優(yōu)選地,更新分=Time_gap~[l/(Time_gap+l)],其中 Time_gap = 1_(當(dāng)前時(shí)間-最后更新時(shí)間)/30天且位于區(qū)間[0,I]內(nèi),當(dāng)最后更新時(shí)間超過30天時(shí),Time_gap為O ;并且/或者
[0020]空章率=空章節(jié)數(shù)/章節(jié)總數(shù);并且/或者
[0021]無用章率=無用章節(jié)數(shù)/章節(jié)總數(shù);并且/或者
[0022]章節(jié)長度=章節(jié)數(shù)/1000,其中章節(jié)數(shù)是I到1000之間的整數(shù),當(dāng)章節(jié)數(shù)大于1000時(shí),章節(jié)長度取值為I ;并且/或者
[0023]主站權(quán)威分取值為:
[0024]如果主站權(quán)威分值高于一定閾值或者轉(zhuǎn)載量多于一定數(shù)量的站點(diǎn),則直接使用主站自身的權(quán)威分,否則根據(jù)轉(zhuǎn)載量增加主站自身的權(quán)威分得到最終的主站權(quán)威分;并且/或者
[0025]實(shí)際章節(jié)率=主站章節(jié)數(shù)/平均章節(jié)數(shù),其中平均章節(jié)數(shù)是所述網(wǎng)絡(luò)內(nèi)容所有來源的平均章節(jié)數(shù),但當(dāng)主站章節(jié)數(shù)不小于平均章節(jié)數(shù)時(shí),實(shí)際章節(jié)率為I。
[0026]這樣,就能夠更為方便準(zhǔn)確的計(jì)算更新分、空章率、無用章率、章節(jié)長度、主站權(quán)威分和實(shí)際章節(jié)率,從而為實(shí)現(xiàn)質(zhì)量分的準(zhǔn)確快速計(jì)算提供了進(jìn)一步的基礎(chǔ)。
[0027]優(yōu)選地,如下求取所述目錄特征分:更新分、空章率、無用章率和章節(jié)長度相加,其中每個(gè)特征都乘以主站權(quán)威分及實(shí)際章節(jié)率,且目錄特征分值的取值范圍為[0,I]。
[0028]這樣,就能夠更為方便準(zhǔn)確地計(jì)算目錄特征分,從而為實(shí)現(xiàn)質(zhì)量分的準(zhǔn)確快速計(jì)算提供了再進(jìn)一步的基礎(chǔ)。
[0029]優(yōu)選地,質(zhì)量分的計(jì)算可以包括以下取值的一項(xiàng)或多項(xiàng):
[0030]來源特征分=Ave_host_score* (l+Host_factor),且所述來源特征分的取值范圍為[0,I],其中小說所有來源站的平均權(quán)重Ave_host_score = (Σ host_score) /host_num,host_num是來源站數(shù)且host_score是來源站各自的權(quán)重,而來源數(shù)權(quán)重Host_factor =host_num/30,其中host_num是I到30之間的整數(shù),當(dāng)host_num大于30時(shí),來源數(shù)權(quán)重取值為I ;并且/或者
[0031]元信息特征分=一級目錄分+ 二級目錄分+圖片信息分+標(biāo)簽分+簡介分,其中一級目錄分、二級目錄分、圖片信息分、標(biāo)簽分和簡介分各自在一級目錄、二級目錄、圖片信息、標(biāo)簽和簡介存在時(shí)取值為0.2,否則為O ;并且/或者
[0032]主體質(zhì)量分=所有章節(jié)的總得分/章節(jié)數(shù),且主體質(zhì)量分的取值范圍為[0,I]。
[0033]這樣,就在方便準(zhǔn)確地計(jì)算目錄特征之外,進(jìn)一步實(shí)現(xiàn)了對來源特征分、元信息特征分和正文質(zhì)量分的方便準(zhǔn)確的計(jì)算,從而為實(shí)現(xiàn)質(zhì)量分的準(zhǔn)確快速計(jì)算提供了又進(jìn)一步的基礎(chǔ)。
[0034]優(yōu)選地,如下求取所述網(wǎng)絡(luò)內(nèi)容的質(zhì)量分:以6:1:3:5的比例加權(quán)相加目錄特征分、元信息特征分、來源特征分和正文質(zhì)量特征分得到最終的質(zhì)量分。
[0035]這樣,就進(jìn)一步優(yōu)化了最終質(zhì)量分的計(jì)算過程,從而為參考質(zhì)量分進(jìn)行選擇提供了基礎(chǔ)。
[0036]根據(jù)本發(fā)明的另一個(gè)方面,公開了一種對多個(gè)網(wǎng)絡(luò)內(nèi)容進(jìn)行排序的方法,包括:使用根據(jù)上述任一方法或優(yōu)選方法來為所述多個(gè)網(wǎng)絡(luò)內(nèi)容中每一個(gè)評定質(zhì)量分;以及以所述質(zhì)量分作為排序依據(jù)之一對所述多個(gè)網(wǎng)絡(luò)內(nèi)容進(jìn)行排序。
[0037]由此,就能夠根據(jù)網(wǎng)絡(luò)內(nèi)容本身的質(zhì)量分來對多個(gè)網(wǎng)絡(luò)內(nèi)容進(jìn)行排序,從而提高排序的準(zhǔn)確性,方便用戶對網(wǎng)絡(luò)內(nèi)容的選擇。
[0038]優(yōu)選地,對多個(gè)網(wǎng)絡(luò)進(jìn)行排序包括:響應(yīng)于用戶的網(wǎng)絡(luò)內(nèi)容查詢請求而對搜索得到的多個(gè)網(wǎng)絡(luò)內(nèi)容進(jìn)行排序;或者以網(wǎng)絡(luò)內(nèi)容分類列表來排序多個(gè)網(wǎng)絡(luò)內(nèi)容;或者以排行榜單來排序多個(gè)網(wǎng)絡(luò)內(nèi)容。
[0039]這樣,用戶就能夠通過關(guān)鍵字搜索、分類列表和排行榜來得到考慮了網(wǎng)絡(luò)內(nèi)容本身質(zhì)量的排序,從而具體化了用戶選擇網(wǎng)絡(luò)內(nèi)容的途徑。
[0040]根據(jù)本發(fā)明的再一個(gè)方面,提供了一種網(wǎng)絡(luò)內(nèi)容質(zhì)量評價(jià)裝置,包括:用于獲取網(wǎng)絡(luò)內(nèi)容的內(nèi)容質(zhì)量特征的特征獲取單元,所述內(nèi)容質(zhì)量特征包括目錄特征、來源質(zhì)量特征、元信息特征以及主體質(zhì)量特征中的至少一項(xiàng)特征;用于計(jì)算所述至少一項(xiàng)特征中每一項(xiàng)的特征分值的特征分計(jì)算單元;以及用于根據(jù)所述特征分值計(jì)算所述網(wǎng)絡(luò)內(nèi)容的質(zhì)量分的質(zhì)量分計(jì)算單元。
[0041]優(yōu)選地,所述內(nèi)容質(zhì)量特征包括目錄特征、來源質(zhì)量特征、元信息特征以及正文質(zhì)量特征中的至少兩項(xiàng)特征,該裝置還包括用于為所述至少兩項(xiàng)特征中的每一項(xiàng)分配特征權(quán)重的權(quán)重分配單元,其中,所述質(zhì)量分計(jì)算單元通過對所述至少兩項(xiàng)特征的特征分值進(jìn)行加權(quán)求和來計(jì)算所述網(wǎng)絡(luò)內(nèi)容的質(zhì)量分。
[0042]由此,就為實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)容質(zhì)量分的計(jì)算提供了裝置支持。
[0043]根據(jù)本發(fā)明的再一個(gè)方面,提供了一種對多個(gè)網(wǎng)絡(luò)內(nèi)容進(jìn)行排序的系統(tǒng),包括:如上所述的網(wǎng)絡(luò)內(nèi)容質(zhì)量評價(jià)裝置,所述裝置為所述多個(gè)網(wǎng)絡(luò)內(nèi)容中每一個(gè)評定質(zhì)量分;以及排序裝置,用于以所述質(zhì)量分作為排序依據(jù)之一對所述多個(gè)網(wǎng)絡(luò)內(nèi)容進(jìn)行排序。
[0044]優(yōu)選地,所述排序裝置包括:搜索排序單元,用于響應(yīng)于用戶的網(wǎng)絡(luò)內(nèi)容查詢請求而對搜索得到的多