欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

一種基于模糊線性回歸的電影票房預(yù)測方法與流程

文檔序號:11678219閱讀:690來源:國知局
本發(fā)明涉及計算機領(lǐng)域,其中涉及一種基于聚類的模糊線性回歸(flr,fuzzylinearregression)的票房預(yù)測方法,尤其涉及一種基于模糊線性回歸的電影票房預(yù)測方法。
背景技術(shù)
::根據(jù)國家新聞出版光電總局電影局?jǐn)?shù)據(jù),2016年全國電影總票房為457.12億元,同比增長3.73%,相較于2015年48.7%的增幅大幅跳水。多家上市公司新入戰(zhàn)局,票房市場競爭愈發(fā)激烈。2016年全國票房總數(shù)微超去年。中國已經(jīng)成為世界第二大電影市場,并在不斷縮小與北美市場的差距,中國電影業(yè)迸發(fā)出強勁活力。國產(chǎn)電影產(chǎn)量增加,質(zhì)量不斷提升,類型進一步豐富。從票房和電影評論來看,國產(chǎn)電影受到了市場的認(rèn)可和觀眾的廣泛歡迎。電影產(chǎn)業(yè)的快速發(fā)展也吸引了大量的投資者投資,但現(xiàn)在電影市場的盈虧確實不容樂觀。每年投拍的電影只是部分上映,且上映的電影中,大約只有20%左右是盈利,10%收支平衡,剩下的70%處于虧損狀態(tài)。如何提前預(yù)估票房,確保電影發(fā)行投資回報率,控制發(fā)行風(fēng)險,對電影票房的預(yù)測就顯得尤為重要。但是,由于電影票房的樣本不一致性,比如,著名導(dǎo)演王晶2016拍攝的電影《澳門風(fēng)云3》票房收入高達11.17億,而其2013年拍攝的電影《百家樂翻天》票房僅222萬。對于同一個導(dǎo)演,或者演員,并不能保證其所有電影都具有高收入,且影響票房的因素眾多,如導(dǎo)演、演員、電影類型、檔期、同檔期的競爭作品、制作公司,觀眾評價等,它們都與票房收入密不可分,這些因素與票房之間并非單純的一一映射關(guān)系,因此極難進行精確預(yù)測。電影票房的研究從20世紀(jì)四十年代的“觀眾研究”開始,初期研究目的是解釋票房成敗,提高票房成績。后有巴瑞·李特曼的票房預(yù)測模型《電影經(jīng)濟成功預(yù)測:基于八十年代人的經(jīng)驗》的發(fā)表,成為電影票房預(yù)測的標(biāo)志性起點,其論文給出了電影票房研究的基本方法和模型。21世紀(jì)后,隨著數(shù)據(jù)庫的發(fā)展及大數(shù)據(jù)的興起,使得對歷史數(shù)據(jù)的挖掘利用成為可能。這也促使美國相關(guān)電影市場分析公司大量出現(xiàn),如boxofficemojo,他們的票房預(yù)測結(jié)果為全美超過半數(shù)的影院提供決策與參考。據(jù)不完全統(tǒng)計,已有將近300余種預(yù)測方法應(yīng)用于各個科學(xué)領(lǐng)域中,這些預(yù)測方法目前在電影票房的預(yù)測研究中也得到廣泛應(yīng)用,根據(jù)目前研究文獻,用于電影票房預(yù)測模型和方法主要分為以下幾類:基于反饋神經(jīng)網(wǎng)絡(luò)的方法、基于多元線性網(wǎng)絡(luò)的方法、基于多層神經(jīng)網(wǎng)絡(luò)的方法。2006年sharda等在《predictingbox-officesuccessofmotionpictureswithneuralnetworks》一文中提出使用神經(jīng)網(wǎng)絡(luò)的方法來預(yù)測電影票房所屬的分類(文中將電影從爛片到超級大片劃分為9類)。但其簡單使用0和1來量化影響電影票房的眾多影響因素,處理方式粗糙模糊,不能明確體現(xiàn)不同因素對電影票房產(chǎn)生的作用的差異性。且神經(jīng)網(wǎng)絡(luò)容易陷入局部最優(yōu),收斂速度較慢,甚至不收斂,網(wǎng)絡(luò)訓(xùn)練效率低。2009年,張玉松等以2000年至2007年在中國大陸上映的103部進口影片為研究對象,根據(jù)國內(nèi)市場情況,采用了電影投資、電影質(zhì)量、導(dǎo)演、演員、電影續(xù)集和盜版等六個自變量,建立了影響因子和票房之間的線性回歸模型。2013年,google在一份名為《quantifyingmoviemagicwithgooglesearch》的白皮書中公布了其基于線性回歸分析的電影票房預(yù)測模型,google在文中宣稱其模型對于電影票房預(yù)測的準(zhǔn)確度達到了94%。但它是基于電影上映前一周的系列數(shù)據(jù)來預(yù)測電影票房,并非電影未拍攝時票房預(yù)估。目前更多的研究是基于電影制作完成后,網(wǎng)絡(luò)口碑,微博數(shù)據(jù),營銷宣傳力度,mapp評分等因素的,不能為電影拍攝前期投資與制作提供決策參考。而在2014年鄭堅的《基于神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測建?!芬晃闹?,使用的是導(dǎo)演、演員、類型等屬性,在電影拍攝前便可以獲得。采用反饋神經(jīng)網(wǎng)絡(luò)的算法對電影票房進行預(yù)測,可為電影上映前對投資者的決策、電影宣傳以及風(fēng)險評估提供較可靠的參考。然而數(shù)據(jù)源于中國票房網(wǎng),由于中國票房網(wǎng)固定每周日更新數(shù)據(jù),使得第一周票房顯示數(shù)據(jù)可能僅為周日一天的數(shù)據(jù),也可能是周一至周日總票房收入,與原始數(shù)據(jù)差距大,將這些記錄數(shù)據(jù)用于模型的分析將導(dǎo)致量化誤差大,且由于bp神經(jīng)網(wǎng)絡(luò)的不穩(wěn)定性,導(dǎo)致該算法波動很大,算法預(yù)測效果不理想。這就亟需本領(lǐng)域技術(shù)人員解決相應(yīng)的技術(shù)問題。技術(shù)實現(xiàn)要素:本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題,特別創(chuàng)新地提出了一種基于模糊線性回歸的電影票房預(yù)測方法。本發(fā)明旨在解決現(xiàn)有技術(shù)中預(yù)測不穩(wěn)定,收斂速度慢,預(yù)測效果不理想的問題,特別提出一種穩(wěn)定的、且有效的電影票房預(yù)測算法。為了實現(xiàn)本發(fā)明的上述目的,本發(fā)明提供了一種基于模糊線性回歸的電影票房預(yù)測方法,包括如下步驟:s1,對電影票房的影響因素進行權(quán)值量化,得到該影響因素的權(quán)值,進行聚類過程;s2,將量化后的權(quán)值通過模糊線性回歸模型進行求解;s3,輸入訓(xùn)練樣本,求解回歸系數(shù),得到訓(xùn)練后的回歸方程,輸入測試樣本,得到預(yù)測值。s4,根據(jù)樣本的預(yù)測值,計算樣本與真值之間的相對百分誤差,并計算樣本相對百分誤差的概率分布,直觀反映預(yù)測效果。所述的基于模糊線性回歸的電影票房預(yù)測方法,優(yōu)選的,所述影響因素包括:本文中所使用的電影票房都是經(jīng)過通貨膨脹調(diào)整后的票房。導(dǎo)演權(quán)值量化:導(dǎo)演影響因子取值為該導(dǎo)演平均票房值,計算方法:其中,i表示第i名導(dǎo)演;j表示第i名導(dǎo)演參與拍攝的第j部電影;m表示第i名導(dǎo)演參與拍攝的所有電影數(shù)目;δ為衰減系數(shù);year表示當(dāng)前參考年份;yearj表示第j部電影上映的年份;bj表示考慮通貨膨脹后折算成當(dāng)前參考年份的票房。所述的基于模糊線性回歸的電影票房預(yù)測方法,優(yōu)選的,所述影響因素還包括:演員權(quán)值量化:演員影響因子取值為該演員的平均票房值,計算方法為:其中,i表示第i名演員;k表示第i名演員參與拍攝的第k部電影;n表示第i名演員參與拍攝的所有電影數(shù)目;δ為衰減系數(shù);year表示當(dāng)前參考年份;yeark表示第k部電影上映的年份;bk表示考慮通貨膨脹后折算成當(dāng)前參考年份的票房。所述的基于模糊線性回歸的電影票房預(yù)測方法,優(yōu)選的,所述影響因素還包括:發(fā)行地區(qū)權(quán)值量化:定義發(fā)行地區(qū)i的票房影響力指標(biāo)ni:其中,i(i=1,2,…,5)為發(fā)行地區(qū)序號表示,i的取值與地區(qū)的對應(yīng)關(guān)系如表1所示;k表示上映的周次;m表示發(fā)行地區(qū)屬于地區(qū)i的電影總數(shù);j表示發(fā)行地區(qū)屬于地區(qū)i的第j部電影;bjk表示發(fā)行地區(qū)為i的第j部電影在上映的第k周內(nèi)產(chǎn)生的票房收入;對各地區(qū)的權(quán)值nation_weight進一步量化,其中,i為發(fā)行地區(qū)序號的表示;ni、nj分別表示發(fā)行地區(qū)i、j的影響力。所述的基于模糊線性回歸的電影票房預(yù)測方法,優(yōu)選的,所述影響因素還包括:電影類型權(quán)值量化:給出各類型的電影票房影響力指標(biāo)gi:其中,i表示第i類型(i=1,2,…,13,對應(yīng)上述的13種電影類型分類);k表示某部電影上映的第k周(k=1,2,3);m表示第i類型電影總量;j表示第i類型的第j部電影;則bjk表示為第i類型下的第j部電影上映后的第k周內(nèi)產(chǎn)生的票房收入。通過類型的電影票房影響gi計算得到各類型的權(quán)值genre_weighti,計算方法如下:gmax=max{g1,g2...},gmin=min{g1,g2...}。其中,i表示類型序號;gi表示電影為類型i的影響力。所述的基于模糊線性回歸的電影票房預(yù)測方法,優(yōu)選的,所述影響因素還包括:定義新導(dǎo)演i的權(quán)值的缺省值new_dir_weighti:其中,actor_weighti表示新導(dǎo)演i作為演員時的影響力權(quán)值;表示訓(xùn)練數(shù)據(jù)中所有演員的影響力權(quán)值的平均值;表示訓(xùn)練數(shù)據(jù)中所有導(dǎo)演的影響力權(quán)值的平均值。σ(0<σ<1)表示一個系數(shù),用于調(diào)整新導(dǎo)演的初始權(quán)值。所述的基于模糊線性回歸的電影票房預(yù)測方法,優(yōu)選的,所述影響因素還包括:定義新晉演員i的票房影響力缺省權(quán)值new_actor_weighti:其中,dir_weighti表示新演員i作為導(dǎo)演時的影響力權(quán)值;表示訓(xùn)練數(shù)據(jù)中所有導(dǎo)演的影響力權(quán)值的平均值;表示訓(xùn)練數(shù)據(jù)中所有演員的影響力權(quán)值的平均值。σ(0<σ<1)表示一個系數(shù),用于調(diào)整新演員的初始權(quán)值所述的基于模糊線性回歸的電影票房預(yù)測方法,優(yōu)選的,所述s1包括:s1-1,隨機選取k個中心;s1-2,遍歷所有數(shù)據(jù),將每個數(shù)據(jù)劃分到最近的中心點中;s1-3,計算每個聚類的平均值,并作為新的中心;s1-4,重復(fù)s1-2至s1-3,直到這k個中心點不再變化或者已經(jīng)收斂),或迭代次數(shù)達到上限。所述的基于模糊線性回歸的電影票房預(yù)測方法,優(yōu)選的,所述s2包括:三角模糊數(shù)定義:隸屬度函數(shù)l(x)滿足以下特征:(1)l(x)=l(-x)(2)l(c)=1模糊多元線性回歸具體模型如下:c(xp)=c0+c1xp1+c2xp2+···+cnxpnw(xp)=w0+w1|xp1|+w2|xp2|+···+wn|xpn|xp=(xp1,xp2,...,xpn),是輸入的一個n維向量模糊線性回歸模型求解:(1)屬于模糊集的隸屬度不低于h;(2)使得w(xp)的求和最小化。因此,模糊線性回歸的求解可以轉(zhuǎn)化為一個線性規(guī)劃問題的求解。滿足于如下公式:yp≤c(xp)+|l-1(h)|w(xp)yp≥c(xp)-|l-1(h)|w(xp)w(xp)≥0(l(x)=max(0,1-|x|))建模:輸入變量(xp):在對中國電影票房歷史數(shù)據(jù)統(tǒng)計分析的基礎(chǔ)上,結(jié)合中國電影市場的實際情況,選取第一導(dǎo)演、第二導(dǎo)演、第一主演、第二主演、第三主演、第一類型、第二類型、發(fā)行地區(qū)、上映檔期作為影響電影票房收入的特征屬性,有9個特征屬性,并賦予各特征屬性不同的權(quán)重,組成的輸入向量形式如下:(xp,yp),p=1,2,...,mxp=(xp1,xp2,...,xpn)。此處m=9。所述的基于模糊線性回歸的電影票房預(yù)測方法,優(yōu)選的,所述s3包括:輸入訓(xùn)練樣本,求解回歸系數(shù),得到訓(xùn)練后的回歸方程:輸入測試樣本,得到預(yù)測值,并將其與真實值做比較,計算相對百分誤差;所述s4包括:性能評價指標(biāo):電影票房收入存在較大的不確定性,偶爾還會出現(xiàn)黑馬,票房收入很高,以及電影爆冷票房極低等現(xiàn)象,這就造成采用的相應(yīng)模型無法預(yù)測這些偶然因素造成的高票房或者很低的票房,但采用此模型若能較為準(zhǔn)確預(yù)測絕大多數(shù)票房,我們認(rèn)為所采用的模型是有效的。但黑馬與爆冷電影的出現(xiàn),使得相對百分誤差較大,平均相對百分誤差大。因此,采用了一種新的性能評價指標(biāo),基于相對百分誤差的概率分布函數(shù)的性能評價指標(biāo)。設(shè)p為概率測度,x為隨機變量,則函數(shù):f(x)=p(x≤x)(x∈r)稱為x的概率分布函數(shù)。此處,f(x)表示預(yù)測樣本的相對百分誤差x≤x的概率。此處樣本的相對百分誤差為一個離散分布,即分布函數(shù)的值域是離散的,如果x的取值只有x1≤x2≤...≤xn,則綜上所述,由于采用了上述技術(shù)方案,本發(fā)明的有益效果是:(1)針對電影拍攝前投資制作的提供預(yù)測參考,選擇有效影響因素及其權(quán)值化策略。就目前許多電影票房預(yù)測方法是基于微博互動、豆瓣評分、口碑等電影上映后的社會反饋數(shù)據(jù),不能達到提前預(yù)測票房,做好投資準(zhǔn)備的目的。電影票房預(yù)測時,合理而有效的影響因素與權(quán)值量化將顯著提升算法的預(yù)測效果。由于本發(fā)明用于電影拍攝前投資制作的參考。因此,選擇導(dǎo)演、演員、電影類型、發(fā)行國家、上映檔期等重要影響因素。在量化導(dǎo)演、演員影響力時,利用導(dǎo)演、演員參與的歷史票房數(shù)據(jù),使用通貨膨脹調(diào)整票房數(shù)據(jù),考慮隨時間的衰減系數(shù),使其進行權(quán)值量化得到的衡量導(dǎo)演與演員的尺度更為合理。同時,對電影類型,電影發(fā)行地區(qū)、發(fā)行公司等因素進行更為有效的權(quán)值量化,得到模型使用的影響指標(biāo),以此預(yù)測的結(jié)果可對電影前期投資與建設(shè)提供有力參考。(2)根據(jù)電影票房數(shù)據(jù)集的特點,設(shè)計基于聚類的模糊線性回歸預(yù)測算法。利用kmeans聚類算法,將電影分為幾個大類,在每一類中,對模糊線性回歸的參數(shù)進行求解,再對相應(yīng)類的測試數(shù)據(jù)進行測試。相比使用神經(jīng)網(wǎng)絡(luò)的方法進行預(yù)測擁有更快的計算機速度,以及更好的穩(wěn)定性。且預(yù)測結(jié)果為區(qū)間預(yù)測,更為合理。(3)提出一種合理的電影票房預(yù)測的評估方法。傳統(tǒng)的電影票房預(yù)測的評估,如果是預(yù)測電影票房分類(將電影分為從爛片到超級大片等幾類)的方法中,使用的是分類準(zhǔn)確率進行性能評估,如果預(yù)測的電影票房為連續(xù)值時,多使用的是平均相對百分誤差比進行性能評估。當(dāng)預(yù)測值始終保持較小值時,可以保證相對百分誤差小于100%,以此性能評估方法存在不合理性。因此,本發(fā)明中提出了一種新的性能評估方法——相對百分誤差的概率分布函數(shù),來評價模型的效果。本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。附圖說明本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:圖1是本發(fā)明的總體方法示意圖;圖2是三角模糊數(shù)函數(shù)圖像;圖3是本發(fā)明fuzzylr效果對比圖,bpnn與fuzzylr算法相對百分誤差概率分布對比圖。具體實施方式下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。在本發(fā)明的描述中,需要理解的是,術(shù)語“縱向”、“橫向”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底”“內(nèi)”、“外”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。在本發(fā)明的描述中,除非另有規(guī)定和限定,需要說明的是,術(shù)語“安裝”、“相連”、“連接”應(yīng)做廣義理解,例如,可以是機械連接或電連接,也可以是兩個元件內(nèi)部的連通,可以是直接相連,也可以通過中間媒介間接相連,對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語的具體含義。下面詳細(xì)描述本發(fā)明的實施過程,所述方法包括如下步驟:如圖1所示,數(shù)據(jù)獲取一部電影放映的周期通常為3周到4周左右,且電影票房主要集中在前3周,因此本發(fā)明所使用的電影票房數(shù)據(jù)為每部電影上映前21天的票房總收入。以7天為一個周期,依次記為第一周票房收入,第二周票房收入,第三周票房收入。其中的票房收入,是指將每一年票房收入進行通貨膨脹調(diào)整后的票房收入。由于電影票房影響因素眾多,預(yù)測難度大,本發(fā)明中綜合已有的相關(guān)研究,發(fā)現(xiàn)導(dǎo)演與演員對于票房有顯著影響,電影的類型,制作國家、以及電影發(fā)行公司都對電影票房有著關(guān)聯(lián)性,因此本發(fā)明將其都納入影響因素中。本發(fā)明中使用的影響因子:第一導(dǎo)演dir1,第一導(dǎo)演dir2,第一演員actor1,第二演員actor2,第三演員actor3,制片國家nation,影片第一類型type1,影片第二類型type2,上映檔期date。影響因素權(quán)值量化:本發(fā)明中對上述影響因子進行量化處理,量化過程直接影響著算法的預(yù)測效果。好的量化過程會明顯提高算法預(yù)測的準(zhǔn)確度。票房值:本發(fā)明中提到的,一部電影的票房收入,是指一部電影正式上映后,前三周(21天)票房收入總和。每一周票房,指從電影上映當(dāng)天開始,以7天為一個周期,累計的票房記為一周票房。并且,排除通貨膨脹的影響,將其轉(zhuǎn)換為同一年份下的票房數(shù)據(jù)。1)導(dǎo)演權(quán)值(dir_weight)量化:由于本發(fā)明采用模糊線性回歸進行預(yù)測,因此權(quán)值不宜量化得過于集中,若人為縮小樣本間的差距,將使預(yù)測結(jié)果集中,失去差異性。導(dǎo)演影響因子取值為該導(dǎo)演平均票房表現(xiàn),計算方法:其中,i表示第i名導(dǎo)演;j表示第i名導(dǎo)演參與拍攝的第j部電影;m表示第i名導(dǎo)演參與拍攝的所有電影數(shù)目;δ為衰減系數(shù);year表示當(dāng)前參考年份;yearj表示第j部電影上映的年份;bj表示考慮通貨膨脹后折算成當(dāng)前參考年份的票房。2)演員權(quán)值(actor_weight)量化:參與演出的演員知名度不僅是衡量電影品質(zhì)的重要指標(biāo),更是吸引觀眾走進影院的籌碼,對電影第一周的票房收入有著較大影響,這也在歷史統(tǒng)計的電影數(shù)據(jù)樣本中得到驗證。一部電影中主演知名度越高,票房收入也相對越高。眾多電影愛好者的觀影更看重明星,而對其他信息的關(guān)注相對較少。因此本發(fā)明中,將電影主演也作為了預(yù)測電影票房收入的影響因素。演員影響因子取值為該演員的平均票房,計算方法為:其中,i表示第i名演員;k表示第i名演員參與拍攝的第k部電影;n表示第i名演員參與拍攝的所有電影數(shù)目;δ為衰減系數(shù);year表示當(dāng)前參考年份;yeark表示第k部電影上映的年份;bk表示考慮通貨膨脹后折算成當(dāng)前參考年份的票房。3)發(fā)行地區(qū)權(quán)值(nation_weight)量化:通過歷史數(shù)據(jù)統(tǒng)計發(fā)現(xiàn),電影的發(fā)行地區(qū)在一定程度上對電影票房收入產(chǎn)生影響。換句話說,在票房收入問題上,好萊塢大片是自帶光環(huán)的。發(fā)行地區(qū)主要分為歐美、日韓、港臺、大陸、其他5類。實驗表明,國外進口的歐美大片,票房收入通常較高。據(jù)此,定義發(fā)行地區(qū)i的票房影響力指標(biāo)ni:其中,i(i=1,2,…,5)為發(fā)行地區(qū)序號表示,i的取值與地區(qū)的對應(yīng)關(guān)系如表1所示;k表示上映的周次;m表示發(fā)行地區(qū)屬于地區(qū)i的電影總數(shù);j表示發(fā)行地區(qū)屬于地區(qū)i的第j部電影;bjk表示發(fā)行地區(qū)為i的第j部電影在上映的第k周內(nèi)產(chǎn)生的票房收入。表1i的取值與電影發(fā)行地區(qū)的對應(yīng)關(guān)系table1relationbetweeniandnationofmovie對各地區(qū)的權(quán)值nation_weight進一步量化。其中,i為發(fā)行地區(qū)序號的表示;ni、nj分別表示發(fā)行地區(qū)i、j的影響力。4)電影類型權(quán)值(genre_weight)(如果有多個,取前兩個)量化:有學(xué)者曾分析了電影題材的選擇對電影票房的影響,發(fā)現(xiàn)了不同類型電影票房收入的差異性。不同題材類型會有相對較為固定的受眾群,但不同類型的受眾群也會隨著市場的變化而變化。本發(fā)明中,電影類型的分類方法,參考了互聯(lián)網(wǎng)電影資料庫((internetmoviedatabase,imdb)的電影類型分類方法,分為以下13類型:愛情、卡通(動畫、兒童)、災(zāi)難、懸疑(冒險、犯罪)、恐怖(驚悚、驚秫)、戰(zhàn)爭、紀(jì)錄(傳記、歷史)、家庭、戲劇(音樂、戲曲)、科幻(音樂、戲曲)、喜劇、動作(武俠、古裝故事(劇情))。首先,給出各類型的電影票房影響力指標(biāo)gi:其中,i表示第i類型(i=1,2,…,13,對應(yīng)上述的13種電影類型分類);k表示某部電影上映的第k周(k=1,2,3);m表示第i類型電影總量;j表示第i類型的第j部電影;則bjk表示為第i類型下的第j部電影上映后的第k周內(nèi)產(chǎn)生的票房收入。通過類型的電影票房影響gi計算得到各類型的權(quán)值genre_weighti,計算方法如下:gmax=max{g1,g2...},gmin=min{g1,g2...}。其中,i表示類型序號;gi表示電影為類型i的影響力。5)檔期權(quán)值(date_weight)量化:由于電影的觀影群眾多為青年群體,因此電影上映的檔期對票房收入也有影響,即使是一部普通電影,如果選擇在賀歲檔或者暑期檔上映,也能獲得不錯的票房收入。因此,本發(fā)明中,根據(jù)電影上映日期前后三天是否處于節(jié)假日,將上映檔期分為5個,分別是暑期檔、五一檔、國慶檔、賀歲檔、其他。其檔期日期分別如下所示:表2i的取值與上映檔期的對應(yīng)關(guān)系table2relationbetweenianddateofmovie檔期i的票房影響力指標(biāo)di的定義如下:其中,i(i=1,2,…,5)檔期序號的表示,i的取值與地區(qū)的對應(yīng)關(guān)系如表3.2所示;k為電影上映的周次表示;m為上映日期在檔期i的電影總數(shù)的表示;j為上映日期在檔期i的第j部電影的表示;bjk表示上映日期在檔期i的第j部電影在上映的第k周內(nèi)產(chǎn)生的票房收入數(shù)據(jù)。檔期的權(quán)值date_weighti的計算,有如下公式:dmax=max{d1,d2...}dmin=min{d1,d2...}其中,i為檔期序號,di為檔期i的影響力。6)票房特征的缺省值處理當(dāng)需要預(yù)測某部電影票房收入時,極有可能出現(xiàn)該部電影的某些特征屬性值在訓(xùn)練集中未出現(xiàn)的情況,譬如,新晉的導(dǎo)演、演員,須為其指定缺省的權(quán)值。眾所周知,除了新晉的導(dǎo)演,有許多演員在獲得一定知名度后,會進一步參與執(zhí)導(dǎo)新的電影作品(如徐崢,2012年,自編、自導(dǎo)、自演《人再囧途之泰囧》,最終獲得12.69億的票房表現(xiàn)),他們作為演員時所產(chǎn)生的影響力,為其執(zhí)導(dǎo)的電影帶來更多關(guān)注,獲得更高票房,符合中國國情,“演而優(yōu)則導(dǎo)”。因此,定義新導(dǎo)演i的權(quán)值的缺省值new_dir_weighti:其中,actor_weighti表示新導(dǎo)演i作為演員時的影響力權(quán)值;表示訓(xùn)練數(shù)據(jù)中所有演員的影響力權(quán)值的平均值;表示訓(xùn)練數(shù)據(jù)中所有導(dǎo)演的影響力權(quán)值的平均值。σ(0<σ<1)表示一個系數(shù),用于調(diào)整新導(dǎo)演的初始權(quán)值,本發(fā)明中取值為0.2,目的在于選擇一個更為合適的新導(dǎo)演權(quán)值。主演缺省值,與導(dǎo)演影響i,定義新晉演員i的票房影響力缺省權(quán)值new_actor_weighti:其中,dir_weighti表示新演員i作為導(dǎo)演時的影響力權(quán)值;表示訓(xùn)練數(shù)據(jù)中所有導(dǎo)演的影響力權(quán)值的平均值;表示訓(xùn)練數(shù)據(jù)中所有演員的影響力權(quán)值的平均值。σ(0<σ<1)表示一個系數(shù),用于調(diào)整新演員的初始權(quán)值,本發(fā)明中取值為0.2,目的在于選擇一個更為合適的新演員權(quán)值。kmeans聚類方法kmeans是最簡單的聚類算法,用于數(shù)據(jù)分析前期,選取適當(dāng)?shù)膋,將數(shù)據(jù)分類后,分別研究不同聚類下數(shù)據(jù)的特點。算法計算方法如下:1)隨機選取k個中心;2)遍歷所有數(shù)據(jù),將每個數(shù)據(jù)劃分到最近的中心點中;3)計算每個聚類的平均值,并作為新的中心;4)重復(fù)2)-3),直到這k個中心點不再變化(已經(jīng)收斂),或迭代次數(shù)達到上限。根據(jù)實驗效果,本發(fā)明中k值選取值10,將所有數(shù)據(jù)分為10類。模糊線性回歸的步驟包括:三角模糊數(shù)定義:隸屬度函數(shù)l(x)滿足以下特征:(1)l(x)=l(-x)(2)l(c)=1l(x)的具體函數(shù)圖像如圖2所示。模糊多元線性回歸具體模型如下:c(xp)=c0+c1xp1+c2xp2+···+cnxpnw(xp)=w0+w1|xp1|+w2|xp2|+···+wn|xpn|xp=(xp1,xp2,...,xpn),是輸入的一個n維向量模糊線性回歸模型求解:(1)屬于模糊集的隸屬度不低于h;(2)使得w(xp)的求和最小化。因此,模糊線性回歸的求解可以轉(zhuǎn)化為一個線性規(guī)劃問題的求解。滿足于如下公式:yp≤c(xp)+|l-1(h)|w(xp)yp≥c(xp)-|l-1(h)|w(xp)w(xp)≥0(l(x)=max(0,1-|x|))建模:輸入變量(xp):在對中國電影票房歷史數(shù)據(jù)統(tǒng)計分析的基礎(chǔ)上,結(jié)合中國電影市場的實際情況,選取第一導(dǎo)演、第二導(dǎo)演、第一主演、第二主演、第三主演、第一類型、第二類型、發(fā)行地區(qū)、上映檔期作為影響電影票房收入的特征屬性,并賦予各特征屬性不同的權(quán)重,組成的輸入向量形式如下:(xp,yp),p=1,2,...,mxp=(xp1,xp2,...,xpn)針對電影第一周和前三周票房分別進行預(yù)測,表3預(yù)測模型的輸入以及輸出值域table3theinputandoutputofbrpmodel輸入訓(xùn)練樣本,求解回歸系數(shù),得到訓(xùn)練后的回歸方程:輸入測試樣本,得到預(yù)測值,并將其與真實值做比較,計算相對百分誤差。性能評價指標(biāo):電影票房收入存在較大的不確定性,偶爾還會出現(xiàn)黑馬,票房收入很高,這就造成采用的相應(yīng)模型無法預(yù)測這些偶然因素造成的高票房,但采用此模型若能較為準(zhǔn)確預(yù)測絕大多數(shù)票房,我們認(rèn)為所采用的模型是有效的。但黑馬的出現(xiàn),使得相對百分誤差較大,平均相對百分誤差大。因此,本發(fā)明采用了一種新的性能評價指標(biāo),基于相對百分誤差的概率分布函數(shù)的性能評價指標(biāo)。設(shè)p為概率測度,x為隨機變量,則函數(shù):f(x)=p(x≤x)(x∈r)稱為x的概率分布函數(shù)。此處,f(x)表示預(yù)測樣本的相對百分誤差x≤x的概率。此處樣本的相對百分誤差為一個離散分布,即分布函數(shù)的值域是離散的,如果x的取值只有x1≤x2≤...≤xn,則因此,若采用基于相對百分誤差的概率分布函數(shù)的評價方法,可以直觀顯示出樣本相對百分誤差的概率分布情況,比如預(yù)測樣本的相對百分誤差在20%以下的樣本概率值,樣本離群點,此性能評價指標(biāo)方法更為合理、直觀。如圖3所示,實驗結(jié)果表明:由于現(xiàn)有預(yù)測方法中,較多基于神經(jīng)網(wǎng)絡(luò)的預(yù)測方法,因此本發(fā)明方法選擇了bp神經(jīng)神經(jīng)網(wǎng)絡(luò)進行對比分析。本發(fā)明中提出的基于分類的模糊線性回歸方法,預(yù)測得到一個電影票房收入可能的區(qū)間。電影票房收入預(yù)測區(qū)間的中心值與票房收入真值之間的平均相對百分誤差為80%,相對百分誤差小于50%的概率為40%,而bp神經(jīng)網(wǎng)絡(luò)算法的平均相對誤差為93%,相對百分誤差小于50%的概率僅為30%,因此,本發(fā)明中擁有更好的預(yù)測效果。對電影前期宣傳投資具有參考價值。在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領(lǐng)域的普通技術(shù)人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同物限定。當(dāng)前第1頁12當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
南澳县| 清镇市| 桦川县| 海安县| 乌兰县| 小金县| 望都县| 鄂伦春自治旗| 西充县| 丰原市| 靖州| 镇远县| 蒙山县| 衡水市| 昌都县| 璧山县| 广昌县| 泽普县| 胶南市| 嘉善县| 湘潭市| 尉犁县| 平利县| 门头沟区| 郎溪县| 西吉县| 蓬溪县| 大新县| 五河县| 温州市| 吉安县| 积石山| 上林县| 东港市| 永平县| 左权县| 鹰潭市| 北安市| 阿合奇县| 鄂托克前旗| 乌拉特后旗|