基于最大熵模型的團(tuán)體比賽結(jié)果預(yù)測方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)挖掘領(lǐng)域,尤其涉及一種基于最大熵模型的團(tuán)體比賽結(jié)果 預(yù)測方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的發(fā)展和人們對于各種體育競技賽事的關(guān)注度的提高,像歐洲足球五 大聯(lián)賽、美國職業(yè)橄欖球聯(lián)賽、美國職業(yè)籃球聯(lián)賽等團(tuán)體體育的競技賽事已經(jīng)不只受到當(dāng) 地居民的關(guān)注,這些賽事已經(jīng)普及全球。各大型博彩公司、大型網(wǎng)站紛紛對賽事的結(jié)果進(jìn)行 分析與預(yù)測,比賽關(guān)注者根據(jù)自己的主觀偏好和網(wǎng)站給出的分析對一場比賽的輸贏預(yù)測。 但是由于影響團(tuán)體實(shí)力的因素眾多,而且每一個(gè)因素影響的程度又不盡相同,因此預(yù)測的 正確率非常低。處于大數(shù)據(jù)時(shí)代的今天,我們更應(yīng)該根據(jù)已有的歷史比賽數(shù)據(jù)來進(jìn)行科學(xué) 的合理的推導(dǎo),而不能僅僅靠我們的情感和少量的數(shù)據(jù)對一場比賽的輸贏預(yù)測。
[0003] "熵"是信息量的度量方法,它表示某一事件出現(xiàn)的消息越多,事件發(fā)生的可能性 就越小,數(shù)學(xué)上就是概率越小。最大熵原理指出,當(dāng)我們需要對一個(gè)隨機(jī)事件的概率分布進(jìn) 行預(yù)測時(shí),我們的預(yù)測應(yīng)當(dāng)滿足全部已知的條件,而對未知的情況不要做任何主觀假設(shè)。在 這種情況下,概率分布最均勻,預(yù)測的風(fēng)險(xiǎn)最小,因?yàn)檫@時(shí)概率分布的信息熵最大,所以人 們稱這種模型叫〃最大熵模型〃。我們知道,決定比賽最終結(jié)果的因素可能有幾十甚至上百 種,我們對體育競技中已經(jīng)比賽過的賽事作為已知的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,然后通過利用最 大熵方法找到一個(gè)同時(shí)滿足成千上萬種不同條件的最優(yōu)模型,從而對比賽最終結(jié)果進(jìn)行預(yù) 測。
【發(fā)明內(nèi)容】
[0004] 本鑒于此,本發(fā)明的主要目在于提供了一種基于最大熵模型的團(tuán)體比賽結(jié)果預(yù)測 方法。
[0005] 為了得到上述的目的,本發(fā)明的技術(shù)方案實(shí)現(xiàn)的步驟: S1獲取各團(tuán)體歷史賽季中每場比賽參賽雙方的特征數(shù)據(jù)。
[0006] S2根據(jù)最大熵原理,構(gòu)造最大熵模型。將訓(xùn)練數(shù)據(jù)集T,代入最大熵模型中,獲取 最佳的模型。
[0007] S3獲取參賽雙方最近n場的各個(gè)特征數(shù)據(jù)的期望代入最優(yōu)模型
,計(jì)算主場參賽團(tuán)體最終比賽結(jié)果的分布概率
[0008] 進(jìn)一步,作為一種優(yōu)選方案,步驟S1所述的特征數(shù)據(jù)包括兩種: 1、影響比賽最終結(jié)果的內(nèi)在因素的數(shù)據(jù)和外在因素的數(shù)據(jù),內(nèi)在因素是指團(tuán)體自身內(nèi) 部的因素,例如,團(tuán)體主教練的戰(zhàn)術(shù)體系。外在因素是指非團(tuán)體自身內(nèi)部的因素。2、主場團(tuán) 體最終比賽結(jié)果的數(shù)據(jù),將特征數(shù)據(jù)的總體作為訓(xùn)練數(shù)據(jù)集T。
[0009] 進(jìn)一步,作為一種優(yōu)選方案,步驟S2中所述的構(gòu)造最大熵模型,并求解獲得最佳 模型的具體方法: 將每場歷史比賽參賽的兩個(gè)團(tuán)體,主場團(tuán)體的最終比賽結(jié)果作為隨機(jī)事件Y,兩個(gè)團(tuán)體 各自的內(nèi)在數(shù)據(jù)和外在數(shù)據(jù)特征作為隨機(jī)事件X,構(gòu)造條件概率分布
。條件概 率_
的熵為
根據(jù)最大熵原理,將訓(xùn)練數(shù)據(jù)集T代入模型,求出最優(yōu)的模型
[0010] 本發(fā)明所提供了一種基于最大熵模型的團(tuán)體比賽結(jié)果預(yù)測方法具有一下優(yōu)點(diǎn): 本發(fā)明主要利用比賽的歷史數(shù)據(jù),通過最大熵原理求出影響團(tuán)體比賽結(jié)果的內(nèi)在因素 和外在因素的比重。建立符合團(tuán)體比賽的最優(yōu)條件概率模型,然后綜合比賽團(tuán)體雙方最近 的競技狀態(tài),將最近的特征數(shù)據(jù)代入到利用最大熵模型解出的最優(yōu)模型中,計(jì)算出參賽團(tuán) 體獲勝的概率。給賽事關(guān)注者一個(gè)科學(xué)比賽預(yù)測。
【附圖說明】
[0011] 圖1為本發(fā)明的流程圖; 101S1獲取各團(tuán)體歷史賽季中每場比賽參賽雙方的特征數(shù)據(jù)。
[0012] 102S2根據(jù)最大熵原理,構(gòu)造最大熵模型。將訓(xùn)練數(shù)據(jù)集T,代入最大熵模型中, 獲取最佳的t吳型。
[0013] 103S3獲取參賽雙方最近n場的各個(gè)特征數(shù)據(jù)的期望代入最優(yōu)模型
,計(jì)算主場參賽團(tuán)體最終比賽結(jié)果的分布概率
【具體實(shí)施方式】
[0014] 為了使上述目的的特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方案 給發(fā)明做出進(jìn)一步詳細(xì)的說明。
[0015] 如圖1所示,本發(fā)明所提供了一種基于最大熵模型的比賽結(jié)果預(yù)測方法,其特征 在于如下步驟: S1獲取各團(tuán)體歷史賽季中每場比賽參賽雙方的特征數(shù)據(jù)。
[0016] S2根據(jù)最大熵原理,構(gòu)造最大熵模型。將訓(xùn)練數(shù)據(jù)集T,代入最大熵模型中,獲取 最佳的模型。
[0017] S3獲取參賽雙方最近n場的各個(gè)特征數(shù)據(jù)的期望代入最優(yōu)模型.
, 計(jì)算主場參賽團(tuán)體最終比賽結(jié)果的分布概率
[0018] 在步驟S1中團(tuán)體競賽選取美國男子籃球職業(yè)聯(lián)賽(NBA),其中的歷史賽季為在 NBA官網(wǎng)上獲取2000-2014賽季的30個(gè)球隊(duì)整個(gè)常規(guī)賽的比賽數(shù)據(jù)。其中的特征數(shù)據(jù):包 括每場比賽參賽球隊(duì)A、B各自的內(nèi)在因素兩分球、三分球、助攻、籃板、蓋帽、搶斷、球員傷 病、主教練,外在因素:球隊(duì)兩場比賽之間休息的天數(shù)、天氣狀況,和最終主場的勝負(fù)。
[0019] 在步驟S2中X=(A兩分球、A三分球、A助攻、A籃板、A蓋帽、A搶 斷、A球員傷病、A主教練、A球隊(duì)兩場比賽之間休息的天數(shù)、A天氣狀況、B兩分球、B三分球、B助攻、B籃板、B蓋帽、B搶斷、B球員傷病、B主教練、 B球隊(duì)兩場比賽之間休息的天數(shù)、B天氣狀況),Y=(勝、負(fù));構(gòu)成訓(xùn)練集
。則條件概率分布
的條 件熵為
;將訓(xùn)練集代入模 型,經(jīng)過訓(xùn)練得出最優(yōu)的模型,
[0020] 在步驟S3中提取即將比賽的參賽雙方A、B最近6場比賽的兩分球、三分球、助 攻、籃板、蓋帽、搶斷、球員傷病、主教練、球隊(duì)兩場比賽之間休息的天數(shù)、天氣狀況等特征數(shù) 據(jù)的期望代入最優(yōu)的模型
。由于籃球比賽只有勝負(fù)之分,所以只需要計(jì)算即 將比賽中主場球隊(duì)的勝率.
【主權(quán)項(xiàng)】
1. 基于最大熵模型的團(tuán)體比賽結(jié)果預(yù)測方法,其特征在于,該方法包括以下步驟: Si獲取各團(tuán)體歷史賽季中每場比賽參賽雙方的特征數(shù)據(jù); S2根據(jù)最大熵原理,構(gòu)造最大熵模型; 將訓(xùn)練數(shù)據(jù)集T,代入最大熵模型中,獲取最佳的模型; S3獲取參賽雙方最近η場的各個(gè)特征數(shù)據(jù)的期望代入最優(yōu)模型P 1又:>,計(jì) 算主場參賽團(tuán)體最終比賽結(jié)果的分布概率ρ ?Ζ2. 根據(jù)權(quán)利要求1的方法,其中所述步驟SI所述的特征數(shù)據(jù),其特征在于,特征數(shù)據(jù)包 括兩種:1、影響比賽最終結(jié)果的內(nèi)在因素的數(shù)據(jù)和外在因素的數(shù)據(jù),內(nèi)在因素是指團(tuán)體自 身內(nèi)部的因素,例如,團(tuán)體主教練的戰(zhàn)術(shù)體系,外在因素是指非團(tuán)體自身內(nèi)部的因素,2、主 場團(tuán)體最終比賽結(jié)果的數(shù)據(jù),將特征數(shù)據(jù)的總體作為訓(xùn)練數(shù)據(jù)集T。3. 根據(jù)權(quán)利要求1或2的方法,其中所述步驟S2中所述的構(gòu)造最大熵模型 并求解獲得最佳模型,其特征在于,將每場歷史比賽參賽的兩個(gè)團(tuán)體,主場團(tuán)體 的最終比賽結(jié)果作為隨機(jī)事件Y,兩個(gè)團(tuán)體各自的內(nèi)在數(shù)據(jù)和外在數(shù)據(jù)特征作為 隨機(jī)事件X,構(gòu)造條件概率分布丨Λ7 ;);條件概率P G7丨尤)的熵為::根據(jù)最大熵原理,將訓(xùn)練 數(shù)據(jù)集T代入模型,求出最優(yōu)的模型p 丨尤)。
【專利摘要】本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)挖掘領(lǐng)域,尤其涉及一種基于最大熵模型的團(tuán)體比賽結(jié)果預(yù)測方法。該方法的具體步驟如下:S1獲取各團(tuán)體歷史賽季中每場比賽參賽雙方的特征數(shù)據(jù)。S2根據(jù)最大熵原理,構(gòu)造最大熵模型。將訓(xùn)練數(shù)據(jù)集T,代入最大熵模型中,獲取最佳的模型。S3獲取參賽雙方最近n場的各個(gè)特征數(shù)據(jù)的期望代入最優(yōu)模型 ,計(jì)算主場參賽團(tuán)體最終比賽結(jié)果的分布概率。本發(fā)明技術(shù)方案給賽事關(guān)注者提供一個(gè)科學(xué)的比賽結(jié)果預(yù)測。
【IPC分類】G06F19/00
【公開號】CN104899413
【申請?zhí)枴緾N201510174490
【發(fā)明人】程戈, 張振宇, 李強(qiáng), 李聰, 張?jiān)? 何春輝
【申請人】湘潭大學(xué)
【公開日】2015年9月9日
【申請日】2015年4月14日