專利名稱:簡化基于矩陣的Boosting算法的系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)據(jù)處理技術(shù),尤其涉及一種簡化基于矩陣的Boosting算法的 系統(tǒng)及方法。
背景技術(shù):
隨著人類收集和存儲(chǔ)數(shù)據(jù)能力的快速提升,各行各業(yè)利用計(jì)算機(jī)技術(shù)對(duì)數(shù)據(jù)進(jìn)行 分析的需求日趨迫切。機(jī)器學(xué)習(xí)作為智能數(shù)據(jù)分析的重要技術(shù)手段,受到人們越來越多的 關(guān)注,已成為計(jì)算機(jī)科學(xué)技術(shù)領(lǐng)域中最活躍的研究分支之一。所謂機(jī)器學(xué)習(xí)是研究如何讓 計(jì)算機(jī)具備和人類一樣的學(xué)習(xí)能力,以使計(jì)算機(jī)具有決策、推理、認(rèn)知、識(shí)別等智能,以便利 用已知數(shù)據(jù)(樣本、實(shí)例等)和一定的學(xué)習(xí)規(guī)則,對(duì)未知或無法測量的數(shù)據(jù)進(jìn)行預(yù)測和判 斷。Boosting算法是目前流行的一種機(jī)器學(xué)習(xí)算法,其主要用于對(duì)目標(biāo)物體的偵測, 如人臉識(shí)別等方面,可以提高回歸算法的性能。Boosting算法可以從已知數(shù)據(jù)中識(shí)別出特 征數(shù)據(jù)。通過對(duì)特征數(shù)據(jù)的各種組合運(yùn)算,經(jīng)過不斷的偵錯(cuò)與迭代,逐漸減少對(duì)預(yù)測結(jié)果或 者判斷結(jié)果的假陽值(false positive,也稱誤判率),從而獲得較為精確的預(yù)測結(jié)果或者 判斷結(jié)果。Boosting算法可以通過多種方法實(shí)現(xiàn),如決策數(shù)、加權(quán)最小二乘法等。其中,像加 權(quán)最小二乘法這樣的基于矩陣的Boosting算法最為簡單并且能夠在很短的時(shí)間得到相對(duì) 精確的預(yù)測結(jié)果或者判斷結(jié)果。然而,這種基于矩陣的Boosting算法需要對(duì)所有的特征數(shù) 據(jù)進(jìn)行矩陣運(yùn)算,因此,運(yùn)算次數(shù)會(huì)根據(jù)特征數(shù)據(jù)的增加而增加,從而運(yùn)算所需的時(shí)間及內(nèi) 存空間也會(huì)隨之增加。
發(fā)明內(nèi)容
鑒于以上內(nèi)容,有必要提出一種簡化基于矩陣的Boosting算法的系統(tǒng),其通過對(duì) 數(shù)據(jù)的分割運(yùn)算,簡化基于矩陣的Boosting算法,以減少運(yùn)算次數(shù)。此外,還有必要提出一種簡化基于矩陣的Boosting算法的方法,其通過對(duì)數(shù)據(jù)的 分割運(yùn)算,簡化基于矩陣的Boosting算法,以減少運(yùn)算次數(shù)?!N簡化基于矩陣的Boosting算法的系統(tǒng),包括參數(shù)接收模塊,用于從一個(gè)用 戶端電腦接收假陽值;數(shù)據(jù)載入模塊,用于從一個(gè)數(shù)據(jù)庫中載入已知數(shù)據(jù),并從所載入的已 知數(shù)據(jù)中識(shí)別出特征數(shù)據(jù),以生成一個(gè)由特征數(shù)據(jù)組成的特征集合;數(shù)據(jù)分割模塊,用于將 上述特征集合分割成多個(gè)包含數(shù)據(jù)個(gè)數(shù)相等的子集合;編號(hào)指定模塊,用于依序?yàn)槊總€(gè)子 集合指定一個(gè)編號(hào);編號(hào)組合組成模塊,用于從上述子集合的編號(hào)中隨機(jī)選擇編號(hào),以生成 多組編號(hào)組合,其中,每一組編號(hào)組合包含N個(gè)不相同的編號(hào);選擇模塊,用于從上述接收 的假陽值中選擇其中一個(gè)假陽值;數(shù)據(jù)選取模塊,用于從上述所生成的多組編號(hào)組合中選 擇其中一組編號(hào)組合,從而選取所選擇的組編號(hào)組合中包括的編號(hào)所對(duì)應(yīng)的子集合中的數(shù) 據(jù);Boosting算法運(yùn)算模塊,用于根據(jù)上述選取的數(shù)據(jù)組成一個(gè)矩陣,并利用Boosting算法對(duì)該矩陣進(jìn)行運(yùn)算,從而計(jì)算出所選擇的編號(hào)組合對(duì)應(yīng)的假陽值;編號(hào)組合選取模塊,用 于在每一組編號(hào)組合都已經(jīng)計(jì)算出其對(duì)應(yīng)的假陽值的情況下,將計(jì)算出來的所有假陽值按 照大小依次排列,從值小的一端按次序取出η個(gè)假陽值,并獲取該η個(gè)假陽值對(duì)應(yīng)的η組編 號(hào)組合;比較模塊,用于將該η個(gè)假陽值與上述選擇的假陽值進(jìn)行比較,以判斷該η個(gè)假陽 值中的最小值是否小于所選擇的假陽值;及記錄模塊,用于在上述η個(gè)假陽值中的最小值 小于所選擇的假陽值的情況下,將該η個(gè)假陽值中的最小值記錄為該次Boosting運(yùn)算的假 陽值,并記錄該最小值所對(duì)應(yīng)的編號(hào)組合。一種簡化基于矩陣的Boosting算法的方法,包括(a)從一個(gè)用戶端電腦接收假 陽值;(b)從一個(gè)數(shù)據(jù)庫中載入已知數(shù)據(jù),并從所載入的已知數(shù)據(jù)中識(shí)別出特征數(shù)據(jù),以生 成一個(gè)由特征數(shù)據(jù)組成的特征集合;(c)將上述特征集合分割成多個(gè)包含數(shù)據(jù)個(gè)數(shù)相等的 子集合;(d)依序?yàn)槊總€(gè)子集合指定一個(gè)編號(hào);(e)從上述子集合的編號(hào)中隨機(jī)選擇編號(hào), 以生成多組編號(hào)組合,其中,每一組編號(hào)組合包含N個(gè)不相同的編號(hào);(f)從上述接收的多 個(gè)假陽值中選擇其中一個(gè)假陽值;(g)從上述所生成的多組編號(hào)組合中選擇其中一組編號(hào) 組合,從而選取所選擇的組編號(hào)組合中包括的編號(hào)所對(duì)應(yīng)的子集合中的數(shù)據(jù);(h)根據(jù)上 述選取的數(shù)據(jù)組成一個(gè)矩陣,并利用Boosting算法對(duì)該矩陣進(jìn)行運(yùn)算,從而計(jì)算出所選 擇的編號(hào)組合對(duì)應(yīng)的假陽值;(i)在每一組編號(hào)組合都已經(jīng)計(jì)算出其對(duì)應(yīng)的假陽值的情況 下,將計(jì)算出來的所有假陽值按照大小依次排列,從值小的一端按次序取出η個(gè)假陽值,并 獲取該η個(gè)假陽值對(duì)應(yīng)的η組編號(hào)組合;(j)將該η個(gè)假陽值與上述選擇的假陽值進(jìn)行比 較,以判斷該η個(gè)假陽值中的最小值是否小于所選擇的假陽值;及(k)在上述η個(gè)假陽值中 的最小值小于所選擇的假陽值的情況下,將該η個(gè)假陽值中的最小值記錄為該次Boosting 運(yùn)算的假陽值,并記錄該最小值所對(duì)應(yīng)的編號(hào)組合。相較于現(xiàn)有技術(shù),本發(fā)明所提供的簡化基于矩陣的Boosting算法的系統(tǒng)及方法 通過對(duì)數(shù)據(jù)的分割運(yùn)算,簡化了基于矩陣的Boosting算法,因此減少運(yùn)算的次數(shù)及所需的 內(nèi)存空間。
圖1是本發(fā)明簡化基于矩陣的Boosting算法的系統(tǒng)較佳實(shí)施例的硬件架構(gòu)圖。圖2是圖1中數(shù)據(jù)處理設(shè)備的功能模塊圖。圖3是本發(fā)明簡化基于矩陣的Boosting算法的方法較佳實(shí)施例的實(shí)施流程圖。主要元件符號(hào)說明
權(quán)利要求
1.一種簡化基于矩陣的Boosting算法的方法,包括(a)從一個(gè)用戶端電腦接收假陽值;(b)從一個(gè)數(shù)據(jù)庫中載入已知數(shù)據(jù),并從所載入的已知數(shù)據(jù)中識(shí)別出特征數(shù)據(jù),以生成 一個(gè)由特征數(shù)據(jù)組成的特征集合;(c)將上述特征集合分割成多個(gè)包含特征數(shù)據(jù)個(gè)數(shù)相等的子集合;(d)依序?yàn)槊總€(gè)子集合指定一個(gè)編號(hào);(e)從上述編號(hào)中隨機(jī)選擇編號(hào),以生成多組編號(hào)組合,其中,每一組編號(hào)組合包含N 個(gè)不相同的編號(hào);(f)從上述接收的多個(gè)假陽值中選擇其中一個(gè)假陽值;(g)從上述所生成的多組編號(hào)組合中選擇其中一組編號(hào)組合,從而選取所選擇的組編 號(hào)組合中包括的編號(hào)所對(duì)應(yīng)的子集合中的數(shù)據(jù);(h)根據(jù)上述選取的數(shù)據(jù)組成一個(gè)矩陣,并利用Boosting算法對(duì)該矩陣進(jìn)行運(yùn)算,從 而計(jì)算出所選擇的編號(hào)組合對(duì)應(yīng)的假陽值;(i)重復(fù)步驟(g)和(h),直到每一組編號(hào)組合都已經(jīng)計(jì)算出其對(duì)應(yīng)的假陽值之后,將 計(jì)算出來的所有假陽值按照大小依次排列,從值小的一端按次序取出η個(gè)假陽值,并獲取 該η個(gè)假陽值對(duì)應(yīng)的η組編號(hào)組合;(j)將該η個(gè)假陽值與上述選擇的假陽值進(jìn)行比較,以判斷該η個(gè)假陽值中的最小值是 否小于所選擇的假陽值;及(k)在上述η個(gè)假陽值中的最小值小于所選擇的假陽值的情況下,將該η個(gè)假陽值中的 最小值記錄為該次Boosting運(yùn)算的假陽值,并記錄該最小值所對(duì)應(yīng)的編號(hào)組合。
2.如權(quán)利要求1所述的簡化基于矩陣的Boosting算法的方法,其特征在于,在上述η 個(gè)假陽值中的最小值不小于所選擇的假陽值的情況下,該方法還包括從上述編號(hào)中任選一個(gè)編號(hào)加入到該η個(gè)假陽值所對(duì)應(yīng)的η組編號(hào)組合的每一組中, 從而組成由Ν+1個(gè)編號(hào)所組成的η組編號(hào)組合;及重復(fù)執(zhí)行步驟(g)到(j)。
3.如權(quán)利要求2所述的簡化基于矩陣的Boosting算法的方法,其特征在于,所述的N 為2。
4.如權(quán)利要求2所述的簡化基于矩陣的Boosting算法的方法,其特征在于,所述的η 為30。
5.如權(quán)利要求2所述的簡化基于矩陣的Boosting算法的方法,其特征在于,在步驟 (k)之后,該方法還包括判斷是否所接收的假陽值都被選擇過;及如果所接收的假陽值中至少一個(gè)沒有被選擇過,則重復(fù)步驟(f)到(k)。
6.一種簡化基于矩陣的Boosting算法的系統(tǒng),該系統(tǒng)包括參數(shù)接收模塊,用于從一個(gè)用戶端電腦接收假陽值;數(shù)據(jù)載入模塊,用于從一個(gè)數(shù)據(jù)庫中載入已知數(shù)據(jù),并從所載入的已知數(shù)據(jù)中識(shí)別出 特征數(shù)據(jù),以生成一個(gè)由特征數(shù)據(jù)組成的特征集合;數(shù)據(jù)分割模塊,用于將上述特征集合分割成多個(gè)包含特征數(shù)據(jù)個(gè)數(shù)相等的子集合;編號(hào)指定模塊,用于依序?yàn)槊總€(gè)子集合指定一個(gè)編號(hào);編號(hào)組合組成模塊,用于從上述子集合的編號(hào)中隨機(jī)選擇編號(hào),以生成多組編號(hào)組合, 其中,每一組編號(hào)組合包含N個(gè)不相同的編號(hào);選擇模塊,用于從上述接收的多個(gè)假陽值中逐個(gè)選擇其中的一個(gè)假陽值; 數(shù)據(jù)選取模塊,用于從上述所生成的多組編號(hào)組合中選擇其中一組編號(hào)組合,從而選 取所選擇的組編號(hào)組合中包括的編號(hào)所對(duì)應(yīng)的子集合中的數(shù)據(jù);Boosting算法運(yùn)算模塊,用于根據(jù)上述選取的數(shù)據(jù)組成一個(gè)矩陣,并利用Boosting算 法對(duì)該矩陣進(jìn)行運(yùn)算,從而計(jì)算出所選擇的編號(hào)組合對(duì)應(yīng)的假陽值;編號(hào)組合選取模塊,用于在每一組編號(hào)組合都已經(jīng)被選擇過的情況下,將計(jì)算出來的 所有假陽值按照大小依次排列,從值小的一端按次序取出η個(gè)假陽值,并獲取該η個(gè)假陽值 對(duì)應(yīng)的η組編號(hào)組合;比較模塊,用于將該η個(gè)假陽值與上述選擇的假陽值進(jìn)行比較,以判斷該η個(gè)假陽值中 的最小值是否小于所選擇的假陽值;及記錄模塊,用于在上述η個(gè)假陽值中的最小值小于所選擇的假陽值的情況下,將該η個(gè) 假陽值中的最小值記錄為該次Boosting運(yùn)算的假陽值,并記錄該最小值所對(duì)應(yīng)的編號(hào)組I=I ο
7.如權(quán)利要求6所述的簡化基于矩陣的Boosting算法的系統(tǒng),其特征在于,在上述η 個(gè)假陽值中的最小值不小于所選擇的假陽值的情況下,上述的編號(hào)組合組成模塊還用于從 上述子集合的編號(hào)中任選一個(gè)編號(hào)加入到該η個(gè)假陽值所對(duì)應(yīng)的η組編號(hào)組合的每一組 中,從而組成由Ν+1個(gè)編號(hào)所組成的η組編號(hào)組合。
8.如權(quán)利要求7所述的簡化基于矩陣的Boosting算法的系統(tǒng),其特征在于,所述N為2。
9.如權(quán)利要求7所述的簡化基于矩陣的Boosting算法的系統(tǒng),其特征在于,所述η為30。
全文摘要
本發(fā)明提供一種簡化基于矩陣的Boosting算法的系統(tǒng)。該系統(tǒng)將用于Boosting運(yùn)算的已知數(shù)據(jù)分割成多個(gè)子集合,并隨機(jī)從中選擇多組包含N個(gè)子集合的組合。通過利用基于矩陣的Boosting算法對(duì)上述選擇的多組組合進(jìn)行迭代運(yùn)算,從而獲得符合條件的假陽值。本發(fā)明還提供一種簡化基于矩陣的Boosting算法的方法。本發(fā)明可以減少Boosting運(yùn)算的次數(shù)及所需的內(nèi)存空間。
文檔編號(hào)G06F19/00GK102117380SQ20101023158
公開日2011年7月6日 申請(qǐng)日期2010年7月20日 優(yōu)先權(quán)日2009年12月30日
發(fā)明者李政憲 申請(qǐng)人:鴻富錦精密工業(yè)(深圳)有限公司, 鴻海精密工業(yè)股份有限公司