欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

神經(jīng)網(wǎng)絡(luò)模型訓練裝置和方法與流程

文檔序號:11952252閱讀:290來源:國知局
神經(jīng)網(wǎng)絡(luò)模型訓練裝置和方法與流程

本公開涉及神經(jīng)網(wǎng)絡(luò)的技術(shù)領(lǐng)域,具體地涉及神經(jīng)網(wǎng)絡(luò)模型訓練裝置和方法。



背景技術(shù):

這個部分提供了與本公開有關(guān)的背景信息,這不一定是現(xiàn)有技術(shù)。

在用于訓練神經(jīng)網(wǎng)絡(luò)的技術(shù)方案中,最近研究者提出的若干近增量梯度法,包括MISO(Minimization by Incremental Surrogate Optimization,采用增量替代優(yōu)化最小化),Prox-SDCA(Proximal Stochastic Dual Coordinated Ascent,近隨機雙坐標上升),Prox-SVRG(Proximal Stochastic Variance Reduced Gradient,近隨機方差縮減梯度)和SAG(Stochastic Average Gradient,隨機平均梯度),都達到了線性收斂速度。然而,當實際應(yīng)用于訓練神經(jīng)網(wǎng)絡(luò)時,特別是訓練大型的神經(jīng)網(wǎng)絡(luò)時,這些方法的收斂速度仍然無法令人滿意。



技術(shù)實現(xiàn)要素:

這個部分提供了本公開的一般概要,而不是其全部范圍或其全部特征的全面披露。

本公開的目的在于提供一種神經(jīng)網(wǎng)絡(luò)模型訓練裝置和方法,其能夠采用二階信息來獲得更快的收斂效果,從而不僅在函數(shù)目標值方面,而且在求解方面都實現(xiàn)了線性收斂速度。

根據(jù)本公開的一方面,提供了一種神經(jīng)網(wǎng)絡(luò)模型訓練裝置,該裝置包括:迭代計算單元,用于對神經(jīng)網(wǎng)絡(luò)模型中的路徑的權(quán)重進行迭代計算;以及判斷與輸出單元,用于當滿足停止迭代的條件時,停止迭代,并輸出本次迭代的路徑的權(quán)重作為所述神經(jīng)網(wǎng)絡(luò)模型中的路徑的最終權(quán)重,其中,所述迭代計算單元包括:權(quán)重計算單元,用于計算本次迭代的路徑的權(quán)重;相關(guān)函數(shù)計算單元,用于從用于訓練所述神經(jīng)網(wǎng)絡(luò)模型的樣本集合 中隨機選取一個樣本,并根據(jù)本次迭代的路徑的權(quán)重來計算所選樣本的相關(guān)函數(shù),并且保持所述樣本集合中除所選樣本之外的其它樣本的相關(guān)函數(shù)不變,其中樣本的相關(guān)函數(shù)是與所述樣本的損失函數(shù)相關(guān)聯(lián)的函數(shù);以及總相關(guān)函數(shù)計算單元,用于根據(jù)所選樣本的相關(guān)函數(shù)和所述其它樣本的相關(guān)函數(shù)來計算本次迭代的總相關(guān)函數(shù)。

根據(jù)本公開的另一方面,提供了一種用于訓練神經(jīng)網(wǎng)絡(luò)模型以便進行模式識別的方法,該方法包括:對所述神經(jīng)網(wǎng)絡(luò)模型中的路徑的權(quán)重進行迭代計算;以及當滿足停止迭代的條件時,停止迭代,并輸出本次迭代的路徑的權(quán)重作為所述神經(jīng)網(wǎng)絡(luò)模型中的路徑的最終權(quán)重,其中對所述神經(jīng)網(wǎng)絡(luò)模型中的路徑的權(quán)重進行迭代計算包括:計算本次迭代的路徑的權(quán)重;從用于訓練所述神經(jīng)網(wǎng)絡(luò)模型的樣本集合中隨機選取一個樣本,并根據(jù)本次迭代的路徑的權(quán)重來計算所選樣本的相關(guān)函數(shù),并且保持所述樣本集合中除所選樣本之外的其它樣本的相關(guān)函數(shù)不變,其中樣本的相關(guān)函數(shù)是與所述樣本的損失函數(shù)相關(guān)聯(lián)的函數(shù);以及根據(jù)所選樣本的相關(guān)函數(shù)和所述其它樣本的相關(guān)函數(shù)來計算本次迭代的總相關(guān)函數(shù)。

根據(jù)本公開的另一方面,提供了一種機器可讀存儲介質(zhì),其上攜帶有包括存儲在其中的機器可讀指令代碼的程序產(chǎn)品,其中,所述指令代碼當由計算機讀取和執(zhí)行時,能夠使所述計算機執(zhí)行根據(jù)本公開的神經(jīng)網(wǎng)絡(luò)模型訓練方法。

使用根據(jù)本公開的神經(jīng)網(wǎng)絡(luò)模型訓練裝置和方法,可以具有近隨機梯度方法的低迭代成本,但是達到了近全梯度法的收斂速度,從而不僅在函數(shù)目標值方面,而且在求解方面都實現(xiàn)了線性收斂速度。

從在此提供的描述中,進一步的適用性區(qū)域?qū)兊妹黠@。這個概要中的描述和特定例子只是為了示意的目的,而不旨在限制本公開的范圍。

附圖說明

在此描述的附圖只是為了所選實施例的示意的目的而非全部可能的實施,并且不旨在限制本公開的范圍。在附圖中:

圖1為適用于本公開的神經(jīng)網(wǎng)絡(luò)模型的示意圖;

圖2為圖示根據(jù)本公開的實施例的神經(jīng)網(wǎng)絡(luò)模型訓練裝置的結(jié)構(gòu)的框圖;

圖3為根據(jù)本公開的實施例的神經(jīng)網(wǎng)絡(luò)模型訓練方法的流程圖;

圖4為根據(jù)本公開的另一實施例的神經(jīng)網(wǎng)絡(luò)模型訓練方法的流程圖;

圖5為根據(jù)本公開的另一實施例的神經(jīng)網(wǎng)絡(luò)模型訓練方法的流程圖;以及

圖6為其中可以實現(xiàn)根據(jù)本公開的實施例的神經(jīng)網(wǎng)絡(luò)模型訓練裝置和方法的通用個人計算機的示例性結(jié)構(gòu)的框圖。

雖然本公開容易經(jīng)受各種修改和替換形式,但是其特定實施例已作為例子在附圖中示出,并且在此詳細描述。然而應(yīng)當理解的是,在此對特定實施例的描述并不打算將本公開限制到公開的具體形式,而是相反地,本公開目的是要覆蓋落在本公開的精神和范圍之內(nèi)的所有修改、等效和替換。要注意的是,貫穿幾個附圖,相應(yīng)的標號指示相應(yīng)的部件。

具體實施方式

現(xiàn)在參考附圖來更加充分地描述本公開的例子。以下描述實質(zhì)上只是示例性的,而不旨在限制本公開、應(yīng)用或用途。

提供了示例實施例,以便本公開將會變得詳盡,并且將會向本領(lǐng)域技術(shù)人員充分地傳達其范圍。闡述了眾多的特定細節(jié)如特定部件、裝置和方法的例子,以提供對本公開的實施例的詳盡理解。對于本領(lǐng)域技術(shù)人員而言將會明顯的是,不需要使用特定的細節(jié),示例實施例可以用許多不同的形式來實施,它們都不應(yīng)當被解釋為限制本公開的范圍。在某些示例實施例中,沒有詳細地描述眾所周知的過程、眾所周知的結(jié)構(gòu)和眾所周知的技術(shù)。

圖1示出了適用于本公開的神經(jīng)網(wǎng)絡(luò)模型的例子。如圖1所示,示出了一個簡單的四層神經(jīng)網(wǎng)絡(luò),它由一個輸入層、二個隱藏層和一個輸出層組成。層與層之間的鏈接表示互連,而這些鏈接有可以修改的權(quán)重。需要說明的是,本公開對于神經(jīng)網(wǎng)絡(luò)模型的層數(shù)并沒有特殊限制。換言之,神經(jīng)網(wǎng)絡(luò)模型既可以具有更少的層(如三層),也可以具有更多的層(如五層或更多)。

神經(jīng)網(wǎng)絡(luò)模型可以用在很多方面,例如可以用于模式識別等。具體地,模式識別例如包括人臉識別、說話人識別等。以人臉識別為例,多個人臉圖像可以構(gòu)成樣本集合,其中每個樣本對應(yīng)于具體的人臉圖像。針對每一 個人臉圖像,可以提取與之相對應(yīng)的特征向量,該特征向量例如可以用[x1,x2,xi,…,xn]來表示。具體的特征向量提取方法在本領(lǐng)域中是眾所周知的,本公開對此不再加以詳述。

如圖1所示,可以將特征向量中的元素作為輸入,分別輸入到神經(jīng)網(wǎng)絡(luò)模型的輸入層中的各個神經(jīng)元中。在這之后,每個隱藏層中的神經(jīng)元可以計算其輸入的加權(quán)總和,亦即輸入與隱藏層神經(jīng)元權(quán)重的內(nèi)積,從而形成了網(wǎng)絡(luò)的激勵,這里簡單地表示為net。輸出單元(輸出層的神經(jīng)元)可以通過對net做非線性變換得到最后結(jié)果。

具體地,對于輸入層到第一隱藏層,可以得到如下結(jié)果:

<mrow> <msub> <mi>net</mi> <mi>j</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>a</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> <msub> <mi>w</mi> <mi>ji</mi> </msub> <mo>+</mo> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mn>0</mn> </mrow> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>a</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> <msub> <mi>w</mi> <mi>ji</mi> </msub> <mo>=</mo> <msubsup> <mi>w</mi> <mi>j</mi> <mi>T</mi> </msubsup> <mi>x</mi> <mo>.</mo> <mrow> <mo>(</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <mi>b</mi> <mo>)</mo> </mrow> <mo>.</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

其中,netj指示第一隱藏層中的第j個神經(jīng)元的激勵,j=1,…,b,xi指示針對輸入層中的第i個神經(jīng)元的輸入,i=1,…,a,wji指示從輸入層中的第i個神經(jīng)元至第一隱藏層中的第j個神經(jīng)元的路徑的權(quán)重,而wj0則指示至第一隱藏層中的第j個神經(jīng)元的路徑的權(quán)重的偏差。

由此可以得到第一隱藏層的輸出如下:

oj=f(netj).(j=1,...,b). (2)

其中,oj指示第一隱藏層中的第j個神經(jīng)元的輸出。

進一步,對于第一隱藏層到第二隱藏層,可以得到如下結(jié)果:

<mrow> <msub> <mi>net</mi> <mi>t</mi> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>b</mi> </munderover> <msub> <mi>o</mi> <mi>j</mi> </msub> <msub> <mi>w</mi> <mi>tj</mi> </msub> <mo>+</mo> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mn>0</mn> </mrow> </msub> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>b</mi> </munderover> <msub> <mi>o</mi> <mi>j</mi> </msub> <msub> <mi>w</mi> <mi>tj</mi> </msub> <mo>=</mo> <msubsup> <mi>w</mi> <mi>t</mi> <mi>T</mi> </msubsup> <mi>o</mi> <mo>.</mo> <mrow> <mo>(</mo> <mi>t</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>.</mo> <mo>.</mo> <mo>.</mo> <mo>,</mo> <mi>c</mi> <mo>)</mo> </mrow> <mo>.</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中,nett指示第二隱藏層中的第t個神經(jīng)元的激勵,t=1,…,c,oj指示第一隱藏層中的第j個神經(jīng)元的輸出,j=1,…,b,wtj指示從第一隱藏層中的第j個神經(jīng)元至第二隱藏層中的第t個神經(jīng)元的路徑的權(quán)重,而wt0則指示至第二隱藏層中的第t個神經(jīng)元的路徑的權(quán)重的偏差。

由此可以得到第二隱藏層的輸出如下:

pt=f(nett).(t=1,...,c). (4)

其中,pt指示第二隱藏層中的第t個神經(jīng)元的輸出。

然后,從第二隱藏層至第三隱藏層(如果有的話)和第三隱藏層到輸出層以此類推。本公開可以推廣到更多的輸入、其他非線性變換以及任意數(shù)量的輸出單元。以分類任務(wù)為例,可以具有若干個輸出單元,輸出單元中的每一個對應(yīng)于若干個類別中的每一個。每個輸出單元的輸出是判別函數(shù)gk(x)。這樣一來就可以得到

<mrow> <mi>z</mi> <mo>=</mo> <mi>f</mi> <mrow> <mo>(</mo> <mi>f</mi> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>c</mi> </munderover> <mi>f</mi> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>b</mi> </munderover> <mi>f</mi> <mrow> <mo>(</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>a</mi> </munderover> <msub> <mi>x</mi> <mi>i</mi> </msub> <msub> <mi>w</mi> <mi>ji</mi> </msub> <mo>+</mo> <msub> <mi>w</mi> <mrow> <mi>j</mi> <mn>0</mn> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>w</mi> <mi>tj</mi> </msub> <mo>+</mo> <msub> <mi>w</mi> <mrow> <mi>t</mi> <mn>0</mn> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>w</mi> <mi>rt</mi> </msub> <mo>+</mo> <msub> <mi>w</mi> <mrow> <mi>r</mi> <mn>0</mn> </mrow> </msub> <mo>)</mo> </mrow> <msub> <mi>w</mi> <mi>r</mi> </msub> <mo>+</mo> <msub> <mi>w</mi> <mn>0</mn> </msub> <mo>)</mo> </mrow> <mo>.</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

其中,z指示輸出層的輸出。

當嘗試學習神經(jīng)網(wǎng)絡(luò)的權(quán)重W時,可以認為n個模式上的訓練誤差(或損失函數(shù))是教師給出的期望輸出tk和實際輸出zk之間的平方差之和:

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>J</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>k</mi> </msub> <mo>-</mo> <msub> <mi>z</mi> <mi>k</mi> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow>

如果再給予權(quán)重W一定的約束(或正則化)如稀疏,那么可以通過最小化以下之和得到權(quán)重:

<mrow> <munder> <mrow> <mi>min</mi> <mi>imize</mi> </mrow> <mi>w</mi> </munder> <mi>f</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>:</mo> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <munderover> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>J</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>&lambda;</mi> <msub> <mrow> <mo>|</mo> <mo>|</mo> <mi>w</mi> <mo>|</mo> <mo>|</mo> </mrow> <mn>1</mn> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

其中,λ為約束系數(shù),||·||1指示矩陣的1范數(shù)。

本公開提出了一種新的技術(shù)方案,可以稱之為近增量隨機牛頓型梯度法,這是一種近牛頓法的增量變異。根據(jù)本公開的方法具有近隨機梯度方法的低迭代成本,但是達到了近全梯度法的收斂速度。

圖2圖示了根據(jù)本公開的實施例的神經(jīng)網(wǎng)絡(luò)模型訓練裝置200的結(jié)構(gòu)。如圖2所示,根據(jù)本公開的實施例的神經(jīng)網(wǎng)絡(luò)模型訓練裝置200可以 包括迭代計算單元210以及判斷與輸出單元220。另外,迭代計算單元210可以進一步包括權(quán)重計算單元211、相關(guān)函數(shù)計算單元212和總相關(guān)函數(shù)計算單元213。

迭代計算單元210可以對神經(jīng)網(wǎng)絡(luò)模型中的路徑的權(quán)重進行迭代計算。

具體地,權(quán)重計算單元211可以計算本次迭代的路徑的權(quán)重。

接下來,相關(guān)函數(shù)計算單元212可以從用于訓練神經(jīng)網(wǎng)絡(luò)模型的樣本集合中隨機選取一個樣本,并根據(jù)本次迭代的路徑的權(quán)重來計算所選樣本的相關(guān)函數(shù),并且保持所述樣本集合中除所選樣本之外的其它樣本的相關(guān)函數(shù)不變。這里,樣本的相關(guān)函數(shù)可以是與樣本的損失函數(shù)相關(guān)聯(lián)的函數(shù)。

進一步,總相關(guān)函數(shù)計算單元213可以根據(jù)所選樣本的相關(guān)函數(shù)和其它樣本的相關(guān)函數(shù)來計算本次迭代的總相關(guān)函數(shù)。

在這之后,判斷與輸出單元220可以進行判斷。當滿足停止迭代的條件時,判斷與輸出單元220可以決定停止迭代,并輸出本次迭代的路徑的權(quán)重作為神經(jīng)網(wǎng)絡(luò)模型中的路徑的最終權(quán)重。

在根據(jù)本公開的實施例的神經(jīng)網(wǎng)絡(luò)模型訓練裝置200中,每次迭代時只從樣本集合中隨機選取一個樣本,計算所選樣本的相關(guān)函數(shù),并且保持其它樣本的相關(guān)函數(shù)不變。這樣一來就具有了很低的迭代成本,但是仍然具有較高的收斂速度。該裝置不僅在函數(shù)目標值方面而且在求解方面都實現(xiàn)了線性收斂速度。

根據(jù)本公開的優(yōu)選實施例,上面提到的相關(guān)函數(shù)可以是損失函數(shù)本身,總相關(guān)函數(shù)即為總損失函數(shù),并且總損失函數(shù)可以是對每個樣本的損失函數(shù)求平均得到的。

優(yōu)選地,相關(guān)函數(shù)計算單元212可以根據(jù)權(quán)重變量與本次迭代的路徑的權(quán)重的差值的二階信息來計算所選樣本的損失函數(shù)。

優(yōu)選地,權(quán)重計算單元211可以根據(jù)本次迭代之前的路徑的權(quán)重和總損失函數(shù)來計算本次迭代的路徑的權(quán)重。更優(yōu)選地,權(quán)重計算單元211可以使得以本次迭代之前的路徑的權(quán)重的范數(shù)和總損失函數(shù)為變量的函數(shù)取得最小值時的路徑的權(quán)重作為本次迭代的路徑的權(quán)重。

根據(jù)本公開的實施例,當判斷與輸出單元220確定不滿足停止迭代的條件時,可以由迭代計算單元210繼續(xù)對路徑的權(quán)重進行迭代計算。

根據(jù)本公開的優(yōu)選實施例,判斷與輸出單元220確定滿足停止迭代的條件為:本次迭代的目標函數(shù)與本次迭代之前的目標函數(shù)之間的差值小于預定閾值。這里,可以根據(jù)本次迭代的路徑的權(quán)重和總損失函數(shù)來計算本次迭代的目標函數(shù)。優(yōu)選地,目標函數(shù)可以是以樣本集合的總損失函數(shù)和權(quán)重變量的范數(shù)為變量的函數(shù)。

根據(jù)本公開的實施例,樣本的損失函數(shù)可以是樣本輸入神經(jīng)網(wǎng)絡(luò)模型時的期望輸出與實際輸出的差值的平方。

根據(jù)本公開的另一實施例,上面提到的總相關(guān)函數(shù)可以是對每個樣本的相關(guān)函數(shù)求平均得到的。優(yōu)選地,權(quán)重計算單元211可以根據(jù)本次迭代之前的路徑的權(quán)重和總相關(guān)函數(shù)來計算權(quán)重增量,并且可以根據(jù)權(quán)重增量和本次迭代之前的路徑的權(quán)重來計算本次迭代的路徑的權(quán)重。更優(yōu)選地,權(quán)重計算單元211可以根據(jù)權(quán)重增量的二階信息、本次迭代之前的路徑的權(quán)重以及總相關(guān)函數(shù)來計算權(quán)重增量。

下面結(jié)合圖3來進一步詳細地描述本公開的技術(shù)方案。圖3圖示了根據(jù)本公開的實施例的神經(jīng)網(wǎng)絡(luò)模型訓練方法。

如圖3所示,在步驟S310中,進行初始化。

具體地,選擇初始權(quán)重W0,其中上標0指示第0次迭代。對于每一個訓練樣本i∈{1,2,..,n},可以令成為初始權(quán)重W0下與第i個模式(亦即樣本)相關(guān)聯(lián)的損失函數(shù)Ji(W)的Hessian矩陣的正定逼近。

進一步,令 <mrow> <msubsup> <mi>J</mi> <mi>i</mi> <mn>0</mn> </msubsup> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>J</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mn>0</mn> </msup> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mi>W</mi> <mo>-</mo> <msup> <mi>W</mi> <mn>0</mn> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>&dtri;</mo> <msub> <mi>J</mi> <mi>i</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mn>0</mn> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mrow> <mo>(</mo> <mi>W</mi> <mo>-</mo> <msup> <mi>W</mi> <mn>0</mn> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msubsup> <mi>H</mi> <mn>0</mn> <mi>i</mi> </msubsup> <mrow> <mo>(</mo> <mi>W</mi> <mo>-</mo> <msup> <mi>W</mi> <mn>0</mn> </msup> <mo>)</mo> </mrow> </mrow>成為初始權(quán)重W0下的損失函數(shù)Ji(W)的二次逼近,于是自然就成為初始權(quán)重W0下的總損失函數(shù)J(W)的二次逼近。

接下來,在步驟S320中,求解子問題以得到權(quán)重新的逼近。

具體地,例如可以通過以下公式(8)來得到權(quán)重新的逼近:

Wk+1←ar gminW[Gk(x)+λ||W||1] (8)

接下來,在步驟S330中,更新所選樣本的損失函數(shù),并且保持其它樣本的損失函數(shù)不變。

具體地,可以從樣本集{1,2,..,n}中選擇樣本j,并且通過以下公式(9) 來更新最新權(quán)重Wk+1下的損失函數(shù)Jj(W)的二次逼近:

<mrow> <msubsup> <mi>J</mi> <mi>j</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>J</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> <mo>)</mo> </mrow> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mi>W</mi> <mo>-</mo> <msup> <mi>W</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> <mo>&dtri;</mo> <msub> <mi>J</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mrow> <mo>(</mo> <mi>W</mi> <mo>-</mo> <msup> <mi>W</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> <mo>)</mo> </mrow> <mi>T</mi> </msup> <msubsup> <mi>H</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>i</mi> </msubsup> <mrow> <mo>(</mo> <mi>W</mi> <mo>-</mo> <msup> <mi>W</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

同時保留所有其它損失函數(shù)不變:并且 <mrow> <msup> <mi>G</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> <mrow> <mo>(</mo> <mi>x</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>J</mi> <mi>i</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msubsup> <mrow> <mo>(</mo> <mi>W</mi> <mo>)</mo> </mrow> <mo>.</mo> </mrow>

接下來,在步驟S340中,判斷是否滿足停止條件,亦即結(jié)果是否收斂。如果結(jié)果為“否”,則過程返回到步驟S320,繼續(xù)進行迭代。另一方面,如果結(jié)果為“是”,則過程前進到步驟S350。

在步驟S350中,可以輸出本次迭代的路徑的權(quán)重Wk作為神經(jīng)網(wǎng)絡(luò)模型中的路徑的最終權(quán)重。在這之后,過程結(jié)束。

下面結(jié)合圖4來進一步詳細地描述本公開的技術(shù)方案。圖4圖示了根據(jù)本公開的另一實施例的神經(jīng)網(wǎng)絡(luò)模型訓練方法。需要說明的是,如圖4所示的技術(shù)方案與如圖3所示的技術(shù)方案相比在本質(zhì)上是等價的,且更易于分析。

如圖4所示,在步驟S410中,進行初始化。

具體地,選擇初始權(quán)重W0,其中上標0指示第0次迭代。對于每一個訓練樣本i∈{1,2,..,n},可以令成為初始權(quán)重W0下與第i個樣本相關(guān)聯(lián)的損失函數(shù)Ji(W)的Hessian矩陣的正定逼近。

進一步,可以令梯度相關(guān)量并且 <mrow> <msub> <mo>&dtri;</mo> <mn>0</mn> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mo>&dtri;</mo> <mn>0</mn> <mi>i</mi> </msubsup> <mo>,</mo> <msub> <mi>H</mi> <mn>0</mn> </msub> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>0</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>H</mi> <mn>0</mn> <mi>i</mi> </msubsup> <mo>.</mo> </mrow>

接下來,在步驟S420中,求解子問題以得到權(quán)重的更新量。

具體地,例如可以通過以下公式(10)來得到權(quán)重的更新量:

<mrow> <mi>&Delta;</mi> <msup> <mi>W</mi> <mi>k</mi> </msup> <mo>&LeftArrow;</mo> <mi>arg</mi> <msub> <mi>min</mi> <mi>d</mi> </msub> <msup> <mi>d</mi> <mi>T</mi> </msup> <mrow> <mo>(</mo> <msub> <mo>&dtri;</mo> <mi>k</mi> </msub> <mo>+</mo> <msub> <mi>H</mi> <mi>k</mi> </msub> <msup> <mi>W</mi> <mi>k</mi> </msup> <mo>)</mo> </mrow> <mo>+</mo> <mfrac> <mn>1</mn> <mn>2</mn> </mfrac> <msup> <mi>d</mi> <mi>T</mi> </msup> <msub> <mi>H</mi> <mi>k</mi> </msub> <mi>d</mi> <mo>+</mo> <mi>&lambda;</mi> <msub> <mrow> <mo>|</mo> <mo>|</mo> <msup> <mi>W</mi> <mi>k</mi> </msup> <mo>+</mo> <mi>d</mi> <mo>|</mo> <mo>|</mo> </mrow> <mn>1</mn> </msub> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

接下來,在步驟S420中,對本次迭代的路徑的權(quán)重進行更新。

具體地,例如可以通過以下公式(11)來得到更新的本次迭代的路徑的權(quán)重:

Wk+1=Wk+ΔWk (11)

接下來,在步驟S440中,更新所選樣本的Hessian矩陣和梯度相關(guān)量。

具體地,可以從樣本集{1,2,..,n}中選擇樣本j,使用和(其為權(quán)重Wk+1下的損失函數(shù)Jj(W)的Hessian矩陣的正定逼近),通過以下公式(12)來更新

<mrow> <msubsup> <mo>&dtri;</mo> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>j</mi> </msubsup> <mo>&LeftArrow;</mo> <mo>&dtri;</mo> <msub> <mi>J</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>W</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> <mo>)</mo> </mrow> <mo>-</mo> <msubsup> <mi>H</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>j</mi> </msubsup> <msup> <mi>W</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msup> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

同時,保留所有其它和不變:并且最終,通過以下公式獲得和:

<mrow> <msub> <mo>&dtri;</mo> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>&LeftArrow;</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mo>&dtri;</mo> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>i</mi> </msubsup> <mo>,</mo> <msub> <mi>H</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>&LeftArrow;</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msubsup> <mi>H</mi> <mrow> <mi>k</mi> <mo>+</mo> <mn>1</mn> </mrow> <mi>i</mi> </msubsup> </mrow>

接下來,在步驟S450中,判斷是否滿足停止條件,亦即結(jié)果是否收斂。如果結(jié)果為“否”,則過程返回到步驟S420,繼續(xù)進行迭代。另一方面,如果結(jié)果為“是”,則過程前進到步驟S460。

在步驟S460中,可以輸出本次迭代的路徑的權(quán)重Wk作為神經(jīng)網(wǎng)絡(luò)模型中的路徑的最終權(quán)重。在這之后,過程結(jié)束。

下面結(jié)合圖5來描述根據(jù)本公開的實施例的神經(jīng)網(wǎng)絡(luò)模型訓練方法。根據(jù)本公開的方法可以用于訓練神經(jīng)網(wǎng)絡(luò)模型以便進行模式識別。

如圖5所示,根據(jù)本公開的實施例的神經(jīng)網(wǎng)絡(luò)模型訓練方法開始于步驟S510。在步驟S510中,計算本次迭代的路徑的權(quán)重。

接下來,在步驟S520中,從用于訓練神經(jīng)網(wǎng)絡(luò)模型的樣本集合中隨機選取一個樣本,并根據(jù)本次迭代的路徑的權(quán)重來計算所選樣本的相關(guān)函數(shù),并且保持樣本集合中除所選樣本之外的其它樣本的相關(guān)函數(shù)不變。這里,樣本的相關(guān)函數(shù)是與樣本的損失函數(shù)相關(guān)聯(lián)的函數(shù)。

接下來,在步驟S530中,根據(jù)所選樣本的相關(guān)函數(shù)和其它樣本的相關(guān)函數(shù)來計算本次迭代的總相關(guān)函數(shù)。

接下來,在步驟S540中判斷是否滿足停止迭代的條件。

當在步驟S540中判斷滿足停止迭代的條件時,過程前進到步驟S550。在步驟S550中,輸出本次迭代的路徑的權(quán)重作為神經(jīng)網(wǎng)絡(luò)模型中的路徑的最終權(quán)重。在這之后,過程結(jié)束。

另一方面,當在步驟S540中判斷不滿足停止迭代的條件時,過程返回到步驟S510,以繼續(xù)進行下一次迭代。

根據(jù)本公開的實施例,上面提到的相關(guān)函數(shù)可以是損失函數(shù),總相關(guān)函數(shù)即為總損失函數(shù),并且總損失函數(shù)可以是對每個樣本的損失函數(shù)求平均得到的。

根據(jù)本公開的實施例,在步驟S520中,根據(jù)本次迭代的路徑的權(quán)重來計算所選樣本的損失函數(shù)可以包括:根據(jù)權(quán)重變量與本次迭代的路徑的權(quán)重的差值的二階信息來計算所選樣本的損失函數(shù)。

根據(jù)本公開的實施例,在步驟S510中,計算本次迭代的路徑的權(quán)重可以包括:根據(jù)本次迭代之前的路徑的權(quán)重和總損失函數(shù)來計算本次迭代的路徑的權(quán)重。更優(yōu)選地,根據(jù)本次迭代之前的路徑的權(quán)重和總損失函數(shù)來計算本次迭代的路徑的權(quán)重可以包括:使得以本次迭代之前的路徑的權(quán)重的范數(shù)和總損失函數(shù)為變量的函數(shù)取得最小值時的路徑的權(quán)重作為本次迭代的路徑的權(quán)重。

根據(jù)本公開的實施例,在步驟S540中,判斷停止迭代的條件可以是:本次迭代的目標函數(shù)與本次迭代之前的目標函數(shù)之間的差值小于預定閾值。這里,可以根據(jù)本次迭代的路徑的權(quán)重和總損失函數(shù)來計算本次迭代的目標函數(shù)。

根據(jù)本公開的實施例,目標函數(shù)可以是以樣本集合的總損失函數(shù)和權(quán)重變量的范數(shù)為變量的函數(shù)。

根據(jù)本公開的實施例,樣本的損失函數(shù)可以是樣本輸入神經(jīng)網(wǎng)絡(luò)模型時的期望輸出與實際輸出的差值的平方。

根據(jù)本公開的實施例,上面提到的總相關(guān)函數(shù)可以是對每個樣本的相關(guān)函數(shù)求平均得到的。

根據(jù)本公開的實施例,在步驟S510中,計算本次迭代的路徑的權(quán)重可以包括:根據(jù)本次迭代之前的路徑的權(quán)重和總相關(guān)函數(shù)來計算權(quán)重增量;以及根據(jù)權(quán)重增量和本次迭代之前的路徑的權(quán)重來計算本次迭代的路徑的權(quán)重。更優(yōu)選地,根據(jù)本次迭代之前的路徑的權(quán)重和總相關(guān)函數(shù)來計算權(quán)重增量可以包括:根據(jù)權(quán)重增量的二階信息、本次迭代之前的路徑的權(quán)重以及總相關(guān)函數(shù)來計算權(quán)重增量。

根據(jù)本公開的實施例的神經(jīng)網(wǎng)絡(luò)模型訓練方法的上述步驟的各種具體實施方式前面已經(jīng)作過詳細描述,在此不再重復說明。

本公開提出了一種用于訓練神經(jīng)網(wǎng)絡(luò)的近增量牛頓型梯度法。針對光滑強凸問題,可以證明本公開的技術(shù)方案不僅與MISO、SAG、Prox-SVRG和Prox-SDCA具有相同的線性收斂性質(zhì),而且其求解也具有線性收斂速率。更進一步,在本公開中所提出的技術(shù)原則除了可以用于伊辛模型、Hopfield神經(jīng)網(wǎng)絡(luò)、多層感知和深卷積網(wǎng)絡(luò)autoencoder等神經(jīng)網(wǎng)絡(luò)應(yīng)用,還可以應(yīng)用于邏輯回歸、獨立成分分析等。

顯然,根據(jù)本公開的神經(jīng)網(wǎng)絡(luò)模型訓練方法的各個操作過程可以以存儲在各種機器可讀的存儲介質(zhì)中的計算機可執(zhí)行程序的方式實現(xiàn)。

而且,本公開的目的也可以通過下述方式實現(xiàn):將存儲有上述可執(zhí)行程序代碼的存儲介質(zhì)直接或者間接地提供給系統(tǒng)或設(shè)備,并且該系統(tǒng)或設(shè)備中的計算機或者中央處理單元(CPU)讀出并執(zhí)行上述程序代碼。此時,只要該系統(tǒng)或者設(shè)備具有執(zhí)行程序的功能,則本公開的實施方式不局限于程序,并且該程序也可以是任意的形式,例如,目標程序、解釋器執(zhí)行的程序或者提供給操作系統(tǒng)的腳本程序等。

上述這些機器可讀存儲介質(zhì)包括但不限于:各種存儲器和存儲單元,半導體設(shè)備,磁盤單元例如光、磁和磁光盤,以及其它適于存儲信息的介質(zhì)等。

另外,計算機通過連接到因特網(wǎng)上的相應(yīng)網(wǎng)站,并且將依據(jù)本公開的計算機程序代碼下載和安裝到計算機中然后執(zhí)行該程序,也可以實現(xiàn)本公開的技術(shù)方案。

圖6為其中可以實現(xiàn)根據(jù)本公開的實施例的神經(jīng)網(wǎng)絡(luò)模型訓練裝置和方法的通用個人計算機的示例性結(jié)構(gòu)的框圖。

如圖6所示,CPU 1301根據(jù)只讀存儲器(ROM)1302中存儲的程序或從存儲部分1308加載到隨機存取存儲器(RAM)1303的程序執(zhí)行各種處理。在RAM 1303中,也根據(jù)需要存儲當CPU 1301執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 1301、ROM 1302和RAM 1303經(jīng)由總線1304彼此連接。輸入/輸出接口1305也連接到總線1304。

下述部件連接到輸入/輸出接口1305:輸入部分1306(包括鍵盤、鼠標等等)、輸出部分1307(包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,以及揚聲器等)、存儲部分1308(包括硬盤等)、通信部分1309(包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信部分1309經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器1310也可連接到輸 入/輸出接口1305??刹鹦督橘|(zhì)1311比如磁盤、光盤、磁光盤、半導體存儲器等等根據(jù)需要被安裝在驅(qū)動器1310上,使得從中讀出的計算機程序根據(jù)需要被安裝到存儲部分1308中。

在通過軟件實現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)1311安裝構(gòu)成軟件的程序。

本領(lǐng)域的技術(shù)人員應(yīng)當理解,這種存儲介質(zhì)不局限于圖6所示的其中存儲有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)1311??刹鹦督橘|(zhì)1311的例子包含磁盤(包含軟盤(注冊商標))、光盤(包含光盤只讀存儲器(CD-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標))和半導體存儲器?;蛘撸鎯橘|(zhì)可以是ROM 1302、存儲部分1308中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。

在本公開的系統(tǒng)和方法中,顯然,各部件或各步驟是可以分解和/或重新組合的。這些分解和/或重新組合應(yīng)視為本公開的等效方案。并且,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時間順序執(zhí)行,但是并不需要一定按照時間順序執(zhí)行。某些步驟可以并行或彼此獨立地執(zhí)行。

以上雖然結(jié)合附圖詳細描述了本公開的實施例,但是應(yīng)當明白,上面所描述的實施方式只是用于說明本公開,而并不構(gòu)成對本公開的限制。對于本領(lǐng)域的技術(shù)人員來說,可以對上述實施方式作出各種修改和變更而沒有背離本公開的實質(zhì)和范圍。因此,本公開的范圍僅由所附的權(quán)利要求及其等效含義來限定。

關(guān)于包括以上實施例的實施方式,還公開下述的附記:

附記1.一種神經(jīng)網(wǎng)絡(luò)模型訓練裝置,包括:

迭代計算單元,用于對神經(jīng)網(wǎng)絡(luò)模型中的路徑的權(quán)重進行迭代計算;以及

判斷與輸出單元,用于當滿足停止迭代的條件時,停止迭代,并輸出本次迭代的路徑的權(quán)重作為所述神經(jīng)網(wǎng)絡(luò)模型中的路徑的最終權(quán)重,

其中,所述迭代計算單元包括:

權(quán)重計算單元,用于計算本次迭代的路徑的權(quán)重;

相關(guān)函數(shù)計算單元,用于從用于訓練所述神經(jīng)網(wǎng)絡(luò)模型的樣本集合中 隨機選取一個樣本,并根據(jù)本次迭代的路徑的權(quán)重來計算所選樣本的相關(guān)函數(shù),并且保持所述樣本集合中除所選樣本之外的其它樣本的相關(guān)函數(shù)不變,其中樣本的相關(guān)函數(shù)是與所述樣本的損失函數(shù)相關(guān)聯(lián)的函數(shù);以及

總相關(guān)函數(shù)計算單元,用于根據(jù)所選樣本的相關(guān)函數(shù)和所述其它樣本的相關(guān)函數(shù)來計算本次迭代的總相關(guān)函數(shù)。

附記2.根據(jù)附記1所述的裝置,其中,所述相關(guān)函數(shù)為損失函數(shù),所述總相關(guān)函數(shù)為總損失函數(shù),并且所述總損失函數(shù)是對每個樣本的損失函數(shù)求平均得到的。

附記3.根據(jù)附記2所述的裝置,其中,所述相關(guān)函數(shù)計算單元根據(jù)權(quán)重變量與本次迭代的路徑的權(quán)重的差值的二階信息來計算所選樣本的損失函數(shù)。

附記4.根據(jù)附記2所述的裝置,其中,所述權(quán)重計算單元根據(jù)本次迭代之前的路徑的權(quán)重和總損失函數(shù)來計算本次迭代的路徑的權(quán)重。

附記5.根據(jù)附記4所述的裝置,其中,所述權(quán)重計算單元使得以所述本次迭代之前的路徑的權(quán)重的范數(shù)和所述總損失函數(shù)為變量的函數(shù)取得最小值時的路徑的權(quán)重作為本次迭代的路徑的權(quán)重。

附記6.根據(jù)附記1所述的裝置,其中,當所述判斷與輸出單元確定不滿足停止迭代的條件時,由所述迭代計算單元繼續(xù)對路徑的權(quán)重進行迭代計算。

附記7.根據(jù)附記2所述的裝置,其中,所述判斷與輸出單元確定滿足停止迭代的條件為:

本次迭代的目標函數(shù)與本次迭代之前的目標函數(shù)之間的差值小于預定閾值,

其中根據(jù)本次迭代的路徑的權(quán)重和總損失函數(shù)來計算本次迭代的目標函數(shù)。

附記8.根據(jù)附記7所述的裝置,其中,所述目標函數(shù)是以所述樣本集合的總損失函數(shù)和權(quán)重變量的范數(shù)為變量的函數(shù)。

附記9.根據(jù)附記2所述的裝置,其中,所述樣本的損失函數(shù)是所述樣本輸入所述神經(jīng)網(wǎng)絡(luò)模型時的期望輸出與實際輸出的差值的平方。

附記10.根據(jù)附記1所述的裝置,其中,所述總相關(guān)函數(shù)是對每個樣本的相關(guān)函數(shù)求平均得到的。

附記11.根據(jù)附記10所述的裝置,其中,所述權(quán)重計算單元根據(jù)本次迭代之前的路徑的權(quán)重和總相關(guān)函數(shù)來計算權(quán)重增量,并且根據(jù)所述權(quán)重增量和本次迭代之前的路徑的權(quán)重來計算本次迭代的路徑的權(quán)重。

附記12.根據(jù)附記11所述的裝置,其中,所述權(quán)重計算單元根據(jù)權(quán)重增量的二階信息、本次迭代之前的路徑的權(quán)重以及總相關(guān)函數(shù)來計算所述權(quán)重增量。

附記13.一種用于訓練神經(jīng)網(wǎng)絡(luò)模型以便進行模式識別的方法,包括:

對所述神經(jīng)網(wǎng)絡(luò)模型中的路徑的權(quán)重進行迭代計算;以及

當滿足停止迭代的條件時,停止迭代,并輸出本次迭代的路徑的權(quán)重作為所述神經(jīng)網(wǎng)絡(luò)模型中的路徑的最終權(quán)重,

其中對所述神經(jīng)網(wǎng)絡(luò)模型中的路徑的權(quán)重進行迭代計算包括:

計算本次迭代的路徑的權(quán)重;

從用于訓練所述神經(jīng)網(wǎng)絡(luò)模型的樣本集合中隨機選取一個樣本,并根據(jù)本次迭代的路徑的權(quán)重來計算所選樣本的相關(guān)函數(shù),并且保持所述樣本集合中除所選樣本之外的其它樣本的相關(guān)函數(shù)不變,其中樣本的相關(guān)函數(shù)是與所述樣本的損失函數(shù)相關(guān)聯(lián)的函數(shù);以及

根據(jù)所選樣本的相關(guān)函數(shù)和所述其它樣本的相關(guān)函數(shù)來計算本次迭代的總相關(guān)函數(shù)。

附記14.根據(jù)附記13所述的方法,其中,所述相關(guān)函數(shù)為損失函數(shù),所述總相關(guān)函數(shù)為總損失函數(shù),并且所述總損失函數(shù)是對每個樣本的損失函數(shù)求平均得到的。

附記15.根據(jù)附記14所述的方法,其中,根據(jù)本次迭代的路徑的權(quán)重來計算所選樣本的損失函數(shù)包括:根據(jù)權(quán)重變量與本次迭代的路徑的權(quán)重的差值的二階信息來計算所選樣本的損失函數(shù)。

附記16.根據(jù)附記14所述的方法,其中,計算本次迭代的路徑的權(quán)重包括:根據(jù)本次迭代之前的路徑的權(quán)重和總損失函數(shù)來計算本次迭代的路徑的權(quán)重。

附記17.根據(jù)附記16所述的方法,其中,根據(jù)本次迭代之前的路徑的權(quán)重和總損失函數(shù)來計算本次迭代的路徑的權(quán)重包括:使得以所述本次迭代之前的路徑的權(quán)重的范數(shù)和所述總損失函數(shù)為變量的函數(shù)取得最小 值時的路徑的權(quán)重作為本次迭代的路徑的權(quán)重。

附記18.根據(jù)附記13所述的方法,其中,當不滿足停止迭代的條件時,返回對路徑的權(quán)重進行迭代計算的步驟。

附記19.根據(jù)附記14所述的方法,其中,停止迭代的條件為:

本次迭代的目標函數(shù)與本次迭代之前的目標函數(shù)之間的差值小于預定閾值,

其中根據(jù)本次迭代的路徑的權(quán)重和總損失函數(shù)來計算本次迭代的目標函數(shù)。

附記20.一種機器可讀存儲介質(zhì),其上攜帶有包括存儲在其中的機器可讀指令代碼的程序產(chǎn)品,其中,所述指令代碼當由計算機讀取和執(zhí)行時,能夠使所述計算機執(zhí)行根據(jù)附記13-19中任何一項所述的方法。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
曲沃县| 岳池县| 平安县| 宁国市| 新郑市| 武强县| 封丘县| 泰兴市| 江油市| 桦南县| 廊坊市| 温泉县| 苍南县| 波密县| 涟源市| 壶关县| 申扎县| 涡阳县| 延安市| 平乡县| 金华市| 白玉县| 纳雍县| 加查县| 秀山| 涪陵区| 汽车| 资兴市| 墨江| 墨江| 高淳县| 神农架林区| 灵宝市| 梁河县| 北川| 女性| 商南县| 安达市| 青神县| 无棣县| 朝阳区|