本公開涉及人工智能,尤其涉及深度學(xué)習(xí)、模型壓縮、剪枝和知識蒸餾等。
背景技術(shù):
1、深度神經(jīng)網(wǎng)絡(luò),依賴于較大的模型參數(shù)和優(yōu)秀的推理能力,已經(jīng)在工業(yè)和學(xué)術(shù)界取得了一定的成功。然而,受限于有限的資源,很多設(shè)備無法安裝較大的神經(jīng)網(wǎng)絡(luò)模型。
2、因此,需要模型壓縮技術(shù)。模型壓縮是深度學(xué)習(xí)領(lǐng)域中的一項關(guān)鍵技術(shù),它旨在減少模型的大小和計算復(fù)雜度,以減低模型對存儲資源(如內(nèi)存)和計算資源的消耗,最終能夠在資源受限的設(shè)備上部署和運(yùn)行模型。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了一種模型壓縮方法、裝置、電子設(shè)備及存儲介質(zhì)。
2、根據(jù)本公開的一方面,提供了一種模型壓縮方法,包括:
3、在基于教師網(wǎng)絡(luò)向?qū)W生網(wǎng)絡(luò)進(jìn)行知識轉(zhuǎn)移的過程中,基于剪枝損失和蒸餾損失從學(xué)生網(wǎng)絡(luò)中篩選出至少一個待剪枝通道;
4、基于至少一個待剪枝通道,壓縮學(xué)生網(wǎng)絡(luò)。
5、根據(jù)本公開的另一方面,提供了一種模型壓縮裝置,包括:
6、篩選模塊,用于在基于教師網(wǎng)絡(luò)向?qū)W生網(wǎng)絡(luò)進(jìn)行知識轉(zhuǎn)移的過程中,基于剪枝損失和蒸餾損失從學(xué)生網(wǎng)絡(luò)中篩選出至少一個待剪枝通道;
7、壓縮模塊,用于基于至少一個待剪枝通道,壓縮學(xué)生網(wǎng)絡(luò)。
8、根據(jù)本公開的另一方面,提供了一種電子設(shè)備,包括:
9、至少一個處理器;以及
10、與該至少一個處理器通信連接的存儲器;其中,
11、該存儲器存儲有可被該至少一個處理器執(zhí)行的指令,該指令被該至少一個處理器執(zhí)行,以使該至少一個處理器能夠執(zhí)行本公開實(shí)施例中任一的方法。
12、根據(jù)本公開的另一方面,提供了一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì),其中,該計算機(jī)指令用于使該計算機(jī)執(zhí)行根據(jù)本公開實(shí)施例中任一的方法。
13、根據(jù)本公開的另一方面,提供了一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,該計算機(jī)程序在被處理器執(zhí)行時實(shí)現(xiàn)根據(jù)本公開實(shí)施例中任一的方法。
14、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本公開的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本公開的范圍。本公開的其它特征將通過以下的說明書而變得容易理解。
1.一種模型壓縮方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中,所述基于剪枝損失和蒸餾損失從所述學(xué)生網(wǎng)絡(luò)中篩選出至少一個待剪枝通道,包括:
3.根據(jù)權(quán)利要求2所述的方法,其中,所述基于所述多個通道的縮放因子,篩選出所述至少一個待剪枝通道,包括:
4.根據(jù)權(quán)利要求2所述的方法,其中,所述基于所述剪枝損失和所述蒸餾損失確定所述學(xué)生網(wǎng)絡(luò)中多個通道的縮放因子,包括:
5.根據(jù)權(quán)利要求4所述的方法,其中,所述基于所述剪枝損失和所述蒸餾損失確定總損失的表達(dá)式,包括:
6.根據(jù)權(quán)利要求4所述的方法,其中,確定所述蒸餾損失,包括:
7.根據(jù)權(quán)利要求4所述的方法,所述總損失的表達(dá)式中包括可學(xué)習(xí)的剪枝超參數(shù)和蒸餾超參數(shù),其中:
8.根據(jù)權(quán)利要求7所述的方法,其中,所述剪枝超參數(shù)為所述剪枝損失的權(quán)重;
9.根據(jù)權(quán)利要求7所述的方法,其中,確定所述剪枝超參數(shù)和所述蒸餾超參數(shù),包括:
10.根據(jù)權(quán)利要求1-9中任一項所述的方法,還包括:
11.根據(jù)權(quán)利要求1所述的方法,其中,所述學(xué)生網(wǎng)絡(luò)為計算機(jī)視覺模型,所述計算機(jī)視覺模型用于對輸入的圖像執(zhí)行目標(biāo)檢測、目標(biāo)分割和目標(biāo)分類任務(wù)中的至少一種。
12.根據(jù)權(quán)利要求1所述的方法,其中,所述學(xué)生網(wǎng)絡(luò)為語言處理模型,所述語言處理模型用于對輸入的語音和/或文本信息進(jìn)行推理分析,以完成人機(jī)對話、語義理解和文生圖任務(wù)中的至少一種任務(wù)。
13.根據(jù)權(quán)利要求1所述的方法,其中,所述學(xué)生網(wǎng)絡(luò)為多模態(tài)模型,所述多模態(tài)模型用于對輸入的多模態(tài)信息進(jìn)行分析,以完成資源推薦、提供自動駕駛決策的依據(jù)中的至少一種任務(wù)。
14.一種模型壓縮裝置,包括:
15.根據(jù)權(quán)利要求14所述的裝置,其中,所述篩選模塊,包括:
16.根據(jù)權(quán)利要求15所述的裝置,其中,所述篩選子單元,具體用于:
17.根據(jù)權(quán)利要求15所述的裝置,其中,所述確定子單元,具體用于:
18.根據(jù)權(quán)利要求17所述的裝置,其中,所述確定子單元具體用于:
19.根據(jù)權(quán)利要求17所述的裝置,其中,所述確定子單元,具體用于:
20.根據(jù)權(quán)利要求17所述的裝置,所述總損失的表達(dá)式中包括可學(xué)習(xí)的剪枝超參數(shù)和蒸餾超參數(shù),其中:
21.根據(jù)權(quán)利要求20所述的裝置,其中,所述剪枝超參數(shù)為所述剪枝損失的權(quán)重;
22.根據(jù)權(quán)利要求20所述的裝置,其中,所述確定子單元,還用于:
23.根據(jù)權(quán)利要求14-22中任一項所述的裝置,還包括:
24.根據(jù)權(quán)利要求14所述的裝置,其中,所述學(xué)生網(wǎng)絡(luò)為計算機(jī)視覺模型,所述計算機(jī)視覺模型用于對輸入的圖像執(zhí)行目標(biāo)檢測、目標(biāo)分割和目標(biāo)分類任務(wù)中的至少一種。
25.根據(jù)權(quán)利要求14所述的裝置,其中,所述學(xué)生網(wǎng)絡(luò)為語言處理模型,所述語言處理模型用于對輸入的語音和/或文本信息進(jìn)行推理分析,以完成人機(jī)對話、語義理解和文生圖任務(wù)中的至少一種任務(wù)。
26.根據(jù)權(quán)利要求14所述的裝置,其中,所述學(xué)生網(wǎng)絡(luò)為多模態(tài)模型,所述多模態(tài)模型用于對輸入的多模態(tài)信息進(jìn)行分析,以完成資源推薦、提供自動駕駛決策的依據(jù)中的至少一種任務(wù)。
27.一種電子設(shè)備,包括:
28.一種存儲有計算機(jī)指令的非瞬時計算機(jī)可讀存儲介質(zhì),其中,所述計算機(jī)指令用于使所述計算機(jī)執(zhí)行根據(jù)權(quán)利要求1-13中任一項所述的方法。
29.一種計算機(jī)程序產(chǎn)品,包括計算機(jī)程序,所述計算機(jī)程序在被處理器執(zhí)行時實(shí)現(xiàn)根據(jù)權(quán)利要求1-13中任一項所述的方法。