欧美在线观看视频网站,亚洲熟妇色自偷自拍另类,啪啪伊人网,中文字幕第13亚洲另类,中文成人久久久久影院免费观看 ,精品人妻人人做人人爽,亚洲a视频

基于昇騰Atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法

文檔序號:40435406發(fā)布日期:2024-12-24 15:09閱讀:19來源:國知局
基于昇騰Atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法

本發(fā)明涉及高性能計算,具體涉及基于昇騰atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法。


背景技術(shù):

1、矩陣向量乘法(gemv)是線性代數(shù)中的一個基本操作,它在機器學(xué)習(xí),大模型等領(lǐng)域都有廣泛的應(yīng)用。例如,在機器學(xué)習(xí)中,矩陣向量乘法被廣泛用于神經(jīng)網(wǎng)絡(luò)的前向傳播和反向傳播過程中;在大模型中,廣泛應(yīng)用于推理過程。在信號處理中,矩陣向量乘法被用于濾波器設(shè)計和信號重構(gòu)等任務(wù)中。矩陣向量乘法的計算復(fù)雜度為o(n2),其中n表示矩陣的維數(shù)。因此,當矩陣較大時,其計算成本會非常高。為了加速矩陣向量乘法的計算,許多優(yōu)化技術(shù)被提出來,例如基于緩存的優(yōu)化、基于向量化指令的優(yōu)化、基于并行計算的優(yōu)化等。

2、npu是神經(jīng)網(wǎng)絡(luò)處理單元(neural?processing?unit)的縮寫,是一種專門用于加速人工神經(jīng)網(wǎng)絡(luò)計算的處理器。與通用處理器(cpu)和圖形處理器(gpu)不同,npu采用高度優(yōu)化的硬件架構(gòu),能夠在相同的功耗和面積下提供更高的計算性能和能效比。npu的出現(xiàn)主要是為了滿足人工智能應(yīng)用對計算性能和能效比的極高要求。隨著人工智能技術(shù)的快速發(fā)展,傳統(tǒng)的cpu和gpu已經(jīng)無法滿足日益復(fù)雜的計算需求,npu逐漸成為許多人工智能應(yīng)用的算力基礎(chǔ)。

3、華為昇騰atlas是華為自產(chǎn)自研的npu,其中的計算核心為ai?core,每個ai?core的硬件架構(gòu),如圖1所示,ai?core中的計算單元主要包括:cube?unit(矩陣計算單元),vector?unit(向量計算單元)和scalar?unit(標量計算單元),用來完成不同類型的數(shù)據(jù)計算。ai?core中存在內(nèi)部存儲,ai?core需要把外部存儲中的數(shù)據(jù)加載到內(nèi)部存儲中,才能完成相應(yīng)的計算。ai?core的內(nèi)部存儲包括:l1?buffer(l1緩沖區(qū)),l0?buffer(l0緩沖區(qū)),unified?buffer(ub統(tǒng)一緩沖區(qū))和scalar?buffer(標量緩沖區(qū))。

4、目前華為npu軟件生態(tài)沒有通用gpu完善,一些基礎(chǔ)算子的優(yōu)化加速工作具有重大意義。在atlas?npu上進行復(fù)數(shù)的矩陣向量乘法存在一定的困難,因為atlas?npu不支持直接的復(fù)數(shù)類型計算,需要將復(fù)數(shù)拆分為實部和虛部進行計算,并且拆分在atlas?npu屬于計算,需要消耗一定的計算性能。對于復(fù)數(shù)矩陣乘向量,復(fù)數(shù)矩陣的虛實分離會增加計算的開銷。


技術(shù)實現(xiàn)思路

1、為解決現(xiàn)有技術(shù)所存在的技術(shù)問題,本發(fā)明提出了基于昇騰atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法,無需對復(fù)數(shù)矩陣進行虛實分離,降低計算性能的消耗,加速復(fù)數(shù)矩陣向量乘計算。

2、本發(fā)明的目的可以通過采取如下技術(shù)方案達到:

3、基于昇騰atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法,包括以下步驟:

4、s1、將復(fù)數(shù)矩陣向量乘法的計算任務(wù)按照復(fù)數(shù)結(jié)果向量進行劃分,將劃分后的計算任務(wù)分配給atlas?npu的各個矩陣計算核心并行計算;

5、s2、從全局內(nèi)存讀取復(fù)數(shù)向量,vector計算單元將復(fù)數(shù)向量進行重新組合排布得到實部負虛部間隔和虛部實部間隔的兩條列向量,將兩條向量組合成一個列優(yōu)先矩陣;

6、s3、從全局內(nèi)存讀取復(fù)數(shù)矩陣,根據(jù)復(fù)數(shù)矩陣、兩條向量組合成的一個列優(yōu)先矩陣,調(diào)用矩陣運算單元完成矩陣向量乘法運算,得到復(fù)數(shù)結(jié)果向量的實部向量和虛部向量;

7、s4、通過vector計算單元合并復(fù)數(shù)結(jié)果向量的實部向量和虛部向量,將矩陣運算單元和vector運算單元進行計算核心粒度的同步,得到最終的復(fù)數(shù)結(jié)果向量。

8、具體地,所述步驟s1包括:

9、將復(fù)數(shù)結(jié)果向量劃分為多個任務(wù)段進行計算,根據(jù)計算核心片上l1內(nèi)存的大小計算一個任務(wù)段的大小,根據(jù)任務(wù)段的大小對復(fù)數(shù)結(jié)果向量進行分段,得到多個任務(wù)段;

10、根據(jù)計算核心數(shù)量,根據(jù)循環(huán)任務(wù)劃分策略將所有任務(wù)段均勻分配給計算核心并行計算。

11、具體地,所述步驟s2包括:

12、通過vector運算單元將復(fù)數(shù)向量x虛實分離為實部xr和虛部xi,將實部xr和虛部xi再進行重新組合排布為實部負虛部組合和虛部實部組合的兩條向量,將兩條向量組合成一個列優(yōu)先矩陣。

13、具體地,所述列優(yōu)先矩陣可以表示為:

14、

15、其中,xr1、xi1分別是元素x1的實部和虛部,-xi1為元素x1的負虛部。

16、具體地,所述步驟s3包括:

17、在矩陣轉(zhuǎn)置的情況下,將矩陣向量乘法運算表示為:

18、yt=xta

19、y表示輸出向量,x表示輸入向量,a表示輸入矩陣,t表示矩陣的轉(zhuǎn)置。

20、具體地,所述步驟s4包括:

21、當矩陣計算單元得到一個任務(wù)段的復(fù)數(shù)結(jié)果向量的實部向量和虛部向量之后,vector計算單元馬上開始虛實結(jié)合,同時矩陣計算單元進行計算下一個任務(wù)段的數(shù)據(jù),讓vector計算單元和矩陣計算單元并行計算。

22、本發(fā)明與現(xiàn)有技術(shù)相比,具有如下優(yōu)點和有益效果:

23、本發(fā)明提出了基于昇騰atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法,通過將復(fù)數(shù)向量進行重新組合排布得到實部負虛部間隔和虛部實部間隔的兩條列向量,將兩條向量組合成一個列優(yōu)先矩陣,無需對復(fù)數(shù)矩陣進行虛實分離,降低計算性能的消耗,加速復(fù)數(shù)矩陣向量乘計算,可以充分發(fā)揮華為昇騰atlas?npu算力,加速復(fù)數(shù)矩陣向量乘計算,可以為深度學(xué)習(xí)和科學(xué)計算等領(lǐng)域提供算力支持,具有較好的實用價值。



技術(shù)特征:

1.基于昇騰atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法,其特征在于,包括以下步驟:

2.根據(jù)權(quán)利要求1所述的基于昇騰atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法,其特征在于,所述步驟s1包括:

3.根據(jù)權(quán)利要求1所述的基于昇騰atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法,其特征在于,所述步驟s2包括:

4.根據(jù)權(quán)利要求3所述的基于昇騰atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法,其特征在于,所述列優(yōu)先矩陣可以表示為:

5.根據(jù)權(quán)利要求4所述的基于昇騰atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法,其特征在于,所述步驟s3包括:

6.根據(jù)權(quán)利要求5所述的基于昇騰atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法,其特征在于,所述步驟s4包括:


技術(shù)總結(jié)
本發(fā)明屬于高性能計算技術(shù)領(lǐng)域,為基于昇騰Atlas矩陣計算單元的復(fù)數(shù)矩陣向量乘法計算方法,包含以下步驟:將劃分后的計算任務(wù)分配給Atlas?NPU的各個矩陣計算核心并行計算;vector計算單元將復(fù)數(shù)向量進行重新組合排布得到實部負虛部間隔和虛部實部間隔的兩條列向量,將兩條向量組合成一個列優(yōu)先矩陣;調(diào)用矩陣運算單元完成矩陣向量乘法運算,得到復(fù)數(shù)結(jié)果向量的實部向量和虛部向量;通過vector計算單元合并復(fù)數(shù)結(jié)果向量的實部向量和虛部向量,將矩陣運算單元和vector運算單元進行計算核心粒度的同步,得到最終的復(fù)數(shù)結(jié)果向量。本發(fā)明無需對復(fù)數(shù)矩陣進行虛實分離,降低計算性能的消耗,加速復(fù)數(shù)矩陣向量乘計算,提高了復(fù)數(shù)矩陣向量乘法在NPU上的計算效率。

技術(shù)研發(fā)人員:趙容,徐浩,陸璐
受保護的技術(shù)使用者:華南理工大學(xué)
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/23
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1
阿巴嘎旗| 商城县| 安丘市| 那曲县| 和平县| 开化县| 枣阳市| 巴中市| 沙坪坝区| 金坛市| 平罗县| 泸州市| 东莞市| 万盛区| 金华市| 和硕县| 遂宁市| 汕尾市| 新田县| 广南县| 平泉县| 西乡县| 巴林右旗| 珠海市| 建平县| 天津市| 牙克石市| 卢氏县| 交城县| 永仁县| 南投市| 微博| 乌拉特后旗| 福贡县| 靖西县| 兰考县| 嘉义县| 阳高县| 大田县| 黔西| 灵武市|