基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)及其處理方法

文檔序號：6548396閱讀：214來源：國知局

基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)及其處理方法
【專利摘要】本發(fā)明涉及一種基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)及其處理方法，其包括：系統(tǒng)總線、控制總線、嵌入式微處理器、系統(tǒng)中斷控制器、片外同步動態(tài)隨機存儲器、可重構處理器和重構控制單元，該處理方法針對點數(shù)為N(4千點N1兆點)的快速傅里葉變換算法，將N點信號長度分解成M階蝶形運算，然后映射到可重構處理器上，形成數(shù)據(jù)流圖，通過嵌入式微處理器啟動重構控制單元，將配置信息發(fā)送給可重構處理器，控制可重構處理器開始進行加速型運算。本發(fā)明在兼顧靈活度的同時提高了運算效率。
【專利說明】基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)及其處理方法
【技術領域】
[0001]本發(fā)明涉及嵌入式可重構系統(tǒng)領域，尤其涉及應用于雷達、通信等對實時性要求高且需要高性能的一種基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)及其處理方法。
【背景技術】
[0002]長期以來，人們使用軟件或硬件的方法來實現(xiàn)電子系統(tǒng)中的計算工作。軟件的實現(xiàn)方法，主要特征是在由通用處理器(CPU或DSP)、內存和部分簡單的外設組成的電子系統(tǒng)里，通過軟件程序實現(xiàn)大部分的邏輯處理和運算功能；軟件方法開發(fā)較單、靈活性高、易升級，但通常運行速度慢、效率低。硬件的實現(xiàn)方法，主要特征是由專用集成電路(ASIC)完成系統(tǒng)主要的計算工作。其開發(fā)周期長，缺乏靈活性，難以升級，但是可為目標任務特別定制，運行效率高、速度快。隨著可重構技術的出現(xiàn)，運算任務被高效的映射到硬件資源上，從而避免了軟件方式執(zhí)行的缺陷，保證了執(zhí)行的高并行度，同時能夠根據(jù)應用變化通過配置改變其功能，實現(xiàn)了硅后重構的靈活性。
[0003]目前國內外已研究有多種可重構系統(tǒng)，如ReMAP錯誤！未找到引用源。、MORA錯誤！未找到引用源。、MorphoSys、ADRES、XPP-1I1、MORPHEUS和REMUS等。當傅里葉變換算法在現(xiàn)有的可重夠系統(tǒng)上映射時，雖然輸入A和輸入B可被同時傳輸至可重構陣列基本運算單元，但是輸入A在第3個計算周期才被使用，這樣使得下一次的輸入需要等待3個周期才可以進行，產生了流水氣泡，使得蝶形運算單元執(zhí)行效率較低。當傅里葉變換算法在可重構陣列上運算至最后兩階時，計算中的數(shù)據(jù)需要將結果進行寫回，從而增大了可重構陣列間的數(shù)據(jù)傳輸量，造成數(shù)據(jù)訪問延遲，嚴重影響系統(tǒng)的性能。
[0004]針對相關研究中數(shù)據(jù)運算時產生的流水氣泡以及可重構陣列間的數(shù)據(jù)傳輸量增大的問題，目如尚未提出有效的解決方案。

【發(fā)明內容】

[0005]有鑒于此，本發(fā)明提出一種基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)及其處理方法，其利用可重構技術的并行性執(zhí)行指令、中間結果可流水式不間斷操作、運算模塊獨立可配置等優(yōu)點，針對快速傅里葉變換這種通用性強，數(shù)據(jù)量大的算法進行運算，能夠在支持一定靈活度的同時，提供足夠的計算能力。
[0006]為解決上述技術問題，本發(fā)明提供一種基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)，其包括:系統(tǒng)總線、控制總線、嵌入式微處理器、系統(tǒng)中斷控制器、片外同步動態(tài)隨機存儲器、可重構處理器和重構控制單元；其中，將進行快速傅里葉變換運算的N點信號長度分解成M階蝶形運算，然后映射到所述可重構處理器上，形成數(shù)據(jù)流圖，其中，4千點< NS I兆點；
[0007]通過所述嵌入式微處理器啟動所述重構控制單元，將配置信息從所述控制總線上發(fā)送到所述可重構處理器，控制所述可重構處理器開始進行加速型運算，當所述可重構處理器完成當前任務后，通過所述系統(tǒng)中斷控制器發(fā)送中斷信號給所述嵌入式微處理器，以完成后續(xù)功能。[0008]所述系統(tǒng)中斷控制器與系統(tǒng)總線之間的連接是雙向的，用于向可重構處理器發(fā)送中斷請求信號，由嵌入式微處理器響應。
[0009]所述系統(tǒng)總線用來連接各功能部件如嵌入式微處理器、系統(tǒng)中斷控制器、片外同步動態(tài)隨機存儲器、可重構處理器和重構控制單元而構成一個完整的可重構系統(tǒng)，具體的，用于傳送數(shù)據(jù)信息和配置信息，其中與各功能部件的連接是雙向的，片外同步動態(tài)隨機存儲器發(fā)送配置信息至系統(tǒng)總線是單向的。
[0010] 所述控制總線，用于單向傳遞配置信息，通過嵌入式微處理器啟動所述重構控制單元，將配置信息從所述控制總線上發(fā)送到所述可重構處理器，則可重構處理器開始進行運算。
[0011]優(yōu)選地，所述可重構處理器包含可重構陣列、可重構陣列信息配置模塊、片上數(shù)據(jù)傳輸網絡和片上數(shù)據(jù)傳輸網絡信息配置模塊；其中，所述可重構陣列信息配置模塊用于配置所述可重構陣列運算時相應的數(shù)據(jù)輸入、運算控制、數(shù)據(jù)輸出、可重構陣列循環(huán)次數(shù)、運行周期和配置信息的切換；所述片上數(shù)據(jù)傳輸網絡信息配置模塊用于片上數(shù)據(jù)傳輸網絡的功能配置。
[0012]優(yōu)選地，可重構處理器包括4個可重構陣列同時運算；每個所述可重構陣列由6行8列的二維基本運算單元構成，數(shù)據(jù)從上一層的所述基本運算單元傳輸?shù)较乱粚樱黄鋵娱g互聯(lián)采用直連線，上一層的所述基本運算單元可以與下一層的與其正對的及向兩側偏移2個的所述基本運算單元互聯(lián)。
[0013]優(yōu)選地，所述片上數(shù)據(jù)傳輸網絡包括4個先進先出寄存器堆、旋轉因子存儲單元和外存訪問接口；其中，4個先進先出寄存器堆#0-#3對應于4個可重構陣列#0-#3，用于存儲相應所述可重構陣列運算過程中產生的臨時數(shù)據(jù)，完成所述4個可重構陣列間的數(shù)據(jù)塊重排；旋轉因子是快速傅里葉變換運算過程中所需的輸入數(shù)據(jù)，制成一個旋轉因子表存儲在旋轉因子存儲單元中，供4個可重構陣列讀取；外存訪問接口用于實現(xiàn)旋轉因子存儲單元與片外同步動態(tài)隨機存儲器之間的數(shù)據(jù)傳輸。
[0014]優(yōu)選地，所述蝶形運算的輸入數(shù)據(jù)為a、b和旋轉因子W，輸出為a+bW、a_b W，其中
a、b、W均為復數(shù)，完成一個基本蝶形運算需要4個基本運算單元。
[0015]優(yōu)選地，所述映射為輸入所需數(shù)據(jù)，在一所述可重構陣列上以6級流水完成前三階運算；從第四階開始，在所述可重構陣列的第一，三，五行上并排輸入8個數(shù)據(jù)分別以2級流水計算；每次運算所需要的數(shù)據(jù)需要有規(guī)則的跳轉，且不同階的蝶形運算的數(shù)據(jù)輸入的跳轉規(guī)則有一定規(guī)律，進行L階運算時，用于蝶形運算的數(shù)據(jù)間隔是2' L為階數(shù)，L≥4 ;運算到M-1階和M階時，4個可重構陣列間在共享的片上數(shù)據(jù)傳輸網絡上進行數(shù)據(jù)塊重排后再在每個可重構陣列上進行運算，直至運算結束。
[0016]優(yōu)選地，N點快速傅里葉變換所需進行的M階運算，前1g2 (N/4)階的運算在4個所述可重構陣列中獨立并行執(zhí)行，并將各自運算結果存儲在相應先進先出寄存器堆中；當運算進行到到M-1階和M階時，需在共享的片上數(shù)據(jù)傳輸網絡上進行數(shù)據(jù)塊重排后再在每個所述可重構陣列上進行運算。
[0017]優(yōu)選地，所述數(shù)據(jù)塊重排為:將每個先進先出寄存器堆中的暫存數(shù)據(jù)分為上下兩部分，對先進先出寄存器堆#0的數(shù)據(jù)的下半部分和先進先出寄存器堆#1的上半部分進行互換以及先進先出寄存器堆#2的數(shù)據(jù)的下半部分和先進先出寄存器堆#3的上半部分進行互換，然后進行M-1階運算；將運算結果重新排列成最初的順序，接著將先進先出寄存器堆#0的數(shù)據(jù)的下半部分和先進先出寄存器堆#2的上半部分進行互換，先進先出寄存器堆#1的數(shù)據(jù)的下半部分和先進先出寄存器堆#3的上半部分進行互換，再進行M階運算。這種數(shù)據(jù)塊重排技術設計使得最后兩階計算中的數(shù)據(jù)不需將結果進行寫回，從而減少可重構陣列間的的數(shù)據(jù)傳輸量。
[0018]本發(fā)明還提供了一種基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)處理方法，其包括以下步驟:
[0019](I)分析傅里葉變換的運算流程，將基本蝶形運算轉換成數(shù)據(jù)流圖的形式；
[0020](2)制定按時間抽取算法的倒位序輸入順序，并將配置信息和所需運算的數(shù)據(jù)存入相應存儲器；
[0021](3)將N點離散傅里葉變換映射到可重構處理器上；
[0022](4)通過嵌入式微處理器啟動重構控制單元，將配置信息從控制總線上發(fā)送到可重構處理器，控制可重構處理器的工作；
[0023](5)當可重構處理器完成當前任務后，發(fā)送中斷信號給嵌入式微處理器。
[0024]本發(fā)明與現(xiàn)有技術相比，其優(yōu)點在于:
[0025](I)本發(fā)明的基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)及其處理方法，面向N點FFT運算，只需對配置信息稍加改動，便可實現(xiàn)不同點的運算。相比傳統(tǒng)的通用處理器實現(xiàn)靈活性更高。
[0026](2)本發(fā)明利用可重構技術的并行性執(zhí)行指令、中間結果可流水式不間斷操作、運算模塊獨立可配置、等優(yōu)點，針對快速傅里葉變換這種通用性強，數(shù)據(jù)量大的算法進行運算，使得可在同一時間執(zhí)行大量操作；數(shù)據(jù)塊重排技術減少了可重構陣列間數(shù)據(jù)傳輸量；并行流水化的運算模式使得此方法相對于專用集成電路運算效率更高。
【專利附圖】

【附圖說明】
[0027]附圖用來提供對本發(fā)明的進一步理解，并且構成說明書的一部分，與本發(fā)明的實施例一起用于解釋本發(fā)明，并不構成對本發(fā)明的限制。在附圖中:
[0028]圖1為本發(fā)明的基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)結構框圖；
[0029]圖2為本發(fā)明可重構陣列結構框圖；
[0030]圖3為本發(fā)明可重構處理器中共享的片上數(shù)據(jù)傳輸網絡內部結構圖；
[0031]圖4為基于本發(fā)明數(shù)據(jù)塊重排技術的數(shù)據(jù)塊位置圖。
【具體實施方式】
[0032]以下結合附圖對本發(fā)明的優(yōu)選實施例進行說明，應當理解，此處所描述的優(yōu)選實施例僅用于說明和解釋本發(fā)明，并不用于限定本發(fā)明。
[0033]名詞釋義:系統(tǒng)總線(AHB, Advanced High performance Bus),快速傅里葉變換(Fast Fourier Transformation, FFT),基本運算單兀(PE)。
[0034]圖1為本發(fā)明基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)結構框圖，如圖1所示，本發(fā)明提供一種基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)，其硬件結構包括由系統(tǒng)總線，如AMBA2.0ΑΗΒ、控制總線，如AMBA2.0ΑΗΒ、嵌入式微處理器，如ARM7TDM1、系統(tǒng)中斷控制器，如INTC、片外同步動態(tài)隨機存儲器，如DDR2SDRAM、可重構處理器和重構控制單元構成的數(shù)字信號處理系統(tǒng)。具體的實現(xiàn)步驟為:
[0035](I)分析快速傅里葉變換的運算流程，將基本蝶形運算轉換成數(shù)據(jù)流圖的形式；
[0036](2)制定按時間抽取算法的倒位序輸入順序，并將配置信息和所需運算的數(shù)據(jù)存入相應存儲器；
[0037](3)將64K點離散傅里葉變換映射到可重構處理器上；
[0038](4)通過ARM7TDMI啟動重構控制單元，將配置信息從控制總線AMBA2.0AHB上發(fā)送到可重構處理器，控制可重構處理器的工作；
[0039](5)當可重構處理器完成當前任務后，發(fā)送中斷信號給ARM7TDMI嵌入式微處理器ARM7TDMI。
[0040]下面就每一個步驟，進行具體說明:
[0041]I)分析快速傅里葉變換(FFT)的運算流程，將基本蝶形運算轉換成數(shù)據(jù)流圖的形式； [0042]本發(fā)明所針對的64K點的離散傅里葉變換按時間抽取算法，將64K點離散傅里葉變換分解成16階，每階由N/2個基本蝶形運算組成；x(n)表示需要進行傅里葉變換的序列，X(k)表示運算完的序列，η和k都代表非負整數(shù)的序列標號。經過16階分解，數(shù)據(jù)完成由X(n)到X(k)的轉換。本發(fā)明中的FFT運算基于復數(shù)型數(shù)據(jù)，因此一個基本的蝶形運算需要4個基本運算單元(PE):輸入數(shù)據(jù)為a、b和旋轉因子W，輸出為a+b ff, a-bff0
[0043]2)制定按時間抽取算法的倒位序輸入順序，并將配置信息和所需運算的數(shù)據(jù)存入相應存儲器；
[0044]a)FFT運算輸入數(shù)據(jù)的特點是倒位序輸入，所謂倒位序，就是將二進制數(shù)的最高有效位到最低有效位的位序進行顛倒排列而得到的二進制數(shù)。如當進行8點FFT運算時，輸入次序為x(0),X (4)、X (2)、X (6)、X (I)、X (5)、X (3)、X (7)。針對這種數(shù)據(jù)輸入的規(guī)律性，我們在可重構陣列信息配置模塊內定義了一種倒位序的數(shù)據(jù)輸入方式寄存器，使得每次發(fā)出讀數(shù)據(jù)請求時，將二進制數(shù)的最高有效位到最低有效位的位序進行顛倒得到倒位序序列。
[0045]b)輸入數(shù)據(jù)除x(n)外還有旋轉因子，在FFT算法流程圖中，每一級都有N/2個蝶
形元算，每個蝶形運算都要乘以旋轉因子。每一級旋轉因子都不相同，但是排列卻很有規(guī)律:第L階運算所需旋轉因子數(shù)為2L-1個，分別是巧W^2\.wf U)W2L則M
、、O
階運算所需的旋轉因子總量為N/2。旋轉因子^^=32((x)S (2 η k/N) — j sin(2 π k/N))，其
中求正弦和余弦函數(shù)值的計算量很大，在基本運算單元上完成會非常復雜。由于4個可重構陣列運算過程中都需要旋轉因子的輸入，因此將旋轉因子制成旋轉因子表存儲在片上數(shù)據(jù)傳輸網絡的旋轉因子存儲單元。針對旋轉因子輸入的規(guī)律性，我們在可重構陣列信息配置模塊內定義了旋轉因子的輸入方式寄存器，使得每次發(fā)出讀數(shù)據(jù)請求時，旋轉因子可以在每級運算時輸入所需數(shù)據(jù)。
[0046]c)關于配置信息，配置可重構處理器以生成配置信息。
[0047]表1為本發(fā)明的基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)及其處理方法配置可重構陣列的配置寄存器堆。[0048]表2為表一中配置寄存器堆的相應功能配置。
[0049]表1
[0050]
【權利要求】
1.一種基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)，其包括: 系統(tǒng)總線、控制總線、嵌入式微處理器、系統(tǒng)中斷控制器、片外同步動態(tài)隨機存儲器、可重構處理器和重構控制單元；其中，將N點信號長度分解成M階蝶形運算，然后映射到所述可重構處理器上，形成數(shù)據(jù)流圖，其中，4千點≤N≤1兆點；通過所述嵌入式微處理器啟動所述重構控制單元，將配置信息從所述控制總線上發(fā)送到所述可重構處理器，控制所述可重構處理器開始進行加速型運算，當所述可重構處理器完成當前任務后，通過所述系統(tǒng)中斷控制器發(fā)送中斷信號給所述嵌入式微處理器。
2.如權利要求1所述的嵌入式可重構系統(tǒng)，其特征在于:所述可重構處理器包含可重構陣列、可重構陣列信息配置模塊、片上數(shù)據(jù)傳輸網絡和片上數(shù)據(jù)傳輸網絡信息配置模塊；其中，所述可重構陣列信息配置模塊用于配置所述可重構陣列運算時相應的數(shù)據(jù)輸入、運算控制、數(shù)據(jù)輸出、可重構陣列循環(huán)次數(shù)、運行周期和配置信息的切換；所述片上數(shù)據(jù)傳輸網絡信息配置模塊用于片上數(shù)據(jù)傳輸網絡的功能配置。
3.如權利要求1或2所述的嵌入式可重構系統(tǒng)，其特征在于:可重構處理器包括4個可重構陣列同時運算；每個所述可重構陣列由6行8列的二維基本運算單元構成，數(shù)據(jù)從上一層的所述基本運算單元傳輸?shù)较乱粚?；其層間互聯(lián)采用直連線，上一層的所述基本運算單元可以與下一層的與其正對的及向兩側偏移2個的所述基本運算單元互聯(lián)。
4.如權利要求2所述的嵌入式可重構系統(tǒng)，其特征在于:所述片上數(shù)據(jù)傳輸網絡包括4個先進先出寄存器堆、旋轉因子存儲單元和外存訪問接口；其中，4個先進先出寄存器堆#0-#3對應于4個可重構陣列#0-#3，用于存儲相應所述可重構陣列運算過程中產生的臨時數(shù)據(jù)，完成所述4個可重構陣列間的數(shù)據(jù)塊重排；旋轉因子是快速傅里葉變換運算過程中所需的輸入數(shù)據(jù)，制成一個旋轉因子表存儲在旋轉因子存儲單元中，供4個可重構陣列讀?。煌獯嬖L問接口用于實現(xiàn)旋轉因子存儲單元與片外同步動態(tài)隨機存儲器之間的數(shù)據(jù)傳輸。
5.如權利要求1所述的嵌入式可重構系統(tǒng)，其特征在于:所述蝶形運算的輸入數(shù)據(jù)為a、b和旋轉因子W，輸出為a+bW、a-bff,其中a、b、W均為復數(shù)，完成一個基本蝶形運算需要4個基本運算單元。
6.如權利要求3所述的嵌入式可重構系統(tǒng)，其特征在于:所述映射為輸入所需數(shù)據(jù)，在一所述可重構陣列上以6級流水完成前三階運算；從第四階開始，在所述可重構陣列的第一，三，五行上并排輸入8個數(shù)據(jù)分別以2級流水計算；每次運算所需要的數(shù)據(jù)需要有規(guī)則的跳轉，且不同階的蝶形運算的數(shù)據(jù)輸入的跳轉規(guī)則有一定規(guī)律，進行L階運算時，用于蝶形運算的數(shù)據(jù)間隔是2' L為階數(shù)，L≤4 ;運算到M-1階和M階時，4個可重構陣列間在共享的片上數(shù)據(jù)傳輸網絡上進行數(shù)據(jù)塊重排后再在每個可重構陣列上進行運算，直至運算結束。
7.如權利要求4所述的嵌入式可重構系統(tǒng)，其特征在于:N點快速傅里葉變換所需進行的M階運算，前1g2 (N/4)階的運算在4個所述可重構陣列中獨立并行執(zhí)行，并將各自運算結果存儲在相應先進先出寄存器堆中；當運算進行到到M-1階和M階時，需在共享的片上數(shù)據(jù)傳輸網絡上進行數(shù)據(jù)塊重排后再在每個所述可重構陣列上進行運算。
8.如權利要求4或6或7中所述的嵌入式可重構系統(tǒng)，所述數(shù)據(jù)塊重排為:將每個先進先出寄存器堆中的暫存數(shù)據(jù)分為上下兩部分，對先進先出寄存器堆#0的數(shù)據(jù)的下半部分和先進先出寄存器堆#1的上半部分進行互換以及先進先出寄存器堆#2的數(shù)據(jù)的下半部分和先進先出寄存器堆#3的上半部分進行互換，然后進行M-1階運算；將運算結果重新排列成最初的順序，接著將先進先出寄存器堆#0的數(shù)據(jù)的下半部分和先進先出寄存器堆#2的上半部分進行互換，先進先出寄存器堆#1的數(shù)據(jù)的下半部分和先進先出寄存器堆#3的上半部分進行互換，再進行M階運算。
9.一種基于大規(guī)模粗粒度嵌入式可重構系統(tǒng)處理方法，其包括以下步驟: (1)分析傅里葉變換的運算流程，將基本蝶形運算轉換成數(shù)據(jù)流圖的形式； (2)制定按時間抽取算法的倒位序輸入順序，并將配置信息和所需運算的數(shù)據(jù)存入相應存儲器； (3)將N點離散傅里葉變換映射到可重構處理器上； (4)通過嵌入式微處理器啟動重構控制單元，將配置信息從控制總線上發(fā)送到可重構處理器，控制可重構處理器的工作；當可重構處理器完成當前任務后，發(fā)送中斷信號給嵌入式微處理器。
【文檔編號】G06F17/16GK103984677SQ201410240100
【公開日】2014年8月13日申請日期:2014年5月30日優(yōu)先權日:2014年5月30日
【發(fā)明者】曹鵬, 劉波, 楊苗苗, 劉楊, 汪芮合, 朱婉瑜申請人:東南大學

完整全部詳細技術資料下載