FPGA 解決方案和標準控制器內核比較

作者：時間：2018-09-10 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

如果在兩者之間沒有使用 FSL總線的情況下添加這個IP，您必須對項目的MHS文件進行如下修改：
BEGIN microblaze
...
PARAMETER C_FSL_LINKS = 1
...
PORT FSL0_S_EXISTS = net_vcc
PORT FSL0_S_DATA = FSL0_S_DATA
PORT FSL0_M_DATA = FSL0_M_DATA
PORT FSL0_M_WRITE = FSL0_M_EXISTS
PORT FSL0_M_Full = net_gnd
END
BEGIN fsl_bitrev
PARAMETER INSTANCE = fsl_bitrev_0
PARAMETER HW_VER = 1.00.a
PORT FSL_S_DATA = FSL0_M_DATA
PORT FSL_S_EXISTS = FSL0_M_EXISTS
PORT FSL_M_Data = FSL0_S_DATA
PORT FSL_M_Full = net_gnd
PORT FSL_Clk = clk_50_0000MHz
END

本文引用地址：http://www.j9360.com/article/201809/388779.htm

　　現在效率顯著提高。硬核僅在兩個周期內可完成位反轉操作：一個周期用于把數據寫入IP，另一個周期則負責讀回結果。處理2萬個位反轉操作現在只需0.8ms。

　　與最初采用的算法相比，效率提升了110倍。與效率最高的最新軟件算法相比，此算法仍使系統性能提升了11倍。

　　當然，本例只有在您的CPU不提供位反轉尋址功能的情況下才有效。大多數 DSP都有此功能，但大多數微控制器都不具備這個功能。具備增加這個功能的特性可大幅度提升這種算法的處理速度。

　　雖然修改不大，但收效十分明顯。我們甚至將代碼壓縮到兩個字大小。當然，現在硬件要求增加一些芯片。不過以此為代價獲得比任何標準微控制器更高的速度，是值得的。

　案例2：高速浮點性能

　　現在我們給出另一個 MicroBlaze算法加速示例。一個客戶聲稱他的浮點處理在MicroBlaze系統上運行非常慢。他使用的算法可采用簡單的環路同時得出幾個結果。

for (i=0;i512;i++) {
f_sum += farr[i];
　　　f_sum_prod += farr[i] * farr[i];
f_sum_tprod += farr[i] *
farr[i] * farr[i];
　　f_sqrt + =
sqrt(farr[i]);
　　if (min_f > farr[i]) { min_f =
farr[i]; }
　　if (max_f farr[i]) { max_f =
farr[i]; }
}

　　所有數值均是單精度浮點值。我們首先想到的是最基礎的一個問題：浮點單元 (FPU) 激活了嗎?檢查項目設置后，我們發現FPU仍然處于未啟用狀態。這就是為什么永遠無法計算出這幾個數的原因。FPU可在 MicroBlaze屬性設置中加以激活。

　　FPU支持共有兩種。我們也選擇擴展FPU (Extended FPU)來支持求平方根運算。現在，在50MHz 的MicroBlaze上需要 1,108,685個周期才能完成 512個值的全部循環。查看生成的匯編程序代碼后，可以了解到創建平方根是仍然在使用數學庫(Math-lib)功能。其在數學功能中的定義為：

　　double sqrt(double);

　　不過客戶使用平方根函數僅為處理浮點數值。因此，MicroBlaze FPU定義了一個新的函數來取代原來的函數，解決這個問題：

　　float sqrtf(float);

　　把表達式f_sqrt += sqrt(farr[i])變為f_sqrt += sqrtf(farr[i])，就會調用MicroBlaze內部的FPU內部平方根功能。現在執行代碼只需要35,336個周期。特別是與第一個根本沒有使用FPU的方案相比，我們再次通過小小的調整就實現了31倍的提升。在相同的執行時間內，可能需要大約1.5GHz的CPU才能給出上述這些結果。

　不過客戶仍不滿意，客戶要求更高的速度。在這種情況下，把算法從浮點運算變為固點運算并不適合。因此，我們開發了一款新型專用硬件加速器(新型FSL IP)來加快對循環的處理。

　　新的FSL IP使用CORE Generator模塊浮點_v4_0來為4x ADD、2x MUL、1x GREATER、1x LESS和1x SQRT等操作創建9個示例。所有這些示例都可以實體化，并對相同的輸入數據進行完全并行處理(圖2)。

　　FSL IP中實例的創建帶有部分時延，但吞吐率僅為1。這要求為加速器內部的控制器硬件準備更多的芯片，不過這樣可以在每個時鐘周期內向協處理器提供新數據。

　　在取回結果前，只有在處理循環末端才需要增加周期。

　　我們采用直連方式把MicroBlaze連接到FSP IP時不需要FIFO。傳輸的所有數據都將緩存在IP內，并隨即加以處理。

　　從FSL IP返回到MicroBlaze的連接是使用FSL總線創建的。由于我們必須發回一些結果，因而這更加容易實現，而且可以更加簡單地在IP內完成。部分CoreGen模塊有一些已被添加到執行時間中的時延，并被getfsl()調用完全覆蓋。MicroBlaze只需要等到所有結果都存入FSL總線FIFO。不過，只要數據率是1，即可完全實現所要求的吞吐率。

　　FSL總線的額外延遲僅會占用為數不多的一些周期。使用FSL硬件加速器的C代碼如下：for (i=0;i512;i++) {
putfsl(farr[i],fsl0_id);
}
// get the min,max values:
getfsl(min_f,fsl0_id);
getfsl(max_f,fsl0_id);
// get the sum and products:
getfsl(f_sum,fsl0_id);
getfsl(f_sum_prod,fsl0_id);
getfsl(f_sum_tprod,fsl0_id);
getfsl(f_sqrt,fsl0_id);

　　算法的最終實施僅需大約4,630個周期，而且依然是全浮點實施。

　　硬件需要本來應該用于實施硬件加速器的更多芯片才能并行計算出所有結果。不過與擴展FPU實施方案相比，我們最終提升了大約7.6倍。否則，如果使用標準處理器來替換這個50MHz的處理器，可能需要大約380MHz的CPU才能勝任(假設硬件自帶有浮點平方根函數)。

　　更為顯著的是與使用PFU的最初方案，而非平方根函數的對比效果：總體提升了大約239倍。這種效果可能需要12GHz左右的浮點處理器才能實現。

　　如上述例子所示，有時候小小的調整就會顯著影響算法的處理效果。實施這些調整，可以讓您的50MHz MicroBlaze系統與高性能DSP相媲美。

　　首先，找出執行時間過長的核心算法，然后對其加速——通過簡單調整軟件，使用硬件，或使用硬件加速器進行更為復雜的調整。如此一來，您的處理器系統會強于標準控制器。