ARM程序設計優化

作者：時間：2011-04-30 來源：網絡

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

程序優化是指軟件編程結束后，利用軟件開發工具對程序進行調整和改進，讓程序充分利用資源，提高運行效率，縮減代碼尺寸的過程。按照優化的側重點不同，程序優化可分為運行速度優化和代碼尺寸優化。運行速度優化是指在充分掌握軟硬件特性的基礎上，通過應用程序結構調整等手段來降低完成指定任務所需執行的指令數。在同一個處理器上，經過速度優化的程序比未經優化的程序在完成指定任務時所需的時間更短，即前者比后者具有更高的運行效率。代碼尺寸優化是指，采取措施使應用程序在能夠正確完成所需功能的前提下，盡可能減少程序的代碼量。

本文引用地址：http://www.j9360.com/article/150814.htm

　　然而在實際的程序設計過程中，程序優化的兩個目標(運行速度和代碼大小) 通常是互相矛盾的。為了提高程序運行效率，往往要以犧牲存儲空間、增加代碼量為代價，例如程序設計中經常使用的以查表代替計算、循環展開等方法就容易導致程序代碼量增加。而為了減少程序代碼量、壓縮存儲器空間，可能又要以降低程序運行效率為代價。因此，在對程序實施優化之前，應先根據實際需求確定相應的策略。在處理器資源緊張的情況下，應著重考慮運行速度優化;而在存儲器資源使用受限的情況下，則應優先考慮代碼尺寸的優化。

　　1 程序運行速度優化

　　程序運行速度優化的方法可分為以下幾大類。

　　1.1 通用的優化方法

　　(1)減小運算強度

　　利用左/ 右移位操作代替乘/ 除2 運算：通常需要乘以或除以2 的冪次方都可以通過左移或右移n 位來完成。實際上乘以任何一個整數都可以用移位和加法來代替乘法。arm 7 中加法和移位可以通過一條指令來完成，且執行時間少于乘法指令。例如： i = i × 5 可以用i = (i2) + i 來代替。

　　利用乘法代替乘方運算：arm7 核中內建有32 ×8 乘法器，因此可以通過乘法運算來代替乘方運算以節約乘方函數調用的開銷。例如： i = pow(i, 3.0) 可用 i = i×i × i 來代替。

　　利用與運算代替求余運算：有時可以通過用與(AND )指令代替求余操作(% )來提高效率。例如：i = i % 8 可以用 i = i 0x07 來代替。

　　(2)優化循環終止條件

　　在一個循環結構中，循環的終止條件將嚴重影響著循環的效率，再加上arm 指令的條件執行特性，所以在書寫循環的終止條件時應盡量使用count-down-to-zero結構。這樣編譯器可以用一條BNE (若非零則跳轉)指令代替CMP (比較)和BLE (若小于則跳轉)兩條指令，既減小代碼尺寸，又加快了運行速度。

　　(3)使用inline 函數

　　arm C 支持 inline 關鍵字，如果一個函數被設計成一個inline 函數，那么在調用它的地方將會用函數體來替代函數調用語句，這樣將會徹底省去函數調用的開銷。使用inline 的最大缺點是函數在被頻繁調用時，代碼量將增大。

　　1.2 處理器相關的優化方法

　　(1)保持流水線暢通

　　從前面的介紹可知，流水線延遲或阻斷會對處理器的性能造成影響，因此應該盡量保持流水線暢通。流水線延遲難以避免，但可以利用延遲周期進行其它操作。

　　LOAD/STORE 指令中的自動索引(auto-indexing)功能就是為利用流水線延遲周期而設計的。當流水線處于延遲周期時，處理器的執行單元被占用，算術邏輯單元(ALU )和桶形移位器卻可能處于空閑狀態，此時可以利用它們來完成往基址寄存器上加一個偏移量的操作，

　　供后面的指令使用。例如：指令 LDR R1, [R2], #4 完成 R1= *R2 及 R2 += 4 兩個操作，是后索引(post-indexing)的例子;而指令 LDR R1, [R2, #4]! 完成 R1 = *(R2 + 4) 和 R2 +=4 兩個操作，是前索引(pre-indexing)的例子。

　　流水線阻斷的情況可通過循環拆解等方法加以改善。一個循環可以考慮拆解以減小跳轉指令在循環指令中所占的比重，進而提高代碼效率。下面以一個內存復制函數加以說明。

　　void memcopy(char *to, char *from, unsigned int nbytes)

　　{

　　while(nbytes--)

　　*to++ = *from++;

　　}

　　為簡單起見，這里假設nbytes 為16 的倍數(省略對余數的處理)。上面的函數每處理一個字節就要進行一次判斷和跳轉，對其中的循環體可作如下拆解：

　　void memcopy(char *to, char *from, unsigned int nbytes)

　　{

　　while(nbytes) {

　　*to++ = *from++;

　　nbytes - = 4;