一種簡化的MCU程序保護設計
引言
本文引用地址:http://www.j9360.com/article/201610/307654.htm筆者2008年在本刊發表過一篇文章《MCU需要改進》,本文就為什么要改,如何改作進一步的討論。總的來說,因為對功能安全要求的認識深化,改進的必要則突現;而且國際上已經有了滿足改進的產品,改進事實上已開始,不做的人失去的是競爭力,改進其實也不復雜。
1 發生錯的原因與現有對策
MCU在工作時會受到干擾,在一些空間場合,可能遇到粒子轟擊而產生穩態的翻轉,即所謂single event upset。而一般工業場合是電源傳導干擾,受干擾時,電源電壓會瞬間超出或者略微超出MCU的名義工作電壓,線路的穩定性就無法保證。由于各單個邏輯電路工藝過程中總會有微小差異,電源電壓的略微超出會在最弱的邏輯電路中造成指令讀錯誤和數據讀寫錯誤。這種錯誤最終表現為數據的錯誤。
國外對DRAM出錯的研究已做得很多,在參考文獻中轉述了出錯的概率:“谷歌(Google)使用了大量服務器,2009年的大規模統計。出錯的概率是2.5~7×10-11error/bit/h。”即8G RAM每小時會有5個錯。
現在對于有功能安全要求的系統,安全等級為SIL2時,出錯的概率應小于10-7”/h。現在控制器所用的MCU的Flash與RAM的大小已達128 K~1 Mb,參考上述概率,如果缺少程序的保護,將會有1M×7×10-11 error/h=7×10-5 error/h,這遠大于功能安全要求的出錯概率。
從功能安全的角度,系統中任何影響功能的錯誤都是應該被檢測出來的,如果這個錯誤危及人類生命或造成設備的重大損失,那么就必須有防范的措施,必要時就必須糾正錯誤。然而要達到這種要求是很難的,需要付出很大的代價。以數據錯誤為例,人們常常重復計算多次,然后把占多數的結果代表正確的結果。這樣,數據分享前的結果都要經表決,否則發現錯會太晚,影響一致性。這就需要更多的硬件資源與開發成本。即便如此,如果作為表決器的環節仍是MCU的一個程序,它仍然可能會受錯誤指令的干擾,未能完全攔住錯誤。
為了節省成本,更多的應用并沒有采用這種冗余與表決的方法。它們往往以不死機作為目標,只要不死機,由控制對象來的新信息就可以重算出新的正確結果。即使上一次算出的錯了,其后果也只延續了一個采樣周期。這種策略對有累積效應的應用是無效的,就像參考文獻中討論的積分功能會失敗。又如運行結果與過程密切相關的應用,例如可編程控制器(PLC),數據的錯誤會導致控制邏輯的混亂。
保證不死機的主要措施是采用看門狗技術,如果程序走飛,在一定時間內沒有復位計時器,計時器就會溢出,產生MCU的重新啟動,重新初始化可以糾正損壞了的數據。看門狗技術是不管數據正確性的,因為指令錯了程序未必走飛,而指令錯了數據錯的可能性極大。
2 錯誤現象與錯誤校正方案
MCU的指令在讀取時發生錯誤就會產生不同的執行結果,在參考文獻中以8051的MOV指令為例,當有一位讀錯時就變成跳轉、除法、減法、交換、增1等等指令。實際上大部分MCU都會有指令錯而執行結果錯的問題,因為這些指令內沒有檢驗錯的機制。MC68HC11的LDA指令有1位錯時可能轉為加法、減法、送立即數到累加器B、送狀態存器、送堆棧指針等指令,如表1所列。
雖然筆者注意到這種出錯的可能性比較早(1990年),但是在寫參考文獻時(2008年)并不知道Freescale公司(2005年)的16位單片機中已經有了對指令添加檢錯與糾錯的措施。參考文獻中提到:“當系統遇到強干擾時,CPU在讀取指令或數據時可能出現錯誤,如果指令或數據僅僅是某一位出現錯誤,ECC模塊會自動糾正這一位的錯誤,使系統照常運行,如果出現二位或二位以上的錯誤,則ECC會以中斷方式通知CPU,出現了讀程序錯或讀數據錯。”
根據參考文獻,Freescale公司的16位單片機MC9S12P128的Flash部分32位的程序有7位特征,構成糾錯編碼(error correction code),可以糾正1位錯和發現2位錯。Flash部分16位的數據有6位特征,構成糾錯編碼ECC,可以糾正1位錯和發現2位錯。因此對指令的檢錯糾錯已經是批量使用了。最近AMD也推出了G系列嵌入式SoC平臺,它也采用了ECC技術。
ECC技術在企業級服務器中使用比較早,它考慮了DRAM的特點,例如內存插條中由多個芯片構成,就從每個芯片的對應位集合起來,再加校驗位。然后又有對應的診斷設計,可以找出出錯多的內存條,以便更換。所以它與單片機上的使用情況還是有區別的(更換是不可能的),直接照抄是不必要的。
從Freescale公司的ECC可知,它的海明距離HD=3,而且采用了糾錯措施。如果僅僅檢錯,那么實現起來更簡單一點。檢測出錯后的處理措施就比較容易設計,例如產生中斷,把該指令重取,由于是硬件中的措施,不必考慮添加入棧/出棧保護現場的動作,開銷很少。如果必要,還可以在另外的地方保存出錯統計信息,以及觸發更復雜的保護措施。
3 簡化報錯與糾錯方案
從現在單片機的發展趨勢來看,因為32位單片機價格的下降,市場將分化為8位與32位兩極。在中國8位機主要是8051體系,已經培育了較大的市場和大量熟悉的人才,而且也有自制8051的能力,所以在8051上添加檢驗碼是合理的選擇。如果增加了這一功能,無疑會提高使用8051系統的可信賴性,提升產品檔次,延長產品的壽命周期。另一方面,其實現也比較簡單,相信基于ARM的32位機也會添加這種指令檢驗機制,成本也要上升。
對MCU程序加保護的廠家還不多見,即使是Freescale公司也還沒有對所有的MCU添加保護,因為添加保護是要增加成本的,所以添加保護的方法是值得研究的課題。
對于8位指令代碼檢錯,可以選擇低階次的CRC。由參考文獻可知可以選4位CRC,其生成多項式是G=X4+X+1。它可以保證HD=3的數據字長為11位,已超過所需的8位。這里因為數據字8位是一次取出,所以CRC是并行計算的,由數據字到CRC的求取的方法推導如圖1所示。
假定數據字用D表示,生成多項式用G表示,Gm為最高階的系數,等于1。那么習慣的做法在除到Dn位時,判斷Dn值。若Dn=1,則將G和D的對應位對齊,用模2加法求取余數,Mn-i=Dn-i+Gm-i,用余數Mn-i代替原來的Dn-i移位。如果Dn=0,則不做加法,Mn-i=Dn-i,然后移位,也可以說用余數Mn-i代替原來的Dn-i移位。我們的目的是直接由D來產生余數,所以做了修改。修改方法是,當對齊后的Gm- i=1時,取Mn-i=Dn-i+Dn。當Gm-i=0時,對應項不做模2加。現在證明這兩種方法是等效的:
Dn=0,Gm-i=0時,習慣方法Mn-i=Dn-i;修改方法Mn-i=Dn-i。
Dn=0,Gm-i=1時,習慣方法Mn-i=Dn-i;修改方法Mn-i=Dn-i+Dn=Dn-i。
Dn=1,Gm-i=0時,習慣方法Mn-i=Dn-i+Gm-i=Dn-i;修改方法Mn-i=Dn-i。
Dn=1,Gm-i=1時,習慣方法Mn-i=Dn-i+Gm-i=Dn-i+1;修改方法Mn-i=Dn-i+Dn=Dn-i+1。
現在對G=X4+X+1時8位指令的數據字用修改方法求取CRC各位的值,為了閱讀方便,將數據字的各位用數字代表,例如7代表D7。參與模2加的各位就以各數字連寫在一起。例如CRC的最高一位是7 532,它代表D7、D5、D3、D2的模2加法結果。通過建立真值表,它們最后都可以用組合邏輯來實現,所以在取指完成后就立即可以判出是否有錯。求取并行解CRC邏輯的過程如圖2所示。
這種推導并行CRC值的方法也可以用于較長的指令,當然,為了避免手算的錯誤,應該以程序來求,這不是難事。
8位指令用4位CRC保護開銷是大了一點,但是它的保護強度也大了,對于16位的指令程序,用二次8位保護,有4個錯是肯定可以檢測出來的,如果像Freescale技術用掉6位保護,只能保證有2個錯可以檢測出來。所以這是折中的方法。
對于16位指令,可以用5位CRC保護,參考文獻中G=X5+X2+1可以在26位數據字長上獲得HD=3。對于32位指令,可以用6位CRC保護,參考文獻中G=X6+X+1可以在57位數據字長上獲得HD=3。由此可見,如果僅檢錯而靠重傳作糾錯,校驗項比Freescale都要省一位,用重取指令的方法可以節省開銷。
這種方法也可以對數據存取加以保護。在以現有MCU為主的單板嵌入式計算機中,添加程序保護也有很重要的意義,如何實施是值得研究的課題。
評論