一種面向多核DSP的小容量緊耦合快速共享數據池
1. 引言
多核數字信號處理器(DSP)是近年來針對高性能嵌入式應用而出現的一類多核微處理器(CMP)。相比傳統的單核處理器,多核處理器在提高并行處理能力的同時也需要更高的存儲帶寬和更靈活的存儲結構。便箋存儲器(SPM)是一種小容量的片上存儲器,具有全局地址空間,可以由訪存指令直接訪問。SPM僅僅包含存儲陣列和譯碼邏輯,沒有Cache那樣復雜的Tag比較邏輯和替換策略,在電路面積和功耗方面比Cache更具優勢。另外,SPM采用固定的存儲映射方式,沒有訪問失效問題,能夠保證單拍(或確定節拍)的訪問時間,便于用戶顯式地管理和調度其中的數據,適合嵌入式實時計算的特點。
根據多核DSP的應用需求,并結合SPM的結構特征和共享存儲的編程優勢,本文提出了一種面向多核DSP的快速共享數據緩沖池FSDP,對其進行了設計實現和模擬分析。分析結果表明,FSDP對于DSP核間細粒度共享數據(例如某些全局變量、公共系數矩陣等)的傳輸具有很高的效率,相比類似的VS-SPM結構能夠將程序性能提高37%,與傳統的共享數據Cache結合使用能夠將異構多核DSP的性能提高13%。
本文的組織結構如下。第2部分介紹了國內外的研究現狀,第3部分介紹了異構多核DSP的總體結構原型,第4部分詳細介紹了FSDP的組成結構、訪問方法和同步機制。第5部分介紹了設計優化方法,構建了關于最佳單體容量的分析模型。第6部分介紹了設計實現和模擬分析結果。最后一部分總結了全文。
2. 相關工作
近年來,國外學者在SPM領域已經展開了積極的研究。Banakar等人針對計算密集型應用,使用專用工具(CACTI)計算出了各種容量的SPM和Cache的面積和功耗,使用Trace模擬器進行了性能對比。結果表明,同樣容量的SPM的平均功耗比Cache降低了40%。Issenin等人也認為,如果通過數據重用技術,將經常使用的數據放在小容量的SPM中,用片內局部傳輸代替片外全局傳輸,不但可以節省約一半的功耗,而且大大提高了傳輸效率。Kandemir和Suhendra等人基于一種虛擬共享便箋式存儲器(VS-SPM)的多核處理器原型,如圖1所示。通過任務映射、調度、SPM劃分和數據分配等編譯優化算法,提高片內數據重用性,減少不必要的片外訪存,其宣稱的實驗結果能夠把嵌入式應用的性能提高80%。
這些已有的工作主要是從軟件的角度研究如何優化SPM的存儲分配與管理,而且大部分是基于單核處理器的研究,對于多核處理器環境下SPM的體系結構研究還不夠充分。特別在共享存儲的方式下,必須根據實際應用中核間數據共享與傳輸的特點,研究速度快、結構靈活的SPM存儲結構。本文提出的FSDP采用多體并行和交叉訪問的方式,訪問延遲小,存取速度快;提供了硬件信號燈和軟件查詢兩種同步機制,同步開銷低,編程使用靈活。
3. 異構多核DSP總體結構
圖1 異構多核DSP“SDSP”的總體結構
異構多核DSP“SDSP”的總體結構如圖1所示,它由四個精簡的32位浮點DSP核與一個32位的RISC核構成。DSP核采用課題組自行研制的32位高性能浮點DSP“YHFT-DSP700”的精簡內核。該DSP內核主頻300MHz,8流出超長指令字(VLIW)結構。四個DSP內核共享存儲空間。每個DSP核具有私有的一級數據Cache(L1D)和一級指令Cache(L1P),共享二級Cache/SRAM(L2)和FSDP。FSDP與L1D處于同一個存儲層次,具有不可Cache的全局存儲空間,可以被四個DSP核的訪存指令直接訪問。
RISC核采用開放體系結構與源碼的LEON處理器。LEON是一款高度可配置的32位通用RISC處理器,兼容SPARC V8指令集,采用7級整數流水線,指令Cache和數據Cache分離。片上集成了AMBA 2.0總線,掛接存儲控制器、PCI模塊、CAN接口等外設模塊。
4. 快速共享數據緩沖池FSDP體系結構
FSDP是一個四通道共享存儲結構,每個DSP核對應一個通道,每個通道包括兩個大小相同的存儲體SAi和SBi(i=1,2,3,4)、存控邏輯和讀寫隊列。四個通道依次順序編址,通過高速交叉開關(Crossbar)構成整個共享數據緩沖池,如圖2所示。另外,FSDP采用了一組控制寄存器,通過公共的配置總線與四個DSP核相連,用于同步/互斥、狀態查詢、優先級控制等操作。
圖2 FSDP的組成結構及其與DSP核的連接關系
FSDP采用多體并行交叉訪問的機制,提供了“私有”和“共享”兩種工作模式,支持多個DSP核的并行訪問與核間數據流的傳輸。FSDP基于釋放一致性共享存儲模型,為用戶提供了硬件自動阻塞和軟件手工查詢兩種同步機制。多核DSP程序產生的中間結果、公共變量、系數常量、查找表等數據結構都可以通過FSDP實現快速的細粒度數據傳輸與交換。而大批量的全局數據和用戶程序則存放在片外存儲器中,通過兩級Cache進行訪問。下面,本文將詳細介紹FSDP的組成結構和關鍵技術。
4.1 帶旁路的讀寫隊列與解耦的存控邏輯
為了緩存因訪問沖突或同步失敗而被阻塞的讀/寫訪問,我們為每個DSP核分別設置了讀/寫隊列,直接緩存各個DSP核Load/Store單元發出的訪問請求。為了縮短訪問延遲,我們為讀/寫隊列設置了旁路邏輯。當沒有訪問沖突且核間同步握手成功時,讀寫請求不需進入讀寫隊列,由旁路邏輯將請求直接發送給相應的存控邏輯。這一設計縮短了訪問延遲,有效增強了FSDP的傳輸效率。下圖3給出了帶旁路的讀寫隊列結構。為了加快地址譯碼速度,本文將地址譯碼邏輯和訪問控制邏輯進行了解耦處理,將譯碼器置于旁路邏輯之前,縮短控制邏輯的關鍵路徑,提高了FSDP的訪問速度。
圖3 帶旁路的讀寫隊列
4.2 雙模式操作與交叉訪問
本文為FSDP設計了“私有”和“共享”兩種工作模式。
在私有模式下,任意DSP核DSP-i只能讀寫與其對應通道內的兩個存儲體SAi和SBi(i=1,2,3,4),不能訪問其他的通道;
在共享模式下,每個DSP核可以讀取另外三個通道的數據,但不能向其中寫入數據。任意DSP核必須通過其對應通道的兩個存儲體與其他DSP核交換共享數據。
可見,在私有模式下,所有的存儲體都不存在訪問競爭,訪問速度快。在共享模式下,FSDP不存在多核寫沖突的問題,簡化了維護數據一致性的硬件開銷,提高了核間共享數據的傳輸速度,有利于提高嵌入式應用的實時性。
在任務流水的計算模式下,DSP核間的共享數據相繼構成“生產者-消費者”關系:前一個核的計算輸出直接作為下一個核的計算輸入。為了有效支持這種傳輸模式,我們在FSDP中采用了交叉訪問的機制:
當“生產者”DSP-i向存儲體SAi寫入第一塊共享數據之后,釋放該存儲體,轉而向SBi寫入第二塊共享數據;
“消費者”DSP-j(j≠i)啟動讀訪問,從SAi讀出第一塊共享數據;
當這一過程完成后,雙方交叉,DSP-i釋放存儲體SBi,向SAi寫入第三塊共享數據,DSP-j則從SBi讀出第二塊共享數據,依此類推,直至傳輸完成。
因此,在寫入第一塊共享數據之后,讀寫操作就可以并行執行。當雙方的計算負載均衡,速度匹配的時候,DSP核之間可以進行流水傳輸,同步等待延遲最小,傳輸效率達到最高。
4.3 釋放一致性模型與基于信號燈的快速同步機制
在共享存儲的釋放一致性(RC)模型中,同步操作包括“獲取”和“釋放”兩種操作,分別用于取得對共享存儲單元的獨占性訪問權和解除這一訪問權。參照基本的RC模型,本文為FSDP設計了一套簡潔、高效的控制邏輯和同步機制。
首先,為每個存儲體設置3個“信號燈”寄存器,分別對應除本通道之外的其他3個DSP核,作為同步/互斥操作的硬件鎖。“信號燈”寄存器映射了全局共享的物理地址,通過公共配置總線與四個DSP核相連。每個“信號燈”具有“點亮”和“熄滅”兩種狀態,分別表示存儲體內的共享數據“已寫入”和“已讀出”。DSP核通過同步指令改寫“信號燈”寄存器的狀態,實現核間的同步操作。具體的數據一致性協議為:
當“生產者”DSP-i向某個存儲體寫入共享數據后,將其“信號燈”置為“點亮”狀態。若這批共享數據有2~3個“消費者”,則點亮相應的2~3個“信號燈”。在某個“信號燈”處于“熄滅”狀態時,相應的DSP核對該存儲體的讀請求全部進入讀隊列等待。
當“消費者”DSP-j讀出某個存儲體的共享數據后,將該存儲體與自己對應的“信號燈”置為“熄滅”狀態。當某個存儲體的所有3個“信號燈”都“熄滅”時,該存儲體被釋放,處于可寫狀態;否則,DSP核對該存儲體的寫請求全部進入寫隊列等待。
“點亮”和“熄滅”信號燈的順序一致性由DSP核對公共配置總線的獨占性訪問來保證。
需要說明的是,DSP核不一定要將其對應的存儲體寫滿才能點亮“信號燈”,一次同步操作所傳輸的數據量最小可以是一個字節,最大不超過單個存儲體的容量。
由于FSDP的訪存通路與同步操作通路(即配置總線)是相互分離的,因此可能出現同步操作指令通過配置總線先于訪存指令提前執行的錯誤情況。本文通過軟件延遲槽的方式解決這一問題:由編譯器通過指令調度技術,在最后一條共享數據的讀指令和“熄燈”指令之間插入1~2條無關指令或空操作(NOP),作為等待共享數據返回的延遲槽,確保最后一個讀請求被處理之后再執行“熄燈”操作。具體所需的軟件延遲槽數量取決于DSP流水線的設計。對于本文而言,如果DSP核在發出Load指令的第3拍沒有接收到返回的數據,則暫停指令派發,因此只需要2個延遲槽。圖4給出了兩個DSP核i和j傳遞共享數據的實例。
(a)延遲槽與同步操作的程序實例
(b)存儲體的內容變化與信號燈狀態
圖4 兩個DSP核通過兩個存儲體傳遞共享數據的例子
本文最終的優化設計表明,任意兩個DSP核利用一對LOAD-STORE指令再加上一次同步操作,總共只需4拍即可完成一個共享數據字的傳遞,從而實現了核間細粒度共享數據的快速傳輸。當需要傳輸的共享數據量超過FSDP單通道存儲容量時,可以將數據分塊,進行多次傳輸。
評論