多內核芯片將在市場中大展雄風

——

作者：時間：2007-11-16 來源：搜狐IT

加入技術交流群
- 掃碼加入
  和技術大咖面對面交流
  海量資料庫查詢

　　當前，多內核處理器和并行架構成為了行業的一個新熱點，過去微處理器公司希望不斷提高時鐘頻率和提供越來越多的指令級并發率(ILP)來提高微處理器的性能。

　　但這意味著在性能提高的同時，伴隨而來的是越來越大的功耗和不斷上升的成本，讓這種方法讓芯片跑得更快很久以前就已經開始得不償失。

　　從1986年到2002年，微處理器性能每年提高52%，每18個月性能就翻一番。但到2006年，這一進步速度已下降到每年不足20%，因此今天微處理器性能翻番可能要花費5年時間。造成這一速度下降的具體原因有很多。最初，系統架構師不再能夠從ILP技術中挖掘出更多的增益。他們最常采用的訣竅包括簡單指令的預提取，但他們現在已被非常復雜的技術(如執行溢出和分支預測)所包圍。在許多情況下，增加的復雜性已超過了增加的性能。用任務級和命令級并行性代替ILP已是獲得更多增益的唯一途徑。

　　功率是單內核處理器發展的等式已被改變的另一領域。在亞90納米工藝節點上，有效功率密度(已經達到在核反應堆中發現的每平方厘米100W，并很快將上升到空間火箭噴嘴處發現的每平方厘米1000W)不是唯一的限制因素。由泄漏電流引起的靜態功耗現在可能已占到芯片總功耗的40%。

　　目前業界大多數人都同意，多內核是一個必然的發展方向：多內核設計的主要挑戰已經成功地被業界克服，實際開發大潮即將啟動。多內核技術的發展背后有兩大主要推動力。第一大推動力是：‘真實世界是并行的’這一認知已經變得很清晰。當然，臺式計算機經常通過非常快速地轉換順序執行的任務，讓用戶誤以為好幾件任務正在并行執行。來自業界的顯而易見的要求是更高的性能，從而導致更多的內核需要集成在一塊芯片上，而這將影響到現有的編程模式。

　　多內核和并行處理系統傳統上一直被認為是很難進行編程的，因為它要求專用工具和專家知識(‘唯一能夠對該芯片編程的人是設計該芯片的架構工程師’)。這確實是為什么多內核處理器在歷史上一直不成功的主要原因。不過，今天的產品(如picoChip的多內核DSP家族)可以利用基于標準的工具進行配置和編程，而且芯片設計師和編程人員可以很直觀地理解這些工具。

　　但更加重要的是，當計算機科學家設法確定他們可用作通用構造塊來開發更復雜程序的原型功能時，他們幾乎總是發現這些構造塊在本質上是并行工作的。而且，電子應用市場增長最迅速的部分(例如多媒體處理和數據壓縮)正是這一并行性需求最顯著的地方。

　　幫助設計師開發將這一應用需求和并行架構很自然地融合在一起的產品正是近年來已經取得許多技術進步的領域之一。英特爾和AMD開發的‘主流’處理器正在朝松散耦合的雙內核或四內核處理器方向發展，這一架構允許在不大幅改變現有編程模式的情況下獲得一些性能增益(大約提高2倍和4倍)。

　　目前已經在市場中銷售的picoChip公司picoArray家族就是一種高效和方便的多內核產品，它是一個含有幾百個不同種類處理器陣列的芯片，特別針對信號處理任務進行了優化。每個任務在一對一原則上分配給處理器，每個任務的處理可采用標準C或匯編進行編程。芯片的性能與處理器的數量成線性關系，最為關鍵的是，普通工程師也可以很容易地以很高的效率對該芯片進行編程。

　　picoArray在本質上允許快速和直觀地實現并行計算任務(如無線基帶處理和軟件無線電)，它也允許設計師充分利用這一異質多內核架構。與同質多內核架構相比，異質多內核架構可以提供更多的計算能力、更好的功耗特性和更小的硅片面積，業界很早就認可了異質多內核架構的這些優點，但一直缺乏直觀的實用的設計開發工具。

　　除了不斷提高的可用性和業界對許多計算任務內在并行本質的更多認可，多內核技術的采用又增添了一個新的推動力。盡管時鐘頻率現在已達到3GHz，集成的晶體管數量也已達到幾億門，但在過去的5年里，業內在單內核處理器方面已經完全失去了發展的動力。多內核架構提供的解決方案能夠解決已導致這一現象的所有挑戰。

　　像picoArray這樣的并行架構可在不止一個層面解決功率問題。首先，它們已被證明在本質上是執行一個給定功能的高效能方法，尤其是如果它們是由多個不同的功能模塊構成，而且每個功能模塊又是根據特定的應用而設計。其次，一個緊湊的多內核架構可以更自然地適應現代電源管理技術，如時鐘門控和局部電源關閉，即任何在其時沒有參與動態處理過程的器件可以暫時關閉電源。這一技術使得我們有可能更智能地處理動態功耗和由于現代制造工藝而引起的靜態泄漏電流問題。

　　多內核器件也有助于解決現代先進半導體工藝帶來的另一個問題，即器件正變得越來越不可靠。尤其在65nm和45nm節點，“合格-失敗”方法正讓位于統計性能評估方法。此外，采用這些工藝制造的器件更易于產生硬錯誤和軟錯誤。

　　多內核架構使這些器件可以更自然地采用冗余設計技術(有段時間常見于存儲器生產中)，它允許關閉器件中超出規格或錯誤的部分。一家微處理器供應商已經在銷售其一款芯片的4內核、6內核和8內核版本，它們均基于一個8處理器設計。

　　功耗和呈統計變化的性能也已經對單內核處理器系統的近期發展產生了間接的影響，因為它限制了芯片制造商通過增加的時鐘頻率來提高性能的能力。目前最高的3GHz時鐘頻率已經被證明是處理器時鐘頻率的實際上限，而自1979年以來時鐘頻率一直是處理器制造商用于提高性能的實用方法。不過，并行架構維持了恢復連續工藝縮小的好處的承諾，因為它使得制造商能夠實現每一代工藝都使每個芯片上的標準內核數量翻番的目標。

　　當然，使這些附加的內核做真正的工作是設計一個適當架構的問題，而這至少包括處理器之間通信架構和計算單元本身的設計。它們兩者均平等地取決于設計流程和編程工具，它必須在單一環境內支持多種陣列大小。編程工具自動配置并行單元的低級別細節、自動為多個內核分配相應任務和配置互連的能力是至關重要的。一個便于使用的多內核設計環境如picoArray能夠使編程人員將精力集中在設計元素本身，而不是放在它們到底是如何實現的精確細節上。這與另一種并行結構器件FPGA正好相反，FPGA設計工程師必須處理時序收斂和行為綜合的細節。

　　這些問題正與過去數年中在計算領域已發生的另一巨大變化捆綁在一起：大多數處理性能現在被它們轉移數據的能力而不是計算能力所限制。一次DRAM讀寫可能要花費200個時鐘周期，而一次浮點乘法經常只需要4個時鐘周期就能實現。成本也不僅僅只用時間來衡量，使用本地寄存器的效率比讀寫全局存儲器高一個數量級，而這對能耗有限制的環境來說可能是一個關鍵。

　　PicoArray是一個含有幾百個異質處理器和存儲單元(或‘內核’)陣列的芯片，它專門針對信號處理任務而優化。該陣列是異質的，這些不同種類的內核分別適合不同的任務，但基本的構造模塊是一個16位的數字信號處理器。這是有意的，因為帶本地存儲器、乘加器和哈佛結構的16位處理器非常傳統和易于編程。多內核架構的創新和力量是其互連交換結構和編程模式：每個單元都有一個獨特的已獲專利的互連經由一個雙緩沖接口對它進行服務，系統架構設計師在軟件編譯時對它進行精確配置。

　　多個獨立的任務在一對一基礎上分配給每個處理器，每個處理器的處理過程采用標準ANSI C或匯編語言進行編程。每個互連由工程師進行描述和配置，這就允許工程師根據特定應用的需求對通信進行優化。

　　在本質上，編程模式是一個方塊圖，每個方塊是自包含的，并通過明確定義的信號互連。理論范例是“順序通信”，但“適用于DSP的對象導向編程”是另一個描述，每個處理程序封裝在一個單獨的DSP內，它可在該DSP上獨立執行，并僅按定義好的方式通過嚴格類型的鏈接與其它DSP進行通信。這使得開發過程可以更快，因為集成和驗證變得非常容易。

　　因此，多內核系統的設計師可以通過選擇正確的通信架構、實現本地和全局寄存器資源的正確平衡解決許多問題。一個高效的通信交換結構甚至能夠通過內核之間的直接數據傳輸取代存儲器讀寫。

　　有些架構的關鍵瓶頸之一已經是互連帶寬，或更準確地說是信號流的允許復雜度。例如，一些架構使用“NEWS”或“最近的鄰居”連接，這很快就限制了處理器的使用。而在picoArray架構下，每個陣列包括一個32位通信鏈接的正方形網孔，它在水平和垂直線交匯處采用了開關矩陣單元。每個執行單元都有到網孔的多端口通道。通過在編譯時定義開關矩陣的狀態，網孔可配置成允許各單元之間進行任何通信，包括多路結構如扇出和扇入。

　　這一方法可在各單元之間提供專有的確定性通信，每個單元被視為運行獨立的處理程序。由于這些單元的行為表現像“提供者和消費者”，即自動處于等待狀態直到它們遇到請求時某個結果變成有效，從編程的角度來看，它們就可被當作異步功能調用。此時不需要任何形式的總線仲裁，從而可在硅片面積和程序執行速度兩方面降低通信開銷。

　　這一通信資源和設計基礎架構的結合意味著，任務可以模塊化方式進行編程、驗證和調試，因為我們認識到，盡管系統是集成的，但其各個組成部分將繼續與它們被單獨驗證時一樣工作(亦即“你仿真的就是你所得到的”)。這些相同的特性意味著，picoArray架構隨著處理單元數量的增加，可提供絕對線性性能改善：隨著半導體工藝一代一代地向前發展，這一架構可有效地替代傳統的時鐘頻率路線。

　　多內核架構被呼吁解決的最終問題是一個人性化問題。許多年來，芯片已變得如此巨大以致于設計工程師不可能再從頭開始理解它們，并設計或使用它們。所以設計師和編程人員已經要依靠越來越高的抽象級來幫助理解。

　　但在65nm節點及以下，這也已經變得不可能。信號完整性、時鐘抖動和許多其它小范圍約束已經變成很突出的問題，并已使得設計工程師發現不可能再從頭開始或基于上一代產品的抽象描述設計新的大型芯片。不過，多內核架構提供了一種新的抽象模型，它允許設計工程師充分利用90nm以下芯片提供的數量龐大的晶體管。而且，就像我們已經看到的那樣，當我們設計更小的子單元時，只要該設計隨后能借助一個精心設計的通信基礎架構‘擴大’，設計、驗證和確認都可能變得更容易。

　　結論

　　自Jack Kilby和Bob Noyce分別在上世紀50年代后期提出硅平面工藝以來，半導體工業一直在“更小和更快”的鼓聲中前進。但到了今天，傳統的推動力量(片上更多的晶體管和更高的時鐘速度)已經用盡了。現在設計師需要開始考慮“更智能”，即便它意味著要超過人類幾十年來積累的智慧。隨著象picoArray這樣的帶幾百個內核的產品進入批量生產階段，以及它可被工程師采用在主流應用(如3G和WiMAX基帶)處理中獲得廣泛應用的標準工具輕松進行編程，多內核架構在今天和未來的這一新工業秩序中看來將必然起一個關鍵的作用。

linux操作系統文章專題:linux操作系統詳解（linux不再難懂）

a一级爱做片免费观看欧美,久久国产一区二区,日本一二三区免费,久草视频手机在线观看

新聞中心

多內核芯片將在市場中大展雄風

評論

相關推薦

技術專區