告別32位移動計算 Arm TCS23再次提升性能極限
為了滿足定義未來計算的復雜需求,并確保數百萬開發者能夠輕松地在 Arm 架構的平臺上無縫開發,Arm不斷突破計算平臺的能力極限。Arm 2023 全面計算解決方案在設計時充分考慮了智能手機的需求,包含了基于全新第五代 GPU架構、可實現終極視覺體驗的全新Arm Immortalis? GPU,助力 Arm 面向下一代人工智能(AI)保持性能領先的全新 Armv9 CPU 集群,以及可為數百萬 Arm 開發者提供更易訪問軟件的全新增強技術。Arm 產品營銷副總裁 Ian Smythe直言,Arm將以上元素全部結合在全新的全面計算解決方案中,為整個系統的關鍵工作負載帶來了顯著提升。
作為 Arm 2023 全面計算解決方案(TCS23)的重要特點,所有新 CPU 均支持 64 位計算和 Armv9 安全創新功能,能夠抵御更高級別的數字威脅,并提供可擴展的解決方案,從而為更廣泛的市場帶來更多高級的功能。TCS23代表著Arm遷移到 64 位系統的任務已經完成,此次TCS23的產品均基于Arm全新的架構,在Arm內部成為V9.2,代表了完全只支持64位軟件生態的全新V9.2架構再次大幅提升Arm內核產品的性能功耗比。此外,Arm 的內存標記擴展(MTE)功能,支持開發者在應用部署前后,都能檢測和避免內存安全漏洞,為用戶提供功能安全及信息安全的數字體驗。通過 Armv9 架構的 CPU,Arm提供了 MTE 功能,它已經努力消除占所有軟件漏洞中 70% 的內存安全漏洞。
Arm 所發布的全新的 TCS23 是針對移動計算的最優選的計算平臺,它包括了最尖端的 CPU 技術和 GPU 技術,能夠讓游戲開發者以及人工智能應用開發者實現沉浸式體驗的打造。除了在硬件方面,它還包括軟件以及安全保駕護航的一些技術。
首款基于第五代架構的 GPU——Immortalis-G720,它專為旗艦智能手機而設計,可帶來15%的性能提升,減少了多達40%的內存帶寬用量,有助于實現更出色且持久的幀率,最終帶來更高質量的圖形,實現更扣人心弦的視覺感受。在相同的配置下,相較于前一代產品,Immortalis-G720 的性能提高了 15%,而面積僅增加 2% 。其中,前一代產品已經證實在面積效率方面勝出相近競品高達 20%。
此次Arm全新的Immortalis-G720采用的是全新的第五代GPU架構。據介紹,該架構專為滿足多種圖形用例而設計,是Arm迄今為止最高效的GPU架構,重新定義了部分圖形管道,以優化內存帶寬,從而在移動設備上支持高幾何負載的下一代游戲和實時3D應用,同時帶來更順暢、并與PC端和游戲主機媲美的游戲體驗。同時,Arm還推出了新的Arm Mali-G720和Mali-G620,該兩款分別是去年Mali-G715和Mali-G615的升級產品,旨在將高端移動圖形功能快速地推向更廣大的消費終端市場。
作為 Arm 2023 全面計算解決方案的一部分,全新 Armv9 Cortex 計算集群已連續三年實現兩位數的性能提升。與Cortex-X3相比,新的Cortex-X4作為第四代X內核性能提高了 15%,并帶來了一個可以顯著降低功耗多達40%的高能效微架構,而面積僅增加了10%。Arm表示,制程工藝和計算能力的結合是實現最高性能和最高效設計的關鍵。在新一代CPU設計中,Arm在TSMC N3E制程工藝上順利完成了業內首個Cortex-X4流片。
全新的大核處理器 Cortex-A720 和全新小核 Cortex-A520,與其上一代相比,雙雙在能效方面都提高了 20%。Cortex-A720 是業界主流的 CPU IP,可提高持續性能,是新 CPU 集群的核心主力,而Cortex-A520 是最出眾的的高效性能核心。為了完善全新的CPU集群,arm推出了全新DSU-120 ,專門為了滿足高要求的多線程用例而設計。CPU集群提供更多的DSU電源模式,以支持更高效地使用更大的L3緩存,并減少外部 DRAM 流量,從而實現性能更佳、效率更高的 SoC。Arm 的全面計算戰略就是通過一整套針對特定工作負載而設計和優化的 IP,這些IP可作為一個完整的系統,無縫地協同工作。Arm 始終站在技術前沿,通過不斷提升硬件的機器學習功能,讓開發者能充分利用AI 和 ML 工作負載的優勢。
Arm 終端事業部產品管理高級總監 Kinjal Dave特別提到,所有產品都是基于最新一代的Armv9.2 架構,同時基于全新的DynamIQ共享單元之上,帶來更多的可擴展性和更細致的電源控制模式,確保客戶在需要的時候可以獲得完整的性能和帶寬,在不需要的時候可以通過非常細的顆粒度去降低功率。除此之外,Arm還為最新的工藝節點和庫優化了IP,并且利用在 RTL 方面的專長配置物理 IP,以此在先進的技術上,為基于Arm產品的設計、制造提供了優化的EDA流程與物理實現。隨著Arm為未來幾代開發 TCS 解決方案,Arm將持續擴大物理 IP 產品組合,用以支撐合作伙伴的實施團隊,讓他們能在 Arm 技術中去攫取所有可能的性能和效率的提升。
同時,TCS23 中的軟件,包括三大支柱即性能、安全以及開發者的可訪問性。一個非常核心的工作負載就是機器學習,它也是軟件工作中非常重要的一部分。因此,在 TCS23 中Arm更新了軟件庫。比如 Arm NN 以及 Arm Compute Library (ACL),這些都是開源的軟件庫,開發者可以利用它來優化在 Armv9架構 CPU 和 GPU 上面機器學習的復雜性。自 2023 年 1 月以來,Arm NN和 ACL 已經通過谷歌的 Google Play Store 在安卓系統上提供,而且已經有超過 1 億日活躍用戶。此外,到 2024 年,不管是Arm NN還是 ACL 都可以使用谷歌的移動平臺,意味著開發者能夠在可下載的項目,在默認狀態下更新到網絡最新的版本,同時意味著能在基于 Arm 架構上實現開發者獲得最高可能的機器學習的潛力。關于機器學習方面的性能表現,ML 已經成了SoC上非常重要的工作負載,所以有效處理 ML 是Arm TCS 核心需求之一。在過去的三代 TCS 中,Arm 為 CPU 和 GPU 都引入了專門矩陣的 ML 指令,在 TCS23 中Arm持續優化硬件和 Arm 計算庫軟件。
這些全新的CPU設計可用于3A級游戲、全天候生產力和后臺任務等用例。同時,為了完善全新的CPU集群,Arm推出了全新DSU-120,專為滿足要求苛刻的多線程使用場景而設計,支持從可穿戴設備到智能手機、筆記本電腦的眾多設備。一個全面解決方案需要有 DSU 才完整的,DSU 不光可以把所有的 IP 很好地結合在一起,同時也是催化劑,能夠實現CPU集群最好的性能和效率。今年的 DSU 實現了三方面的提升,第一是可伸縮性。首先在可伸縮性方面,在一個集群中可以支持高達14核的數量,同時它能夠支持 24M 或者最高達 32M 的3級緩存,這可以針對筆記本及筆記本以上的一些設備進行使用。第二個提升體現在新的 PPA 上,它首先可以進一步降低漏電,同時支持更多新的電源模式,總體的目標當然是進一步提高電效,從而延長電池壽命。第三是全新的一些功能,因為它是基于最新的Armv9.2的架構,因此它可以去支持比如帶寬分區還有節點最大化和納入一些新的接口。Arm 終端事業部產品管理總監 Saurabh Pradhan介紹,DSU 的伸縮性可大可小,根據具體的應用,最小的配置可以是一個小核,最大的配置可以是10+4,所以一個DSU最多可以支持14個核,如果合作伙伴的核超過了14個,可以使用多個 DSU。所以 TCS23要性能有性能,要效率也有效率,Cortex-X4 提供的是終極的性能,Cortex-A720 提供的是持續的性能,而 Cortex-A520 能夠提供最好的功效。所以所有這三款的 IP 都是基于Armv9.2架構且與最新的 DSU-120 搭配使用。
總體而言,Arm的全面計算戰略就是通過一整套針對特定工作負載而設計和優化的IP,這些IP可作為一個完整的系統,無縫地協同工作。此外,Arm為全球開發者提供軟件和安全解決方案,其中Arm的開源軟件庫Arm NN和Arm Compute Library已在安卓平臺上面向Google應用開放,目前已擁有超一億的日活用戶,可支持開發者優化運行在Armv9 CPU和Arm GPU的機器學習工作負載。
評論