a一级爱做片免费观看欧美,久久国产一区二区,日本一二三区免费,久草视频手机在线观看

博客專欄

EEPW首頁 > 博客 > 六大門派,圍攻云端AI芯片光明頂

六大門派,圍攻云端AI芯片光明頂

發布人:芯東西 時間:2022-09-15 來源:工程師 發布文章
英偉達江湖地位穩固,國產AI芯片新勢力發起沖鋒。

作者 |  ZeR0
編輯 |  漠影
AI芯片的戰場,明顯更熱鬧了。就在上周五,國際權威人工智能(AI)性能基準測試MLPerf公布了最新的數據中心及邊緣場景AI推理榜單結果,無論是參與評選的企業還是實際AI芯片表現,都比往屆多了不少看頭。

圖片

打頭陣的自然還是國際AI計算巨頭英偉達。這是英偉達(NVIDIA)第一次讓其今年剛發布的最新旗艦AI加速器H100 Tensor Core GPU提交成績,AI推理性能足足比上一代GPU高出4.5倍。高通則通過云端AI芯片Cloud AI 100的最新評測成績,證明其在高能效方面依然很能打。國內AI芯片企業也不示弱,這次壁仞科技、墨芯人工智能均首次“參戰”,并且戰績不俗,在部分模型的成績甚至超過了英偉達旗艦AI芯片A100和H100。壁仞科技共提交了數據中心場景ResNet和BERT 99.90%精度兩個模型的數據,同時包括Offline模式和Server模式,其離線模式8卡整機性能在BERT模型下達到英偉達8卡A100機型性能的1.58倍。墨芯的S30計算卡則在ResNet-50 95784 FPS的單卡算力奪得第一,達到英偉達H100的1.2倍、A100的2倍。還有韓國SK電訊在2020年11月推出的韓國首個AI芯片Sapeon X220,這次也通過參與測試展現出超過英偉達入門級AI加速卡A2性能的表現。不過,在今年6月訓練基準測試榜單中大秀高性能、高能效成績的谷歌TPU v4芯片,并沒有出現在此次推理榜單中。此外,英特爾、阿里也分別展示了僅基于其服務器CPU的系統在加速AI推理方面的性能表現。總的來說,英偉達A100依然是橫掃各大測試成績的全能選手,還未上市的H100此次只是初露鋒芒,預計訓練性能的提升會更加“夸張”。國產AI芯片雖然只參加了ResNet、BERT等部分AI模型的評測,但單點戰績已經能與英偉達旗艦計算產品比肩,展現出在跑特定模型時替代國際先進產品的能力。

MLPerf數據中心推理榜單:

https://mlcommons.org/en/inference-datacenter-21/

MLPerf邊緣推理榜單:

https://mlcommons.org/en/inference-edge-21/



01.H100王者登場,英偉達仍然稱雄


MLPerf基準測試按部署方式分為數據中心、邊緣、移動、物聯網四類場景,覆蓋六類最具代表性的主流AI模型——圖像分類(ResNet50)、自然語言處理(BERT)、語音識別(RNN-T)、目標物體檢測(RetinaNet)、醫學影像分割(3D-UNet)、智能推薦(DLRM)。其中,自然語言理解、醫學影像分割和智能推薦3個任務設置了99%與99.9%兩種精度要求,以考察提升AI推理精度要求對計算性能的影響。截至目前,英偉達是唯一一家在每輪MLPerf基準測試都參與所有主流算法測試的公司。英偉達A100在最新MLPerf AI推理測試榜單中依然大殺四方,在多類模型榜單的性能表現均名列前茅。A100的繼任者H100首次在MLPerf亮相,連破多項世界記錄,其性能比A100高出4.5倍。

圖片

▲英偉達H100性能比A100高出4.5倍(圖源:英偉達)

英偉達基于H100 GPU單芯片提交了兩個系統,一個系統配備AMD EPYC CPU作為主機處理器,另一個系統配備英特爾至強CPU。可以看到,雖然采用英偉達最新Hopper架構的H100 GPU這次只展示了單芯片的測試成績,其性能已經在多個情況下超過有2、4、8顆A100芯片的系統的性能。

圖片

▲英偉達H100在數據中心場景所有工作負載都刷新性能記錄(圖源:英偉達)

特別是用在對更大規模、更高性能提出要求的自然語言處理BERT-Large模型上,H100的性能比A100和壁仞科技GPU超出一大截,這主要歸功于其Transformer Engine。H100 GPU預計在今年年底發布,后續還會參加MLPerf的訓練基準測試。此外,在邊緣計算方面,將英偉達Ampere架構和Arm CPU內核集成在一塊芯片的英偉達Orin,運行了所有MLPerf基準測試,是所有低功耗系統級芯片中贏得測試最多的芯片。值得一提的是,相比今年4月在MLPerf上首次亮相的成績,英偉達Orin芯片的邊緣AI推理能效進一步提高了50%。

圖片

▲在能效方面,Orin邊緣AI推理性能提升多達50%(圖源:英偉達)

從英偉達往屆在MLPerf提交的測試結果,可以看出AI軟件帶來的性能提升越來越顯著。自2020年7月在MLPerf上首次亮相以來,得益于NVIDIA AI軟件的不斷改進,A100的性能已經提升6倍。目前,NVIDIA AI是唯一能在數據中心和邊緣計算中運行所有MLPerf推理工作負載和場景的平臺。通過軟硬協同優化,英偉達GPU在數據中心及邊緣計算中實現AI推理加速的成績更加突出。
02.壁仞科技通用GPU參戰ResNet和BERT模型性能超A100


壁仞科技今年8月剛發布的通用GPU芯片BR104,亦在MLPerf首次公開亮相。MLPerf推理榜單分為Closed(固定任務)和Open(開放優化)兩類,固定任務主要考察參測廠商的硬件系統和軟件優化的能力,開放優化則著重考察參測廠商的AI技術創新力。此次壁仞科技參加的是數據中心場景的固定任務評測,參評機型是搭載8張壁礪104-300W板卡的浪潮NF5468M6服務器,壁礪104板卡內置BR104芯片。壁仞科技提交了ResNet和BERT 99.9%精度模型的評測,同時包括Offline模式和Server模式。

圖片

Offline模式對應數據在本地可用的情況,比如在ResNet-50、BERT模型中,Offline模式更為重要;Server模式的數據則來自即時數據,數據以突發和間歇的方式在線送達,比如在DLRM中,Server模式更重要。據悉,壁仞科技這次只選擇這兩類模型參評,主要考慮到兩者是目前壁仞科技的目標客戶應用最廣泛、最重要的模型,特別是BERT模型。

圖片

▲壁仞科技BR104在BERT模型評選中同時拿下離線和在線模式的整機性能領先(圖源:壁仞科技)

從測試結果來看,在BERT模型的評選中,相較于英偉達提交的基于8張A100的機型,基于8張壁仞科技BR104的機型,性能達到了前者的1.58倍。

圖片

▲壁仞BR104在ResNet-50和BERT模型評選中單卡性能超過A100

總體來看,壁仞科技8卡PCle解決方案的性能表現,估計會介乎英偉達8卡A100與8卡H100之間。除了壁仞科技自己提交的8卡機型外,知名服務器提供商浪潮信息還提交了一款搭載4張壁礪104板卡的服務器,這也是浪潮信息首次提交基于國產廠商芯片的服務器測試成績。在所有的4卡機型中,浪潮提交的服務器在ResNet50(Offline)和BERT(Offline & Server, 99.9%精度)兩個模型下,也奪得了全球第一。

圖片

對于一家初出茅廬、首次推出芯片的初創公司來說,這個成績已經非常驚人了。
03.墨芯S30奪魁圖像分類單卡算力95784 FPS遠超H100


另一家中國云端AI芯片企業墨芯人工智能同樣首次參評MLPerf,而且在圖像分類模型的推理任務上取得了超過英偉達H100的單卡算力表現。墨芯設計AI芯片英騰處理器(ANTOUM)時采用了自研雙稀疏化技術來實現底層的芯片架構創新,從而兼顧數據中心對高性能和高能效比的需求。在今年的GTIC 2022全球AI芯片峰會上,墨芯人工智能首次向業內全面發布其首批面向數據中心AI推理應用的高稀疏率計算卡S4、S10和S30,分別為單****、雙****和三****。

圖片

▲墨芯人工智能S30計算卡

此次墨芯參加的是開放優化類的測試。根據最新MLPerf推理榜單,墨芯S30計算卡以95784FPS的單卡算力,奪得ResNet-50模型算力第一,是H100的1.2倍、A100的2倍。在運行BERT-Large高精度模型(99.9%)方面,墨芯S30雖未戰勝H100,卻實現了高于A100性能2倍的成績,S30單卡算力達3837SPS。

圖片

▲運行ResNet-50和BERT-Large模型時,墨芯S30與A100、H100的對比(圖源:墨芯人工智能)

值得一提的是,墨芯S30采用的是12nm制程,而英偉達H100采用的是更先進的4nm制程,能夠在制程工藝存在代際差的情況下追平兩大數據中心主流AI模型的性能表現,主要得益于墨芯自主研發的稀疏化算法及架構。MLPerf的測試要求非常嚴格,不僅考驗各產品算力,同時設置精度要求在99%以上,以考察AI推理精度的高要求對計算性能的影響,也就是說參賽廠商不能以犧牲精度的方式換取算力提升。這亦證明了墨芯能做到在實現稀疏化計算的同時兼顧精度無損。
04.高能效,高通云端AI芯片的王牌


高通早在2019年就發布的首款云端AI芯片Cloud AI 100,繼續堅挺地參評MLPerf,與一眾新AI加速器同場競技。從測試成績來看,單論在圖像處理上的高能效,采用7nm制程的高通Cloud AI 100芯片依然可以笑傲江湖。

圖片

▲高通Cloud AI 100

MLPerf最新披露的評測結果中,富士康、創通聯達(Thundercomm)、英業達(Inventec)、戴爾、HPE和聯想都提交了使用高通Cloud AI 100芯片的測試成績??梢钥闯?,高通的AI芯片已經在被亞洲云服務器市場接納。高通Cloud AI 100有兩個版本,專業版(400 TOPS)或標準版(300 TOPS),都具有高能效的優勢。在圖像處理方面,該芯片的每瓦性能比標準部件的NVIDIA Jetson Orin高1倍,在自然語言處理BERT-99模型方面的能效亦是略勝一籌。

圖片

▲高通Cloud AI 100在ResNet-50及BERT-99模型測試中的能效比領先(圖源:高通)

在保持高能效的同時,高通的AI芯片并沒有以犧牲高性能為代價,一臺5卡服務器功耗75W,可實現的性能比2卡A100服務器高出近50%。而單臺2卡A100服務器的功耗高達300W。

圖片

▲高通Cloud AI 100的每瓦性能表現(圖源:高通)

面向邊緣計算,高通Cloud AI 100在圖形處理方面展現出的高能效已經非常有競爭力,不過大型數據中心對芯片的通用性會有更高要求,如果高通想要進一步打入云端市場,可能得在下一代云邊AI芯片的設計上擴展對推薦引擎等更多主流AI模型的支持。

圖片

▲實現邊緣服務器高能效,不以犧牲高性能為代價(圖源:高通)


05.韓國首款AI芯片亮相對打英偉達入門級AI加速卡


這次MLPerf榜單中,我們還看到了在AI芯片領域相對缺乏存在感的韓國企業的身影。Sapeon X220是韓國知名科技企業SK電訊自主研發的AI芯片,也是韓國第一顆用于數據中心的非存儲類商用芯片,能夠高速、低功耗地執行AI服務所需的大規模計算。

圖片

▲Sapeon X220部分參數

其測試結果也很有意思。Sapeon X220搭載于Supermicro服務器上,在數據中心推理基準測試中的性能超過了英偉達去年年底發布的入門級AI加速卡A2 GPU。其中,X220-Compact的性能比A2高2.3倍,X220-Enterprise的性能比A2提升4.6倍。能效表現同樣不錯,在基于最大功耗的每瓦性能方面,X220-Compact的能效是A2的2.2倍,X220-Enterprise的能效是A2的2.0倍。

圖片

▲Sapeon X220系列與英偉達A2的性能及能效對比(圖源:SAPEON)

值得一提的是,英偉達A2采用的是先進的8nm制程,而Sapeon X220采用的是28nm成熟制程。據悉,Sapeon芯片已經應用在智能音箱、智能視頻安全解決方案、基于AI的媒體質量優化解決方案等應用中。今年SK電訊還將AI芯片業務獨立出來,成立了一家名為SAPEON的公司。SAPEON首席執行官Soojung Ryu透露說,未來該公司計劃拓展X220的各個應用領域,有信心在明年下半年用下一代芯片X330與競品拉開差距,進一步提高性能。
06.英特爾預覽下一代服務器CPU阿里倚天710 CPU首參評


盡管云端AI推理芯片正呈百家爭鳴之勢,但截至目前,服務器CPU仍是AI推理市場的主導者。在此次MLPerf榜單中,我們看到僅搭載英特爾至強、阿里自研CPU倚天710的系統參評,這些系統沒有搭載任何AI加速器,可以較真實的反映出這些服務器CPU的AI推理加速能力。在固定任務榜單中,英特爾提交了一個預覽版Sapphire Rapids 2-socket搭配PyTorch軟件的系統,推理性能雖被H100“虐殺”,但已經足夠打敗A2。畢竟這是一款服務器CPU,AI推理加速能力只是它的加分項,這樣看來英特爾至強CPU的加速能力已經足夠應對常規的AI推理任務需求。

圖片

在開放優化類榜單中,一家名為NeuralMagic的初創公司通過提交僅有英特爾至強CPU的系統,展示了其基于剪枝技術實現更精細的軟件,用更少的算力就能實現與其他軟件同等的性能。

圖片

阿里巴巴亦首次展示了整個集群作為單機運行的結果,在總吞吐量上超過其他結果。其自研倚天710 CPU芯片首次出現在MLPerf榜單中。

圖片

另外從各廠商參評這次MLPerf的系統配置,我們可以看到,AMD EPYC服務器CPU在數據中心推理應用中的存在感越來越高,大有與英特爾至強并駕齊驅的勢頭。
07.結語:英偉達江湖地位穩固國產AI芯片新勢力發起沖鋒


總的來看,英偉達繼續穩定發揮,霸榜MLPerf推理基準測試,是毫無爭議的大贏家。雖說部分單點性能成績被其他競品趕超,但若論通用性,英偉達A100和H100依然是能將其他一眾AI芯片“按地摩擦”的存在。目前英偉達還沒有提交H100的推理能效測試數據,以及其在訓練方面的性能表現,等這些成績出來,H100預計會風頭更盛。國產AI芯片企業也嶄露鋒芒。繼阿里平頭哥自研云端AI芯片含光800的單卡算力在2019年登頂MLPerf ResNet-50模型推理測試后,壁仞科技、墨芯也分別通過第三方權威AI基準測試平臺展示出其AI芯片的實測性能實力。從這次開放優化類榜單展示的性能成績,我們看到稀疏性計算已經成數據中心AI推理的一個熱門趨勢,我們期待接下來這類具有創新力的技術能進入固定任務榜單,通過更精細、更公平地比較系統實力,進一步驗證其落地價值。隨著參評機構、系統規模、系統配置的增加和走向多元化,MLPerf基準測試正變得越來越復雜。這些歷屆的榜單結果,也能反映出全球AI芯片的技術及產業格局之變遷。
芯東西
芯東西專注報道芯片、半導體產業創新,尤其是以芯片設計創新引領的計算新革命和國產替代浪潮;我們是一群追“芯”人,帶你一起遨游“芯”辰大海。
680篇原創內容
公眾號


*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



關鍵詞: 芯片光明

技術專區

關閉