NVIDIA發(fā)表新款AI平臺 將HPC數(shù)據(jù)中心停機時間降到最低
NVIDIA今日宣布將推出 NVIDIA Mellanox UFM Cyber-AI 平臺,這款平臺將利用搭載人工智能 (AI) 的分析功能來偵測安全威脅和運作問題,以及預測網(wǎng)絡故障等情況,進而將 InfiniBand 數(shù)據(jù)中心的停機時間降到最低。
NVIDIA指出,過去使用 UFM 平臺產(chǎn)品組合來管理 InfiniBand 系統(tǒng),已有近十年的時間,而這款最新產(chǎn)品加入 AI 技術,運用實時與歷史遙測及作業(yè)負載數(shù)據(jù),學習數(shù)據(jù)中心的運行節(jié)奏和網(wǎng)絡工作量處理模式。此平臺在這個基礎上追蹤系統(tǒng)健全及網(wǎng)絡修改情況,以及偵測效能表現(xiàn)下降、使用情況和配置文件的變化情形。
新平臺會提醒管理員系統(tǒng)與應用程序的異常行為,以及潛在的系統(tǒng)故障和威脅,并且執(zhí)行修正。如果發(fā)現(xiàn)有黑客企圖進入系統(tǒng),以運行不受歡迎的應用程序(例如加密貨幣挖礦等情況)等安全情況,也會通知管理員。如此便降低了數(shù)據(jù)中心的停機時間,ITIC 指出通常停機一小時的成本高達 30 萬美元。
NVIDIA Mellanox 網(wǎng)絡部門營銷資深副總裁 Gilad Shainer 表示:「UFM Cyber-AI 平臺可以判斷數(shù)據(jù)中心獨特的生命征象,用它們來辨識效能下降、零組件故障和異常使用模式。它讓系統(tǒng)管理員能夠快速偵測和因應潛在的安全威脅,解決即將出現(xiàn)的故障情況,進而節(jié)省成本與確保提供客戶一致的服務?!?/p>
澳洲國家計算基礎設施(NCI)副主任(服務和技術)Allan Williams說:「 NCI在國家研究領域中起著舉足輕重的作用。我們的超級運算基礎架構可為5,000名研究人員提供服務,服務重要的國家和全球活動。 UFM使我們能夠有效地管理超級計算機并優(yōu)化效能。我們期待利用UFM Cyber-AI的新功能來進一步提高我們的超級運算利用率并提高投資回報率?!?/p>
美國俄亥俄州超級計算機中心副主任 Douglas Johnson 說:「我們的 InfiniBand 數(shù)據(jù)中心多年來一直在使用 UFM 平臺,UFM 加上 Mellanox 網(wǎng)絡團隊的專業(yè)長才是我們管理網(wǎng)絡與維持網(wǎng)絡穩(wěn)定運作的基本要素。我們見到 UFM Cyber-AI 平臺有著無比的優(yōu)點。
評論