中國聯(lián)通基于英特爾智慧節(jié)能方案推動數(shù)據(jù)中心節(jié)能減排
“氣候和環(huán)境危機凸顯了通過創(chuàng)新科技降低碳足跡的重要性。英特爾 與中國聯(lián)通在數(shù)據(jù)中心節(jié)能減排方面的合作體現(xiàn)了雙方在踐行綠色 節(jié)能方面的承諾,也為業(yè)界提供了服務(wù)器能效提升的有益參考。我 們希望能夠以這些合作成果為依托,推動以數(shù)字化轉(zhuǎn)型和可持續(xù)發(fā) 展為綜合目標(biāo)的產(chǎn)業(yè)高質(zhì)量發(fā)展。” — 李亞東 英特爾中國政企及全球 OEM 解決方案事業(yè)部總經(jīng)理
本文引用地址:http://www.j9360.com/article/202504/469225.htm“中國聯(lián)通在新戰(zhàn)略指引下, 制定了《建設(shè)新型數(shù)字信息 基礎(chǔ)設(shè)施行動計劃》和《算 網(wǎng)融合發(fā)展行動計劃》,統(tǒng) 籌推進(jìn)新型數(shù)據(jù)中心、云網(wǎng) 深度融合,通過與英特爾等 業(yè)界領(lǐng)先廠商的合作,探索 技術(shù)引領(lǐng)與管理效能提升, 貫徹落實國家雙碳決策。” — 康凱 聯(lián)通集團云網(wǎng)運營中心項目經(jīng)理
概述 中國已經(jīng)明確提出 2030 年“碳達(dá)峰”與 2060 年“碳中和”目標(biāo),實現(xiàn)雙碳目標(biāo)不僅有助 于降低對環(huán)境的壓力,同時也是實現(xiàn)可持續(xù)發(fā)展的必然要求。為更好地響應(yīng)國家政策, 助力經(jīng)濟社會綠色發(fā)展,并為全球應(yīng)對氣候變化貢獻(xiàn)力量,中國聯(lián)通將構(gòu)建以綠色節(jié)能為主要特征的新型數(shù)字信息基礎(chǔ)設(shè)施作為重點工作,實施了大量技術(shù)與管理舉措,并取 得顯著成效。 目前,中國聯(lián)通的綠色化發(fā)展戰(zhàn)略在數(shù)據(jù)中心領(lǐng)域已經(jīng)廣泛落地,有力地推動了低碳化 發(fā)展目標(biāo)的實現(xiàn)。為了進(jìn)一步推動數(shù)據(jù)中心的節(jié)能減排,中國聯(lián)通與英特爾深度合作,充分利用英特爾智慧節(jié)能方案在數(shù)據(jù)中心實現(xiàn)節(jié)能減排。該方案能夠通過軟件和人工智 能 (AI) 模型對服務(wù)器能耗進(jìn)行預(yù)測和干預(yù),提高數(shù)據(jù)中心的運行能效,同時滿足業(yè)務(wù)工 作負(fù)載對于服務(wù)級別協(xié)議 (SLA) 的要求,且無需對應(yīng)用進(jìn)行更改。目前,該方案已經(jīng)在 實驗室中,結(jié)合中國聯(lián)通大數(shù)據(jù)等業(yè)務(wù)場景進(jìn)行實驗驗證,被證明能夠比基準(zhǔn)方案節(jié)電 最多 28%1。中國聯(lián)通與英特爾還計劃進(jìn)一步推動該方案在更多業(yè)務(wù)場景的擴展應(yīng)用, 不斷提升中國聯(lián)通的綠色發(fā)展水平。
背景:控制數(shù)據(jù)中心能耗是踐行雙碳目標(biāo) 的重要方式 當(dāng)前,環(huán)境危機以及能源供應(yīng)挑戰(zhàn)日趨嚴(yán)峻,使得越來越多的人 將目光轉(zhuǎn)移到了環(huán)境保護(hù)上。降低社會經(jīng)濟發(fā)展中的能源消耗、 建立人與自然和諧發(fā)展的綠色經(jīng)濟,不僅有助于降低對環(huán)境的壓 力,也是實現(xiàn)可持續(xù)發(fā)展的必然要求。在中國雙碳行動規(guī)劃中, 已經(jīng)明確了 “十四五” 與 “十五五” 期間,通過能源綠色低碳轉(zhuǎn)型 行動、節(jié)能降碳增效行動、工業(yè)領(lǐng)域碳達(dá)峰行動、城鄉(xiāng)建設(shè)碳達(dá) 峰行動等方式,實現(xiàn)碳達(dá)峰、碳中和。 但同時,能耗持續(xù)增長的整體趨勢仍未改變。研究報告顯示,由 于經(jīng)濟活動加速,2021 年全球能源消耗量增長 5.8%2,超過了 疫情前的水平,這凸顯了低碳發(fā)展面臨的嚴(yán)峻挑戰(zhàn)。要推動社會 經(jīng)濟整體節(jié)能減排,實現(xiàn)云與數(shù)據(jù)中心的綠色發(fā)展至關(guān)重要。數(shù) 據(jù)顯示,截至 2020 年底,中國數(shù)據(jù)中心耗電量已經(jīng)突破 2000 億千瓦時,能耗占全國總用電量的 2.7%,預(yù)計 2022 年耗電量 將達(dá)到 2700 億千瓦時3。
作為全球領(lǐng)先的知名電信運營商,中國聯(lián)通在 2021 年發(fā)布的 《“碳達(dá)峰、碳中和” 十四五行動計劃》4 中,明確提出要 “不斷 提高通信網(wǎng)絡(luò)基礎(chǔ)設(shè)施綠色化水平,助力行業(yè)綠色低碳高質(zhì)量 發(fā)展邁上新臺階”。對于通信云的構(gòu)建、管理和運維,中國聯(lián)通 希望在保障 5G 等各類通信業(yè)務(wù)高效發(fā)展的同時,盡可能降低能 耗開銷。 為了降低數(shù)據(jù)中心的能耗水平,業(yè)界普遍以優(yōu)化數(shù)據(jù)中心能源使 用效率 (Power Usage Effectiveness,PUE) 為目標(biāo),降低空 調(diào)等附加設(shè)備的能耗。但是,PUE 降低到一定程度之后會進(jìn)入 瓶頸期,而且,部分以降低 PUE 為目標(biāo)的方案較為復(fù)雜,需要 大量的部署、建設(shè)工作,不僅建設(shè)周期較長,而且會導(dǎo)致總體擁 有成本 (TCO) 顯著提升。 基于上述考慮,中國聯(lián)通在推動降低數(shù)據(jù)中心 PUE 的同時,從 數(shù)據(jù)中心 IT 設(shè)備入手,進(jìn)一步提升節(jié)能減排能力。要做到這一點,就需要更好地提升數(shù)據(jù)中心核心 IT 設(shè)備 — 服務(wù)器的能效水 平,對 CPU 功耗進(jìn)行更加精準(zhǔn)的調(diào)節(jié),但這也會面臨如下重要挑戰(zhàn):
? 雖然 CPU 制程與工藝在不斷進(jìn)步,但是由于數(shù)據(jù)中心工作負(fù) 載對于計算能力和算力密度提出了更高的要求,CPU 芯片整 體的熱設(shè)計功率 (TDP) 不斷攀升,這對于服務(wù)器的整體能耗 帶來了嚴(yán)峻的挑戰(zhàn)。
? 傳統(tǒng)的 CPU 能耗控制方案通常采用業(yè)務(wù)彈性編排的方式,實 現(xiàn)部分冗余主機休眠、空閑核深度節(jié)能、輕負(fù)載核調(diào)頻的目 標(biāo)。但是,傳統(tǒng)方案通常采用的是靜態(tài)調(diào)整的策略,無法根據(jù) 業(yè)務(wù)調(diào)度進(jìn)行靈活調(diào)整配置。在傳統(tǒng)方案中,主機和內(nèi)核常常 會整體關(guān)停,難以實現(xiàn)更細(xì)粒度的控制,能耗控制效果不盡如 人意。
? 傳統(tǒng)的 CPU 能耗控制方案無法精準(zhǔn)洞察、預(yù)測 CPU 的負(fù)載, 難以在精確控制功耗的同時有效管理 SLA,也就無法針對業(yè)務(wù) 的 SLA 要求對于能耗進(jìn)行精細(xì)控制。
解決方案:
采用英特爾智慧節(jié)能方案實現(xiàn) 數(shù)據(jù)中心節(jié)能減排 為了進(jìn)一步推動數(shù)據(jù)中心綠色發(fā)展進(jìn)程,中國聯(lián)通與英特爾于 2021 年開始合作,雙方制定了整體的數(shù)據(jù)中心節(jié)能減排計劃, 并從 5G 核心網(wǎng)開始探索,逐步擴展到大數(shù)據(jù)等領(lǐng)域,不斷推進(jìn) 智慧節(jié)能方案的落地。雙方將現(xiàn)階段合作的重點放在服務(wù)器節(jié)能 減排領(lǐng)域,并采用英特爾智慧節(jié)能方案更加精準(zhǔn)、智慧地預(yù)測、 控制服務(wù)器的能耗,從而在滿足業(yè)務(wù)工作負(fù)載對 SLA 要求的前 提下,更大程度地提升節(jié)能水平。
英特爾智慧節(jié)能方案
英特爾智慧節(jié)能方案是依托英特爾? 人工智能方案和服務(wù)器平臺 技術(shù)的節(jié)能減排方案,通過 AI 模型和軟件方案進(jìn)行預(yù)測和干預(yù), 提高數(shù)據(jù)中心的運行能效。英特爾智慧節(jié)能方案采用智能遙測 (Intelligent Telemetry)、基于 Chronos 的時序數(shù)據(jù)分析、 英特爾? 至強? 平臺級能效控制、基于容器運行時接口的資源管 理器 (CRI-RM) 動態(tài)資源管理策略等構(gòu)件,能夠有效滿足業(yè)務(wù)工 作負(fù)載的 SLA 要求,且無需對應(yīng)用進(jìn)行更改。
智能遙測
英特爾智慧節(jié)能方案選擇了開源監(jiān)控組件 Prometheus。 作為云原生事實上的標(biāo)準(zhǔn)遙測工具,Prometheus 用于收 集和聚合指標(biāo)作為時間序列數(shù)據(jù),并提供了 collectd 作為 系統(tǒng)統(tǒng)計數(shù)據(jù)收集守護(hù)進(jìn)程,可以通過多種方式發(fā)布這些 數(shù)據(jù)。英特爾還開發(fā)了高性能 Python 插件來獲取不受支 持的指標(biāo),以提高性能、減少開銷。
基于 Chronos 的時序數(shù)據(jù)分析
Chronos 框架源自英特爾開源的統(tǒng)一大數(shù)據(jù)分析和人工 智能平臺 BigDL,在模型訓(xùn)練中能夠使用全部參數(shù)訓(xùn)練回 歸模型,自動分析提取重要參數(shù),僅使用重要參數(shù)訓(xùn)練預(yù) 測模型。在模型推理中,Chronos 框架能夠預(yù)測工作負(fù) 載變化,在查詢網(wǎng)絡(luò)中尋找更優(yōu)控制參數(shù),通過 CRI-RM webhook 來應(yīng)用新的更優(yōu)控制參數(shù)。
英特爾? 至強? 平臺級能效控制
英特爾智慧節(jié)能方案提供了英特爾? 至強? 平臺級功耗控制 選項,融合操作系統(tǒng)層面的系統(tǒng)能源調(diào)節(jié)、CPU Turbo、 驅(qū)動,處理器能效級別的 EEP 控制、SAPM 控制、動態(tài) 切換,以及能級狀態(tài)的 PCS 狀態(tài)調(diào)整,以針對不同場景 提供更佳配置。方案提供細(xì)粒度的硬件控制旋鈕,動態(tài)切 換控制處理器內(nèi)部的眾多算法。
基于容器運行時接口的資源管理器 (CRI-RM) 動態(tài)資源管理策略
該特性能夠通過在節(jié)點上的動態(tài)劃分系統(tǒng)資源,配合 Kubernetes 調(diào)度器,實現(xiàn)在節(jié)點層面上的合理任務(wù)編排, 將英特爾平臺的特性高效適配到 Kubernetes 的集群環(huán)境。 CRI-RM Balloon Policy 支持控制 CPU 核心頻率與非核心 頻率,用戶可以基于 CRI-RM Balloon Policy 創(chuàng)建 CPU 資 源池,為不同類型的工作負(fù)載定義 Balloon 類型,并能夠動 態(tài)更改 CPU 類和 Balloon 大小配置。
英特爾智慧節(jié)能方案能夠?qū)τ⑻貭? 至強? 可擴展處理器的各種運行指標(biāo)進(jìn)行智能遙測,在提供可視化監(jiān)視支持的同時,將遙測數(shù)據(jù) 輸入到閉環(huán)控制邏輯之中,在操作系統(tǒng)層面、處理器能效級別、處理器能級狀態(tài)進(jìn)行細(xì)粒度控制,以針對不同場景提供更佳的能效控 制。在單節(jié)點閉環(huán)控制的基礎(chǔ)上,英特爾智慧節(jié)能方案能夠便捷地擴展到集群閉環(huán)控制(如圖 3 所示),有效提升數(shù)據(jù)中心的整體能效水平。
與傳統(tǒng)服務(wù)器節(jié)能方案相比,英特爾智慧節(jié)能方案能夠進(jìn)行更加智慧的峰谷預(yù)測,在閑時支持更多冗余主機休眠,顯著提升節(jié)能效果。
英特爾智慧節(jié)能方案還可根據(jù)業(yè)務(wù) SLA 進(jìn)行智能調(diào)頻,提供更細(xì)粒度控制,以及更多功耗控制抓手,在業(yè)務(wù) SLA 要求與節(jié)能效果之
間實現(xiàn)更佳的平衡。
中國聯(lián)通采用英特爾智慧節(jié)能方案優(yōu)化數(shù)據(jù)中心能耗
中國聯(lián)通在通信云資源池的 5G 網(wǎng)元、大數(shù)據(jù)等業(yè)務(wù)上,對業(yè)務(wù) 數(shù)據(jù)、處理器占用率進(jìn)行了分析。結(jié)果顯示業(yè)務(wù)量與時間相關(guān), 且存在波峰波谷特性,在業(yè)務(wù)運行期間,可通過實時檢測業(yè)務(wù) 負(fù)載、業(yè)務(wù)質(zhì)量指標(biāo)的變化,來靈活調(diào)整服務(wù)器的運行狀態(tài),實 施動態(tài)節(jié)能減排。 基于英特爾智慧節(jié)能方案豐富的組件和集成的優(yōu)化策略,中國聯(lián) 通從如下流程入手,提升節(jié)能減排效果:
? 在服務(wù)器運行過程中,利用英特爾智慧節(jié)能方案支持的眾多組 件對于服務(wù)器的各種運轉(zhuǎn)狀態(tài)進(jìn)行智能遙測,將相關(guān)信息提供 給閉環(huán)控制邏輯;
? 基于業(yè)務(wù)數(shù)據(jù)進(jìn)行建模,由英特爾智慧節(jié)能方案提供的 API 接口對時間序列數(shù)據(jù)快速執(zhí)行填充、縮放等操作,并開展自動 特征生成;
? 實現(xiàn)超參數(shù)搜索,并根據(jù)預(yù)測目標(biāo)檢索出更佳超參數(shù)集,優(yōu)化 模型和數(shù)據(jù)處理工序并形成時間序列預(yù)測模型;
? 使用這一模型對實時業(yè)務(wù)數(shù)據(jù)進(jìn)行推理(或進(jìn)行效果評估和優(yōu) 化),獲得最終的處理器占用率預(yù)測數(shù)據(jù);
? 根據(jù)預(yù)測數(shù)據(jù)來進(jìn)行基于 AI 的智能控制,使得 C/UFreq 緊密 跟隨工作負(fù)載變化,在節(jié)省更多功耗的同時,時延性能可以滿 足業(yè)務(wù)工作負(fù)載的 SLA 需求。
在前期,中國聯(lián)通與英特爾針對 5GC 網(wǎng)元業(yè)務(wù)應(yīng)用場景進(jìn)行測試。如今,雙方又針對大數(shù)據(jù)業(yè)務(wù)進(jìn)行方案部署與測試驗證。在 中國聯(lián)通大數(shù)據(jù)業(yè)務(wù)中,工作負(fù)載隨時間有著明顯的波動,波峰 波谷差異較大,通過在波谷時采用節(jié)能措施,有望實現(xiàn)較為顯著 的節(jié)能效果。
基于上述特征,中國聯(lián)通設(shè)計了基于英特爾智慧節(jié)能方案的節(jié)能 原型。該原型從批處理業(yè)務(wù)場景入手,首先利用負(fù)載峰谷時的場 景特征,通過在波峰時使用默認(rèn)高性能配置,波谷時使用自動低 功耗配置,并根據(jù)需要設(shè)置 CPU cfreq 和 ufreq 等手段,達(dá)到節(jié)能效果。
測試數(shù)據(jù)如圖所示,英特爾智慧節(jié)能方案比基準(zhǔn)方案節(jié)能 28.6%5。這在很大程度上是由于英特爾智慧節(jié)能方案能夠支持 Cfreq 自適應(yīng)調(diào)節(jié),而基準(zhǔn)方案則一直保持高頻,因此前者耗能遠(yuǎn)低于后者。
推衍到整體云資源池中,這一舉措預(yù)計每年可直接節(jié)電數(shù)千萬度,再加上數(shù)據(jù)中心既有 PUE 方案帶來的節(jié)能降耗,預(yù)計每年 可減少二氧化碳排放數(shù)萬噸。
展望 基于英特爾智慧節(jié)能方案的中國聯(lián)通節(jié)能減排策略實現(xiàn)了預(yù)期的成效,在不對數(shù)據(jù)中心進(jìn)行硬件改造的前提下,雙方顯著降低了 5GC 網(wǎng)元、大數(shù)據(jù)業(yè)務(wù)中的服務(wù)器能耗,同時滿足業(yè)務(wù)工作負(fù) 載的 SLA 級別。得益于服務(wù)器的節(jié)能減排,并疊加其他節(jié)能措 施,中國聯(lián)通能夠大范圍、更大規(guī)模地提升節(jié)能減排水平,助力綠色數(shù)據(jù)中心建設(shè)。英特爾還發(fā)布了 “英特爾綠色數(shù)據(jù)中心技術(shù)框架”,與客戶和產(chǎn)業(yè)鏈共同推動數(shù)據(jù)中心綠色可持續(xù)發(fā)展。在當(dāng)前合作成就的基礎(chǔ)上,中國聯(lián)通與英特爾計劃開展進(jìn)一步合作,持續(xù)增強節(jié)能水平,合作方向包括:
? 將英特爾智慧節(jié)能方案擴展到更多的業(yè)務(wù)場景,助力中國聯(lián)通 實現(xiàn)雙碳目標(biāo)。
? 將節(jié)能范圍擴展到網(wǎng)絡(luò)、外設(shè)、數(shù)據(jù)中心環(huán)境等領(lǐng)域,盡可能 地降低數(shù)據(jù)中心整體能耗水平。
? 充分利用新一代英特爾? 處理器上的性能核和能效核策略,基于 工作負(fù)載對內(nèi)核進(jìn)行高效調(diào)度,實現(xiàn)性能與能耗的卓越平衡。 ? 在對 CPU 能耗進(jìn)行精準(zhǔn)控制的同時,推動創(chuàng)新的節(jié)能技術(shù)在 GPU 等更多加速器中的應(yīng)用。
? 強化實時學(xué)習(xí)、自動機器學(xué)習(xí) (AutoML) 和增強學(xué)習(xí)等創(chuàng)新技 術(shù)的應(yīng)用,進(jìn)一步提升節(jié)能效果。
通過上述合作探索,英特爾將助力中國聯(lián)通形成更高效、更智能 的數(shù)據(jù)中心能耗管理策略,顯著提升節(jié)能減排水平,更快更好地 將構(gòu)建新型數(shù)字信息基礎(chǔ)設(shè)施行動計劃落到實處。
評論