大格局!第四范式要在一年內開源95%核心技術
最先落地 AutoML 的那家公司,現在喊出了開源。
自動機器學習 AutoML 技術,可以把特征提取、模型選擇、參數調節等機器學習的復雜過程實現自動化。這種能夠大幅降低 AI 應用門檻的工具,是目前人工智能業界炙手可熱的方向。
第四范式成立之初就開始投入力量研究 AutoML 技術,現在又把自動化 AI 的能力拓展到 AI 應用的大多數環節。
在 6 月 23 日的年度發布會上,第四范式的 AI 操作系統 AIOS 升級到了 2.0 版。更引人關注的是,這家公司還計劃在一年內將 95% 核心技術開源出來。
「我們把最核心的數據和算力技術開源給技術社區,它們是開發者最需要的東西。」第四范式聯合創始人、首席研究科學家陳雨強說道。
第四范式技術副總裁鄭曌等人在發布會上宣布了 AIOS 核心技術的開源。
從零開始,構建 AI 數據引擎
首先是機器學習數據庫 OpenMLDB。在 AI 時代,機器學習模型不斷高頻次演進,這意味著數據供給的重要性不斷提升。但即使是在大型科技公司里,我們仍然能看到 SQL 數據處理 10 小時,上線排查 6 個月這樣的情況。
「機器學習技術實現理性和瞬時高效的推理判斷,但不論事務型數據庫、分析型數據庫還是傳統數倉,在執行這類機器學習任務時都無法保障正確的數據供給」在發布會當日的技術分論壇上,第四范式資深架構師王太澤說道,「由于不是面向機器學習的設計,傳統的數據庫無法完全覆蓋從離線、在線到數據反饋的全流程,對于機器學習應用來說效率較低。」
第四范式幫助超過 120 個場景完成了數據的開發和矯正,這讓他們的工程師總結出供給正確數據的解法。
與Hadoop、Oracle、MySQL 等目前流行的數據庫相比,第四范式提出的OpenMLDB,定位是為AI 而生的機器學習數據庫,而這也是目前行業內的空白。
OpenMLDB 解決了 3 個機器學習的核心數據問題:
首先是離線在線不一致,OpenMLDB 通過統一的數據存儲引擎避免了跨數據庫的信息交換。另一方面,通過統一的數據計算引擎,這套系統使離線和在線使用同一套計算邏輯,確保了總結規律和線索演算時思維方式的一致。
其次是時序正確性:在超過一半的場景中,由于傳統的數據庫系統無區別對待歷史經驗和未知信息,數據科學家在數據開發過程中產生了時序泄露,在進行規律總結的時候使用到了不該使用、來自于未來的「穿越數據」。OpenMLDB 通過使用自動時序拼接語法和時序泄露檢測模塊,避免了錯誤的數據使用。
最后是閉環完整性,機器學習需要將線索演算以及業務推理判斷正確與否的反饋沉淀成經驗和知識,這需要數據庫系統能夠具備 將線索推演,以及判斷的反饋,進行正確關聯的能力。OpenMLDB 通過對線索與反饋的自動拼接檢測與自動關聯,保障了唯一拼接標識,避免了數據拼接錯位的問題。
在從傳統數據庫系統切換到 OpenMLDB 后,開發過程的數據正確性得到了保障。除了性能上的優化外, OpenMLDB 在使用上也很方便,它支持標準 JDBC、Restfull 和 SQL 接口。
「MLDB 是我們的核心能力。在機器學習數據庫上,我們的技術是非常領先的,」陳雨強表示。在一些 AI 決策任務中,使用 OpenMLDB 的開發效率可以提升多達 8 倍,相比傳統數據庫進行線上實時特征計算時,使用 OpenMLDB 能夠 3 到 10 倍的性能提升。
為 AI 而生的操作系統
在平臺側,第四范式推出了為 AI 而生的的操作系統內核——OpenAIOS。
AI 的應用深入來看要經歷十幾個步驟,不同的技術組件支撐了不同的步驟,而每一個步驟對資源的需求又有著較大的不同。第四范式將這些環節的能力面向計算、存儲、通信三個方面進行了進一步的抽象和沉淀。
越來越多AI異構芯片的出現,加速了AI異構計算芯片對操作系統內核進行管理的細分需求,把計算負載從操作系統內核調度到集群上不同機器的不同芯片上。除了AI異構芯片外,不同的異構存儲介質、異構通信設備都需要操作系統內核進行統一的管理。在異構設備管理的基礎之上,保障任務的成功率與資源利用率,需要操作系統內核提供軟硬協同的整體調度策略。
為了實現有效的算力,第四范式研究人員實現了異構 Kernel 深度優化、計算協同處理、資源調度等能力:
在算力方面,當數據量大到通用計算芯片無法處理時,OpenAIOS 的多級計算內核有針對性的設計硬件之間的協同處理策略,將計算任務進行工作量拆分,通過統一的智能化調度,將拆分后的任務給到不同的專用計算芯片進行處理。
在存儲方面,因為內存和顯存不夠導致的任務失敗是開發者最常遇到的難題。在不侵入現有應用和代碼的情況下,OpenAIOS 在操作系統內部建立了一套面向內存和顯存的多級存儲內核,通過自動擴容策略和多級緩存機制將存儲容量進行擴展,提高了任務的成功率。
在通信速率方面,數據的交換效率是人們關注的重點,OpenAIOS 提供了多級通信內核,在機器學習特有的梯度權重交換等環節,提供了低延遲、高吞吐的通信框架, 以及面向異構加速器的專用通信協議,減輕數據通信上的壓力。
多設備的情況下,OpenAIOS 可以高效率調動 GPU 算力,提升模型訓練時的速度。在 GPU 虛擬化的工作中,第四范式系統率先實現了應用零改造的顯存擴容。
第四范式技術副總裁鄭曌在發布會上宣布開源機器學習操作系統內核 OpenAIOS,以及面向實時智能決策的分布式機器學習數據庫 OpenMLDB,面向開發者提供開箱即用的技術能力。
開源地址:
OpenMLDB Github:
https://github.com/4paradigm/OpenMLDB
OpenAIOS Github:
https://github.com/4paradigm/openaios-platform
基于OpenAIOS內核,『AIOS社區版』也已經正式上線,AIOS的核心技術都會以「社區版」的形式,免費向開源社區開放, AIOS 社區版擁有多元的開發體驗,支持 Visual Studio、VSCode、Jupyter Notebook 等桌面和遠程開發工具,內置核心應用和商店,同時支持第三方應用,又使用了原生的 Kubernetes 環境,擁抱所有云原生應用。
『AIOS社區版』:openaios.4paradigm.com
鄭曌還宣布了 Knot「中國結」計劃:在未來一年之內,公司將實現 95% 以上的核心技術開源開放,并為各家企業共計培養超過一萬名 AI 應用開發工程師。
「我們相信 AI 決策是幫助企業轉型的新范式,是能夠帶領企業走向質變的重要方法。第四范式希望能夠幫助開發者做越來越多重要的工作」鄭曌說道。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。
電容器相關文章:電容器原理
超級電容器相關文章:超級電容器原理
電容相關文章:電容原理 電化學工作站相關文章:電化學工作站原理 閃光燈相關文章:閃光燈原理 離子色譜儀相關文章:離子色譜儀原理