大模型將成為AI開發新范式
人工智能的落地已經發展到一定階段,向前一步的瓶頸在于某一廠商往往不具備足夠的可用于模型訓練的數據資源,且缺乏充足的算力,很難將偏通用的AI模型落地到企業場景中。行業參與者面對這些挑戰推出多項舉措,包括自動化機器學習、聯邦學習、提供云端算力等,其中大模型是現階段解決這些挑戰的重要途徑之一。
本文引用地址:http://www.j9360.com/article/202206/435760.htm什么是大模型? 在大模型的早期階段,廠商宣傳中常提到千億級、萬億級參數為特大模型、超大模型。而在產業實際落地階段,不再追求模型參數的數量。IDC認為,大模型是對原有算法模型的技術升級,基于海量數據開發預訓練模型,到最終用戶環境中使用少量數據即可獲得比之前的算法模型更好的結果,其要點在于: 1 預訓練型學習了多少數據 2 遷移學習的效果如何 3 部署的整體成本如何
主流的大模型廠商 大模型浪潮最早起源于預訓練模型,Google發布的Bert模型即是自然語言處理領域最為典型的預訓練模型。OpenAI則提出的GPT模型,尤其是2020年發布的GPT-3模型參數量即達到1750億,在全球掀起大模型的浪潮。可以說,在AI模型開發領域,經歷了預訓練模型-大規模預訓練模型-超大規模預訓練模型的演進。 在國內,IDC觀察到目前大力投入大模型的研發和落地的廠商以大型云服務商為主。例如,百度智能云“文心大模型”,包括了NLP大模型、CV大模型以及跨模態大模型,其特色在于注重跨模態技術研發,融入海量知識進行知識增強,應用場景廣泛且落地實踐豐富。阿里達摩院則推出“通義大模型”系列,以M6大模型為底座,發布Alice一系列模型合集,該大模型系列既在阿里內部核心業務場景落地,也在外部醫療、能源、金融行業積累了多個實踐案例。華為則從框架層、算力層以及軟件層面全面發力大模型,既有內部自主研發的盤古大模型,也開放華為昇思MindSpore框架支持業界進行大模型的訓練,華為在大模型領域強調強泛化能力、模型精度的提升以及研發成本的降低。此外,京東云、浪潮以及主流的人工智能研究院也在積極投入大模型的研發,典型的大模型有智源研究院悟道2.0模型、浪潮“源1.0”大模型等。 現階段如何看待和采用大模型?
隨著市場對于大模型的認知逐漸理性和落地,使用大模型的價值也開始凸顯,包括:不要求企業具備海量的數據基礎、應用大模型的效果更優、降低AI開發門檻等。行業用戶可以優先從相對落地的場景開始,例如智能客服、文檔內容抽取、知識圖譜、OCR等。在選擇大模型的時候,可以考慮:大模型學習過的數據量/知識量、經過遷移學習后在本企業應用場景中落地的效果、對于本地算力的需求。
IDC中國助理研究總監盧言霞表示:“大模型的泛化能力強、模型效果更優等特征助力其成為AI開發新范式,也是現階段AI市場發展的必然趨勢。行業用戶中AI先行者可以考慮優先在成熟度較高的場景中引入大模型,來適配本行業的細分場景。”
評論