a一级爱做片免费观看欧美,久久国产一区二区,日本一二三区免费,久草视频手机在线观看

博客專欄

EEPW首頁 > 博客 > Orca LLM:模擬 ChatGPT 的推理過程

Orca LLM:模擬 ChatGPT 的推理過程

發布人:ygtu 時間:2023-09-13 來源:工程師 發布文章
推薦:使用NSDT場景編輯器快速搭建3D應用場景
介紹

在大型語言模型(LLM)領域,人們一直在追求在不影響其效率的情況下增強小型模型的功能。傳統的方法是使用模仿學習,其中較小的模型從大型基礎模型(LFM)生成的輸出中學習。然而,這種方法受到一些挑戰的損害,包括來自淺層LFM輸出的有限模仿信號,小規模的同質訓練數據以及缺乏嚴格的評估。這通常會導致較小的模型模仿LFM的風格,而不是推理過程。

論文Orca:從GPT-4的復雜解釋痕跡中逐步學習介紹了Orca,這是一個13億參數模型,旨在模仿GPT-4等大型基礎模型(LFM)的推理過程。與傳統的大型語言模型(LLM)不同,Orca采用獨特的培訓方法,將漸進式學習和教師協助相結合,以克服較小的學生模型與較大的學生模型之間的能力差距。

培訓方法


逆戟鯨的訓練過程包括兩個階段。

在第一階段,逆戟鯨接受 FLAN-5M 訓練,其中包括 ChatGPT 增強。這個中級助教有助于彌合 Orca 和 GPT-4 之間的容量差距,后者的參數大小要大得多。通過利用 ChatGPT 的功能,Orca 受益于改進的模仿學習性能。

在第二階段,逆戟鯨接受 FLAN-1M 的訓練,其中包括 GPT-4 增強。這種漸進式學習方法遵循課程學習范式,學生模式從更簡單的例子中學習,然后再處理更具挑戰性的例子。通過逐漸讓逆戟鯨接觸越來越復雜的推理和逐步解釋,該模型增強了其推理能力和模仿能力。

優勢和貢獻


與傳統的LLM相比,Orca的培訓方法具有幾個優勢。

首先,它通過利用中級教師模型解決了能力差距問題,使Orca能夠從更有能力的來源學習。這種方法已被證明可以提高較小學生模型的模仿學習性能。

其次,Orca訓練的漸進式學習方面使模型能夠逐步建立其知識。通過從更簡單的例子開始,逐漸引入更復雜的例子,Orca為推理和解釋的生成奠定了更堅實的基礎。

此外,Orca模仿GPT-4等LFM的推理過程的能力為提高各種任務的性能開辟了可能性。通過利用 GPT-4 的解釋軌跡和分步思維過程提供的豐富信號,Orca 獲得了寶貴的見解并提高了自己的能力。

性能基準

Orca在復雜的零鏡頭推理基準測試中表現出色。它的性能優于傳統的最先進的指令調整模型,如Vicuna-13B,在Big-Bench Hard(BBH)等基準上超過100%,在AGIEval上超過42%。此外,Orca 在 BBH 基準測試中取得了與 ChatGPT 相同的分數,并在 SAT、LSAT、GRE 和 GMAT 等專業和學術考試中表現出有競爭力的表現。考慮到這些是沒有思維鏈的零鏡頭設置,這尤其令人印象深刻,而且 Orca 在落后于 GPT-4 的同時仍然具有競爭力。

影響和未來方向

逆戟鯨的發展代表了LLM領域的重大進步。通過從豐富的信號中學習并模仿LFM的推理過程,Orca能夠以高度的準確性執行復雜的推理任務。這具有廣泛的影響,特別是在需要復雜推理和解決問題的領域。

此外,這項研究表明,從分步AI模型解釋中學習是提高模型能力的一個有希望的方向。這為法學碩士領域的研究和開發開辟了新的途徑。

結論


Orca提出了一種訓練大型語言模型的新方法,將漸進式學習和教師協助相結合,以增強模仿學習。通過利用中級教師模型,逐步將學生模型暴露給更復雜的例子,Orca克服了能力差距,提高了推理和解釋生成能力。該論文的發現有助于模仿學習技術的進步,并對未來語言模型的發展產生影響。

原文鏈接:Orca LLM:模擬 ChatGPT 的推理過程 (mvrlink.com)


*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。



關鍵詞: LLM CHATGPT

相關推薦

技術專區

關閉