OpenAI到底做對了什么?(1)
OpenAI通過一系列在AI技術和產品上的突破,引爆了通用人工智能(AGI)的發展,被微軟CEO 薩提亞 · 納德拉稱為“堪比工業革命的技術浪潮”。OpenAI趟出來的以大語言模型為主的AGI技術路線,也基本上宣告了其他AI技術路線的終結,這樣以一己之力改變整個領域航道的,在技術史上也是空前絕后。一個區區兩三百人(在去年底推出ChatGPT時,OpenAI團隊大約270人)的創業公司,何以在眾多巨頭逐鹿多年的AI競技場一路披荊斬棘,摘得通用人工智能的圣杯?無論在硅谷,還是在國內,很多人都在問:
為什么AGI這樣史詩級的革命,背后的核心推手竟然是OpenAI這樣的創業公司?OpenAI到底做對了什么?
我自從2016年開始一直追蹤研究AI領域的產業發展,每年籌辦全球機器學習技術大會(ML-Summit)的工作原因,陸續和很多來自OpenAI的專家、包括Ilya Sutskever(首席科學家)、Lukasz Kaiser(Transformer共同發明人)、Andrej Karpathy(聯合創始人)、Ian goodfellow(GAN之父)等經常接觸和交流。很早就注意到了OpenAI這個在AI領域特立獨行的“異類”。
如果回看AI產業的發展歷史,和OpenAI歷史道路上的諸多關鍵選擇,我幾乎驚嘆地發現,作為一家創業公司,OpenAI在每一次關鍵的岔路口上,都毫不猶豫地選擇了“難而正確”的決定?;仡橭penAI發展歷史上這些“難而正確”的選擇,我覺得對于我們今天很多AI領域的同行者會有重要的啟發。
愿景和使命:劍指通用人工智能
「我們的目標是以造福全人類的方式推進人工智能。今天的AI系統雖然令人驚嘆,但很多表現又不免差強人意。但在未來,AI極有可能在幾乎所有智力任務上達到人類的表現。這項事業的結果是不確定的,工作是困難的,但我們相信我們的目標和結構是正確的?!?/span>
這段話是我摘抄自OpenAI 在2015年12月剛成立不久創始團隊發表的“愿景和使命”博客中的一段文字。八年后的今天讀來,感受仍然是真誠和激蕩的。
OpenAI能夠在2015年整個AI領域被各種迷霧籠罩的時候,就提出“通用人工智能”這一強大的“愿景和使命”,是建立在創始團隊對人工智能的堅實信仰、深刻理解和現狀研究基礎之上的,我將這些合稱為對通用人工智能的“愿力”。這樣的“愿力”,幫助OpenAI此后在人工智能的發展道路上一次次守正出奇。
“愿景和使命”在今天浮躁的創投圈,很容易被異化為“忽悠VC和給員工畫餅”。但如果研究人類科技發展史,你會發現在一個領域提出強大的“愿景和使命”,是成為一個領域拓荒者的鮮明特征。反過來說,但凡革命性的事情,都有極大的難度,沒有強大的“愿景和使命”指引,遇到困難就很容易放棄和潰散。因此,對于那些堅定信仰的創業者,我鼓勵大家大聲講出你的“愿景和使命”。我也希望我們的創投界、媒體界對于創業者的“愿景和使命”要鼓勵支持、而非奚落鞭撻。
我時常在想如果將時間拉回到2015年,如果30歲的Sam Altman和29歲的Ilya Sutskever這兩位毛頭小子在我們的某個創投活動上講出上述“愿景和使命”,是不是會被一眾“大佬”唾沫星子淹死?事實是OpenAI在成立時就獲得了大約1億美金的捐贈,彼時OpenAI還是以非贏利性組織的方式成立的。
技術路線一:無監督學習
OpenAI剛成立不久,就在Ilya Sutskever的領導下下注“無監督學習”這條道路。熟悉AI研究領域的朋友都知道,今天這個看起來無比正確的決定,在2015-2016年,絕對不是那么顯而易見。因為彼時的人工智能領域,通過標注數據方法的“監督學習”大行其道,在很多垂直領域比如推薦系統、機器視覺等,效果也更好。
而“無監督學習”在理論突破和工程技術上彼時都非常不成熟,效果也大打折扣,屬于典型的“非主流”。但無需人工標注數據的“無監督學習”具有強大的普適性、且易擴展,通過大規模的數據預訓練,模型就能學到數據中蘊涵的人類豐富的知識,從而在各類任務中大顯身手。對于“通用人工智能”這一目標來說,“無監督學習”顯然具有“任務的普適性”和依據海量數據進行快速“scale(擴展)”的能力。
今天來看,很多“監督學習”方法都被OpenAI的“無監督學習”大幅甩開,但在當時選擇“無監督學習”顯然屬于“難而正確”的決定,這樣的關鍵道路選擇和OpenAI對AGI的愿景是密不可分的。
技術路線二:生成式模型
當2016年,各種“識別”類任務(如視覺識別、語音識別等)大行其道時,OpenAI在2016年6月發表《生成式模型(Generative Models)》中開篇就引用著名物理學家費曼的名言“What I cannot create, I do not understand. 如果不能創造,就無法理解”。也將OpenAI的研究重心放在生成式任務上。
而彼時雖然有Ian goodfellow 發明的GAN(生成式對抗網絡)的驚艷時刻,但它的不可解釋性,以及相較于識別類任務的“有用”,總體上,主流的人工智能業界其實對于生成式模型的判斷是“難度大,但用處不大”。
但通讀《生成式模型(Generative Models)》文章中,可以看出OpenAI團隊對于生成式模型是“AGI必經之路”的堅定,就能體會出OpenAI團隊卓爾不群、堅定自我的特質。
技術路線三:自然語言
雖然在2012年深度學習進入工業界成為主流方法之后,機器視覺很快成為更為成熟、效果更好、變現能力也更強的領域。雖然Ilya Sutskever也是通過AlexNet參加ImageNet大賽拔得頭籌而在機器視覺領域一戰成名,但OpenAI在做了一些嘗試之后并沒有選擇視覺作為主攻方向,而是選擇了押注更難、更險的“自然語言”。
相對視覺、語音等領域,自然語言處理長期被認為是相對落后的領域,因為自然語言任務具有巨大的復雜性和解空間,很多方法在某一個單一任務上可以,但放到另一任務上就表現很差,起伏不定。業界也有說法,自然語言處理是人工智能領域的“圣杯”。
在嘗試OpenAI Gym(開源強化學習平臺)和OpenAI Five(使用強化學習打Dota2游戲)的同時,OpenAI在使用無監督學習來進行自然語言的任務上走的越來越遠。特別是2017年通過生成式方式來預測 Amazon 評論的下一個字符,取得了很棒的效果。
為什么OpenAI選擇押注自然語言?套用著名哲學家維特根斯坦“語言的邊界就是世界的邊界”。如果用Ilya Sutskever的話來說 “語言是世界的映射,GPT是語言的壓縮”。就人類智能而言,自然語言是核心中的核心,而其他視覺、語音等都不過是自然語言的輔助佐料。
正是有了對自然語言通向AGI道路信仰般的押注,等到2017年6月12日Google的Transformer奠基性論文《Attention is All You Need》一發布,用Ilya Sutskever的原話說論文發表的第二天,他看到論文后的第一反應是“就是它了”。Transformer模型從理論上顛覆了前代RNN、LSTM等自然語言處理方法,掃清了OpenAI團隊苦苦探索自然語言領域的一些關鍵障礙。
然而遺憾的是,Transformer這一理論模型并沒有在Google內部得到足夠的重視,反倒讓OpenAI團隊如獲至寶。這一幕像極了1979年喬布斯參觀施樂PARC研究院的Alto電腦上的圖形界面(GUI)和鼠標后,回到蘋果就開始押注圖形界面并開啟了轟轟烈烈的個人電腦時代,而施樂PARC的領導層卻遲遲看不到GUI向普通大眾釋放的巨大計算潛力。而親自打造Transformer的七位共同發明人后來也陸續離開Google,有的加入OpenAI(包括我們2021年全球機器學習技術大會的keynote speaker、OpenAI研究科學家Lukasz Kaiser),有的在硅谷VC支持下創辦新一代人工智能公司。很有點當年硅谷仙童半導體“八叛徒”的昨日重現。
*博客內容為網友個人發布,僅代表博主個人觀點,如有侵權請聯系工作人員刪除。