

【導讀】兩天前,馬斯克得意自曝:團隊僅用122天,就建成了10萬張H100的Colossus集群,未來還會擴展到15萬張H100和5萬張H200。此消息一出,奧特曼都被嚇到了:xAI的算力已經超過OpenAI了,還給員工承諾了價值2億期權,這是要上天?
馬斯克的xAI一路狂飆突進,把Sam Altman都整怕了!
就在9月3日,馬斯克在推上得意自曝:
團隊僅僅用了122天時間,就建成了有10萬張H100的Colossus集群,是世界上最強大的AI訓練系統。
而且,未來幾個月規模還要翻一倍,擴展到15萬張H100+5萬張H200。

最后,馬斯克感謝了英偉達和許多其他合作伙伴、供應商。據悉,是戴爾開發、組裝了Colossus系統。
馬斯克的xAI,已經讓幾大AI巨頭感受到了強烈的威脅。


根據內幕消息,Sam Altman就曾表示,自己是怕了馬斯克了!
如今的xAI,不光算力有超越OpenAI之勢,還對員工十分大方。有說法指出,對于xAI的研究者,馬老板曾承諾過價值2億美元的期權。


馬斯克,全力進軍超算
相信大家都已經發現:馬斯克的超算野心,是愈發藏不住了!
隔三岔五的,就會有勁爆消息曝出。
7月底,xAI啟動了位于孟菲斯的超級AI集群的訓練,該集群由十萬個液冷H100 GPU組成。
十萬個H100 GPU消耗的電力大約在70兆瓦,因此這個超算至少會消耗150兆瓦的電力。
8月底,特斯拉宣布了Cortex AI集群,包括5萬個英偉達H100 GPU,和2萬個特斯拉的Dojo AI晶圓級芯片。

如今看來,這些集群很可能都正式投入運行,甚至已經在訓練AI模型了。不過,馬斯克真的有能力讓它們全部在線嗎?首要問題是,要調試和優化這些集群的設置,需要一定時間。其次,xAI還得確保它們獲得足夠的電力。我們知道,雖然馬斯克的公司一直在用14臺獨立發電機為其供電,但要為十萬塊H100 GPU供電,這些電力顯然不夠。訓練xAI的Grok 2,需要兩萬塊H100;而馬斯克預測,要訓練Grok 3,可能會需要十萬塊H100。所以,xAI的數據中心,建得怎么龐大都不過分。建設速度太快,推測是「部分上線」
122天,也就是4個月的時間,建成10萬張H100組成的超算集群,這是個什么速度?有業內人士表示,通常完成這樣一個集群可能需要一年時間。這個速度,這個規模,很馬斯克。
但也有人猜測,他可能有夸大其詞的傾向,高估了在單一集群中實際運行的GPU數量。囤足10萬張芯片、放在一起共同運行,并不意味著就是單一集群。論GPU數量,Meta在今年1月就已經計劃采購35萬張H100,但實際運行時是分成了不同集群。之所以還沒有其他公司能造出10萬GPU規模的集群,很難說是因為缺錢,更重要的因素是網絡解決方案。串聯起所有GPU的網絡,需要保證足夠的高帶寬、低延遲和可靠性,才能讓10萬張芯片協同起來像一臺計算機一樣工作。

Colossus是二戰期間第一臺可編程計算機,也曾在科幻電影里登場除了網絡,還有電力問題。馬斯克此前表示,Colossus在6月底已經啟動運行,當時,電力公司供應的最高功率只有幾兆瓦,僅能供應數千個GPU同時運行。電力公司表示,到8月,xAI將獲得大約50兆瓦的電力,但這只能供應大約5萬個芯片。與此同時,現場即將建成的另一個發電站將提供另外150兆瓦,可以滿足10萬個或更多芯片的電力需求,但要到明年才能實現。馬斯克似乎找到了一個短期解決方案:引入化石能源發電機。
Colossus所在地,田納西州孟菲斯的環保組織前幾天剛剛寫信控訴馬斯克,指責他在沒有許可的情況下安裝了至少18臺渦輪機(可能更多),加劇了當地的空氣污染。
出于網絡和電力兩方面的限制因素,The Information指出,馬斯克的這個集群可能只是「部分完成」除了Colossus和微軟在鳳凰城為OpenAI建造的超算集群,多個類似的集群也正處在研發和建設過程中。奧特曼:微軟爸爸,我們的算力不夠了
盡管如此,馬斯克這個超大集群的進展,還是讓一些競爭對手極度擔心!
其中一位,就是OpenAI的CEO Sam Altman。根據內部消息,奧特曼已經向一些微軟高管透露了自己的擔憂——他十分擔心,xAI很快就擁有比OpenAI更多的算力!
雖然為OpenAI提供算力的微軟老大哥,資金實力非常雄厚,但作為上市公司,微軟在花費資金時,還需要對公眾股東負責。但馬斯克則完全沒有這樣的限制,盡管他的資金不如微軟。
甭管馬斯克有多少吹牛的成分,即使能部分完成Colossus集群的建成,也是一件令人印象深刻的事。外媒The Information猜測,馬斯克這種神奇的趕工速度,是否放棄了傳統的例行安全檢查?畢竟,如果按例檢查的話,可能會讓數據中心項目的竣工延遲數月。
而且,The Information還發現了一個「華點」:Colossus位于以前的制造工廠內,這可不是適合高性能計算的理想場所。微軟和英偉達的高管透露,這是他們最不愿意放置昂貴硬件的地點之一。因為這些地方很難改造,來適應服務器耗費的巨大電量,和數據中心設備需要的冷卻技術。咱們都知道,馬老板一向喜歡突破邊界,而在質疑聲紛至沓來時,他又經常被證明是正確的。最近在xAI的姊妹公司X,馬斯克又有了一個驚人之舉:關閉了一個數據中心。當時大家都擔心,X會因此而崩潰。結果誰也沒想到,X運行得很好,馬斯克居然有如此先見之明。而這次,馬斯克在田納西州的超算,也同樣可能會對AI開發者振聾發聵——或許他們會發現,傳統的做事方式如今已經過時了。兩家神秘AI巨頭,正計劃打造1250億美元超算
如今,數據中心之戰,競爭還在火熱加劇!至少有六大巨頭,已經下場了。根據北達科他州官員的披露,除了微軟、OpenAI和xAI,還有兩家AI巨頭也正在醞釀建造「巨型AI數據中心」。
這兩家公司找到了商務專員Josh Teigen和州長Doug Burgum,商討建立巨型AI數據中心。除了技術研發,這類數據中心也對資源和基礎設施提出了很高的要求。不僅需要采購足夠的芯片和相關設備,還要留出數萬英畝的土地、建設新的發電設施。馬斯克的Colossus要自建發電站才能弄出200兆瓦,而這兩家公司可能是因為直接找上了州長,他們的初始電力就能達到500~1000兆瓦,并計劃在幾年內擴增至5k~1w兆瓦。這些項目的規模將比現有的任何數據中心,包括Colossus都擴大幾個數量級。100兆瓦可以為7萬至10萬個家庭供電;去年微軟Azure的全球數據中心總共使用了大約5吉瓦(5k兆瓦)的電力。這就意味著,一個數據中心,可能和整個Azure云服務平臺的耗電量相當。根據會議的音頻記錄,這類規模的項目耗資可能超過1250億美元。
在對外會議上,商務專員Teigen沒有透露這兩家神秘AI巨頭的名字,但他表示市值達到了「一萬億美元」。這就將潛在名單縮小到了美國的大約6家公司,七巨頭之六——英偉達、亞馬遜、微軟、谷歌、Meta和蘋果。微軟此前就和OpenAI討論過建造價值1000億美元的「星際之門」(Stargate),而且北達科他州長Doug Burgum曾是微軟的高管,在2001年以11億美元向微軟出售過自己的一家軟件公司。
但我們也知道,谷歌和亞馬遜等其他公司也在積極提升其AI計算能力。揭開美國AI超算的神秘面紗
AI巨頭一向對尖端技術嚴格保密,但他們對開發數據中心所需的技術,保密程度有過之而無不及。The Information列出了在美國7個州運營或計劃中的17個超算數據中心,涉及微軟、OpenAI、Meta和xAI等公司。總的來說,仍在開發或計劃階段的設施建設成本可能超過500億美元,其中包括約350億美元的英偉達芯片,以及運營所需的額外數十億美元。
這些超算估計在數年時間內落成,并需要大量的芯片、土地和電力。在ChatGPT問世前,GPU集群通常只包含幾千個芯片。如今,一些最大的GPU集群擁有超過3萬個芯片,上面提到的這些超算更是達到了前所未有的規模。要為所有計劃中的數據中心供電,美國能源部預計會出現電力不足的情況,因此最近提出了一些解決方案,例如資助研究使AI計算更高效。
爭奪「下一個高地」現在,數據中心競賽的焦點,集中到了英偉達CEO黃仁勛的身上。就在上周,老黃發表了以下言論,宛如在業內投入一顆炸彈。率先達到超算集群下一個高地的人,將實現革命性的AI水平。
此言一出,英偉達的GPU,誰敢不買?即使已經和博通共同設計出了TPU的谷歌,最近也為英偉達即將推出的Blackwell下了大單。
對GPU的爭奪,已經引發了AI開發者及其云供應商之間的緊張局勢,甚至,有時還會引發它們和英偉達的摩擦。比如,馬斯克就曾考慮和甲骨文達成一項大規模協議,根據他的計劃,xAI將在未來幾年內,花費超過100億美元租賃英偉達的GPU。而這項談判最終破裂了,部分原因在于,馬斯克認為甲骨文無法足夠快地建起超算,而甲骨文則擔心,他會把GPU集群放在一個供電不足的地方。芯片多多,問題多多很多超大的GPU集群都位于土地遼闊、空間充裕且電力充足的地區。例如,馬斯克的Colossus特意選址在田納西州孟菲斯,亞馬遜、Meta和微軟都在亞利桑那州的鳳凰城地區運營AI服務器。但隨著更大的GPU集群需要更多的電力,AI巨頭們正計劃在非傳統數據中心樞紐的地區建造這些集群。例如,亞馬遜最近在賓夕法尼亞州中部的一座核電站旁邊購置了土地,計劃供應約一吉瓦(1000兆瓦)的電力。這足以為整個舊金山供電,或者構建多達100萬張GPU的集群。另一個挑戰是如何進行設備冷卻。傳統上,數據中心一般采用風冷,但GPU服務器產生的熱量遠遠超過傳統服務器。為了更佳的冷卻效果,微軟在威斯康星州為OpenAI建設的數據中心預計將使用液冷而非風冷。雖然如今越來越多人懷疑,AI泡沫要接近臨界點了,但興建超算之風,一時半會還不會冷卻。畢竟,競家都All In了,你能不上嗎?六巨頭割據,群雄逐鹿,誰將奪得下一個超算高地?