特斯拉抗衡英偉達(dá)失敗,自研芯片要涼涼?

汽車商業(yè)評論2024-04-22 15:09

汽車商業(yè)評論

撰文?/ 周 洲

編輯?/ 黃大路

設(shè)計?/ 師 超

特斯拉禍不單行。一邊全球大裁員,一邊經(jīng)歷“黑色星期五”。

4月19日,美股AI概念股們迎來了慘烈的“黑色星期五”。

英偉達(dá)暴跌10%,每股跌近85美元,創(chuàng)2020年3月16日以來最大單日跌幅,刷新歷史最大單日跌幅紀(jì)錄。競爭對手AMD大跌5.4%,芯片設(shè)計公司Arm跌近17%,晶圓代工龍頭臺積電稍微好一點,跌超3%。

作為上述芯片供應(yīng)商的客戶,特斯拉也未能幸免,本周跌幅居首,大跌超過14%,市值在4月15日一天就蒸發(fā)304.33億美元(約合人民幣超2200億元)。

瑞穗證券駐場分析師喬丹·克萊因(Jordan Klein)表示,芯片領(lǐng)域“整個行業(yè)出現(xiàn)回撤”,過去一周左右時間里,回撤速度一天比一天快。

這對于正在加碼AI的特斯拉來說是個雪上加霜的壞消息。

2023年9月,摩根士丹利還曾預(yù)判,特斯拉用于訓(xùn)練自動駕駛汽車人工智能模型的超級計算機(jī)Dojo可能會給這家電動汽車制造商帶來“不對稱優(yōu)勢”,使其市值增加近6000億美元。

自2022年年底開始,AI 應(yīng)用全面爆發(fā)、勢不可擋,如今卻遭到機(jī)構(gòu)對AI投資熱潮回調(diào)。特斯拉重金投入的Dojo超級計算機(jī)項目芯片研發(fā)進(jìn)展不理想,在無法All in的現(xiàn)實中,馬斯克聰明地作了兩手準(zhǔn)備:儲備了足夠多的僅次于扎克伯格Meta的英偉達(dá)芯片。

一位業(yè)內(nèi)人士對汽車商業(yè)評論稱,從一開始就對馬斯克自研芯片不太看好。

“Dojo所用的是一種用于大模型訓(xùn)練的服務(wù)器芯片,與在汽車上運行的軟件不同。其次,它(特斯拉)還沒有準(zhǔn)備好,制造芯片很不容易,需要時間積淀。我覺得像其他人一樣購買現(xiàn)成的芯片是最好的路徑。”這位人士稱。

自建“道場”

特斯拉在2021年的“人工智能日”(AI Day)上發(fā)布了Dojo,公布了自研芯片D1。

這是特斯拉用于云端訓(xùn)練AI模型的超級計算機(jī),名字來源于日語,寓意為“道場”,象征著它是作為訓(xùn)練AI的地方。

Dojo旨在成為世界上最快的計算機(jī)之一,能夠處理海量的視頻數(shù)據(jù),從而加速特斯拉Autopilot和全自動駕駛系統(tǒng)(FSD)的學(xué)習(xí)和改進(jìn),也為特斯拉的人形機(jī)器人Optimus提供計算支持。

Dojo的核心是特斯拉自主設(shè)計制造的神經(jīng)網(wǎng)絡(luò)訓(xùn)練芯片D1以及基于該芯片構(gòu)建的訓(xùn)練模塊、系統(tǒng)托盤和ExaPOD集群。

D1芯片采用臺積電7納米工藝制造,這款芯片集成了500億個晶體管,并擁有354個訓(xùn)練節(jié)點,每個節(jié)點都包含一個處理器核心、一個高速緩存、一個高帶寬內(nèi)存和一個高速互連。D1芯片的峰值算力高達(dá)362TFLOPS,帶寬達(dá)到36 TB/s。

為了進(jìn)一步提高算力,特斯拉將25顆D1芯片進(jìn)行無縫連接,形成一個訓(xùn)練模塊。每個訓(xùn)練模塊的峰值算力可達(dá)9PFLOPS,帶寬為900GB/s。

這些訓(xùn)練模塊構(gòu)建了一個高密度、高性能、高可靠的系統(tǒng)托盤,每個托盤可容納10個訓(xùn)練模塊,并配備相應(yīng)的電源、冷卻和網(wǎng)絡(luò)設(shè)備。每個系統(tǒng)托盤的峰值算力達(dá)到90 PFLOPS,帶寬為9 TB/s。

最后,基于系統(tǒng)托盤,特斯拉構(gòu)建了一個ExaPOD集群。每個集群由10個系統(tǒng)托盤組成,安裝在一個機(jī)柜中。一個ExaPOD機(jī)柜模型的峰值算力高達(dá)900 PFLOPS,帶寬為90 TB/s。

作為Dojo落地形式的ExaPOD,由3000片D1芯片構(gòu)成,單精度算力為1.1EFlops。

根據(jù)特斯拉的公開資料,Dojo基于特斯拉自研D1芯片,用于替代基于英偉達(dá)A100的數(shù)據(jù)中心。截至2022年9月,該數(shù)據(jù)中心有1.4萬片A100,是全球第七大數(shù)據(jù)中心。

特斯拉計劃2023財年大概出貨4萬-5萬片D1,2023年7月第一個ExaPOD已經(jīng)投入運營,且預(yù)計在短期內(nèi)向Palo Alto數(shù)據(jù)中心投入6個ExaPOD,算力共7.7EFlops。到今年四季度,Dojo算力目標(biāo)是達(dá)到100EFlops(約91個集群)。

在2023年7月下旬的二季度電話會議中,馬斯克表示沒必要自造芯片,“如果英偉達(dá)能夠給我們足夠的GPU,也許我們就不需要Dojo,但他們無法滿足我們的需求?!?/p>

在自研的重要節(jié)點上,2023年11月,負(fù)責(zé)Dojo超算項目的負(fù)責(zé)人、同時也是特斯拉自動駕駛硬件高級總監(jiān)加內(nèi)什·文卡塔拉馬南(Ganesh Venkataramanan)離職,職位由前蘋果高管彼得·班農(nóng)(Peter Bannon)負(fù)責(zé)。彼時有消息稱,很可能是因為Dojo第二代芯片未達(dá)標(biāo),加內(nèi)什遭到解雇。

加內(nèi)什此前負(fù)責(zé)特斯拉Dojo超算項目已達(dá)5年,在進(jìn)入特斯拉之前,他曾在美國知名半導(dǎo)體公司AMD任職近15年。

加內(nèi)什的離職,被認(rèn)為是特斯拉自研芯片不力,或者沒有設(shè)想中那么順利。

對馬斯克來說,他能采取的措施就是一邊想辦法自研,一邊購買合適的芯片。

設(shè)想與現(xiàn)實

一位網(wǎng)名為 “whydoesthisitch”的深度學(xué)習(xí)科研人員研究AI芯片已久,他解析了馬斯克的Dojo無法依靠自研芯片的原因。

他認(rèn)為,Dojo 仍可能處于相對早期的開發(fā)階段,即使它加緊追趕,在性能方面仍將落后英偉達(dá)4 年以上。

今年3月20日,英偉達(dá)投下了Blackwell B200 炸彈,這是下一代數(shù)據(jù)中心和 AI GPU,將使得計算能力獲得巨大的代際飛躍。

Blackwell 包含三個部分:B100、B200 和 Grace-Blackwell 超級芯片 (GB200)。

新的 B200 GPU 擁有 2080 億個晶體管,可提供高達(dá) 20petaFlops 的 FP4 算力;GB200 將兩個 GPU 和一個 Grace CPU 結(jié)合在一起,可為 LLM 推理工作負(fù)載提供 30 倍的性能,同時還能大大提高效率。

英偉達(dá)表示,與 H100 相比,它的成本和能耗“最多可降低 25 倍”。訓(xùn)練一個 1.8 萬億個參數(shù)的模型以前需要 8000 個 Hopper GPU 和 15 兆瓦的電力,如今,2000 個 Blackwell GPU 就能完成這項工作,耗電量僅為 4 兆瓦。

在具有 1750 億個參數(shù)的 GPT-3 LLM 基準(zhǔn)測試中,GB200 的性能是 H100 的 7 倍,英偉達(dá)稱其訓(xùn)練速度是 H100 的 4 倍。

“而特斯拉確實夸大了芯片本身以及它們的開發(fā)進(jìn)展,”“whydoesthisitch”認(rèn)為,例如,特斯拉宣傳 Dojo 突破了 exaflop 算力、Dojo躋身世界上最強(qiáng)大的計算中心之列之時,谷歌在俄克拉荷馬州梅斯縣的數(shù)據(jù)中心已經(jīng)安裝 8 個 TPUv4 系統(tǒng)Pods,該數(shù)據(jù)中心正在以接近 9 exaflops的總計算能力供谷歌云部門使用;亞馬遜的AWS 使用 Trainium 芯片算力達(dá)到6 exaflops ,使用英偉達(dá)的 H100 GPU 算力達(dá)到 20 exaflops。

他認(rèn)為,如果Dojo足夠便宜,那它有理由取代英偉達(dá)。問題是,特斯拉的運營規(guī)模支撐不了這種龐大的研發(fā)投資。

今年1月16日,最近離職的特斯拉公共政策和業(yè)務(wù)發(fā)展副總裁的羅漢·帕特爾(Rohan Patel)在社交媒體X上發(fā)布了一則消息,稱“周五晚上與埃隆·馬斯克就一項大型AI數(shù)據(jù)中心投資進(jìn)行了反復(fù)討論。他決定批準(zhǔn)這幾個月來一直密切跟蹤的計劃。很難想到一位首席執(zhí)行官比你能想象地更多地參與公司最重要的細(xì)節(jié)?!?/p>

資深科技博主漢斯·尼爾森(Hans Nelson)研究馬斯克和特斯拉多年,他在隨后的連線時評上稱,Dojo肯定是大型AI數(shù)據(jù)中心的重要部分,但是帕特爾的這則推文卻沒有提及Dojo,估計是Dojo的芯片項目有點落后于他們希望推進(jìn)的程度,這可能表示Dojo在短期內(nèi)將更多使用英偉達(dá)的芯片。

Dojo原打算到今年2月,算力規(guī)模進(jìn)入全球前五,今年10月算力總規(guī)模將達(dá)到100 exaflops,相當(dāng)于30萬塊英偉達(dá)A100的算力總和。

尼爾森認(rèn)為,Dojo目前算力能達(dá)到33exaflops,至于如何在10月達(dá)到100exaflops,以及目前的算力中使用的自研芯片和英偉達(dá)芯片各自占比,則無從得知。但可以肯定的是,無論Dojo是否能按照時間表實現(xiàn)算力目標(biāo),馬斯克囤積了足夠的H100GPU。

(圖源:來自漢斯·尼爾森連線對談視頻截圖)

H100GPU性能比此前的A100更好,特別是在AI訓(xùn)練和推理方面。H100基于英偉達(dá)Hopper架構(gòu),是第一代支持AI和HPC的Ampere架構(gòu)的下一代架構(gòu),而A100是基于Ampere架構(gòu)的產(chǎn)品。

10天后的1月26日,紐約州州長凱西·霍楚(Kathy Hochul)稱,特斯拉將投資5億美元,在該州的布法羅市(Buffalo)建造一臺Dojo超級計算機(jī)。

雖然霍楚在發(fā)布會上著重提到了5億美元的投資規(guī)模,但是特斯拉在社交媒體X上卻有意淡化了這一數(shù)字,并指出該公司在2024年,在英偉達(dá)硬件上的投資將超過這一金額。

5億美元相當(dāng)于約 1 萬顆 H100 GPU。

4月8日,X 平臺用戶“The Technology Brother”發(fā)布的囤積英偉達(dá)H100GPU排行榜上,Meta以35 萬塊位居第一。

馬斯克對該排行榜將特斯拉和 xAI 1萬塊的排名表示不滿,并指出“如果計算正確,特斯拉應(yīng)該是第二名,xAI 將是第三名”。

這意味著特斯拉可能擁有 3 萬到 35 萬顆 H100 GPU,xAI 則可能擁有大約 2.6 萬到 3 萬顆。

一直和扎克伯格針鋒相對的馬斯克,在不服氣的嘴炮中暴露了真實狀況:至少現(xiàn)在,Dojo的自研芯片失敗,全面轉(zhuǎn)向英偉達(dá)。

馬斯克稱,在人工智能領(lǐng)域保持競爭力,每年至少需要投入數(shù)十億美元,并將會擴(kuò)大購買英偉達(dá)競爭對手AMD的產(chǎn)品。

但“whydoesthisitch”認(rèn)為,Dojo的算力規(guī)模要達(dá)到100 exa flops,估計要延至2027-2028年,而那時主流的云服務(wù)商比如亞馬遜的算力已經(jīng)達(dá)到zettaflop級別。

他稱,目前Dojo的芯片性能其實只能達(dá)到H100的10%-35%,當(dāng)它追上H100時,英偉達(dá)已經(jīng)在新一代的Blackwell 上奔跑很遠(yuǎn)。

尼爾森則認(rèn)為,至少馬斯克意識到了,購買芯片還是最劃算的。

版權(quán)與免責(zé):以上作品(包括文、圖、音視頻)版權(quán)歸發(fā)布者【汽車商業(yè)評論】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù),不代表經(jīng)觀的觀點和構(gòu)成投資等建議