特斯拉抗衡英偉達(dá)失敗，自研芯片要涼涼？

汽車商業(yè)評論2024-04-22 15:09

汽車商業(yè)評論

撰文?/ 周洲

編輯?/ 黃大路

設(shè)計?/ 師超

特斯拉禍不單行。一邊全球大裁員，一邊經(jīng)歷“黑色星期五”。

4月19日，美股AI概念股們迎來了慘烈的“黑色星期五”。

英偉達(dá)暴跌10%，每股跌近85美元，創(chuàng)2020年3月16日以來最大單日跌幅，刷新歷史最大單日跌幅紀(jì)錄。競爭對手AMD大跌5.4%，芯片設(shè)計公司Arm跌近17%，晶圓代工龍頭臺積電稍微好一點，跌超3%。

作為上述芯片供應(yīng)商的客戶，特斯拉也未能幸免，本周跌幅居首，大跌超過14%，市值在4月15日一天就蒸發(fā)304.33億美元（約合人民幣超2200億元）。

瑞穗證券駐場分析師喬丹·克萊因（Jordan Klein）表示，芯片領(lǐng)域“整個行業(yè)出現(xiàn)回撤”，過去一周左右時間里，回撤速度一天比一天快。

這對于正在加碼AI的特斯拉來說是個雪上加霜的壞消息。

2023年9月，摩根士丹利還曾預(yù)判，特斯拉用于訓(xùn)練自動駕駛汽車人工智能模型的超級計算機(jī)Dojo可能會給這家電動汽車制造商帶來“不對稱優(yōu)勢”，使其市值增加近6000億美元。

自2022年年底開始，AI 應(yīng)用全面爆發(fā)、勢不可擋，如今卻遭到機(jī)構(gòu)對AI投資熱潮回調(diào)。特斯拉重金投入的Dojo超級計算機(jī)項目芯片研發(fā)進(jìn)展不理想，在無法All in的現(xiàn)實中，馬斯克聰明地作了兩手準(zhǔn)備：儲備了足夠多的僅次于扎克伯格Meta的英偉達(dá)芯片。

一位業(yè)內(nèi)人士對汽車商業(yè)評論稱，從一開始就對馬斯克自研芯片不太看好。

“Dojo所用的是一種用于大模型訓(xùn)練的服務(wù)器芯片，與在汽車上運行的軟件不同。其次，它（特斯拉）還沒有準(zhǔn)備好，制造芯片很不容易，需要時間積淀。我覺得像其他人一樣購買現(xiàn)成的芯片是最好的路徑。”這位人士稱。

自建“道場”

特斯拉在2021年的“人工智能日”（AI Day）上發(fā)布了Dojo，公布了自研芯片D1。

這是特斯拉用于云端訓(xùn)練AI模型的超級計算機(jī)，名字來源于日語，寓意為“道場”，象征著它是作為訓(xùn)練AI的地方。

Dojo旨在成為世界上最快的計算機(jī)之一，能夠處理海量的視頻數(shù)據(jù)，從而加速特斯拉Autopilot和全自動駕駛系統(tǒng)（FSD）的學(xué)習(xí)和改進(jìn)，也為特斯拉的人形機(jī)器人Optimus提供計算支持。

Dojo的核心是特斯拉自主設(shè)計制造的神經(jīng)網(wǎng)絡(luò)訓(xùn)練芯片D1以及基于該芯片構(gòu)建的訓(xùn)練模塊、系統(tǒng)托盤和ExaPOD集群。

D1芯片采用臺積電7納米工藝制造，這款芯片集成了500億個晶體管，并擁有354個訓(xùn)練節(jié)點，每個節(jié)點都包含一個處理器核心、一個高速緩存、一個高帶寬內(nèi)存和一個高速互連。D1芯片的峰值算力高達(dá)362TFLOPS，帶寬達(dá)到36 TB/s。

為了進(jìn)一步提高算力，特斯拉將25顆D1芯片進(jìn)行無縫連接，形成一個訓(xùn)練模塊。每個訓(xùn)練模塊的峰值算力可達(dá)9PFLOPS，帶寬為900GB/s。

這些訓(xùn)練模塊構(gòu)建了一個高密度、高性能、高可靠的系統(tǒng)托盤，每個托盤可容納10個訓(xùn)練模塊，并配備相應(yīng)的電源、冷卻和網(wǎng)絡(luò)設(shè)備。每個系統(tǒng)托盤的峰值算力達(dá)到90 PFLOPS，帶寬為9 TB/s。

最后，基于系統(tǒng)托盤，特斯拉構(gòu)建了一個ExaPOD集群。每個集群由10個系統(tǒng)托盤組成，安裝在一個機(jī)柜中。一個ExaPOD機(jī)柜模型的峰值算力高達(dá)900 PFLOPS，帶寬為90 TB/s。

作為Dojo落地形式的ExaPOD，由3000片D1芯片構(gòu)成，單精度算力為1.1EFlops。

根據(jù)特斯拉的公開資料，Dojo基于特斯拉自研D1芯片，用于替代基于英偉達(dá)A100的數(shù)據(jù)中心。截至2022年9月，該數(shù)據(jù)中心有1.4萬片A100，是全球第七大數(shù)據(jù)中心。

特斯拉計劃2023財年大概出貨4萬-5萬片D1，2023年7月第一個ExaPOD已經(jīng)投入運營，且預(yù)計在短期內(nèi)向Palo Alto數(shù)據(jù)中心投入6個ExaPOD，算力共7.7EFlops。到今年四季度，Dojo算力目標(biāo)是達(dá)到100EFlops（約91個集群）。

在2023年7月下旬的二季度電話會議中，馬斯克表示沒必要自造芯片，“如果英偉達(dá)能夠給我們足夠的GPU，也許我們就不需要Dojo，但他們無法滿足我們的需求?！?/p>

在自研的重要節(jié)點上，2023年11月，負(fù)責(zé)Dojo超算項目的負(fù)責(zé)人、同時也是特斯拉自動駕駛硬件高級總監(jiān)加內(nèi)什·文卡塔拉馬南（Ganesh Venkataramanan）離職，職位由前蘋果高管彼得·班農(nóng)（Peter Bannon）負(fù)責(zé)。彼時有消息稱，很可能是因為Dojo第二代芯片未達(dá)標(biāo)，加內(nèi)什遭到解雇。

加內(nèi)什此前負(fù)責(zé)特斯拉Dojo超算項目已達(dá)5年，在進(jìn)入特斯拉之前，他曾在美國知名半導(dǎo)體公司AMD任職近15年。

加內(nèi)什的離職，被認(rèn)為是特斯拉自研芯片不力，或者沒有設(shè)想中那么順利。

對馬斯克來說，他能采取的措施就是一邊想辦法自研，一邊購買合適的芯片。

設(shè)想與現(xiàn)實

一位網(wǎng)名為 “whydoesthisitch”的深度學(xué)習(xí)科研人員研究AI芯片已久，他解析了馬斯克的Dojo無法依靠自研芯片的原因。

他認(rèn)為，Dojo 仍可能處于相對早期的開發(fā)階段，即使它加緊追趕，在性能方面仍將落后英偉達(dá)4 年以上。

今年3月20日，英偉達(dá)投下了Blackwell B200 炸彈，這是下一代數(shù)據(jù)中心和 AI GPU，將使得計算能力獲得巨大的代際飛躍。

Blackwell 包含三個部分：B100、B200 和 Grace-Blackwell 超級芯片 (GB200)。

新的 B200 GPU 擁有 2080 億個晶體管，可提供高達(dá) 20petaFlops 的 FP4 算力；GB200 將兩個 GPU 和一個 Grace CPU 結(jié)合在一起，可為 LLM 推理工作負(fù)載提供 30 倍的性能，同時還能大大提高效率。

英偉達(dá)表示，與 H100 相比，它的成本和能耗“最多可降低 25 倍”。訓(xùn)練一個 1.8 萬億個參數(shù)的模型以前需要 8000 個 Hopper GPU 和 15 兆瓦的電力，如今，2000 個 Blackwell GPU 就能完成這項工作，耗電量僅為 4 兆瓦。

在具有 1750 億個參數(shù)的 GPT-3 LLM 基準(zhǔn)測試中，GB200 的性能是 H100 的 7 倍，英偉達(dá)稱其訓(xùn)練速度是 H100 的 4 倍。

“而特斯拉確實夸大了芯片本身以及它們的開發(fā)進(jìn)展，”“whydoesthisitch”認(rèn)為，例如，特斯拉宣傳 Dojo 突破了 exaflop 算力、Dojo躋身世界上最強(qiáng)大的計算中心之列之時，谷歌在俄克拉荷馬州梅斯縣的數(shù)據(jù)中心已經(jīng)安裝 8 個 TPUv4 系統(tǒng)Pods，該數(shù)據(jù)中心正在以接近 9 exaflops的總計算能力供谷歌云部門使用；亞馬遜的AWS 使用 Trainium 芯片算力達(dá)到6 exaflops ，使用英偉達(dá)的 H100 GPU 算力達(dá)到 20 exaflops。

他認(rèn)為，如果Dojo足夠便宜，那它有理由取代英偉達(dá)。問題是，特斯拉的運營規(guī)模支撐不了這種龐大的研發(fā)投資。

今年1月16日，最近離職的特斯拉公共政策和業(yè)務(wù)發(fā)展副總裁的羅漢·帕特爾（Rohan Patel）在社交媒體X上發(fā)布了一則消息，稱“周五晚上與埃隆·馬斯克就一項大型AI數(shù)據(jù)中心投資進(jìn)行了反復(fù)討論。他決定批準(zhǔn)這幾個月來一直密切跟蹤的計劃。很難想到一位首席執(zhí)行官比你能想象地更多地參與公司最重要的細(xì)節(jié)?！?/p>

資深科技博主漢斯·尼爾森（Hans Nelson）研究馬斯克和特斯拉多年，他在隨后的連線時評上稱，Dojo肯定是大型AI數(shù)據(jù)中心的重要部分，但是帕特爾的這則推文卻沒有提及Dojo,估計是Dojo的芯片項目有點落后于他們希望推進(jìn)的程度，這可能表示Dojo在短期內(nèi)將更多使用英偉達(dá)的芯片。

Dojo原打算到今年2月，算力規(guī)模進(jìn)入全球前五，今年10月算力總規(guī)模將達(dá)到100 exaflops，相當(dāng)于30萬塊英偉達(dá)A100的算力總和。

尼爾森認(rèn)為，Dojo目前算力能達(dá)到33exaflops，至于如何在10月達(dá)到100exaflops，以及目前的算力中使用的自研芯片和英偉達(dá)芯片各自占比，則無從得知。但可以肯定的是，無論Dojo是否能按照時間表實現(xiàn)算力目標(biāo)，馬斯克囤積了足夠的H100GPU。

（圖源：來自漢斯·尼爾森連線對談視頻截圖）

H100GPU性能比此前的A100更好，特別是在AI訓(xùn)練和推理方面。H100基于英偉達(dá)Hopper架構(gòu)，是第一代支持AI和HPC的Ampere架構(gòu)的下一代架構(gòu)，而A100是基于Ampere架構(gòu)的產(chǎn)品。

10天后的1月26日，紐約州州長凱西·霍楚（Kathy Hochul）稱，特斯拉將投資5億美元，在該州的布法羅市（Buffalo）建造一臺Dojo超級計算機(jī)。

雖然霍楚在發(fā)布會上著重提到了5億美元的投資規(guī)模，但是特斯拉在社交媒體X上卻有意淡化了這一數(shù)字，并指出該公司在2024年，在英偉達(dá)硬件上的投資將超過這一金額。

5億美元相當(dāng)于約 1 萬顆 H100 GPU。

4月8日，X 平臺用戶“The Technology Brother”發(fā)布的囤積英偉達(dá)H100GPU排行榜上，Meta以35 萬塊位居第一。

馬斯克對該排行榜將特斯拉和 xAI 1萬塊的排名表示不滿，并指出“如果計算正確，特斯拉應(yīng)該是第二名，xAI 將是第三名”。

這意味著特斯拉可能擁有 3 萬到 35 萬顆 H100 GPU，xAI 則可能擁有大約 2.6 萬到 3 萬顆。

一直和扎克伯格針鋒相對的馬斯克，在不服氣的嘴炮中暴露了真實狀況：至少現(xiàn)在，Dojo的自研芯片失敗，全面轉(zhuǎn)向英偉達(dá)。

馬斯克稱，在人工智能領(lǐng)域保持競爭力，每年至少需要投入數(shù)十億美元，并將會擴(kuò)大購買英偉達(dá)競爭對手AMD的產(chǎn)品。

但“whydoesthisitch”認(rèn)為，Dojo的算力規(guī)模要達(dá)到100 exa flops，估計要延至2027-2028年，而那時主流的云服務(wù)商比如亞馬遜的算力已經(jīng)達(dá)到zettaflop級別。

他稱，目前Dojo的芯片性能其實只能達(dá)到H100的10%-35%，當(dāng)它追上H100時，英偉達(dá)已經(jīng)在新一代的Blackwell 上奔跑很遠(yuǎn)。

尼爾森則認(rèn)為，至少馬斯克意識到了，購買芯片還是最劃算的。

版權(quán)與免責(zé)：以上作品（包括文、圖、音視頻）版權(quán)歸發(fā)布者【汽車商業(yè)評論】所有。本App為發(fā)布者提供信息發(fā)布平臺服務(wù)，不代表經(jīng)觀的觀點和構(gòu)成投資等建議

熱新聞

視頻推薦

總編對話｜從中國走向世界——對話松下電器中國東北亞公司總裁CEO木下步

聚焦主業(yè) 提升品牌：恒安集團(tuán)接班人的長期主義理想

希捷科技全球執(zhí)行副總裁暨首席商務(wù)官鄭萬成：未來五年，中國將成為全球生成數(shù)據(jù)最多的市場

電子刊物

點擊進(jìn)入

用戶名登錄/手機(jī)號登錄 還沒有賬號？免費注冊

特斯拉抗衡英偉達(dá)失敗，自研芯片要涼涼？

自建“道場”

設(shè)想與現(xiàn)實

熱新聞

視頻推薦

電子刊物

用戶名登錄/手機(jī)號登錄

還沒有賬號？免費注冊

特斯拉抗衡英偉達(dá)失敗，自研芯片要涼涼？