通用人工智能的序章:端到端模型風口已至

2024-04-29 16:46

在2024年北京車展上,端到端模型迅速成為智能駕駛領域的熱門話題,占據了行業(yè)的焦點。

自特斯拉推出其端到端技術以來,該技術方案便在業(yè)界引起了廣泛的討論和爭議。經過一年的發(fā)展和市場驗證,特斯拉的FSD V12版本已經贏得了行業(yè)專家的普遍認可,其在模擬人類駕駛行為方面的精準度有了顯著提升。

這一進展促使越來越多的廠商開始信任并積極投入到端到端智能駕駛解決方案的研發(fā)中。在本屆車展上,眾多企業(yè)展示了他們在端到端技術上取得的突破性進展和創(chuàng)新成果。

端到端技術的浪潮已經到來,標志著智能駕駛新時代的序幕,為汽車行業(yè)的未來描繪了一幅充滿機遇的廣闊藍圖。隨著端到端技術的興起,量產能力正面臨前所未有的挑戰(zhàn)。在這一技術對數據需求不斷增長的背景下,量產的速度和效率正成為行業(yè)競爭的新焦點。

然而,提出端到端模型并計劃最先量產的是一家成立僅有5年的創(chuàng)業(yè)公司元戎啟行。該公司CEO周光宣布已經和多家主機廠合作,計劃今年將端到端模型推入消費市場。

為什么是端到端?

端到端智能駕駛技術致力于使智能駕駛系統(tǒng)具備與人類司機相似的智能和問題解決能力,這與傳統(tǒng)的模塊化架構有本質的區(qū)別。

模塊化架構將感知、決策和規(guī)則作為獨立的模塊,依賴工程師編寫的固定規(guī)則,并且模塊間的交互協議是基于工程師經驗抽象出來的。這種設計不僅會在信息傳遞時造成損失,還會使得整個系統(tǒng)程序復雜化,難以維護,并且過度依賴人工標記的高精地圖,這嚴重限制了智能駕駛技術在多樣化場景中的應用和落地速度。

與此相對,端到端技術通過整合智能駕駛系統(tǒng)中的感知、預測、規(guī)劃等模塊,并利用海量數據進行訓練,實現了自我學習和優(yōu)化,從而在數據輸入到決策指令輸出的過程中保持了高效率和準確性。這種技術能夠更好地模擬人類司機的決策過程,顯著提升了智能駕駛系統(tǒng)的適應性和反應速度。

元戎啟行CEO周光透露,公司早在2020年就開始減少對高精地圖的依賴,并于2023年深入部署端到端模型上車。元戎啟行與特斯拉對人工智能的理解有著異曲同工之妙,這一認知與周光本人的技術出身密不可分。

周光畢業(yè)于美國德州大學達拉斯分校人工智能和機器人方向,曾在德州儀器、百度美國研究院負責自動駕駛相關項目。用周光的話說,他早在10多年前就已從事AI方面的工作了,而當時全世界還沒有什么像樣的人工智能應用。

周光的“反共識思維”

引領元戎啟行邁出先行步伐的是周光的“反共識思維”。最初,當周光提出“無圖”(無高精度地圖)方案時,行業(yè)普遍感到困惑,因為大多數競爭對手的方案都集中在高精地圖技術上。

同樣地,當他提出端到端模型時,行業(yè)也充滿了質疑,認為沒有足夠的數據積累是不可能實現的。在周光看來,人工智能領域的發(fā)展往往真理掌握在少數人手中。他認為,每次技術選擇都像是站在一個分叉路口,一旦選擇錯誤,可能意味著一年甚至幾年的努力和投入都將化為泡影。

這正如一些企業(yè)在L4級別的自動駕駛技術上選擇錯誤路線,導致之前的投入都白白浪費了。

周光觀察到,一些AI公司,包括大語言模型公司,很多由互聯網時代的人重新創(chuàng)業(yè),可能缺乏人工智能的學術背景。相比之下,創(chuàng)始人有AI學術背景能夠真正理解AI技術的企業(yè)在技術決策層面優(yōu)勢更強,因為每次技術的選擇都至關重要,錯誤的決策可能導致巨大沉沒成本。 

同時周光認為,在人工智能2.0時代,豐富的行業(yè)經驗有時反而會成為創(chuàng)新的阻礙,智能駕駛本質上是人工智能的應用,應更多地聽從AI Explorer的指引。

盡管元戎啟行在技術路線上并未落后,但周光坦言,在數據量方面與行業(yè)領先者存在差距。他指出,元戎啟行的“無圖”方案在能力上與特斯拉的FSD V11相近,但與V12版本相比則存在差距,V12版本在模擬人類駕駛行為方面更為精準。周光認為,這一差距將會在量產之后縮小。 

目前,元戎啟行已確定了三家量產客戶。與傳統(tǒng)依賴高精地圖的方案不同,端到端模型對數據量的需求更為龐大,這推動了元戎啟行向量產邁進,以便積累足夠的數據來訓練和優(yōu)化模型。在高階智能駕駛領域,元戎啟行的方案以高性價比和可控性著稱。 

打開通用人工智能之門

周光進一步分析說,“端到端的高階智駕市場尚未成為紅海,真正能提供技術能力的公司并不多。”他表示,元戎啟行既有成本優(yōu)勢,同時還能確保汽車制造商(OEM)在選擇技術方案時的“安全性”。

對于降本方面,周光認為,盡管激光雷達在識別異型障礙物方面有其作用,但在數據量充足的條件下,可以通過優(yōu)化算法減少對激光雷達的依賴,從而降低成本。端到端模型的特性使其不僅適用于智能駕駛,還能遷移到其他機器人領域,實現技術的廣泛適用性。

元戎啟行的愿景是實現物理世界通用的人工智能,而汽車的智能駕駛只是這一宏偉目標的起點。周光認為,現階段已經擺脫了以簡單規(guī)則為驅動的AI1.0時代,正在開啟基于數據驅動的AI2.0時代,而AI的3.0時代就是通用人工智能時代。

人工智能的2.0時代包括三個領域:一是自然語言處理領域,代表產品是OpenAI開發(fā)的ChatGPT;二是生成式人工智能領域,代表產品可能亦是OpenAI開發(fā)的Sora;三是端到端模型的智能駕駛,代表企業(yè)包括特斯拉、元戎啟行等。

周光提出,為了構建通用的人工智能,必須將大語言模型、端到端模型和生成式人工智能技術進行融合,以賦予系統(tǒng)全面感知、還原、理解和操作世界的能力。在這一愿景中,端到端模型扮演著至關重要的角色。

他指出,盡管以ChatGPT和Sora為代表的大語言模型和生成式人工智能技術在數據收集方面取得了進展,但這些數據并不直接來源于物理世界的真實情況,特別是在對臨界態(tài)狀態(tài)的捕捉和詮釋上存在不足。

所謂的臨界態(tài)狀態(tài),指的是物體的物理狀態(tài)在變化發(fā)生的關鍵瞬間。如Sora生成的視頻中果汁潑濺的瞬間,雖然能看到潑濺前后的情景,但關鍵的臨界過程——果汁從杯中流出的那一刻——卻常常缺失。在機器人感知中,這個短暫而關鍵的臨界狀態(tài)非常重要。

智能駕駛領域的端到端模型能夠有效捕捉并展現這種臨界狀態(tài)。因為在車輛行駛過程中,會產生大量符合現實物理規(guī)律的真實臨界狀態(tài)數據。因此,周光認為,端到端模型是實現物理世界中通用人工智能的關鍵組成部分,它能夠利用來自現實世界的真實數據,幫助AI更好地理解和響應各種復雜情境。

目前,元戎啟行正積極籌備C輪融資,并與多家整車企業(yè)合作,推動端到端智駕方案的規(guī)?;慨a。公司已經用數以百萬計的視頻、多樣性豐富的數據集去訓練系統(tǒng),同時與多家頭部芯片企業(yè)達成深度技術合作,為性能提供保障。

 聞濤/文

版權與免責:以上作品(包括文、圖、音視頻)版權歸發(fā)布者【元戎啟行】所有。本App為發(fā)布者提供信息發(fā)布平臺服務,不代表經觀的觀點和構成投資等建議