地平線(xiàn),開(kāi)始賺“端到端”的錢(qián)
作者 | 朱世耘
編輯 | 章漣漪
“我們是一個(gè)披著芯片外衣的軟件算法公司。” 地平線(xiàn)創(chuàng)始人兼CEO 余凱曾在采訪(fǎng)中這樣解讀地平線(xiàn)的優(yōu)勢(shì)打法:“在變化中抓確定性,全局是以一打十,局部是以十打一。”
如何“局部十打一”?
去年,地平線(xiàn)作為第一作者提出的Unified Autonomous Driving(UniAD),首次為自動(dòng)駕駛端到端通用網(wǎng)絡(luò)架構(gòu)的設(shè)想給出了具體范式,并一舉榮獲CVPR 2023 最佳論文。今年年初,地平線(xiàn)又開(kāi)源了稀疏化端到端自動(dòng)駕駛感知算法——Sparse4D系列。
但Sparse4D并不僅僅是范式,其還將是地平線(xiàn)征程5、征程6芯片之上的算法樣板間之一。
換而言之,當(dāng)其他人還在討論時(shí),地平線(xiàn)已經(jīng)要開(kāi)始做端到端的生意,賺端到端的“錢(qián)”了。
01
以十打一的“武器”
“如果論及如何實(shí)現(xiàn)自動(dòng)駕駛,目前除了端到端,我想不到其它的技術(shù)。”地平線(xiàn)副總裁兼軟件平臺(tái)產(chǎn)品線(xiàn)總裁余軼南博士向《賽博汽車(chē)》表示:“地平線(xiàn)和特斯拉走的(技術(shù))路線(xiàn)是一樣的,落地端到端的方案大概晚一年。”
地平線(xiàn)副總裁兼軟件平臺(tái)產(chǎn)品線(xiàn)總裁余軼南
3月下旬,特斯拉在一周之內(nèi)連續(xù)發(fā)布了“完全由神經(jīng)網(wǎng)絡(luò)組成”的端到端FSD系統(tǒng) V12.3.1和V12.3.3兩個(gè)版本。此前,一周一版已經(jīng)是業(yè)內(nèi)“卷王”級(jí)別的發(fā)版速度。效果上,Tesla FSD Tracker(FSD用戶(hù)主動(dòng)上傳)的數(shù)據(jù)顯示,F(xiàn)SD V11的無(wú)接管行駛里程為100英里左右,而V12.3已經(jīng)達(dá)到368.7英里,622.33公里。
3月26日,馬斯克在X上表示:“本周開(kāi)始,全美所有適用車(chē)輛將能免費(fèi)試用FSD一個(gè)月”。4月13日,特斯拉宣布調(diào)整海外FSD月度訂閱費(fèi)價(jià)格由199 美元降低至99美元。
做近十年FSD,特斯拉為什么突然變得非常之快?
“端到端(和現(xiàn)有系統(tǒng))的核心區(qū)別在于解決一個(gè)問(wèn)題時(shí),使用寫(xiě)代碼的方式,還是數(shù)據(jù)和模型的方式。” 余軼南表示。
傳統(tǒng)感知系統(tǒng)和端到端感知系統(tǒng)的對(duì)比
業(yè)內(nèi)有一句話(huà),“有多少人工,就有多少智能”。底層原因在于,通過(guò)代碼解決問(wèn)題時(shí),首先需要人類(lèi)工程師研究所有的場(chǎng)景數(shù)據(jù),定位真問(wèn)題之后,寫(xiě)代碼解決。研發(fā)效率上,需要1-5個(gè)工程師一周的時(shí)間去解決幾個(gè)問(wèn)題。人類(lèi)工程師的人效,決定著系統(tǒng)的智能程度。
神經(jīng)網(wǎng)絡(luò)的“智商”則取決于模型、數(shù)據(jù)和算力三者之間協(xié)同效應(yīng)的大小,主要通過(guò)構(gòu)建算力,采集、挖掘、補(bǔ)充數(shù)據(jù),訓(xùn)練迭代來(lái)提高其智能程度。只要算力充足,一天即可“消化”數(shù)十,甚至數(shù)百倍人效的工作。
“端到端之后,研發(fā)的需求就從分析、拆解問(wèn)題,變?yōu)楦銛?shù)據(jù)去訓(xùn)練模型,然后評(píng)估。解決問(wèn)題的規(guī)模、效率和泛化能力是完全不一樣了。” 余軼南表示,“過(guò)去的瓶頸不在于有多少車(chē)(采集、提供數(shù)據(jù)),而在于有多少人去分析這些問(wèn)題,F(xiàn)在端到端將分析問(wèn)題的能力一下子提升之后,A公司每天處理200個(gè)案例,B公司每天處理一百萬(wàn)個(gè)案例,這就相當(dāng)于是兩個(gè)物種了。”
02
地平線(xiàn)感知端到端的商業(yè)閉環(huán)
“隨著Sparse4D量產(chǎn),地平線(xiàn)將完成端到端感知系統(tǒng)的商業(yè)閉環(huán)。” 余軼南表示。
今年開(kāi)始,隨同征程5、征程6芯片,地平線(xiàn)將向智能駕駛一級(jí)供應(yīng)商(Tier One,T1)和主機(jī)廠(chǎng)提供Sparse4D感知算法模型。與當(dāng)下第一梯隊(duì)玩家量產(chǎn)的模塊化+后處理組成的BEV+Transformer感知方案不同,Sparse4D是完全的端到端感知系統(tǒng)。其完全由神經(jīng)網(wǎng)絡(luò),消除了由人類(lèi)撰寫(xiě)代碼的后處理環(huán)節(jié)。通過(guò)前端傳感器輸入數(shù)據(jù)后,可直接輸出3維(長(zhǎng)寬高 3D)+時(shí)間的4D感知結(jié)果,以及3-9秒(依據(jù)不同精度)的預(yù)測(cè)結(jié)果。
在nuScenes純視覺(jué)3D檢測(cè)和3D跟蹤兩個(gè)榜單上,Sparse4D均位列第一,成為SOTA(state-of-the-art model 某領(lǐng)域的最佳實(shí)踐模型),領(lǐng)先于包括SOLOFusion、BEVFormer v2和StreamPETR在內(nèi)的一眾最新方法。
Sparse4D算法架構(gòu)但要做端到端,就意味著放棄現(xiàn)有算法積累的代碼。“因?yàn)槲覀兪蔷劢褂谟?jì)算方案和感知系統(tǒng)的,所以對(duì)我們來(lái)說(shuō)做端到端感知是剛需。” 余軼南表示。
因?yàn)檎鞒?希望“搞定”城市NOA。地平線(xiàn)余凱曾在采訪(fǎng)中明確表示,地平線(xiàn)已經(jīng)在城區(qū)智駕領(lǐng)域投入三年時(shí)間和數(shù)百人的團(tuán)隊(duì)。這一代征程6(高階版)追求“讓用戶(hù)覺(jué)得城區(qū)智駕功能真正有價(jià)值(安全、可靠、舒適)。”
目前,城區(qū)智駕處于成本、體驗(yàn)和效率的“不可能”三角當(dāng)中。高成本、高體驗(yàn)的Robotaxi難以快速擴(kuò)張運(yùn)行范圍;低成本、覆蓋廣的高速NOA難以在城區(qū)復(fù)制體驗(yàn);已經(jīng)落地的“無(wú)圖”城市NOA處于體驗(yàn)差、擴(kuò)張慢,成本難以收斂的現(xiàn)狀。
究其原因,人類(lèi)工程師撰寫(xiě)代碼解決問(wèn)題的速度,遠(yuǎn)趕不上城市場(chǎng)景中出現(xiàn)問(wèn)題的速度。
而端到端將改變速度不匹配的現(xiàn)狀。在余軼南看來(lái),目前端到端為系統(tǒng)帶來(lái)至少兩個(gè)數(shù)量級(jí)的迭代效率提升,未來(lái)則將有可能是上千,甚至上萬(wàn)倍的提升。
僅做端到端的感知系統(tǒng),又可有效避免端到端黑盒特性帶來(lái)的潛在風(fēng)險(xiǎn)。由于感知是對(duì)物理世界的度量,無(wú)論是神經(jīng)網(wǎng)絡(luò)+代碼,還是端到端的感知系統(tǒng)架構(gòu),都是通過(guò)感知位置、角度、速度、加速度的準(zhǔn)確性、一致性、誤差均值進(jìn)行比較。
“只要誤差比別人小,就相當(dāng)于有了比較優(yōu)勢(shì)。” 余軼南表示:“T1和主機(jī)廠(chǎng)是集成標(biāo)準(zhǔn)化的部分,自己把握非標(biāo)準(zhǔn)化的環(huán)節(jié)。自動(dòng)駕駛系統(tǒng)中,感知是標(biāo)準(zhǔn)答案,規(guī)控取決于車(chē)企對(duì)用戶(hù)的認(rèn)識(shí),是非標(biāo)準(zhǔn)化的部分。所以地平線(xiàn)作為T(mén)ier2要把能標(biāo)準(zhǔn)化的標(biāo)準(zhǔn)化,并把效率做到盡可能最高。在這個(gè)認(rèn)識(shí)的基礎(chǔ)上,我們團(tuán)隊(duì)就做了效率最高的感知端到端。”
03
稀疏化的Sparse4D,一切為了效率
“如果只需要走1公里,用腳就可以。但如果要一天走1000公里,就需要發(fā)明火車(chē)、飛機(jī)” 余軼南這樣類(lèi)比面對(duì)城市智駕場(chǎng)景,解題效率提升的重要性。
不僅是端到端的路線(xiàn)選擇,地平線(xiàn)Sparse4D的算法架構(gòu)也高度服務(wù)于這一效率思維。
目前,各家“無(wú)圖”NOA都存在在主輔路、岔路口“不認(rèn)路”的現(xiàn)實(shí)困境,在復(fù)雜路況中對(duì)其它動(dòng)靜態(tài)目標(biāo)的檢測(cè)也不完全,部分玩家選擇采用OCC(占用網(wǎng)絡(luò))做遠(yuǎn)端硬隔離。
底層原因之一,是動(dòng)態(tài)目標(biāo)和車(chē)道線(xiàn)等自動(dòng)駕駛感知的關(guān)鍵目標(biāo),在空間中的分布通常很稀疏。導(dǎo)致稠密輸入/輸出的BEV范式中,有大量的計(jì)算被浪費(fèi)。在目標(biāo)相對(duì)較少的高速路段,車(chē)端算力尚能支撐。但在城市路況中,端側(cè)算力便開(kāi)始捉襟見(jiàn)肘。同時(shí)特征級(jí)的多攝融合也并不等價(jià)于BEV。
DETR3D 搭建了純稀疏感知的基本框架,即稀疏Query +稀疏特征采樣的范式Sparse4D的目標(biāo),是實(shí)現(xiàn)一個(gè)高性能高效率的長(zhǎng)時(shí)序純稀疏融合感知算法:既能加速2D到3D 的轉(zhuǎn)換效率,又能在圖像空間直接捕獲目標(biāo)跨攝像頭的關(guān)聯(lián)關(guān)系。
稀疏化計(jì)算是更類(lèi)似人腦的一種神經(jīng)網(wǎng)絡(luò)架構(gòu)方式。
稠密計(jì)算的深度神經(jīng)網(wǎng)絡(luò)傾向于將每一層中的每個(gè)新神經(jīng)元都與前一層中的所有神經(jīng)元連接起來(lái)。但靈長(zhǎng)類(lèi)生物大腦中的神經(jīng)元越多,平均下來(lái)每個(gè)神經(jīng)元與其他神經(jīng)元的連接就越少。但由于大腦天然對(duì)“重點(diǎn)”敏感,人類(lèi)大腦消耗的能量是GPU的十分之一,但強(qiáng)度要高出10億倍。
Transformer的自注意力機(jī)制構(gòu)建起了能夠“注意重點(diǎn)”的深層神經(jīng)網(wǎng)絡(luò)。但要在端側(cè)處理諸如城市駕駛這樣的超復(fù)雜問(wèn)題,仍需進(jìn)一步提升計(jì)算效率。與人類(lèi)類(lèi)似的,盡可能高效使用神經(jīng)網(wǎng)絡(luò)中每個(gè)權(quán)重的稀疏網(wǎng)絡(luò)便成為新的解題方式。
從結(jié)果來(lái)看,稀疏類(lèi)計(jì)算的Sparse4D在不增加模型推理計(jì)算量的前提下,顯著提升了模型的檢測(cè)效果。
同時(shí),由于已經(jīng)實(shí)現(xiàn)了目標(biāo)檢測(cè)的端到端(無(wú)需dense(稠密)-to-sparse(稀疏)的解碼),instance(實(shí)例,如一張行人正在穿過(guò)車(chē)前的圖片)在時(shí)序上已經(jīng)具備了目標(biāo)一致性(同一個(gè)instance始終檢測(cè)同一個(gè)目標(biāo))。Sparse4D在無(wú)需修改任何訓(xùn)練流程的情況下,即可拓展完成端到端的檢測(cè)和多目標(biāo)跟蹤任務(wù)。
基于稀疏實(shí)例的Recurrent 時(shí)序方案在論文中,Sparse4D仍被表達(dá)為純視覺(jué)的端到端感知方案。但余軼南表示,Sparse4D本質(zhì)上是一個(gè)多模態(tài)的感知模型。“是完全兼容的插件模式,純視覺(jué)、多模態(tài)都是完全兼容的。”
“對(duì)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),不同模態(tài)的數(shù)據(jù)都可以被表示成一種標(biāo)準(zhǔn)結(jié)構(gòu),只要把時(shí)間同步做好,甚至不對(duì)齊也可以,因?yàn)樗梢宰约簩W(xué)。你唯一要管的就是算力,即背后的成本和功耗。”
04
跟或者不跟,端到端的未來(lái)
“如果是一個(gè)純粹的技術(shù)選擇,我會(huì)說(shuō)放下手頭所有東西去做端到端。如果我只是個(gè)技術(shù)人員,我覺(jué)得我今天做得最聰明的(代碼)可能都沒(méi)有意義。”余軼南表示:“但對(duì)于一個(gè)公司來(lái)說(shuō),一個(gè)產(chǎn)品是基于公司業(yè)務(wù)、商業(yè)變現(xiàn)、營(yíng)收利潤(rùn)、市場(chǎng)品牌等一系列通盤(pán)考慮的結(jié)果,是基于現(xiàn)狀進(jìn)行資源分配的問(wèn)題:一方面要聚焦把當(dāng)前的產(chǎn)品做好,另一方面也要有余裕做下一代技術(shù)預(yù)研。”
盡管端到端已成為今年自動(dòng)駕駛界的熱詞,但并不意味著當(dāng)下會(huì)有眾多玩家迅速跟進(jìn)。
首先,端到端意味著技術(shù)路線(xiàn)的改變,對(duì)此前積累的揚(yáng)棄。從地平線(xiàn)的經(jīng)驗(yàn)來(lái)看,端到端并非是將現(xiàn)有模塊間的后處理消除,實(shí)現(xiàn)模塊間的連續(xù)可導(dǎo)即可,需要建設(shè)新的、巧妙的網(wǎng)絡(luò)架構(gòu)。由此,之前架構(gòu)中已經(jīng)被驗(yàn)證的參數(shù)失效,并放棄大量人力寫(xiě)出的有效代碼。
換而言之,目前能夠被用于開(kāi)城的技術(shù)成果要被放棄。而端到端的不可解釋性和數(shù)據(jù)、算力需求,則是實(shí)打?qū)嵉某杀尽?/strong>
4月9日,馬斯克在X上發(fā)文稱(chēng),特斯拉儲(chǔ)備了3-35萬(wàn)塊英偉達(dá)H100,即約29.67-346.15Eflops算力。作為對(duì)比,目前國(guó)內(nèi)百度為極越準(zhǔn)備的算力為2.2Eflops,小鵬扶搖超算中心的算力為0.6Eflops。不過(guò),余軼南估計(jì)端到端的初步算力建設(shè)門(mén)檻或?yàn)?000塊英偉達(dá)A100,即19.5Pflops算力。目前,一塊A100的價(jià)格約17萬(wàn)元,在不考慮建設(shè)和運(yùn)營(yíng)費(fèi)用,僅“買(mǎi)卡”的情況下,基礎(chǔ)的端到端起步便需要1.7億元的成本。“一個(gè)單獨(dú)的(端到端)軟件算法是無(wú)法構(gòu)筑壁壘的。算力、算法、數(shù)據(jù)中,核心的壁壘是算力,因?yàn)樗懔κ窍∪钡。?shù)據(jù)也構(gòu)成壁壘,但它不是一個(gè)顯性的壁壘,端到端未來(lái)一定會(huì)對(duì)數(shù)據(jù)有指數(shù)級(jí)的需求。”余軼南表示。
此外,大模型訓(xùn)練所需的分布式系統(tǒng)的硬件架構(gòu)、數(shù)據(jù)閉環(huán)、訓(xùn)練方法,將成為端到端落地新的技術(shù)壁壘。
但端到端的吸引力也頗為巨大。
除特斯拉FSD V12目前表現(xiàn)出來(lái)的強(qiáng)泛化性和智慧涌現(xiàn)等顯性?xún)?yōu)勢(shì)外,目前困擾企業(yè)的路線(xiàn)選擇也將不再是問(wèn)題。
“端到端的體系下,傳感器的取舍從先驗(yàn)(預(yù)設(shè)、小范圍試驗(yàn))變成了后驗(yàn)(實(shí)際使用),不再是方案選擇的問(wèn)題,而成了一個(gè)成本問(wèn)題。”余軼南表示。
當(dāng)下,業(yè)內(nèi)對(duì)純視覺(jué)和激光雷達(dá)、有圖無(wú)圖,甚至純視覺(jué)是否要包含毫米波雷達(dá)等技術(shù)方案爭(zhēng)論不休。底層原因在于選擇一種技術(shù)路線(xiàn),涉及傳感器、芯片、算法導(dǎo)整車(chē)整個(gè)垂直系統(tǒng)的整合、驗(yàn)證,成本大、周期長(zhǎng),且是基于預(yù)期效果進(jìn)行選擇,全憑技術(shù)大牛的直覺(jué)。
端到端體系下,極高的研發(fā)效率可在極短時(shí)間內(nèi)將各類(lèi)技術(shù)方案的邏輯鏈路、研發(fā)鏈路實(shí)際跑一遍,企業(yè)只需要就方案的實(shí)際效果和成本進(jìn)行評(píng)估選擇即可。
蔚小理、小米、智己都公布了自己的端到端模型上車(chē)計(jì)劃,地平線(xiàn)在Sparse4D之外,也在預(yù)研全棧(感知+規(guī)控)端到端技術(shù)。
“我們還是比較冷靜的。”余軼南將地平線(xiàn)對(duì)熱技術(shù)、熱概念的打法歸納為兩步:“在我們沒(méi)有看準(zhǔn)的時(shí)候,我們不會(huì)冒進(jìn),盡可能保持低成本的方式跟隨。一旦看準(zhǔn)要上的時(shí)候,會(huì)投入可能十倍于別人的資源去推動(dòng)核心技術(shù)突破,然后將沉淀下的經(jīng)驗(yàn)成果開(kāi)放地賦能給合作伙伴。”--END--
原文標(biāo)題 : 地平線(xiàn),開(kāi)始賺“端到端”的錢(qián)
發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
11月19日立即報(bào)名>> 【線(xiàn)下論壇】華邦電子與恩智浦聯(lián)合技術(shù)論壇
-
12月19日立即報(bào)名>> 【線(xiàn)下會(huì)議】OFweek 2024(第九屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
-
精彩回顧立即查看>> 蔡司新能源汽車(chē)三電質(zhì)量解決方案
-
精彩回顧立即查看>> 蔡司新能源汽車(chē)三電質(zhì)量解決方案
-
精彩回顧立即查看>> 2024(第五屆)全球數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)大會(huì)暨展覽會(huì)
-
精彩回顧立即查看>> 【線(xiàn)下會(huì)議】全數(shù)會(huì)2024電子元器件展覽會(huì)
推薦專(zhuān)題
- 1 “作弊器”不靈了?智駕的激光雷達(dá),正在被攝像頭替代
- 2 被逼墻角的Mobileye,祭出 CAIS 大旗,挑戰(zhàn)端到端大模型智能駕駛
- 3 4 激光雷達(dá)與純視覺(jué)方案,哪個(gè)才是自動(dòng)駕駛最優(yōu)選?
- 5 激光雷達(dá)即將降價(jià),純視覺(jué)回到鄙視鏈底層?
- 6 如何跑贏汽車(chē)智能化下半場(chǎng)?
- 7 從小鵬、理想、蔚來(lái)布局看自動(dòng)駕駛發(fā)展趨勢(shì)
- 8 智能駕駛的百生相,你是該信呢?還是該信呢?
- 9 比亞迪技術(shù)魚(yú)池大戰(zhàn)豐田工具箱,誰(shuí)將主導(dǎo)未來(lái)汽車(chē)市場(chǎng)?
- 10 全網(wǎng)最詳解! 美國(guó)禁止中國(guó)智駕究竟包括哪些?
- IE工程師(汽車(chē)智聯(lián)) 惠州碩貝德無(wú)線(xiàn)科技股份有限公司
- 現(xiàn)場(chǎng)技術(shù)支持工程師(汽車(chē)) 易思維(杭州)科技股份有限公司
- 銷(xiāo)售經(jīng)理(汽車(chē)新能源行業(yè)) 廣州瑞松智能科技股份有限公司
- 結(jié)構(gòu)工程師-汽車(chē)電子事業(yè)部(J10116) 深圳奧尼電子股份有限公司
- 銷(xiāo)售總監(jiān)-汽車(chē)電子方向 深圳市智立方自動(dòng)化設(shè)備股份有限公司
- 項(xiàng)目經(jīng)理(汽車(chē)內(nèi)飾&汽車(chē)電子) 伯恩光學(xué)(惠州)有限公司
- 高級(jí)軟件工程師 廣東省/深圳市
- 自動(dòng)化高級(jí)工程師 廣東省/深圳市
- 光器件研發(fā)工程師 福建省/福州市
- 銷(xiāo)售總監(jiān)(光器件) 北京市/海淀區(qū)
- 激光器高級(jí)銷(xiāo)售經(jīng)理 上海市/虹口區(qū)
- 光器件物理工程師 北京市/海淀區(qū)
- 激光研發(fā)工程師 北京市/昌平區(qū)
- 技術(shù)專(zhuān)家 廣東省/江門(mén)市
- 封裝工程師 北京市/海淀區(qū)
- 結(jié)構(gòu)工程師 廣東省/深圳市