侵權(quán)投訴
訂閱
糾錯(cuò)
加入自媒體

地平線(xiàn),開(kāi)始賺“端到端”的錢(qián)

作者 | 朱世耘

編輯 | 章漣漪

我們是一個(gè)披著芯片外衣的軟件算法公司。” 地平線(xiàn)創(chuàng)始人兼CEO 余凱曾在采訪(fǎng)中這樣解讀地平線(xiàn)的優(yōu)勢(shì)打法:“在變化中抓確定性,全局是以一打十,局部是以十打一。”

如何“局部十打一”?

去年,地平線(xiàn)作為第一作者提出的Unified Autonomous Driving(UniAD),首次為自動(dòng)駕駛端到端通用網(wǎng)絡(luò)架構(gòu)的設(shè)想給出了具體范式,并一舉榮獲CVPR 2023 最佳論文。今年年初,地平線(xiàn)又開(kāi)源了稀疏化端到端自動(dòng)駕駛感知算法——Sparse4D系列。

但Sparse4D并不僅僅是范式,其還將是地平線(xiàn)征程5、征程6芯片之上的算法樣板間之一。

換而言之,當(dāng)其他人還在討論時(shí),地平線(xiàn)已經(jīng)要開(kāi)始做端到端的生意,賺端到端的“錢(qián)”了。

01

以十打一的“武器”

如果論及如何實(shí)現(xiàn)自動(dòng)駕駛,目前除了端到端,我想不到其它的技術(shù)。”地平線(xiàn)副總裁兼軟件平臺(tái)產(chǎn)品線(xiàn)總裁余軼南博士向《賽博汽車(chē)》表示:“地平線(xiàn)和特斯拉走的(技術(shù))路線(xiàn)是一樣的,落地端到端的方案大概晚一年。”

地平線(xiàn)副總裁兼軟件平臺(tái)產(chǎn)品線(xiàn)總裁余軼南

3月下旬,特斯拉在一周之內(nèi)連續(xù)發(fā)布了“完全由神經(jīng)網(wǎng)絡(luò)組成”的端到端FSD系統(tǒng) V12.3.1和V12.3.3兩個(gè)版本。此前,一周一版已經(jīng)是業(yè)內(nèi)“卷王”級(jí)別的發(fā)版速度。效果上,Tesla FSD Tracker(FSD用戶(hù)主動(dòng)上傳)的數(shù)據(jù)顯示,F(xiàn)SD V11的無(wú)接管行駛里程為100英里左右,而V12.3已經(jīng)達(dá)到368.7英里,622.33公里。

3月26日,馬斯克在X上表示:“本周開(kāi)始,全美所有適用車(chē)輛將能免費(fèi)試用FSD一個(gè)月”。4月13日,特斯拉宣布調(diào)整海外FSD月度訂閱費(fèi)價(jià)格由199 美元降低至99美元。

做近十年FSD,特斯拉為什么突然變得非常之快?

端到端(和現(xiàn)有系統(tǒng))的核心區(qū)別在于解決一個(gè)問(wèn)題時(shí),使用寫(xiě)代碼的方式,還是數(shù)據(jù)和模型的方式。” 余軼南表示。

傳統(tǒng)感知系統(tǒng)和端到端感知系統(tǒng)的對(duì)比

業(yè)內(nèi)有一句話(huà),“有多少人工,就有多少智能”。底層原因在于,通過(guò)代碼解決問(wèn)題時(shí),首先需要人類(lèi)工程師研究所有的場(chǎng)景數(shù)據(jù),定位真問(wèn)題之后,寫(xiě)代碼解決。研發(fā)效率上,需要1-5個(gè)工程師一周的時(shí)間去解決幾個(gè)問(wèn)題。人類(lèi)工程師的人效,決定著系統(tǒng)的智能程度。

神經(jīng)網(wǎng)絡(luò)的“智商”則取決于模型、數(shù)據(jù)和算力三者之間協(xié)同效應(yīng)的大小,主要通過(guò)構(gòu)建算力,采集、挖掘、補(bǔ)充數(shù)據(jù),訓(xùn)練迭代來(lái)提高其智能程度。只要算力充足,一天即可“消化”數(shù)十,甚至數(shù)百倍人效的工作。

端到端之后,研發(fā)的需求就從分析、拆解問(wèn)題,變?yōu)楦銛?shù)據(jù)去訓(xùn)練模型,然后評(píng)估。解決問(wèn)題的規(guī)模、效率和泛化能力是完全不一樣了。” 余軼南表示,“過(guò)去的瓶頸不在于有多少車(chē)(采集、提供數(shù)據(jù)),而在于有多少人去分析這些問(wèn)題,F(xiàn)在端到端將分析問(wèn)題的能力一下子提升之后,A公司每天處理200個(gè)案例,B公司每天處理一百萬(wàn)個(gè)案例,這就相當(dāng)于是兩個(gè)物種了。”

02

地平線(xiàn)感知端到端的商業(yè)閉環(huán)

隨著Sparse4D量產(chǎn),地平線(xiàn)將完成端到端感知系統(tǒng)的商業(yè)閉環(huán)。” 余軼南表示。

今年開(kāi)始,隨同征程5、征程6芯片,地平線(xiàn)將向智能駕駛一級(jí)供應(yīng)商(Tier One,T1)和主機(jī)廠(chǎng)提供Sparse4D感知算法模型。與當(dāng)下第一梯隊(duì)玩家量產(chǎn)的模塊化+后處理組成的BEV+Transformer感知方案不同,Sparse4D是完全的端到端感知系統(tǒng)。其完全由神經(jīng)網(wǎng)絡(luò),消除了由人類(lèi)撰寫(xiě)代碼的后處理環(huán)節(jié)。通過(guò)前端傳感器輸入數(shù)據(jù)后,可直接輸出3維(長(zhǎng)寬高 3D)+時(shí)間的4D感知結(jié)果,以及3-9秒(依據(jù)不同精度)的預(yù)測(cè)結(jié)果。

在nuScenes純視覺(jué)3D檢測(cè)和3D跟蹤兩個(gè)榜單上,Sparse4D均位列第一,成為SOTA(state-of-the-art model 某領(lǐng)域的最佳實(shí)踐模型),領(lǐng)先于包括SOLOFusion、BEVFormer v2和StreamPETR在內(nèi)的一眾最新方法。

Sparse4D算法架構(gòu)但要做端到端,就意味著放棄現(xiàn)有算法積累的代碼。“因?yàn)槲覀兪蔷劢褂谟?jì)算方案和感知系統(tǒng)的,所以對(duì)我們來(lái)說(shuō)做端到端感知是剛需。” 余軼南表示。

因?yàn)檎鞒?希望“搞定”城市NOA。地平線(xiàn)余凱曾在采訪(fǎng)中明確表示,地平線(xiàn)已經(jīng)在城區(qū)智駕領(lǐng)域投入三年時(shí)間和數(shù)百人的團(tuán)隊(duì)。這一代征程6(高階版)追求“讓用戶(hù)覺(jué)得城區(qū)智駕功能真正有價(jià)值(安全、可靠、舒適)。”

目前,城區(qū)智駕處于成本、體驗(yàn)和效率的“不可能”三角當(dāng)中。高成本、高體驗(yàn)的Robotaxi難以快速擴(kuò)張運(yùn)行范圍;低成本、覆蓋廣的高速NOA難以在城區(qū)復(fù)制體驗(yàn);已經(jīng)落地的“無(wú)圖”城市NOA處于體驗(yàn)差、擴(kuò)張慢,成本難以收斂的現(xiàn)狀。

究其原因,人類(lèi)工程師撰寫(xiě)代碼解決問(wèn)題的速度,遠(yuǎn)趕不上城市場(chǎng)景中出現(xiàn)問(wèn)題的速度。

而端到端將改變速度不匹配的現(xiàn)狀。在余軼南看來(lái),目前端到端為系統(tǒng)帶來(lái)至少兩個(gè)數(shù)量級(jí)的迭代效率提升,未來(lái)則將有可能是上千,甚至上萬(wàn)倍的提升。

僅做端到端的感知系統(tǒng),又可有效避免端到端黑盒特性帶來(lái)的潛在風(fēng)險(xiǎn)。由于感知是對(duì)物理世界的度量,無(wú)論是神經(jīng)網(wǎng)絡(luò)+代碼,還是端到端的感知系統(tǒng)架構(gòu),都是通過(guò)感知位置、角度、速度、加速度的準(zhǔn)確性、一致性、誤差均值進(jìn)行比較。

只要誤差比別人小,就相當(dāng)于有了比較優(yōu)勢(shì)。” 余軼南表示:“T1和主機(jī)廠(chǎng)是集成標(biāo)準(zhǔn)化的部分,自己把握非標(biāo)準(zhǔn)化的環(huán)節(jié)。自動(dòng)駕駛系統(tǒng)中,感知是標(biāo)準(zhǔn)答案,規(guī)控取決于車(chē)企對(duì)用戶(hù)的認(rèn)識(shí),是非標(biāo)準(zhǔn)化的部分。所以地平線(xiàn)作為T(mén)ier2要把能標(biāo)準(zhǔn)化的標(biāo)準(zhǔn)化,并把效率做到盡可能最高。在這個(gè)認(rèn)識(shí)的基礎(chǔ)上,我們團(tuán)隊(duì)就做了效率最高的感知端到端。”

03

稀疏化的Sparse4D,一切為了效率

“如果只需要走1公里,用腳就可以。但如果要一天走1000公里,就需要發(fā)明火車(chē)、飛機(jī)” 余軼南這樣類(lèi)比面對(duì)城市智駕場(chǎng)景,解題效率提升的重要性。

不僅是端到端的路線(xiàn)選擇,地平線(xiàn)Sparse4D的算法架構(gòu)也高度服務(wù)于這一效率思維。

目前,各家“無(wú)圖”NOA都存在在主輔路、岔路口“不認(rèn)路”的現(xiàn)實(shí)困境,在復(fù)雜路況中對(duì)其它動(dòng)靜態(tài)目標(biāo)的檢測(cè)也不完全,部分玩家選擇采用OCC(占用網(wǎng)絡(luò))做遠(yuǎn)端硬隔離。

底層原因之一,是動(dòng)態(tài)目標(biāo)和車(chē)道線(xiàn)等自動(dòng)駕駛感知的關(guān)鍵目標(biāo),在空間中的分布通常很稀疏。導(dǎo)致稠密輸入/輸出的BEV范式中,有大量的計(jì)算被浪費(fèi)。在目標(biāo)相對(duì)較少的高速路段,車(chē)端算力尚能支撐。但在城市路況中,端側(cè)算力便開(kāi)始捉襟見(jiàn)肘。同時(shí)特征級(jí)的多攝融合也并不等價(jià)于BEV。

DETR3D 搭建了純稀疏感知的基本框架,即稀疏Query +稀疏特征采樣的范式Sparse4D的目標(biāo),是實(shí)現(xiàn)一個(gè)高性能高效率的長(zhǎng)時(shí)序純稀疏融合感知算法:既能加速2D到3D 的轉(zhuǎn)換效率,又能在圖像空間直接捕獲目標(biāo)跨攝像頭的關(guān)聯(lián)關(guān)系。

稀疏化計(jì)算是更類(lèi)似人腦的一種神經(jīng)網(wǎng)絡(luò)架構(gòu)方式。

稠密計(jì)算的深度神經(jīng)網(wǎng)絡(luò)傾向于將每一層中的每個(gè)新神經(jīng)元都與前一層中的所有神經(jīng)元連接起來(lái)。但靈長(zhǎng)類(lèi)生物大腦中的神經(jīng)元越多,平均下來(lái)每個(gè)神經(jīng)元與其他神經(jīng)元的連接就越少。但由于大腦天然對(duì)“重點(diǎn)”敏感,人類(lèi)大腦消耗的能量是GPU的十分之一,但強(qiáng)度要高出10億倍。

Transformer的自注意力機(jī)制構(gòu)建起了能夠“注意重點(diǎn)”的深層神經(jīng)網(wǎng)絡(luò)。但要在端側(cè)處理諸如城市駕駛這樣的超復(fù)雜問(wèn)題,仍需進(jìn)一步提升計(jì)算效率。與人類(lèi)類(lèi)似的,盡可能高效使用神經(jīng)網(wǎng)絡(luò)中每個(gè)權(quán)重的稀疏網(wǎng)絡(luò)便成為新的解題方式。

從結(jié)果來(lái)看,稀疏類(lèi)計(jì)算的Sparse4D在不增加模型推理計(jì)算量的前提下,顯著提升了模型的檢測(cè)效果。

同時(shí),由于已經(jīng)實(shí)現(xiàn)了目標(biāo)檢測(cè)的端到端(無(wú)需dense(稠密)-to-sparse(稀疏)的解碼),instance(實(shí)例,如一張行人正在穿過(guò)車(chē)前的圖片)在時(shí)序上已經(jīng)具備了目標(biāo)一致性(同一個(gè)instance始終檢測(cè)同一個(gè)目標(biāo))。Sparse4D在無(wú)需修改任何訓(xùn)練流程的情況下,即可拓展完成端到端的檢測(cè)和多目標(biāo)跟蹤任務(wù)。

基于稀疏實(shí)例的Recurrent 時(shí)序方案在論文中,Sparse4D仍被表達(dá)為純視覺(jué)的端到端感知方案。但余軼南表示,Sparse4D本質(zhì)上是一個(gè)多模態(tài)的感知模型。“是完全兼容的插件模式,純視覺(jué)、多模態(tài)都是完全兼容的。”

對(duì)神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō),不同模態(tài)的數(shù)據(jù)都可以被表示成一種標(biāo)準(zhǔn)結(jié)構(gòu),只要把時(shí)間同步做好,甚至不對(duì)齊也可以,因?yàn)樗梢宰约簩W(xué)。你唯一要管的就是算力,即背后的成本和功耗。

04

跟或者不跟,端到端的未來(lái)

如果是一個(gè)純粹的技術(shù)選擇,我會(huì)說(shuō)放下手頭所有東西去做端到端。如果我只是個(gè)技術(shù)人員,我覺(jué)得我今天做得最聰明的(代碼)可能都沒(méi)有意義。”余軼南表示:“但對(duì)于一個(gè)公司來(lái)說(shuō),一個(gè)產(chǎn)品是基于公司業(yè)務(wù)、商業(yè)變現(xiàn)、營(yíng)收利潤(rùn)、市場(chǎng)品牌等一系列通盤(pán)考慮的結(jié)果,是基于現(xiàn)狀進(jìn)行資源分配的問(wèn)題:一方面要聚焦把當(dāng)前的產(chǎn)品做好,另一方面也要有余裕做下一代技術(shù)預(yù)研。”

盡管端到端已成為今年自動(dòng)駕駛界的熱詞,但并不意味著當(dāng)下會(huì)有眾多玩家迅速跟進(jìn)。

首先,端到端意味著技術(shù)路線(xiàn)的改變,對(duì)此前積累的揚(yáng)棄。從地平線(xiàn)的經(jīng)驗(yàn)來(lái)看,端到端并非是將現(xiàn)有模塊間的后處理消除,實(shí)現(xiàn)模塊間的連續(xù)可導(dǎo)即可,需要建設(shè)新的、巧妙的網(wǎng)絡(luò)架構(gòu)。由此,之前架構(gòu)中已經(jīng)被驗(yàn)證的參數(shù)失效,并放棄大量人力寫(xiě)出的有效代碼。

換而言之,目前能夠被用于開(kāi)城的技術(shù)成果要被放棄。而端到端的不可解釋性和數(shù)據(jù)、算力需求,則是實(shí)打?qū)嵉某杀尽?/strong>

4月9日,馬斯克在X上發(fā)文稱(chēng),特斯拉儲(chǔ)備了3-35萬(wàn)塊英偉達(dá)H100,即約29.67-346.15Eflops算力。作為對(duì)比,目前國(guó)內(nèi)百度為極越準(zhǔn)備的算力為2.2Eflops,小鵬扶搖超算中心的算力為0.6Eflops。不過(guò),余軼南估計(jì)端到端的初步算力建設(shè)門(mén)檻或?yàn)?000塊英偉達(dá)A100,即19.5Pflops算力。目前,一塊A100的價(jià)格約17萬(wàn)元,在不考慮建設(shè)和運(yùn)營(yíng)費(fèi)用,僅“買(mǎi)卡”的情況下,基礎(chǔ)的端到端起步便需要1.7億元的成本。一個(gè)單獨(dú)的(端到端)軟件算法是無(wú)法構(gòu)筑壁壘的。算力、算法、數(shù)據(jù)中,核心的壁壘是算力,因?yàn)樗懔κ窍∪钡。?shù)據(jù)也構(gòu)成壁壘,但它不是一個(gè)顯性的壁壘,端到端未來(lái)一定會(huì)對(duì)數(shù)據(jù)有指數(shù)級(jí)的需求。”余軼南表示。

此外,大模型訓(xùn)練所需的分布式系統(tǒng)的硬件架構(gòu)、數(shù)據(jù)閉環(huán)、訓(xùn)練方法,將成為端到端落地新的技術(shù)壁壘。

但端到端的吸引力也頗為巨大。

除特斯拉FSD V12目前表現(xiàn)出來(lái)的強(qiáng)泛化性和智慧涌現(xiàn)等顯性?xún)?yōu)勢(shì)外,目前困擾企業(yè)的路線(xiàn)選擇也將不再是問(wèn)題。

端到端的體系下,傳感器的取舍從先驗(yàn)(預(yù)設(shè)、小范圍試驗(yàn))變成了后驗(yàn)(實(shí)際使用),不再是方案選擇的問(wèn)題,而成了一個(gè)成本問(wèn)題。”余軼南表示。

當(dāng)下,業(yè)內(nèi)對(duì)純視覺(jué)和激光雷達(dá)、有圖無(wú)圖,甚至純視覺(jué)是否要包含毫米波雷達(dá)等技術(shù)方案爭(zhēng)論不休。底層原因在于選擇一種技術(shù)路線(xiàn),涉及傳感器、芯片、算法導(dǎo)整車(chē)整個(gè)垂直系統(tǒng)的整合、驗(yàn)證,成本大、周期長(zhǎng),且是基于預(yù)期效果進(jìn)行選擇,全憑技術(shù)大牛的直覺(jué)。

端到端體系下,極高的研發(fā)效率可在極短時(shí)間內(nèi)將各類(lèi)技術(shù)方案的邏輯鏈路、研發(fā)鏈路實(shí)際跑一遍,企業(yè)只需要就方案的實(shí)際效果和成本進(jìn)行評(píng)估選擇即可。

蔚小理、小米、智己都公布了自己的端到端模型上車(chē)計(jì)劃,地平線(xiàn)在Sparse4D之外,也在預(yù)研全棧(感知+規(guī)控)端到端技術(shù)。

“我們還是比較冷靜的。”余軼南將地平線(xiàn)對(duì)熱技術(shù)、熱概念的打法歸納為兩步:“在我們沒(méi)有看準(zhǔn)的時(shí)候,我們不會(huì)冒進(jìn),盡可能保持低成本的方式跟隨。一旦看準(zhǔn)要上的時(shí)候,會(huì)投入可能十倍于別人的資源去推動(dòng)核心技術(shù)突破,然后將沉淀下的經(jīng)驗(yàn)成果開(kāi)放地賦能給合作伙伴。”--END--

       原文標(biāo)題 : 地平線(xiàn),開(kāi)始賺“端到端”的錢(qián)

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

文章糾錯(cuò)
x
*文字標(biāo)題:
*糾錯(cuò)內(nèi)容:
聯(lián)系郵箱:
*驗(yàn) 證 碼:

粵公網(wǎng)安備 44030502002758號(hào)