近日,英偉達GTC2025正式開幕。
首日,作為國內高階智駕的主要代表,理想汽車和元戎啟行都帶來了其最新智駕方案介紹,即VLA。
此外,元戎啟行同步展示了公司的最新戰略布局RoadAGI,并發布道路通用人工智能平臺——AISpark。
左:理想汽車賈鵬《VLA:邁向自動駕駛物理智能體的關鍵一步》
右:元戎啟行周光《從智能駕駛到AGI:下一代自動駕駛技術的演進》
01.為什么要做VLA
作為國內為數不多高階智駕方案供應商,元戎啟行在過去的時間里量產超過了4萬輛車。今年預計推出超10款車型,目標為20萬輛,年中即量產VLA。明年目標為50萬輛。隨著規模的擴大,元戎啟行發現當前端到端無法解決的痛點,于去年9月開始VLA研發工作,進一步提升城市高階體驗。
對比來看,周光認為VLA的優勢主要在三個方面。
一是所有的組件都會被標記化,同時兼容LLM模型,支持ScalingLaw。
二是VLA模型擁有思維鏈,推理能力增強。比如在應對復雜路況的時候,可以通過識別道路標識來進行判斷,是否進行路線調整,速度調整。并且VLA推理步驟還可以實現透明化,支持長時序的推理能力,這在自動駕駛中非常重要。同時通過強化學習進行后訓練,判斷是否符合物理規則。
三是VLA可以更接近人類駕駛員的習慣。
理想汽車則主要對比當前已經量產的快慢系統,即視覺語言模型VLM+端到端E2E。理想汽車在此技術上推出車位到車位的高階智駕功能。
對于快慢系統,賈鵬提到目前主要有四大痛點。
一是兩者均為獨立的系統,雖然通過異步聯合訓練,兩者可以協同工作。但兩者運行的頻率并不相同,整體的聯合訓練非常困難。
二是理想汽車采用的是開源的VLM模型,其采用了大量互聯網內容進行訓練,但在3D空間理解方面存在不足。雖然理想汽車進行了一定優化,但其上限存在一定短板。
三是受制于自動駕駛芯片帶寬、算力,無法通過繼續提升參數量來優化VLM體驗。
四是在如今Transformer架構下,難以處理人類駕駛行為的多模態性。
因此,元戎啟行和理想汽車模型的重點都放在了VLA模型上。
02.VLA架構解析
此前NE時代已經針對元戎啟行VLA架構進行過闡述,詳情請見《2025智駕VLA上車,元戎啟行率先搶跑》,本文不再詳細展開。
理想MindVLA中所有的模塊都是全新設計,并非只是簡單的將E2E和VLM模型簡單的結合在一起,這也就意味著快慢系統不能歸結為VLA。在MindVLA中,3D空間編碼器通過語言模型和邏輯推理結合在一起后給出合理的駕駛決策,并輸出一組對周圍環境和自車駕駛行為的編碼,即actiontoken,最終通過diffusion進一步優化出最佳的行駛軌跡。整個模型的推理過程均發生在車端,并且做到實時運行。
理想汽車MindVLA,來源:GTC2025
賈鵬從6個關鍵技術點詳細的介紹了MindVLA的設計和訓練過程,包括其3D推理空間理解能力是如何獲得的,如何從零設計和訓練語言模型使其具備駕駛知識和推理能力,diffusion時如何與語言模型結合在一起的,以及如何解決VLA在車端芯片的實時推理。
在解決3D表征方面,理想汽車發現3D高斯是一個極其優良的中間表征,不僅具備出色的多尺度3D表達能力,同時還可以承載豐富的語義,更重要的是可以通過RGB進行自監督訓練,從而利用海量的真實數據獲得一個優秀的3D表征。
具體來看,理想汽車采用的是自監督訓練得到高斯表征,從而解決3D表征難題。之后,為了解決讓LLM增加具備3D空間理解能力,理想汽車在模型的預訓練階段加入大量的相關數據。
為了應對車載芯片算力和內存帶寬受限的難題,理想汽車在全新的模型中通過稀疏化來解決。稀疏化可以實現模型容量擴容的同時,不會大幅度增加推理負擔。
賈鵬介紹,理想汽車通過兩個維度實現稀疏化。一是采用了MoE架構,通過多個專家實現模型擴容,從而保證參數量不會大幅增加。而是引入了稀疏注意力進一步提升稀疏化率,提升端側的推理效率。同時賈鵬提到,在新的基座模型訓練中,理想汽車重點去尋找最佳數據配比,融入大量的3D數據和自動駕駛相關的圖文數據,并減少了文史類數據的比例。
最后為了進一步激發模型的3D空間理解和推理能力,理想汽車加入了未來幀的預測生成和稠密深度的預測等訓練任務,從而訓練模型去學習人類的思考過程,并自主切換快思考和慢思考。
在慢思考模式下,模型會經過思維鏈CoT再輸出actiontoken,為了提升實時性,理想汽車采用了固定且簡短的CoT模板。在快思考模式下,模型則不需要經過CoT就可以直接輸出actiontoken。
另外,理想MindVLA還有一個亮點,在于多模態交互,即用戶可以直接與模型進行對話,從而實現指令下達。為了實現該功能,理想汽車利用diffusion將actiontoken解碼成最終的駕駛軌跡。在diffusion模型中,理想汽車不僅生成自車的軌跡,還預測其他車輛和行人的軌跡。此外,借助diffusion模型還可以根據外部的條件輸入改變生成結果,比如用戶可以通過直接說理想同學開快點或者開慢點,來實現行車速度的改變。
對于diffusion模型生成效率低的問題,理想汽車采用基于常微分方程的ode采樣器大幅加速的diffusion生成過程,使其在2-3步內就可以生成穩定的軌跡。
03.VLA的挑戰是什么
首先是實時響應的能力。賈鵬直言,想讓VLA實現超過10fps的推理速度還是存在很大挑戰的。周光則展示了元戎啟行響應的時間,采用Thor芯片時,其響應頻率可達到5fps,基于下一代英偉達芯片可以達到20fps。
元戎啟行VLA實時響應能力,來源:元戎啟行
另外是在長尾工況下,VLA存在不符合人類價值觀的問題。為了解決這個問題,理想汽車增加了后訓練的階段,盡可能對齊人類駕駛員的行為。數據來源一方面是大量的人類駕駛員數據,另一方面來自于理想汽車NOA的接管數據。
此外便是數據。VLA模型的強化學習高度依賴良好的交互環境,目前基于3D的游戲引擎方式,場景真實度不足。
為了解決這個問題,元戎啟行優先使用真實的數據,尤其是關鍵臨界態的數據。為此,元戎啟行打造了一個閉環數據鏈路,從數據脫敏、回流、清洗到模型訓練的全流程,可以做到以周為單位。
元戎啟行數據鏈路,來源:GTC2025
理想汽車的做法是結合場景重建和生成兩種方式,賈鵬解釋道,之所以同時使用兩種數據,是因為純生成模型具有良好的泛化能力,但可能出現不符合物理規律的幻覺。而純重建模型由于依托真實數據呈現3D場景,數據真實性毋庸置疑,但在大視角變換下可能出現空洞和幻覺。兩者結合則有可能實現優勢互補。
從VLM+E2E的雙系統到目前提出的VLA模型,高階智駕所用的算法模型依舊在快速發展。作為一種新的模型架構,VLA不僅可以應用在智駕領域,還可以應用在其他智能產品中。元戎啟行在本次分享中便展示了以一臺無人駕駛配送小車,除完成運輸外,還可以將快遞放至快遞柜中。
當然,當前VLA模型的應用還存在諸多挑戰,而率先量產的企業,也將在短期內實現技術領先。