跨維(深圳)智能數字科技有限公司成立于2021年6月,是一家以Sim2Real為核心,研發高通用性具身智能技術的國家高新技術企業。公司憑借在3D生成式AI、多模態大模型及三維成像方面的長期技術積累,打造了軟硬一體的產品矩陣,包含 DexVerse™具身智能引擎、基于3D Vision Language Action) 大模型的成像感知套件等產品,率先實現了具身智能核心技術的規模化商業落地。
2025年3月13日,在第三屆具身智能機器人產業發展論壇上,跨維智能市場副總裁林嘉偉提到,要實現高通用具身智能的核心技術,關鍵在于突破基于多模態大模型的三維感知、任務決策與運動控制等方面的瓶頸,數據已成為行業內最為關鍵的瓶頸所在。
為了高效推進這一領域的發展,采用高質量合成數據作為具身智能大模型訓練的“燃料”成為了一條切實可行的路徑。跨維智能構建了一個高質量數據到模型的高效工具鏈,即Sim2Real具身智能引擎DexVerse™,將極大地促進這一進程。

林嘉偉 | 跨維智能市場副總裁
以下為演講內容整理:
具身智能的概念并不僅限于人形機器人領域,它指的是一種配備智慧大腦的物理智能實體。這一實體可以是工業機器人、協作機器人,甚至是自動駕駛等。當這些實體擁有了具身的大腦時,它們便能以更智能、更通用的方式執行具體任務,并能勝任更多樣化的工作。我們將其視為具身智能的一種范式。

圖源:演講嘉賓素材
要實現高度通用的具身智能,除了大腦和小腦之外,感知系統同樣至關重要。人類的行為并非高度精確的重復性操作,例如,當我拿起麥克風時,下次再放下時,位置偏差可能達到至少一厘米,人類的操作并非總是準確無誤且可重復。
正因為擁有了高度發達的視覺系統,我們能夠感知周圍環境,明確自身、環境以及操作對象之間的相互關系,包括力覺和觸覺等相關屬性。基于這些信息,我們能夠判斷如何進行交互,并基于大腦做出智能決策和任務規劃。
目前,具身智能在結構化、半結構化環境,以及在某些特定場景下的非結構化環境中,已取得了一定的進展。然而,要達到產品化和商業化的水平,還需要業界的共同努力。
去年業界對于數據的討論相對較少,但今年已明顯看行業家對數據重要性的廣泛關注。我們始終倡導以合成數據為主導的方法來構建具身智能大模型的能力。通過這種方法,我們已經驗證了其在商業上的可行性。
關于如何實現商業化落地,關鍵在于獲取高質量的核心數據。在更為開放的環境中,我們所處的物理環境以及所操作的對象會存在諸多變化。如果采用真實機器數據,將需要采集大量數據。當面對新的場景和新的操作對象時,這種方法的成功率會顯著下降。這正是我們堅持采用Sim2Real作為核心方法的原因。
同時,我們自主研發了一套Sim2Real的工具鏈,以實現持續學習。在模型訓練過程中,借助傳感器、視覺系統以及力覺反饋,我們能夠將這些信息重新輸入至我們的深度引擎中,用于模型的優化,從而不斷提升模型對未知物體或特定任務的精準度。
目前,我們已自研了一款底層可控的具身智能引擎。鑒于我們在30多個行業中的商業應用需求,為了實現99.99%以上的高成功率,我們進行了底層可微仿真技術的研發,并基于科研成果,深入到底層進行細致工作。
我們會生成大量帶有精確物理屬性標注的核心數據,這些數據隨后會自動進入模型開發與訓練的流程,并最終部署到真實機器上。在此過程中,并不局限于特定的物體或環境,所有資產均可進行替換。
下圖是我們基于自研底層引擎及整個科研團隊技術所孵化出的三大產品系列,其中包括空間智能大腦,其核心在于大模型及現場應用軟件,還包括傳感器部分。在傳感器領域,我們與多家機器人本體廠商展開了深入合作。

圖源:演講嘉賓素材
我們有一款傳感器是應用于機器人上的仿人級別的純視覺解決方案。此純視覺系列已在多個領域得到廣泛應用,包括卡車換電等,并成功突破了原有場景中的一些技術瓶頸。例如,傳統的視覺方案在強光環境、透明物體以及高反光物體的成像上存在不足,這對于具身智能在實際應用中的精準操作而言,是一個極為關鍵的問題。若無法準確識別,則無法實現精確的操作。我們不應忽視這一具體操作過程,因為它涉及到與操作對象的直接接觸。如果僅對場景和環境進行仿真,而忽略實際操作中的接觸部分,那么最終將無法實現技術的落地應用。
基于對當前商業化落地具身智能趨勢的觀察,在智能制造領域,雙臂機器人更有可能成為主流形態。這主要歸因于企業對ROI及穩定性的高度重視。如果雙臂協同技術能夠在裝備制造或柔性生產中發揮出色作用,那么其市場前景將極為廣闊。
在一次演示中,我們為雙臂機器人設定了一個任務,即拼接一個小鹿形狀的積木。機器人通過與大語言模型的交互,詢問如何編排任務流程。這是一個相對復雜的任務,大約包含十幾到二十個步驟。通過仿真,我們首先對模型進行訓練,并在訓練過程中不斷改變環境資產、對象資產以及機器人本體。
我們可以更換不同的系列進行訓練,訓練完成后,會得到模型的運行軌跡。SDK文件將被部署到實際場景中,包括我們的商業項目中。實際上,這些項目都遵循著相同的一套底層邏輯。
今年1月,我們發布了首款Sim2Real引擎定義的具身智能人形機器人DexForce W1。其底部配備了一個移動底盤。針對不同的任務,我們能夠通過優化得到不同的最佳構型。在以往的實踐中,當使用多種機械臂或機器人執行具體操作任務時,常因構型限制而難以達成目標。例如,盡管視覺系統已識別目標且大腦已發出指令,但可能因手臂過長而無法觸及,或雙臂處于極為不便的角度。而W1采用高度仿人結構,具備34個動力單元,可做到高度靈活與多場景通用,再搭配跨維純視覺空間智能傳感器,實時感知,精準控制。

圖源:演講嘉賓素材
我們當前的機器人本體構型支持毫米級精度操作,這在目前市面上屬于罕見的設計原型。底部搭載的是移動底盤,因為我們主要聚焦于半結構化環境,如智能制造和商業服務領域。在這些場景中,采用輪式底盤相較于其他類型更為合適,能避免在當前階段遇到過多阻礙。
跨維智能以100%的合成數據,結合空間與具身智能大腦和傳感器,落地了汽車零配件、金屬加工、工業物流、家電、光伏等三十多個行業。對于Sim2Real的真實性,我們已在多個場景中進行探索,如無人充電站、卡車換電服務以及按摩機器人等商業服務類應用,與合作伙伴共同邁向技術前沿。