自2022年11月起,GPT等模型的引入及其迅猛發展極大地提升了機器人在語言智能和復雜推理能力方面的表現。尤為顯著的是多模態模型,特別是視覺語言模型,為人形機器人在理解開放式場景和執行復雜認知任務上帶來了突破性的進展,未來10到15年間,預計機器人在知識密度和運算智能上將可能超越人類水平。然而,在抽象演繹和聯想創造新知識方面,人類依然保持著無可比擬的優勢。
在這些變革的推動下,機器人被定位為人類的輔助工具而非替代者,特別是在處理重復性和危險性任務時展現出巨大價值。另外,這也有望催生新的職業角色,例如機器人技能訓練師。
2025年3月13日,在第三屆具身智能機器人產業發展論壇上,聆動通用創始人兼CEO,原科大訊飛機器人首席科學家季超認為,在機器人技能訓練的過程中,數據采集和仿真扮演著核心角色,盡管真實數據的價值更高,但其采集成本也相對較高。為了克服這一挑戰,可以依托通用預訓練模型,針對垂直領域和客戶特定需求進行定制化訓練,從而構建出適用于不同行業的強大模型。展望未來,具身機器人有望像智能手機那樣重塑商業格局,引領從功能型機器人時代步入智能機器人時代。

季超 | 聆動通用創始人兼CEO
以下為演講內容整理:
近年來,人形機器人的火爆以及當下具身通用機器人的發展浪潮,其底層邏輯源自大語言模型的突破。正是這一突破,使得機器人能夠理解開放式場景中的問題,充分展現出認知大模型所帶來的智能涌現的重要意義。
2022 年 11 月,Chat GPT進入國內,讓人們切實感受到機器語言智能的涌現,標志著機器智能邁入了一個全新的時代。數月之后,GPT-4迅速進化,在復雜認知任務、復雜推理任務以及多模態任務處理能力等方面,實現了智能化水平的顯著提升。這一點與機器人的視覺語言模型,乃至后續的視覺語言動作模型高度契合。以GPT為例,其在多模態復雜場景的語義理解,以及超越人類智能的推理能力等方面表現卓越,這使機器人在特定專業領域具備了超越人類智慧的潛在可能性。當將這種可能性與機器人的運動控制執行、環境主動感知以及行為決策進行分層串聯后,在我們之前提及的具身工業、具身制造,甚至未來的具身家庭等領域,均創造了無限的發展可能。
在國內,我們的團隊一直處于密切關注大模型發展的前沿位置。以Open AI為代表的文生文、文生圖、文生視頻類大模型,幾乎以季度為周期進行更新迭代。當前,多模態基座大模型的能力上限不斷提升。近年來,關于大語言模型乃至多模態大模型的scaling law是否已達上限,以及未來scaling law是否會失效等問題引發廣泛探討。
從我們的研究視角來看,大模型尤其是大模型基座的scaling law天花板正持續被突破。例如,OpenAI的o1在處理博士級別的專業復雜認知任務方面,已顯著超越人類水平。今年備受矚目的DeepSeek,在技術架構革新、訓練方法創新以及工程優化創新等方面開展了大量卓有成效的工作。
回顧完過去幾年大模型的發展,我們最終聚焦的核心問題是:在未來,當機器人走進千行百業與千家萬戶時,其與人類將構建何種關系?
從大腦層面的能力而言,生成式大模型能否無限趨近人類?研究結論顯示,在知識儲備方面,生成式大模型已達到相當高的水平,其知識密度可與211、985高校的大學生甚至博士生相媲美,在運算智能及知識密度維度上,顯著超越人類。就行業內的普遍認知而言,在未來10至15年內,人類所獨有的抽象演繹以及聯想創造新知識的能力,目前的大模型尚不具備。
基于此,在現有大量信息化知識積累的柔性制造業場景中,憑借大模型技術已能夠實現極為出色的管理成效。然而,在未來諸如家庭這類更加開放、且不斷產生新知識的場景中,依據當前的技術發展路徑分析,生成式大模型距離人們理想中的“終極形態”仍有差距,尚不具備產生自主意識的可能性。
因此,探討未來大模型基座與具身智能模型的融合趨勢,需從當前面臨的主要問題和應用方向兩個維度進行剖析。第一,大模型未來所蘊含的價值觀和意識形態將與國家間有關。以AI陪伴及教育領域為例,其呈現的傾向性取決于頂層負責參數調整的相關人員。第二,目前諸多論文及開放式泛化操作研究表明,相關成果的成功率在理想情況下約為60% - 70%。然而,在實際工程應用場景中,60%的成功率與工業生產所要求的99.999%的高可靠性之間存在巨大差距。在實踐中,單純的通用大模型或未經后期針對性訓練的認知大模型,難以在工業場景中穩定地完成任務拆分與理解,這類模型容易出現幻覺現象,給工業場景帶來極大風險。

圖源:演講嘉賓素材
在此過程中,分析未來認知智能決策、大模型生成應用方向與人類的關系,可以明確的是,通用基座將承擔大部分重復性、繁瑣且非決策性的環節,而最終決策仍由人類主導。這也闡釋了未來10至15年,在真實場景中人與通用機器人各自的定位。未來,機器人不會取代人類,而是助力人類減輕工作負擔。以往那些重復、繁瑣以及部分危險的工作,將由機器人承接,人類的角色可能轉變為機器人技能訓練師或機器人工作主管,其工作內容并未消失,而是衍生出新的職責與任務。
勞動力短缺以及中國AI高端制造的發展已成為不可逆轉的趨勢,在此背景下,機器取代人力已從以往的可選項轉變為必然選擇。綜合考量近年來模型技術的發展以及國內供應鏈的演進,機器人性能正持續提升。隨著近兩年來人形機器人及各類機器人市場的蓬勃發展,國內供應鏈競爭愈發激烈,尤其是上游環節,關節器件等關鍵零部件成本顯著下降。這一現象帶來的直接影響是,機器人在智能化程度不斷提高的同時,價格卻愈發便宜。
長期以來,我們與客戶保持密切溝通,產品市場契合度始終存在,但資產回報率在過去十年間一直是工業客戶難以權衡的問題。以往,使用大型且價格昂貴的機器人去替代成本相對較低的勞動力,從經濟賬上看并不劃算。
當前,隨著機器人成本持續降低,其智能化水平不斷提升,無論是在泛化抓取能力方面,還是在其他各類操作技能上,均已逐步滲透至大柔性、多品種、少批量的生產場景中。從投入產出比的角度來看,通常情況下,投資機器人的回報周期約為兩年。在這一發展進程中,我們觀察到,機器人的投入產出成本與人的整體邊際成本正無限交合。
在此發展進程中,具身智能的整體發展趨勢呈現出理想與現實的落差,雖前景廣闊,但當前仍處于發展初期,其面臨的最大挑戰來自于數據層面。以目前備受關注的“pick place”這一簡單動作中的定點抓取為例,這在傳統工業機器人的技能中較為常見。然而,若要實現泛化抓取或各種柔性空間的自適應操作,所需的數據量是達到定點抓取的38倍。即便是“pick place”這樣看似簡單的技能,在需要泛化應用的場景中,數據量也會大幅增加。

圖源:演講嘉賓素材
目前在技術路線上主要存在兩種不同方向。其中一個方向是側重于合成數據以及基于仿真的數據運用,這種技術路線的優勢在于成本較低、效率較高且易于規模化推廣。真實數據雖然具有真實性和高價值的特點,但采集過程中存在諸多難題,需要耗費大量的人力成本、場地成本等。
當前,具身智能發展面臨的關鍵問題在于如何制定有效的解決方案。從我們的行業認知出發,解決方案必然要基于通用的預訓練基座。在垂直領域中,需依據不同場景、客戶的實際需求,以及高價值數據的特性,針對性地訓練出一系列適用于各垂直行業的矩陣大模型。
當這些行業大模型在各自領域內實現了從上至下,涵蓋場景側、任務側和動作側的端到端全鏈路打通后,便能夠形成一個良性循環的數據飛輪。這不僅能夠使商業模式得以成功運轉,還將顯著改善企業的經營狀況。隨著一個個垂直行業的突破,基于百川歸海的發展趨勢,我們有望提煉出具有共性的行業通用數據。
我們認為今年數據訓練與數據采集領域將蓬勃發,因為靈活且性能穩定的硬件為具身機器人的數據采集及訓練工作奠定了良好的技術基礎。當AGI真正到來之際,硬件將能夠達到何種靈活程度?以人形機器人為例,當AGI實現后,人形機器人將具備與人類相似的能力,能夠完成人類所能執行的各類任務。
實際上,具身機器人的發展軌跡與過去的領域以及智能手機的發展有一定的相似之處。回顧智能手機的發展歷程,早期的手機主要是功能性設備,僅具備接打電話的基本功能。然而,隨著技術的不斷演進,如今的智能手機已實現了功能的多元化,其功能屬性也從單純的通信功能逐漸向社交等多領域拓展。我們認為具身機器人會對機器人領域的商業范式進行全方位重塑,推動其從功能級時代跨越至智能機時代。
訊飛聆動作為訊飛系的控股子公司,使命是在賦予機器人理解與思考能力的基礎上,使其切實能夠在制造業場景中高效執行工作任務,助力行業實現勞動力的優化升級,讓全球都能享受到具身智能勞動力所帶來的豐厚紅利。
訊飛聆動的整個團隊在具身感知、認知理解領域成果斐然,尤其是在世界模型構建以及世界知識的常識性理解等方面,斬獲了多個世界級冠軍獎項,團隊最初專注于機器人“大腦”相關技術的研發。
關于空間的高階感知能力,我們基于3D技術,針對室內廣域空間進行感知與定位,這相較于以往基于2D的技術有了顯著提升。
此外,機器人在實際工作場景中面臨的問題,與傳統工業機器人通過預編程解決的確定性問題存在本質區別。機器人需要在開放場景,甚至是離散、柔性的場景中,基于常識性任務進行推理。這就要求機器人的“大腦”具備基于邏輯關系的多模態理解能力,能夠綜合分析多種模態的信息,從而準確理解任務并做出合理的決策,以解決實際問題。
機器人區別于人的一個非常高階的能力是具備強大的運算智能和高密度知識儲備,能夠在海量數據運算過程中,獲取人類在相同時間內難以得出的結果。以蛋白質合成的配方獲取為例,過去人類完成這一工作可能需要6至8個月,而如今機器僅需1至2天就能得出較為合理的配方。
我們認為未來機器人將以無代碼模式的語音交互為主導,形成多模態交互方式。對此,我們提出了交互大模型,這是一種超擬人化的合成模型,構建了人與機器人之間的有效人機交互。在實現了機器人在大腦空間感知與推理等高階能力后,下一步便是將這些能力切實應用到具身操作之中 。
在這一過程中,我們基于行業具身模型的任務理解,結合通用預訓練基座開展工作。去年,我們采用了星火多模態大模型基座,通過對各行業基于任務理解拆解的專項訓練,構建了行業針對性基座。由于融入了客戶提供的高價值行業數據,經過兩個月的努力,該基座在相關任務中的成功率從70%提升至95%以上,基本達到了客戶的使用標準。

圖源:演講嘉賓素材
在機器人的移動與操作方法層面,我們采用合成數據與真實數據相結合的策略。我們的出發點十分明確,即針對客戶的實際場景與任務進行精準定義,判別哪些任務適合運用高泛化性的合成數據來完成,哪些任務需要借助高精度的增值數據實現。整個方案的輸出完全以客戶實際需求為導向,核心在于依托底層大模型,結合利用行業客戶高價值數據訓練出的行業具身模型,再融合移動與操作方面的具身泛化大模型,以此實現基于業務流、任務流和動作流的全流程閉環。
我們提出了大腦、小腦、本體分層式的具身智能架構體系。其中,通用大模型承擔起對整體任務的理解與規劃職責;具身大模型則負責全方位的感知以及行為決策。以一家水電站客戶為例,其下達的任務為關閉三號機房的一號開關,并打開窗戶,該任務旨在解決GIS機房內六氟化硫泄漏問題。在此情境下,機器人依托多模態大模型對指令源進行解析,精準分析出這一長程任務,并將其穩定地拆解為一系列相應的子任務,隨后交由具備具身感知和行為決策功能的模型進行處理,最終指揮機器人有條不紊地開展操作與移動,以完成既定任務。
我們的商業模式較為清晰。短期內,我們并不著眼于完全開放式的端到端具身大模型,而是聚焦于基于實際客戶場景,將通用大模型與專用具身大模型相結合,實現端側與云側的協同運作,達成軟件與硬件的一體化。同時,強調“robot and service”模式,即與客戶的業務系統直接打通,構建具身智能的泛化操作能力,并融合多模態大模型的認知功能,實現長時序復雜任務的規劃與執行。
我們致力于打造一種“一腦多型”的機器人解決方案,使其能夠適應不同場景的需求,滿足實際商業化運作中的投入產出要求。通過這種方式,逐步推動機器人解決方案從局部通用向完全通用的方向發展。
此外,我們正在開展一項更具前瞻性的研究——基于世界模型的具身智能關鍵技術。世界模型對于具身智能意義重大,它是賦予機器人終極自主探索能力、實現強化學習以及真正跨任務泛化能力的核心要素,堪稱具身智能發展的終極形態。當前,無論是英偉達推出的模擬器,還是其他各類模擬器,其技術上的進步都為世界模型的構建搭建了極為良好的研究平臺。
無論是何種類型的模型,都或多或少面臨著一系列挑戰,在自適應能力、泛化能力方面存在不足,同時還存在仿真環境與真實環境數據不匹配等問題。就全球范圍而言,尚未出現完全符合我們認知且更為理想的模型。
鑒于此,我們以機器人基礎運營服務為切入點,憑借我們在大模型交互領域的專長,特別是以多模態大模型作為技術底座,結合“一腦多型”的機器人本體,并融入真實場景數據開展研究。我們的預訓練基座已基于大量合成數據完成訓練,在此基礎上,針對高校的世界模擬器、世界模型的構建以及環境主動交互的關鍵算法等方面,進行前瞻性的探索研究。
我們期望通過這些努力,最終實現高智能、高泛化性的成果,并將其應用于復雜、危險、重復性以及柔性的工業場景,乃至更廣泛的制造業領域。
回歸到主題本身,多模態大模型在近年來的發展,不僅在眾多行業實現了agent級別的應用,更在機器人領域發揮了關鍵作用,使得真正具備實用性的機器人走進各行各業成為可能,甚至在未來有望進入千家萬戶。
我們判斷,未來的發展路徑必以場景驅動來激發數據效應,通過形成一個個數據小飛輪,最終形成機器人的AGI。盡管當前具身智能領域熱度高漲,但我們清醒地認識到,具身智能的進一步發展仍將面臨諸多嚴峻挑戰。
第一個挑戰是如何通過學習、掌握和發掘世界知識及物理規律,從而帶來通用泛化的能力。
第二,如何針對不同的場景和任務,構建一套適用于通用智能體機器人的評價標準,主要責任在于場景應用方。在某些場景中,過去使用非標自動化設備完成任務,如今改用通用機器人或具身機器人設備,從任務執行的成功率、準確率和穩定性等維度出發,場景應用方需建立一套客觀、科學的評價體系。這一評價體系的建立,是機器人從實驗室走向實際應用場景的關鍵環節,對于推動機器人技術的產業化應用具有至關重要的意義。
第三,當前具身模型面臨數據缺失問題,這背后還反映出另一關鍵現狀,就目前而言,在眾多模型中,獲得公眾廣泛認可、具備泛化能力的仍是大語言模型。具身智能模型雖可通過持續的數據擴增,并借助“scaling law”來發展完善,但截至目前,大語言模型在泛化能力方面的優勢依舊得到業界普遍承認。
第四個挑戰是如何構建基于數據、知識以及場景所衍生的自主性任務執行能力,以實現面向多任務場景的最佳適配。
當前具身感知與具身模型在現有技術路線下存在一定的上限。如何通過與客戶的深度合作,從現場流程設計、產品設計、解決方案設計以及流程優化設計等多個維度入手,突破這一技術上限,將原本僅達到60分水平的技術,轉化為85分甚至更高質量的產品與解決方案,我們認為這是推動相關技術從實驗室走向真實應用場景的核心動力。
大模型帶來了兩大亟待解決的問題,一是價值觀問題,二是幻覺問題。當機器人廣泛應用于各行各業乃至千家萬戶后,其價值觀問題必然會引發一系列社會倫理道德層面的思考,包括機器人的社會定位以及與人類的關系等。
總體而言,在未來10至15年內,具身智能與高端制造、機器人、人工智能的融合,將成為我國最為關鍵的發展賽道之一,同時也是極具投資價值的領域。