人工智能浪潮席卷全球的當下,AI大模型與具身智能是產業界和投資界當仁不讓的焦點。
中關村論壇期間,智源研究院院長王仲遠在接受21世紀經濟報道記者采訪時,分享了關于大模型幻覺問題的解決路徑、具身智能訓練數據獲取、算力何去何從、人形機器人投資泡沫等熱點話題的看法。
“幻覺”阻礙大模型從實驗室走向產業落地
王仲遠指出,大模型技術雖取得顯著進展,但幻覺問題成為其從實驗室邁向產業落地的絆腳石。解決這一難題,需要提升基礎模型與推理能力,借助通用向量、檢索增強等手段。
他提到,智源研究院近兩年推出的BGE模型有效針對大模型幻覺問題,并且采用開源形式,在hugingface上的下載量居于高位。
多模態大模型和世界模型是通往AGI的必經之路
在大模型發展方向上,多模態大模型與世界模型被視為未來的重要趨勢。王仲遠強調,真實世界中的多模態數據極為豐富,僅靠大語言模型處理文字信息遠遠不夠。
“目前大語言模型已經在理解和推理能力上達到了非常高的水平,甚至在某些領域可以接近碩士或博士水平,但它依然沒辦法感知到這個世界真正的運行規律。”王仲遠舉例說明。
他表示,多模態大模型和世界模型是實現真正AGI的必經之路,能讓人工智能更好地感知和理解世界。?
具身智能:從數字世界邁向物理世界的橋梁?
具身智能作為大模型從數字世界進入物理世界的關鍵方向,目前仍有諸多挑戰。
王仲遠表示,基礎模型碰到了一些瓶頸,比如當前文本數據逐漸耗盡,大語言基礎模型性能提升放緩,于是,多模態大模型與物理世界硬件的結合成為必然。
他提到,具身智能概念出現的時間比較早,傳統研究者對于具身智能的理解,和從AI大模型領域轉向具身智能的研究者,并沒有在技術路線上完全達成共識。
傳統機器人訓練依然在大量使用強化學習,通過重復練習,教機器人學抓杯子、倒水、寫毛筆字等,這種類型的人形機器人,泛化性會弱一些。
“但是大模型技術,尤其是多模態大模型技術,會給整個具身智能帶來一些新的變量。”王仲遠表示,這些技術有助于機器人更快、更高效地擁有“大腦”,從而具備更強的智能。
3月29日下午,智源研究院發布了跨本體具身大小腦協作框架RoboOS與開源具身大腦RoboBrain,可實現跨場景多任務輕量化快速部署與跨本體協作,推動單機智能邁向群體智能,為具身智能的發展提供底層技術支持。
機器人的“泡沫”與“人形必要性”
行業里有觀點認為,當前70%的場景并不需要機器人具備“人形”,所以“機器人做成人形”的必要性是否不夠充分。此外,多家公司擠在人形機器人賽道里,行業未來走勢會如何?
王仲遠在一定程度上認同這一觀點,他舉例說明,行業內也有不少機器人公司已開始迭代輪式構型機器人,以克服雙足機器人穩定性欠佳的問題。
“不過,從長遠來看,人形機器人具有獨特優勢,因其與人的構型相似,能更好地適應社會基礎設施,從互聯網數據中學習人類技能,推動具身智能和具身大腦模型的迭代。”王仲遠表示。
然而,短期內,人形機器人在產業落地方面仍面臨諸多挑戰,許多機器人尚處于“能走”階段,向“走得快、走得穩”的目標邁進仍需時日。?
數據與算力:AI產業發展的“雙引擎”?
數據獲取與算力支撐是AI產業發展的核心要素。王仲遠提到,隨著文本數據的逐漸枯竭,可通過后訓練、合成數據、利用多模態數據等方式解決數據問題。盡管獲取高質量多模態數據和合成數據成本較高,但可借助工程化技術和算力提升來降低成本。?
提及近期對于算力的爭議,王仲遠認為,雖然DeepSeek技術有助于在有限算力下訓練出與GPT4相當的大模型,但算力依然不夠用,大模型技術還遠遠沒有到盡頭。
工程優化為大規模參數模型的訓練創造了條件,若scaling law有效,模型性能有望進一步提升。?
產業落地與投資:短期挑戰與長期機遇并存?
對于具身智能產業的投資,部分投資人持悲觀態度,認為存在泡沫。王仲遠從研究機構的視角出發,對具身智能的長期發展充滿信心。他預測,今年人工智能應用有望迎來大爆發,尤其是大語言模型的落地應用,中國海量的應用場景將加速這一進程。
然而,多模態大模型目前仍處于相對早期階段,實現廣泛意義上的AGI可能還需5-10年甚至更長時間,這取決于本體能力、世界模型構建和數據等多方面因素。?
在技術路線上,具身智能存在多種觀點,如無人駕駛領域的端到端大模型和分模塊解決方案。王仲遠指出,具身智能的發展相對復雜,當前許多具身智能模型的泛化性有限,實現完全端到端的具身智能可能需要較長時間。