具身智能“數(shù)據(jù)荒”,空間大腦來破局

時間:2025-07-29

來源:維科網(wǎng)

導語:不僅有 40 余款大模型、50 余款 AI 終端產品、60 余款智能機器人以及 100 余款「全球首發(fā)」「中國首秀」的重磅新品,場館內還有超過 150 臺人形機器人同臺亮相。

  不僅有 40 余款大模型、50 余款 AI 終端產品、60 余款智能機器人以及 100 余款「全球首發(fā)」「中國首秀」的重磅新品,場館內還有超過 150 臺人形機器人同臺亮相。

       跟去年只有 18 個人形機器人,而且其中大多需要帶著安全繩不同,今年的機器人都在整花活,打拳擊、玩架子鼓、端茶倒水、快遞分揀樣樣精通。

       這些脫離安全繩、在真實場景中協(xié)作的機器人,標志著具身智能正從「技術演示」邁向「任務執(zhí)行」的新階段。而這一變化背后,是行業(yè)對數(shù)據(jù)驅動范式的集體突破。

       在此次 WAIC 上,商湯科技、騰訊、智元、群核科技等都發(fā)布了新項目,各家技術路徑不同,但都直指同一目標:讓機器人學會在物理世界中「高效犯錯」。

       然而要讓機器人在復雜的物理世界中真正「學會」犯錯并從中成長,其前提是海量、高質量、多樣化的訓練數(shù)據(jù),業(yè)內缺的恰恰就是這些數(shù)據(jù)。

01

       數(shù)據(jù)成具身智能「卡脖子」問題

       具身智能,無疑是當前科技領域最炙手可熱的概念之一。

       據(jù)不完全統(tǒng)計,2025 年上半年具身智能領域融資事件達 130 起,是 2024 年全年的 1.9 倍,明確披露金額 96.68 億元,已超過 2024 年全年總額 89.33 億元。

       如果計入未公開金額的交易,總規(guī)模保守估計也已超 230 億元。

       然而,商業(yè)化落地的現(xiàn)實困境與資本熱度形成鮮明反差。人形機器人訂單目前仍集中在教育、展示和政府類項目三大范疇,工業(yè)與家庭場景滲透緩慢。

       在美國明星具身智能公司 Physical Intelligence 與紅點創(chuàng)投的萬字對談中,研究者表明了落地難的三大難關:復雜任務執(zhí)行能力、環(huán)境泛化能力與高可靠性性能。

       其中最后一項「性能」成為當前從實驗室走向商用的最大障礙,「它們仍經常失敗,目前狀態(tài)更像是『演示就緒』而非『部署就緒』。」

       而數(shù)據(jù)短缺,正是橫亙在技術理想與商業(yè)現(xiàn)實之間的「卡脖子」難題,主要體現(xiàn)在三方面:

     「數(shù)據(jù)荒」嚴重:人形機器人發(fā)展僅約 5 年,有效數(shù)據(jù)積累遠低于大語言模型所需的 PB 級規(guī)模。一個簡單動作如抓取杯子,需要 5000 次真實操作數(shù)據(jù),而新場景往往需要從零積累,形成「現(xiàn)實鴻溝」。

       采集成本高企:真實世界訓練中,機器人每 1000 次動作調試的成本高達數(shù)十萬元,且需高精度動捕設備和專業(yè)操作員。多傳感器時序對齊要求毫秒級精度,進一步推高門檻。

     「數(shù)據(jù)孤島」林立:企業(yè)將數(shù)據(jù)視為核心競爭力,私有數(shù)據(jù)集封閉;開源社區(qū)數(shù)據(jù)集又局限于簡單任務,復雜場景數(shù)據(jù)稀缺且缺乏統(tǒng)一質量標準。

       數(shù)據(jù)困境的本質源于物理世界的復雜性,與自動駕駛不同,機器人需主動與環(huán)境發(fā)生接觸,而接觸使問題難度指數(shù)級上升,當前行業(yè)正探索兩條破局路徑,真機數(shù)據(jù)采集和仿真數(shù)據(jù)合成。

       真機數(shù)據(jù)派以智元機器人為代表,其建立了百萬級真機數(shù)據(jù)集 AgiBot World,覆蓋家居、餐飲、工業(yè)、商超和辦公五種真實場景。

       仿真數(shù)據(jù)派則是通過算法生成合成數(shù)據(jù),降低采集成本,目前呈現(xiàn)多元化格局,包括物理仿真、視頻遷移、空間重建等。

       將合成數(shù)據(jù)拆解,可以分為場景生成與模擬兩個關鍵部分。相比之下,豐富多樣的室內空間生成已經成為系統(tǒng)性能瓶頸,目前主要有兩種技術路徑。

       一種是合成視頻+3D 重建,基于像素流驅動,先生成視頻或圖像,再重建為點云或 mesh 等非結構化 3D 數(shù)據(jù),最終轉為結構化語義模型,以群核科技、李飛飛 World Models 為代表。

       另一種是 AIGC 直接合成 3D 數(shù)據(jù),利用圖神經網(wǎng)絡、擴散模型、注意力機制等方法,直接合成結構化空間數(shù)據(jù)以 ATISS、LEGO-NET 等為代表。

       當前,訓練適應復雜物理世界的智能體,亟需大量真實、可交互的三維環(huán)境數(shù)據(jù)作為基礎。

       這恰恰是當前的瓶頸——傳統(tǒng)仿真環(huán)境構建成本高、效率低,而真實世界數(shù)據(jù)采集又極其困難。

       智能體訓練需要高質量數(shù)據(jù),尤其是能反映復雜空間關系、物理屬性和任務邏輯的三維空間數(shù)據(jù)。

       現(xiàn)在 3D 圈正在探索新的數(shù)據(jù)獲取方式和呈現(xiàn)方式。其中,3D Gaussian Splatting 技術是其中的熱點,它能夠快速地從多視角圖像重建出高真實感、具備基礎物理屬性的動態(tài) 3D 場景,其高效的數(shù)據(jù)生成能力和逼真的渲染效果為三維數(shù)據(jù)生產提供了新范式。

       3D Gaussian Splatting 場景數(shù)據(jù)給機器人訓練提供了新思路。這相當于將前沿圖形學技術生成的高質量、低成本、可編輯的三維動態(tài)環(huán)境數(shù)據(jù),直接「喂」給機器人學習算法,能大幅降低仿真環(huán)境構建門檻,并提升訓練數(shù)據(jù)的豐富性與真實性。

       作為「杭州六小龍」之一的群核科技,正在進行這條技術路線的探索。

02

       3D 高斯語義數(shù)據(jù)集,為機器人裝上「空間大腦」

       WAIC 開幕前夕,群核科技旗下的空間智能平臺 SpatialVerse 發(fā)布最新高質量 3D 高斯語義數(shù)據(jù)集 InteriorGS,旨在為機器人和 AI 智能體提升空間感知能力。

       InteriorGS 數(shù)據(jù)集包含 1000 個 3D 高斯語義場景,涵蓋超 80 種室內環(huán)境,賦予智能體「空間大腦」,以提高其環(huán)境理解和交互能力,是全球首個適用于智能體自由運動的大規(guī)模 3D 數(shù)據(jù)集。

       近年來,3D 高斯濺射憑借「掃描即可重建場景」的優(yōu)勢,已在文物保護、空間設計等領域落地使用。此次發(fā)布的 InteriorGS 數(shù)據(jù)集,首次將這一技術引入 AI 空間訓練領域。

       而 SpatialVerse 區(qū)別于傳統(tǒng) 3D 技術廠商的關鍵分水嶺,是稀缺的「重建-語義-仿真」全鏈路閉環(huán)能力。絕大多數(shù)廠商聚焦于單點突破,或精于 3D 重建算法,產出精美但無生命的靜態(tài)模型;或專攻物理仿真引擎,卻缺乏高質量、帶語義的輸入場景。

       當下,空間智能與具身智能發(fā)展存在兩大基礎性難題。

       首先是高質量、大規(guī)模且可交互的三維場景數(shù)據(jù)極度匱乏。這并不是指簡單的數(shù)據(jù)量不足,而是指具備真實世界復雜性、支持智能體進行感知、決策與行動驗證的沉浸式環(huán)境數(shù)據(jù)的稀缺。

       其次是現(xiàn)有三維數(shù)據(jù),包括時下熱門的 3D 高斯場景,普遍存在物理屬性的系統(tǒng)性缺失這個缺點。無論是靜態(tài)模型還是渲染模型,如果缺乏對重力、碰撞、材質摩擦、物體運動狀態(tài)等物理規(guī)律的編碼,智能體便無法在其中學習推門、避障、抓取等依賴物理交互的基礎能力,訓練價值會大打折扣。

       面對這兩個行業(yè)痛點,群核科技依托其深耕室內空間數(shù)字化積累的經驗,通過 SpatialVerse 開辟出一條具有獨家優(yōu)勢的道路:以難以復制的場景數(shù)據(jù)沉淀為起點,打通「重建-語義-仿真」全鏈路,構建自增強的「數(shù)據(jù)飛輪」,最終打造空間智能基座平臺。

        以酷家樂平臺為核心,群核科技構建了全球規(guī)模最大、細節(jié)最豐富的室內空間結構化數(shù)據(jù)集 InteriorNet。這是少有的由可交互三維數(shù)據(jù)構成的數(shù)據(jù)集,包含了大量真實戶型、精細化家具陳設、材質紋理以及預設可交互邏輯,為智能體提供了近乎真實的虛擬訓練場。

       此前,谷歌與斯坦福在具身智能領域的重要論文《FireAct》中,就明確致謝了 SpatialVerse 提供的高質量數(shù)據(jù)。

       除此之外,群核科技也已形成了一個高效運轉、自我強化的「數(shù)據(jù)飛輪」系統(tǒng):

       數(shù)據(jù)層:以 InteriorNet 為代表的海量可交互三維數(shù)據(jù),提供初始燃料

       模型層:以 SpatialLM 空間大模型為代表,基于海量數(shù)據(jù)進行預訓練與精調,SpatialLM 擁有空間理解與推理能力,能從復雜場景中解析結構、識別物體、理解關系。其開源版本曾登頂 Hugging Face 趨勢榜前三。

       工具層:以空間智能平臺 SpatialVerse 為代表,將 SpatialLM 等模型的理解能力融入仿真平臺,使其能生成更智能、更符合物理規(guī)律的場景,或為現(xiàn)有場景動態(tài)添加更豐富的語義與交互可能性。智能體在 SpatialVerse 中的訓練行為數(shù)據(jù),又能反饋回數(shù)據(jù)層和模型層,用于優(yōu)化仿真規(guī)則、提升模型精度。

       數(shù)據(jù)驅動模型優(yōu)化,模型反哺工具迭代,工具產生新數(shù)據(jù),以此形成一條成熟的閉環(huán)邏輯。

03

       3D界的 ImageNet,加速 Sim2Real 進化

       有意思的是,WAIC 今年參展的機器人企業(yè)里,多數(shù)都已經跟 SpatialVerse 達成合作,其中包括智元機器人、銀河通用等國內具身智能頭部企業(yè)。在機器人現(xiàn)場花式整活的背后,藏著不少 SpatialVerse 的身影,比如給機器人學習搓麻將提供「仿真道場」。

       不過,缺數(shù)據(jù)的不光是機器人,所有 AI 智能體都需要海量 3D 數(shù)據(jù),來學習復雜的物理世界。

       透過此次發(fā)布的 3D 高斯語義數(shù)據(jù)集,群核提供的不僅是一個新數(shù)據(jù)集,更代表了一種應對空間智能核心挑戰(zhàn)的系統(tǒng)性解決方案。  

       SpatialVerse 目標是成為空間智能領域的「ImageNet」——就像 ImageNet 推動計算機視覺爆發(fā)一樣,為 AIGC、XR、具身智能等領域提供「數(shù)字道場」。

        SpatialVerse 平臺作為空間智能基座,從「根技術」上屬于空間智能和物理 AI,天然可以驅動 XR 產業(yè)激活以及 AIGC 工作流革新。

       XR 體驗的核心在于構建沉浸感、交互性強的虛擬、混合空間。SpatialVerse 的優(yōu)勢在于可以構建高保真虛擬環(huán)境、錨定混合現(xiàn)實空間和提高物理交互可信度。

       針對 AIGC 領域,傳統(tǒng) 3D 內容創(chuàng)作高度依賴專業(yè)人才與工具,而且存在效率低、成本高的情況。SpatialVerse 的海量高質量空間數(shù)據(jù)與結構化信息,可為生成式 AI 模型提供訓練素材。

       將其與 AIGC 技術結合,可實現(xiàn)自動化 3D 場景、物體生成,物理可信的內容仿真以及多模態(tài)內容聯(lián)動。

       空間智能讓智能體「看見」并理解世界的幾何結構;物理 AI 讓智能體「懂得」世界的運行規(guī)則;具身智能讓智能體能夠利用對世界結構和規(guī)則的理解,通過一個身體在真實環(huán)境中主動交互、學習和完成任務。

       SpatialVerse 的價值具體體現(xiàn)在,加速 Sim2Real 快速進化,縮小「虛擬」與「現(xiàn)實」:

       海量高保真預訓練:SpatialVerse 提供涵蓋家居、商業(yè)、工業(yè)、城市等多元場景的海量、高精度空間與物理仿真數(shù)據(jù),提升具身智能模型基礎的空間認知與物理常識。

       安全高效的空間交互訓練場:在 SpatialVerse 構建的虛擬環(huán)境中,智能體可以進行無限次的任務嘗試與強化學習,在零風險、低成本下快速迭代優(yōu)化策略。

       群核科技的下一步戰(zhàn)略核心是構建開放、繁榮的空間智能生態(tài),并持續(xù)攻克未來挑戰(zhàn)。

       通過吸引硬件廠商、算法開發(fā)者和行業(yè)應用伙伴參與,共同打造標準化的數(shù)據(jù)接口、工具鏈和解決方案庫,打造開放平臺同時完善生態(tài)協(xié)作。

       其次,持續(xù)提升仿真精度、探索多智能體協(xié)同仿真、強化 AI 在仿真環(huán)境中的主動探索與元學習能力、優(yōu)化 Sim2Real 遷移效率,攻克技術深水區(qū)。在構建龐大空間數(shù)據(jù)庫的同時,建立嚴格的數(shù)據(jù)隱私保護機制和空間數(shù)據(jù)使用的倫理規(guī)范。

       其最終目標是讓「理解物理世界」成為每一個智能體的基本能力。

       無論是家中的服務機器人、工廠的物流機械臂、虛擬世界的數(shù)字人,還是手機里的 AR 助手,都能基于對空間結構的精準感知、對物理規(guī)則的深刻理解,實現(xiàn)從「感知環(huán)境-理解規(guī)則-創(chuàng)造價值」的閉環(huán)。

       當智能體真正獲得感知物理世界的能力,人機協(xié)同將邁入新階段。

       在這場關乎未來的科技競逐中,誰能率先突破具身智能的「奇點」,誰就將掌握智能時代的主導權。


中傳動網(wǎng)版權與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(wǎng)(www.surachana.com)獨家所有。如需轉載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發(fā)表之日起一周內與本網(wǎng)聯(lián)系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0