




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
具身智能數(shù)據(jù):AI時代的石油證券研究報告證券分析師
:王紫敬執(zhí)業(yè)證書編號:S0600521080005聯(lián)系郵箱:wangzj@dwzq.com.cn二零二五年六月五日請務必閱讀正文之后的免責聲明部分數(shù)據(jù)是推動具身智能技術快速突破和落地應用的關鍵。借鑒自動駕駛汽車發(fā)展的路徑,數(shù)據(jù)對于具身智能同樣至關重要。優(yōu)質的數(shù)據(jù)集能夠驅動智能體感知與理解環(huán)境,能夠加速具身智能模型的訓練與部署,幫助機器人有效完成復雜任務。不同于大語言模型可以使用互聯(lián)網(wǎng)海量信息作為訓練數(shù)據(jù),機器人所用的具身智能模型沒有現(xiàn)成數(shù)據(jù)可以使用,需要投入大量時間和資源進行機器人操作實踐或仿真模擬,以收集視覺、觸覺、力覺、運動軌跡以及機器人本體狀態(tài)等多源異構數(shù)據(jù)。符合通用標準、得到驗證的數(shù)據(jù)集成為具身智能行業(yè)的剛需。當前具身智能本體形態(tài)多種多樣,應用場景千差萬別,對于具身智能訓練數(shù)據(jù)的需求也更為多元。目前業(yè)內(nèi)仍有部分數(shù)據(jù)集主要聚焦在特定機器人、特定場景和特定技能等方面,在整體通用性上有待提升。因此,構建高質量、多樣化的感知數(shù)據(jù)集是不可或缺的基礎工作,這些數(shù)據(jù)集不僅為算法訓練提供了豐富的素材,也成為了評估具身性能的基準參考標準。具身智能數(shù)據(jù)按采集方式主要分為真實數(shù)據(jù)和仿真數(shù)據(jù)兩大類。(1)真實數(shù)據(jù):真實數(shù)據(jù)是智能體通過自身物理身體上的各類傳感器(如攝像頭、麥克風、觸覺傳感器等
),在與真實物理環(huán)境進行交互過程中,實時采集獲取的數(shù)據(jù)。真實數(shù)據(jù)主要來源有:機器人遙操(通過人工遠程操控獲取真實場景下的操作數(shù)據(jù))、動作捕捉(記錄人類在特定環(huán)境中的行為模式)。(2)仿真數(shù)據(jù):借助計算機模擬技術,在虛擬環(huán)境中生成的、用于訓練具身智能的數(shù)據(jù)。通過構建虛擬場景、物體和智能體,模擬智能體與虛擬環(huán)境的交互過程來產(chǎn)生數(shù)據(jù)。即利用仿真環(huán)境生成訓練數(shù)據(jù)。真實數(shù)據(jù)和仿真數(shù)據(jù)兩者是互補關系,未來訓練將大量混合使用真實數(shù)據(jù)和高質量的合成數(shù)據(jù)。當前具身智能數(shù)據(jù)多為廠商自采集,存在豐富開源數(shù)據(jù)集。當前給人形機器人采集的高質量數(shù)據(jù)通常在現(xiàn)實世界中獲取,采集方式主要有直接接觸數(shù)據(jù)(真機數(shù)據(jù))和間接接觸數(shù)據(jù)(人工控制數(shù)據(jù))兩種。最理想的數(shù)據(jù)采集方式是通過人形機器人本體直接觸達物理世界,讓其準確理解真實環(huán)境。大規(guī)模真機數(shù)據(jù)的采集成本高昂,需要投入許多人力、物力和時間資源,數(shù)據(jù)標注和采集設備都存在門檻。目前市面上存在豐富的高質量具身智能開源數(shù)據(jù)集,如智元、谷歌、國地共建中心等均開源了豐富的具身智能數(shù)據(jù)集,具備豐富的演示數(shù)量、場景任務和動作技能等。機器人仿真數(shù)據(jù)主要依賴虛擬場景,而場景的合成方案可拆解成兩個關鍵部分:場景生成(Gen)與模擬(Sim)。場景生成引擎(Gen)主要有兩種技術路徑:合成視頻+3D重建:基于像素流驅動,先生成視頻或圖像,再重建為點云或mesh等非結構化3D數(shù)據(jù),最終轉為結構化語義模型。如Hillbot、群核科技、World
labs(李飛飛)等。AIGC直接合成3D數(shù)據(jù):利用圖神經(jīng)網(wǎng)絡(GNN)、擴散模型(Diffusion)、注意力機制(Attention)等方法,直接合成結構化空間數(shù)據(jù)。如
ATISS、LEGO-Net、DiffuScene、RoomFormer
等代表模型,部分方案結合程序化生成技術,如
Infinigen(CVPR2024)。投資建議與相關標的:數(shù)據(jù)是推動具身智能技術快速突破和落地應用的關鍵,重點關注布局具身智能數(shù)據(jù)集的企業(yè),相關標的:均勝電子(數(shù)據(jù)場)、海天瑞聲(機器人數(shù)據(jù)集)、索辰科技(數(shù)據(jù)仿真)、華如科技(數(shù)據(jù)仿真)。風險提示:相關政策不及預期、各類型企業(yè)IT預算不及預期、市場競爭加劇。1投資要點研究成果1、
具身智能數(shù)據(jù)集基本概念
1、具身智能數(shù)據(jù)集基本概念3、國內(nèi)外具身智能仿真數(shù)據(jù)集現(xiàn)狀2、國內(nèi)外具身智能真實數(shù)據(jù)集現(xiàn)狀4、相關標的5、風險提示2具身智能數(shù)據(jù)集基本概念3具身智能四個最關鍵的因子:算法、算力、機器人硬件、數(shù)據(jù)。算法層面:ChatGPT、Deepseek、通義千問等一系列領先的模型,在算法層面國內(nèi)處于引領地位。算力層面:國外以英偉達、AMD為代表,國內(nèi)以寒武紀、海光信息、地平線等公司為代表,正在快速突圍。目前在訓練階段的算力瓶頸已經(jīng)解決。機器人硬件層面:中國目前具有豐富的產(chǎn)業(yè)鏈。數(shù)據(jù)層面:目前仍是世界級難題,如何給機器人提供用來訓練的可交互的數(shù)據(jù)是未來具身智能工作的重點之一。具身智能的世界級難題:數(shù)據(jù)數(shù)據(jù)來源:東吳證券研究所繪制圖:具身智能四大關鍵因子算法算力機器人硬件數(shù)據(jù)具身智能4數(shù)據(jù)是推動具身智能技術快速突破和落地應用的關鍵。借鑒自動駕駛汽車發(fā)展的路徑,數(shù)據(jù)對于具身智能同樣至關重要。優(yōu)質的數(shù)據(jù)集能夠驅動智能體感知與理解環(huán)境,能夠加速具身智能模型的訓練與部署,幫助機器人有效完成復雜任務。目前高質量、多樣化的數(shù)據(jù)集仍舊稀缺。不同于大語言模型可以使用互聯(lián)網(wǎng)海量信息作為訓練數(shù)據(jù),機器人所用的具身智能模型沒有現(xiàn)成數(shù)據(jù)可以使用,需要投入大量時間和資源進行機器人操作實踐或仿真模擬,以收集視覺、觸覺、力覺、運動軌跡以及機器人本體狀態(tài)等多源異構數(shù)據(jù)。符合通用標準、得到驗證的數(shù)據(jù)集成為具身智能行業(yè)的剛需。當前具身智能本體形態(tài)多種多樣,應用場景千差萬別,對于具身智能訓練數(shù)據(jù)的需求也更為多元。目前業(yè)內(nèi)仍有部分數(shù)據(jù)集主要聚焦在特定機器人、特定場景和特定技能等方面,在整體通用性上有待提升。因此,構建高質量、多樣化的感知數(shù)據(jù)集是不可或缺的基礎工作,這些數(shù)據(jù)集不僅為算法訓練提供了豐富的素材,也成為了評估具身性能的基準參考標準。數(shù)據(jù)集的標準和有效也同樣重要。作為訓練具身智能大模型的重要原料,數(shù)據(jù)集采集是否符合標準、在訓練上是否“能用”、“好用”,是否能更有效支持模型泛化,已經(jīng)成為機器人變“聰明”的關鍵。具身智能浪潮來襲,數(shù)據(jù)供給瓶頸亟待突破數(shù)據(jù)來源:生境科技,東吳證券研究所圖:具身智能大腦整體框架5數(shù)據(jù)采集的關鍵價值包括:① 促進通用智能形成:具身數(shù)據(jù)支持機器人在復雜環(huán)境中實現(xiàn)通用任務能力,是類人智能演化的基礎;② 增強環(huán)境理解能力:比起圖像識別等靜態(tài)數(shù)據(jù),具身數(shù)據(jù)可捕捉動態(tài)交互、物體變化、力學反饋等多維信號;③ 支持任務遷移與泛化:不同場景中的具身體驗數(shù)據(jù),有助于提升模型從特定任務向通用任務的遷移能力;④ 提升實時決策能力:通過感知-理解-反饋數(shù)據(jù)閉環(huán),機器人可實現(xiàn)即時調(diào)整與精準操作。數(shù)據(jù)采集的價值和難點數(shù)據(jù)來源:機器人產(chǎn)業(yè)應用,東吳證券研究所圖:具身智能大腦整體框架6機器人數(shù)據(jù)分為真實數(shù)據(jù)和仿真數(shù)據(jù)兩類數(shù)據(jù)來源:中國信通院,東吳證券研究所數(shù)據(jù)類別各自優(yōu)缺點真實數(shù)據(jù)優(yōu)點:具備高度還原性和真實性仿真數(shù)據(jù)缺點:成本高、效率低,且難以控制變量優(yōu)點:具備高效、可控、易擴展等優(yōu)勢,能快速生成大規(guī)模、多模態(tài)的數(shù)據(jù),適合模型的預訓練階段缺點:可能存在“虛實差距”,通常需與現(xiàn)實數(shù)據(jù)配合使用以提升模型的泛化能力具身智能數(shù)據(jù)按采集方式主要分為真實數(shù)據(jù)和仿真數(shù)據(jù)兩大類。真實數(shù)據(jù):真實數(shù)據(jù)是智能體通過自身物理身體上的各類傳感器(如攝像頭、麥克風、觸覺傳感器等
),在與真實物理環(huán)境進行交互過程中,實時采集獲取的數(shù)據(jù)。真實數(shù)據(jù)主要來源有:機器人遙操(通過人工遠程操控獲取真實場景下的操作數(shù)據(jù))、動作捕捉(記錄人類在特定環(huán)境中的行為模式)。仿真數(shù)據(jù):借助計算機模擬技術,在虛擬環(huán)境中生成的、用于訓練具身智能的數(shù)據(jù)。通過構建虛擬場景、物體和智能體,模擬智能體與虛擬環(huán)境的交互過程來產(chǎn)生數(shù)據(jù)。即利用仿真環(huán)境生成訓練數(shù)據(jù)。兩者關系:仿真數(shù)據(jù)不會取代真實數(shù)據(jù),兩者是互補關系。未來訓練將大量混合使用真實數(shù)據(jù)和高質量的合成數(shù)據(jù)。仿真數(shù)據(jù)的優(yōu)勢是低成本、高效率、可控性強、多樣性高,缺點是真實性始終有限,無法完美還原物流世界。真實數(shù)據(jù)的作用是保證最終模型在真實世界中的可靠性和泛化能力。短期來看,仿真數(shù)據(jù)用于解決簡單任務,助力具身智能實現(xiàn)0到1的突破。尤其針對跑步、跳躍或者跳舞等簡單的運動任務,仿真數(shù)據(jù)已經(jīng)足夠支撐。反正數(shù)據(jù)的優(yōu)勢在于獲取快、成本低且數(shù)據(jù)量大。長期看,真實數(shù)據(jù)對處理復雜任務不可或缺,推動具身智能實現(xiàn)1到N的深度應用。圖:真實數(shù)據(jù)和仿真數(shù)據(jù)優(yōu)缺點7具身智能數(shù)據(jù)質量把控是重要一環(huán)。具身智能開發(fā)和驗證所需的數(shù)據(jù)集包括任務語言描述、場景語義、3D空間、本體狀態(tài)、運動軌跡、視觸感知等多模態(tài)、強異構的數(shù)據(jù),涉及不同的數(shù)據(jù)采集設備和數(shù)據(jù)獲取方式,且需要經(jīng)過多階段的數(shù)據(jù)處理,因此對數(shù)據(jù)質量的把控是很重要的一個環(huán)節(jié)。中國信通院人工智能研究所依托中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(AIIA)具身智能工作組,并聯(lián)合行業(yè)34家單位共同編制了《具身智能數(shù)據(jù)集質量要求及評價方法》,以推動大規(guī)模、高質量的具身智能數(shù)據(jù)集建設,助力具身智能技術創(chuàng)新和產(chǎn)業(yè)生態(tài)發(fā)展。首個具身智能數(shù)據(jù)采集標準發(fā)布。2024年11月,國家地方共建具身智能機器人創(chuàng)新中心牽頭立項《人工智能
具身智能
數(shù)據(jù)采集規(guī)范》工信部行業(yè)標準,這是國內(nèi)第一個具身智能數(shù)據(jù)集的行業(yè)標準,規(guī)范了具身智能數(shù)據(jù)集采集的格式,使不同公司采集的數(shù)據(jù)可以互相共享開源,能夠加速模型“涌現(xiàn)”。創(chuàng)新中心未來還將設計一系列數(shù)據(jù)集標準,為模型泛化保駕護航。2024年12月,創(chuàng)新中心正式發(fā)布了《具身智能標準化研究報告》、《具身智能數(shù)據(jù)集及評測研究報告》(即RoboMIND)兩項重磅報告,為行業(yè)的標準化與數(shù)據(jù)集建設提供指引。具身智能數(shù)據(jù)集采集標準的建立將進一步明確具身智能數(shù)據(jù)要求及質量等,從而加速具身智能行業(yè)的良性發(fā)展。數(shù)據(jù)質量:首個具身智能數(shù)據(jù)集標準發(fā)布數(shù)據(jù)來源:群核科技,東吳證券研究所圖:具身智能數(shù)據(jù)集質量要求及評價框架8國內(nèi)外具身智能真實數(shù)據(jù)集現(xiàn)狀9具身智能數(shù)據(jù)集發(fā)布機構發(fā)布時間演示數(shù)量場景任務動作技能采集方式AgiBot
World智元機器人,上海人工智能實驗室2024.12100+萬100+種數(shù)百個遙操作雙臂機器人和靈巧手OpenX-EmbodimentGoogle
Deepmind等21所機構2023.10140萬311種527個單臂、雙臂、四足等22種形態(tài)機器人DROIDStanford,UCBerkeley等13所機構2024.037.6萬564種86個遙操作單臂RT-1Google
Deepmind2022.1213.5萬2種2個遙操作單臂BridgeData
V2UCBerkeley,Stanford,GoogleDeepMnd,CMU2023.096萬24種13個遙操作單臂及腳本編程動作RoboSetCMU,Meta2023.099.85萬38種12個遙操作單機械臂及腳本編程動作BC-ZGoogle、UC
Berkeley、Stanford2022.022.6萬1種12個遙操作單機械臂MIMECMU2018.1082601種20個遙操作單機械臂ARIO鵬城實驗室、南方科技大學、中山大學2024.08300萬258種345個遙操作主從雙臂機器人RoboMIND國地中心、北京大學、智源研究院2024.125.5萬279種36個遙操作單臂、雙臂、人形機器人和靈巧手RH20T上海交通大學2023.0711萬7種140個遙操作單臂數(shù)據(jù)來源:整數(shù)智能,東吳證券研究所豐富的高質量具身智能數(shù)據(jù)集當前具身智能機器人數(shù)據(jù)多為廠商自采集。當前給人形機器人采集的高質量數(shù)據(jù)通常在現(xiàn)實世界中獲取,采集方式主要有直接接觸數(shù)據(jù)(真機數(shù)據(jù))和間接接觸數(shù)據(jù)(人工控制數(shù)據(jù))兩種。最理想的數(shù)據(jù)采集方式是通過人形機器人本體直接觸達物理世界,讓其準確理解真實環(huán)境。但是,大規(guī)模真機數(shù)據(jù)的采集成本高昂,需要投入許多人力、物力和時間資源,數(shù)據(jù)標注和采集設備都存在門檻。與此同時,物理世界的運行規(guī)律錯綜復雜,數(shù)據(jù)的采集往往難以全面反映所有相關的物理現(xiàn)象與知識。目前市面上存在豐富的高質量具身智能數(shù)據(jù)集,具備豐富的演示數(shù)量、場景任務和動作技能等。圖:部分開源高質量數(shù)據(jù)集10智元機器人攜手上海人工智能實驗室、國家地方共建人形機器人創(chuàng)新中心以及上海庫帕思,正式開源Agibot
World項目。AgiBotWorld是全球首個基于全域真實場景、全能硬件平臺、全程質量把控的百萬真機數(shù)據(jù)集。AgiBot
World數(shù)據(jù)集中涵蓋的場景具備多樣化和多元化特點,從抓取、放置、推、拉等基礎操作,到攪拌、折疊、熨燙等復雜動作,幾乎涵蓋了人類日常生活所需的絕大多數(shù)場景。AgiBot
World包含來自100個機器人的100多萬條演示軌跡。在長程數(shù)據(jù)規(guī)模上已超過谷歌OpenX-Embodiment數(shù)據(jù)集十倍。相比Google開源的Open
X-Embodiment數(shù)據(jù)集,AgiBot
World長程數(shù)據(jù)規(guī)模高出10倍,場景范圍覆蓋面擴大100倍,數(shù)據(jù)質量從實驗室級上升到工業(yè)級標準。技能:AgiBot
World數(shù)據(jù)集涵蓋了家居(40%)、餐飲(20%)、工業(yè)(20%)、辦公室(10%)、超市(10%)等上百種通用場景和3000多個操作對象。相較于國外廣泛使用的Open
X-Embodiedment數(shù)據(jù)集和DROID數(shù)據(jù)集,AgiBot
World數(shù)據(jù)集在數(shù)據(jù)時長分布上顯著提升,其中80%的任務均為長程任務,任務時長集中在60s-150s之間,并且包含多個原子技能,長程數(shù)據(jù)是DROID和OpenX-Embodiment的10倍以上,3000多種物品基本涵蓋了這五大場景。數(shù)據(jù)采集:AgiBot
World基于全身可控的移動式雙臂機器人進行數(shù)據(jù)采集,配備了視覺觸覺傳感器、六維力傳感器、六自由度靈巧手等先進設備,可用于模仿學習、多智能體協(xié)作等前沿研究。智元Genie-1機器人包括8個環(huán)繞式布局的攝像頭,實時360度全方位感知;6自由度靈巧手,末端六維力傳感器和高精度觸覺傳感器;全身擁有32個主動自由度。智元:AgiBot World百萬級機器人數(shù)據(jù)集圖:多樣化任務演示11數(shù)據(jù)來源:中國機器人網(wǎng),東吳證券研究所Open
X-Embodiment是由谷歌DeepMind聯(lián)手21家國際知名機構的34個研究實驗室,整合60個現(xiàn)有的機器人數(shù)據(jù)集創(chuàng)建的一個開放的、大規(guī)模的標準化機器人學習數(shù)據(jù)集。Open
X-Embodiment
Dataset研究人員將不同來源的數(shù)據(jù)集轉換為了統(tǒng)一的數(shù)據(jù)格式,便于用戶下載和使用,每一組數(shù)據(jù)以一系列
“episode”
呈現(xiàn),并通過谷歌制定的RLDS格式描述,確保了高度的兼容性和易于理解性。規(guī)模涵蓋從單臂機器人到雙臂機器人,再到四足機器人等22種不同形態(tài)的機器人,共包含超過100萬條機器人演示軌跡、311個場景、527項技能和160,266項任務。場景:研究人員在機器人數(shù)據(jù)混合上訓練了兩個模型:(1)RT-1,一種專為機器人控制而設計的基于Transformer的高效架構;(2)RT-2,一種大型視覺語言模型,經(jīng)過共同微調(diào),將機器人動作輸出為自然語言標記。兩種模型均輸出相對于機器人夾持器框架表示的機器人動作。機器人動作是一個7維向量,由x、y、z、滾動、俯仰、偏航和夾持器張開或這些量的速率組成。對于機器人未使用其中某些維度的數(shù)據(jù)集,在訓練期間將相應維度的值設置為零。將使用機器人數(shù)據(jù)混合訓練的RT-1模型稱為RT-1-X,并使用機器人數(shù)據(jù)混合訓練的RT-2模型RT-2-X。谷歌:構建Open X-Embodiment開源數(shù)據(jù)集圖:機器人學習數(shù)據(jù)集與
RT-X
模型12數(shù)據(jù)來源:中國機器人網(wǎng),東吳證券研究所2024年12月27日,國家地方共建具身智能機器人創(chuàng)新中心與北京大學計算機學院聯(lián)合推出了一個大規(guī)模多構型具身智能數(shù)據(jù)集和Benchmark——RoboMind,基于成型標準采集,經(jīng)多個模型訓練驗證有效,支持多本體多任務并具備通用性,充分解決了目前全球開源數(shù)據(jù)集,量大但數(shù)據(jù)質量參差不齊、通用性復用性差、部分數(shù)據(jù)實測效果不理想等問題,有效滿足復雜場景具身智能高效率和針對性的訓練。創(chuàng)新中心發(fā)布的RoboMind數(shù)據(jù)集,采用了包括含單臂機器人、雙臂機器人、人形機器人,手臂末端使用夾爪或者靈巧手等多種形態(tài)的機器人本體進行數(shù)據(jù)采集,包含了涉及279項不同的任務多類場景,涵蓋了高達61種不同的物體,覆蓋了家居、廚房、工廠、辦公、零售等大部分生活服務場景,對科研突破和場景應用均十分友好。創(chuàng)新中心持續(xù)采集長程復雜任務,目前已經(jīng)積累數(shù)十萬條高質量數(shù)據(jù),以真機數(shù)據(jù)為主,配以仿真遙操作數(shù)據(jù)。在數(shù)據(jù)質量與使用價值上,一條數(shù)據(jù)等同于目前現(xiàn)有數(shù)據(jù)集的多條存量數(shù)據(jù)。創(chuàng)新中心計劃首批開源10萬條,后續(xù)逐步釋放,涵蓋更多機器人本體和場景任務。國地共建機器人創(chuàng)新中心:RoBoMind數(shù)據(jù)集圖:RoboMind數(shù)據(jù)集多形態(tài)機器人,多場景驗證13數(shù)據(jù)來源:中國機器人網(wǎng),東吳證券研究所特斯拉Optimus機器人的數(shù)據(jù)有三個來源,主要是基于特斯拉存量實際采集的數(shù)據(jù)+高精度仿真模擬采集的數(shù)據(jù)+機器人物理采集的數(shù)據(jù)。從Tesla放出的視頻中可以看出,目前Optimus的數(shù)據(jù)來自于VR遙操+動捕手套:操作員會戴上VR眼鏡用于和機器人的視野對齊動捕手套捕捉的手指運動轉發(fā)到Optimus的靈巧手上特斯拉:復用自動駕駛的模型和數(shù)據(jù)能力圖:特斯拉遙控數(shù)據(jù)采集圖14數(shù)據(jù)來源:中國機器人網(wǎng),東吳證券研究所2025年1月,國家地方共建人形機器人創(chuàng)新中心建設的全國首個異構人形機器人訓練場正式啟用。助力數(shù)據(jù)采集,訓練場應運而生。2025年年1月,位于上海的國家地方共建人形機器人創(chuàng)新中心啟用具身智能訓練場,訓練場可容納100余臺人形機器人同時訓練。經(jīng)過前期搭建,目前國地中心訓練場已吸納102臺機器人,在不同的分區(qū)中進行持續(xù)訓練。其中,最大的特點是經(jīng)過前期搭建,目前國地中心訓練場已吸納102臺機器人,在不同的分區(qū)中進行持續(xù)訓練。其中,最大的特點是異構機器人的集體亮相。異構人形機器人是指不同廠家生產(chǎn)的,在形態(tài)、功能、技術架構、應用場景等方面存在差異的人形機器人。在訓練場里,重點圍繞智能制造、民生服務以及特種作業(yè)等國家重點領域的場景應用,配備先進的傳感器和數(shù)據(jù)采集系統(tǒng),在高度還原的環(huán)境中對機器人進行任務訓練,成為“多機、多場景、多任務”異構人形機器人數(shù)據(jù)采集的重要陣地。國內(nèi)首個具身智能數(shù)據(jù)采集標準圖:工程師對機器人進行訓練15數(shù)據(jù)來源:上海經(jīng)信委,東吳證券研究所國內(nèi)外具身智能仿真數(shù)據(jù)集現(xiàn)狀16仿真數(shù)據(jù):場景生成引擎的兩種技術路徑機器人仿真數(shù)據(jù)主要依賴虛擬場景,而場景的合成方案可拆解成兩個關鍵部分:場景生成(Gen)與模擬(Sim)。場景生成引擎(Gen)主要有兩種技術路徑:合成視頻+3D重建:基于像素流驅動,先生成視頻或圖像,再重建為點云或mesh等非結構化3D數(shù)據(jù),最終轉為結構化語義模型。如Hillbot、群核科技、World
labs(李飛飛)等。AIGC直接合成3D數(shù)據(jù):利用圖神經(jīng)網(wǎng)絡(GNN)、擴散模型(Diffusion)、注意力機制(Attention)等方法,直接合成結構化空間數(shù)據(jù)。如
ATISS、LEGO-Net、DiffuScene、RoomFormer
等代表模型,部分方案結合程序化生成技術,如
Infinigen(CVPR
2024)。圖:“3D場景合成+仿真模擬+現(xiàn)實交互”sim2real技術框架圖:場景生成(Gen)與模擬(Sim)17數(shù)據(jù)來源:生境科技,東吳證券研究所路線一:視頻合成+3D重建圖:Genesis
與常用的基于
CPU
和
GPU的機器人模擬器的速度比較合成視頻+3D重建:基于像素流驅動,先生成視頻或圖像,再重建為點云或mesh等非結構化3D數(shù)據(jù),最終轉為結構化語義模型。如Hillbot、群核科技、李飛飛“World
Models”項目等。18數(shù)據(jù)來源:生境科技,東吳證券研究所端到端3D合成數(shù)據(jù):利用圖神經(jīng)網(wǎng)絡(GNN)、擴散模型(Diffusion)、注意力機制(Attention)等方法,直接合成結構化空間數(shù)據(jù)。端到端3D算法優(yōu)勢:穩(wěn)定性強、高效低成本、信息完整、控制性強、可拓展性強。路線二:端到端的3D直接生成圖:“端到端3D場景合成”技術路線19數(shù)據(jù)來源:量子位,東吳證券研究所群核科技的SpatialLM和SpatialVerse是該路線的代表性技術。群核科技成立于2011年,是一家以AI技術和GPU集群為底座的空間智能企業(yè),公司構建了一套物理正確的世界模擬器,并運用在室內(nèi)空間場景下的實時渲染、工業(yè)生產(chǎn)制造,以及虛擬物理世界訓練等場景。公司旗下?lián)碛锌臻g設計軟件【酷家樂】、海外版產(chǎn)品【Coohom】、面向室內(nèi)環(huán)境AI開發(fā)的下一代空間智能解決方案【群核空間智能平臺】(SpatialVerse)以及空間理解模型SpatialLM等。SpatialVerse為機器人提供優(yōu)質的數(shù)據(jù)服務。群核科技推出的空間智能解決方案SpatialVerse
構建了龐大且物理正確的數(shù)據(jù)集庫,模仿真實世界物理特性和空間關系,通過合成數(shù)據(jù)方案為機器人搭建起接近物理真實的“數(shù)字道場”,幫助機器人在仿真環(huán)境下完成例如疊被子、遞送水杯、開關冰箱門等行動的交互訓練。群核科技:空間智能領軍企業(yè)圖:群核科技發(fā)布的物理世界模擬器圖:群核科技具身合成技術路線20數(shù)據(jù)來源:群核科技,生境科技,東吳證券研究所Hillbot成立于2024年,是一家專注具身合成數(shù)據(jù)的企業(yè)。Hillbot
的核心在于利用
3D
生成式
AI
技術,通過文字提示生成3D對象,再將生成好的
3D
對象,放入自主開發(fā)的模擬器
SAPIEN
中。這種方法通過生成數(shù)據(jù)和模擬真實環(huán)境中的互動,提供了源源不斷的數(shù)據(jù)流。其技術路徑包括通過
NVIDIA
Cosmos
快速生成環(huán)境視頻片段,利用
Sapien/ManiSkill
對視頻進行3D場景解析和重建。此過程中,Hillbot通過標簽化的三維模型庫將物體(如冰箱、餐桌)替換為仿真中的對應對象,并賦予物理屬性,從而實現(xiàn)機器人與虛擬環(huán)境的交互。Hillbot:專注具身合成數(shù)據(jù)圖:Hillbot具身合成技術路線21數(shù)據(jù)來源:Hillbot,生境科技,東吳證券研究所World
Labs
是一家專注于空間智能的人工智能公司,致力于打造大型世界模型(LWM),以感知、生成并與
3D
世界進行交互。World
Labs
采用先進的深度學習和計算機視覺技術,結合大規(guī)模數(shù)據(jù)集,進行空間數(shù)據(jù)的建模與推理。公司致力于為開發(fā)者和行業(yè)提供一套具有深度空間理解、動態(tài)交互和生成能力的
AI
工具和平臺,讓機器不僅能夠理解視覺圖像,還能在真實世界的三維空間中“感知”并做出反應。2024年12月,World
Labs發(fā)布空間智能模型,生成更加逼近物理世界的
3D
環(huán)境建模,而不僅僅是可互動視頻,更接近理解圖片的物理關系。World Labs(李飛飛):發(fā)布高保真仿真平臺圖:利用3D場景來構建交互結果22數(shù)據(jù)來源:中國機器人網(wǎng),東吳證券研究所2025年2月25日,智元機器人宣布出自主研發(fā)的大型仿真框架AgiBot
Digital
World,為機器人操作提供靈活的仿真數(shù)據(jù)生成方案、預訓練的大規(guī)模仿真數(shù)據(jù)和統(tǒng)一的模型評測標準,同步開源海量仿真數(shù)據(jù)!AgiBot
Digital
World作為一款專為機器人操作技能研究與應用設計的仿真框架,集成了海量的逼真三維資產(chǎn)、多樣化的專家軌跡生成機制和全面的模型評估工具。通過高保真地模擬訓練場景,全鏈自動化地生成數(shù)據(jù)。智元機器人開源上線海量規(guī)模的仿真數(shù)據(jù)集AgiBot
Digital
World
Dataset,涵蓋5大類場景、180+品類具體物品、9種常見材質、12種核心技能,具有質量高、泛化快、任務多樣、應用靈活的特點。智元:推出AgiBot Digital World仿真框架,助力仿真數(shù)據(jù)生成圖:AgiBotDigitalWorld仿真數(shù)據(jù)訓練流程分類具體場景9大類材質木質、地毯、石制、布料、金屬、混凝土、大理石、瓷磚、玻璃180+類物品家用電器、衣物配飾、日雜用品、食品飲料、清潔護理、母嬰玩具、電子產(chǎn)品、辦公用品、體育用品、其他12類原子技能抓、放、插、倒、點擊、滑、推、拉、扭、按、開、關5類環(huán)境家居、商超、辦公、餐飲、工業(yè)23數(shù)據(jù)來源:智元機器人,東吳證券研究所圖:專家示范生成流水線生成式物理引擎Genesis發(fā)布。2024年12月中旬,CMU
聯(lián)合其他
20
多所研究實驗室開源發(fā)布了一個生成式物理引擎:Genesis。發(fā)布的Genesis
是一個用于通用機器人學習的生成式和可微分的物理引擎,提供了一個統(tǒng)一的模擬平臺,支持各種材料的模擬,能夠模擬廣泛的機器人任務,同時完全支持可微分特性。旨在為機器人解鎖無限且多樣化的數(shù)據(jù),讓它們能夠在前所未有的各種環(huán)境中學習廣泛的技能。Genesis:開源生成式物理引擎圖:Genesis
與常用的基于
CPU
和
GPU的機器人模擬器的速度比較24數(shù)據(jù)來源:機器之心,東吳證券研究所NVIDIA
Isaac
Sim
是一款基于
NVIDIA
Omniverse
構建的參考應用程序,用于在基于物理的虛擬環(huán)境中開發(fā)、仿真和測試由
AI
驅動的機器人。2025年1月,英偉達推出了全新Isaac
Sim
4.5版本,其中NVIDIA
Cosmos世界基礎模型,結合
Isaac
Sim
可生成大量可控的合成數(shù)據(jù),可用于訓練機器人感知系統(tǒng)。
同時發(fā)布的NVIDIA
Isaac
GR00T
Blueprint,人形機器人開發(fā)者現(xiàn)在可以利用該Blueprint,通過少量人類示范構建自定義數(shù)據(jù)管線,生成大量合成軌跡數(shù)據(jù)。英偉達: NVIDIA Isaac Sim結合Comsmos可生成可控合成
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 車主與司機智能駕駛培訓合同
- 大型金屬礦產(chǎn)采礦權抵押擔保合同范本
- 星球美術教學課件
- 醫(yī)療專業(yè)常見病癥診斷與處理知識測試試卷
- 2024-2025學年安徽省江南十校高一下學期5月份聯(lián)考化學試題及答案(人教B卷)
- 保險客戶關系管理培訓體系構建考核試卷
- 3D打印在助聽器制造中的應用考核試卷
- 原料配比對人造板抗變形性能的影響考核試卷
- 中草藥養(yǎng)生與四季養(yǎng)生搭配考核試卷
- 在職護士考試試題及答案
- 深圳輔警考試試卷真題及答案
- 收樓驗房知識培訓課件
- 林草行業(yè)安全生產(chǎn)
- 防中暑課件部隊
- 《洗紅領巾》(教案)-2024-2025學年二年級上冊勞動蘇科版
- 2025年公安輔警招聘知識考試題(附含答案)
- 辦公家具采購項目投標方案投標文件(技術方案)
- 電子商務數(shù)據(jù)分析實戰(zhàn)題庫
- 義務教育物理課程標準
- 國家開放大學本科《商務英語4》一平臺在線形考(單元自測1至8)試題及答案2025珍藏版
- 2025浙江紹興市高速公路運營管理限公司高速公路人員招聘277人高頻重點提升(共500題)附帶答案詳解
評論
0/150
提交評論