目录


前面我们聊过很多 AI Agent 相关概念:

Agent Loop:Agent 如何循环做事
Dynamic Workflows:Agent 如何选择正确流程
Agent Eval:如何评估 Agent 是否可靠
Agent Native:软件如何为 Agent 重新设计

这些内容大多发生在数字世界里。

比如:

读文件
写代码
调用工具
操作网页
生成报告
查询数据库
管理任务

但还有一个更大的方向正在变热:

具身智能,Embodied AI。

如果说 AI Agent 是数字世界里的行动者,那么具身智能就是物理世界里的行动者。

它关心的问题不是:

AI 能不能回答问题?

而是:

AI 能不能在真实世界中感知、理解、行动,并根据反馈完成任务?

比如:

机器人能不能整理桌面?
自动驾驶系统能不能理解道路?
机械臂能不能抓起杯子?
家用机器人能不能帮人收拾房间?
工厂机器人能不能根据环境变化调整动作?

这些都属于具身智能的范围。


一、为什么现在要聊具身智能?

具身智能不是一个新词。

机器人、自动驾驶、强化学习、控制系统,其实都已经发展很多年了。

但最近它重新变得重要,原因是大模型和多模态模型开始进入物理世界。

过去的 AI 更像是:

看文字
生成文字
看图片
生成图片
理解视频
回答问题

而现在的前沿方向开始变成:

看见世界
理解空间
规划动作
控制身体
完成任务

这就是从“语言智能”走向“行动智能”。

最近几年出现了几个关键变化:

1. 多模态大模型能同时理解文字、图像、视频和音频
2. 机器人基础模型开始把视觉、语言和动作连在一起
3. 世界模型开始用于预测物理环境变化
4. 仿真环境可以生成大量机器人训练数据
5. 人形机器人、自动驾驶和工业机器人需求持续上升

Google DeepMind 推出了 Gemini Robotics,用 Gemini 的多模态能力连接机器人感知、推理和动作。NVIDIA 推出 Cosmos、Isaac GR00T 等 physical AI 相关模型和平台,强调用世界模型、仿真和机器人基础模型推动真实世界智能。学术界也在持续讨论 embodied world models、robot foundation models 和 vision-language-action models。

所以,具身智能正在成为 AI 的下一条主线之一。

一句话:

如果前几年的 AI 重点是“理解和生成内容”,那么具身智能关注的是“理解世界并在世界中行动”。


二、具身智能是什么?

具身智能,英文是 Embodied AI。

可以这样理解:

具身智能是指智能体拥有某种“身体”或行动载体,能够通过传感器感知环境,通过动作影响环境,并在感知和行动的闭环中完成任务。

这里的“身体”不一定是人形机器人。

它可以是:

机械臂
移动机器人
无人车
无人机
扫地机器人
自动驾驶汽车
智能家居设备
工业设备
虚拟仿真环境中的机器人

重点不在于外形像不像人,而在于它是否具备:

感知环境
理解目标
规划动作
执行动作
接收反馈
适应变化

例如,一个聊天机器人没有具身智能,因为它只能输出文字。

但一个能看见桌面、移动手臂、抓起杯子、放到指定位置的机器人,就具备某种具身智能。

可以简单对比:

普通 AI:在信息空间里回答问题
具身智能:在物理空间里完成任务

三、具身智能和普通大模型有什么区别?

普通大模型主要处理符号和信息。

比如:

文字
代码
图片
音频
视频
文档
网页

它的输出通常是:

一段文字
一段代码
一张图片
一个分析结果
一个工具调用

而具身智能面对的是物理世界。

它需要处理:

空间位置
物体形状
距离
重量
摩擦
遮挡
碰撞
速度
力
时间
安全边界

这就复杂很多。

普通大模型说:

把杯子放到桌子上。

这很简单。

但机器人真正执行时,需要知道:

杯子在哪里?
桌子在哪里?
杯子能不能抓?
抓哪里不会滑?
手臂路径会不会碰到其他东西?
杯子里有没有水?
放下时力度多大?
如果杯子倾斜了怎么办?

这就是具身智能的难点。

语言世界里,错误可能只是一句话不准确。
物理世界里,错误可能导致东西摔坏、机器损坏,甚至伤害人。

所以具身智能不仅需要“聪明”,还需要“稳”。


四、具身智能和 AI Agent 有什么关系?

AI Agent 通常指能自主完成任务的智能体。

它可能在数字世界里行动:

读文件
调 API
写代码
操作浏览器
生成表格
运行测试

具身智能则是物理世界里的 Agent。

它的工具不是只有 API,而是:

摄像头
麦克风
机械臂
轮子
夹爪
传感器
电机
控制器
导航系统

可以这样理解:

数字 Agent:在软件环境里行动
具身 Agent:在物理环境里行动

它们都有类似的循环:

目标 -> 感知 -> 计划 -> 行动 -> 观察反馈 -> 修正 -> 完成

只是环境不同。

数字 Agent 的反馈可能是:

测试是否通过
网页是否加载
API 是否返回成功
文件是否修改

具身 Agent 的反馈可能是:

杯子是否抓住
机器人是否撞到障碍物
门是否打开
物体是否移动到目标位置
人是否进入危险区域

所以,具身智能可以看作 AI Agent 的物理世界版本。


五、为什么“身体”很重要?

具身智能最特别的地方是“身体”。

为什么身体重要?

因为很多智能不是只靠思考产生的,而是在和环境互动中形成的。

比如人类学习倒水。

你不能只靠读一本说明书就完全掌握。

你需要:

拿起水壶
感受重量
调整倾斜角度
观察水流
发现倒太快会溅出来
下次改小角度

这是一种通过身体和环境互动获得的智能。

机器人也是一样。

它不能只知道:

杯子是圆柱体
桌子是平面
水会流动

它还需要知道:

这个杯子怎么抓
这个桌面会不会滑
这个动作会不会碰撞
这个力度够不够
这个路径安不安全

这些知识往往来自行动反馈。

这也是具身智能的核心思想:

智能不只是大脑里的推理,也来自身体和环境之间的互动。


六、具身智能的核心循环

具身智能也可以看成一种 Loop。

它的基本循环是:

感知 -> 理解 -> 规划 -> 行动 -> 反馈 -> 修正

或者更完整一点:

目标 Goal
-> 感知 Perception
-> 理解 Understanding
-> 规划 Planning
-> 控制 Control
-> 行动 Action
-> 反馈 Feedback
-> 更新状态 Update
-> 继续或停止

这和 Agent Loop 很像。

区别是:

Agent Loop 面向工具和软件环境
具身智能 Loop 面向传感器和物理环境

例如机器人整理桌面:

目标:把桌面整理干净
感知:摄像头看到杯子、书、本子、垃圾
理解:杯子应该放杯架,书应该放书架,垃圾应该扔掉
规划:先移动易碎物,再处理垃圾
行动:机械臂抓取物体
反馈:确认物体是否被成功移动
修正:如果没抓稳,重新调整抓取姿态
完成:桌面达到目标状态

这就是具身智能的闭环。


七、感知:先看见真实世界

具身智能的第一步是感知。

它要通过传感器获得环境信息。

常见传感器包括:

摄像头
深度相机
激光雷达
麦克风
触觉传感器
力传感器
IMU
GPS
编码器
温度传感器

不同场景需要不同感知方式。

自动驾驶需要:

摄像头
雷达
激光雷达
高精地图
车辆状态传感器

机械臂抓取需要:

摄像头
深度信息
夹爪状态
力反馈
物体姿态估计

家用机器人需要:

视觉
语音
空间地图
障碍物检测
人类位置感知

感知不是简单“拍一张照片”。

机器人需要从感知中提取可行动的信息:

物体在哪里
障碍物在哪里
人在哪里
可行路径在哪里
目标是否已经完成

这就是具身智能和普通图像识别的区别。

普通图像识别可能只需要回答:

图中有什么?

具身智能还要回答:

我能不能过去?
我能不能抓?
我该怎么抓?
我动作后会发生什么?

八、理解:知道物体、空间和任务

感知之后,机器人要理解环境。

理解包括几个层次。

1. 物体理解

机器人需要知道:

这是杯子
这是书
这是刀
这是垃圾
这是按钮
这是门把手

还要知道物体属性:

易碎
锋利
柔软
可抓取
可推动
可打开
可堆叠

比如杯子和纸巾都能被拿起,但抓取方式不同。

2. 空间理解

机器人需要理解空间关系:

杯子在桌子上
书在电脑旁边
垃圾桶在椅子右侧
门在走廊尽头
人站在机器人前方

空间理解对行动非常重要。

因为机器人要知道自己在哪里、目标在哪里、路径怎么走。

3. 任务理解

机器人还要理解用户意图。

用户说:

把桌子收拾一下。

这不是一个精确命令。

机器人要推断:

哪些东西算乱?
哪些东西应该保留?
哪些东西应该丢掉?
哪些东西需要询问用户?

这就需要常识和上下文。

例如:

空饮料瓶可能是垃圾
打开的笔记本电脑不能随便合上
水杯不能倒置
文件不能随便扔掉

具身智能需要的不只是识别能力,还需要场景理解。


九、规划:把目标拆成动作步骤

理解环境后,机器人要规划。

规划就是把目标拆成可执行步骤。

比如目标是:

把桌面整理干净。

机器人可能规划:

1. 识别桌面上的物体
2. 区分可移动物体和不可移动物体
3. 先处理易碎物体
4. 把杯子放到杯垫上
5. 把书叠放整齐
6. 把垃圾放入垃圾桶
7. 检查桌面是否干净

这里有一个关键点:

规划必须考虑物理约束。

比如:

不能从桌子中间穿过去
不能让机械臂碰到显示器
不能把水杯倒过来
不能把重物放在易碎物上面
不能在人靠近时高速运动

数字 Agent 规划时,更多考虑工具和信息。

具身智能规划时,还要考虑空间、力学和安全。


十、行动:从语言输出到物理动作

对普通 AI 来说,输出一段文字就完成了。

对具身智能来说,输出不是文字,而是动作。

比如:

移动 30 厘米
旋转 15 度
打开夹爪
下降机械臂
施加一定力度
沿路径导航
避开障碍物

这就涉及控制系统。

高层模型可能决定:

抓起杯子。

但底层控制需要把它变成具体动作:

移动机械臂到杯子上方
调整夹爪角度
下降
闭合夹爪
检测是否抓住
抬起
移动到目标位置
放下
松开夹爪

这也是为什么具身智能通常不是单个模型能完成全部事情。

它往往需要多层系统:

高层推理模型:理解任务和规划
视觉模型:识别环境
动作模型:生成操作策略
控制器:执行底层动作
安全模块:监控风险

这更像一个完整系统,而不是一个聊天模型。


十一、反馈:通过环境结果修正自己

具身智能必须依赖反馈。

因为物理世界充满不确定性。

比如机器人想抓杯子:

预测杯子在这里
实际杯子偏了一点
夹爪没有抓稳
杯子滑了一下
桌面有水导致摩擦变化

这时机器人不能只按原计划执行。

它要根据反馈修正。

反馈可能来自:

视觉:杯子是否移动
触觉:有没有抓住
力传感器:力度是否异常
位置传感器:机械臂是否到位
任务状态:目标是否完成

这就是闭环控制。

没有反馈的机器人很脆弱。

它只能在理想环境中工作。

有反馈的机器人才能适应真实世界。


十二、多模态模型为什么推动具身智能?

过去机器人系统通常比较分散:

视觉识别一个模型
语言理解一个模型
路径规划一个模块
动作控制一个模块
任务决策一个模块

这些模块之间连接复杂,而且泛化能力有限。

多模态模型出现后,事情开始变化。

多模态模型可以同时处理:

文字
图片
视频
音频
空间关系
动作信息

这让机器人更容易理解人类指令和真实场景。

比如用户说:

把那个红色杯子放到水槽旁边。

机器人需要同时理解:

语言:“红色杯子”“水槽旁边”
视觉:哪个是红色杯子
空间:水槽在哪里,旁边是哪里
动作:怎么拿起杯子并放过去

这正是多模态模型擅长连接的内容。

Google DeepMind 的 Gemini Robotics 就强调将视觉、语言和动作结合,让机器人能够理解物理世界并执行任务。Gemini Robotics-ER 则更强调 embodied reasoning,也就是面向物理世界的推理能力。

所以,多模态模型是具身智能近期进展的重要基础。


十三、VLA 模型:Vision-Language-Action

具身智能里一个很重要的方向叫 VLA。

VLA 是:

Vision-Language-Action
视觉-语言-动作

它想解决的问题是:

如何让模型从“看见环境 + 理解语言”直接生成可执行动作?

传统模型可能是:

图像 -> 文字描述
文字指令 -> 文本回答

VLA 模型希望变成:

图像 + 指令 -> 动作

例如输入:

摄像头画面:桌上有杯子和盘子
语言指令:把杯子放到盘子右边

输出:

机械臂动作序列

VLA 的价值在于,它把感知、语言和行动连接起来。

这对通用机器人非常重要。

因为真实世界任务通常不是写死的。

用户不会说:

机械臂移动到坐标 x=0.42, y=0.18, z=0.10

用户会说:

把杯子放到那边。

机器人需要把自然语言转成动作。

这就是 VLA 的核心。


十四、世界模型:让机器人先在脑中模拟

另一个前沿方向是世界模型。

世界模型可以理解成:

模型对环境如何变化的内部预测。

人类做事时,经常会在脑中模拟。

比如你准备推一个杯子,会大概知道:

推轻了,杯子不会动
推重了,杯子可能倒
桌面滑,杯子会滑更远
杯子边缘受力,可能旋转

这就是一种世界模型。

机器人也需要类似能力。

世界模型可以帮助机器人预测:

如果我这么抓,物体会不会滑?
如果我走这条路,会不会撞到障碍物?
如果我把箱子放这里,会不会挡住门?
如果我推这个物体,它会移动到哪里?

NVIDIA Cosmos 这类 world foundation models,就是为了帮助开发者构建能理解、模拟和作用于真实世界的 physical AI 系统。

学术界也在讨论 world models for robot learning,关注如何让机器人通过预测未来状态来更好地学习和规划。

简单说:

没有世界模型:机器人只能试错
有世界模型:机器人可以先预测,再行动

这对安全和效率都很重要。


十五、仿真环境和合成数据的作用

具身智能有一个很大的难点:真实世界训练成本太高。

让机器人在真实世界里学习,会遇到很多问题:

数据采集慢
设备昂贵
实验容易损坏物体
危险动作不能随便试
长尾场景很难收集
环境变化太多

所以仿真环境非常重要。

在仿真里,机器人可以大量练习:

导航
抓取
避障
装配
开门
搬运
自动驾驶
人机协作

仿真环境的优点是:

成本低
速度快
可重复
可生成大量场景
可以安全测试危险情况

但仿真也有问题:

仿真和现实不完全一样
物理参数可能不准
视觉效果可能不同
真实世界噪声更多

这叫 sim-to-real gap,也就是仿真到现实的差距。

因此,具身智能需要同时利用:

真实数据
仿真数据
合成数据
人类示范
强化学习
自监督学习

NVIDIA 的 physical AI 平台和世界模型方向,就非常强调仿真、合成数据和机器人策略评估。


十六、复杂例子:机器人整理桌面

我们用一个复杂例子来理解具身智能。

任务:

请把我的桌面整理一下。

这句话对人来说很自然,但对机器人来说非常复杂。


第一步:感知环境

机器人用摄像头和深度传感器观察桌面。

它看到:

一个杯子
两本书
一支笔
一张纸
一个空饮料瓶
一台笔记本电脑
一团纸巾

第二步:理解物体

机器人需要判断:

杯子:易碎,可能有水,不能倒置
书:可以叠放
笔:可以放入笔筒
纸:需要判断是不是重要文件
空饮料瓶:可能是垃圾
笔记本电脑:不能随便移动
纸巾:可能是垃圾

这需要常识。

如果机器人把重要文件当垃圾扔掉,就很糟糕。


第三步:询问不确定项

机器人可能无法判断某张纸是否重要。

好的具身智能系统应该问:

这张写着会议记录的纸要保留还是丢掉?

这说明具身智能不是全自动乱做,而是知道什么时候需要人类确认。


第四步:规划顺序

机器人规划:

1. 不移动笔记本电脑
2. 先把杯子移到杯垫上
3. 把书叠放到桌角
4. 把笔放入笔筒
5. 把明确垃圾放入垃圾桶
6. 对不确定文件询问用户
7. 最后检查桌面状态

这里顺序很重要。

比如先处理杯子,可以减少洒水风险。


第五步:执行动作

机器人开始行动:

移动机械臂到杯子上方
调整夹爪
轻轻夹住杯子
抬起
移动到杯垫位置
放下
松开

执行中它要实时监控:

有没有抓稳
杯子有没有倾斜
路径有没有障碍物
人手是否突然伸过来

第六步:根据反馈修正

如果机器人发现杯子滑动,它要调整力度。

如果发现书太重,它要改变抓取方式。

如果发现垃圾桶位置被椅子挡住,它要重新规划路径。

这就是具身智能的反馈闭环。


第七步:完成并汇报

最后机器人说:

桌面已整理完成。
我移动了杯子、书和笔,丢弃了空饮料瓶和纸巾。
笔记本电脑没有移动。
那张会议记录纸我保留在桌面右上角,等待你确认。

这就是一个完整的具身智能任务。

它涉及:

视觉感知
物体识别
常识推理
任务规划
机械控制
安全监控
人类确认
结果反馈

十七、简单例子:扫地机器人避开障碍物

再看一个简单例子。

扫地机器人看到前方有椅子腿。

它需要做:

1. 感知障碍物
2. 判断不能直接撞上去
3. 规划绕行路线
4. 调整方向
5. 继续清扫

这个任务看起来很简单,但也包含具身智能的核心循环:

感知 -> 判断 -> 行动 -> 反馈 -> 修正

如果它撞到了椅子,也会得到反馈:

碰撞传感器触发

然后它后退、转向、重新规划。

这就是最朴素的具身智能。

复杂机器人和扫地机器人之间,区别只是能力规模不同。

本质循环是类似的。


十八、具身智能的典型应用场景

具身智能的应用非常广。

1. 家用机器人

比如:

整理房间
拿取物品
陪伴老人
辅助做饭
清洁卫生
家庭安防

难点是家庭环境非常复杂。

每个家庭布局不同,物品不同,人的习惯也不同。

2. 工业机器人

比如:

装配
搬运
质检
焊接
分拣
包装
维修

工业场景相对可控,因此更容易落地。

但如果要让机器人适应多品类、小批量、动态生产线,就需要更强具身智能。

3. 自动驾驶

自动驾驶也是具身智能的一种。

车辆需要:

感知道路
理解交通规则
预测行人和车辆
规划路径
控制方向和速度
处理突发情况

它是非常典型的感知-规划-控制系统。

4. 医疗和康复机器人

比如:

手术辅助
康复训练
护理机器人
药品配送
病房巡检

这类场景对安全要求极高。

5. 仓储物流

比如:

自动分拣
货架搬运
包裹抓取
路径规划
库存盘点

仓储物流已经是机器人落地较多的领域。

6. 危险环境作业

比如:

矿山
核电站
深海
火灾现场
灾后救援
化工厂

这些地方适合让机器人替代人类执行危险任务。


十九、具身智能的难点

具身智能很有前景,但也非常难。

1. 真实世界太复杂

真实世界不是干净的数据集。

它有:

光照变化
遮挡
噪声
反光
摩擦变化
物体形变
人类突然介入
未知物体
意外情况

机器人必须适应这些变化。

2. 数据采集成本高

训练语言模型可以用大量互联网文本。

但训练机器人需要动作数据。

动作数据很贵。

因为它通常需要:

真实机器人
真实环境
人类示范
传感器记录
安全控制
反复实验

这比文本数据难得多。

3. 安全要求高

数字 Agent 出错,可能是生成错误答案。

具身智能出错,可能会:

撞坏东西
夹伤人
摔碎物品
导致车辆事故
损坏设备

所以安全是具身智能的核心问题。

4. 泛化能力不足

机器人在实验室学会一个任务,不代表在真实家庭也能做好。

比如它学会抓一种杯子,但遇到:

透明杯子
带把手杯子
湿滑杯子
装满水的杯子
形状奇怪的杯子

可能表现就会变差。

5. 实时性要求高

具身智能需要快速反应。

比如自动驾驶不能慢慢思考几分钟。

机器人也不能在抓取过程中长时间停顿。

所以具身智能需要在模型能力和实时控制之间平衡。

6. 评测很难

如何判断一个机器人“真的可靠”?

不能只看一次演示视频。

需要评测:

成功率
失败类型
安全性
泛化能力
长时间稳定性
不同环境表现
人机协作体验

这比评测文本模型复杂得多。


二十、具身智能和 Agent Native 的关系

前面我们讲过 Agent Native:

软件系统如何为 Agent 提供可行动环境

具身智能可以看作:

物理世界中的 Agent Native 问题

在数字世界里,Agent 需要:

Action Model
权限系统
上下文
Trace
Eval
回滚机制

在物理世界里,具身 Agent 也需要类似东西:

可执行动作集合
安全边界
环境状态
操作轨迹
结果验证
紧急停止
人工接管

比如家用机器人应该知道:

可以拿杯子
可以扫地
可以开灯
不能随便打开抽屉
不能移动贵重物品
不能靠近小孩高速运动
不确定时要问人

这其实就是物理世界里的权限和治理。

所以 Agent Native 和具身智能不是两条完全分开的线。

它们会逐渐融合。


二十一、未来趋势:数字 Agent 和物理 Agent 会融合

未来的 Agent 可能不只存在于屏幕里。

它可能同时连接:

软件系统
机器人
传感器
智能家居
车辆
工业设备
AR 眼镜
可穿戴设备

比如你对一个家庭 Agent 说:

我晚上 7 点有朋友来,帮我准备一下。

它可能会:

查看日历
调整智能灯光
让扫地机器人清扫客厅
检查冰箱库存
生成购物清单
提醒你提前准备饮料
控制空调温度

这里既有数字任务,也有物理任务。

再比如工厂 Agent:

检查今天产线是否有异常。

它可能会:

读取生产数据
查看传感器日志
调度巡检机器人
分析摄像头画面
生成异常报告
提醒工程师处理

这就是数字 Agent 和具身智能的融合。

未来的 AI 不只是坐在聊天框里回答问题。

它会越来越多地进入真实工作流和真实环境。


二十二、总结

具身智能是 AI 从信息世界走向物理世界的重要方向。

它关注的不只是模型会不会说话,而是智能体能不能:

感知环境
理解空间
规划动作
执行任务
接收反馈
修正行为
安全完成目标

如果说:

大语言模型解决的是“理解和生成语言”
AI Agent 解决的是“在数字世界执行任务”
具身智能解决的是“在物理世界执行任务”

那么具身智能就是 AI 走向现实世界的一步。

它的核心循环是:

感知 -> 理解 -> 规划 -> 行动 -> 反馈 -> 修正

它背后的关键技术包括:

多模态模型
VLA 模型
世界模型
机器人基础模型
仿真环境
合成数据
强化学习
安全控制
人机协作

但它也面临很多挑战:

真实世界复杂
数据昂贵
安全要求高
泛化困难
实时性强
评测困难

我认为,理解具身智能最简单的一句话是:

AI Agent 是数字世界里的行动者,具身智能是物理世界里的行动者。

未来真正重要的 AI 系统,可能既能操作软件,也能理解现实环境;既能调用 API,也能控制机器人;既能生成计划,也能在真实世界中执行计划。

当 AI 开始拥有“身体”,智能就不再只是屏幕里的回答,而会变成现实世界中的行动。


参考资料

  • Google DeepMind:Gemini Robotics
    https://deepmind.google/models/gemini-robotics/

  • Google DeepMind:Gemini Robotics 1.5 brings AI agents into the physical world
    https://deepmind.google/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/

  • Google DeepMind:Gemini Robotics-ER 1.6
    https://deepmind.google/blog/gemini-robotics-er-1-6/

  • Google AI for Developers:Gemini Robotics-ER 1.6 API 文档
    https://ai.google.dev/gemini-api/docs/robotics-overview

  • NVIDIA Cosmos:Physical AI with World Foundation Models
    https://www.nvidia.com/en-us/ai/cosmos/

  • NVIDIA:Physical AI Models and Robotics Platforms
    https://investor.nvidia.com/news/press-release-details/2026/NVIDIA-Releases-New-Physical-AI-Models-as-Global-Partners-Unveil-Next-Generation-Robots/default.aspx

  • NVIDIA Blog:Virtual Worlds Powering the Physical AI Era
    https://blogs.nvidia.com/blog/gtc-2026-virtual-worlds-physical-ai/

  • arXiv:Gemini Robotics: Bringing AI to the Physical World
    https://arxiv.org/html/2503.20020v1

  • arXiv:World Model for Robot Learning: A Comprehensive Survey
    https://arxiv.org/html/2605.00080v1

  • Stanford HAI:Robotics in a Human-Centered World
    https://hai.stanford.edu/news/stanford-hai-conference-explores-robotics-in-a-human-centered-world-hype-hope-and-future-directions

  • CVPR 2025 Workshop:Foundation Models Meet Embodied Agents
    https://foundation-models-meet-embodied-agents.github.io/cvpr2025/

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐