从 AI Agent 到具身智能:当智能开始拥有“身体”
目录
- 一、为什么现在要聊具身智能?
- 二、具身智能是什么?
- 三、具身智能和普通大模型有什么区别?
- 四、具身智能和 AI Agent 有什么关系?
- 五、为什么“身体”很重要?
- 六、具身智能的核心循环
- 七、感知:先看见真实世界
- 八、理解:知道物体、空间和任务
- 九、规划:把目标拆成动作步骤
- 十、行动:从语言输出到物理动作
- 十一、反馈:通过环境结果修正自己
- 十二、多模态模型为什么推动具身智能?
- 十三、VLA 模型:Vision-Language-Action
- 十四、世界模型:让机器人先在脑中模拟
- 十五、仿真环境和合成数据的作用
- 十六、复杂例子:机器人整理桌面
- 十七、简单例子:扫地机器人避开障碍物
- 十八、具身智能的典型应用场景
- 十九、具身智能的难点
- 二十、具身智能和 Agent Native 的关系
- 二十一、未来趋势:数字 Agent 和物理 Agent 会融合
- 二十二、总结
- 参考资料
前面我们聊过很多 AI Agent 相关概念:
Agent Loop:Agent 如何循环做事
Dynamic Workflows:Agent 如何选择正确流程
Agent Eval:如何评估 Agent 是否可靠
Agent Native:软件如何为 Agent 重新设计
这些内容大多发生在数字世界里。
比如:
读文件
写代码
调用工具
操作网页
生成报告
查询数据库
管理任务
但还有一个更大的方向正在变热:
具身智能,Embodied AI。
如果说 AI Agent 是数字世界里的行动者,那么具身智能就是物理世界里的行动者。
它关心的问题不是:
AI 能不能回答问题?
而是:
AI 能不能在真实世界中感知、理解、行动,并根据反馈完成任务?
比如:
机器人能不能整理桌面?
自动驾驶系统能不能理解道路?
机械臂能不能抓起杯子?
家用机器人能不能帮人收拾房间?
工厂机器人能不能根据环境变化调整动作?
这些都属于具身智能的范围。
一、为什么现在要聊具身智能?
具身智能不是一个新词。
机器人、自动驾驶、强化学习、控制系统,其实都已经发展很多年了。
但最近它重新变得重要,原因是大模型和多模态模型开始进入物理世界。
过去的 AI 更像是:
看文字
生成文字
看图片
生成图片
理解视频
回答问题
而现在的前沿方向开始变成:
看见世界
理解空间
规划动作
控制身体
完成任务
这就是从“语言智能”走向“行动智能”。
最近几年出现了几个关键变化:
1. 多模态大模型能同时理解文字、图像、视频和音频
2. 机器人基础模型开始把视觉、语言和动作连在一起
3. 世界模型开始用于预测物理环境变化
4. 仿真环境可以生成大量机器人训练数据
5. 人形机器人、自动驾驶和工业机器人需求持续上升
Google DeepMind 推出了 Gemini Robotics,用 Gemini 的多模态能力连接机器人感知、推理和动作。NVIDIA 推出 Cosmos、Isaac GR00T 等 physical AI 相关模型和平台,强调用世界模型、仿真和机器人基础模型推动真实世界智能。学术界也在持续讨论 embodied world models、robot foundation models 和 vision-language-action models。
所以,具身智能正在成为 AI 的下一条主线之一。
一句话:
如果前几年的 AI 重点是“理解和生成内容”,那么具身智能关注的是“理解世界并在世界中行动”。
二、具身智能是什么?
具身智能,英文是 Embodied AI。
可以这样理解:
具身智能是指智能体拥有某种“身体”或行动载体,能够通过传感器感知环境,通过动作影响环境,并在感知和行动的闭环中完成任务。
这里的“身体”不一定是人形机器人。
它可以是:
机械臂
移动机器人
无人车
无人机
扫地机器人
自动驾驶汽车
智能家居设备
工业设备
虚拟仿真环境中的机器人
重点不在于外形像不像人,而在于它是否具备:
感知环境
理解目标
规划动作
执行动作
接收反馈
适应变化
例如,一个聊天机器人没有具身智能,因为它只能输出文字。
但一个能看见桌面、移动手臂、抓起杯子、放到指定位置的机器人,就具备某种具身智能。
可以简单对比:
普通 AI:在信息空间里回答问题
具身智能:在物理空间里完成任务
三、具身智能和普通大模型有什么区别?
普通大模型主要处理符号和信息。
比如:
文字
代码
图片
音频
视频
文档
网页
它的输出通常是:
一段文字
一段代码
一张图片
一个分析结果
一个工具调用
而具身智能面对的是物理世界。
它需要处理:
空间位置
物体形状
距离
重量
摩擦
遮挡
碰撞
速度
力
时间
安全边界
这就复杂很多。
普通大模型说:
把杯子放到桌子上。
这很简单。
但机器人真正执行时,需要知道:
杯子在哪里?
桌子在哪里?
杯子能不能抓?
抓哪里不会滑?
手臂路径会不会碰到其他东西?
杯子里有没有水?
放下时力度多大?
如果杯子倾斜了怎么办?
这就是具身智能的难点。
语言世界里,错误可能只是一句话不准确。
物理世界里,错误可能导致东西摔坏、机器损坏,甚至伤害人。
所以具身智能不仅需要“聪明”,还需要“稳”。
四、具身智能和 AI Agent 有什么关系?
AI Agent 通常指能自主完成任务的智能体。
它可能在数字世界里行动:
读文件
调 API
写代码
操作浏览器
生成表格
运行测试
具身智能则是物理世界里的 Agent。
它的工具不是只有 API,而是:
摄像头
麦克风
机械臂
轮子
夹爪
传感器
电机
控制器
导航系统
可以这样理解:
数字 Agent:在软件环境里行动
具身 Agent:在物理环境里行动
它们都有类似的循环:
目标 -> 感知 -> 计划 -> 行动 -> 观察反馈 -> 修正 -> 完成
只是环境不同。
数字 Agent 的反馈可能是:
测试是否通过
网页是否加载
API 是否返回成功
文件是否修改
具身 Agent 的反馈可能是:
杯子是否抓住
机器人是否撞到障碍物
门是否打开
物体是否移动到目标位置
人是否进入危险区域
所以,具身智能可以看作 AI Agent 的物理世界版本。
五、为什么“身体”很重要?
具身智能最特别的地方是“身体”。
为什么身体重要?
因为很多智能不是只靠思考产生的,而是在和环境互动中形成的。
比如人类学习倒水。
你不能只靠读一本说明书就完全掌握。
你需要:
拿起水壶
感受重量
调整倾斜角度
观察水流
发现倒太快会溅出来
下次改小角度
这是一种通过身体和环境互动获得的智能。
机器人也是一样。
它不能只知道:
杯子是圆柱体
桌子是平面
水会流动
它还需要知道:
这个杯子怎么抓
这个桌面会不会滑
这个动作会不会碰撞
这个力度够不够
这个路径安不安全
这些知识往往来自行动反馈。
这也是具身智能的核心思想:
智能不只是大脑里的推理,也来自身体和环境之间的互动。
六、具身智能的核心循环
具身智能也可以看成一种 Loop。
它的基本循环是:
感知 -> 理解 -> 规划 -> 行动 -> 反馈 -> 修正
或者更完整一点:
目标 Goal
-> 感知 Perception
-> 理解 Understanding
-> 规划 Planning
-> 控制 Control
-> 行动 Action
-> 反馈 Feedback
-> 更新状态 Update
-> 继续或停止
这和 Agent Loop 很像。
区别是:
Agent Loop 面向工具和软件环境
具身智能 Loop 面向传感器和物理环境
例如机器人整理桌面:
目标:把桌面整理干净
感知:摄像头看到杯子、书、本子、垃圾
理解:杯子应该放杯架,书应该放书架,垃圾应该扔掉
规划:先移动易碎物,再处理垃圾
行动:机械臂抓取物体
反馈:确认物体是否被成功移动
修正:如果没抓稳,重新调整抓取姿态
完成:桌面达到目标状态
这就是具身智能的闭环。
七、感知:先看见真实世界
具身智能的第一步是感知。
它要通过传感器获得环境信息。
常见传感器包括:
摄像头
深度相机
激光雷达
麦克风
触觉传感器
力传感器
IMU
GPS
编码器
温度传感器
不同场景需要不同感知方式。
自动驾驶需要:
摄像头
雷达
激光雷达
高精地图
车辆状态传感器
机械臂抓取需要:
摄像头
深度信息
夹爪状态
力反馈
物体姿态估计
家用机器人需要:
视觉
语音
空间地图
障碍物检测
人类位置感知
感知不是简单“拍一张照片”。
机器人需要从感知中提取可行动的信息:
物体在哪里
障碍物在哪里
人在哪里
可行路径在哪里
目标是否已经完成
这就是具身智能和普通图像识别的区别。
普通图像识别可能只需要回答:
图中有什么?
具身智能还要回答:
我能不能过去?
我能不能抓?
我该怎么抓?
我动作后会发生什么?
八、理解:知道物体、空间和任务
感知之后,机器人要理解环境。
理解包括几个层次。
1. 物体理解
机器人需要知道:
这是杯子
这是书
这是刀
这是垃圾
这是按钮
这是门把手
还要知道物体属性:
易碎
锋利
柔软
可抓取
可推动
可打开
可堆叠
比如杯子和纸巾都能被拿起,但抓取方式不同。
2. 空间理解
机器人需要理解空间关系:
杯子在桌子上
书在电脑旁边
垃圾桶在椅子右侧
门在走廊尽头
人站在机器人前方
空间理解对行动非常重要。
因为机器人要知道自己在哪里、目标在哪里、路径怎么走。
3. 任务理解
机器人还要理解用户意图。
用户说:
把桌子收拾一下。
这不是一个精确命令。
机器人要推断:
哪些东西算乱?
哪些东西应该保留?
哪些东西应该丢掉?
哪些东西需要询问用户?
这就需要常识和上下文。
例如:
空饮料瓶可能是垃圾
打开的笔记本电脑不能随便合上
水杯不能倒置
文件不能随便扔掉
具身智能需要的不只是识别能力,还需要场景理解。
九、规划:把目标拆成动作步骤
理解环境后,机器人要规划。
规划就是把目标拆成可执行步骤。
比如目标是:
把桌面整理干净。
机器人可能规划:
1. 识别桌面上的物体
2. 区分可移动物体和不可移动物体
3. 先处理易碎物体
4. 把杯子放到杯垫上
5. 把书叠放整齐
6. 把垃圾放入垃圾桶
7. 检查桌面是否干净
这里有一个关键点:
规划必须考虑物理约束。
比如:
不能从桌子中间穿过去
不能让机械臂碰到显示器
不能把水杯倒过来
不能把重物放在易碎物上面
不能在人靠近时高速运动
数字 Agent 规划时,更多考虑工具和信息。
具身智能规划时,还要考虑空间、力学和安全。
十、行动:从语言输出到物理动作
对普通 AI 来说,输出一段文字就完成了。
对具身智能来说,输出不是文字,而是动作。
比如:
移动 30 厘米
旋转 15 度
打开夹爪
下降机械臂
施加一定力度
沿路径导航
避开障碍物
这就涉及控制系统。
高层模型可能决定:
抓起杯子。
但底层控制需要把它变成具体动作:
移动机械臂到杯子上方
调整夹爪角度
下降
闭合夹爪
检测是否抓住
抬起
移动到目标位置
放下
松开夹爪
这也是为什么具身智能通常不是单个模型能完成全部事情。
它往往需要多层系统:
高层推理模型:理解任务和规划
视觉模型:识别环境
动作模型:生成操作策略
控制器:执行底层动作
安全模块:监控风险
这更像一个完整系统,而不是一个聊天模型。
十一、反馈:通过环境结果修正自己
具身智能必须依赖反馈。
因为物理世界充满不确定性。
比如机器人想抓杯子:
预测杯子在这里
实际杯子偏了一点
夹爪没有抓稳
杯子滑了一下
桌面有水导致摩擦变化
这时机器人不能只按原计划执行。
它要根据反馈修正。
反馈可能来自:
视觉:杯子是否移动
触觉:有没有抓住
力传感器:力度是否异常
位置传感器:机械臂是否到位
任务状态:目标是否完成
这就是闭环控制。
没有反馈的机器人很脆弱。
它只能在理想环境中工作。
有反馈的机器人才能适应真实世界。
十二、多模态模型为什么推动具身智能?
过去机器人系统通常比较分散:
视觉识别一个模型
语言理解一个模型
路径规划一个模块
动作控制一个模块
任务决策一个模块
这些模块之间连接复杂,而且泛化能力有限。
多模态模型出现后,事情开始变化。
多模态模型可以同时处理:
文字
图片
视频
音频
空间关系
动作信息
这让机器人更容易理解人类指令和真实场景。
比如用户说:
把那个红色杯子放到水槽旁边。
机器人需要同时理解:
语言:“红色杯子”“水槽旁边”
视觉:哪个是红色杯子
空间:水槽在哪里,旁边是哪里
动作:怎么拿起杯子并放过去
这正是多模态模型擅长连接的内容。
Google DeepMind 的 Gemini Robotics 就强调将视觉、语言和动作结合,让机器人能够理解物理世界并执行任务。Gemini Robotics-ER 则更强调 embodied reasoning,也就是面向物理世界的推理能力。
所以,多模态模型是具身智能近期进展的重要基础。
十三、VLA 模型:Vision-Language-Action
具身智能里一个很重要的方向叫 VLA。
VLA 是:
Vision-Language-Action
视觉-语言-动作
它想解决的问题是:
如何让模型从“看见环境 + 理解语言”直接生成可执行动作?
传统模型可能是:
图像 -> 文字描述
文字指令 -> 文本回答
VLA 模型希望变成:
图像 + 指令 -> 动作
例如输入:
摄像头画面:桌上有杯子和盘子
语言指令:把杯子放到盘子右边
输出:
机械臂动作序列
VLA 的价值在于,它把感知、语言和行动连接起来。
这对通用机器人非常重要。
因为真实世界任务通常不是写死的。
用户不会说:
机械臂移动到坐标 x=0.42, y=0.18, z=0.10
用户会说:
把杯子放到那边。
机器人需要把自然语言转成动作。
这就是 VLA 的核心。
十四、世界模型:让机器人先在脑中模拟
另一个前沿方向是世界模型。
世界模型可以理解成:
模型对环境如何变化的内部预测。
人类做事时,经常会在脑中模拟。
比如你准备推一个杯子,会大概知道:
推轻了,杯子不会动
推重了,杯子可能倒
桌面滑,杯子会滑更远
杯子边缘受力,可能旋转
这就是一种世界模型。
机器人也需要类似能力。
世界模型可以帮助机器人预测:
如果我这么抓,物体会不会滑?
如果我走这条路,会不会撞到障碍物?
如果我把箱子放这里,会不会挡住门?
如果我推这个物体,它会移动到哪里?
NVIDIA Cosmos 这类 world foundation models,就是为了帮助开发者构建能理解、模拟和作用于真实世界的 physical AI 系统。
学术界也在讨论 world models for robot learning,关注如何让机器人通过预测未来状态来更好地学习和规划。
简单说:
没有世界模型:机器人只能试错
有世界模型:机器人可以先预测,再行动
这对安全和效率都很重要。
十五、仿真环境和合成数据的作用
具身智能有一个很大的难点:真实世界训练成本太高。
让机器人在真实世界里学习,会遇到很多问题:
数据采集慢
设备昂贵
实验容易损坏物体
危险动作不能随便试
长尾场景很难收集
环境变化太多
所以仿真环境非常重要。
在仿真里,机器人可以大量练习:
导航
抓取
避障
装配
开门
搬运
自动驾驶
人机协作
仿真环境的优点是:
成本低
速度快
可重复
可生成大量场景
可以安全测试危险情况
但仿真也有问题:
仿真和现实不完全一样
物理参数可能不准
视觉效果可能不同
真实世界噪声更多
这叫 sim-to-real gap,也就是仿真到现实的差距。
因此,具身智能需要同时利用:
真实数据
仿真数据
合成数据
人类示范
强化学习
自监督学习
NVIDIA 的 physical AI 平台和世界模型方向,就非常强调仿真、合成数据和机器人策略评估。
十六、复杂例子:机器人整理桌面
我们用一个复杂例子来理解具身智能。
任务:
请把我的桌面整理一下。
这句话对人来说很自然,但对机器人来说非常复杂。
第一步:感知环境
机器人用摄像头和深度传感器观察桌面。
它看到:
一个杯子
两本书
一支笔
一张纸
一个空饮料瓶
一台笔记本电脑
一团纸巾
第二步:理解物体
机器人需要判断:
杯子:易碎,可能有水,不能倒置
书:可以叠放
笔:可以放入笔筒
纸:需要判断是不是重要文件
空饮料瓶:可能是垃圾
笔记本电脑:不能随便移动
纸巾:可能是垃圾
这需要常识。
如果机器人把重要文件当垃圾扔掉,就很糟糕。
第三步:询问不确定项
机器人可能无法判断某张纸是否重要。
好的具身智能系统应该问:
这张写着会议记录的纸要保留还是丢掉?
这说明具身智能不是全自动乱做,而是知道什么时候需要人类确认。
第四步:规划顺序
机器人规划:
1. 不移动笔记本电脑
2. 先把杯子移到杯垫上
3. 把书叠放到桌角
4. 把笔放入笔筒
5. 把明确垃圾放入垃圾桶
6. 对不确定文件询问用户
7. 最后检查桌面状态
这里顺序很重要。
比如先处理杯子,可以减少洒水风险。
第五步:执行动作
机器人开始行动:
移动机械臂到杯子上方
调整夹爪
轻轻夹住杯子
抬起
移动到杯垫位置
放下
松开
执行中它要实时监控:
有没有抓稳
杯子有没有倾斜
路径有没有障碍物
人手是否突然伸过来
第六步:根据反馈修正
如果机器人发现杯子滑动,它要调整力度。
如果发现书太重,它要改变抓取方式。
如果发现垃圾桶位置被椅子挡住,它要重新规划路径。
这就是具身智能的反馈闭环。
第七步:完成并汇报
最后机器人说:
桌面已整理完成。
我移动了杯子、书和笔,丢弃了空饮料瓶和纸巾。
笔记本电脑没有移动。
那张会议记录纸我保留在桌面右上角,等待你确认。
这就是一个完整的具身智能任务。
它涉及:
视觉感知
物体识别
常识推理
任务规划
机械控制
安全监控
人类确认
结果反馈
十七、简单例子:扫地机器人避开障碍物
再看一个简单例子。
扫地机器人看到前方有椅子腿。
它需要做:
1. 感知障碍物
2. 判断不能直接撞上去
3. 规划绕行路线
4. 调整方向
5. 继续清扫
这个任务看起来很简单,但也包含具身智能的核心循环:
感知 -> 判断 -> 行动 -> 反馈 -> 修正
如果它撞到了椅子,也会得到反馈:
碰撞传感器触发
然后它后退、转向、重新规划。
这就是最朴素的具身智能。
复杂机器人和扫地机器人之间,区别只是能力规模不同。
本质循环是类似的。
十八、具身智能的典型应用场景
具身智能的应用非常广。
1. 家用机器人
比如:
整理房间
拿取物品
陪伴老人
辅助做饭
清洁卫生
家庭安防
难点是家庭环境非常复杂。
每个家庭布局不同,物品不同,人的习惯也不同。
2. 工业机器人
比如:
装配
搬运
质检
焊接
分拣
包装
维修
工业场景相对可控,因此更容易落地。
但如果要让机器人适应多品类、小批量、动态生产线,就需要更强具身智能。
3. 自动驾驶
自动驾驶也是具身智能的一种。
车辆需要:
感知道路
理解交通规则
预测行人和车辆
规划路径
控制方向和速度
处理突发情况
它是非常典型的感知-规划-控制系统。
4. 医疗和康复机器人
比如:
手术辅助
康复训练
护理机器人
药品配送
病房巡检
这类场景对安全要求极高。
5. 仓储物流
比如:
自动分拣
货架搬运
包裹抓取
路径规划
库存盘点
仓储物流已经是机器人落地较多的领域。
6. 危险环境作业
比如:
矿山
核电站
深海
火灾现场
灾后救援
化工厂
这些地方适合让机器人替代人类执行危险任务。
十九、具身智能的难点
具身智能很有前景,但也非常难。
1. 真实世界太复杂
真实世界不是干净的数据集。
它有:
光照变化
遮挡
噪声
反光
摩擦变化
物体形变
人类突然介入
未知物体
意外情况
机器人必须适应这些变化。
2. 数据采集成本高
训练语言模型可以用大量互联网文本。
但训练机器人需要动作数据。
动作数据很贵。
因为它通常需要:
真实机器人
真实环境
人类示范
传感器记录
安全控制
反复实验
这比文本数据难得多。
3. 安全要求高
数字 Agent 出错,可能是生成错误答案。
具身智能出错,可能会:
撞坏东西
夹伤人
摔碎物品
导致车辆事故
损坏设备
所以安全是具身智能的核心问题。
4. 泛化能力不足
机器人在实验室学会一个任务,不代表在真实家庭也能做好。
比如它学会抓一种杯子,但遇到:
透明杯子
带把手杯子
湿滑杯子
装满水的杯子
形状奇怪的杯子
可能表现就会变差。
5. 实时性要求高
具身智能需要快速反应。
比如自动驾驶不能慢慢思考几分钟。
机器人也不能在抓取过程中长时间停顿。
所以具身智能需要在模型能力和实时控制之间平衡。
6. 评测很难
如何判断一个机器人“真的可靠”?
不能只看一次演示视频。
需要评测:
成功率
失败类型
安全性
泛化能力
长时间稳定性
不同环境表现
人机协作体验
这比评测文本模型复杂得多。
二十、具身智能和 Agent Native 的关系
前面我们讲过 Agent Native:
软件系统如何为 Agent 提供可行动环境
具身智能可以看作:
物理世界中的 Agent Native 问题
在数字世界里,Agent 需要:
Action Model
权限系统
上下文
Trace
Eval
回滚机制
在物理世界里,具身 Agent 也需要类似东西:
可执行动作集合
安全边界
环境状态
操作轨迹
结果验证
紧急停止
人工接管
比如家用机器人应该知道:
可以拿杯子
可以扫地
可以开灯
不能随便打开抽屉
不能移动贵重物品
不能靠近小孩高速运动
不确定时要问人
这其实就是物理世界里的权限和治理。
所以 Agent Native 和具身智能不是两条完全分开的线。
它们会逐渐融合。
二十一、未来趋势:数字 Agent 和物理 Agent 会融合
未来的 Agent 可能不只存在于屏幕里。
它可能同时连接:
软件系统
机器人
传感器
智能家居
车辆
工业设备
AR 眼镜
可穿戴设备
比如你对一个家庭 Agent 说:
我晚上 7 点有朋友来,帮我准备一下。
它可能会:
查看日历
调整智能灯光
让扫地机器人清扫客厅
检查冰箱库存
生成购物清单
提醒你提前准备饮料
控制空调温度
这里既有数字任务,也有物理任务。
再比如工厂 Agent:
检查今天产线是否有异常。
它可能会:
读取生产数据
查看传感器日志
调度巡检机器人
分析摄像头画面
生成异常报告
提醒工程师处理
这就是数字 Agent 和具身智能的融合。
未来的 AI 不只是坐在聊天框里回答问题。
它会越来越多地进入真实工作流和真实环境。
二十二、总结
具身智能是 AI 从信息世界走向物理世界的重要方向。
它关注的不只是模型会不会说话,而是智能体能不能:
感知环境
理解空间
规划动作
执行任务
接收反馈
修正行为
安全完成目标
如果说:
大语言模型解决的是“理解和生成语言”
AI Agent 解决的是“在数字世界执行任务”
具身智能解决的是“在物理世界执行任务”
那么具身智能就是 AI 走向现实世界的一步。
它的核心循环是:
感知 -> 理解 -> 规划 -> 行动 -> 反馈 -> 修正
它背后的关键技术包括:
多模态模型
VLA 模型
世界模型
机器人基础模型
仿真环境
合成数据
强化学习
安全控制
人机协作
但它也面临很多挑战:
真实世界复杂
数据昂贵
安全要求高
泛化困难
实时性强
评测困难
我认为,理解具身智能最简单的一句话是:
AI Agent 是数字世界里的行动者,具身智能是物理世界里的行动者。
未来真正重要的 AI 系统,可能既能操作软件,也能理解现实环境;既能调用 API,也能控制机器人;既能生成计划,也能在真实世界中执行计划。
当 AI 开始拥有“身体”,智能就不再只是屏幕里的回答,而会变成现实世界中的行动。
参考资料
-
Google DeepMind:Gemini Robotics
https://deepmind.google/models/gemini-robotics/ -
Google DeepMind:Gemini Robotics 1.5 brings AI agents into the physical world
https://deepmind.google/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/ -
Google DeepMind:Gemini Robotics-ER 1.6
https://deepmind.google/blog/gemini-robotics-er-1-6/ -
Google AI for Developers:Gemini Robotics-ER 1.6 API 文档
https://ai.google.dev/gemini-api/docs/robotics-overview -
NVIDIA Cosmos:Physical AI with World Foundation Models
https://www.nvidia.com/en-us/ai/cosmos/ -
NVIDIA:Physical AI Models and Robotics Platforms
https://investor.nvidia.com/news/press-release-details/2026/NVIDIA-Releases-New-Physical-AI-Models-as-Global-Partners-Unveil-Next-Generation-Robots/default.aspx -
NVIDIA Blog:Virtual Worlds Powering the Physical AI Era
https://blogs.nvidia.com/blog/gtc-2026-virtual-worlds-physical-ai/ -
arXiv:Gemini Robotics: Bringing AI to the Physical World
https://arxiv.org/html/2503.20020v1 -
arXiv:World Model for Robot Learning: A Comprehensive Survey
https://arxiv.org/html/2605.00080v1 -
Stanford HAI:Robotics in a Human-Centered World
https://hai.stanford.edu/news/stanford-hai-conference-explores-robotics-in-a-human-centered-world-hype-hope-and-future-directions -
CVPR 2025 Workshop:Foundation Models Meet Embodied Agents
https://foundation-models-meet-embodied-agents.github.io/cvpr2025/
更多推荐


所有评论(0)