从 AI Agent 到具身智能：当智能开始拥有“身体”

小猫咪蜗牛

132人浏览 · 2026-06-29 14:12:46

小猫咪蜗牛 · 2026-06-29 14:12:46 发布

一、为什么现在要聊具身智能？
二、具身智能是什么？
三、具身智能和普通大模型有什么区别？
四、具身智能和 AI Agent 有什么关系？
五、为什么“身体”很重要？
六、具身智能的核心循环
七、感知：先看见真实世界
八、理解：知道物体、空间和任务
九、规划：把目标拆成动作步骤
十、行动：从语言输出到物理动作
十一、反馈：通过环境结果修正自己
十二、多模态模型为什么推动具身智能？
十三、VLA 模型：Vision-Language-Action
十四、世界模型：让机器人先在脑中模拟
十五、仿真环境和合成数据的作用
十六、复杂例子：机器人整理桌面
十七、简单例子：扫地机器人避开障碍物
十八、具身智能的典型应用场景
十九、具身智能的难点
二十、具身智能和 Agent Native 的关系
二十一、未来趋势：数字 Agent 和物理 Agent 会融合
二十二、总结
参考资料

前面我们聊过很多 AI Agent 相关概念：

Agent Loop：Agent 如何循环做事
Dynamic Workflows：Agent 如何选择正确流程
Agent Eval：如何评估 Agent 是否可靠
Agent Native：软件如何为 Agent 重新设计

这些内容大多发生在数字世界里。

比如：

读文件
写代码
调用工具
操作网页
生成报告
查询数据库
管理任务

但还有一个更大的方向正在变热：

具身智能，Embodied AI。

如果说 AI Agent 是数字世界里的行动者，那么具身智能就是物理世界里的行动者。

它关心的问题不是：

AI 能不能回答问题？

而是：

AI 能不能在真实世界中感知、理解、行动，并根据反馈完成任务？

比如：

机器人能不能整理桌面？
自动驾驶系统能不能理解道路？
机械臂能不能抓起杯子？
家用机器人能不能帮人收拾房间？
工厂机器人能不能根据环境变化调整动作？

这些都属于具身智能的范围。

一、为什么现在要聊具身智能？

具身智能不是一个新词。

机器人、自动驾驶、强化学习、控制系统，其实都已经发展很多年了。

但最近它重新变得重要，原因是大模型和多模态模型开始进入物理世界。

过去的 AI 更像是：

看文字
生成文字
看图片
生成图片
理解视频
回答问题

而现在的前沿方向开始变成：

看见世界
理解空间
规划动作
控制身体
完成任务

这就是从“语言智能”走向“行动智能”。

最近几年出现了几个关键变化：

1. 多模态大模型能同时理解文字、图像、视频和音频
2. 机器人基础模型开始把视觉、语言和动作连在一起
3. 世界模型开始用于预测物理环境变化
4. 仿真环境可以生成大量机器人训练数据
5. 人形机器人、自动驾驶和工业机器人需求持续上升

Google DeepMind 推出了 Gemini Robotics，用 Gemini 的多模态能力连接机器人感知、推理和动作。NVIDIA 推出 Cosmos、Isaac GR00T 等 physical AI 相关模型和平台，强调用世界模型、仿真和机器人基础模型推动真实世界智能。学术界也在持续讨论 embodied world models、robot foundation models 和 vision-language-action models。

所以，具身智能正在成为 AI 的下一条主线之一。

一句话：

如果前几年的 AI 重点是“理解和生成内容”，那么具身智能关注的是“理解世界并在世界中行动”。

二、具身智能是什么？

具身智能，英文是 Embodied AI。

可以这样理解：

具身智能是指智能体拥有某种“身体”或行动载体，能够通过传感器感知环境，通过动作影响环境，并在感知和行动的闭环中完成任务。

这里的“身体”不一定是人形机器人。

它可以是：

机械臂
移动机器人
无人车
无人机
扫地机器人
自动驾驶汽车
智能家居设备
工业设备
虚拟仿真环境中的机器人

重点不在于外形像不像人，而在于它是否具备：

感知环境
理解目标
规划动作
执行动作
接收反馈
适应变化

例如，一个聊天机器人没有具身智能，因为它只能输出文字。

但一个能看见桌面、移动手臂、抓起杯子、放到指定位置的机器人，就具备某种具身智能。

可以简单对比：

普通 AI：在信息空间里回答问题
具身智能：在物理空间里完成任务

三、具身智能和普通大模型有什么区别？

普通大模型主要处理符号和信息。

比如：

文字
代码
图片
音频
视频
文档
网页

它的输出通常是：

一段文字
一段代码
一张图片
一个分析结果
一个工具调用

而具身智能面对的是物理世界。

它需要处理：

空间位置
物体形状
距离
重量
摩擦
遮挡
碰撞
速度
力
时间
安全边界

这就复杂很多。

普通大模型说：

把杯子放到桌子上。

这很简单。

但机器人真正执行时，需要知道：

杯子在哪里？
桌子在哪里？
杯子能不能抓？
抓哪里不会滑？
手臂路径会不会碰到其他东西？
杯子里有没有水？
放下时力度多大？
如果杯子倾斜了怎么办？

这就是具身智能的难点。

语言世界里，错误可能只是一句话不准确。
物理世界里，错误可能导致东西摔坏、机器损坏，甚至伤害人。

所以具身智能不仅需要“聪明”，还需要“稳”。

四、具身智能和 AI Agent 有什么关系？

AI Agent 通常指能自主完成任务的智能体。

它可能在数字世界里行动：

读文件
调 API
写代码
操作浏览器
生成表格
运行测试

具身智能则是物理世界里的 Agent。

它的工具不是只有 API，而是：

摄像头
麦克风
机械臂
轮子
夹爪
传感器
电机
控制器
导航系统

可以这样理解：

数字 Agent：在软件环境里行动
具身 Agent：在物理环境里行动

它们都有类似的循环：

目标 -> 感知 -> 计划 -> 行动 -> 观察反馈 -> 修正 -> 完成

只是环境不同。

数字 Agent 的反馈可能是：

测试是否通过
网页是否加载
API 是否返回成功
文件是否修改

具身 Agent 的反馈可能是：

杯子是否抓住
机器人是否撞到障碍物
门是否打开
物体是否移动到目标位置
人是否进入危险区域

所以，具身智能可以看作 AI Agent 的物理世界版本。

五、为什么“身体”很重要？

具身智能最特别的地方是“身体”。

为什么身体重要？

因为很多智能不是只靠思考产生的，而是在和环境互动中形成的。

比如人类学习倒水。

你不能只靠读一本说明书就完全掌握。

你需要：

拿起水壶
感受重量
调整倾斜角度
观察水流
发现倒太快会溅出来
下次改小角度

这是一种通过身体和环境互动获得的智能。

机器人也是一样。

它不能只知道：

杯子是圆柱体
桌子是平面
水会流动

它还需要知道：

这个杯子怎么抓
这个桌面会不会滑
这个动作会不会碰撞
这个力度够不够
这个路径安不安全

这些知识往往来自行动反馈。

这也是具身智能的核心思想：

智能不只是大脑里的推理，也来自身体和环境之间的互动。

六、具身智能的核心循环

具身智能也可以看成一种 Loop。

它的基本循环是：

感知 -> 理解 -> 规划 -> 行动 -> 反馈 -> 修正

或者更完整一点：

目标 Goal
-> 感知 Perception
-> 理解 Understanding
-> 规划 Planning
-> 控制 Control
-> 行动 Action
-> 反馈 Feedback
-> 更新状态 Update
-> 继续或停止

这和 Agent Loop 很像。

区别是：

Agent Loop 面向工具和软件环境
具身智能 Loop 面向传感器和物理环境

例如机器人整理桌面：

目标：把桌面整理干净
感知：摄像头看到杯子、书、本子、垃圾
理解：杯子应该放杯架，书应该放书架，垃圾应该扔掉
规划：先移动易碎物，再处理垃圾
行动：机械臂抓取物体
反馈：确认物体是否被成功移动
修正：如果没抓稳，重新调整抓取姿态
完成：桌面达到目标状态

这就是具身智能的闭环。

七、感知：先看见真实世界

具身智能的第一步是感知。

它要通过传感器获得环境信息。

常见传感器包括：

摄像头
深度相机
激光雷达
麦克风
触觉传感器
力传感器
IMU
GPS
编码器
温度传感器

不同场景需要不同感知方式。

自动驾驶需要：

摄像头
雷达
激光雷达
高精地图
车辆状态传感器

机械臂抓取需要：

摄像头
深度信息
夹爪状态
力反馈
物体姿态估计

家用机器人需要：

视觉
语音
空间地图
障碍物检测
人类位置感知

感知不是简单“拍一张照片”。

机器人需要从感知中提取可行动的信息：

物体在哪里
障碍物在哪里
人在哪里
可行路径在哪里
目标是否已经完成

这就是具身智能和普通图像识别的区别。

普通图像识别可能只需要回答：

图中有什么？

具身智能还要回答：

我能不能过去？
我能不能抓？
我该怎么抓？
我动作后会发生什么？

八、理解：知道物体、空间和任务

感知之后，机器人要理解环境。

理解包括几个层次。

1. 物体理解

机器人需要知道：

这是杯子
这是书
这是刀
这是垃圾
这是按钮
这是门把手

还要知道物体属性：

易碎
锋利
柔软
可抓取
可推动
可打开
可堆叠

比如杯子和纸巾都能被拿起，但抓取方式不同。

2. 空间理解

机器人需要理解空间关系：

杯子在桌子上
书在电脑旁边
垃圾桶在椅子右侧
门在走廊尽头
人站在机器人前方

空间理解对行动非常重要。

因为机器人要知道自己在哪里、目标在哪里、路径怎么走。

3. 任务理解

机器人还要理解用户意图。

用户说：

把桌子收拾一下。

这不是一个精确命令。

机器人要推断：

哪些东西算乱？
哪些东西应该保留？
哪些东西应该丢掉？
哪些东西需要询问用户？

这就需要常识和上下文。

例如：

空饮料瓶可能是垃圾
打开的笔记本电脑不能随便合上
水杯不能倒置
文件不能随便扔掉

具身智能需要的不只是识别能力，还需要场景理解。

九、规划：把目标拆成动作步骤

理解环境后，机器人要规划。

规划就是把目标拆成可执行步骤。

比如目标是：

把桌面整理干净。

机器人可能规划：

1. 识别桌面上的物体
2. 区分可移动物体和不可移动物体
3. 先处理易碎物体
4. 把杯子放到杯垫上
5. 把书叠放整齐
6. 把垃圾放入垃圾桶
7. 检查桌面是否干净

这里有一个关键点：

规划必须考虑物理约束。

比如：

不能从桌子中间穿过去
不能让机械臂碰到显示器
不能把水杯倒过来
不能把重物放在易碎物上面
不能在人靠近时高速运动

数字 Agent 规划时，更多考虑工具和信息。

具身智能规划时，还要考虑空间、力学和安全。

十、行动：从语言输出到物理动作

对普通 AI 来说，输出一段文字就完成了。

对具身智能来说，输出不是文字，而是动作。

比如：

移动 30 厘米
旋转 15 度
打开夹爪
下降机械臂
施加一定力度
沿路径导航
避开障碍物

这就涉及控制系统。

高层模型可能决定：

抓起杯子。

但底层控制需要把它变成具体动作：

移动机械臂到杯子上方
调整夹爪角度
下降
闭合夹爪
检测是否抓住
抬起
移动到目标位置
放下
松开夹爪

这也是为什么具身智能通常不是单个模型能完成全部事情。

它往往需要多层系统：

高层推理模型：理解任务和规划
视觉模型：识别环境
动作模型：生成操作策略
控制器：执行底层动作
安全模块：监控风险

这更像一个完整系统，而不是一个聊天模型。

十一、反馈：通过环境结果修正自己

具身智能必须依赖反馈。

因为物理世界充满不确定性。

比如机器人想抓杯子：

预测杯子在这里
实际杯子偏了一点
夹爪没有抓稳
杯子滑了一下
桌面有水导致摩擦变化

这时机器人不能只按原计划执行。

它要根据反馈修正。

反馈可能来自：

视觉：杯子是否移动
触觉：有没有抓住
力传感器：力度是否异常
位置传感器：机械臂是否到位
任务状态：目标是否完成

这就是闭环控制。

没有反馈的机器人很脆弱。

它只能在理想环境中工作。

有反馈的机器人才能适应真实世界。

十二、多模态模型为什么推动具身智能？

过去机器人系统通常比较分散：

视觉识别一个模型
语言理解一个模型
路径规划一个模块
动作控制一个模块
任务决策一个模块

这些模块之间连接复杂，而且泛化能力有限。

多模态模型出现后，事情开始变化。

多模态模型可以同时处理：

文字
图片
视频
音频
空间关系
动作信息

这让机器人更容易理解人类指令和真实场景。

比如用户说：

把那个红色杯子放到水槽旁边。

机器人需要同时理解：

语言：“红色杯子”“水槽旁边”
视觉：哪个是红色杯子
空间：水槽在哪里，旁边是哪里
动作：怎么拿起杯子并放过去

这正是多模态模型擅长连接的内容。

Google DeepMind 的 Gemini Robotics 就强调将视觉、语言和动作结合，让机器人能够理解物理世界并执行任务。Gemini Robotics-ER 则更强调 embodied reasoning，也就是面向物理世界的推理能力。

所以，多模态模型是具身智能近期进展的重要基础。

十三、VLA 模型：Vision-Language-Action

具身智能里一个很重要的方向叫 VLA。

VLA 是：

Vision-Language-Action
视觉-语言-动作

它想解决的问题是：

如何让模型从“看见环境 + 理解语言”直接生成可执行动作？

传统模型可能是：

图像 -> 文字描述
文字指令 -> 文本回答

VLA 模型希望变成：

图像 + 指令 -> 动作

例如输入：

摄像头画面：桌上有杯子和盘子
语言指令：把杯子放到盘子右边

输出：

机械臂动作序列

VLA 的价值在于，它把感知、语言和行动连接起来。

这对通用机器人非常重要。

因为真实世界任务通常不是写死的。

用户不会说：

机械臂移动到坐标 x=0.42, y=0.18, z=0.10

用户会说：

把杯子放到那边。

机器人需要把自然语言转成动作。

这就是 VLA 的核心。

十四、世界模型：让机器人先在脑中模拟

另一个前沿方向是世界模型。

世界模型可以理解成：

模型对环境如何变化的内部预测。

人类做事时，经常会在脑中模拟。

比如你准备推一个杯子，会大概知道：

推轻了，杯子不会动
推重了，杯子可能倒
桌面滑，杯子会滑更远
杯子边缘受力，可能旋转

这就是一种世界模型。

机器人也需要类似能力。

世界模型可以帮助机器人预测：

如果我这么抓，物体会不会滑？
如果我走这条路，会不会撞到障碍物？
如果我把箱子放这里，会不会挡住门？
如果我推这个物体，它会移动到哪里？

NVIDIA Cosmos 这类 world foundation models，就是为了帮助开发者构建能理解、模拟和作用于真实世界的 physical AI 系统。

学术界也在讨论 world models for robot learning，关注如何让机器人通过预测未来状态来更好地学习和规划。

简单说：

没有世界模型：机器人只能试错
有世界模型：机器人可以先预测，再行动

这对安全和效率都很重要。

十五、仿真环境和合成数据的作用

具身智能有一个很大的难点：真实世界训练成本太高。

让机器人在真实世界里学习，会遇到很多问题：

数据采集慢
设备昂贵
实验容易损坏物体
危险动作不能随便试
长尾场景很难收集
环境变化太多

所以仿真环境非常重要。

在仿真里，机器人可以大量练习：

导航
抓取
避障
装配
开门
搬运
自动驾驶
人机协作

仿真环境的优点是：

成本低
速度快
可重复
可生成大量场景
可以安全测试危险情况

但仿真也有问题：

仿真和现实不完全一样
物理参数可能不准
视觉效果可能不同
真实世界噪声更多

这叫 sim-to-real gap，也就是仿真到现实的差距。

因此，具身智能需要同时利用：

真实数据
仿真数据
合成数据
人类示范
强化学习
自监督学习

NVIDIA 的 physical AI 平台和世界模型方向，就非常强调仿真、合成数据和机器人策略评估。

十六、复杂例子：机器人整理桌面

我们用一个复杂例子来理解具身智能。

任务：

请把我的桌面整理一下。

这句话对人来说很自然，但对机器人来说非常复杂。

第一步：感知环境

机器人用摄像头和深度传感器观察桌面。

它看到：

一个杯子
两本书
一支笔
一张纸
一个空饮料瓶
一台笔记本电脑
一团纸巾

第二步：理解物体

机器人需要判断：

杯子：易碎，可能有水，不能倒置
书：可以叠放
笔：可以放入笔筒
纸：需要判断是不是重要文件
空饮料瓶：可能是垃圾
笔记本电脑：不能随便移动
纸巾：可能是垃圾

这需要常识。

如果机器人把重要文件当垃圾扔掉，就很糟糕。

第三步：询问不确定项

机器人可能无法判断某张纸是否重要。

好的具身智能系统应该问：

这张写着会议记录的纸要保留还是丢掉？

这说明具身智能不是全自动乱做，而是知道什么时候需要人类确认。

第四步：规划顺序

机器人规划：

1. 不移动笔记本电脑
2. 先把杯子移到杯垫上
3. 把书叠放到桌角
4. 把笔放入笔筒
5. 把明确垃圾放入垃圾桶
6. 对不确定文件询问用户
7. 最后检查桌面状态

这里顺序很重要。

比如先处理杯子，可以减少洒水风险。

第五步：执行动作

机器人开始行动：

移动机械臂到杯子上方
调整夹爪
轻轻夹住杯子
抬起
移动到杯垫位置
放下
松开

执行中它要实时监控：

有没有抓稳
杯子有没有倾斜
路径有没有障碍物
人手是否突然伸过来

第六步：根据反馈修正

如果机器人发现杯子滑动，它要调整力度。

如果发现书太重，它要改变抓取方式。

如果发现垃圾桶位置被椅子挡住，它要重新规划路径。

这就是具身智能的反馈闭环。

第七步：完成并汇报

最后机器人说：

桌面已整理完成。
我移动了杯子、书和笔，丢弃了空饮料瓶和纸巾。
笔记本电脑没有移动。
那张会议记录纸我保留在桌面右上角，等待你确认。

这就是一个完整的具身智能任务。

它涉及：

视觉感知
物体识别
常识推理
任务规划
机械控制
安全监控
人类确认
结果反馈

十七、简单例子：扫地机器人避开障碍物

再看一个简单例子。

扫地机器人看到前方有椅子腿。

它需要做：

1. 感知障碍物
2. 判断不能直接撞上去
3. 规划绕行路线
4. 调整方向
5. 继续清扫

这个任务看起来很简单，但也包含具身智能的核心循环：

感知 -> 判断 -> 行动 -> 反馈 -> 修正

如果它撞到了椅子，也会得到反馈：

碰撞传感器触发

然后它后退、转向、重新规划。

这就是最朴素的具身智能。

复杂机器人和扫地机器人之间，区别只是能力规模不同。

本质循环是类似的。

十八、具身智能的典型应用场景

具身智能的应用非常广。

1. 家用机器人

比如：

整理房间
拿取物品
陪伴老人
辅助做饭
清洁卫生
家庭安防

难点是家庭环境非常复杂。

每个家庭布局不同，物品不同，人的习惯也不同。

2. 工业机器人

比如：

装配
搬运
质检
焊接
分拣
包装
维修

工业场景相对可控，因此更容易落地。

但如果要让机器人适应多品类、小批量、动态生产线，就需要更强具身智能。

3. 自动驾驶

自动驾驶也是具身智能的一种。

车辆需要：

感知道路
理解交通规则
预测行人和车辆
规划路径
控制方向和速度
处理突发情况

它是非常典型的感知-规划-控制系统。

4. 医疗和康复机器人

比如：

手术辅助
康复训练
护理机器人
药品配送
病房巡检

这类场景对安全要求极高。

5. 仓储物流

比如：

自动分拣
货架搬运
包裹抓取
路径规划
库存盘点

仓储物流已经是机器人落地较多的领域。

6. 危险环境作业

比如：

矿山
核电站
深海
火灾现场
灾后救援
化工厂

这些地方适合让机器人替代人类执行危险任务。

十九、具身智能的难点

具身智能很有前景，但也非常难。

1. 真实世界太复杂

真实世界不是干净的数据集。

它有：

光照变化
遮挡
噪声
反光
摩擦变化
物体形变
人类突然介入
未知物体
意外情况

机器人必须适应这些变化。

2. 数据采集成本高

训练语言模型可以用大量互联网文本。

但训练机器人需要动作数据。

动作数据很贵。

因为它通常需要：

真实机器人
真实环境
人类示范
传感器记录
安全控制
反复实验

这比文本数据难得多。

3. 安全要求高

数字 Agent 出错，可能是生成错误答案。

具身智能出错，可能会：

撞坏东西
夹伤人
摔碎物品
导致车辆事故
损坏设备

所以安全是具身智能的核心问题。

4. 泛化能力不足

机器人在实验室学会一个任务，不代表在真实家庭也能做好。

比如它学会抓一种杯子，但遇到：

透明杯子
带把手杯子
湿滑杯子
装满水的杯子
形状奇怪的杯子

可能表现就会变差。

5. 实时性要求高

具身智能需要快速反应。

比如自动驾驶不能慢慢思考几分钟。

机器人也不能在抓取过程中长时间停顿。

所以具身智能需要在模型能力和实时控制之间平衡。

6. 评测很难

如何判断一个机器人“真的可靠”？

不能只看一次演示视频。

需要评测：

成功率
失败类型
安全性
泛化能力
长时间稳定性
不同环境表现
人机协作体验

这比评测文本模型复杂得多。

二十、具身智能和 Agent Native 的关系

前面我们讲过 Agent Native：

软件系统如何为 Agent 提供可行动环境

具身智能可以看作：

物理世界中的 Agent Native 问题

在数字世界里，Agent 需要：

Action Model
权限系统
上下文
Trace
Eval
回滚机制

在物理世界里，具身 Agent 也需要类似东西：

可执行动作集合
安全边界
环境状态
操作轨迹
结果验证
紧急停止
人工接管

比如家用机器人应该知道：

可以拿杯子
可以扫地
可以开灯
不能随便打开抽屉
不能移动贵重物品
不能靠近小孩高速运动
不确定时要问人

这其实就是物理世界里的权限和治理。

所以 Agent Native 和具身智能不是两条完全分开的线。

它们会逐渐融合。

二十一、未来趋势：数字 Agent 和物理 Agent 会融合

未来的 Agent 可能不只存在于屏幕里。

它可能同时连接：

软件系统
机器人
传感器
智能家居
车辆
工业设备
AR 眼镜
可穿戴设备

比如你对一个家庭 Agent 说：

我晚上 7 点有朋友来，帮我准备一下。

它可能会：

查看日历
调整智能灯光
让扫地机器人清扫客厅
检查冰箱库存
生成购物清单
提醒你提前准备饮料
控制空调温度

这里既有数字任务，也有物理任务。

再比如工厂 Agent：

检查今天产线是否有异常。

它可能会：

读取生产数据
查看传感器日志
调度巡检机器人
分析摄像头画面
生成异常报告
提醒工程师处理

这就是数字 Agent 和具身智能的融合。

未来的 AI 不只是坐在聊天框里回答问题。

它会越来越多地进入真实工作流和真实环境。

二十二、总结

具身智能是 AI 从信息世界走向物理世界的重要方向。

它关注的不只是模型会不会说话，而是智能体能不能：

感知环境
理解空间
规划动作
执行任务
接收反馈
修正行为
安全完成目标

如果说：

大语言模型解决的是“理解和生成语言”
AI Agent 解决的是“在数字世界执行任务”
具身智能解决的是“在物理世界执行任务”

那么具身智能就是 AI 走向现实世界的一步。

它的核心循环是：

感知 -> 理解 -> 规划 -> 行动 -> 反馈 -> 修正

它背后的关键技术包括：

多模态模型
VLA 模型
世界模型
机器人基础模型
仿真环境
合成数据
强化学习
安全控制
人机协作

但它也面临很多挑战：

真实世界复杂
数据昂贵
安全要求高
泛化困难
实时性强
评测困难

我认为，理解具身智能最简单的一句话是：

AI Agent 是数字世界里的行动者，具身智能是物理世界里的行动者。

未来真正重要的 AI 系统，可能既能操作软件，也能理解现实环境；既能调用 API，也能控制机器人；既能生成计划，也能在真实世界中执行计划。

当 AI 开始拥有“身体”，智能就不再只是屏幕里的回答，而会变成现实世界中的行动。

参考资料

Google DeepMind：Gemini Robotics
https://deepmind.google/models/gemini-robotics/
Google DeepMind：Gemini Robotics 1.5 brings AI agents into the physical world
https://deepmind.google/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/
Google DeepMind：Gemini Robotics-ER 1.6
https://deepmind.google/blog/gemini-robotics-er-1-6/
Google AI for Developers：Gemini Robotics-ER 1.6 API 文档
https://ai.google.dev/gemini-api/docs/robotics-overview
NVIDIA Cosmos：Physical AI with World Foundation Models
https://www.nvidia.com/en-us/ai/cosmos/
NVIDIA：Physical AI Models and Robotics Platforms
https://investor.nvidia.com/news/press-release-details/2026/NVIDIA-Releases-New-Physical-AI-Models-as-Global-Partners-Unveil-Next-Generation-Robots/default.aspx
NVIDIA Blog：Virtual Worlds Powering the Physical AI Era
https://blogs.nvidia.com/blog/gtc-2026-virtual-worlds-physical-ai/
arXiv：Gemini Robotics: Bringing AI to the Physical World
https://arxiv.org/html/2503.20020v1
arXiv：World Model for Robot Learning: A Comprehensive Survey
https://arxiv.org/html/2605.00080v1
Stanford HAI：Robotics in a Human-Centered World
https://hai.stanford.edu/news/stanford-hai-conference-explores-robotics-in-a-human-centered-world-hype-hope-and-future-directions
CVPR 2025 Workshop：Foundation Models Meet Embodied Agents
https://foundation-models-meet-embodied-agents.github.io/cvpr2025/

AI Agent技术社区

Agent 垂直技术社区，欢迎活跃、内容共建。

更多推荐

ReAct框架：如何将AI Agent升级为全能帮手？打造爆款AI智能体必看！

AI Agent技术社区

拆解AI Agent的“神经系统“：规划、记忆、工具、ReAct，四个概念让你真正读懂Agent

我们来把整篇文章做一个收束。规划= 思维能力：把大问题拆成小问题记忆= 知识积累：知道的越多，决策越准。

AI Agent技术社区

AI Agent怎么做？零基础构建自己的智能体教程

在动手之前，我们得先搞清楚一个基本概念：AI Agent到底是什么。说白了，Agent就是"智能体"的英文说法。你可以把它理解为一个"有自主思考能力的AI程序"。跟普通的聊天机器人不一样，Agent不仅能回答问题，还能根据你的需求主动执行一系列操作。比如你告诉它"帮我查一下明天的天气，然后根据天气情况给我推荐穿搭"，它就能先去查天气、再分析温度、最后给出建议——整个过程不需要你一步一步地指挥。感知

AI Agent技术社区

所有评论(0)

查看更多评论

小猫咪蜗牛

@weixin_57460340

已为社区贡献4条内容

从 AI Agent 到具身智能：当智能开始拥有“身体”

小猫咪蜗牛

目录

一、为什么现在要聊具身智能？

二、具身智能是什么？

三、具身智能和普通大模型有什么区别？

四、具身智能和 AI Agent 有什么关系？

五、为什么“身体”很重要？

六、具身智能的核心循环

七、感知：先看见真实世界

八、理解：知道物体、空间和任务

1. 物体理解

2. 空间理解

3. 任务理解

九、规划：把目标拆成动作步骤

十、行动：从语言输出到物理动作

十一、反馈：通过环境结果修正自己

十二、多模态模型为什么推动具身智能？

十三、VLA 模型：Vision-Language-Action

十四、世界模型：让机器人先在脑中模拟

十五、仿真环境和合成数据的作用

十六、复杂例子：机器人整理桌面

第一步：感知环境

第二步：理解物体

第三步：询问不确定项

第四步：规划顺序

第五步：执行动作

第六步：根据反馈修正

第七步：完成并汇报

十七、简单例子：扫地机器人避开障碍物

十八、具身智能的典型应用场景

1. 家用机器人

2. 工业机器人

3. 自动驾驶

4. 医疗和康复机器人

5. 仓储物流

6. 危险环境作业

十九、具身智能的难点

1. 真实世界太复杂

2. 数据采集成本高

3. 安全要求高

4. 泛化能力不足

5. 实时性要求高

6. 评测很难

二十、具身智能和 Agent Native 的关系

二十一、未来趋势：数字 Agent 和物理 Agent 会融合

二十二、总结

参考资料

所有评论(0)

温馨提示：您尚未绑定手机号

小猫咪蜗牛