AI周报实测:GPT-5.4 Computer Use上手体验 + Nemotron 3 Super本地部署踩坑
AI周报实测:GPT-5.4 Computer Use上手体验 + Nemotron 3 Super本地部署踩坑
过去这一周AI圈发生了太多事。英伟达GTC把两年后的芯片原型端出来了,GPT-5.4让AI直接操作电脑,Anthropic搞了个"AI审查AI"的代码工具,英伟达还开源了专为Agent设计的大模型。
我花了一周追踪试用,今天把干货整理出来。重点放在实测体验和技术细节上,方便大家直接上手。
GTC 2026:三颗芯片定义未来五年
黄仁勋穿着万年不换的皮夹克,做了件所有人都没料到的事——把原定2028年才发的Feynman架构,提前拿出来秀了一把技术原型。
这个操作本身就很耐人寻味。Blackwell是2024年发的,Vera Rubin今年下半年量产,Feynman按节奏应该是2028年的事。提前两年展示,摆明了告诉AMD和一众AI芯片公司:你们追我上一代的时候,我下下代已经做出来了。
Feynman几个硬指标:
台积电A16制程(1.6nm),英伟达第一次进入1nm级别。首次大规模采用硅光子光互连技术,带宽密度提升10倍,传输能耗降低90%。单GPU推理算力50 PFLOPS,比Blackwell提升5倍。
不过Feynman要2028年才量产。对我们做应用的人来说,眼前更实际的是Vera Rubin——今年下半年量产,核心卖点是单Token生成成本打到原来的十分之一。台积电3nm,HBM4内存,单卡显存288GB。
推理成本降到十分之一什么概念?你现在调API每月花1万,等Vera Rubin铺开可能只要1千。很多因为成本算不过来账没落地的AI应用,会因为这个变化直接可行。
第三个是LPU推理专用芯片。英伟达收了Groq的技术团队后做的,片上230MB SRAM,80TB/s带宽,首Token延迟低于0.1秒,推理速度比H100快10倍。
三颗芯片的布局非常清晰:Feynman锁未来,Vera Rubin解决眼前量产,LPU专攻推理降本。训练和推理正在彻底分家,以后很可能是训练一套硬件、推理另一套。
GPT-5.4 Computer Use实测:四个场景的真实表现
GPT-5.4的原生Computer Use是这周我花时间最多的东西。不是截图告诉你该点哪,而是直接控制鼠标键盘操作你的电脑。OpenAI说任务成功率达到75%,超过了人类平均水平。
我测了四个场景,说真实体验。
场景一:Excel数据分析。 打开销售数据表,做数据透视表,按月汇总,画柱状图。40秒搞定,没出错。手动操作大概需要2-3分钟。
场景二:预订会议室。 在Google Calendar找下周三空闲时段、创建会议、发邀请。中间点错了一次按钮退出重来,总共1分钟。
场景三:部署Web应用。 SSH到服务器,拉代码,装依赖,重启服务。50秒搞定,终端操作对AI来说比GUI简单得多。
场景四:处理报销单。 读PDF发票,提取金额日期填到网页表单。翻车了——识别PDF没问题,但填表时把金额填到了日期栏。
如果你想自己体验Computer Use,可以用Anthropic的开源参考实现快速搭一个测试环境:
# 安装 Anthropic Computer Use 参考实现
pip install anthropic
# 基本调用示例(需要 API Key)
import anthropic
client = anthropic.Anthropic()
response = client.beta.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=1024,
tools=[{
"type": "computer_20241022",
"name": "computer",
"display_width_px": 1920,
"display_height_px": 1080,
"display_number": 1,
}],
messages=[{
"role": "user",
"content": "打开浏览器搜索今日新闻"
}]
)
print(response.content)
OpenAI的Computer Use也可以通过API调用:
# GPT-5.4 Computer Use API调用
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="computer-use-preview",
tools=[{"type": "computer_use_preview",
"display_width": 1920,
"display_height": 1080,
"environment": "browser"}],
input=[{"role": "user",
"content": "在Excel中创建数据透视表"}],
reasoning={"effort": "high"}
)
结论是:简单、流程确定的任务做得又快又好,涉及判断和异常处理的场景还会犯错。按这个进步曲线,今年年底可靠性应该能到90%以上。
Anthropic代码审查:AI审查AI的闭环
3月9号Anthropic给Claude Code加了代码审查功能。背景很简单:企业里越来越多代码是AI写的,让工程师一行行读?那AI省下来的时间不就又花回去了?
这揭示了一个趋势——AI工具链正在从单点生成走向闭环:
- AI帮你写代码,你自己review(去年的主流)
- AI写代码,另一个AI帮你review(现在正在发生)
- AI发现bug后自己修,修完再review(已有雏形)
- AI从需求出发,自己写、测、部署、监控、修bug(Agent终极形态)
如果你在用GitHub Actions做CI/CD,可以把AI代码审查集成进去:
# .github/workflows/ai-review.yml
name: AI Code Review
on: [pull_request]
jobs:
review:
runs-on: ubuntu-latest
steps:
- uses: actions/checkout@v4
- name: AI Review with Claude
env:
ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
run: |
# 获取 PR 变更文件
gh pr diff ${{ github.event.pull_request.number }} > /tmp/diff.patch
# 调用 Claude 审查
python3 -c "
import anthropic
client = anthropic.Anthropic()
diff = open('/tmp/diff.patch').read()[:50000]
resp = client.messages.create(
model='claude-sonnet-4-20250514',
max_tokens=2000,
messages=[{'role':'user','content':f'Review this code diff for bugs and security issues:\n{diff}'}]
)
print(resp.content[0].text)
"
对开发者来说,纯编码能力在贬值,理解业务需求和设计系统架构的能力在升值。把学习时间花在系统设计和架构思维上,比刷LeetCode实际得多。
Nemotron 3 Super:Agent专用模型实测
3月12号英伟达开源了Nemotron 3 Super。1200亿总参数,120亿激活参数,支持100万Token上下文。用了Mamba-2和MoE混合架构(LatentMoE),推理时只激活十分之一参数,成本远低于同规模纯Transformer模型。
英伟达明确说这个模型专门为Agent设计——多步推理、工具调用、长上下文理解都做了专门优化。
本地部署可以用vLLM:
# 用 vLLM 部署 Nemotron 3 Super(需要至少 2x A100 80GB)
pip install vllm>=0.6.0
# 启动推理服务
python -m vllm.entrypoints.openai.api_server \
--model nvidia/Nemotron-3-Super-120B-Instruct \
--tensor-parallel-size 2 \
--max-model-len 131072 \
--gpu-memory-utilization 0.95 \
--port 8000
# 测试 Agent 工具调用能力
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "nvidia/Nemotron-3-Super-120B-Instruct",
"messages": [
{"role": "system", "content": "You are a helpful agent with access to tools."},
{"role": "user", "content": "查询北京今天的天气,然后用Python画一个温度趋势图"}
],
"tools": [
{
"type": "function",
"function": {
"name": "get_weather",
"description": "获取指定城市的天气信息",
"parameters": {"type": "object", "properties": {"city": {"type": "string"}}}
}
}
]
}'
如果显存不够跑完整版,可以用量化:
# 4-bit 量化版,单卡 A100 80GB 可跑
pip install auto-gptq
python -m vllm.entrypoints.openai.api_server \
--model nvidia/Nemotron-3-Super-120B-Instruct-GPTQ-Int4 \
--quantization gptq \
--max-model-len 32768 \
--port 8000
芯片公司做大模型的逻辑很清楚:需要一个标杆模型证明自家硬件优势。Blackwell上跑Nemotron性能一定比AMD卡好,跟苹果做Apple Silicon然后把Final Cut Pro优化到极致一个思路——软硬件一体化是最深的护城河。
几个值得关注的事
DeepSeek 100万Token上下文。 终于拿到测试资格。20万字合同丢进去问第47页第三段说了什么,回答准确。三体全文丢进去做总结,没有明显信息丢失。长上下文正在从PPT数字变成真能用。
智谱GLM-5-Turbo。 39元/月体验卡包含3500万Token,同时API价格上调20%。To C做流量To B赚利润,很精明的定价。
中国大模型调用量首超美国。 IDC数据,2月份中国单周调用量突破5万亿Token。不只大厂在用,中小企业和个人开发者增长猛。
这周最该记住的事
如果只选一件,我选推理成本降到十分之一。
模型再强用不起就是论文里的数字。推理成本从一万降到一千,原来十个人里一个能用的场景变成十个人都能用。市场直接扩大十倍。
过去两年主旋律是"模型越大越强"。从今年开始,主旋律切换成了降成本、扩覆盖、让更多人用得上。英伟达推硬件降本,DeepSeek用更少算力做更好模型,OpenAI把能力下放免费版。所有大玩家在做同一件事:让AI从少数人的工具变成多数人的工具。
一个80分但便宜的模型,商业价值往往大于95分但贵十倍的模型。这对我们普通开发者来说,可能比模型能力提升更实际的好消息。
关注公众号 92year,每天一篇AI工具深度实测
更多推荐



所有评论(0)