AI周报实测:GPT-5.4 Computer Use上手体验 + Nemotron 3 Super本地部署踩坑

过去这一周AI圈发生了太多事。英伟达GTC把两年后的芯片原型端出来了,GPT-5.4让AI直接操作电脑,Anthropic搞了个"AI审查AI"的代码工具,英伟达还开源了专为Agent设计的大模型。

我花了一周追踪试用,今天把干货整理出来。重点放在实测体验和技术细节上,方便大家直接上手。

GTC 2026:三颗芯片定义未来五年

黄仁勋穿着万年不换的皮夹克,做了件所有人都没料到的事——把原定2028年才发的Feynman架构,提前拿出来秀了一把技术原型。

这个操作本身就很耐人寻味。Blackwell是2024年发的,Vera Rubin今年下半年量产,Feynman按节奏应该是2028年的事。提前两年展示,摆明了告诉AMD和一众AI芯片公司:你们追我上一代的时候,我下下代已经做出来了。

Feynman几个硬指标:

台积电A16制程(1.6nm),英伟达第一次进入1nm级别。首次大规模采用硅光子光互连技术,带宽密度提升10倍,传输能耗降低90%。单GPU推理算力50 PFLOPS,比Blackwell提升5倍。

不过Feynman要2028年才量产。对我们做应用的人来说,眼前更实际的是Vera Rubin——今年下半年量产,核心卖点是单Token生成成本打到原来的十分之一。台积电3nm,HBM4内存,单卡显存288GB。

推理成本降到十分之一什么概念?你现在调API每月花1万,等Vera Rubin铺开可能只要1千。很多因为成本算不过来账没落地的AI应用,会因为这个变化直接可行。

第三个是LPU推理专用芯片。英伟达收了Groq的技术团队后做的,片上230MB SRAM,80TB/s带宽,首Token延迟低于0.1秒,推理速度比H100快10倍。

三颗芯片的布局非常清晰:Feynman锁未来,Vera Rubin解决眼前量产,LPU专攻推理降本。训练和推理正在彻底分家,以后很可能是训练一套硬件、推理另一套。

GPT-5.4 Computer Use实测:四个场景的真实表现

GPT-5.4的原生Computer Use是这周我花时间最多的东西。不是截图告诉你该点哪,而是直接控制鼠标键盘操作你的电脑。OpenAI说任务成功率达到75%,超过了人类平均水平。

我测了四个场景,说真实体验。

场景一:Excel数据分析。 打开销售数据表,做数据透视表,按月汇总,画柱状图。40秒搞定,没出错。手动操作大概需要2-3分钟。

场景二:预订会议室。 在Google Calendar找下周三空闲时段、创建会议、发邀请。中间点错了一次按钮退出重来,总共1分钟。

场景三:部署Web应用。 SSH到服务器,拉代码,装依赖,重启服务。50秒搞定,终端操作对AI来说比GUI简单得多。

场景四:处理报销单。 读PDF发票,提取金额日期填到网页表单。翻车了——识别PDF没问题,但填表时把金额填到了日期栏。

如果你想自己体验Computer Use,可以用Anthropic的开源参考实现快速搭一个测试环境:

# 安装 Anthropic Computer Use 参考实现
pip install anthropic

# 基本调用示例(需要 API Key)
import anthropic

client = anthropic.Anthropic()
response = client.beta.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    tools=[{
        "type": "computer_20241022",
        "name": "computer",
        "display_width_px": 1920,
        "display_height_px": 1080,
        "display_number": 1,
    }],
    messages=[{
        "role": "user",
        "content": "打开浏览器搜索今日新闻"
    }]
)
print(response.content)

OpenAI的Computer Use也可以通过API调用:

# GPT-5.4 Computer Use API调用
from openai import OpenAI

client = OpenAI()
response = client.responses.create(
    model="computer-use-preview",
    tools=[{"type": "computer_use_preview",
            "display_width": 1920,
            "display_height": 1080,
            "environment": "browser"}],
    input=[{"role": "user",
            "content": "在Excel中创建数据透视表"}],
    reasoning={"effort": "high"}
)

结论是:简单、流程确定的任务做得又快又好,涉及判断和异常处理的场景还会犯错。按这个进步曲线,今年年底可靠性应该能到90%以上。

Anthropic代码审查:AI审查AI的闭环

3月9号Anthropic给Claude Code加了代码审查功能。背景很简单:企业里越来越多代码是AI写的,让工程师一行行读?那AI省下来的时间不就又花回去了?

这揭示了一个趋势——AI工具链正在从单点生成走向闭环:

  1. AI帮你写代码,你自己review(去年的主流)
  2. AI写代码,另一个AI帮你review(现在正在发生)
  3. AI发现bug后自己修,修完再review(已有雏形)
  4. AI从需求出发,自己写、测、部署、监控、修bug(Agent终极形态)

如果你在用GitHub Actions做CI/CD,可以把AI代码审查集成进去:

# .github/workflows/ai-review.yml
name: AI Code Review
on: [pull_request]

jobs:
  review:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - name: AI Review with Claude
        env:
          ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
        run: |
          # 获取 PR 变更文件
          gh pr diff ${{ github.event.pull_request.number }} > /tmp/diff.patch

          # 调用 Claude 审查
          python3 -c "
          import anthropic
          client = anthropic.Anthropic()
          diff = open('/tmp/diff.patch').read()[:50000]
          resp = client.messages.create(
              model='claude-sonnet-4-20250514',
              max_tokens=2000,
              messages=[{'role':'user','content':f'Review this code diff for bugs and security issues:\n{diff}'}]
          )
          print(resp.content[0].text)
          "

对开发者来说,纯编码能力在贬值,理解业务需求和设计系统架构的能力在升值。把学习时间花在系统设计和架构思维上,比刷LeetCode实际得多。

Nemotron 3 Super:Agent专用模型实测

3月12号英伟达开源了Nemotron 3 Super。1200亿总参数,120亿激活参数,支持100万Token上下文。用了Mamba-2和MoE混合架构(LatentMoE),推理时只激活十分之一参数,成本远低于同规模纯Transformer模型。

英伟达明确说这个模型专门为Agent设计——多步推理、工具调用、长上下文理解都做了专门优化。

本地部署可以用vLLM:

# 用 vLLM 部署 Nemotron 3 Super(需要至少 2x A100 80GB)
pip install vllm>=0.6.0

# 启动推理服务
python -m vllm.entrypoints.openai.api_server \
    --model nvidia/Nemotron-3-Super-120B-Instruct \
    --tensor-parallel-size 2 \
    --max-model-len 131072 \
    --gpu-memory-utilization 0.95 \
    --port 8000

# 测试 Agent 工具调用能力
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nvidia/Nemotron-3-Super-120B-Instruct",
    "messages": [
      {"role": "system", "content": "You are a helpful agent with access to tools."},
      {"role": "user", "content": "查询北京今天的天气,然后用Python画一个温度趋势图"}
    ],
    "tools": [
      {
        "type": "function",
        "function": {
          "name": "get_weather",
          "description": "获取指定城市的天气信息",
          "parameters": {"type": "object", "properties": {"city": {"type": "string"}}}
        }
      }
    ]
  }'

如果显存不够跑完整版,可以用量化:

# 4-bit 量化版,单卡 A100 80GB 可跑
pip install auto-gptq
python -m vllm.entrypoints.openai.api_server \
    --model nvidia/Nemotron-3-Super-120B-Instruct-GPTQ-Int4 \
    --quantization gptq \
    --max-model-len 32768 \
    --port 8000

芯片公司做大模型的逻辑很清楚:需要一个标杆模型证明自家硬件优势。Blackwell上跑Nemotron性能一定比AMD卡好,跟苹果做Apple Silicon然后把Final Cut Pro优化到极致一个思路——软硬件一体化是最深的护城河。

几个值得关注的事

DeepSeek 100万Token上下文。 终于拿到测试资格。20万字合同丢进去问第47页第三段说了什么,回答准确。三体全文丢进去做总结,没有明显信息丢失。长上下文正在从PPT数字变成真能用。

智谱GLM-5-Turbo。 39元/月体验卡包含3500万Token,同时API价格上调20%。To C做流量To B赚利润,很精明的定价。

中国大模型调用量首超美国。 IDC数据,2月份中国单周调用量突破5万亿Token。不只大厂在用,中小企业和个人开发者增长猛。

这周最该记住的事

如果只选一件,我选推理成本降到十分之一。

模型再强用不起就是论文里的数字。推理成本从一万降到一千,原来十个人里一个能用的场景变成十个人都能用。市场直接扩大十倍。

过去两年主旋律是"模型越大越强"。从今年开始,主旋律切换成了降成本、扩覆盖、让更多人用得上。英伟达推硬件降本,DeepSeek用更少算力做更好模型,OpenAI把能力下放免费版。所有大玩家在做同一件事:让AI从少数人的工具变成多数人的工具。

一个80分但便宜的模型,商业价值往往大于95分但贵十倍的模型。这对我们普通开发者来说,可能比模型能力提升更实际的好消息。


关注公众号 92year,每天一篇AI工具深度实测

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐