AI周报实测：GPT-5.4 Computer Use上手体验 + Nemotron 3 Super本地部署踩坑

baidu_32885171

870人浏览 · 2026-03-21 08:27:18

baidu_32885171 · 2026-03-21 08:27:18 发布

AI周报实测：GPT-5.4 Computer Use上手体验 + Nemotron 3 Super本地部署踩坑

过去这一周AI圈发生了太多事。英伟达GTC把两年后的芯片原型端出来了，GPT-5.4让AI直接操作电脑，Anthropic搞了个"AI审查AI"的代码工具，英伟达还开源了专为Agent设计的大模型。

我花了一周追踪试用，今天把干货整理出来。重点放在实测体验和技术细节上，方便大家直接上手。

GTC 2026：三颗芯片定义未来五年

黄仁勋穿着万年不换的皮夹克，做了件所有人都没料到的事——把原定2028年才发的Feynman架构，提前拿出来秀了一把技术原型。

这个操作本身就很耐人寻味。Blackwell是2024年发的，Vera Rubin今年下半年量产，Feynman按节奏应该是2028年的事。提前两年展示，摆明了告诉AMD和一众AI芯片公司：你们追我上一代的时候，我下下代已经做出来了。

Feynman几个硬指标：

台积电A16制程（1.6nm），英伟达第一次进入1nm级别。首次大规模采用硅光子光互连技术，带宽密度提升10倍，传输能耗降低90%。单GPU推理算力50 PFLOPS，比Blackwell提升5倍。

不过Feynman要2028年才量产。对我们做应用的人来说，眼前更实际的是Vera Rubin——今年下半年量产，核心卖点是单Token生成成本打到原来的十分之一。台积电3nm，HBM4内存，单卡显存288GB。

推理成本降到十分之一什么概念？你现在调API每月花1万，等Vera Rubin铺开可能只要1千。很多因为成本算不过来账没落地的AI应用，会因为这个变化直接可行。

第三个是LPU推理专用芯片。英伟达收了Groq的技术团队后做的，片上230MB SRAM，80TB/s带宽，首Token延迟低于0.1秒，推理速度比H100快10倍。

三颗芯片的布局非常清晰：Feynman锁未来，Vera Rubin解决眼前量产，LPU专攻推理降本。训练和推理正在彻底分家，以后很可能是训练一套硬件、推理另一套。

GPT-5.4 Computer Use实测：四个场景的真实表现

GPT-5.4的原生Computer Use是这周我花时间最多的东西。不是截图告诉你该点哪，而是直接控制鼠标键盘操作你的电脑。OpenAI说任务成功率达到75%，超过了人类平均水平。

我测了四个场景，说真实体验。

场景一：Excel数据分析。 打开销售数据表，做数据透视表，按月汇总，画柱状图。40秒搞定，没出错。手动操作大概需要2-3分钟。

场景二：预订会议室。 在Google Calendar找下周三空闲时段、创建会议、发邀请。中间点错了一次按钮退出重来，总共1分钟。

场景三：部署Web应用。 SSH到服务器，拉代码，装依赖，重启服务。50秒搞定，终端操作对AI来说比GUI简单得多。

场景四：处理报销单。 读PDF发票，提取金额日期填到网页表单。翻车了——识别PDF没问题，但填表时把金额填到了日期栏。

如果你想自己体验Computer Use，可以用Anthropic的开源参考实现快速搭一个测试环境：

# 安装 Anthropic Computer Use 参考实现
pip install anthropic

# 基本调用示例（需要 API Key）
import anthropic

client = anthropic.Anthropic()
response = client.beta.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=1024,
    tools=[{
        "type": "computer_20241022",
        "name": "computer",
        "display_width_px": 1920,
        "display_height_px": 1080,
        "display_number": 1,
    }],
    messages=[{
        "role": "user",
        "content": "打开浏览器搜索今日新闻"
    }]
)
print(response.content)

OpenAI的Computer Use也可以通过API调用：

# GPT-5.4 Computer Use API调用
from openai import OpenAI

client = OpenAI()
response = client.responses.create(
    model="computer-use-preview",
    tools=[{"type": "computer_use_preview",
            "display_width": 1920,
            "display_height": 1080,
            "environment": "browser"}],
    input=[{"role": "user",
            "content": "在Excel中创建数据透视表"}],
    reasoning={"effort": "high"}
)

结论是：简单、流程确定的任务做得又快又好，涉及判断和异常处理的场景还会犯错。按这个进步曲线，今年年底可靠性应该能到90%以上。

Anthropic代码审查：AI审查AI的闭环

3月9号Anthropic给Claude Code加了代码审查功能。背景很简单：企业里越来越多代码是AI写的，让工程师一行行读？那AI省下来的时间不就又花回去了？

这揭示了一个趋势——AI工具链正在从单点生成走向闭环：

AI帮你写代码，你自己review（去年的主流）
AI写代码，另一个AI帮你review（现在正在发生）
AI发现bug后自己修，修完再review（已有雏形）
AI从需求出发，自己写、测、部署、监控、修bug（Agent终极形态）

如果你在用GitHub Actions做CI/CD，可以把AI代码审查集成进去：

# .github/workflows/ai-review.yml
name: AI Code Review
on: [pull_request]

jobs:
  review:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
      - name: AI Review with Claude
        env:
          ANTHROPIC_API_KEY: ${{ secrets.ANTHROPIC_API_KEY }}
        run: |
          # 获取 PR 变更文件
          gh pr diff ${{ github.event.pull_request.number }} > /tmp/diff.patch

          # 调用 Claude 审查
          python3 -c "
          import anthropic
          client = anthropic.Anthropic()
          diff = open('/tmp/diff.patch').read()[:50000]
          resp = client.messages.create(
              model='claude-sonnet-4-20250514',
              max_tokens=2000,
              messages=[{'role':'user','content':f'Review this code diff for bugs and security issues:\n{diff}'}]
          )
          print(resp.content[0].text)
          "

对开发者来说，纯编码能力在贬值，理解业务需求和设计系统架构的能力在升值。把学习时间花在系统设计和架构思维上，比刷LeetCode实际得多。

Nemotron 3 Super：Agent专用模型实测

3月12号英伟达开源了Nemotron 3 Super。1200亿总参数，120亿激活参数，支持100万Token上下文。用了Mamba-2和MoE混合架构（LatentMoE），推理时只激活十分之一参数，成本远低于同规模纯Transformer模型。

英伟达明确说这个模型专门为Agent设计——多步推理、工具调用、长上下文理解都做了专门优化。

本地部署可以用vLLM：

# 用 vLLM 部署 Nemotron 3 Super（需要至少 2x A100 80GB）
pip install vllm>=0.6.0

# 启动推理服务
python -m vllm.entrypoints.openai.api_server \
    --model nvidia/Nemotron-3-Super-120B-Instruct \
    --tensor-parallel-size 2 \
    --max-model-len 131072 \
    --gpu-memory-utilization 0.95 \
    --port 8000

# 测试 Agent 工具调用能力
curl http://localhost:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "nvidia/Nemotron-3-Super-120B-Instruct",
    "messages": [
      {"role": "system", "content": "You are a helpful agent with access to tools."},
      {"role": "user", "content": "查询北京今天的天气，然后用Python画一个温度趋势图"}
    ],
    "tools": [
      {
        "type": "function",
        "function": {
          "name": "get_weather",
          "description": "获取指定城市的天气信息",
          "parameters": {"type": "object", "properties": {"city": {"type": "string"}}}
        }
      }
    ]
  }'

如果显存不够跑完整版，可以用量化：

# 4-bit 量化版，单卡 A100 80GB 可跑
pip install auto-gptq
python -m vllm.entrypoints.openai.api_server \
    --model nvidia/Nemotron-3-Super-120B-Instruct-GPTQ-Int4 \
    --quantization gptq \
    --max-model-len 32768 \
    --port 8000