这期的「周一上线」,有点像 AI 终于不满足于“坐在聊天框里等你提问”了。一边,Cursor、GitHub Copilot 继续把 AI Coding 推向开发工作台;另一边,支付宝、腾讯 WorkBuddy 也开始让 AI 真正替用户跑流程、找服务、发起支付。

社区这边也没闲着:有人把 Claude Code 跑到墨水屏上,有人把树莓派塞进 Docker 容器里,还有人认真思考,AI Coding 的下一块屏幕会不会是一张无限画布。

下面,开始一周回顾。

有点新鲜

「有点新鲜」收录本周 AI / 开发者圈里那些不算大新闻,但挺值得看一眼的新鲜事。

墨水屏也开始加入 AI Coding 大军了?

在这里插入图片描述

最近,一台运行 Claude Code 的电子墨水屏设备在 X 上火了,不少开发者看完后的第一反应都是:「不知道是谁做的,但我想要一台。」

有意思的是,Hackaday 报道称,开发者通过重新设计驱动方案,让电子墨水屏实现了接近 60Hz 的刷新体验,试图摆脱传统阅读器刷新慢、只能看书的刻板印象。

随着 AI Coding 成为日常,也许未来的开发设备不一定是 RGB 灯效拉满的机械键盘,而是一块更护眼的墨水屏,陪你和 AI 安静地干一天活。

IBM 在线求庆生

在这里插入图片描述

IBM 本周迎来了 115 岁生日,官方直接在 X 上发帖「在线求庆生」:「我们今天 115 岁了,快来说句生日快乐 😠。」马斯克现身评论区送上祝福「HBD!」,IBM 则用一张柴犬 GIF 开心道谢。

从大型机时代一路走到 AI 时代,这家百年科技公司最近几年似乎越来越有“网感”了。

Docker 容器跑树莓派

在这里插入图片描述

有同款 Docker 容器的小伙伴可以试试这个操作,让你的容器跑个树莓派。

VR 把球赛搬上桌

在这里插入图片描述

NathieVR 分享了一个挺有未来感的观赛体验:戴上 Meta Quest 后,可以通过 DAZN 在 AR / XR 里看足球比赛。

它不只是把直播画面放大到眼前,还会把球场、球员位置和比赛信息做成空间里的虚拟视图,有点像把一场球赛搬到了桌面上。

JSON 是谁

在这里插入图片描述

Vibe Coding 的第一天,有人发出了灵魂一问:JSON 是谁?

Windows 2001 现已开放入住

在这里插入图片描述

不知道你想不想住进这么一个 Windows XP 的房间呢?“噔—— 噔—— 嗡——”(Windows XP 已开机

周五发版

「周五发版」是一个程序梗:一旦版本上线,我们就要开始祈祷一切如期运行。这个模块寓意,所有模型、产品版本更新,都能大吉大利。

GLM-5.2 发布:1M 上下文 + 开源权重,继续加码 AI Coding 和 Agent

智谱正式发布 GLM-5.2,重点强化 Coding、Agent 和长程任务能力,同时开放模型权重,并采用 MIT License。
在这里插入图片描述

这次最大的亮点之一是支持 1M 上下文窗口,更适合处理复杂项目、长代码库和多步骤任务。此外,GLM-5.2 提供了两档推理模式:GLM-5.2 (max) 主打性能上限,GLM-5.2 (high) 则在性能和 Token 消耗之间取得平衡。

值得一提的是,官方并没有提高 API 价格,而是选择在保持原有 GLM-5.1 定价的基础上升级能力。最近几个月可以明显感觉到,国内模型厂商已经不再单纯卷 Benchmark,而是越来越围绕 AI Coding 和 Agent 工作流展开竞争。

Android 17 发布:聊天浮窗、双画面录制都来了

Google 正式发布 Android 17,并带来一系列围绕多任务处理和创作场景的新功能。

在这里插入图片描述

其中比较有意思的是 Bubbles 功能,未来几乎所有 App 都可以变成悬浮小窗口,方便用户一边处理当前任务,一边快速查看其他应用内容。此外,Android 17 还新增 Screen Reactions,支持同时录制手机屏幕和前置镜头,游戏主播、教程创作者和开发者录制演示视频都会方便不少。

针对折叠屏设备,Google 也推出了新的游戏模式,进一步利用大屏空间,同时继续升级系统安全能力。

相比单纯增加新功能,现在的 Android 似乎越来越像一个随身工作台:AI、创作、多任务处理正在慢慢成为手机系统的新底层能力。

VibeThinker-3B 发布:小模型不只是「便宜平替」了

WeiboAI 发布 VibeThinker-3B,一个仅有 30 亿参数(3B)的小模型,专注数学、编程和可验证推理任务。
在这里插入图片描述

官方数据显示,它已经进入一线推理模型的性能区间。更有意思的是,团队提出了一个新观点:小模型不应该只被视作降低部署成本的替代方案。在数学、代码这类反馈明确的任务中,小模型或许也能走出一条属于自己的能力增长路径。

Cartesia 发布 Sonic-3.5 和 Ink-2,想同时拿下 AI 的「听」和「说」

语音 AI 公司 Cartesia 正式发布 Sonic-3.5(文本转语音)和 Ink-2(语音转文本),并表示自己成为首家同时拥有行业领先「说」和「听」模型的厂商。
在这里插入图片描述

官方称,新架构进一步提升了语音生成速度和质量,这两款模型也已经可以直接用于 Voice Agent 场景。

随着 Voice Agent 越来越成熟,竞争也开始从单一模型能力,转向整套语音交互链路:不仅要会说,还得会听,更要做到实时响应。

Cursor 正在从 AI 编辑器,进化成 AI 工程平台

Cursor 本周一口气更新了云端智能体、自动化能力以及代码托管服务 Origin。

开发者现在可以通过 /in-cloud 把修复 CI、排查问题等长任务交给运行在独立 VM 中的云端智能体处理;也可以通过 /automate 用自然语言创建自动化工作流,并接入 GitHub、Slack 等触发器。

在这里插入图片描述

与此同时,Cursor 还宣布推出 Git 托管服务 Origin,希望把代码存储、代码审查和 AI 协作全部整合进来。
在这里插入图片描述

越来越明显的一件事是,Cursor 已经不满足于做一个 AI 编辑器,而是在朝着「AI 工程平台」演进。AI Coding 的竞争,也正在从「谁写代码更快」,变成「谁能承载整个研发流程」。

字节跳动推出 Seedance 2.0 Mini:AI 视频也开始卷成本和速度了

字节跳动发布视频生成模型 Seedance 2.0 Mini,在保持接近 Seedance 2.0 Fast 效果的同时,成本降低约 30%,生成速度提升 2 倍。
在这里插入图片描述

官方也同步将其接入 CapCut 的 AI 视频能力中,让更多用户直接上手体验。

如果说过去 AI 视频模型还在卷生成效果,那现在竞争重点似乎正在发生变化:谁能在保证质量的前提下,把速度做得更快、成本压得更低,谁就更容易走向大规模应用。

阿里发布 Qwen-Robot Suite:开始搭建具身智能的「全栈工具箱」

阿里通义千问发布 Qwen-Robot Suite,包含导航(RobotNav)、操作(RobotManip)和世界模型(RobotWorld)三大基础模型,进一步补齐具身智能底层能力。

在这里插入图片描述

简单理解,它们分别负责机器人怎么移动、怎么与物理世界交互,以及怎么理解和预测现实世界。

相比单个机器人 Demo,这次更值得关注的是,通义千问正在尝试构建一套可复用的底层能力,让未来的 Agent 不只是“看懂世界”,还能真正进入物理世界并完成行动。

GitHub Copilot App 正式上线:把 AI 带进整个开发流程

GitHub 宣布 GitHub Copilot App 正式可用,开发者现在可以在统一界面中查看待办事项、并行调度 AI 智能体,并直接推进 PR 合并。

在这里插入图片描述

相比过去作为 IDE 里的一个编程助手,Copilot 正在变成开发工作的统一入口。从写代码、管理任务到代码审查,AI 正逐渐参与整个研发流程。

开源雷达

周榜速递

周榜主要根据新增 star 数进行排名,下面的单项目讲解则偏向新晋项目、实用老项目,标星并非单项目讲解的唯一指标:

在这里插入图片描述

NotchPrompt:把 MacBook 刘海屏变成提词器

在这里插入图片描述

NotchPrompt 是一个开源 macOS 提词器工具,它把文稿直接放到 MacBook 摄像头附近的刘海区域,让你在视频会议、产品演示或录制视频时,既能看稿,又能保持自然的视线交流。

更有意思的是,它不会出现在 Zoom、Google Meet 等屏幕共享画面里,只有自己能看到内容。对于经常做 Demo、直播、线上分享的开发者来说,这算是一个简单但很实用的小工具。

parakeet.cpp:让语音识别也能像 llama.cpp 一样本地运行

在这里插入图片描述

parakeet.cpp 是 NVIDIA Nemotron-3.5-ASR 的 C++ 实现,可以直接在 CPU 上运行语音识别,无需依赖 GPU,也能实现 40 多种语言的实时转写。

对于开发者来说,这意味着语音 Agent 的门槛又降低了一步。结合本地翻译、小模型推理等能力,未来不少 AI 工作流甚至可以完全脱离云端,在本地离线运行。

尤其对于语音助手、智能硬件等场景来说,0.6B 的模型规模也让部署成本变得更加友好。

cult-ui:专门为 AI 产品打造的开源组件库

在这里插入图片描述

cult-ui 是一个面向 AI 应用的 React 开源组件库,内置聊天框、Prompt 输入框、文件上传、Agent 卡片等 AI 产品里常见的交互组件。

对于独立开发者来说,不用再从零开始搭建一套 AI 产品界面,而是可以把更多精力放在模型能力和业务逻辑本身。

Cowart:把 AI Coding 搬进无限画布里

在这里插入图片描述

Cowart 是一个基于 Codex 的无限画布(Infinite Canvas)工具插件,名字来源于「Code with Art」。

相比传统聊天窗口式的 AI Coding,它尝试把代码、想法和 AI 协作过程全部搬到一个可自由扩展的画布空间里,让开发过程更像是在“创作”而不是“对话”。

最近越来越多 AI 产品都在尝试跳出 Chat 界面,未来 AI Coding 的终极形态,或许不是一个聊天框,而是一块无限延展的工作台。

这周有事

「这周有事」收录本周值得记一下的行业动态、事故、融资、人员流动和基础设施变化。

前阿里千问负责人林俊旸新实验室获融资,估值 20 亿美元

据 The Information 报道,前阿里通义千问负责人林俊旸创办的新 AI 实验室已完成首轮融资,红杉中国和高榕创投联合领投,腾讯跟投,公司投后估值约 20 亿美元。
在这里插入图片描述

离开阿里后,林俊旸将目光投向 World Model 和具身智能,并组建了一支来自字节、腾讯及海外机构的核心团队。

今年以来,一个明显的趋势正在出现:头部大模型人才正陆续走出大厂,开启新一轮 AI 创业潮。

SpaceX 正式收购 Cursor,AI Coding 进入巨头竞争时代

SpaceX 宣布以 600 亿美元全股票交易收购 AI 编程工具 Cursor,并计划进一步强化自身 AI 能力。双方过去几个月已联合训练模型,未来也将逐步接入 Cursor 和 Grok Build。
在这里插入图片描述

这笔交易也让 AI Coding 的竞争进入新阶段。过去大家比拼的是模型能力,如今竞争对象已经变成 OpenAI、Anthropic、Google 和 SpaceX 等超级玩家。AI 编程工具不再只是一个开发者插件,而正在成为下一代 AI 基础设施的重要入口。

支付宝右滑进入 AI 时代,「阿宝」正式开启邀测

支付宝本周上线 AI 版支付宝,用户右滑即可进入全新的对话式界面,通过 AI 助手「阿宝」完成公积金查询、生活缴费、出行等各类服务。
在这里插入图片描述

相比过去在不同小程序和功能入口之间来回跳转,现在用户只需要说一句话,AI 就会自动匹配对应服务并完成流程,真正把「找服务」变成了「让 AI 帮你办事」。

一个很明显的信号是,国民级 App 正在集体告别「功能陈列式」设计,转向「对话即服务」的新交互模式。未来,大家比拼的或许不再是谁的功能更多,而是谁更懂得替用户办事。

腾讯 WorkBuddy 接入微信支付:AI 开始帮你找优惠、下单和付款了

腾讯展示了 WorkBuddy 的最新能力,接入微信支付 AI AgentPay Card 后,用户只需问一句「附近有什么好吃的」,AI 就能根据位置和偏好筛选团购套餐、完成下单,并发起支付流程。

在这里插入图片描述

不过涉及资金变动的最后一步,仍然需要用户在手机上亲自确认,消费额度也可以提前设置上限。

一个很有意思的趋势正在出现:AI 不再只是回答问题,而是开始真正替用户执行任务。但与此同时,「AI 跑腿,人类拍板」也逐渐成为新的交互规则。

DeepSeek 完成超 74 亿美元融资,特殊交易结构引发关注

据 The Information 报道,DeepSeek 已完成约 500 亿元人民币(约 74 亿美元)融资,创下国内 AI 领域新的融资纪录。
在这里插入图片描述

不过相比融资金额,更受关注的是其罕见的交易结构。报道称,这套设计既帮助 DeepSeek 获得了充足资金,也尽可能保留了团队的独立性和长期发展空间。

随着 AI 竞争进入深水区,资本市场的关注点似乎也在发生变化:比起单纯「投多少钱」,大家更关心如何在资金、控制权和技术路线之间找到平衡。

cURL 团队宣布进入「暑假模式」,暂停接收漏洞报告

知名开源项目 cURL 开发团队宣布,从 7 月 1 日至 8 月 3 日进入假期模式,期间将暂停通过 HackerOne 接收漏洞报告,也不会处理常规 Bug 提交。
在这里插入图片描述
不过,签署了付费支持协议的企业客户,依然可以获得安全问题和技术支持服务。

这件事也再次提醒大家:许多支撑互联网运行的关键基础设施,背后依然是人数有限的开源团队在维护。当开源项目被越来越广泛地使用,如何让维护者获得可持续的回报,也成为整个行业必须面对的问题。

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐