P.S. 无意间发现了一个巨牛的人工智能教程,非常通俗易懂,对AI感兴趣的朋友强烈推荐去看看,传送门https://blog.csdn.net/HHX_01

前言

国产模型又双叒叕要"吊打GPT"了。

这次我差点信了。

GLM-5.2发布那天,朋友圈跟过年似的。有人已经开始写《GPT已死》了,我说兄弟,你上个月刚写的《Claude已死》,上上个月写的《Gemini已死》,你这死亡笔记挺厚啊,再写下去快赶上柯南了。

但说实话,这次不一样。以前国产模型出新版本,我的反应是"哦"。这次是"哦?"。多了一个问号,说明真的有点东西。

先说结论:很强,但别急着搬家

用了这么多年国产模型,我的评价通常就四个字:“还行,但”。

GLM-5.2是第一次让我把"但"字后面的内容删了一半。

它确实是我用过最强的国产模型,跟GPT、Claude顶级梯队比,差距从"鸿沟"缩成了"水沟"。

但"水沟"也是沟啊,你总不能开着法拉利硬冲吧?底盘刮坏了修起来更贵。

以前国内模型在Agent选型里是什么地位?备胎中的备胎。预算花光了才考虑它,排最后一名还得看人家脸色,跟面试时坐在走廊最后一个的求职者似的。

GLM-5.2是第一个让我愿意把它写进选型表正文的国产模型——不是脚注,是正文。

但你要问我现在要不要把全部Agent切过去?

我的建议是:别。

能力过了门槛,稳定性、额度、生态还在门槛外面蹲着呢,跟三个没买到票的粉丝似的。这三件事,后面细说。

真正变强的是"长任务"和"Agent感"

GLM-5.2官方定位很明确:长任务旗舰,1M上下文,最大输出128K。

什么概念?以前你扔代码进去,得跟喂鱼一样,一段一段掰碎了喂。现在好了,整个仓库塞进去,它连鱼刺都不吐,直接给你吐出一份重构方案。

官方吹的场景很具体:项目级工程接管、长程重构、微信小程序、小游戏。

别的国产模型还在吹"通用能力"这种虚头巴脑的东西,它已经学会说人话了——“我能帮你写代码,真的写,不是写个hello world那种”。

我用下来最大的感受是:它终于记得自己刚才说过什么了。

以前跑国产模型Agent,跑三步就开始失忆。前面定好的变量命名规范,到第五步就忘了,跟老年痴呆似的。你让它叫userName,它后面给你写成user_name,再后面写成UserName,再后面写成usrNme——最后这个不是风格问题,是手滑了。

GLM-5.2在这方面好多了,至少能跑完一个疗程再出问题。虽然也会忘,但忘得比较体面,不是那种"你是谁?我在哪?我要干什么?"的彻底失忆。

官方数据也挺唬人:FrontierSWE上只落后Opus 4.8约1%,超过GPT-5.5约1%。

虽然基准测试跟实际工程是两码事,但国内模型第一次能跟Opus、GPT放在同一张表上,这本身就挺像国足进世界杯的——不管能不能赢,先进了再说。进去了就是0到1的突破,至于1到100,后面慢慢追。

现实很骨感:额度、倍数、时间窗口

能力强是能力强,用起来那是另一回事。就像你相亲遇到个完美对象,结果发现人家吃饭要按分钟计费。

Coding Plan的额度设计,让我想起了大学食堂的饭卡——充得挺多,刷得更快,而且打饭阿姨手抖。

额度速览
Lite:80 prompts/5h,周限约400
Pro:400 prompts/5h,周限约2000
Max:1600 prompts/5h,周限约8000

听着还行对吧?然后它给你来了个"高峰期3倍消耗"。

北京时间14:00到18:00,你以为是1个prompt,实际是3个。这跟超市标价9.9结果结账发现是29.9有什么区别?区别在于超市你可以把东西放回去,额度用完了你只能干瞪眼。

Pro套餐每周2000 prompts,高峰期全按3倍算,实际就600多个。高强度Agent跑两三个小时,额度烧得比你周末的加班费还快。

我上次把三个Agent切到GPT,一周额度直接清零。GLM这边更刺激,高峰期3倍乘数,清零速度乘以三。数学不好的人可能觉得赚了,毕竟"乘以三"听起来很赚,但这里乘的是消耗不是收入。

想无限跑?上千元的团队版请。对比200美元的GPT Pro,这账本怎么算都像是"支持国产"的爱心捐款。情怀不能当饭吃,但饭钱确实因为情怀变贵了。

而且还有个时间窗口的问题。高峰期限制明显,逼着你养成"大任务留到半夜跑"的好习惯。

对自由职业者可以接受,对上班族就很魔幻——你的Agent在工作时间罢工,晚上加班的时候倒是精神了。这哪是AI助手,这是AI领导啊。而且领导还不给你发加班费。

接入不是"换个API地址"那么简单

官方说Coding Plan只能在指定工具里用。OpenClaw在支持列表里,但用的是"次级调度与尽力交付"。

翻译成人话就是:能用,但别指望快。高负载下自动排队限流,跟医院挂号似的,挂上了也得等,等的时候还得担心前面有没有插队的。

我实际接入的时候,Hermes和OpenClaw都遇到了定向拦截。请求能发出去,回来的要么是超时,要么是拒绝,格式还跟普通限流不一样,更像是识别到客户端特征之后的特殊照顾。

周围几个同行也碰到同样的问题。这大概率是系统行为,不是运气差。毕竟我们几个人同时运气差,那说明不是运气问题,是设计问题。

意味着啥?如果你用的不是官方亲儿子工具,接入成本远超"改个endpoint"。要么改源码,要么换工具,要么接受不稳定。这三个选项,没有一个让人开心的。

模型能力追上来了,但生态还在后面追。这感觉就像你买了辆超跑,发现家门口的路全是减速带。车是好车,但你得先修路。

OpenRouter上有开放权重,1.2美元input/4.1美元output per 1M tokens。自建推理能绕过额度限制,但GPU、运维、延迟另算。

这账本越算越像:省下的额度,全交给云服务商了。羊毛出在羊身上,只不过这次羊和狼是同一只。

我的建议:别当主力,当"备胎中的战斗机"

我现在把GLM-5.2当补位武器,不是主力。就像足球队里的超级替补,关键时刻能上场,但首发还得是那几个老家伙。

场景一:GPT不接的活儿,它来填

有些活儿GPT死活不接,跟个有洁癖的管家似的。GLM-5.2相对宽松,直接填空。这是最直接的补位价值,不用改工作流,拿来就用,用完还说声谢谢。

场景二:长上下文仓库理解

1M context是实打实的优势,整个仓库塞进去一次读完,比分段喂效率高得多。适合"全量扫一遍再说"的分析任务。以前分段喂就像吃自助餐要分批拿,现在直接给你上满汉全席,虽然可能吃不完,但看着爽啊。

场景三:国产环境和中文工程

微信小程序、小游戏、国内技术栈,GLM的工程上下文更贴近实际。毕竟国产模型对国产生态的理解,就像本地人指路——不一定最准确,但肯定最接地气。

场景四:非高峰期大任务

凌晨或者早上跑,1倍抵扣(限时福利到9月底)、非高峰2倍消耗,是成本最优窗口。相当于AI版的错峰出行。半夜跑任务还有个好处:报错的时候没人看见,不丢人。

场景五:当第二意见

复杂决策让两个模型分别出方案,GLM-5.2有时候能从GPT没覆盖的角度给出判断。互补价值大于替代价值。就像看病挂两个专家号,一个说开刀一个说吃药,你至少知道还有选择。

不适合的场景
全天候高强度Agent群、需要无限自动化的生产主链路、对稳定额度有要求的场景。这些情况下,限流和接入摩擦会变成瓶颈,跑到一半卡住再切回来,折腾成本比你想象的高。
想象一下:你的自动化流水线跑到一半,模型说"不好意思,额度用完了,明天请早"。这时候你的表情,跟外卖迟到两小时发现订单被取消是一样的。

今天的国产模型,第一次让我认真讨论"放在哪个位置用",而不是追问"能不能用"。

你不用再问国产模型能不能写代码了,这条已经过线了。过线了不代表能拿冠军,但至少能上场踢球了。

现在该问的是:它适不适合进你的预算表,放哪个位置,跟谁搭配。

最危险的用法,是因为能力强了就把所有Agent一把切过去,然后在高峰期被限流卡死,再灰溜溜换回来。这个切换成本不低,来回折腾很容易浪费掉原本可以生产的时间。就像搬家,你以为一天能搬完,结果搬了一半发现新房子没水没电,又搬回去。

GLM-5.2的限制主要体现在额度能不能撑住你的用量,能力这边已经过线了。

用对了位置,它是真实的增量。用错了位置,它的限制会比你想象的更快显现出来。

毕竟,再好的备胎,也不能当正胎一直跑高速。跑久了,你会发现备胎上写着"限速80km/h"。

P.S. 无意间发现了一个巨牛的人工智能教程,非常通俗易懂,对AI感兴趣的朋友强烈推荐去看看,传送门https://blog.csdn.net/HHX_01

Logo

Agent 垂直技术社区,欢迎活跃、内容共建。

更多推荐