LLMs

又是节前发布?国庆三大模型更新实测:Claude Sonnet 4.5 vs DeepSeek V3.2 vs GLM-4.6

发布于 2025年10月1日

现在各大模型厂商似乎都喜欢在节假日前发布大模型。国庆假期前,三大模型厂商集中发布了重要更新。Anthropic 发布 Claude Sonnet 4.5、DeepSeek 发布了 DeepSeek-V3.2-Exp、智谱 AI 发布了 GLM-4.6。

这三款更新都将重点放在了编码能力提升上,对开发者来说值得重点关注。下面我们逐一分析。

Claude Sonnet 4.5

Anthropic 在 9 月 30 日发布了 Claude Sonnet 4.5 ,它在实际软件编码能力上再次提升,在 Agentic 编程、工具使用率等等多方面都超过了 Opus 4.1。

SWE-bench Verified

另外 Sonnet 4.5 在 金融、法律、药品、理工科等特定领域均有显著提升。

Sonnet 4.5 的价格和 Sonnet 4 一致,建议直接使用 4.5 。

Sonnet 4.5 测试

我将测试模型在生成复杂的 SVG 的表现,以及在前端网站生成美观性。

鹈鹕 SVG 图片测试:

使用提示词 生成尽可能精细的鹈鹕骑自行车的 SVG 来测试 Sonnet 4.5 ,得到如下结果:

骑自行车的鹈鹕 - By Claude Sonnet 4.5

这效果真的非常的棒了。

前端网站测试:

网站生成的提示词如下 我想为一个叫做‘星际漫游’的手机游戏制作一个宣传网站。风格要活泼、色彩鲜艳。所有代码合并成一个 HTML 文件。。得到的页面效果如下:

鹈鹕介绍网站 - By Claude Sonnet 4.5

生成的页面视觉效果良好,但在配色(选择 AI 爱用的紫色)选择上仍有改进空间。

DeepSeek-V3.2-Exp

DeepSeek 在 9 月 29 号 发布了 DeepSeek-V3.2-Exp,基于 v3.1-Terminus 构建。重点在于推出了 DSA,通过实现细粒度稀疏注意力,在几乎不影响输出质量的前提下,显著提升长上下文处理性能并降低计算成本

现在 DeepSeek 的价格大幅下降,每百万 Tokens ,缓存命中 0.2 元,输入 2 元,输出 3 元。

值得注意的是,官方的模型型号对应:

deepseek-chat 模型是 DeepSeek-V3.2-Exp 非思考模式。 deepseek-reasoner 模型是 DeepSeek-V3.2-Exp 思考模式。

V3.2-Exp 测试

鹈鹕 SVG 图片测试:

提示词 生成尽可能精细的鹈鹕骑自行车的 SVG 得到如下结果:

骑自行车的鹈鹕 - By DeepSeek-V3.2-Exp

DeepSeek 生成鹈鹕有些幽默,第一眼就看笑了。

考虑到本次更新主要集中在性能优化而非视觉效果,这里忽略了网站生产的效果。但是目前的 DeepSeek 在 Agentic 编码方面已经比较强了,可以尝试使用。

GLM-4.6

智普 AI 在 9 月 30 号发布 GLM-4.6,对比 GLM-4.5:

  • 上下文从 128K 提高到了 200K
  • 编码性能更好
  • 推理性能提升
  • 工具使用提升
  • 写作风格更加自然
  • 平均节省 30% 以上的 Tokens

GLM-4.6 的性能已接近 Claude Sonnet 4,但在最新发布的 Sonnet 4.5 面前仍有差距。

LLM Performance Evaluation: Agentic, Reasoning and Coding

GLM-4.6 价格还是跟 GLM-4.5 一样,但是它有 Coding Plan 可以订阅,需求比较大的比较划算。

GLM-4.6 测试

测试均为思考模式。

鹈鹕 SVG 图片测试:

提示词 生成尽可能精细的鹈鹕骑自行车的 SVG ,得到如下结果:

骑自行车的鹈鹕 - By GLM-4.6

整体的效果其实还蛮好的。

前端网站测试:

提示词 我想为一个叫做‘星际漫游’的手机游戏制作一个宣传网站。风格要活泼、色彩鲜艳。所有代码合并成一个 HTML 文件。 ,得到的页面效果如下:

鹈鹕介绍网站 - By GLM-4.6

生成的效果不错,还有不少的动效细节。

后续

总体而言,Claude Sonnet 4.5 还是非常强大的模型,国内可能又要花一些时间来追赶了。 不过,GLM-4.6 和 DeepSeek v3.2 等国产模型已经具备了替代 Claude Sonnet 4 的实力,加上价格优势,在实际的日常开发完全值得使用。

如果你觉得这篇文章对你有帮助,欢迎点赞、分享,你的支持是我持续创作的最大动力!

相关资源: