国产 AI 真的追上 Claude 了么?我用 5 道题测了 6 个模型
April 29th, 2026
4 月份各大模型密集发布,国产开源模型和闭源模型神仙打架。我用 5 道题目挨个测试了一遍,先把几个结论放在前面:
- Opus 4.7 是我目前三维弹球测试中,唯一一个能正常游玩的模型了
- 国产模型通常是更快的完成思考,所以看起来效果没有那么理想
- GPT-5.5 出乎意料的无法正常游玩,而且生成了好几次都不太行
这次比的六个模型分别是:Claude Opus 4.7、GPT-5.5、DeepSeek V4 Pro、GLM-5.1、Kimi K2.6、Qwen 3.6 Max
5 道题分为两道智力题,三道实战题。模型的参数对比参考我放在文末附录。
智力问答
洗车店问题
我想去洗车,洗车店距离我家 50 米,你说我应该开车过去还是走过去?
以前测这道题,绝大部分模型都会被 50 米这个距离误导,建议你走过去。
Opus 4.7: 开车过去
GPT-5.5: 开车过去
DeepSeek V4 Pro: 开车过去
GLM 5.1: 开车过去
Kimi K2.6: 开车过去
Qwen 3.6 Max: 开车过去
不知道是不是模型厂商全部训练过了,这个“洗车店问题”似乎全部解决了,全都能回答出来。
草莓问题 V2
这个问题是 strawberry 里面有几个 r 的反转版本
r 里面有几个 strawberry
Opus 4.7: 理解正确,一个 r 里装不下整颗草莓
GPT-5.5: 理解错误,strawberry 里面有 3 个 r
DeepSeek V4 Pro: 都分析了一遍
这个问题其实是一个文字游戏,可以有两种理解方式:
**1. 如果把问题理解为“单词 strawberry 里面有几个字母 r”:**
- strawberry 的拼写是:**s - t - r - a - w - b - e - r - r - y**
- 可以看到第 3 个、第 8 个和第 9 个字母都是 r,所以一共有 **3 个 r**。
**2. 如果按字面意思“字母 r 的里面有几个 strawberry”:**
- 字母 “r” 只是一个小小的字母,里面不可能装下 strawberry 这个单词或水果,所以答案是 **0**。
通常这类问题都是考拼写,所以更常见的答案是 **3**。
GLM 5.1: 理解正确,都分析了一遍 Kimi K2.6: 理解错误,单词 strawberry 里面一共有 3 个 字母 r Qwen 3.6 Max: 理解正确,也都分析了一遍
只有 GPT-5.5 和 Kimi K2.6 理解错误了。
精细的鹈鹕
这是 Simon Willison 鹈鹕 SVG 测试,这个版本加了一些细节要求,看看模型在 SVG 细节、解剖学常识和构图理解上的表现
完整提示词
Generate an SVG of a California brown pelican riding a bicycle. The bicycle
must have spokes and a correctly shaped bicycle frame. The pelican must have its
characteristic large pouch, and there should be a clear indication of feathers.
The pelican must be clearly pedaling the bicycle. The image should show the full
breeding plumage of the California brown pelican.
Opus 4.7: 还挺不错的,细节处理满分,就是没有画背景

GPT-5.5: 最胖的鹈鹕了,阿哈哈哈

DeepSeek V4 Pro: DeepSeek 的这个鹈鹕好帅,就是手(翅膀)没有处理好

GLM 5.1: 完成度还不错,有些细节 bug

Kimi K2.6: 有些简陋了

Qwen 3.6 Max: 完成度还不错,他也和 Opus 一样知道鹈鹕没有手,所以没有握着把手

整体来说鹈鹕 SVG 大家都做的蛮不错的,Kimi K2.6 意外有些拉胯。
精美天气卡
测试前端设计感。看 AI 写的会不会一眼"AI 紫色",能不能做出真正能上线的视觉。
完整提示词
创建一个极其精美的天气卡片,展示北京当前天气。追求设计感和细节品质,让我惊艳。
Opus 4.7: 说真的我很喜欢这个天气卡的设计,细节也很到位,已经不怎么 AI 感了

GPT-5.5: 还挺让我惊喜的,效果也不错,这个设计风格我喜欢,适合做成 APP 的效果

DeepSeek V4 Pro: 比较 AI 感,平平无奇

GLM 5.1: 比较 AI 感,平平无奇

Kimi K2.6: 设计感稍微好点,但是不够精致,而且他说做了视差效果,实际就是卡片变扁了

Qwen 3.6 Max: 比较 AI 感,平平无奇

Opus 4.7 审美在线,GPT-5.5 居然也有不错的设计。 国产模型 Kimi K2.6 有设计,细节不够,其他几个都一样 AI 感。
三维弹球
综合工程题,三维建模、物理引擎、交互逻辑等等。这道题是我现在最常用来测试模型上限的一道题,我之前用这道题测过几次,从来没有模型能生成可玩的版本
测试提示词
Create a 3D pinball game with the following requirements:
1. **Tech**: Use a recent version of Three.js loaded from CDN. Output a single self-contained HTML file. No build step.
2. **Game scene**: A tilted 3D pinball table with a ball launcher, flippers, and plunger
3. **Game elements**: Include bumpers, scoring targets, ramps/rails, and drain holes
4. **Physics**: Realistic ball physics with gravity, collision bouncing, and flipper force. Ball must not tunnel through walls at high speed.
5. **Controls**: Left/Right arrows or A/D for flippers, Space to launch the ball
6. **Scoring**: Different points for hitting various elements, display current score
7. **Visuals**: 3D rendering with metallic ball, glowing scoring elements, particle effects on collision
8. **Game logic**: 3 lives, lose one when ball drains, show final score on game over
Opus 4.7: 可以游玩!!,弹球可以弹出,碰撞记分正常,唯一的缺点就是墙布局不太合理,有些地方有漏洞。
GPT-5.5: 无法游玩,弹球可以弹出,但是墙太长了,弹球无法跑到外面去。

DeepSeek V4 Pro: 不太能玩,弹球可以弹出,并正常记分,拨杆位置错了,弹球经常卡在空气墙上。但是比我预期要好很多了。
GLM 5.1: 无法游玩,拨杆交叠了,弹球有弹簧效果,但是弹球只能原路弹出返回

Kimi K2.6: 无法游玩,整个桌面晃来晃去,墙体也看不清楚,拨杆能动,弹球没有弹簧效果按一下就结束了

Qwen 3.6 Max: 无法游玩,拨杆能动,球体一直在转,弹球有弹簧效果但是没有碰撞也可以,有碰撞记分
最终的结果是:Opus 4.7 > DeepSeek V4 Pro > GPT-5.5 > GLM 5.1 > Qwen 3.6 Max > Kimi K2.6
这一局,DeepSeek V4 Pro 出乎意料的好,国产模型最好的了。而 GPT-5.5 出乎意料的无法正常游玩,而且生成了好几次都不太行。 而 Opus 4.7 是我目前三维弹球测试中,唯一一个能正常游玩的模型了。它思考了非常久,在网页端的时候直接超出了一次对话回复的上下文,所以我只能在 Claude Code 上生成,可能也存在 Claude Code harness 的加持让它生成得更好。
总结
测下来给我的几个感受:
- 国产模型普遍把思考完成得更快,所以看起来效果没那么理想。
- Opus 4.7 和 GPT-5.5 经常会思考很久,最终的输出也就更好。
- DeepSeek V4 Pro 是国产里思考时间更长的一个,效果在国产里也最好。
附录:参数对比与梯队判断
下面是我让 Grok 帮我整理的关键指标,数据来自 Artificial Analysis、LLM Rank、Chatbot Arena 等公开榜单:
| 指标 | Opus 4.7 | GPT-5.5 (xhigh) | DeepSeek V4 Pro | Qwen 3.6 Max | GLM-5.1 | Kimi K2.6 |
|---|---|---|---|---|---|---|
| MMLU-Pro | 92.8% | 93.5% | 88.9% | 86.4% | 85.7% | 88.2% |
| GPQA Diamond | 94.2% | 93.6% | 90.1% | 86.0% | 86.2% | 90.5% |
| Humanity's Last Exam | 46.9% | 41.4% | 37.7% | 26.2% | 28.0% | 34.7% |
| SWE-Bench Pro | 64.3% | 58.6% | 55.4% | 57.3% | 58.4% | 58.6% |
| SWE-Bench Verified | 87.6% | 88.7% | 80.6% | 73.4% | 77.8% | 80.2% |
| LiveCodeBench | 79.2% | 76.8% | 73.5% | 71.9% | 72.6% | 74.1% |
| Terminal-Bench | 66.4% | 69.1% | 63.2% | 64.8% | 65.5% | 67.3% |
| AgentBench | 68.5% | 71.2% | 62.9% | 64.1% | 66.7% | 65.8% |
| MMMU | 73.1% | 75.4% | 69.8% | 68.5% | 67.9% | 70.2% |
| Arena Elo | 1505 | 1523 | 1467 | 1456 | 1467 | 1466 |
| Artificial Analysis Intelligence Index | 57.3 | 60.2 | 51.5 | 51.8 | 51.4 | 53.9 |
加粗是每行整体最高分,加粗 + 斜体是国产/开源四个模型里的最高分。
这些指标简单了解下,按用途大致分四类:
学术知识与推理
- MMLU-Pro:综合学科知识,覆盖人文、科学、工程。
- GPQA Diamond:研究生级理科难题,故意做成搜索引擎搜不到答案,纯靠推理。
- Humanity's Last Exam:100+ 学科的闭卷题,目前公认最难的学术基准。
- Artificial Analysis Intelligence Index:以上几项加权出来的综合智能分,看整体水平用这个。
代码与工程
- SWE-Bench Pro:直接拿真实 GitHub issue 让模型端到端解决,最贴近真实开发。
- SWE-Bench Verified:SWE-Bench 经人工校验过的子集,结果更可靠。
- LiveCodeBench:用最新的竞赛题和 LeetCode 新题专门防数据污染,看模型在没见过的题上的真实表现。
Agent 与工具调用
- Terminal-Bench:命令行环境的多步操作,考验工具调用和长期规划。
- AgentBench:网页、代码仓库、数据库等多环境下的复杂 Agent 任务。
多模态与用户偏好
- MMMU:跨学科的多模态理解,文本、图像、图表混在一起测。
- Arena Elo:真实用户盲测对战的 Elo 排名,最能反映用户偏好。
最后说一下我对每个模型的体感:
- Claude Opus 4.7、GPT-5.5 毋庸质疑是这里面最强的两个模型,Opus 4.7 的审美也是这些模型页面最好的
- GPT-5.5 在后端开发以及复杂问题处理上都非常出色(本次的测试没有体现出来,这个是真实开发体验下来的感受)
- Qwen 3.6 Max 我用的很少,这次测下来感觉还不错
- GLM-5.1 整体表现和 Kimi K2.6 差不多
- Kimi K2.6 在这些测试题下表现最差的了,但是他的多项指标都要比其他国产模型强,可能在其他方面表现会更出色
- DeepSeek V4 Pro 我觉得是这些开源模型中体验最好的了
你对这些模型实际测试表现感受如何?欢迎评论区留言讨论
如果你觉得这篇文章对你有帮助,欢迎点赞、分享,你的支持是我持续创作的最大动力!