AILLM

国产 AI 真的追上 Claude 了么？我用 5 道题测了 6 个模型

April 29th, 2026

4 月份各大模型密集发布，国产开源模型和闭源模型神仙打架。我用 5 道题目挨个测试了一遍，先把几个结论放在前面：

Opus 4.7 是我目前三维弹球测试中，唯一一个能正常游玩的模型了
国产模型通常是更快的完成思考，所以看起来效果没有那么理想
GPT-5.5 出乎意料的无法正常游玩，而且生成了好几次都不太行

这次比的六个模型分别是：Claude Opus 4.7、GPT-5.5、DeepSeek V4 Pro、GLM-5.1、Kimi K2.6、Qwen 3.6 Max

5 道题分为两道智力题，三道实战题。模型的参数对比参考我放在文末附录。

智力问答

洗车店问题

我想去洗车，洗车店距离我家 50 米，你说我应该开车过去还是走过去？

以前测这道题，绝大部分模型都会被 50 米这个距离误导，建议你走过去。

Opus 4.7: 开车过去

GPT-5.5: 开车过去

DeepSeek V4 Pro: 开车过去

GLM 5.1: 开车过去

Kimi K2.6: 开车过去

Qwen 3.6 Max: 开车过去

不知道是不是模型厂商全部训练过了，这个“洗车店问题”似乎全部解决了，全都能回答出来。

草莓问题 V2

这个问题是 strawberry 里面有几个 r 的反转版本

r 里面有几个 strawberry

Opus 4.7: 理解正确，一个 r 里装不下整颗草莓

GPT-5.5: 理解错误，strawberry 里面有 3 个 r

DeepSeek V4 Pro: 都分析了一遍

这个问题其实是一个文字游戏，可以有两种理解方式：

**1. 如果把问题理解为“单词 strawberry 里面有几个字母 r”：**
- strawberry 的拼写是：**s - t - r - a - w - b - e - r - r - y**
- 可以看到第 3 个、第 8 个和第 9 个字母都是 r，所以一共有 **3 个 r**。

**2. 如果按字面意思“字母 r 的里面有几个 strawberry”：**
- 字母 “r” 只是一个小小的字母，里面不可能装下 strawberry 这个单词或水果，所以答案是 **0**。

通常这类问题都是考拼写，所以更常见的答案是 **3**。

GLM 5.1: 理解正确，都分析了一遍 Kimi K2.6: 理解错误，单词 strawberry 里面一共有 3 个字母 r Qwen 3.6 Max: 理解正确，也都分析了一遍

只有 GPT-5.5 和 Kimi K2.6 理解错误了。

精细的鹈鹕

这是 Simon Willison 鹈鹕 SVG 测试，这个版本加了一些细节要求，看看模型在 SVG 细节、解剖学常识和构图理解上的表现

完整提示词

Generate an SVG of a California brown pelican riding a bicycle. The bicycle
must have spokes and a correctly shaped bicycle frame. The pelican must have its
characteristic large pouch, and there should be a clear indication of feathers.
The pelican must be clearly pedaling the bicycle. The image should show the full
breeding plumage of the California brown pelican.

Opus 4.7: 还挺不错的，细节处理满分，就是没有画背景精细的鹈鹕-Opus 4.7

GPT-5.5: 最胖的鹈鹕了，阿哈哈哈精细的鹈鹕-GPT-5.5

DeepSeek V4 Pro: DeepSeek 的这个鹈鹕好帅，就是手（翅膀）没有处理好精细的鹈鹕-DeepSeek V4 Pro

GLM 5.1: 完成度还不错，有些细节 bug 精细的鹈鹕-GLM 5.1

Kimi K2.6: 有些简陋了精细的鹈鹕-Kimi K2.6

Qwen 3.6 Max: 完成度还不错，他也和 Opus 一样知道鹈鹕没有手，所以没有握着把手精细的鹈鹕-Qwen 3.6 Max

整体来说鹈鹕 SVG 大家都做的蛮不错的，Kimi K2.6 意外有些拉胯。

精美天气卡

测试前端设计感。看 AI 写的会不会一眼"AI 紫色"，能不能做出真正能上线的视觉。

完整提示词

创建一个极其精美的天气卡片，展示北京当前天气。追求设计感和细节品质，让我惊艳。

Opus 4.7: 说真的我很喜欢这个天气卡的设计，细节也很到位，已经不怎么 AI 感了

精美天气卡-Opus 4.7

GPT-5.5: 还挺让我惊喜的，效果也不错，这个设计风格我喜欢，适合做成 APP 的效果精美天气卡-GPT-5.5

DeepSeek V4 Pro: 比较 AI 感，平平无奇精美天气卡-DeepSeek V4 Pro

GLM 5.1: 比较 AI 感，平平无奇精美天气卡-GLM 5.1

Kimi K2.6: 设计感稍微好点，但是不够精致，而且他说做了视差效果，实际就是卡片变扁了精美天气卡-Kimi K2.6

Qwen 3.6 Max: 比较 AI 感，平平无奇精美天气卡-Qwen 3.6 Max

Opus 4.7 审美在线，GPT-5.5 居然也有不错的设计。国产模型 Kimi K2.6 有设计，细节不够，其他几个都一样 AI 感。

三维弹球

综合工程题，三维建模、物理引擎、交互逻辑等等。这道题是我现在最常用来测试模型上限的一道题，我之前用这道题测过几次，从来没有模型能生成可玩的版本

测试提示词

Create a 3D pinball game with the following requirements:
1. **Tech**: Use a recent version of Three.js loaded from CDN. Output a single self-contained HTML file. No build step.
2. **Game scene**: A tilted 3D pinball table with a ball launcher, flippers, and plunger
3. **Game elements**: Include bumpers, scoring targets, ramps/rails, and drain holes
4. **Physics**: Realistic ball physics with gravity, collision bouncing, and flipper force. Ball must not tunnel through walls at high speed.
5. **Controls**: Left/Right arrows or A/D for flippers, Space to launch the ball
6. **Scoring**: Different points for hitting various elements, display current score
7. **Visuals**: 3D rendering with metallic ball, glowing scoring elements, particle effects on collision
8. **Game logic**: 3 lives, lose one when ball drains, show final score on game over

Opus 4.7: 可以游玩！！，弹球可以弹出，碰撞记分正常，唯一的缺点就是墙布局不太合理，有些地方有漏洞。

GPT-5.5: 无法游玩，弹球可以弹出，但是墙太长了，弹球无法跑到外面去。

三维弹球-GPT-5.5

DeepSeek V4 Pro: 不太能玩，弹球可以弹出，并正常记分，拨杆位置错了，弹球经常卡在空气墙上。但是比我预期要好很多了。

GLM 5.1: 无法游玩，拨杆交叠了，弹球有弹簧效果，但是弹球只能原路弹出返回三维弹球-GLM 5.1

Kimi K2.6: 无法游玩，整个桌面晃来晃去，墙体也看不清楚，拨杆能动，弹球没有弹簧效果按一下就结束了三维弹球-Kimi K2.6

Qwen 3.6 Max: 无法游玩，拨杆能动，球体一直在转，弹球有弹簧效果但是没有碰撞也可以，有碰撞记分

最终的结果是：Opus 4.7 > DeepSeek V4 Pro > GPT-5.5 > GLM 5.1 > Qwen 3.6 Max > Kimi K2.6

这一局，DeepSeek V4 Pro 出乎意料的好，国产模型最好的了。而 GPT-5.5 出乎意料的无法正常游玩，而且生成了好几次都不太行。而 Opus 4.7 是我目前三维弹球测试中，唯一一个能正常游玩的模型了。它思考了非常久，在网页端的时候直接超出了一次对话回复的上下文，所以我只能在 Claude Code 上生成，可能也存在 Claude Code harness 的加持让它生成得更好。

总结

测下来给我的几个感受：

国产模型普遍把思考完成得更快，所以看起来效果没那么理想。
Opus 4.7 和 GPT-5.5 经常会思考很久，最终的输出也就更好。
DeepSeek V4 Pro 是国产里思考时间更长的一个，效果在国产里也最好。

附录：参数对比与梯队判断

下面是我让 Grok 帮我整理的关键指标，数据来自 Artificial Analysis、LLM Rank、Chatbot Arena 等公开榜单：

指标	Opus 4.7	GPT-5.5 (xhigh)	DeepSeek V4 Pro	Qwen 3.6 Max	GLM-5.1	Kimi K2.6
MMLU-Pro	92.8%	93.5%	88.9%	86.4%	85.7%	88.2%
GPQA Diamond	94.2%	93.6%	90.1%	86.0%	86.2%	90.5%
Humanity's Last Exam	46.9%	41.4%	37.7%	26.2%	28.0%	34.7%
SWE-Bench Pro	64.3%	58.6%	55.4%	57.3%	58.4%	58.6%
SWE-Bench Verified	87.6%	88.7%	80.6%	73.4%	77.8%	80.2%
LiveCodeBench	79.2%	76.8%	73.5%	71.9%	72.6%	74.1%
Terminal-Bench	66.4%	69.1%	63.2%	64.8%	65.5%	67.3%
AgentBench	68.5%	71.2%	62.9%	64.1%	66.7%	65.8%
MMMU	73.1%	75.4%	69.8%	68.5%	67.9%	70.2%
Arena Elo	1505	1523	1467	1456	1467	1466
Artificial Analysis Intelligence Index	57.3	60.2	51.5	51.8	51.4	53.9

加粗是每行整体最高分，加粗 + 斜体是国产/开源四个模型里的最高分。

这些指标简单了解下，按用途大致分四类：

学术知识与推理

MMLU-Pro：综合学科知识，覆盖人文、科学、工程。
GPQA Diamond：研究生级理科难题，故意做成搜索引擎搜不到答案，纯靠推理。
Humanity's Last Exam：100+ 学科的闭卷题，目前公认最难的学术基准。
Artificial Analysis Intelligence Index：以上几项加权出来的综合智能分，看整体水平用这个。

代码与工程

SWE-Bench Pro：直接拿真实 GitHub issue 让模型端到端解决，最贴近真实开发。
SWE-Bench Verified：SWE-Bench 经人工校验过的子集，结果更可靠。
LiveCodeBench：用最新的竞赛题和 LeetCode 新题专门防数据污染，看模型在没见过的题上的真实表现。

Agent 与工具调用

Terminal-Bench：命令行环境的多步操作，考验工具调用和长期规划。
AgentBench：网页、代码仓库、数据库等多环境下的复杂 Agent 任务。

多模态与用户偏好

MMMU：跨学科的多模态理解，文本、图像、图表混在一起测。
Arena Elo：真实用户盲测对战的 Elo 排名，最能反映用户偏好。

最后说一下我对每个模型的体感：

Claude Opus 4.7、GPT-5.5 毋庸质疑是这里面最强的两个模型，Opus 4.7 的审美也是这些模型页面最好的
GPT-5.5 在后端开发以及复杂问题处理上都非常出色（本次的测试没有体现出来，这个是真实开发体验下来的感受）
Qwen 3.6 Max 我用的很少，这次测下来感觉还不错
GLM-5.1 整体表现和 Kimi K2.6 差不多
Kimi K2.6 在这些测试题下表现最差的了，但是他的多项指标都要比其他国产模型强，可能在其他方面表现会更出色
DeepSeek V4 Pro 我觉得是这些开源模型中体验最好的了

你对这些模型实际测试表现感受如何？欢迎评论区留言讨论

如果你觉得这篇文章对你有帮助，欢迎点赞、分享，你的支持是我持续创作的最大动力！

AILLM

国产 AI 真的追上 Claude 了么？我用 5 道题测了 6 个模型

April 29th, 2026

4 月份各大模型密集发布，国产开源模型和闭源模型神仙打架。我用 5 道题目挨个测试了一遍，先把几个结论放在前面：

Opus 4.7 是我目前三维弹球测试中，唯一一个能正常游玩的模型了
国产模型通常是更快的完成思考，所以看起来效果没有那么理想
GPT-5.5 出乎意料的无法正常游玩，而且生成了好几次都不太行

这次比的六个模型分别是：Claude Opus 4.7、GPT-5.5、DeepSeek V4 Pro、GLM-5.1、Kimi K2.6、Qwen 3.6 Max

5 道题分为两道智力题，三道实战题。模型的参数对比参考我放在文末附录。

智力问答

洗车店问题

我想去洗车，洗车店距离我家 50 米，你说我应该开车过去还是走过去？

以前测这道题，绝大部分模型都会被 50 米这个距离误导，建议你走过去。

Opus 4.7: 开车过去

GPT-5.5: 开车过去

DeepSeek V4 Pro: 开车过去

GLM 5.1: 开车过去

Kimi K2.6: 开车过去

Qwen 3.6 Max: 开车过去

不知道是不是模型厂商全部训练过了，这个“洗车店问题”似乎全部解决了，全都能回答出来。

草莓问题 V2

这个问题是 strawberry 里面有几个 r 的反转版本

r 里面有几个 strawberry

Opus 4.7: 理解正确，一个 r 里装不下整颗草莓

GPT-5.5: 理解错误，strawberry 里面有 3 个 r

DeepSeek V4 Pro: 都分析了一遍

这个问题其实是一个文字游戏，可以有两种理解方式：

**1. 如果把问题理解为“单词 strawberry 里面有几个字母 r”：**
- strawberry 的拼写是：**s - t - r - a - w - b - e - r - r - y**
- 可以看到第 3 个、第 8 个和第 9 个字母都是 r，所以一共有 **3 个 r**。

**2. 如果按字面意思“字母 r 的里面有几个 strawberry”：**
- 字母 “r” 只是一个小小的字母，里面不可能装下 strawberry 这个单词或水果，所以答案是 **0**。

通常这类问题都是考拼写，所以更常见的答案是 **3**。

GLM 5.1: 理解正确，都分析了一遍 Kimi K2.6: 理解错误，单词 strawberry 里面一共有 3 个字母 r Qwen 3.6 Max: 理解正确，也都分析了一遍

只有 GPT-5.5 和 Kimi K2.6 理解错误了。

精细的鹈鹕

这是 Simon Willison 鹈鹕 SVG 测试，这个版本加了一些细节要求，看看模型在 SVG 细节、解剖学常识和构图理解上的表现

完整提示词

Generate an SVG of a California brown pelican riding a bicycle. The bicycle
must have spokes and a correctly shaped bicycle frame. The pelican must have its
characteristic large pouch, and there should be a clear indication of feathers.
The pelican must be clearly pedaling the bicycle. The image should show the full
breeding plumage of the California brown pelican.

Opus 4.7: 还挺不错的，细节处理满分，就是没有画背景精细的鹈鹕-Opus 4.7

GPT-5.5: 最胖的鹈鹕了，阿哈哈哈精细的鹈鹕-GPT-5.5

DeepSeek V4 Pro: DeepSeek 的这个鹈鹕好帅，就是手（翅膀）没有处理好精细的鹈鹕-DeepSeek V4 Pro

GLM 5.1: 完成度还不错，有些细节 bug 精细的鹈鹕-GLM 5.1

Kimi K2.6: 有些简陋了精细的鹈鹕-Kimi K2.6

Qwen 3.6 Max: 完成度还不错，他也和 Opus 一样知道鹈鹕没有手，所以没有握着把手精细的鹈鹕-Qwen 3.6 Max

整体来说鹈鹕 SVG 大家都做的蛮不错的，Kimi K2.6 意外有些拉胯。

精美天气卡

测试前端设计感。看 AI 写的会不会一眼"AI 紫色"，能不能做出真正能上线的视觉。

完整提示词

创建一个极其精美的天气卡片，展示北京当前天气。追求设计感和细节品质，让我惊艳。

Opus 4.7: 说真的我很喜欢这个天气卡的设计，细节也很到位，已经不怎么 AI 感了

精美天气卡-Opus 4.7

GPT-5.5: 还挺让我惊喜的，效果也不错，这个设计风格我喜欢，适合做成 APP 的效果精美天气卡-GPT-5.5

DeepSeek V4 Pro: 比较 AI 感，平平无奇精美天气卡-DeepSeek V4 Pro

GLM 5.1: 比较 AI 感，平平无奇精美天气卡-GLM 5.1

Kimi K2.6: 设计感稍微好点，但是不够精致，而且他说做了视差效果，实际就是卡片变扁了精美天气卡-Kimi K2.6

Qwen 3.6 Max: 比较 AI 感，平平无奇精美天气卡-Qwen 3.6 Max

Opus 4.7 审美在线，GPT-5.5 居然也有不错的设计。国产模型 Kimi K2.6 有设计，细节不够，其他几个都一样 AI 感。

三维弹球

测试提示词

Create a 3D pinball game with the following requirements:
1. **Tech**: Use a recent version of Three.js loaded from CDN. Output a single self-contained HTML file. No build step.
2. **Game scene**: A tilted 3D pinball table with a ball launcher, flippers, and plunger
3. **Game elements**: Include bumpers, scoring targets, ramps/rails, and drain holes
4. **Physics**: Realistic ball physics with gravity, collision bouncing, and flipper force. Ball must not tunnel through walls at high speed.
5. **Controls**: Left/Right arrows or A/D for flippers, Space to launch the ball
6. **Scoring**: Different points for hitting various elements, display current score
7. **Visuals**: 3D rendering with metallic ball, glowing scoring elements, particle effects on collision
8. **Game logic**: 3 lives, lose one when ball drains, show final score on game over

Opus 4.7: 可以游玩！！，弹球可以弹出，碰撞记分正常，唯一的缺点就是墙布局不太合理，有些地方有漏洞。

GPT-5.5: 无法游玩，弹球可以弹出，但是墙太长了，弹球无法跑到外面去。

三维弹球-GPT-5.5

DeepSeek V4 Pro: 不太能玩，弹球可以弹出，并正常记分，拨杆位置错了，弹球经常卡在空气墙上。但是比我预期要好很多了。

GLM 5.1: 无法游玩，拨杆交叠了，弹球有弹簧效果，但是弹球只能原路弹出返回三维弹球-GLM 5.1

Kimi K2.6: 无法游玩，整个桌面晃来晃去，墙体也看不清楚，拨杆能动，弹球没有弹簧效果按一下就结束了三维弹球-Kimi K2.6

Qwen 3.6 Max: 无法游玩，拨杆能动，球体一直在转，弹球有弹簧效果但是没有碰撞也可以，有碰撞记分

最终的结果是：Opus 4.7 > DeepSeek V4 Pro > GPT-5.5 > GLM 5.1 > Qwen 3.6 Max > Kimi K2.6

总结

测下来给我的几个感受：

国产模型普遍把思考完成得更快，所以看起来效果没那么理想。
Opus 4.7 和 GPT-5.5 经常会思考很久，最终的输出也就更好。
DeepSeek V4 Pro 是国产里思考时间更长的一个，效果在国产里也最好。

附录：参数对比与梯队判断

下面是我让 Grok 帮我整理的关键指标，数据来自 Artificial Analysis、LLM Rank、Chatbot Arena 等公开榜单：

指标	Opus 4.7	GPT-5.5 (xhigh)	DeepSeek V4 Pro	Qwen 3.6 Max	GLM-5.1	Kimi K2.6
MMLU-Pro	92.8%	93.5%	88.9%	86.4%	85.7%	88.2%
GPQA Diamond	94.2%	93.6%	90.1%	86.0%	86.2%	90.5%
Humanity's Last Exam	46.9%	41.4%	37.7%	26.2%	28.0%	34.7%
SWE-Bench Pro	64.3%	58.6%	55.4%	57.3%	58.4%	58.6%
SWE-Bench Verified	87.6%	88.7%	80.6%	73.4%	77.8%	80.2%
LiveCodeBench	79.2%	76.8%	73.5%	71.9%	72.6%	74.1%
Terminal-Bench	66.4%	69.1%	63.2%	64.8%	65.5%	67.3%
AgentBench	68.5%	71.2%	62.9%	64.1%	66.7%	65.8%
MMMU	73.1%	75.4%	69.8%	68.5%	67.9%	70.2%
Arena Elo	1505	1523	1467	1456	1467	1466
Artificial Analysis Intelligence Index	57.3	60.2	51.5	51.8	51.4	53.9

加粗是每行整体最高分，加粗 + 斜体是国产/开源四个模型里的最高分。

这些指标简单了解下，按用途大致分四类：

学术知识与推理

MMLU-Pro：综合学科知识，覆盖人文、科学、工程。
GPQA Diamond：研究生级理科难题，故意做成搜索引擎搜不到答案，纯靠推理。
Humanity's Last Exam：100+ 学科的闭卷题，目前公认最难的学术基准。
Artificial Analysis Intelligence Index：以上几项加权出来的综合智能分，看整体水平用这个。

代码与工程

SWE-Bench Pro：直接拿真实 GitHub issue 让模型端到端解决，最贴近真实开发。
SWE-Bench Verified：SWE-Bench 经人工校验过的子集，结果更可靠。
LiveCodeBench：用最新的竞赛题和 LeetCode 新题专门防数据污染，看模型在没见过的题上的真实表现。

Agent 与工具调用

Terminal-Bench：命令行环境的多步操作，考验工具调用和长期规划。
AgentBench：网页、代码仓库、数据库等多环境下的复杂 Agent 任务。

多模态与用户偏好

MMMU：跨学科的多模态理解，文本、图像、图表混在一起测。
Arena Elo：真实用户盲测对战的 Elo 排名，最能反映用户偏好。

最后说一下我对每个模型的体感：

Claude Opus 4.7、GPT-5.5 毋庸质疑是这里面最强的两个模型，Opus 4.7 的审美也是这些模型页面最好的
GPT-5.5 在后端开发以及复杂问题处理上都非常出色（本次的测试没有体现出来，这个是真实开发体验下来的感受）
Qwen 3.6 Max 我用的很少，这次测下来感觉还不错
GLM-5.1 整体表现和 Kimi K2.6 差不多
Kimi K2.6 在这些测试题下表现最差的了，但是他的多项指标都要比其他国产模型强，可能在其他方面表现会更出色
DeepSeek V4 Pro 我觉得是这些开源模型中体验最好的了

你对这些模型实际测试表现感受如何？欢迎评论区留言讨论

如果你觉得这篇文章对你有帮助，欢迎点赞、分享，你的支持是我持续创作的最大动力！

On this page

国产 AI 真的追上 Claude 了么？我用 5 道题测了 6 个模型

智力问答

洗车店问题

草莓问题 V2

精细的鹈鹕

精美天气卡

三维弹球

总结

附录：参数对比与梯队判断

On this page

国产 AI 真的追上 Claude 了么？我用 5 道题测了 6 个模型

智力问答

洗车店问题

草莓问题 V2

精细的鹈鹕

精美天气卡

三维弹球

总结

附录：参数对比与梯队判断