LLM评测模型对比2025AI发展基准测试大模型进化

一张“鹈鹕骑车图”，看懂 2025 上半年大模型进化史

June 12th, 2025

大语言模型发展真的非常迅猛，从 Meta 到 Google，从 OpenAI 到 Anthropic，各大巨头新品迭出。本文通过一个“鹈鹕骑车”的有趣基准测试，带您快速回顾这激动人心的六个月，看看谁在领跑，谁又“出生即死亡”。内容来自 Simon Willison 在 AI Engineer World's Fair 上的演讲。

基准测试

SimonW 使用了一个很有意思的基准测试方式：，他的 Prompt 是：Generate an SVG of a pelican riding a bicycle（生成一个鹈鹕骑自行车的SVG图像）

他选择这么做的原因是：

他喜欢鹈鹕
这个图像没有被流传并用于 LLMs 的训练

测试的难点在于：

LLMs 本身不擅长绘图，但是 SVG 是代码，可以生成
自行车和鹈鹕本身都难以准确描绘
鹈鹕的体型并不适合骑自行车

回顾

我们从 24 年 12 月份开始回顾

2024 年 12 月

Meta 推出了 Llama 3.3 70B

Llama 3.3 70B 模型性能与 Llama 3.1 405B 相当，同时具备经济高效的推理能力，可在普通工作站（内存至少要 64G）上本地运行。

Llama 3.3 70B

DeepSeek 在圣诞节发布了 DeepSeek v3

真神登场，DeepSeek 在他们次日发布的论文中宣称训练耗时达到 2,788,000 个 H800 GPU小时，估算成本为 5,576,000 美元。

DeepSeek v3

2025 年 01 月

DeepSeek 在春节前一天发布了 DeepSeek R1

DeepSeek R1 的发布直接震惊了全世界，直接对标了当时的 ChatGPT o1，其惊人的能效比引发了市场对算力需求的重新评估，一度导致英伟达市值剧烈波动。

直到现如今 DeepSeek R1 和 v3 在文本和 webdev 领域仍旧能排进前 10。

DeepSeek R1

DeepSeek R1 明显的画出了一辆自行车和一只丑丑的鸟，不过问题是鸟没有骑自行车。

Mistral 发布了 Mistral Small 3

这是一个本地模型，20GB 的 RAM 就可以运行，性能与 Llama 3.3 70B 相似。

Mistral Small 3

2025 年 02 月

Anthropic 发布了 Claude 3.7 Sonnet

Claude 3.7 Sonnet 的发布带来了新的理念，一个模型既可以是普通模型，也可以是推理模型。

Claude 3.7 Sonnet

Claude 3.7 Sonnet 在自行车上放了一个小自行车来解决鹈鹕腿短骑不到踏板的问题。完成度非常高了。

OpenAI 推出了 GPT 4.5

但它有点不尽如人意，而且 API 调用成本非常高，性能却很普通。6 周后就被 OpenAI 弃用了。

GPT 4.5

2025 年 03 月

OpenAI 推出了 GPT o1-pro

o1-pro 的价格更加贵，价格是 4.5 的两倍。只有订阅了每月 200 美金的 PRO 会员才能使用。

o1-pro

谷歌发布了 Gemini 2.5 Pro

从生成的图片你一眼就能看出差距，Gemini 2.5 Pro 生成 SVG 图片非常好了。自行车也别有风格。

Gemini 2.5 Pro

OpenAI 推出了 GPT-4o 原生多模态图像生成功能

OpenAI 带来了真正的‘王炸’：GPT-4o 原生多模态图像生成功能，发布一周就吸引了 1 亿新用户。我当时也激动地冲了 Plus 会员，只为第一时间体验。

2025 年 04 月

meta 发布了 Llama 4

Llama 4 系列的两个大模型都非常大，不是消费级硬件能够运行的，而且他们都不擅长画鹈鹕。

Llama 4

QWen 发布了 Qwen3 系列模型

Qwen3，这是 Qwen 系列大型语言模型的最新成员，其中的 Qwen3-235B-A22B 冲入 lmarena.ai 排行前十。他们也类似于 Claude 3.7 Sonnet，一个模型同时支持普通模式和思考模式。

Qwen3-235B-A22B 思考模式

OpenAI 发布了 GPT 4.1 系列、o3、o4-mini

GPT 4.1 系列的模型都非常不错，GPT 4.1 Mini 非常便宜，GPT 4.1 赶上了 gemini，拥有 1M tokens 上下文。

GPT 4.1 系列

随后又发布了 o3 与 o4-mini。o3 的图画的非常棒了。

o3 与 o4-mini

2025 年 05 月

Anthropic 发布了 Claude 4 系列模型

几乎可以说是最好的 WebDev 的大模型了, 与 Gemini 不分上下。但是你也很难分清何时使用 Sonnet 4，何时使用 Opus 4。一般来说 Opus 4 比 Sonnet 4 更加能处理复杂的任务。

Claude Sonnet 4 与 Claude Opus 4

Google 更新 Gemini Pro 0506 版本

Google IO 大会上更新了 Gemini Pro 0506，在文本、webdev、视觉方面均冲上 lmarena.ai 第一排名。

他生成鹈鹕骑自行车的图片是目前来看最好的了。完美的展示了鹈鹕骑自行车，但是又由于鹈鹕腿短，够不到踏板。

Gemini Pro Preview 0506

总结

回顾这短短六个月，我们见证了算力的狂欢、创意的迸发，也看到了“发布即落后”的残酷现实。从一开始的“画不明白”，到最终能理解“鹈鹕腿短够不到踏板”的幽默细节，一只小小的鹈鹕，见证了 LLM 模型能力的惊人飞跃。

这场模型的“军备竞赛”远未结束，下一个半年，我们又将迎来怎样的惊喜？

如果你觉得这篇文章对你有帮助，欢迎点赞、分享，你的支持是我持续创作的最大动力！