LLMs

一张“鹈鹕骑车图”,看懂 2025 上半年大模型进化史

发布于 2025年6月12日

大语言模型发展真的非常迅猛,从 Meta 到 Google,从 OpenAI 到 Anthropic,各大巨头新品迭出。本文通过一个“鹈鹕骑车”的有趣基准测试,带您快速回顾这激动人心的六个月,看看谁在领跑,谁又“出生即死亡”。内容来自 Simon Willison 在 AI Engineer World's Fair 上的演讲。

基准测试

SimonW 使用了一个很有意思的基准测试方式:,他的 Prompt 是:Generate an SVG of a pelican riding a bicycle(生成一个鹈鹕骑自行车的SVG图像)

他选择这么做的原因是:

  1. 他喜欢鹈鹕
  2. 这个图像没有被流传并用于 LLMs 的训练

测试的难点在于:

  1. LLMs 本身不擅长绘图,但是 SVG 是代码,可以生成
  2. 自行车和鹈鹕本身都难以准确描绘
  3. 鹈鹕的体型并不适合骑自行车

回顾

我们从 24 年 12 月份开始回顾

2024 年 12 月

Meta 推出了 Llama 3.3 70B

Llama 3.3 70B 模型性能与 Llama 3.1 405B 相当,同时具备经济高效的推理能力,可在普通工作站(内存至少要 64G)上本地运行。

Llama 3.3 70B

DeepSeek 在圣诞节发布了 DeepSeek v3

真神登场,DeepSeek 在他们次日发布的论文中宣称训练耗时达到 2,788,000 个 H800 GPU小时,估算成本为 5,576,000 美元。

DeepSeek v3

2025 年 01 月

DeepSeek 在春节前一天发布了 DeepSeek R1

DeepSeek R1 的发布直接震惊了全世界,直接对标了当时的 ChatGPT o1,其惊人的能效比引发了市场对算力需求的重新评估,一度导致英伟达市值剧烈波动。

直到现如今 DeepSeek R1 和 v3 在文本和 webdev 领域仍旧能排进前 10。

DeepSeek R1

DeepSeek R1 明显的画出了一辆自行车和一只丑丑的鸟,不过问题是鸟没有骑自行车。

Mistral 发布了 Mistral Small 3

这是一个本地模型,20GB 的 RAM 就可以运行,性能与 Llama 3.3 70B 相似。

Mistral Small 3

2025 年 02 月

Anthropic 发布了 Claude 3.7 Sonnet

Claude 3.7 Sonnet 的发布带来了新的理念,一个模型既可以是普通模型,也可以是推理模型

Claude 3.7 Sonnet

Claude 3.7 Sonnet 在自行车上放了一个小自行车来解决鹈鹕腿短骑不到踏板的问题。完成度非常高了。

OpenAI 推出了 GPT 4.5

但它有点不尽如人意,而且 API 调用成本非常高,性能却很普通。6 周后就被 OpenAI 弃用了。

GPT 4.5

2025 年 03 月

OpenAI 推出了 GPT o1-pro

o1-pro 的价格更加贵,价格是 4.5 的两倍。只有订阅了每月 200 美金的 PRO 会员才能使用。

o1-pro

谷歌发布了 Gemini 2.5 Pro

从生成的图片你一眼就能看出差距,Gemini 2.5 Pro 生成 SVG 图片非常好了。自行车也别有风格。

Gemini 2.5 Pro

OpenAI 推出了 GPT-4o 原生多模态图像生成功能

OpenAI 带来了真正的‘王炸’:GPT-4o 原生多模态图像生成功能,发布一周就吸引了 1 亿新用户。我当时也激动地冲了 Plus 会员,只为第一时间体验。

2025 年 04 月

meta 发布了 Llama 4

Llama 4 系列的两个大模型都非常大,不是消费级硬件能够运行的,而且他们都不擅长画鹈鹕。

Llama 4

QWen 发布了 Qwen3 系列模型

Qwen3,这是 Qwen 系列大型语言模型的最新成员,其中的 Qwen3-235B-A22B 冲入 lmarena.ai 排行前十。他们也类似于 Claude 3.7 Sonnet,一个模型同时支持普通模式和思考模式。

Qwen3-235B-A22B 思考模式

OpenAI 发布了 GPT 4.1 系列、o3、o4-mini

GPT 4.1 系列的模型都非常不错,GPT 4.1 Mini 非常便宜,GPT 4.1 赶上了 gemini,拥有 1M tokens 上下文。

GPT 4.1 系列

随后又发布了 o3 与 o4-mini。o3 的图画的非常棒了。

o3 与 o4-mini

2025 年 05 月

Anthropic 发布了 Claude 4 系列模型

几乎可以说是最好的 WebDev 的大模型了, 与 Gemini 不分上下。但是你也很难分清何时使用 Sonnet 4, 何时使用 Opus 4。一般来说 Opus 4 比 Sonnet 4 更加能处理复杂的任务。

Claude Sonnet 4 与 Claude Opus 4

Google 更新 Gemini Pro 0506 版本

Google IO 大会上更新了 Gemini Pro 0506,在 文本、webdev、视觉方面均冲上 lmarena.ai 第一排名。

他生成鹈鹕骑自行车的图片是目前来看最好的了完美的展示了鹈鹕骑自行车,但是又由于鹈鹕腿短,够不到踏板。

Gemini Pro Preview 0506

总结

回顾这短短六个月,我们见证了算力的狂欢、创意的迸发,也看到了“发布即落后”的残酷现实。从一开始的“画不明白”,到最终能理解“鹈鹕腿短够不到踏板”的幽默细节,一只小小的鹈鹕,见证了 LLM 模型能力的惊人飞跃。

这场模型的“军备竞赛”远未结束,下一个半年,我们又将迎来怎样的惊喜?

如果你觉得这篇文章对你有帮助,欢迎点赞、分享,你的支持是我持续创作的最大动力!