一张“鹈鹕骑车图”,看懂 2025 上半年大模型进化史
发布于 2025年6月12日
大语言模型发展真的非常迅猛,从 Meta 到 Google,从 OpenAI 到 Anthropic,各大巨头新品迭出。本文通过一个“鹈鹕骑车”的有趣基准测试,带您快速回顾这激动人心的六个月,看看谁在领跑,谁又“出生即死亡”。内容来自 Simon Willison 在 AI Engineer World's Fair 上的演讲。
基准测试
SimonW 使用了一个很有意思的基准测试方式:,他的 Prompt 是:Generate an SVG of a pelican riding a bicycle
(生成一个鹈鹕骑自行车的SVG图像)
他选择这么做的原因是:
- 他喜欢鹈鹕
- 这个图像没有被流传并用于 LLMs 的训练
测试的难点在于:
- LLMs 本身不擅长绘图,但是 SVG 是代码,可以生成
- 自行车和鹈鹕本身都难以准确描绘
- 鹈鹕的体型并不适合骑自行车
回顾
我们从 24 年 12 月份开始回顾
2024 年 12 月
Meta 推出了 Llama 3.3 70B
Llama 3.3 70B 模型性能与 Llama 3.1 405B 相当,同时具备经济高效的推理能力,可在普通工作站(内存至少要 64G)上本地运行。
DeepSeek 在圣诞节发布了 DeepSeek v3
真神登场,DeepSeek 在他们次日发布的论文中宣称训练耗时达到 2,788,000 个 H800 GPU小时,估算成本为 5,576,000 美元。
2025 年 01 月
DeepSeek 在春节前一天发布了 DeepSeek R1
DeepSeek R1 的发布直接震惊了全世界,直接对标了当时的 ChatGPT o1,其惊人的能效比引发了市场对算力需求的重新评估,一度导致英伟达市值剧烈波动。
直到现如今 DeepSeek R1 和 v3 在文本和 webdev 领域仍旧能排进前 10。
DeepSeek R1 明显的画出了一辆自行车和一只丑丑的鸟,不过问题是鸟没有骑自行车。
Mistral 发布了 Mistral Small 3
这是一个本地模型,20GB 的 RAM 就可以运行,性能与 Llama 3.3 70B 相似。
2025 年 02 月
Anthropic 发布了 Claude 3.7 Sonnet
Claude 3.7 Sonnet 的发布带来了新的理念,一个模型既可以是普通模型,也可以是推理模型。
Claude 3.7 Sonnet 在自行车上放了一个小自行车来解决鹈鹕腿短骑不到踏板的问题。完成度非常高了。
OpenAI 推出了 GPT 4.5
但它有点不尽如人意,而且 API 调用成本非常高,性能却很普通。6 周后就被 OpenAI 弃用了。
2025 年 03 月
OpenAI 推出了 GPT o1-pro
o1-pro 的价格更加贵,价格是 4.5 的两倍。只有订阅了每月 200 美金的 PRO 会员才能使用。
谷歌发布了 Gemini 2.5 Pro
从生成的图片你一眼就能看出差距,Gemini 2.5 Pro 生成 SVG 图片非常好了。自行车也别有风格。
OpenAI 推出了 GPT-4o 原生多模态图像生成功能
OpenAI 带来了真正的‘王炸’:GPT-4o 原生多模态图像生成功能,发布一周就吸引了 1 亿新用户。我当时也激动地冲了 Plus 会员,只为第一时间体验。
2025 年 04 月
meta 发布了 Llama 4
Llama 4 系列的两个大模型都非常大,不是消费级硬件能够运行的,而且他们都不擅长画鹈鹕。
QWen 发布了 Qwen3 系列模型
Qwen3,这是 Qwen 系列大型语言模型的最新成员,其中的 Qwen3-235B-A22B
冲入 lmarena.ai 排行前十。他们也类似于 Claude 3.7 Sonnet,一个模型同时支持普通模式和思考模式。
OpenAI 发布了 GPT 4.1 系列、o3、o4-mini
GPT 4.1 系列的模型都非常不错,GPT 4.1 Mini 非常便宜,GPT 4.1 赶上了 gemini,拥有 1M tokens 上下文。
随后又发布了 o3 与 o4-mini。o3 的图画的非常棒了。
2025 年 05 月
Anthropic 发布了 Claude 4 系列模型
几乎可以说是最好的 WebDev 的大模型了, 与 Gemini 不分上下。但是你也很难分清何时使用 Sonnet 4, 何时使用 Opus 4。一般来说 Opus 4 比 Sonnet 4 更加能处理复杂的任务。
Google 更新 Gemini Pro 0506 版本
Google IO 大会上更新了 Gemini Pro 0506,在 文本、webdev、视觉方面均冲上 lmarena.ai 第一排名。
他生成鹈鹕骑自行车的图片是目前来看最好的了。完美的展示了鹈鹕骑自行车,但是又由于鹈鹕腿短,够不到踏板。
总结
回顾这短短六个月,我们见证了算力的狂欢、创意的迸发,也看到了“发布即落后”的残酷现实。从一开始的“画不明白”,到最终能理解“鹈鹕腿短够不到踏板”的幽默细节,一只小小的鹈鹕,见证了 LLM 模型能力的惊人飞跃。
这场模型的“军备竞赛”远未结束,下一个半年,我们又将迎来怎样的惊喜?
如果你觉得这篇文章对你有帮助,欢迎点赞、分享,你的支持是我持续创作的最大动力!