GPT-Image-2 做的图可以真假难分
April 22nd, 2026
我用 GPT-Image-2 跑了一批图,先不说别的,你直接看效果。



这些图全部是 GPT-Image-2 生成的。
你可能第一眼会以为是真实截图或者手机拍的照片,我第一次看到出图也是这个反应。
而且提示词非常简单:
生成一张抖音直播截图,马斯克正在直播带货卖豆包,界面完整包括弹幕、礼物、状态栏,像真实 iPhone 手机截图。
生成一张高中数学竞赛考试的试卷的图片,使用手机拍摄的效果
生成一张《黑神话·钟馗》游戏游玩真实截图,钟馗拿着斩妖剑正在打五瘟使者的场景
同样的提示词丢给 Nano Banana,出来的图细节明显粗糙,需要补充详细的描述才能接近 GPT-Image-2 一次出图的效果。

Arena 测试结果也印证了体感:GPT-Image-2 在文本到图像的全部 7 个类别中排名 #1,断崖式领先第二名 Nano-banana-2。

它是怎么做到的
不是一步生成。它会先思考、搜索、检查,最后再画。
能联网检索实时信息,自动补全品牌、场景和最新数据。背后有 ChatGPT,开了 Thinking 模式之后,还能自己 double-check 输出。
说白了,提示词越简单,它可能生成的越好。 一句话就能出高仿真界面、带实时数据的资讯图,甚至可扫描的二维码。
更多案例
我又用不同场景测了几轮,提示词都很短:
产品宣传册
生成一个 iPhone 17 的产品宣传册

教育海报
设计一张主题为”一杯咖啡 如何来到你手里”的中文信息图海报。

游戏角色设计
为一个像素风格游戏角色:剑术师,创建一个专业的角色参考表

PPT 制作
制作一张名为”市场机会”的幻灯片,感觉就像 YC 支持的初创公司的真正 A 轮融资幻灯片

写提示词的小技巧
GPT-Image-2 和之前的文生图模型不一样。不用写一大段提示词去抠细节,简单几句话就能出质量很高的图。如果你愿意花时间把提示词写精准,出图效果还能再上一个台阶。 几个实测下来好用的技巧:
- 描述拍摄设备比描述画质更有效。 "像 iPhone 手机截图"比"高清、4K、逼真"出图效果好得多,模型会自动补全屏幕 UI、状态栏这些细节。
- 直接说你要什么场景,别教它怎么画。 "抖音直播截图"比"一个竖屏界面,上方有头像,下方有弹幕列表"更快出好图。
- 中文提示词完全能用。 上面所有案例都是中文写的,不用翻译成英文。
最后
回头看开头那张马斯克直播带货的图,你第一眼信了吗?
生图能力强到这个程度,意味着以后你刷到的截图、聊天记录、新闻配图,都不能直接当真了。先多想一下,这是不是 AI 生成的?
如果你觉得这篇文章对你有帮助,欢迎点赞、分享,你的支持是我持续创作的最大动力!