AI 前沿精选 #04: OpenAI 现在有了一个安全评估中心
发布于 2025年5月16日
大模型
千问发布了视频创作编辑模型 Wan2.1-VACE
Wan2.1-VACE 是一体化的视频创作和编辑模型,提供了参考视频生成、视频到视频编辑、蒙版视频到视频编辑等解决方案,创作者可以组合这些功能来实现复杂的任务。实现移动任意内容、交换任意内容、引用任意内容、扩展任意内容、制作任意动画等等功能。
Github:VACE
千问视频相关的模型你可以在线体验:wan.video
OpenAI 现在有了一个安全评估中心
安全评估中心会评估每个模型的安全性和性能,并分开数据。
评估的内容包括:
- 有害内容:检查两个指标:not_unsafe(需要符合 OpenAI 的策略,或产生不安全的输出)、not_overrefuse(是否遵守良性请求)
- 越狱:考量故意试图绕过模型不应生成内容的对抗性提示
- 幻觉:考量指标包含了准确率、幻觉率
- 指令层次结构:现在有三类提示词,系统提示、开发者提示和用户提示,这个结构要求系统提示 > 开发者提示,开发提示 > 用户提示。
网站见:安全评估中心
另外,GPT-4.1 现在可以直接在 ChatGPT 中使用。
Plus、Pro 和 Team 用户可以在更多模型下拉中选择。GPT-4.1 非常适合擅长代码任务,适合复杂的任务。
Gemini Advanced 现在支持连接 github
Gemini Advanced 现在支持连接 github,左下角 + 号 import code 选项,然后输入仓库地址即可。
可以解释复杂的代码、询问代码仓库的相关问题等等。
推文:Gemini Advanced now connects with github
谷歌发布了 Gemini 2.5 Pro Preview (I/O edition)
Gemini 2.5 Pro Preview 这个更新版本提供了更强的编码能力,特别是针对前端 UI 开发,同时也改进了代码转换和编辑等基础编码任务,以及创建复杂的代理工作流。
在 WebDev Arena 排行榜上排名第一,超越了 Claude 3.7 Sonnet。
官方还演示几个强大的场景
- 拥有强大的视频理解能力,可以从视频创建交互式学习应用
- 能理解设计文件并生成符合风格的CSS代码
- 能快速构建兼具功能和美观UI的应用
现在已经可以在 Google AI Studio 和 Vertex AI 中使用。
发布原文:Gemini 2.5 Pro Preview: even better coding performance
Anthropic API 现已推出网络搜索工具
Anthropic API 现已推出网络搜索工具,为 Claude 提供实时数据,增强 AI 应用。
开发者可以管理搜索域名的白名单黑名单。
网络搜索现在也已在 Claude Code 中可用,为开发工作流程增加了来自网络上的最新信息。
定价每 1000次搜索花费 10 美金。
发布原文:Introducing web search on the Anthropic API
Agent
Lovart.ai 设计界的 manus
Lovart 是一款被称为"全球首个设计 Agent" 的 AI 工具,一站式的提供了海报生成、图片编辑、视频生成等功能。
它集成了非常多的模型,包括 GPT-Image-1、Flux Pro、OpenAI-o3、Gemini Imagen 3、Kling AI、Tripo AI、Suno AI等。一个提示,多个交付物,能够在一个画布内完成图像、视频生成和设计需求。
它的工作流程包括了:分析用户需求、匹配设计风格、制定执行计划、调用适当的模型生成内容,并提供二次编辑功能。
目前一码难求,可以去官网上加入 wishlist 。
官网:lovart.ai