AI Weekly

AI 前沿精选 #04: OpenAI 现在有了一个安全评估中心

发布于 2025年5月16日

大模型

千问发布了视频创作编辑模型 Wan2.1-VACE

Wan2.1-VACE 是一体化的视频创作和编辑模型,提供了参考视频生成、视频到视频编辑、蒙版视频到视频编辑等解决方案,创作者可以组合这些功能来实现复杂的任务。实现移动任意内容、交换任意内容、引用任意内容、扩展任意内容、制作任意动画等等功能。

Github:VACE

千问视频相关的模型你可以在线体验:wan.video

OpenAI 现在有了一个安全评估中心

安全评估中心会评估每个模型的安全性和性能,并分开数据。

评估的内容包括:

  • 有害内容:检查两个指标:not_unsafe(需要符合 OpenAI 的策略,或产生不安全的输出)、not_overrefuse(是否遵守良性请求)
  • 越狱:考量故意试图绕过模型不应生成内容的对抗性提示
  • 幻觉:考量指标包含了准确率、幻觉率
  • 指令层次结构:现在有三类提示词,系统提示、开发者提示和用户提示,这个结构要求系统提示 > 开发者提示,开发提示 > 用户提示。

网站见:安全评估中心

另外,GPT-4.1 现在可以直接在 ChatGPT 中使用。

Plus、Pro 和 Team 用户可以在更多模型下拉中选择。GPT-4.1 非常适合擅长代码任务,适合复杂的任务。

Gemini Advanced 现在支持连接 github

Gemini Advanced 现在支持连接 github,左下角 + 号 import code 选项,然后输入仓库地址即可。

可以解释复杂的代码、询问代码仓库的相关问题等等。

推文:Gemini Advanced now connects with github

谷歌发布了 Gemini 2.5 Pro Preview (I/O edition)

Gemini 2.5 Pro Preview 这个更新版本提供了更强的编码能力,特别是针对前端 UI 开发,同时也改进了代码转换和编辑等基础编码任务,以及创建复杂的代理工作流。

WebDev Arena 排行榜上排名第一,超越了 Claude 3.7 Sonnet。

官方还演示几个强大的场景

  • 拥有强大的视频理解能力,可以从视频创建交互式学习应用
  • 能理解设计文件并生成符合风格的CSS代码
  • 能快速构建兼具功能和美观UI的应用

现在已经可以在 Google AI Studio 和 Vertex AI 中使用。

发布原文:Gemini 2.5 Pro Preview: even better coding performance

Anthropic API 现已推出网络搜索工具

Anthropic API 现已推出网络搜索工具,为 Claude 提供实时数据,增强 AI 应用。

开发者可以管理搜索域名的白名单黑名单。

网络搜索现在也已在 Claude Code 中可用,为开发工作流程增加了来自网络上的最新信息。

定价每 1000次搜索花费 10 美金。

发布原文:Introducing web search on the Anthropic API

Agent

Lovart.ai 设计界的 manus

Lovart 是一款被称为"全球首个设计 Agent" 的 AI 工具,一站式的提供了海报生成、图片编辑、视频生成等功能。

它集成了非常多的模型,包括 GPT-Image-1、Flux Pro、OpenAI-o3、Gemini Imagen 3、Kling AI、Tripo AI、Suno AI等。一个提示,多个交付物,能够在一个画布内完成图像、视频生成和设计需求。

它的工作流程包括了:分析用户需求、匹配设计风格、制定执行计划、调用适当的模型生成内容,并提供二次编辑功能。

目前一码难求,可以去官网上加入 wishlist 。

官网:lovart.ai