On this page

Claude 4Google I/OAI编程Agent视频生成代码编辑器

AI 前沿精选 #05: Google I/O 2025 超多发布内容、Calude 4 系列模型发布

May 23rd, 2025

Anthropic 推出 Claude 4 系列模型

Anthropic推出了两款新模型：Claude Opus 4 和 Claude Sonnet 4

Claude Opus 4：定位为顶尖的编码模型，擅长处理复杂、长耗时的任务和 Agent 工作流，性能卓越。

Claude Sonnet 4：是 Claude Sonnet 3.7 升级版，在编码和推理能力上均有提升，并且能更精确地遵循指令。

两种模型都可以：

工具辅助的扩展思维（测试版）: 可以在深度思考中调用工具（比如网络搜索），使得他们能在推理和工具使用间灵活切换。
模型现支持并行工具调用与更精准的指令

除了模型：

Claude Code 正式发布，可以通过 Github Acions 执行后台任务，可以与 IDE 集成。
新的 API 功能：代码执行工具、MCP 连接器、文件 API、长达一小时的提示缓存，赋能开发者构建更强大的 AI Agent。

查看博文：Introducing Claude 4

Google I/O 2025 超多发布内容

Gemini AI 模型以及应用

Gemini 2.5 Flash: flash 模型更新，在推理能力、多模态处理、代码生成和长文本理解都得到了大幅提升，推理速度非常快。目前已经在 LM Arena 中排名第二了。

Gemini 2.5 Pro: 引入了 Deep Think 模式，现在变得更强了

Gemini APP: 更新，支持文件上传、Canvas 集成等

谷歌搜索中的 AI

Overview：谷歌搜索在搜索结果增加了一个搜索概览，能够快速总结搜索内容

AI mode：重塑了搜索功能，提供端到端的 AI 体验，就跟对话一样进行搜索，并具备更先进的推理能力。还支持深度搜索。

生成式 AI

Flow: 是一个 AI 电影制作工具，集成了 Veo、Imagen 和 Gemini 的能力

Veo3: 最先进的视频生成模型，具备原生音频生成能力。能力非常强，通过音频、更强的文本遵循度和更丰富的视觉细节，进一步模糊了现实与想象之间的界限

Imagen4: 是新一代的生图模型，能准确生成文本内容，已经可以在 whisk 中使用了

Agent

Project Mariner: 是一个浏览器自动化 Agent，除了正常的理解网页，自动操作外，你还可以指导它进行一次操作，他就会学会这个操作并重复执行，跟 RPA 一样。 Jules: 是一个异步的 AI 编程的 Agent ，可以和代码库集成，他是运行在 VM 环境中的，然后可以进行多种开发任务。

等等，还有其他诸如 Google Beam（3D 视频通信平台）、Android XR（用于 AR/VR 体验的平台）、Gemma 3n（手机平板上运行的模型）。

另外，Gooogle 还推出了新的订阅计划 Google AI Pro 和 Google AI Ultra

Mistral AI 发布 Document AI 以及新模型 Devstral

Document AI：端到端的文档处理解决方案，配备先进的 OCR 和结构化数据提取功能。将 OCR 与 Mistral 强大的 AI 工具相结合，以实现灵活、完整的文档生命周期工作流程。

Devstral：Mistral AI 与 All Hands AI 合作推出的新型智能体大模型（Agentic LLM）。专为解决复杂的软件工程任务而设计，可以直接解决真实的 Github issues。

性能超过了 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等更大规模的模型。

本地部署 Devstral 最低要求 RTX 4090 或 32GB RAM 的 Mac，要求还是很高的。

博文：devstral

微软开发一个多智能体的网页操作 Agent： Magentic-UI

Magentic-UI 是一个研究原型，能够通过多智能体系统自动化网页任务，同时还能保持用户控制。

有这些关键特性：

共同规划 (Co-Planning)：通过聊天和计划编辑器协作创建和批准分步计划。
共同执行 (Co-Tasking)：用户可直接通过浏览器或聊天中断和指导任务执行，系统也会在需要时请求澄清和帮助。
行为守卫 (Action Guards)：敏感操作需用户明确批准后才能执行。
计划学习与检索 (Plan Learning and Retrieval)：从历史运行中学习以改进未来任务自动化，并将计划存入库中供后续自动或手动检索。
并行任务执行 (Parallel Task Execution)：支持并行运行多个任务，并通过会话状态指示器提示用户输入或任务完成。

Github: Magentic-UI

Cursor 发布了 0.50 版本带来了多个更新内容

统一了定价方式
- 所有模型使用现在统一为基于请求的定价
- MAX 模型按 token 计价
增加了 MAX mode 的开关，所有模型都可以适用 MAX 模式
训练了新的 Tab 模型
- 现支持跨多个文件的代码建议
- 在重构、编辑链、多文件更新以及相关代码导航方面表现尤佳
- 日常使用体验更自然、速度明显提升，还增加了语法高亮
Background Agent，可后台运行，允许并行运行多个 Agent 以处理更大型的任务。每个 Agent 都在独立的环境中运行。
- 需要注意的是，你要开启 background agent，会要求你关闭隐私模式
@folders 功能可以将整个代码库纳入上下文
Inline Edit 更新，增加了全文件编辑，也可以发送给 Agent mode 多文件编辑
Agent 长文件编辑，现在不用读取整个文件，可以直接定位准确位置进行替换，速度更快
工作区的多个项目可以被同时索引
聊天功能增强
- 支持导出 markdown
- 可以重复聊天，生成多个聊天分支

OpenAI 发布了 Codex 一个基于云的 AI 编程 Agent

Codex 是一个基于云的 AI 编程 Agent，能够并行处理多个编码任务。主要功能包括：编写功能、回答代码库问题、修复错误以及提议拉取请求等等，每个任务在独立的、预装了用户代码仓库的云沙箱环境中运行。

Codex 基于 codex-1 模型，是基于 OpenAI o3 模型的优化版本。

目前仅向 ChatGPT Pro、团队和企业用户开放。

官网：Introducing Codex

On this page

Claude 4Google I/OAI编程Agent视频生成代码编辑器

AI 前沿精选 #05: Google I/O 2025 超多发布内容、Calude 4 系列模型发布

May 23rd, 2025

Anthropic 推出 Claude 4 系列模型

Anthropic推出了两款新模型：Claude Opus 4 和 Claude Sonnet 4

Claude Opus 4：定位为顶尖的编码模型，擅长处理复杂、长耗时的任务和 Agent 工作流，性能卓越。

Claude Sonnet 4：是 Claude Sonnet 3.7 升级版，在编码和推理能力上均有提升，并且能更精确地遵循指令。

两种模型都可以：

工具辅助的扩展思维（测试版）: 可以在深度思考中调用工具（比如网络搜索），使得他们能在推理和工具使用间灵活切换。
模型现支持并行工具调用与更精准的指令

除了模型：

Claude Code 正式发布，可以通过 Github Acions 执行后台任务，可以与 IDE 集成。
新的 API 功能：代码执行工具、MCP 连接器、文件 API、长达一小时的提示缓存，赋能开发者构建更强大的 AI Agent。

查看博文：Introducing Claude 4

Google I/O 2025 超多发布内容

Gemini AI 模型以及应用

Gemini 2.5 Pro: 引入了 Deep Think 模式，现在变得更强了

Gemini APP: 更新，支持文件上传、Canvas 集成等

谷歌搜索中的 AI

Overview：谷歌搜索在搜索结果增加了一个搜索概览，能够快速总结搜索内容

AI mode：重塑了搜索功能，提供端到端的 AI 体验，就跟对话一样进行搜索，并具备更先进的推理能力。还支持深度搜索。

生成式 AI

Flow: 是一个 AI 电影制作工具，集成了 Veo、Imagen 和 Gemini 的能力

Imagen4: 是新一代的生图模型，能准确生成文本内容，已经可以在 whisk 中使用了

Agent

等等，还有其他诸如 Google Beam（3D 视频通信平台）、Android XR（用于 AR/VR 体验的平台）、Gemma 3n（手机平板上运行的模型）。

另外，Gooogle 还推出了新的订阅计划 Google AI Pro 和 Google AI Ultra

Mistral AI 发布 Document AI 以及新模型 Devstral

Devstral：Mistral AI 与 All Hands AI 合作推出的新型智能体大模型（Agentic LLM）。专为解决复杂的软件工程任务而设计，可以直接解决真实的 Github issues。

性能超过了 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等更大规模的模型。

本地部署 Devstral 最低要求 RTX 4090 或 32GB RAM 的 Mac，要求还是很高的。

博文：devstral

微软开发一个多智能体的网页操作 Agent： Magentic-UI

Magentic-UI 是一个研究原型，能够通过多智能体系统自动化网页任务，同时还能保持用户控制。

有这些关键特性：

共同规划 (Co-Planning)：通过聊天和计划编辑器协作创建和批准分步计划。
共同执行 (Co-Tasking)：用户可直接通过浏览器或聊天中断和指导任务执行，系统也会在需要时请求澄清和帮助。
行为守卫 (Action Guards)：敏感操作需用户明确批准后才能执行。
计划学习与检索 (Plan Learning and Retrieval)：从历史运行中学习以改进未来任务自动化，并将计划存入库中供后续自动或手动检索。
并行任务执行 (Parallel Task Execution)：支持并行运行多个任务，并通过会话状态指示器提示用户输入或任务完成。

Github: Magentic-UI

Cursor 发布了 0.50 版本带来了多个更新内容

统一了定价方式
- 所有模型使用现在统一为基于请求的定价
- MAX 模型按 token 计价
增加了 MAX mode 的开关，所有模型都可以适用 MAX 模式
训练了新的 Tab 模型
- 现支持跨多个文件的代码建议
- 在重构、编辑链、多文件更新以及相关代码导航方面表现尤佳
- 日常使用体验更自然、速度明显提升，还增加了语法高亮
Background Agent，可后台运行，允许并行运行多个 Agent 以处理更大型的任务。每个 Agent 都在独立的环境中运行。
- 需要注意的是，你要开启 background agent，会要求你关闭隐私模式
@folders 功能可以将整个代码库纳入上下文
Inline Edit 更新，增加了全文件编辑，也可以发送给 Agent mode 多文件编辑
Agent 长文件编辑，现在不用读取整个文件，可以直接定位准确位置进行替换，速度更快
工作区的多个项目可以被同时索引
聊天功能增强
- 支持导出 markdown
- 可以重复聊天，生成多个聊天分支

OpenAI 发布了 Codex 一个基于云的 AI 编程 Agent

Codex 基于 codex-1 模型，是基于 OpenAI o3 模型的优化版本。

目前仅向 ChatGPT Pro、团队和企业用户开放。

官网：Introducing Codex

On this page

AI 前沿精选 #05: Google I/O 2025 超多发布内容、Calude 4 系列模型发布

Anthropic 推出 Claude 4 系列模型

Google I/O 2025 超多发布内容

Gemini AI 模型以及应用

谷歌搜索中的 AI

生成式 AI

Agent

Mistral AI 发布 Document AI 以及新模型 Devstral

微软开发一个多智能体的网页操作 Agent： Magentic-UI

Cursor 发布了 0.50 版本 带来了多个更新内容

OpenAI 发布了 Codex 一个基于云的 AI 编程 Agent

On this page

AI 前沿精选 #05: Google I/O 2025 超多发布内容、Calude 4 系列模型发布

Anthropic 推出 Claude 4 系列模型

Google I/O 2025 超多发布内容

Gemini AI 模型以及应用

谷歌搜索中的 AI

生成式 AI

Agent

Mistral AI 发布 Document AI 以及新模型 Devstral

微软开发一个多智能体的网页操作 Agent： Magentic-UI

Cursor 发布了 0.50 版本 带来了多个更新内容

OpenAI 发布了 Codex 一个基于云的 AI 编程 Agent

Cursor 发布了 0.50 版本带来了多个更新内容

Cursor 发布了 0.50 版本带来了多个更新内容