AI 前沿精选 #05: Google I/O 2025 超多发布内容、Calude 4 系列模型发布
发布于 2025年5月23日
Anthropic 推出 Claude 4 系列模型
Anthropic推出了两款新模型:Claude Opus 4 和 Claude Sonnet 4
Claude Opus 4:定位为顶尖的编码模型,擅长处理复杂、长耗时的任务和 Agent 工作流,性能卓越。
Claude Sonnet 4:是 Claude Sonnet 3.7 升级版,在编码和推理能力上均有提升,并且能更精确地遵循指令。
两种模型都可以:
- 工具辅助的扩展思维(测试版): 可以在深度思考中调用工具(比如网络搜索),使得他们能在推理和工具使用间灵活切换。
- 模型现支持并行工具调用与更精准的指令
除了模型:
- Claude Code 正式发布,可以通过 Github Acions 执行后台任务,可以与 IDE 集成。
- 新的 API 功能:代码执行工具、MCP 连接器、文件 API、长达一小时的提示缓存,赋能开发者构建更强大的 AI Agent。
查看博文:Introducing Claude 4
Google I/O 2025 超多发布内容
Gemini AI 模型以及应用
Gemini 2.5 Flash: flash 模型更新,在推理能力、多模态处理、代码生成和长文本理解都得到了大幅提升,推理速度非常快。目前已经在 LM Arena 中排名第二了。
Gemini 2.5 Pro: 引入了 Deep Think 模式,现在变得更强了
Gemini APP: 更新,支持文件上传 、Canvas 集成等
谷歌搜索中的 AI
Overview:谷歌搜索在搜索结果增加了一个搜索概览,能够快速总结搜索内容
AI mode:重塑了搜索功能,提供端到端的 AI 体验,就跟对话一样进行搜索,并具备更先进的推理能力。还支持深度搜索。
生成式 AI
Flow: 是一个 AI 电影制作工具,集成了 Veo、Imagen 和 Gemini 的能力
Veo3: 最先进的视频生成模型,具备原生音频生成能力。能力非常强,通过音频、更强的文本遵循度和更丰富的视觉细节,进一步模糊了现实与想象之间的界限
Imagen4: 是新一代的生图模型, 能准确生成文本内容,已经可以在 whisk 中使用了
Agent
Project Mariner: 是一个浏览器自动化 Agent,除了正常的理解网页,自动操作外,你还可以指导它进行一次操作,他就会学会这个操作并重复执行,跟 RPA 一样。 Jules: 是一个异步的 AI 编程的 Agent ,可以和代码库集成,他是运行在 VM 环境中的,然后可以进行多种开发任务。
等等,还有其他诸如 Google Beam(3D 视频通信平台)、Android XR(用于 AR/VR 体验的平台)、Gemma 3n(手机平板上运行的模型)。
另外,Gooogle 还推出了新的订阅计划 Google AI Pro 和 Google AI Ultra
Mistral AI 发布 Document AI 以及新模型 Devstral
Document AI:端到端的文档处理解决方案,配备先进的 OCR 和结构化数据提取功能。将 OCR 与 Mistral 强大的 AI 工具相结合,以实现灵活、完整的文档生命周期工作流程。
Devstral:Mistral AI 与 All Hands AI 合作推出的新型智能体大模型(Agentic LLM)。专为解决复杂的软件工程任务而设计,可以直接解决真实的 Github issues。
性能超过了 Deepseek-V3-0324 (671B) 和 Qwen3 232B-A22B 等更大规模的模型。
本地部署 Devstral 最低要求 RTX 4090 或 32GB RAM 的 Mac,要求还是很高的。
博文:devstral
微软开发一个多智能体的网页操作 Agent: Magentic-UI
Magentic-UI 是一个研究原型,能够通过多智能体系统自动化网页任务,同时还能保持用户控制。
有这些关键特性:
- 共同规划 (Co-Planning):通过聊天和计划编辑器协作创建和批准分步计划。
- 共同执行 (Co-Tasking):用户可直接通过浏览器或聊天中断和指导任务执行,系统也会在需要时请求澄清和帮助。
- 行为守卫 (Action Guards):敏感操作需用户明确批准后才能执行。
- 计划学习与检索 (Plan Learning and Retrieval):从历史运行中学习以改进未来任务自动化,并将计划存入库中供后续自动或手动检索。
- 并行任务执行 (Parallel Task Execution):支持并行运行多个任务,并通过会话状态指示器提示用户输入或任务完成。
Github: Magentic-UI
Cursor 发布了 0.50 版本 带来了多个更新内容
- 统一了定价方式
- 所有模型使用现在统一为基于请求的定价
- MAX 模型按 token 计价
- 增加了 MAX mode 的开关,所有模型都可以适用 MAX 模式
- 训练了新的 Tab 模型
- 现支持跨多个文件的代码建议
- 在重构、编辑链、多文件更新以及相关代码导航方面表现尤佳
- 日常使用体验更自然、速度明显提升,还增加了语法高亮
- Background Agent,可后台运行,允许并行运行多个 Agent 以处理更大型的任务。每个 Agent 都在独立的环境中运行。
- 需要注意的是,你要开启 background agent,会要求你关闭隐私模式
- @folders 功能可以将整个代码库纳入上下文
- Inline Edit 更新,增加了全文件编辑,也可以发送给 Agent mode 多文件编辑
- Agent 长文件编辑,现在不用读取整个文件,可以直接定位准确位置进行替换,速度更快
- 工作区的多个项目可以被同时索引
- 聊天功能增强
- 支持导出 markdown
- 可以重复聊天,生成多个聊天分支
OpenAI 发布了 Codex 一个基于云的 AI 编程 Agent
Codex 是一个基于云的 AI 编程 Agent,能够并行处理多个编码任务。主要功能包括:编写功能、回答代码库问题、修复错误以及提议拉取请求等等,每个任务在独立的、预装了用户代码仓库的云沙箱环境中运行。
Codex 基于 codex-1 模型,是基于 OpenAI o3 模型的优化版本。
目前仅向 ChatGPT Pro、团队和企业用户开放。