🔥 1. Anthropic 发布 Claude Agent:自我改进循环,自主调试代码 — 486 pts
Anthropic 于 5 月 12 日推出 Claude Agent,采用自我改进循环架构,能自主编写、执行和调试多语言代码。早期基准测试 SWE-bench 上比 GPT-5 Agent 提升 40%,Wired 实测 50 个 GitHub issue 中自主解决 38 个。
→ https://techcrunch.com/2026/05/12/anthropic-unveils-claude-agent/
🔥 2. Mistral 发布 4B Edge:最小开源 Agent 原生模型,2GB 可运行 — 432 pts
Mistral AI 于 5 月 12 日发布仅 4B 参数的开源模型,专为端侧 Agent 设计,2GB RAM 下即可原生支持函数调用、代码执行和多轮规划。同日推出「Agents in a Box」企业部署套件。
→ https://mistral.ai/news/mistral-4b-edge/
🔥 3. Google 发布 Gemini 3.0:Agentic Memory 跨会话记忆架构 — 398 pts
Google DeepMind 于 5 月 11 日公布 Gemini 3.0,核心创新是 Agentic Memory——Agent 可跨会话保留上下文和学习用户偏好。在新 AgentBench 基准上得分 92%,直击 Agent 长期记忆的核心痛点。
→ https://blog.google/gemini-3-0-agentic-memory/
🔥 4. OpenAI 发布 Operator 2.0 + Deep Research Agent — 352 pts
OpenAI 于 5 月 11 日推出企业级浏览器 Agent Operator 2.0,可自主完成数据提取、表单填写、电商管理等复杂工作流,Salesforce 和 Shopify 为首批客户。同日向 Plus 用户开放 Deep Research Agent 模式。
→ https://www.theverge.com/2026/05/11/openai-operator-2-0-agent/
🔥 5. GitHub Copilot Agent 贡献平台超 50% 代码补全 — 298 pts
GitHub 于 5 月 12 日宣布 Copilot Agent 已生成平台超 50% 的代码补全,能自主规划、编写、测试和调试 PR,开发时间缩短 60%。AI 代码生成从辅助工具走向主导角色。
→ https://github.blog/2026-05-12-copilot-agent-50-percent/
📌 今日趋势一览
原文链接
欢迎访问 小易撩挨踢