🔥 1. DeepSeek V4 发布:671B MoE,37B 激活,HumanEval 92.3% 逼近 GPT-5 — 486 pts
深度求索于 5 月 21 日发布 V4,671B MoE 仅激活 37B 参数,HumanEval 92.3%、GPQA 87.5% 接近 GPT-5。开放权重,API 价格仅为 GPT-5 的 1/10,性价比屠夫再出手。
→ https://www.deepseek.com/posts/deepseek-v4-release
🔥 2. 智谱 AI GLM-Agent v2 发布:AgentBench 98.2% 刷新世界纪录 — 432 pts
智谱 AI 于 5 月 22 日发布 GLM-Agent v2,在 AgentBench 上以 98.2% 任务完成率刷新世界纪录。支持多模态感知、长程任务规划,在电商、客服、代码生成等场景表现突出。
→ https://www.zhipu.ai/news/glm-agent-v2-release
🔥 3. 阿里 Qwen3-120B 开源:MATH 96.2% / MMLU-Pro 91.7%,超越 GPT-4o 推理 — 386 pts
阿里云于 5 月 20 日开源 Qwen3-120B,Apache 2.0 协议,MATH-500 达 96.2%、MMLU-Pro 达 91.7%,多项推理指标超越 GPT-4o。可在消费级 GPU 上运行,被开发者誉为「最强开源推理模型」。
→ https://huggingface.co/blog/qwen3-120b-release
🔥 4. Anthropic Claude Agent Studio 公开 Beta:自然语言即可创建 Agent — 342 pts
Anthropic 于 5 月 20 日推出 Claude Agent Studio 公测版,用自然语言提示即可创建自定义 Agent,内置 50+ 预置集成(Slack/Salesforce/GitHub)。早期用户报告开发周期缩短 3 倍。
→ https://www.anthropic.com/news/claude-agent-studio-beta
🔥 5. Google Project Mariner 扩展至电商和旅行:500+ 网站自动结账 — 298 pts
Google 于 5 月 22 日扩展 Project Mariner,支持 500+ 电商网站自动结账、Expedia/Kayak 航班预订、OpenTable 订位管理。面向所有 Gemini Advanced 订阅者开放。
→ https://blog.google/products/project-mariner-expansion-may-2026
📌 今日趋势一览
原文链接
欢迎访问 小易撩挨踢