🔥 1. 阿里开源 Qwen3-120B:1200 亿参数全面超越 Llama 4,Apache 2.0 — 486 pts
阿里云于 5 月 22 日开源 Qwen3-120B,MMLU 92.5%、HumanEval 88.3%、GSM8K 96.1%,多项基准超越 Meta Llama 4 和 Mistral Large 3。推理成本仅为 GPT-4o 的 1/8,Apache 2.0 协议开源。
→ https://www.alibabacloud.com/blog/qwen3-120b-open-source
🔥 2. DeepSeek V4 发布:1.5 万亿参数 MoE,完全开源,推理成本仅 GPT-4 的 1/10 — 432 pts
深度求索于 5 月 22 日发布 DeepSeek V4,1.5T 参数 MoE 架构(180B 激活),25T tokens 训练。代码、数学、推理达到 GPT-4 水平,API 定价仅为 GPT-4o 的 1/10,完全开源权重和训练配方。
→ https://www.deepseek.com/blog/deepseek-v4-release
🔥 3. 智谱 AI 发布 GLM-Agent v2:多模态自主 Agent,集成企业微信/钉钉 — 378 pts
智谱 AI 于 5 月 21 日发布 GLM-Agent v2,支持图像、视频、语音等多模态输入,Agent 可自主完成目标拆解和工具调用。已内置到企业微信和钉钉,企业用户可直接部署。
→ https://www.zhipuai.cn/news/glm-agent-v2-20260521
🔥 4. Google Project Mariner 全面上线:AI Agent 入驻 Chrome 浏览器 — 342 pts
Google 于 5 月 21 日向所有 Chrome 用户开放 Project Mariner,Agent 能理解网页内容并自主操作:预定航班、填写表单、管理邮件。基于 Gemini 3 模型,支持隐私保护模式,上线首日用户超 500 万。
→ https://blog.google/products/chrome/project-mariner-launch
🔥 5. Meta Llama 4 爆数据污染争议:独立研究者发现测试集污染 — 298 pts
独立研究者发现 Meta Llama 4 训练数据很可能污染了 MMLU 和 HumanEval 测试集。Meta 否认故意污染但暂停了部分发布计划,给 Llama 4 的「全面超越 GPT-4 Turbo」蒙上阴影。
→ https://www.artificialintelligence-news.com/2026/05/21/meta-llama-4-benchmark-scandal
📌 今日趋势一览
原文链接
欢迎访问 小易撩挨踢