🔥 1. DeepSeek 发布 R2:671B MoE,MMLU-Pro 达 87.6% 逼近 GPT-4o,API 仅 1/20 价格 — 486 pts 深度求索于 5 月 15 日发布 DeepSeek-R2,671B 参数 MoE 架构,MMLU-Pro 达 87.6% 逼近 GPT-4
🔥 1. 字节跳动豆包推出超级 Agent 模式:跨 APP 操作,打通产品矩阵 — 486 pts 字节跳动于 5 月 13 日上线豆包超级 Agent 模式,首次实现跨 APP 操作——用户可通过自然语言指令让 Agent 在抖音、飞书、剪映等应用间自动流转执行任务,如「提取飞书文档中的表格,
🔥 1. 字节跳动 Coze 推出 Agent 商店:支持第三方付费插件,抽成 30% — 468 pts 字节跳动旗下 Coze 平台于 5 月 14 日正式推出 Agent 商店,第三方开发者可发布付费 Agent 插件。平台开放生态的同时抽成 30%,并支持企业客户定制私有 Agent,商业
🔥 1. Google 推出 Gemini Agent SDK:多模态 Agent 开发工具包 — 468 pts Google DeepMind 于 5 月 12 日发布 Gemini Agent SDK,支持构建多模态 Agent,原生集成网页搜索、代码执行和 Google Workspace
🔥 1. Anthropic 发布 Claude Agent:自我改进循环,自主调试代码 — 486 pts Anthropic 于 5 月 12 日推出 Claude Agent,采用自我改进循环架构,能自主编写、执行和调试多语言代码。早期基准测试 SWE-bench 上比 GPT-5 Agen
大模型 AI 普遍选择 Markdown 作为输出格式,核心源于其在token 效率、语义表达、生成稳定性、人机协同四个维度的系统性优势,这与大模型的底层运行机制、训练数据分布及实际应用场景高度契合。以下从技术本质、模型特性、应用生态三个层面展开深度解析。
🔥 1. Anthropic 发布 Claude Agent v2:Computer Use 模式正式上线 — 486 pts Anthropic 于 5 月 9 日推出 Claude Agent v2,Computer Use 模式下可自主操控浏览器、执行代码、管理文件系统,单次会话最长持续 2
🔥 1. Anthropic 发布 Claude Agent SDK:企业级自动化平台 — 468 pts Anthropic 于 5 月 8 日推出 Claude Agent SDK,开发者可基于 Claude 5 Opus 构建自主 Agent。SDK 包含工具调用 API、记忆管理和多步推理
🔥 1. Google 将 Project Mariner 自主浏览器 Agent 推向所有 Chrome 用户 — 486 pts Google 于 5 月 8 日宣布 Project Mariner 全面开放,AI Agent 可自主浏览网页、填写表单、完成购物等复杂浏览器任务。此前仅限测试用
🔥 1. Anthropic 发布 Claude Agent Mode:可自主运行数小时 — 486 pts Anthropic 于 5 月 6 日推出 Agent Mode,Claude 可自主执行编程、数据分析、网页研究等多步骤任务,持续数小时无需人工介入。这是从聊天助手到自主 Agent 的
🔥 1. Mistral 发布 Mistral-Specialist-7B:开源代码模型 HumanEval 达 92.3% — 412 pts 法国 Mistral AI 于 5 月 7 日发布专为代码生成优化的开源模型,7B 参数在 HumanEval 上达 92.3% 通过率,超越同等规模闭
🔥 1. Meta 开源 Llama 4 Ultra:1.2 万亿参数,全面超越 GPT-4o — 486 pts Meta 于 5 月 5 日发布 Llama 4 Ultra,1.2 万亿参数的开源模型,在多项编程和推理基准上超越 GPT-4o。采用自定义商业许可证,是迄今能力最强的开源模型,有