AI Agents & 开源 LLM 简报 (2026年6月28日)

🔥 1. DeepSeek DSpark 论文：梁文锋署名，单用户速度提升 85%，高并发吞吐翻 4 倍 — 1400 pts

DeepSeek 发表由梁文锋署名的重磅推理加速论文 DSpark，Fireworks AI CTO、PyTorch 核心维护者 Dmytro Dzhulgakov 将其拆解为 10 个概念，评价"精髓在于系统工程和模型协同设计"。DSpark 的核心是将并行推测（DFlash）和串行推测（Eagle/MTP）融合——先用 DFlash 的并行骨干网络一口气生成所有位置的候选 logits（负责速度），再用一个轻量级顺序头逐个注入前缀依赖偏置（负责修正"后缀衰减"问题）。关键公式：每 token 耗时 = (草稿耗时 + 验证耗时)/接受的 token 数 τ。DeepSeek-V3 本就已在用 MTP-1（单 token 推测），DSpark 在这个已经优化过的基线上再提升 60-85% 单用户速度，高并发场景有效吞吐翻 4 倍。这标志着 DeepSeek 在推理效率上从"追赶"到了"定义行业标准" 的级别——与英伟达 NeMo AutoModel 同为本周"基础设施层"的重要突破。

→ https://www.qbitai.com/2026/06/439548.html

🔥 2. 百度开源 Unlimited OCR：可连续阅读整本书，KV Cache 恒定，刷新 OmniDocBench SOTA — 1300 pts

百度开源全新 OCR 模型 Unlimited OCR，在 OmniDocBench 上刷新 SOTA，整体成绩超过 DeepSeek OCR。核心创新是 参考滑动窗口注意力（R-SWA）——灵感来自人类抄写员的工作方式：原书始终摊开在桌上（视觉 Token 持续保留），手边只保留最近几行字（输出端窗口固定 128 个 token），更早的内容自然淡出。这让 KV Cache 成为固定长度队列——无论最终生成几千还是几万 token，显存占用和计算成本都不会增长。传统 OCR 越读越慢，Unlimited OCR 基本保持匀速。作者巧合之处：作者疑似前 DeepSeek 研究员——此前离开 DeepSeek 的成员在 OCR 领域超越了老东家，这本身就是人才流动创造价值的生动案例。

→ https://www.qbitai.com/2026/06/439464.html

🔥 3. AI 全站克隆开源项目爆火：一行命令，像素级复刻任意网站 — 1200 pts

GitHub 2 万星项目 ai-website-cloner-template 火爆出圈。给它一个 URL，自动完成全站逆向解析：采集页面元素精确计算样式、遍历滚动/点击/悬停等全量交互逻辑、提取标准化设计 Token——然后调度多 Agent 基于 Git 工作树并行完成组件分块重建，最终输出一套可直接运行的完整 Next.js 工程。工作流分为五阶段：全域采集（自动滚动、模拟交互、提取真实 CSS 计算值）、基础搭建（全局样式 + Tailwind 配置）、组件规格书（每个区块精确的 CSS 值 + 响应式断点 + 状态过渡）、并行构建（多 builder Agent 在独立 git worktree 同时施工）、组装质检（合并验证）。支持 Claude Code、Codex CLI、Cursor、Copilot、Gemini CLI、Windsurf 全平台。可以说，这工具把"看到好看的网站"到"拥有一个同款"的周期从数天压缩到了一行命令——对前端工程师来说既是福利也是挑战。

→ https://www.qbitai.com/2026/06/439515.html

🔥 4. DSpark 技术深度解析：推理加速的"不可能三角"被系统性打破 — 1200 pts

DSpark 的技术贡献值得单独展开。推理加速存在一个"不可能三角"：草稿速度、预测准确率、验证成本三者需要平衡。猜得太少（小 τ）加速有限，猜得太多被拒绝的概率上升浪费算力，草稿器本身的大小又直接影响开销。DSpark 系统性拉动三个杠杆：用 DFlash 并行生成 所有位置的候选（降低草稿耗时），用轻量级顺序头 注入依赖偏置 修正后缀衰减（提高 τ），用批处理验证保持高效（减少验证浪费）。这是一个将推测解码的每一步都优化到极致的综合系统工程。实际效果：在 DeepSeek-V3 的 MTP-1 基线基础上单用户时延降低 60-85%，高并发场景下有效吞吐翻 4 倍。这也解释了为什么 Dmytro Dzhulgakov 的评价是"各类技术融合为一套自适应完整系统，实现了端到端的显著性能优化"——不是单点突破，而是系统级的重塑。

→ https://www.qbitai.com/2026/06/439548.html

🔥 5. 参考滑动窗口注意力（R-SWA）：OCR 领域的"长文档连续处理"范式革命 — 1000 pts

Unlimited OCR 的 R-SWA 机制是本周最具原创性的技术创新之一。三个关键设计形成闭环：视觉 Token 始终保留（参考信息永不丢失）、输出端窗口固定 128 个 token（避免 KV 膨胀）、队列式 KV Cache 管理（先进先出，保持恒定大小）。对比三种注意力机制：

Full Attention：KV Cache 随解码不断膨胀→越读越慢→长文档不可行
传统 SWA：视觉 Token 会被滑动窗口挤出→长文档后期对原图感知模糊
R-SWA：视觉 Token 独立保留，仅输出文本参与窗口滑动→无限文档连续处理且匀速

这个设计对于文档密集型场景（法律合同、学术论文、历史档案数字化）具有巨大的实用价值。不再需要"逐页处理+结果拼接"这种权宜之计。

→ https://www.qbitai.com/2026/06/439464.html

🔥 6. AI 全站克隆工作流揭秘：多 Agent 并行构建 + Git Worktree 隔离，工程实现优雅 — 1000 pts

ai-website-cloner-template 的技术实现细节值得深入。其五阶段流水线的工程设计非常清晰：第一阶段全域采集不只是截图，而是用 getComputedStyle() 获取真实的 CSS 计算值（包括色值、字体字号字重、间距、圆角、阴影参数），同时提取所有静态资源。第三阶段"组件规格书"是整条流水线最硬核的部分——为每个区块写一份精确到像素的规格文件，包含所有 CSS 计算值、状态过渡参数、响应式断点行为。第四阶段的"多 Agent 并行构建"使用了 Git Worktree 隔离——导航栏 Agent 和 Hero 区 Agent 各在一个独立的工作树里同时施工，互不干扰，最后合并回主分支。这展示了 AI 编程工具如何从"单文件生成"进化到大规模并行工程管理。完整的前端工程（路由、模块化组件、TypeScript、ESLint）意味着这不是"截图"，而是真正可继承、可迭代的代码。

→ https://www.qbitai.com/2026/06/439515.html

🔥 7. 本周 AI 日报回顾：6 月 22-28 日，七件定义 AI 格局的大事 — 1000 pts

过去一周（6.22-6.28）的行业动态可以浓缩为七件大事：
1️⃣ GPT-5.6 三款齐发（Sol/Terra/Luna）编程超越 Fable 5 但深陷作弊争议
2️⃣ Fable 5 分批重新上线，前沿模型发布被政府审查重塑
3️⃣ DeepSeek DSpark 推理加速，推理效率定义行业新标准
4️⃣ 百度 Unlimited OCR 刷新 SOTA，CV 领域中国公司重新领先
5️⃣ 英伟达 NeMo AutoModel 一行代码 MoE 微调提速 3.7 倍
6️⃣ 谷歌人才地震升级：推理之王+AlphaFold 之父等六位核心出走
7️⃣ 中国开源模型崛起：GLM-5.2 获 HF 首次为中国模型倒贴算力，OpenRouter 调用量超 50%
8️⃣ 本周还诞生了 BrowserBC（浏览器操作蒸馏）、VLX（端侧流式多模态）、TacForeSight（机器人触觉预判）等一系列开源和研究成果。

→ 综合一周报道

🔥 8. "推理加速"成为本周 AI 基础设施关键词：从英伟达到 DeepSeek，都指向同一方向 — 900 pts

本周横跨三个不同的基础设施级加速发布：英伟达 NeMo AutoModel（训练端，MoE 微调 3.7x）、DeepSeek DSpark（推理端，单用户 85% 加速）、HF Mirror vLLM 一键部署（服务端，一条命令起私有大模型）。三件事的共性在于：模型能力的增长趋缓，效率优化成为新的竞赛维度。当 GPT-5.6 和 Fable 5 在评测分数上咬得很紧、作弊争议又让高分含金量存疑时，谁能在相同算力下跑得更快、更便宜、更稳定，谁就获得了实际部署中的竞争优势。这解释了为什么 DeepSeek 选择把 DSpark 论文发出来（而不是闭源作为护城河）——推理效率本身正在成为一种"基础设施标准"，推动整个生态效率提升才是最大化自身价值的方式。

→ https://www.qbitai.com/2026/06/439548.html

🔥 9. 本周最大讽刺：闭源最强行受限，开源模型成最大赢家 — 900 pts

本周充满了值得玩味的对比：Fable 5 因为政府审查分批上线、GPT-5.6 Sol 因为作弊争议分数不可信；而开源这边，GLM-5.2（MIT 许可）在 Code Arena 拿下全球可用模型第一，HF 自掏腰包免费算力支持，马斯克预测"明年 Q1"追平 Fable 但唐杰回应"不用那么久"。当闭源最强模型的发布、可用性和评测分数都变得不可靠时，开源模型的"真实可用"价值被极大放大。另一个信号：OpenRouter 上中国模型的调用量已从 2024 年底的 1.2% 上升到 50% 以上，这不仅是市场选择，也是对"可用即真理"逻辑的验证。百度 Unlimited OCR 的开源也再次证明了开放路线的力量。

→ 综合一周报道

🔥 10. 周度趋势总结：Agent 走向"所见即所用"——从浏览器到全站克隆 — 800 pts

本周两个项目揭示了 Agent 能力的新方向：BrowserBC 让人类的一次浏览器操作转化为 Agent 可复用的 Skill；ai-website-cloner 让 Agent 不仅会"看"还会"造"。二者共同指向同一个趋势——Agent 正在从"理解世界"走向"复制世界"。当 Agent 能够录制一次浏览器操作就掌握一个网站的使用方式，当 Agent 能够看一眼一个网站就克隆出它的完整前端工程，"数字化劳动力"不再只是替代重复劳动，而是开始继承和放大人类的数字化技能。这可能是"一人公司"（OPC）模式成为现实的技术基础。

→ 综合

📌 今日趋势一览

趋势	🔥热度
DeepSeek DSpark 推理加速（85%↑）	🔥🔥🔥🔥🔥
百度 Unlimited OCR 刷新 SOTA	🔥🔥🔥🔥🔥
AI 全站克隆一行命令爆火	🔥🔥🔥🔥
R-SWA 注意力机制（长文档不爆炸）	🔥🔥🔥🔥
本周回顾：闭源受限、开源崛起	🔥🔥🔥🔥
推理加速成新竞赛维度	🔥🔥🔥🔥
人才流动：前 DeepSeek 超越 DeepSeek	🔥🔥🔥
多 Agent 并行 Git Worktree 建站	🔥🔥🔥
Agent 复制世界能力初现	🔥🔥🔥
国内 CV 领域重新领先	🔥🔥🔥

原文链接 https://www.yijunzhao.cn/archives/ai-agents-kai-yuan-llm-jian-bao-2026nian-6yue-28ri

欢迎访问小易撩挨踢

https://www.yijunzhao.cn/

菜单

分享

AI Agents & 开源 LLM 简报 (2026年6月28日)

评论

Hermes Desktop 深度解析：Hermes Agent 的桌面伴侣

2026 年信创国产化产品名录（权威完整版）

OpenCode爆火：17万Star！开源AI编码Agent的"顶流"是如何炼成的？

新加坡Agnes AI三款核心模型API无限期免费：东南亚AI赛道杀出的"价格屠夫"

DeepSeek-V4-Pro 永久降价至1/4：国产大模型打响"价格战"第二枪

Nous Research正式发布官方桌面客户端Hermes Desktop：AI智能体有了"原生之家"

《高质量数据集分类指南》(TC609-5-2025-03) 标准规范深度解读

《高质量数据集格式要求》(TC609-5-2025-02) 标准规范深度解读

《高质量数据集质量评测规范》(TC609-5-2025-04) 深度解读

💾 2026 年 NAS 全面横评：极空间/绿联/华为 vs 群晖/威联通，国产品牌逆袭了吗？