易君召
易君召
发布于 2026-06-28 / 3 阅读
0
0

AI Agents & 开源 LLM 简报 (2026年6月28日)

#AI

🔥 1. DeepSeek DSpark 论文:梁文锋署名,单用户速度提升 85%,高并发吞吐翻 4 倍 — 1400 pts

DeepSeek 发表由梁文锋署名的重磅推理加速论文 DSpark,Fireworks AI CTO、PyTorch 核心维护者 Dmytro Dzhulgakov 将其拆解为 10 个概念,评价"精髓在于系统工程和模型协同设计"。DSpark 的核心是将并行推测(DFlash)和串行推测(Eagle/MTP)融合——先用 DFlash 的并行骨干网络一口气生成所有位置的候选 logits(负责速度),再用一个轻量级顺序头逐个注入前缀依赖偏置(负责修正"后缀衰减"问题)。关键公式:每 token 耗时 = (草稿耗时 + 验证耗时)/接受的 token 数 τ。DeepSeek-V3 本就已在用 MTP-1(单 token 推测),DSpark 在这个已经优化过的基线上再提升 60-85% 单用户速度,高并发场景有效吞吐翻 4 倍。这标志着 DeepSeek 在推理效率上从"追赶"到了"定义行业标准" 的级别——与英伟达 NeMo AutoModel 同为本周"基础设施层"的重要突破。

https://www.qbitai.com/2026/06/439548.html

🔥 2. 百度开源 Unlimited OCR:可连续阅读整本书,KV Cache 恒定,刷新 OmniDocBench SOTA — 1300 pts

百度开源全新 OCR 模型 Unlimited OCR,在 OmniDocBench 上刷新 SOTA,整体成绩超过 DeepSeek OCR。核心创新是 参考滑动窗口注意力(R-SWA)——灵感来自人类抄写员的工作方式:原书始终摊开在桌上(视觉 Token 持续保留),手边只保留最近几行字(输出端窗口固定 128 个 token),更早的内容自然淡出。这让 KV Cache 成为固定长度队列——无论最终生成几千还是几万 token,显存占用和计算成本都不会增长。传统 OCR 越读越慢,Unlimited OCR 基本保持匀速。作者巧合之处:作者疑似前 DeepSeek 研究员——此前离开 DeepSeek 的成员在 OCR 领域超越了老东家,这本身就是人才流动创造价值的生动案例。

https://www.qbitai.com/2026/06/439464.html

🔥 3. AI 全站克隆开源项目爆火:一行命令,像素级复刻任意网站 — 1200 pts

GitHub 2 万星项目 ai-website-cloner-template 火爆出圈。给它一个 URL,自动完成全站逆向解析:采集页面元素精确计算样式、遍历滚动/点击/悬停等全量交互逻辑、提取标准化设计 Token——然后调度多 Agent 基于 Git 工作树并行完成组件分块重建,最终输出一套可直接运行的完整 Next.js 工程。工作流分为五阶段:全域采集(自动滚动、模拟交互、提取真实 CSS 计算值)、基础搭建(全局样式 + Tailwind 配置)、组件规格书(每个区块精确的 CSS 值 + 响应式断点 + 状态过渡)、并行构建(多 builder Agent 在独立 git worktree 同时施工)、组装质检(合并验证)。支持 Claude Code、Codex CLI、Cursor、Copilot、Gemini CLI、Windsurf 全平台。可以说,这工具把"看到好看的网站"到"拥有一个同款"的周期从数天压缩到了一行命令——对前端工程师来说既是福利也是挑战。

https://www.qbitai.com/2026/06/439515.html

🔥 4. DSpark 技术深度解析:推理加速的"不可能三角"被系统性打破 — 1200 pts

DSpark 的技术贡献值得单独展开。推理加速存在一个"不可能三角":草稿速度、预测准确率、验证成本三者需要平衡。猜得太少(小 τ)加速有限,猜得太多被拒绝的概率上升浪费算力,草稿器本身的大小又直接影响开销。DSpark 系统性拉动三个杠杆:用 DFlash 并行生成 所有位置的候选(降低草稿耗时),用轻量级顺序头 注入依赖偏置 修正后缀衰减(提高 τ),用批处理验证保持高效(减少验证浪费)。这是一个将推测解码的每一步都优化到极致的综合系统工程。实际效果:在 DeepSeek-V3 的 MTP-1 基线基础上单用户时延降低 60-85%,高并发场景下有效吞吐翻 4 倍。这也解释了为什么 Dmytro Dzhulgakov 的评价是"各类技术融合为一套自适应完整系统,实现了端到端的显著性能优化"——不是单点突破,而是系统级的重塑。

https://www.qbitai.com/2026/06/439548.html

🔥 5. 参考滑动窗口注意力(R-SWA):OCR 领域的"长文档连续处理"范式革命 — 1000 pts

Unlimited OCR 的 R-SWA 机制是本周最具原创性的技术创新之一。三个关键设计形成闭环:视觉 Token 始终保留(参考信息永不丢失)、输出端窗口固定 128 个 token(避免 KV 膨胀)、队列式 KV Cache 管理(先进先出,保持恒定大小)。对比三种注意力机制:

  • Full Attention:KV Cache 随解码不断膨胀→越读越慢→长文档不可行

  • 传统 SWA:视觉 Token 会被滑动窗口挤出→长文档后期对原图感知模糊

  • R-SWA:视觉 Token 独立保留,仅输出文本参与窗口滑动→无限文档连续处理且匀速

这个设计对于文档密集型场景(法律合同、学术论文、历史档案数字化)具有巨大的实用价值。不再需要"逐页处理+结果拼接"这种权宜之计。

https://www.qbitai.com/2026/06/439464.html

🔥 6. AI 全站克隆工作流揭秘:多 Agent 并行构建 + Git Worktree 隔离,工程实现优雅 — 1000 pts

ai-website-cloner-template 的技术实现细节值得深入。其五阶段流水线的工程设计非常清晰:第一阶段全域采集不只是截图,而是用 getComputedStyle() 获取真实的 CSS 计算值(包括色值、字体字号字重、间距、圆角、阴影参数),同时提取所有静态资源。第三阶段"组件规格书"是整条流水线最硬核的部分——为每个区块写一份精确到像素的规格文件,包含所有 CSS 计算值、状态过渡参数、响应式断点行为。第四阶段的"多 Agent 并行构建"使用了 Git Worktree 隔离——导航栏 Agent 和 Hero 区 Agent 各在一个独立的工作树里同时施工,互不干扰,最后合并回主分支。这展示了 AI 编程工具如何从"单文件生成"进化到大规模并行工程管理。完整的前端工程(路由、模块化组件、TypeScript、ESLint)意味着这不是"截图",而是真正可继承、可迭代的代码。

https://www.qbitai.com/2026/06/439515.html

🔥 7. 本周 AI 日报回顾:6 月 22-28 日,七件定义 AI 格局的大事 — 1000 pts

过去一周(6.22-6.28)的行业动态可以浓缩为七件大事:
1️⃣ GPT-5.6 三款齐发(Sol/Terra/Luna)编程超越 Fable 5 但深陷作弊争议
2️⃣ Fable 5 分批重新上线,前沿模型发布被政府审查重塑
3️⃣ DeepSeek DSpark 推理加速,推理效率定义行业新标准
4️⃣ 百度 Unlimited OCR 刷新 SOTA,CV 领域中国公司重新领先
5️⃣ 英伟达 NeMo AutoModel 一行代码 MoE 微调提速 3.7 倍
6️⃣ 谷歌人才地震升级:推理之王+AlphaFold 之父等六位核心出走
7️⃣ 中国开源模型崛起:GLM-5.2 获 HF 首次为中国模型倒贴算力,OpenRouter 调用量超 50%
8️⃣ 本周还诞生了 BrowserBC(浏览器操作蒸馏)、VLX(端侧流式多模态)、TacForeSight(机器人触觉预判)等一系列开源和研究成果。

→ 综合一周报道

🔥 8. "推理加速"成为本周 AI 基础设施关键词:从英伟达到 DeepSeek,都指向同一方向 — 900 pts

本周横跨三个不同的基础设施级加速发布:英伟达 NeMo AutoModel(训练端,MoE 微调 3.7x)、DeepSeek DSpark(推理端,单用户 85% 加速)、HF Mirror vLLM 一键部署(服务端,一条命令起私有大模型)。三件事的共性在于:模型能力的增长趋缓,效率优化成为新的竞赛维度。当 GPT-5.6 和 Fable 5 在评测分数上咬得很紧、作弊争议又让高分含金量存疑时,谁能在相同算力下跑得更快、更便宜、更稳定,谁就获得了实际部署中的竞争优势。这解释了为什么 DeepSeek 选择把 DSpark 论文发出来(而不是闭源作为护城河)——推理效率本身正在成为一种"基础设施标准",推动整个生态效率提升才是最大化自身价值的方式。

https://www.qbitai.com/2026/06/439548.html

🔥 9. 本周最大讽刺:闭源最强行受限,开源模型成最大赢家 — 900 pts

本周充满了值得玩味的对比:Fable 5 因为政府审查分批上线、GPT-5.6 Sol 因为作弊争议分数不可信;而开源这边,GLM-5.2(MIT 许可)在 Code Arena 拿下全球可用模型第一,HF 自掏腰包免费算力支持,马斯克预测"明年 Q1"追平 Fable 但唐杰回应"不用那么久"。当闭源最强模型的发布、可用性和评测分数都变得不可靠时,开源模型的"真实可用"价值被极大放大。另一个信号:OpenRouter 上中国模型的调用量已从 2024 年底的 1.2% 上升到 50% 以上,这不仅是市场选择,也是对"可用即真理"逻辑的验证。百度 Unlimited OCR 的开源也再次证明了开放路线的力量。

→ 综合一周报道

🔥 10. 周度趋势总结:Agent 走向"所见即所用"——从浏览器到全站克隆 — 800 pts

本周两个项目揭示了 Agent 能力的新方向:BrowserBC 让人类的一次浏览器操作转化为 Agent 可复用的 Skill;ai-website-cloner 让 Agent 不仅会"看"还会"造"。二者共同指向同一个趋势——Agent 正在从"理解世界"走向"复制世界"。当 Agent 能够录制一次浏览器操作就掌握一个网站的使用方式,当 Agent 能够看一眼一个网站就克隆出它的完整前端工程,"数字化劳动力"不再只是替代重复劳动,而是开始继承和放大人类的数字化技能。这可能是"一人公司"(OPC)模式成为现实的技术基础。

→ 综合

📌 今日趋势一览

趋势

🔥热度

DeepSeek DSpark 推理加速(85%↑)

🔥🔥🔥🔥🔥

百度 Unlimited OCR 刷新 SOTA

🔥🔥🔥🔥🔥

AI 全站克隆一行命令爆火

🔥🔥🔥🔥

R-SWA 注意力机制(长文档不爆炸)

🔥🔥🔥🔥

本周回顾:闭源受限、开源崛起

🔥🔥🔥🔥

推理加速成新竞赛维度

🔥🔥🔥🔥

人才流动:前 DeepSeek 超越 DeepSeek

🔥🔥🔥

多 Agent 并行 Git Worktree 建站

🔥🔥🔥

Agent 复制世界能力初现

🔥🔥🔥

国内 CV 领域重新领先

🔥🔥🔥


原文链接 https://www.yijunzhao.cn/archives/ai-agents-kai-yuan-llm-jian-bao-2026nian-6yue-28ri

欢迎访问 小易撩挨踢

https://www.yijunzhao.cn/


评论