⚡ 北大联合 DeepSeek 开源 DSpark：高并发推理速度提升 60%-85%，破解大模型「慢」的终极难题

2026 年 6 月 27 日 · DeepSpec 已开源 · GitHub 1,832 Stars · 已部署 DeepSeek-V4 预览版

🔥 一、背景：大模型「生成慢」的根源

大语言模型生成文本时采用自回归方式——每生成一个 Token 都需要一次完整的前向传播，推理延迟随输出长度线性增长。这就是为什么 AI 对话一开始"想"半天才蹦出第一个字。

DSpark 要解决的是高并发生产环境中的推理效率瓶颈——当千万用户同时用 AI 时，模型能不能既快又稳？

关键信息	数据
发布方	北京大学 + DeepSeek
发布时间	2026 年 6 月 27 日
技术类型	推测解码（Speculative Decoding）推理加速框架
已部署服务	DeepSeek-V4-Flash / DeepSeek-V4-Pro 预览版
开源仓库	DeepSpec（GitHub 1,832 Stars）
性能提升	单用户生成速度提升 60% 至 85%
代码覆盖	论文/训练代码/模型检查点/评估脚本全部开源

⚡ 二、核心技术：半自回归 + 置信度调度

推测解码的基本原理

用一个轻量级小模型快速生成多个候选 Token → 大模型一次并行验证所有候选 → 接受符合分布的连续前缀 → 无损生成质量。

但由于验证阶段可并行计算，且严格保证了输出分布与原始模型一致，推测解码能在不损害生成质量的前提下大幅提升速度。

现有方案的两派困境

方案	代表	优点	缺点
自回归式草稿模型	Eagle3	依赖关系建模强、接受率高	生成延迟随候选长度线性增长
并行式草稿模型	DFlash	生成延迟与候选长度无关	长候选块后缀接受率迅速衰减，浪费计算资源

两派各有利弊，但都解决不了高并发场景下的核心矛盾。

DSpark 的两项创新

创新一：半自回归架构

核心思想： 取两派之长，弃两派之短。

组件	功能
🏗️ 并行主干网络（基于 DFlash 改进）	一次性产出全部候选位置的隐藏状态和基础 logits——计算量大但快
🔗 轻量级顺序模块	逐 Token 注入前缀依赖信息——两种实现可选
① 马尔可夫头	仅依赖前一个 Token——速度优先
② RNN 头	通过循环状态累积完整前缀信息——质量优先

实验结果： 两层 Transformer 深度的 DSpark 即可在所有测试领域上超过五层 DFlash 的接受长度——证明了少量自回归依赖在参数效率上的巨大优势。

创新二：置信度调度验证

DSpark 在每个候选位置输出一个置信度分数，预测该 Token 的"存活概率"。关键创新点：

置信度校准——训练后通过逐位置温度缩放，使置信度与经验接受率对齐
硬件感知前缀调度器——将验证长度选择建模为全局吞吐量最大化问题： - 给定一批并发请求及其各位置置信度 - 结合预先实测的引擎吞吐量曲线 - 动态决定为每个请求验证多长的候选前缀 - 优先将计算资源分配给全局存活概率最高的 Token

🔑 核心创新点： 不是"固定验证长度"，而是根据置信度动态分配验证资源——在高并发时自动缩短验证长度避免资源争用，低并发时拉长验证长度充分利用空闲算力。

📊 三、性能数据

离线基准测试

目标模型	DSpark vs Eagle3	DSpark vs DFlash
Qwen3-4B	+30.9%	+16.3%
Qwen3-8B	大幅领先	显著领先
Qwen3-14B	持续领先	持续领先
Gemma4-12B	全面超越	全面超越

测试覆盖： 数学推理（GSM8K / MATH500 / AIME25）+ 代码生成（MBPP / HumanEval / LiveCodeBench）+ 日常对话（MT-Bench / Alpaca / Arena-Hard）

在线生产环境实测

DeepSeek-V4-Flash 引擎：

SLA 标准	DSpark 吞吐量提升
≥ 80 token/s	+51%
≥ 120 token/s	+661%（基线接近运行边界）

DeepSeek-V4-Pro 引擎：

SLA 标准	DSpark 吞吐量提升
≥ 35 token/s	+52%
≥ 50 token/s	+406%

单用户生成速度提升：57% 至 85%。

负载自适应行为

并发数	DSpark 行为
低并发	验证长度 4-6 个 Token——充分利用空闲算力
高并发	自动缩短验证长度——避免资源争用

🧪 四、DSpark 的局限

局限	说明	程度
草稿计算开销不可回收	即使后缀 Token 最终被调度器截断，并行主干仍需为所有请求生成完整的初始候选块	🟡 特定场景
复杂查询接受率低时效率下降	对于本身接受率较低的任务，草稿计算开销无法回收	🟡 中度
系统优化依赖特定框架	CUDA 图重放、异步调度等优化与当前系统框架紧密耦合	🟢 可迁移
仅支持 DeepSeek-V4 预览版	尚未扩展至更多目标模型	🟢 自然

🌍 五、与国际顶级方案的对比

对比维度	DSpark 🏆	Eagle3	DFlash	Medusa	DeepSeek MTP-1
架构类型	半自回归	自回归	并行	并行	自回归（MTP）
候选长度支持	⭐ 长	短	长	中	短
高并发自适应	⭐ 置信度调度	固定	固定	固定	固定
质量无损	✅	✅	✅	✅	✅
推理加速（相对基线）	60-85%	约 30-50%	约 40-60%	约 20-40%	基础
吞吐量提升（高并发）	51-661%	有限	有限	有限	基线
开源	✅ 完整代码	✅	✅	✅	✅

与国际顶级模型的差距

维度	DSpark 定位	差距
适用性	针对 DeepSeek-V4 优化	需适配更多模型
高并发调度	⭐ 业界领先	无明显对手
部署成熟度	预览版阶段	尚需时间验证稳定
硬件适配	NVIDIA GPU	需扩展至更多硬件

🔮 六、未来方向

方向	预期
🚀 扩展至更多目标模型	从 DeepSeek-V4 到 Qwen、Gemma 等主流通用模型
🔧 系统优化提炼为通用工具	将 CUDA 图重放、异步调度等优化独立为公共库
🧩 更多顺序模块探索	马尔可夫头 / RNN 头之外的更优方案
⚡ 兼容更多硬件平台	AMD、华为昇腾等国产芯片适配
🌐 社区生态建设	借助 1,832 Stars 的开源社区持续改进

📌 七、总结

DSpark 是北京大学与 DeepSeek 联合推出的推测解码推理加速框架，以半自回归架构 + 置信度调度验证两项创新，在保证生成质量无损的前提下，实现了单用户推理速度 60%-85% 的提升，以及高并发场景下最高 661% 的吞吐量提升。

三个核心信号

🏆 半自回归取了「两派之长」——并行架构的带宽优势 + 自回归的依赖建模精度，DSpark 用 2 层 Transformer 打平 5 层并行方案
🏆 置信度调度是高并发场景的"杀手锏"——不再是固定的验证长度，而是根据系统负载动态分配算力
🏆 完整开源是最大的诚意——不仅发了论文，还开源了全部训练代码、评估脚本和模型权重。1,832 Stars 代表社区用脚投票

一句话总结

DSpark 不是在「更快」和「更好」之间做取舍——半自回归架构保证了候选质量，置信度调度保证了资源效率。当大模型推理加速从「单点突破」走向「系统优化」时，DSpark 交出了一份兼顾学术创新和工程落地的满分答卷。

原文链接 https://www.yijunzhao.cn/archives/pku-deepseek-dspark-open-source-high-concurrency-faster

欢迎访问小易撩挨踢

https://www.yijunzhao.cn/

菜单

分享

⚡ 北大联合 DeepSeek 开源 DSpark：高并发推理速度提升 60%-85%，破解大模型「慢」的终极难题

🔥 一、背景：大模型「生成慢」的根源

⚡ 二、核心技术：半自回归 + 置信度调度

推测解码的基本原理

现有方案的两派困境

DSpark 的两项创新

创新一：半自回归架构

创新二：置信度调度验证

📊 三、性能数据

离线基准测试

在线生产环境实测

负载自适应行为

🧪 四、DSpark 的局限

🌍 五、与国际顶级方案的对比

与国际顶级模型的差距

🔮 六、未来方向

📌 七、总结

三个核心信号

一句话总结

评论

Hermes Desktop 深度解析：Hermes Agent 的桌面伴侣

2026 年信创国产化产品名录（权威完整版）

OpenCode爆火：17万Star！开源AI编码Agent的"顶流"是如何炼成的？

新加坡Agnes AI三款核心模型API无限期免费：东南亚AI赛道杀出的"价格屠夫"

DeepSeek-V4-Pro 永久降价至1/4：国产大模型打响"价格战"第二枪

Nous Research正式发布官方桌面客户端Hermes Desktop：AI智能体有了"原生之家"

《高质量数据集分类指南》(TC609-5-2025-03) 标准规范深度解读

《高质量数据集格式要求》(TC609-5-2025-02) 标准规范深度解读

《高质量数据集质量评测规范》(TC609-5-2025-04) 深度解读

💾 2026 年 NAS 全面横评：极空间/绿联/华为 vs 群晖/威联通，国产品牌逆袭了吗？