易君召
易君召
发布于 2026-06-28 / 2 阅读
0
0

⚡ 北大联合 DeepSeek 开源 DSpark:高并发推理速度提升 60%-85%,破解大模型「慢」的终极难题

#AI

2026 年 6 月 27 日 · DeepSpec 已开源 · GitHub 1,832 Stars · 已部署 DeepSeek-V4 预览版

🔥 一、背景:大模型「生成慢」的根源

大语言模型生成文本时采用自回归方式——每生成一个 Token 都需要一次完整的前向传播,推理延迟随输出长度线性增长。这就是为什么 AI 对话一开始"想"半天才蹦出第一个字。

DSpark 要解决的是高并发生产环境中的推理效率瓶颈——当千万用户同时用 AI 时,模型能不能既快又稳?

关键信息

数据

发布方

北京大学 + DeepSeek

发布时间

2026 年 6 月 27 日

技术类型

推测解码(Speculative Decoding)推理加速框架

已部署服务

DeepSeek-V4-Flash / DeepSeek-V4-Pro 预览版

开源仓库

DeepSpec(GitHub 1,832 Stars)

性能提升

单用户生成速度提升 60% 至 85%

代码覆盖

论文/训练代码/模型检查点/评估脚本全部开源

⚡ 二、核心技术:半自回归 + 置信度调度

推测解码的基本原理

用一个轻量级小模型快速生成多个候选 Token → 大模型一次并行验证所有候选 → 接受符合分布的连续前缀 → 无损生成质量。

但由于验证阶段可并行计算,且严格保证了输出分布与原始模型一致,推测解码能在不损害生成质量的前提下大幅提升速度

现有方案的两派困境

方案

代表

优点

缺点

自回归式草稿模型

Eagle3

依赖关系建模强、接受率高

生成延迟随候选长度线性增长

并行式草稿模型

DFlash

生成延迟与候选长度无关

长候选块后缀接受率迅速衰减,浪费计算资源

两派各有利弊,但都解决不了高并发场景下的核心矛盾。

DSpark 的两项创新

创新一:半自回归架构

核心思想: 取两派之长,弃两派之短。

组件

功能

🏗️ 并行主干网络(基于 DFlash 改进)

一次性产出全部候选位置的隐藏状态和基础 logits——计算量大但快

🔗 轻量级顺序模块

逐 Token 注入前缀依赖信息——两种实现可选

马尔可夫头

仅依赖前一个 Token——速度优先

RNN 头

通过循环状态累积完整前缀信息——质量优先

实验结果: 两层 Transformer 深度的 DSpark 即可在所有测试领域上超过五层 DFlash 的接受长度——证明了少量自回归依赖在参数效率上的巨大优势。

创新二:置信度调度验证

DSpark 在每个候选位置输出一个置信度分数,预测该 Token 的"存活概率"。关键创新点:

  1. 置信度校准——训练后通过逐位置温度缩放,使置信度与经验接受率对齐

  2. 硬件感知前缀调度器——将验证长度选择建模为全局吞吐量最大化问题: - 给定一批并发请求及其各位置置信度 - 结合预先实测的引擎吞吐量曲线 - 动态决定为每个请求验证多长的候选前缀 - 优先将计算资源分配给全局存活概率最高的 Token

🔑 核心创新点: 不是"固定验证长度",而是根据置信度动态分配验证资源——在高并发时自动缩短验证长度避免资源争用,低并发时拉长验证长度充分利用空闲算力。

📊 三、性能数据

离线基准测试

目标模型

DSpark vs Eagle3

DSpark vs DFlash

Qwen3-4B

+30.9%

+16.3%

Qwen3-8B

大幅领先

显著领先

Qwen3-14B

持续领先

持续领先

Gemma4-12B

全面超越

全面超越

测试覆盖: 数学推理(GSM8K / MATH500 / AIME25)+ 代码生成(MBPP / HumanEval / LiveCodeBench)+ 日常对话(MT-Bench / Alpaca / Arena-Hard)

在线生产环境实测

DeepSeek-V4-Flash 引擎:

SLA 标准

DSpark 吞吐量提升

≥ 80 token/s

+51%

≥ 120 token/s

+661%(基线接近运行边界)

DeepSeek-V4-Pro 引擎:

SLA 标准

DSpark 吞吐量提升

≥ 35 token/s

+52%

≥ 50 token/s

+406%

单用户生成速度提升:57% 至 85%。

负载自适应行为

并发数

DSpark 行为

低并发

验证长度 4-6 个 Token——充分利用空闲算力

高并发

自动缩短验证长度——避免资源争用

🧪 四、DSpark 的局限

局限

说明

程度

草稿计算开销不可回收

即使后缀 Token 最终被调度器截断,并行主干仍需为所有请求生成完整的初始候选块

🟡 特定场景

复杂查询接受率低时效率下降

对于本身接受率较低的任务,草稿计算开销无法回收

🟡 中度

系统优化依赖特定框架

CUDA 图重放、异步调度等优化与当前系统框架紧密耦合

🟢 可迁移

仅支持 DeepSeek-V4 预览版

尚未扩展至更多目标模型

🟢 自然

🌍 五、与国际顶级方案的对比

对比维度

DSpark 🏆

Eagle3

DFlash

Medusa

DeepSeek MTP-1

架构类型

半自回归

自回归

并行

并行

自回归(MTP)

候选长度支持

⭐ 长

高并发自适应

置信度调度

固定

固定

固定

固定

质量无损

推理加速(相对基线)

60-85%

约 30-50%

约 40-60%

约 20-40%

基础

吞吐量提升(高并发)

51-661%

有限

有限

有限

基线

开源

完整代码

与国际顶级模型的差距

维度

DSpark 定位

差距

适用性

针对 DeepSeek-V4 优化

需适配更多模型

高并发调度

业界领先

无明显对手

部署成熟度

预览版阶段

尚需时间验证稳定

硬件适配

NVIDIA GPU

需扩展至更多硬件

🔮 六、未来方向

方向

预期

🚀 扩展至更多目标模型

从 DeepSeek-V4 到 Qwen、Gemma 等主流通用模型

🔧 系统优化提炼为通用工具

将 CUDA 图重放、异步调度等优化独立为公共库

🧩 更多顺序模块探索

马尔可夫头 / RNN 头之外的更优方案

兼容更多硬件平台

AMD、华为昇腾等国产芯片适配

🌐 社区生态建设

借助 1,832 Stars 的开源社区持续改进

📌 七、总结

DSpark 是北京大学与 DeepSeek 联合推出的推测解码推理加速框架,以半自回归架构 + 置信度调度验证两项创新,在保证生成质量无损的前提下,实现了单用户推理速度 60%-85% 的提升,以及高并发场景下最高 661% 的吞吐量提升

三个核心信号

  1. 🏆 半自回归取了「两派之长」——并行架构的带宽优势 + 自回归的依赖建模精度,DSpark 用 2 层 Transformer 打平 5 层并行方案

  2. 🏆 置信度调度是高并发场景的"杀手锏"——不再是固定的验证长度,而是根据系统负载动态分配算力

  3. 🏆 完整开源是最大的诚意——不仅发了论文,还开源了全部训练代码、评估脚本和模型权重。1,832 Stars 代表社区用脚投票

一句话总结

DSpark 不是在「更快」和「更好」之间做取舍——半自回归架构保证了候选质量,置信度调度保证了资源效率。当大模型推理加速从「单点突破」走向「系统优化」时,DSpark 交出了一份兼顾学术创新和工程落地的满分答卷。


原文链接 https://www.yijunzhao.cn/archives/pku-deepseek-dspark-open-source-high-concurrency-faster

欢迎访问 小易撩挨踢

https://www.yijunzhao.cn/


评论