DeepSeek DSpark 全解析:推测解码如何让 V4 推理快 4 倍

📰 本文选自自游人今日AI科技日报

引言

2026年6月27日,在完成500亿元融资之后,DeepSeek放出的第一个开源成果不是新模型——而是一套让现有模型跑得快得多的工程方案。没有改模型架构,没有加参数,但端到端生成速度提升了60%-85%。

这套方案叫DSpark,搭配训练框架DeepSpec一起开源。如果你在用DeepSeek V4 API,这个更新能帮你省下真金白银。如果你在自建推理服务,DeepSpec让你能给自己的模型(包括Qwen3、Gemma)也装上这套加速器。

这篇拆给你看:它为什么快、为什么比之前的方案聪明、以及你拿来能干什么。

一、核心概念:推测解码到底是什么

传统的LLM推理,每一步只生成一个token——一个字一个字往外蹦。GPU的计算核心大部分时间是闲着的,这叫"内存带宽墙":计算快但数据传输慢,疯狂等数据。

**推测解码(Speculative Decoding)**的解法很直觉:让一个小模型(草稿模型)先一口气猜一串token,然后拿给大模型批量验证。猜对的全要,猜错的只改第一个,后面的丢掉重猜。

这有点像你写代码时先用AI补全一长段,再自己快速扫一眼对错——对的地方直接过,错的地方改个开头就行。

核心公式很简单:

1
推测解码加速比 ≈ 草稿接受长度 × (验证成本 / 单步生成成本)

草稿猜得越长、验证越快,加速越多。但问题来了。

二、深度解析:DSpark为什么比别人快

2.1 老方案的致命伤

当前最主流的并行草稿器能一次生成超长token序列。但有个致命问题:越往后猜越离谱。因为并行生成的token之间没有依赖关系——前面的猜错了,后面的跟着全错。

然后主模型还得傻傻地一个一个验证这些大概率会错的token。在高并发服务中(成百上千用户同时请求),这些无效验证全部消耗GPU批次算力,导致整体吞吐率反而暴跌

DeepSeek的线上服务之前用MTP-1(一次猜1个token的方案)做推测解码。虽然猜得短但稳。DSpark的目标很明确:猜得更长,还猜得准。

2.2 DSpark的两把手术刀

DSpark的核心创新分两个层面:

第一层:半自回归架构(Semi-Autoregressive Generation)

这是论文的精髓。DSpark不搞纯并行草稿,而是在并行主干网络上叠加一个轻量串行模块。并行部分保证速度,串行部分在草稿token之间建立依赖关系——相当于给草稿模型的草稿加了结构,让靠后的token不再乱猜。

结果:草稿有效通过长度显著提升,末尾token的接受率不再断崖式下跌。

第二层:置信度调度校验(Confidence-Scheduled Verification)

这是DSpark最聪明的设计。它不无差别验证所有草稿token,而是:

  • 实时预估每条草稿前缀的通过概率
  • 根据当前引擎的实际吞吐负载,动态调整校验长度
  • 负载高时缩短校验(少浪费算力),负载低时延长(多碰运气)

对比图就很直观:

指标MTP-1(老方案)DSpark提升幅度
单用户生成速度基线+60%~85%最高近翻倍
高并发吞吐率基线+51%~400%负载越高优势越大
帕累托边界原位置整体外推达以往无法实现的性能档位

数据来源:DSpark论文,部署于DeepSeek-V4线上服务系统、承接真实用户流量测得。

2.3 为什么能暴增51%-400%吞吐

这里的400%不是噱头。在高并发、严格时延约束的生产环境中,传统推测解码(比如Eagle3)的草稿验证会大量浪费GPU批次算力——主模型在验证一堆概率极低的token。DSpark的置信度调度直接砍掉这些无效验证,在吞吐和时延之间推高了帕累托最优边界。

简单说:同样的GPU集群,DSpark能多接4倍的并发用户,还保持同样的时延。

三、实践指南:DeepSpec怎么用

DeepSeek这次不光给了DSpark模型(HuggingFace上下载),还开源了训练框架DeepSpec(GitHub: deepseek-ai/DeepSpec)。这套全栈代码库MIT许可,让你能给自己的模型训练草稿模型。

3.1 DeepSpec工作流

DeepSpec按顺序跑三个阶段:

1
数据准备 → 训练 → 评估
  1. 数据准备:下载提示词,用目标模型重新生成答案,构建目标缓存
  2. 训练:基于缓存训练草稿模型
  3. 评估:在基准任务上衡量接受率

目前支持的草稿模型算法:DSpark、DFlash、Eagle3 三种。

3.2 你自己的模型怎么用

DeepSpec支持给你的Qwen3、Gemma等模型训练草稿模型。基本步骤:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
# 1. 克隆仓库
git clone https://github.com/deepseek-ai/DeepSpec.git
cd DeepSpec

# 2. 准备数据
python scripts/prepare_data.py --model your-model-name

# 3. 训练草稿模型
python train.py --config config/your-config.yaml

# 4. 评估接受率
python eval.py --draft-model checkpoints/your-draft

训练完的草稿模型挂载到主模型上,直接走推测解码推理通道。

3.3 对API用户意味着什么

如果你用的是DeepSeek官方API,不需要做任何事——DSpark已经部署到线上服务,你天然享受更快速度。同样的API价格,生成速度提升60-85%,等效于同等价格快了约4倍

如果你自建推理服务部署DeepSeek V4,HuggingFace上下载 DeepSeek-V4-Pro-DSparkDeepSeek-V4-Flash-DSpark 即可。注意这不是新模型权重,是原有checkpoint加了一个推测解码模块。

四、资源汇总

资源链接说明
DSpark论文GitHub PDF梁文锋署名,联合北大完成
DeepSpec GitHubdeepseek-ai/DeepSpecMIT许可,全栈训练代码库
DSpark模型HuggingFaceV4-Pro + DSpark推测解码模块
DeepSeek V4技术报告arXiv 2606.19348V4完整架构解析
DeepSeek官网deepseek.comAPI接入

总结

DSpark的发布释放了一个明确信号:大模型竞争已进入"训练+推理"系统博弈阶段。 模型能力见顶的当下,谁的推理更快、更便宜,谁就能在API市场上拿到更多订单。

更妙的是DeepSeek的战略——把训练框架DeepSpec开源,支持竞品模型。一旦成为行业标准推测解码工具链,DeepSeek在推理优化赛道的品牌和生态就站稳了。

对于开发者:如果你想省推理成本,现在就去读DSpark论文,用DeepSpec给你的模型训练草稿。推理优化不是炒概念,是真金白银。


参考来源:

  1. 梁文锋署名论文!DeepSeek首轮融资后大动作:生成速度大涨85% - 腾讯新闻(智东西报道)
  2. 推理提速80%!DeepSeek新品突然发大招!- 腾讯新闻(雷科技报道)
  3. 北大与DeepSeek联合开源DSpark框架 - 钛媒体
  4. DeepSpec GitHub 仓库(官方一手,MIT许可)
  5. DeepSeek-V4-Pro-DSpark HuggingFace 模型页(官方一手)
  6. DSpark论文 arXiv(学术一手)

📖 延伸阅读

📰 自游人日报 2026.6.27


最后更新:2026-06-27
本文由 AI 辅助撰写,经人工审阅。内容仅供参考,不构成任何建议。
© 2026 自游人 17YOU.COM | CC BY-NC-SA 4.0

原文链接: https://www.17you.com/ai/deepseek-dspark-spec-decoding/ 已复制!
一起薅AI羊毛

保持关注,记得把网址 (17you.com) 加收藏夹!有空经常来网站看看!我们每天都分享最新鲜、最实用的AI知识、最新动态、最新技术,以及最新的应用场景。

请点击联系我


相关内容