DeepSeek DSpark 全解析:推测解码如何让 V4 推理快 4 倍
📰 本文选自自游人今日AI科技日报
引言
2026年6月27日,在完成500亿元融资之后,DeepSeek放出的第一个开源成果不是新模型——而是一套让现有模型跑得快得多的工程方案。没有改模型架构,没有加参数,但端到端生成速度提升了60%-85%。
这套方案叫DSpark,搭配训练框架DeepSpec一起开源。如果你在用DeepSeek V4 API,这个更新能帮你省下真金白银。如果你在自建推理服务,DeepSpec让你能给自己的模型(包括Qwen3、Gemma)也装上这套加速器。
这篇拆给你看:它为什么快、为什么比之前的方案聪明、以及你拿来能干什么。
一、核心概念:推测解码到底是什么
传统的LLM推理,每一步只生成一个token——一个字一个字往外蹦。GPU的计算核心大部分时间是闲着的,这叫"内存带宽墙":计算快但数据传输慢,疯狂等数据。
**推测解码(Speculative Decoding)**的解法很直觉:让一个小模型(草稿模型)先一口气猜一串token,然后拿给大模型批量验证。猜对的全要,猜错的只改第一个,后面的丢掉重猜。
这有点像你写代码时先用AI补全一长段,再自己快速扫一眼对错——对的地方直接过,错的地方改个开头就行。
核心公式很简单:
| |
草稿猜得越长、验证越快,加速越多。但问题来了。
二、深度解析:DSpark为什么比别人快
2.1 老方案的致命伤
当前最主流的并行草稿器能一次生成超长token序列。但有个致命问题:越往后猜越离谱。因为并行生成的token之间没有依赖关系——前面的猜错了,后面的跟着全错。
然后主模型还得傻傻地一个一个验证这些大概率会错的token。在高并发服务中(成百上千用户同时请求),这些无效验证全部消耗GPU批次算力,导致整体吞吐率反而暴跌。
DeepSeek的线上服务之前用MTP-1(一次猜1个token的方案)做推测解码。虽然猜得短但稳。DSpark的目标很明确:猜得更长,还猜得准。
2.2 DSpark的两把手术刀
DSpark的核心创新分两个层面:
第一层:半自回归架构(Semi-Autoregressive Generation)
这是论文的精髓。DSpark不搞纯并行草稿,而是在并行主干网络上叠加一个轻量串行模块。并行部分保证速度,串行部分在草稿token之间建立依赖关系——相当于给草稿模型的草稿加了结构,让靠后的token不再乱猜。
结果:草稿有效通过长度显著提升,末尾token的接受率不再断崖式下跌。
第二层:置信度调度校验(Confidence-Scheduled Verification)
这是DSpark最聪明的设计。它不无差别验证所有草稿token,而是:
- 实时预估每条草稿前缀的通过概率
- 根据当前引擎的实际吞吐负载,动态调整校验长度
- 负载高时缩短校验(少浪费算力),负载低时延长(多碰运气)
对比图就很直观:
| 指标 | MTP-1(老方案) | DSpark | 提升幅度 |
|---|---|---|---|
| 单用户生成速度 | 基线 | +60%~85% | 最高近翻倍 |
| 高并发吞吐率 | 基线 | +51%~400% | 负载越高优势越大 |
| 帕累托边界 | 原位置 | 整体外推 | 达以往无法实现的性能档位 |
数据来源:DSpark论文,部署于DeepSeek-V4线上服务系统、承接真实用户流量测得。
2.3 为什么能暴增51%-400%吞吐
这里的400%不是噱头。在高并发、严格时延约束的生产环境中,传统推测解码(比如Eagle3)的草稿验证会大量浪费GPU批次算力——主模型在验证一堆概率极低的token。DSpark的置信度调度直接砍掉这些无效验证,在吞吐和时延之间推高了帕累托最优边界。
简单说:同样的GPU集群,DSpark能多接4倍的并发用户,还保持同样的时延。
三、实践指南:DeepSpec怎么用
DeepSeek这次不光给了DSpark模型(HuggingFace上下载),还开源了训练框架DeepSpec(GitHub: deepseek-ai/DeepSpec)。这套全栈代码库MIT许可,让你能给自己的模型训练草稿模型。
3.1 DeepSpec工作流
DeepSpec按顺序跑三个阶段:
| |
- 数据准备:下载提示词,用目标模型重新生成答案,构建目标缓存
- 训练:基于缓存训练草稿模型
- 评估:在基准任务上衡量接受率
目前支持的草稿模型算法:DSpark、DFlash、Eagle3 三种。
3.2 你自己的模型怎么用
DeepSpec支持给你的Qwen3、Gemma等模型训练草稿模型。基本步骤:
| |
训练完的草稿模型挂载到主模型上,直接走推测解码推理通道。
3.3 对API用户意味着什么
如果你用的是DeepSeek官方API,不需要做任何事——DSpark已经部署到线上服务,你天然享受更快速度。同样的API价格,生成速度提升60-85%,等效于同等价格快了约4倍。
如果你自建推理服务部署DeepSeek V4,HuggingFace上下载 DeepSeek-V4-Pro-DSpark 或 DeepSeek-V4-Flash-DSpark 即可。注意这不是新模型权重,是原有checkpoint加了一个推测解码模块。
四、资源汇总
| 资源 | 链接 | 说明 |
|---|---|---|
| DSpark论文 | GitHub PDF | 梁文锋署名,联合北大完成 |
| DeepSpec GitHub | deepseek-ai/DeepSpec | MIT许可,全栈训练代码库 |
| DSpark模型 | HuggingFace | V4-Pro + DSpark推测解码模块 |
| DeepSeek V4技术报告 | arXiv 2606.19348 | V4完整架构解析 |
| DeepSeek官网 | deepseek.com | API接入 |
总结
DSpark的发布释放了一个明确信号:大模型竞争已进入"训练+推理"系统博弈阶段。 模型能力见顶的当下,谁的推理更快、更便宜,谁就能在API市场上拿到更多订单。
更妙的是DeepSeek的战略——把训练框架DeepSpec开源,支持竞品模型。一旦成为行业标准推测解码工具链,DeepSeek在推理优化赛道的品牌和生态就站稳了。
对于开发者:如果你想省推理成本,现在就去读DSpark论文,用DeepSpec给你的模型训练草稿。推理优化不是炒概念,是真金白银。
参考来源:
- 梁文锋署名论文!DeepSeek首轮融资后大动作:生成速度大涨85% - 腾讯新闻(智东西报道)
- 推理提速80%!DeepSeek新品突然发大招!- 腾讯新闻(雷科技报道)
- 北大与DeepSeek联合开源DSpark框架 - 钛媒体
- DeepSpec GitHub 仓库(官方一手,MIT许可)
- DeepSeek-V4-Pro-DSpark HuggingFace 模型页(官方一手)
- DSpark论文 arXiv(学术一手)
📖 延伸阅读
- 🧠 Anthropic 出口禁令推演 — 开放vs封锁路线图
- 🔧 Ornith-1.0 Agent编程实战 — AI效能工具体系
- 🔧 GLM-5.2 零成本部署 — 免费跑大模型的姿势
最后更新:2026-06-27
本文由 AI 辅助撰写,经人工审阅。内容仅供参考,不构成任何建议。
© 2026 自游人 17YOU.COM | CC BY-NC-SA 4.0
保持关注,记得把网址 (17you.com) 加收藏夹!有空经常来网站看看!我们每天都分享最新鲜、最实用的AI知识、最新动态、最新技术,以及最新的应用场景。
相关内容
- Anthropic出口管制:全球AI格局正在被改写
- GLM-5.2 零成本部署指南:从 Cloudflare Workers AI 到本地 RTX 4090
- MRAgent记忆框架:让AI Agent不再金鱼记忆,Token成本暴降96%
- Ornith-1.0评测:自进化开源Coding Agent,本地跑出SWE-Bench 82.4分
- Prompt注入2026全景:2000人挑战0成功,你的Agent防线够吗
- 2026免费AI编程工具横评:Trae vs Cursor vs Copilot
