DiffusionGemma:谷歌新模型用扩散架构把文本生成提速4倍
📰 本文选自 自游人今日AI科技日报
引言
所有大模型都有一个共同点:它们都是一个字一个字往外蹦的。
这种「自回归」方式自GPT诞生以来就没人真正挑战过——直到2026年6月10日。
谷歌DeepMind发布了DiffusionGemma,一个用扩散模型(Diffusion)生成文本的实验性模型。它不一个一个token地写,而是一次性生成256个token,然后像图像扩散模型那样从噪声中去噪优化。
结果?在本地GPU上推理速度最高提升4倍,H100上超过1100 token/s,RTX 5090上超过700 token/s。以Apache 2.0协议开源。
一、打破自回归:文本扩散是怎么工作的
传统自回归模型:串行打字
GPT、Claude、Gemini、DeepSeek……所有主流LLM用的都是自回归(Autoregressive)架构:
| |
每个token必须等前一个生成完才能开始。就像打字,一个字一个字来。GPU内部的并行计算能力大部分时间在空转——等上一个token算完。
这是LLM推理速度的根本瓶颈。
扩散模型:并行去噪
扩散模型走了一条完全不同的路 (企鹅号):
| |
类比:自回归是素描——一笔一笔描;扩散是雕塑——从一块石头里把不要的地方去掉,每一步都在全局优化。
DiffusionGemma的扩散解码头上一次前向传播就并行处理256个token,经过多轮去噪逐步优化输出质量。
架构核心
根据官方披露 (企鹅号):
- 总参数:~252亿(26B MoE)
- 激活参数:仅3.8B(推理时只激活一部分专家)
- 架构:编码器-解码器 + 双向注意力 + 扩散解码头
- 每次生成:并行输出256个token块
- 协议:Apache 2.0 完全开源
混合专家(MoE)设计让它在26B总参数的情况下只激活3.8B,兼顾了推理质量和速度。
二、速度实测:到底有多快
谷歌官方和多家第三方评测给出了一致结论——快,而且是在本地硬件上的快。
官方基准
| 硬件 | 自回归模型(同类) | DiffusionGemma | 提升倍数 |
|---|---|---|---|
| NVIDIA H100 | ~275 tok/s | >1100 tok/s | ~4× |
| RTX 5090 | ~175 tok/s | >700 tok/s | ~4× |
| DGX Station | ~500 tok/s | >2000 tok/s | ~4× |
采样速度达到1479 tokens/s,单次生成耗时仅0.84秒 (企鹅号)。
代码生成表现
DiffusionGemma在代码基准上的成绩相当不错 (腾讯网):
- HumanEval:89.6%(接近Gemini 2.0 Flash-Lite水平)
- BigCodeBench:45.4%
- LiveCodeBench:30.9%
虽然整体输出质量略低于标准Gemma 4,但速度优势极为明显。
限制条件
谷歌官方坦承了几个限制 (腾讯网):
- 定位实验性:整体输出质量低于标准Gemma 4,生产环境仍建议使用后者
- 本地场景最优:速度优势在本地及低并发推理中最明显,高并发云端部署并不突出
- 生态还在初期:推理框架支持和社区工具远不如自回归模型成熟
三、这意味着什么
3.1 文本生成的「扩散时刻」
2022年Stable Diffusion把扩散模型带进图像生成并引爆了AIGC浪潮。DiffusionGemma可能是文本领域的同一时刻。
如果扩散模型在文本上的质量能追上自回归(目前还有差距),那LLM推理速度将被彻底改写——从「一个字一个字等」变成「一次性出一段」。
3.2 本地推理的新可能
DiffusionGemma的设计思路很清晰:不是为了云端API竞争,而是为了本地设备上的高速推理。
26B MoE + 仅激活3.8B + 扩散解码头,这个组合让它在消费级显卡上就能跑到700+ tok/s。配合Gemma 4 12B的本地多模态能力,Google正在构建设备端AI的完整工具链。
3.3 潜在应用场景
- 实时文本生成:聊天助手几乎零延迟回复
- 批量内容生成:大规模文案、代码文档快速输出
- 边缘设备AI:在带宽和延迟受限场景下保持可用
- 交互式应用:游戏NPC对话、实时翻译等低延迟场景
四、快速上手
获取模型
DiffusionGemma以Apache 2.0协议在Hugging Face开源:
- Hugging Face搜索
google/diffusion-gemma - 官方GitHub仓库提供推理脚本和示例
运行要求
- GPU:NVIDIA RTX系列或更高
- 显存:建议8GB+(3.8B激活参数相对轻量)
- 推理框架:官方提供Python推理脚本,社区适配进行中
适用判断
| 场景 | 建议 |
|---|---|
| 需要最快速度的本地文本生成 | ✅ 直接上 |
| 生产环境API服务 | ❌ 用标准Gemma 4或Gemini |
| 研究文本扩散架构 | ✅ 最佳学习材料 |
| 替代日常编程助手 | ⚠️ 质量稍弱,不建议主力 |
总结
DiffusionGemma不是又一个「更大更强的模型」。
它是另一种生成方式的可能性——不逐字输出,而是一次并行生成整段文字。这就像从打字机跳到了印刷机。
虽然目前还是实验性模型,质量比不上自回归老大哥,但它证明了文本生成可以走完全不同的技术路线。如果未来扩散模型和自回归模型融合,我们可能看到同时拥有高质量和高速度的新一代LLM。
毕竟,2年前谁会想到扩散模型能生成文本呢?
📬 本文首发于 自游人
📖 相关阅读:自游人今日AI科技日报
🤖 本文由 AI 辅助撰写,经人工审阅。内容仅供参考,不构成任何建议。
© 2026 自游人 17YOU.COM · 转载请注明出处
保持关注,记得把网址 (17you.com) 加收藏夹!有空经常来网站看看!我们每天都分享最新鲜、最实用的AI知识、最新动态、最新技术,以及最新的应用场景。
相关内容
- Gemma 4 12B 无编码器多模态终章:本地跑的AI Agent时代已来
- 10个免费AI API实测:从Gemini到DeepSeek,开发者零成本接入指南
- 2026免费AI工具全家桶:7款打工人必备,零成本覆盖全链路
- 2026免费AI编程工具横评:Trae vs Cursor vs Copilot
- 2026年6月最新免费AI API与算力资源白嫖指南
- 微软连发7款MAI自研模型:350亿参数零蒸馏,正式向OpenAI亮剑
