DiffusionGemma:谷歌新模型用扩散架构把文本生成提速4倍

📰 本文选自 自游人今日AI科技日报

引言

所有大模型都有一个共同点:它们都是一个字一个字往外蹦的。

这种「自回归」方式自GPT诞生以来就没人真正挑战过——直到2026年6月10日。

谷歌DeepMind发布了DiffusionGemma,一个用扩散模型(Diffusion)生成文本的实验性模型。它不一个一个token地写,而是一次性生成256个token,然后像图像扩散模型那样从噪声中去噪优化。

结果?在本地GPU上推理速度最高提升4倍,H100上超过1100 token/s,RTX 5090上超过700 token/s。以Apache 2.0协议开源。

一、打破自回归:文本扩散是怎么工作的

传统自回归模型:串行打字

GPT、Claude、Gemini、DeepSeek……所有主流LLM用的都是自回归(Autoregressive)架构:

1
输入 → [生成"我"] → [生成"爱"] → [生成"AI"] → ...

每个token必须等前一个生成完才能开始。就像打字,一个字一个字来。GPU内部的并行计算能力大部分时间在空转——等上一个token算完。

这是LLM推理速度的根本瓶颈。

扩散模型:并行去噪

扩散模型走了一条完全不同的路 (企鹅号):

1
随机噪声 → [并行去噪256个位置] → [再次去噪优化] → 完整文本

类比:自回归是素描——一笔一笔描;扩散是雕塑——从一块石头里把不要的地方去掉,每一步都在全局优化。

DiffusionGemma的扩散解码头上一次前向传播就并行处理256个token,经过多轮去噪逐步优化输出质量。

架构核心

根据官方披露 (企鹅号):

  • 总参数:~252亿(26B MoE)
  • 激活参数:仅3.8B(推理时只激活一部分专家)
  • 架构:编码器-解码器 + 双向注意力 + 扩散解码头
  • 每次生成:并行输出256个token块
  • 协议:Apache 2.0 完全开源

混合专家(MoE)设计让它在26B总参数的情况下只激活3.8B,兼顾了推理质量和速度。

二、速度实测:到底有多快

谷歌官方和多家第三方评测给出了一致结论——快,而且是在本地硬件上的快。

官方基准

硬件自回归模型(同类)DiffusionGemma提升倍数
NVIDIA H100~275 tok/s>1100 tok/s~4×
RTX 5090~175 tok/s>700 tok/s~4×
DGX Station~500 tok/s>2000 tok/s~4×

采样速度达到1479 tokens/s,单次生成耗时仅0.84秒 (企鹅号)。

代码生成表现

DiffusionGemma在代码基准上的成绩相当不错 (腾讯网):

  • HumanEval:89.6%(接近Gemini 2.0 Flash-Lite水平)
  • BigCodeBench:45.4%
  • LiveCodeBench:30.9%

虽然整体输出质量略低于标准Gemma 4,但速度优势极为明显。

限制条件

谷歌官方坦承了几个限制 (腾讯网):

  • 定位实验性:整体输出质量低于标准Gemma 4,生产环境仍建议使用后者
  • 本地场景最优:速度优势在本地及低并发推理中最明显,高并发云端部署并不突出
  • 生态还在初期:推理框架支持和社区工具远不如自回归模型成熟

三、这意味着什么

3.1 文本生成的「扩散时刻」

2022年Stable Diffusion把扩散模型带进图像生成并引爆了AIGC浪潮。DiffusionGemma可能是文本领域的同一时刻。

如果扩散模型在文本上的质量能追上自回归(目前还有差距),那LLM推理速度将被彻底改写——从「一个字一个字等」变成「一次性出一段」。

3.2 本地推理的新可能

DiffusionGemma的设计思路很清晰:不是为了云端API竞争,而是为了本地设备上的高速推理

26B MoE + 仅激活3.8B + 扩散解码头,这个组合让它在消费级显卡上就能跑到700+ tok/s。配合Gemma 4 12B的本地多模态能力,Google正在构建设备端AI的完整工具链。

3.3 潜在应用场景

  • 实时文本生成:聊天助手几乎零延迟回复
  • 批量内容生成:大规模文案、代码文档快速输出
  • 边缘设备AI:在带宽和延迟受限场景下保持可用
  • 交互式应用:游戏NPC对话、实时翻译等低延迟场景

四、快速上手

获取模型

DiffusionGemma以Apache 2.0协议在Hugging Face开源:

  • Hugging Face搜索 google/diffusion-gemma
  • 官方GitHub仓库提供推理脚本和示例

运行要求

  • GPU:NVIDIA RTX系列或更高
  • 显存:建议8GB+(3.8B激活参数相对轻量)
  • 推理框架:官方提供Python推理脚本,社区适配进行中

适用判断

场景建议
需要最快速度的本地文本生成✅ 直接上
生产环境API服务❌ 用标准Gemma 4或Gemini
研究文本扩散架构✅ 最佳学习材料
替代日常编程助手⚠️ 质量稍弱,不建议主力

总结

DiffusionGemma不是又一个「更大更强的模型」。

它是另一种生成方式的可能性——不逐字输出,而是一次并行生成整段文字。这就像从打字机跳到了印刷机。

虽然目前还是实验性模型,质量比不上自回归老大哥,但它证明了文本生成可以走完全不同的技术路线。如果未来扩散模型和自回归模型融合,我们可能看到同时拥有高质量和高速度的新一代LLM。

毕竟,2年前谁会想到扩散模型能生成文本呢?


📬 本文首发于 自游人
📖 相关阅读:自游人今日AI科技日报
🤖 本文由 AI 辅助撰写,经人工审阅。内容仅供参考,不构成任何建议。
© 2026 自游人 17YOU.COM · 转载请注明出处

原文链接: https://www.17you.com/ai/diffusiongemma-text-diffusion-model/ 已复制!
一起薅AI羊毛

保持关注,记得把网址 (17you.com) 加收藏夹!有空经常来网站看看!我们每天都分享最新鲜、最实用的AI知识、最新动态、最新技术,以及最新的应用场景。

请点击联系我


相关内容