DiffusionGemma：谷歌新模型用扩散架构把文本生成提速4倍

辉哥收录于 AI 智能体实践

2026-06-13 2026-07-28 约 2100 字预计阅读 5 分钟 0 条评论 0 次阅读

📰 本文选自自游人今日AI科技日报

引言

所有大模型都有一个共同点：它们都是一个字一个字往外蹦的。

这种「自回归」方式自GPT诞生以来就没人真正挑战过——直到2026年6月10日。

谷歌DeepMind发布了DiffusionGemma，一个用扩散模型（Diffusion）生成文本的实验性模型。它不一个一个token地写，而是一次性生成256个token，然后像图像扩散模型那样从噪声中去噪优化。

结果？在本地GPU上推理速度最高提升4倍，H100上超过1100 token/s，RTX 5090上超过700 token/s。以Apache 2.0协议开源。

一、打破自回归：文本扩散是怎么工作的

传统自回归模型：串行打字

GPT、Claude、Gemini、DeepSeek……所有主流LLM用的都是自回归（Autoregressive）架构：

`1`	`输入 → [生成"我"] → [生成"爱"] → [生成"AI"] → ...`

每个token必须等前一个生成完才能开始。就像打字，一个字一个字来。GPU内部的并行计算能力大部分时间在空转——等上一个token算完。

这是LLM推理速度的根本瓶颈。

扩散模型：并行去噪

扩散模型走了一条完全不同的路 (企鹅号)：

`1`	`随机噪声 → [并行去噪256个位置] → [再次去噪优化] → 完整文本`

类比：自回归是素描——一笔一笔描；扩散是雕塑——从一块石头里把不要的地方去掉，每一步都在全局优化。

DiffusionGemma的扩散解码头上一次前向传播就并行处理256个token，经过多轮去噪逐步优化输出质量。

架构核心

根据官方披露 (企鹅号)：

总参数：~252亿（26B MoE）
激活参数：仅3.8B（推理时只激活一部分专家）
架构：编码器-解码器 + 双向注意力 + 扩散解码头
每次生成：并行输出256个token块
协议：Apache 2.0 完全开源

混合专家（MoE）设计让它在26B总参数的情况下只激活3.8B，兼顾了推理质量和速度。

二、速度实测：到底有多快

谷歌官方和多家第三方评测给出了一致结论——快，而且是在本地硬件上的快。

官方基准

硬件	自回归模型（同类）	DiffusionGemma	提升倍数
NVIDIA H100	~275 tok/s	>1100 tok/s	~4×
RTX 5090	~175 tok/s	>700 tok/s	~4×
DGX Station	~500 tok/s	>2000 tok/s	~4×

采样速度达到1479 tokens/s，单次生成耗时仅0.84秒 (企鹅号)。

代码生成表现

DiffusionGemma在代码基准上的成绩相当不错 (腾讯网)：

HumanEval：89.6%（接近Gemini 2.0 Flash-Lite水平）
BigCodeBench：45.4%
LiveCodeBench：30.9%

虽然整体输出质量略低于标准Gemma 4，但速度优势极为明显。

限制条件

谷歌官方坦承了几个限制 (腾讯网)：

定位实验性：整体输出质量低于标准Gemma 4，生产环境仍建议使用后者
本地场景最优：速度优势在本地及低并发推理中最明显，高并发云端部署并不突出
生态还在初期：推理框架支持和社区工具远不如自回归模型成熟

三、这意味着什么

3.1 文本生成的「扩散时刻」

2022年Stable Diffusion把扩散模型带进图像生成并引爆了AIGC浪潮。DiffusionGemma可能是文本领域的同一时刻。

如果扩散模型在文本上的质量能追上自回归（目前还有差距），那LLM推理速度将被彻底改写——从「一个字一个字等」变成「一次性出一段」。

3.2 本地推理的新可能

DiffusionGemma的设计思路很清晰：不是为了云端API竞争，而是为了本地设备上的高速推理。

26B MoE + 仅激活3.8B + 扩散解码头，这个组合让它在消费级显卡上就能跑到700+ tok/s。配合Gemma 4 12B的本地多模态能力，Google正在构建设备端AI的完整工具链。

3.3 潜在应用场景

实时文本生成：聊天助手几乎零延迟回复
批量内容生成：大规模文案、代码文档快速输出
边缘设备AI：在带宽和延迟受限场景下保持可用
交互式应用：游戏NPC对话、实时翻译等低延迟场景

四、快速上手

获取模型

DiffusionGemma以Apache 2.0协议在Hugging Face开源：

Hugging Face搜索 google/diffusion-gemma
官方GitHub仓库提供推理脚本和示例

运行要求

GPU：NVIDIA RTX系列或更高
显存：建议8GB+（3.8B激活参数相对轻量）
推理框架：官方提供Python推理脚本，社区适配进行中

适用判断

场景	建议
需要最快速度的本地文本生成	✅ 直接上
生产环境API服务	❌ 用标准Gemma 4或Gemini
研究文本扩散架构	✅ 最佳学习材料
替代日常编程助手	⚠️ 质量稍弱，不建议主力

总结

DiffusionGemma不是又一个「更大更强的模型」。

它是另一种生成方式的可能性——不逐字输出，而是一次并行生成整段文字。这就像从打字机跳到了印刷机。

虽然目前还是实验性模型，质量比不上自回归老大哥，但它证明了文本生成可以走完全不同的技术路线。如果未来扩散模型和自回归模型融合，我们可能看到同时拥有高质量和高速度的新一代LLM。

毕竟，2年前谁会想到扩散模型能生成文本呢？

原文链接： https://www.17you.com/ai/diffusiongemma-text-diffusion-model/ 已复制！

一起薅AI羊毛

保持关注，记得把网址（17you.com）加收藏夹！有空经常来网站看看！我们每天都分享最新鲜、最实用的AI知识、最新动态、最新技术，以及最新的应用场景。

请点击联系我

DiffusionGemma：谷歌新模型用扩散架构把文本生成提速4倍

引言

一、打破自回归：文本扩散是怎么工作的

传统自回归模型：串行打字

扩散模型：并行去噪

架构核心

二、速度实测：到底有多快

官方基准

代码生成表现

限制条件

三、这意味着什么

3.1 文本生成的「扩散时刻」

3.2 本地推理的新可能

3.3 潜在应用场景

四、快速上手

获取模型

运行要求

适用判断

总结

相关内容

目录