DiffusionGemma:文本生成速度提升4倍

qimuai 发布于 阅读:27 一手编译

DiffusionGemma:文本生成速度提升4倍

内容来源:https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/

内容总结:

谷歌发布DiffusionGemma:文本生成速度提升4倍的全新开源模型

今天,谷歌正式推出DiffusionGemma——一款实验性开源文本扩散模型,采用Apache 2.0许可协议发布。这款拥有260亿参数的混合专家(MoE)模型,突破了传统自回归大语言模型逐词生成的局限,能够同时生成整段文本,在GPU上实现高达4倍的文本生成速度提升。

核心技术突破

DiffusionGemma基于Gemma 4系列的领先智能密度和Gemini扩散研究的最新成果,集成了专门为提速设计的新型扩散头。该模型在推理时仅激活38亿参数,量化后可适配18GB显存的高端消费级GPU,在单块NVIDIA H100上每秒可生成超1000个token,在NVIDIA GeForce RTX 5090上也能达到700+ token/s。

开发者价值与应用场景

DiffusionGemma专为需要高速交互的本地工作流设计,尤其适用于行内编辑、快速迭代和非线性文本结构生成等场景。其双向注意力机制让每个前向传播并行生成256个token,使每个token都能关注到其他所有token,在代码补全、氨基酸序列和数学图结构等非线性任务中优势显著。此外,模型具备智能自校正能力,可实时评估并修正整段文本中的错误。

性能权衡与定位

作为实验性模型,DiffusionGemma在速度优先的同时,整体输出质量低于标准Gemma 4。谷歌明确建议,对质量要求最高的生产应用仍应部署标准版Gemma 4。该模型的加速优势最适用于本地和低并发推理环境,在高并发云端服务中,自回归模型反而更能发挥计算效率。

开源生态与工具支持

开发者现可在Hugging Face下载模型权重(Apache 2.0许可),并通过MLX、vLLM(Red Hat集成支持)、Hugging Face Transformers等工具部署。谷歌还发布了Hackable Diffusion微调教程,并与Unsloth、NVIDIA NeMo合作提供微调方案。硬件层面,模型已通过NVIDIA优化,支持从GeForce RTX 5090/4090消费级GPU到Hopper/Blackwell企业级系统,包括NVIDIA DGX Spark、DGX Station和RTX PRO工作站。

文本扩散原理简析

类似AI图像生成器从噪点逐步清晰化,DiffusionGemma从随机占位符开始,通过多次迭代锁定正确token并优化剩余部分,最终输出高质量文本。这种并行处理能力使其能实现复杂Markdown格式完美闭合、近实时代码生成与渲染等新模式。

中文翻译:

DiffusionGemma:文本生成速度提升4倍

今天,我们推出DiffusionGemma,这是一款探索文本扩散技术的实验性开放模型,代表着一种极为高效的文本生成方法。该模型采用Apache 2.0许可证发布,是一个总参数量为260亿的混合专家(MoE)模型,它突破了传统自回归大语言模型(LLM)逐词依次处理的方式,而是同时生成整段文本,在GPU上实现高达4倍的文本生成速度提升。

DiffusionGemma基于我们Gemma 4系列业界领先的智能密度参数以及尖端的Gemini Diffusion研究成果构建,并集成了一款专为最大化生成速度而设计的新型扩散模块。虽然自回归的Gemma 4模型仍是高质量生产输出的标准,但DiffusionGemma专为那些探索对速度有严格要求的交互式本地工作流程(如行内编辑、快速迭代以及生成非线性文本结构)的研究人员和开发者而打造。

为开发者解锁全新价值

构建实时交互式AI应用的开发者常常受困于本地推理的延迟瓶颈。DiffusionGemma直面这些挑战,并带来了一些关键性的权衡:

你可以通过微调来提升DiffusionGemma在特定任务上的性能。在下面的例子中,Unsloth对DiffusionGemma进行了微调,使其能玩数独——这是自回归模型难以处理的任务,因为每个令牌都依赖于后续令牌。DiffusionGemma的双向注意力机制使这项任务变得容易得多。

微调后的DiffusionGemma正在解数独。

为何文本生成采用扩散技术?

尽管AI研究界探索基于扩散的文本生成已有多年,但将其应用于大型模型仍然是一个挑战。DiffusionGemma通过改变模型使用硬件的方式,扭转了这一局面。

传统模型的权衡

大多数语言模型的工作方式像打字机,从左到右每次生成一个令牌。在云端,这种方式效率很高,因为服务器可以将数千个用户请求批量处理,共享硬件负载。但当在本地为单个用户运行时,这种逐词生成的过程会让你的专用GPU或TPU利用率不足——大部分时间只是在等待下一次“击键”。

DiffusionGemma扭转了这种低效局面。它不按顺序预测单词,而是同时起草一整段256个令牌的段落。通过一次性给计算机处理器分配更大块的任务,DiffusionGemma让你的硬件潜力得到充分发挥。它将你的模型推理从单个顺序工作的打字机,升级为一台能够同时印出整段文本的大型印刷机。

DiffusionGemma的文本转3D SVG演示(由Hugging Face提供)。逐步生成过程。

这意味着DiffusionGemma的速度提升是为本地和低并发推理场景设计的。在高QPS(每秒查询数)的云端服务中,自回归模型可以通过部署来有效饱和计算资源,因此DiffusionGemma的并行解码带来的收益递减,并可能导致更高的服务成本。其吞吐量优势在单加速器上的低到中批次规模时最为显著。

文本扩散的工作原理

与AI图像生成器类似,后者从视觉噪点开始,通过迭代优化逐渐形成清晰图像,DiffusionGemma则将这一过程应用于文本:

由于模型在生成过程中能够处理整个段落,这解锁了新的模型行为模式,例如完美闭合复杂的标记语言格式,或近乎实时地生成并渲染代码。

立即开始使用

英文来源:

DiffusionGemma: 4x faster text generation
Today, we’re introducing DiffusionGemma, an experimental open model that explores text diffusion, an exceptionally fast approach to text generation. Released under an Apache 2.0 license, this 26B Mixture of Experts (MoE) model moves beyond the sequential token-by-token processing of typical autoregressive Large Language Models (LLMs). Instead, it generates entire blocks of text simultaneously, delivering up to 4x faster text generation on GPUs.
Built upon the industry-leading intelligence-per-parameter of our Gemma 4 family and cutting-edge Gemini Diffusion research, DiffusionGemma integrates a novel diffusion head designed to maximize generation speed. While autoregressive Gemma 4 models remain the standard for high-quality production outputs, DiffusionGemma is designed for researchers and developers exploring speed-critical, interactive local workflows such as in-line editing, rapid iteration, and generating non-linear text structures.
Unlocking new value for developers
Developers building real-time interactive AI applications often struggle with the latency bottlenecks of local inference. DiffusionGemma addresses these challenges directly, with some key trade-offs:

谷歌新消息

文章目录


    扫描二维码,在手机上阅读