گوگل از DiffusionGemma رونمایی کرد؛ مدل متنبازی که تولید متن را تا ۴ برابر سریعتر میکند

گوگل از مدل آزمایشی و متنباز DiffusionGemma رونمایی کرده است؛ مدلی ۲۶ میلیارد پارامتری از نوع MoE که با تکیه بر رویکرد «دیفیوژن متنی» میتواند روی GPUها تا ۴ برابر سریعتر از مدلهای رایج متن تولید کند. این مدل بیش از هر چیز برای توسعهدهندگان و پژوهشگرانی طراحی شده که به استنتاج محلی سریع، ویرایش تعاملی و تولید ساختارهای غیرخطی متن نیاز دارند.
به گزارش توسعه برند؛ گوگل روز ۱۰ ژوئن ۲۰۲۶ از DiffusionGemma بهعنوان تازهترین مدل آزمایشی و متنباز خود پرده برداشت؛ مدلی که بهجای تولید ترتیبی متن بهصورت توکنبهتوکن، بلوکهای کامل متن را بهطور همزمان تولید میکند و به همین دلیل میتواند سرعت تولید متن را روی GPUهای اختصاصی تا ۴ برابر افزایش دهد.
این مدل با مجوز Apache 2.0 عرضه شده و در دسته Mixture of Experts قرار میگیرد. هرچند حجم کلی آن ۲۶ میلیارد پارامتر است، اما در زمان استنتاج تنها ۳.۸ میلیارد پارامتر را فعال میکند؛ موضوعی که باعث میشود نسخه کوانتیزهشده آن در ۱۸ گیگابایت حافظه گرافیکی نیز قابل اجرا باشد.
به گفته گوگل، DiffusionGemma بر پایه توانمندیهای خانواده Gemma 4 و پژوهشهای Gemini Diffusion ساخته شده و برای سناریوهایی توسعه یافته که سرعت پاسخگویی در آنها اهمیت بالایی دارد؛ از جمله ویرایش درونخطی متن، تکرار سریع در فرایند توسعه، تکمیل کد و تولید ساختارهای غیرخطی.
گوگل اعلام کرده این مدل میتواند روی یک NVIDIA H100 به سرعتی بیش از ۱۰۰۰ توکن در ثانیه و روی GeForce RTX 5090 به بیش از ۷۰۰ توکن در ثانیه برسد.
از دیگر ویژگیهای مهم DiffusionGemma میتوان به توجه دوطرفه اشاره کرد؛ قابلیتی که به مدل اجازه میدهد در هر پاس پردازشی ۲۵۶ توکن را بهطور موازی بررسی و تولید کند. این ویژگی بهویژه در وظایفی مانند تکمیل کد، ویرایش درجا، حل مسائل ساختاری و حتی پردازش توالیهای زیستی مزیت محسوب میشود.
با این حال، گوگل تأکید کرده که DiffusionGemma همچنان یک مدل آزمایشی است و از نظر کیفیت خروجی، در مجموع به پای نسخههای استاندارد Gemma 4 نمیرسد. به همین دلیل، برای کاربردهای تولیدی که کیفیت نهایی اولویت اصلی است، استفاده از Gemma 4 همچنان توصیه میشود.
گوگل همچنین گفته توسعهدهندگان میتوانند عملکرد این مدل را برای کاربردهای خاص از طریق Fine-tuning بهبود دهند. در یکی از نمونههای منتشرشده، DiffusionGemma پس از ریزتنظیم توانسته سودوکو را بهتر حل کند؛ مسئلهای که معمولاً برای مدلهای خودبازگشتی چالشبرانگیز است.
وزنهای این مدل هماکنون از طریق Hugging Face در دسترس قرار گرفته و پشتیبانی از ابزارهایی مانند MLX، vLLM، Hugging Face Transformers، Unsloth و NVIDIA NeMo نیز برای آن در نظر گرفته شده است. گوگل همچنین وعده داده پشتیبانی رسمی از llama.cpp بهزودی اضافه شود.

