گوناگون

گوگل از DiffusionGemma رونمایی کرد؛ مدل متن‌بازی که تولید متن را تا ۴ برابر سریع‌تر می‌کند

گوگل از مدل آزمایشی و متن‌باز DiffusionGemma رونمایی کرده است؛ مدلی ۲۶ میلیارد پارامتری از نوع MoE که با تکیه بر رویکرد «دیفیوژن متنی» می‌تواند روی GPUها تا ۴ برابر سریع‌تر از مدل‌های رایج متن تولید کند. این مدل بیش از هر چیز برای توسعه‌دهندگان و پژوهشگرانی طراحی شده که به استنتاج محلی سریع، ویرایش تعاملی و تولید ساختارهای غیرخطی متن نیاز دارند.

به گزارش توسعه برند؛ گوگل روز ۱۰ ژوئن ۲۰۲۶ از DiffusionGemma به‌عنوان تازه‌ترین مدل آزمایشی و متن‌باز خود پرده برداشت؛ مدلی که به‌جای تولید ترتیبی متن به‌صورت توکن‌به‌توکن، بلوک‌های کامل متن را به‌طور هم‌زمان تولید می‌کند و به همین دلیل می‌تواند سرعت تولید متن را روی GPUهای اختصاصی تا ۴ برابر افزایش دهد.

این مدل با مجوز Apache 2.0 عرضه شده و در دسته Mixture of Experts قرار می‌گیرد. هرچند حجم کلی آن ۲۶ میلیارد پارامتر است، اما در زمان استنتاج تنها ۳.۸ میلیارد پارامتر را فعال می‌کند؛ موضوعی که باعث می‌شود نسخه کوانتیزه‌شده آن در ۱۸ گیگابایت حافظه گرافیکی نیز قابل اجرا باشد.

به گفته گوگل، DiffusionGemma بر پایه توانمندی‌های خانواده Gemma 4 و پژوهش‌های Gemini Diffusion ساخته شده و برای سناریوهایی توسعه یافته که سرعت پاسخ‌گویی در آن‌ها اهمیت بالایی دارد؛ از جمله ویرایش درون‌خطی متن، تکرار سریع در فرایند توسعه، تکمیل کد و تولید ساختارهای غیرخطی.

گوگل اعلام کرده این مدل می‌تواند روی یک NVIDIA H100 به سرعتی بیش از ۱۰۰۰ توکن در ثانیه و روی GeForce RTX 5090 به بیش از ۷۰۰ توکن در ثانیه برسد.

از دیگر ویژگی‌های مهم DiffusionGemma می‌توان به توجه دوطرفه اشاره کرد؛ قابلیتی که به مدل اجازه می‌دهد در هر پاس پردازشی ۲۵۶ توکن را به‌طور موازی بررسی و تولید کند. این ویژگی به‌ویژه در وظایفی مانند تکمیل کد، ویرایش درجا، حل مسائل ساختاری و حتی پردازش توالی‌های زیستی مزیت محسوب می‌شود.

با این حال، گوگل تأکید کرده که DiffusionGemma همچنان یک مدل آزمایشی است و از نظر کیفیت خروجی، در مجموع به پای نسخه‌های استاندارد Gemma 4 نمی‌رسد. به همین دلیل، برای کاربردهای تولیدی که کیفیت نهایی اولویت اصلی است، استفاده از Gemma 4 همچنان توصیه می‌شود.

گوگل همچنین گفته توسعه‌دهندگان می‌توانند عملکرد این مدل را برای کاربردهای خاص از طریق Fine-tuning بهبود دهند. در یکی از نمونه‌های منتشرشده، DiffusionGemma پس از ریزتنظیم توانسته سودوکو را بهتر حل کند؛ مسئله‌ای که معمولاً برای مدل‌های خودبازگشتی چالش‌برانگیز است.

وزن‌های این مدل هم‌اکنون از طریق Hugging Face در دسترس قرار گرفته و پشتیبانی از ابزارهایی مانند MLX، vLLM، Hugging Face Transformers، Unsloth و NVIDIA NeMo نیز برای آن در نظر گرفته شده است. گوگل همچنین وعده داده پشتیبانی رسمی از llama.cpp به‌زودی اضافه شود.




سایت توسعه برند

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا