Google představuje DiffusionGemma: Nový AI model generuje text 4x rychleji díky paralelnímu zpracování a běží i na běžném hardwaru
InovaceGoogle představil experimentální AI model DiffusionGemma, který přináší revoluci v generování textu. Namísto tradičního autoregresivního přístupu, kdy se text vytváří token po tokenu zleva doprava, využívá DiffusionGemma difuzní metodu.
Google představil experimentální AI model DiffusionGemma, který přináší revoluci v generování textu. Namísto tradičního autoregresivního přístupu, kdy se text vytváří token po tokenu zleva doprava, využívá DiffusionGemma difuzní metodu. Díky tomu dokáže generovat text až čtyřikrát rychleji na dedikovaných GPU a je schopen fungovat i na běžném spotřebitelském hardwaru.
Model vychází z rodiny Google Gemma 4 a výzkumu Gemini Diffusion. Jeho klíčovou inovací je schopnost vytvářet a zpřesňovat bloky textu paralelně, generuje 256 tokenů najednou a následně je opakovaně zdokonaluje. Google uvádí, že tento přístup umožňuje dosáhnout rychlosti přesahující 1 000 tokenů za sekundu na GPU NVIDIA H100 a více než 700 tokenů za sekundu na NVIDIA GeForce RTX 5090. Společnost přirovnává tento posun od „psacího stroje“ k „tiskařskému lisu“, kdy se celý úsek textu zpracovává současně, což efektivněji využívá výpočetní výkon moderních GPU.
DiffusionGemma je primárně určen pro vývojáře pracující na aplikacích, kde je klíčová rychlost a nízká latence. Patří sem například interaktivní editace, rychlá iterace obsahu, doplňování kódu a další pracovní postupy. Další významnou vlastností je obousměrná pozornost, která umožňuje každému tokenu zohlednit všechny ostatní tokeny během generování. To model předurčuje pro úlohy, kde je důležitý budoucí kontext, jako je dokončování kódu, in-line úpravy, matematické struktury nebo biologické sekvence. Google demonstroval jeho schopnosti například při řešení Sudoku, což je pro konvenční autoregresivní modely často náročný úkol.
Model využívá architekturu Mixture-of-Experts s 26 miliardami parametrů, ale během inference aktivuje pouze 3,8 miliardy. Díky tomu se vejde do přibližně 18 GB VRAM po kvantizaci, což jej činí dostupným i na výkonných spotřebitelských GPU. DiffusionGemma také obsahuje mechanismus iterativní samoopravy, který mu umožňuje identifikovat a opravovat chyby v průběhu generování celého bloku textu. Ačkoli model upřednostňuje rychlost před maximální kvalitou – pro tu Google stále doporučuje standardní modely Gemma 4 – jeho rychlostní výhoda je nejpatrnější v lokálních nasazeních a prostředích s nízkou souběžností. Google uvolnil DiffusionGemma pod licencí Apache 2.0 prostřednictvím platformy Hugging Face a podporuje jeho nasazení pomocí nástrojů jako MLX, vLLM, Hugging Face Transformers, NVIDIA NeMo a Unsloth.
Interesting Engineering