Google DeepMindが発表した「DiffusionGemma」は、従来の逐次生成方式を脱却し、テキストをブロック単位で並列生成する革新的なモデルである。NVIDIAの最適化によりローカル環境での超高速動作が可能となり、開発者のAI実装におけるコストとプライバシーの課題を大きく変える可能性がある。

なぜ「ブロック単位の並列生成」が推論のボトルネックを解消するのか?

生成AIのテキスト生成において長らくボトルネックとされてきたのは、1トークンずつ順番に単語を紡ぎ出す自己回帰型の逐次性である。Google DeepMindの技術文書によれば、DiffusionGemmaは画像生成で用いられる拡散モデルの技術をテキスト生成に応用し、最大256トークンを一度に生成する並列処理を実現した。このアプローチは、メモリ帯域幅に依存しがちな従来のLLMとは異なり、計算能力を最大限に活用する計算集約型のワークロードへ転換するものである。NVIDIAの発表によれば、この新しいアーキテクチャを同社GPU環境に最適化することで、従来の自己回帰モデルと比較して最大4倍の高速化を達成した。

Gemma 4ベースのMoE構造が実現する毎秒2,000トークンの衝撃

DiffusionGemmaは、Gemma 4の260億パラメータモデルをバックボーンとするMixture-of-Experts(MoE)構造を採用しており、推論時には38億パラメータのみがアクティブ化される。NVIDIAの技術ブログでは、Tensorコアが高密度な並列演算を効率的に処理するのに適しており、CUDAスタックを通じて特別なチューニングなしで高いパフォーマンスを発揮すると解説されている。これにより、NVIDIAのDGX Station環境では毎秒2,000トークンという驚異的な生成速度を実現した。また、H100では1,000トークン/秒以上、GeForce RTX 5090では700トークン/秒以上の速度を達成している。

ローカルAI開発者がクラウドコストとプライバシーから解放される意味

この技術は、開発者にとって単なる速度向上以上の意味を持つ。ローカル環境で低遅延なエージェントループを構築できることは、クラウドの従量課金コストを大幅に削減する強力な選択肢となる。また、機密性の高いデータを外部に送信することなくAI処理を完結できるため、プライバシー保護の観点からも大きなメリットがある。これにより、インライン編集やコード補完といったインタラクティブなワークフローにおいて、クラウドに依存しない高度なAIアプリケーションの構築が現実的となる。

複雑な推論タスクで従来のTransformerモデルに取って代われるか?

DiffusionGemmaは速度を重視した実験的なモデルであり、Google DeepMindも全体的な出力品質は標準のGemma 4より低いと明言している。テキスト生成における拡散モデルの特性上、文脈の整合性を保つための制御手法が、従来のTransformerモデルとは異なる課題を抱える可能性が指摘される。複雑な推論タスクや長文生成において、DiffusionGemmaが従来のLLMと同等の精度や一貫性を維持できるのかは、今後の実用化に向けた最大の検証ポイントとなるだろう。オープンソースライセンスでの提供が、コミュニティによる検証と改善を促すかどうかが焦点である。