Googleは軽量AIモデル「Gemma 4」に対し、学習段階から量子化を組み込む「QAT」を適用した新チェックポイントを公開した。Googleの技術発表によれば、これによりモバイル端末での動作効率が劇的に向上し、オンデバイスAIの社会実装が一段と現実味を帯びている。
GoogleがGemma 4向けに発表した学習時量子化(QAT)モデルは、AIのオンデバイス化において重要な転換点となる。従来の学習後量子化(PTQ)では、モデルの軽量化と引き換えに精度低下が避けられなかった。しかし、QATは学習プロセスそのものに量子化を組み込むことで、この精度低下という課題を克服している。これにより、メモリや計算リソースが限られるスマートフォンなどのモバイル環境でも、実用的な推論性能と品質を両立できる道筋が開かれた。
Gemma 4のE2Bモデルでメモリ消費量を1GB以下に抑えた背景には、モバイルチップの特性に最適化した独自の量子化スキームがある。Googleの技術ブログでは、静的アクティベーションの事前計算によりモバイルチップの処理負荷を軽減したと説明されている。さらに、モバイルアクセラレータに最適化されたチャンネルごとの量子化や、トークン生成部への2ビット圧縮を適用することで、ストレージを節約しつつモデルの推論能力を維持している。これはハードウェアレベルでの垂直統合的なアプローチと言える。
この技術は、開発者がクラウドAPIの利用に伴うコストやレイテンシの制約から解放され、スマートフォンやノートPCといったローカル環境で高度なAIアプリケーションを構築する可能性を広げる。llama.cppやOllama、MLXといった主要な開発ツールで即座に利用可能であるため、既存のエコシステムに容易に組み込める点は導入側にとって大きな利点だ。社内データを外部に出したくない企業やオフライン利用を求める現場にとって、クラウド依存から脱却し、エッジ側でインテリジェンスが完結する環境構築が加速すると見られる。
今回のモバイル特化型量子化スキームが、Gemma 4以外の多様な大規模モデルへどの程度汎用的に適用できるかは今後の焦点である。また、2ビット量子化を適用した際の推論精度が、複雑なタスクにおいて実用的なレベルで維持されるかどうかの検証も待たれる。GoogleのベンチマークではBF16と同等の品質を維持するとされるが、実用面でのパフォーマンス劣化がどの程度許容されるのか、精度と圧縮率の最適なバランスを見極めることが、オンデバイスAIの普及を左右するだろう。