Google、スマートフォンと PC に最適化された新しい QAT モデルで Gemma 4 をさらに軽量化

Gemma 4 ファミリーのデビューから約 2 か月後、Google は開発者、研究者、ローカルで実行される人工知能の愛好家にとって特に興味深いイノベーションを導入することで、オープンソース AI モデルの提供を改良し続けています。実際、ここ数時間で、Google DeepMind チームは、量子化対応トレーニング (QAT) によって最適化された新しい Gemma 4 チェックポイントの利用可能性を発表しました。QAT は、モデルの品質をほとんど変えずにメモリ消費量を大幅に削減できるテクノロジーです。

目的は非常に明確です。つまり、必ずしもリモートサーバーや特に強力なインフラストラクチャに依存することなく、スマートフォン、タブレット、ラップトップ、エッジデバイスなどの消費者向けハードウェア上でも、ますます高度なモデルを実行できるようにすることです。

Google Discover で Apple Geek LABO をフォローする

Gemma 4 は量子化対応トレーニングのおかげでより効率的になります

このアップデートにより、Google はローカル人工知能の分野で最も重要な側面の 1 つであるモデルのサイズとパフォーマンスの関係を改善することを目指しています。

量子化は現在、言語モデルを圧縮し、リソースが限られたハードウェア上で使用できるようにするための基本的な技術となっています。ただし、伝統的に、このプロセスは、いわゆるポストトレーニング量子化 (PTQ) を通じてトレーニング後に実行されます。これは効果的な解決策ではありますが、生成される応答の品質の低下につながる可能性があります。

量子化対応トレーニングでは、プロセスが根本的に変化します。量子化はトレーニング段階で実際に直接シミュレートされ、圧縮によって導入された制限にモデルを事前に適応させることができます。 Google によると、このアプローチにより、従来の PTQ 手法と比較してより質の高い結果が得られ、モデルの推論と生成機能がより適切に維持されます。

新しいチェックポイントは、AI コミュニティ内で広く使用されている人気の Q4_0 形式と、モバイルデバイス専用に開発された新しい圧縮モードの両方で配布されます。

この発表で最も驚くべき点の 1 つは、スマートフォンとエッジデバイスの最適化に関するものです。 Google は、メモリ消費を大幅に削減できるモバイルハードウェア専用の量子化システムを開発しました。この新しいソリューションのおかげで、Gemma 4 E2B バリアントはわずか 1 GB のメモリを占有することができますが、テキストのみの構成 (レイヤーごとの埋め込みなし) では、要件はこのしきい値を下回ることさえあります。

これを実現するために、DeepMind はいくつかの具体的な手法を実装しました。

トレーニング中に事前に計算された静的アクティベーション
モバイルアクセラレータ向けに最適化されたチャネルごとの量子化
トークン生成専用のコンポーネントの 2 ビット選択的圧縮
エンベディングと KV キャッシュの最適化により、長時間の会話中のメモリ消費を削減します。

これらは技術的な対策であり、実際に応用すると、応答の品質や処理速度を過度に犠牲にすることなく、高度なモデルをデバイス上で直接実行できるようになります。

Google はまた、開発者がすでに使用しているほとんどのツールと新しいモデルの互換性を確保するために取り組んできました。

重みは llama.cpp で使用するために GGUF 形式で利用できますが、vLLM 互換の圧縮テンソルもリリースされています。 Ollama、LM Studio、Transformers.js、LiteRT-LM、SGLang、MLX、Hugging Face Transformers、Unsloth との統合にも不足はありません。

特に興味深いのは、推論を高速化するために最近導入され、新しい QAT バージョンでも維持されている MTP (マルチトークン予測) チェックポイントのサポートです。これにより、圧縮とパフォーマンスの向上の両方のメリットを同時に得ることができます。

この発表は、この分野で現在明らかになっており、ローカル人工知能が従来のクラウドサービスと並んでますます重要な役割を果たしているという傾向を裏付けています。

Google は、量子化対応トレーニングを通じて最適化されたこれらの新しい Gemma 4 モデルを使用して、比較的安価なハードウェアでも高度な生成および推論機能にアクセスできるようにし、メモリ要件を大幅に削減し、デバイス上での直接実行を容易にすることを目指しています。

この方向性は、リモートサーバーにデータを継続的に送信することなく複雑な言語モデルを実行できるスマートフォンや PC に対する業界の関心が高まっていることを考慮すると、今後数か月で特に興味深いことが判明する可能性があります。

フォローしてください:Google ディスカバーGoogle、優先ソースとしてフェイスブックYouTubeインスタグラムTikTok