JetBrainsが12BのMoEモデル「Mellum2」を公開、推論速度を2倍に高め開発現場の効率化を狙う

開発ツール大手のJetBrainsは、コード生成と自然言語処理に特化した120億パラメータの混合エキスパート（MoE）モデル「Mellum2」を公開した。推論時に使用するパラメータを25億に絞ることで、既存の同規模モデル比で2倍以上の高速化を実現しており、AI開発の現場における実用的な選択肢として注目される。

なぜ「アクティブ2.5B」という設計が開発現場のゲームチェンジャーになるのか？

JetBrainsの技術発表によれば、2026年6月1日にオープンソース化されたMellum2は、総パラメータ数120億（12B）のMoEモデルでありながら、推論時にはわずか25億（2.5B）のアクティブパラメータのみを使用する設計を採用している。この「割り切り」により、モデルの精度を維持しつつ、推論速度を既存の同規模モデルの2倍以上に高めることに成功した。これは、巨大モデルが抱える推論コストとレイテンシの課題に対し、実用的な解決策を提示するものであり、開発現場におけるAI利用のハードルを大きく下げる可能性を秘めている。

汎用モデルの肥大化に抗う「特化型」戦略の勝算とは？

昨今のAI開発は、巨大な単一モデルに依存する「モノリシック」な手法から、用途ごとに最適なモデルを組み合わせる「モジュール型」へとシフトしている。JetBrainsの公式ブログでは、Mellum2においてマルチモーダル対応を排し、テキストとコードに特化させることでモデルの肥大化を防いだと説明されている。これにより、リアルタイム性が求められる開発現場でのレスポンスを最大化し、開発者のワークフローに最適化した軽量モデルの需要に応える戦略をとっている。

Apache 2.0ライセンスで提供されるMellum2の技術仕様と活用領域

Mellum2はApache 2.0ライセンスで提供され、企業によるオンプレミス環境やプライベートクラウドでのデプロイを強く意識した設計となっている。主な用途として、コード補完やリファクタリングといったソフトウェアエンジニアリングタスクに加え、RAG（検索拡張生成）のパイプラインにおけるコンテキスト圧縮、複雑なAIエージェントの制御フローにおけるルーターとしての役割が想定されている。Techzineの報道によれば、ローカル環境での実行を前提とした軽量性が、開発者の生産性向上に寄与すると期待されている。

AIシステム全体の運用コストをどう最適化できるのか？

この軽量かつ高速なMellum2の登場は、AIシステムを運用する企業にとって、コストとパフォーマンスのバランスを再考させる契機となる。特に、推論コストが高い大規模言語モデル（LLM）を多用するシステムにおいて、Mellum2を中間処理やルーティングに活用することで、高価な上位モデルの呼び出し回数を削減できる。これにより、システム全体の運用コストを劇的に抑制しつつ、レイテンシの改善も期待できる。オンプレミス環境でのデプロイが容易な点は、セキュリティやデータレジデンシーを重視する企業にとって大きなメリットである。

複雑なコードベースで汎用モデルをどこまで代替できるのか？

Mellum2の真価は、単体での性能よりもAIシステム全体のコスト・パフォーマンスにあるが、今後の焦点は、この軽量モデルが実際の開発現場でどれほどの精度を維持できるかである。特に、複雑なコードベースにおける推論能力が、既存の汎用モデルをどこまで代替できるのかが注目される。JetBrainsが提供するIDEとの統合が進めば、開発者のワークフローに不可欠なインフラとして定着する可能性を秘めている。こうした「適材適所」のモデル戦略は、今後のAIシステム設計における一つの指針となるだろう。

JetBrainsが12BのMoEモデル「Mellum2」を公開、推論速度を2倍に高め開発現場の効率化を狙う

参照ソース

関連記事