米グーグルは、高速かつ低コストな画像生成モデル「Nano Banana 2 Lite」と、動画生成・編集が可能な「Gemini Omni Flash」を開発者向けに公開した。Googleの公式発表によれば、これら二つのモデルを連携させることで、静止画から動画生成までをシームレスに繋ぐエンドツーエンドのマルチメディア制作ワークフローの構築が加速すると見られる。
今回の発表の核心は、単体モデルの性能向上に留まらない。Google AI StudioやGemini APIを通じて提供されるこの連携は、開発者が複雑なパイプラインを構築することなく、高度なマルチメディア体験を短期間で実装できる環境を提供する点で最大の革新である。SiliconAngleの報道でも、この統合環境がメディア制作の効率を劇的に高める可能性が指摘されている。
「Nano Banana 2 Lite」は、同社の画像生成モデルの中で最も高速かつ低コストな位置付けである。Googleの技術文書によると、1,000枚あたりの生成コストは0.034ドルに抑えられ、生成時間は約4秒と、リアルタイム性が求められるアプリケーション開発に適した設計となっている。一方、「Gemini Omni Flash」は、テキストや画像、既存の動画入力を組み合わせ、自然言語による指示で動画の生成や編集を行う。動画出力1秒あたり0.10ドルという価格設定で、動画制作の民主化を推し進める姿勢が鮮明である。
Gemini Omni Flashは現時点で動画生成時間が10秒に制限されており、長尺コンテンツを扱うシステムでは、複数のクリップを生成し結合する複雑なオーケストレーションが必要となる。また、モデルカードの仕様によれば、キャラクターの一貫性やシーン遷移時の挙動には依然として改善の余地があり、実務導入においては、生成後の品質チェックや手動での修正プロセスを運用フローに組み込む必要があるだろう。これは、AI生成コンテンツを既存のシステムに統合する際の運用負荷や、ユーザー体験の一貫性を担保するための設計上の課題となる。
Googleは「SynthID」による電子透かしの導入など、安全性と透明性の確保を強調している。しかし、AI生成コンテンツ特有の著作権や倫理的な懸念に対する実効性のある対策が、今後どこまでスケールするかが問われるだろう。また、Omni Flashにおける音声参照やシーン拡張のサポートは未実装であり、長尺動画生成へのロードマップも不明瞭である。高速化と低コスト化という「量」の追求が、AIによる創作の質をどこまで押し上げ、同時に「インターネット上の真実の終焉」といった懸念を払拭できるかが今後の焦点となる。