Googleは最新モデル「Gemini Omni」と「Gemini 3.5 Flash」を発表し、マルチモーダル生成とエージェント機能の融合を加速させている。これは、単なるコンテンツ生成を超え、ユーザーの日常業務を代行する「自律型AI」の社会実装が本格化する転換点となる。
Googleの公式発表によれば、Gemini 3.5ファミリーは、AIの役割を単発の質問応答から、複雑なタスクを自律的に完遂するエージェントへと進化させている。この進化の核心は、新フレームワーク「Antigravity」の導入にある。Antigravityは、AIが複数のステップを要するワークフローを計画・実行し、必要に応じてサブエージェントを制御する基盤を提供する。これにより、AIは従来の「道具」としての役割を超え、ユーザーの意図を汲み取り、能動的に課題解決に取り組むパートナーへと変貌を遂げると考えられる。
Gemini Omniは、画像、音声、動画、テキストを統合的に処理するマルチモーダル能力により、自然言語による高度な動画編集を可能にする。Googleのデモンストレーションでは、映像内の物理法則やキャラクターの整合性を維持したまま編集を行う様子が示された。一方、Gemini 3.5 Flashは、従来のFlashシリーズの高速性を維持しつつ、エージェントとしての実用性を大幅に強化している。Antigravityフレームワークとの連携により、高速かつ複雑なマルチステップのワークフロー実行能力を実現し、より高度な推論と実行が可能となった。
Gemini 3.5 Flashは、Google検索の「AI Mode」や個人用エージェント「Gemini Spark」の基盤モデルとして採用される。これにより、ビジネス現場のワークフローは大きく変化する。例えば、Workspace環境において、Gemini Sparkはユーザーの代わりに情報を収集し、ダッシュボードを自動作成するだけでなく、外部サービスと連携してタスクを完了させるなど、既存の業務プロセスを根本から書き換えることが期待される。これは、インフラ運用担当者にとって、AIが自律的に操作する範囲の管理という新たなガバナンス課題をもたらすことになる。
自律型AIの進化は、セキュリティやプライバシー、そしてAIの判断に対する責任の所在といった論点を浮上させる。AIがユーザーの意図を汲み取り、自律的に外部ツールを操作する範囲が広がるほど、誤操作や予期せぬデータ変更のリスクが高まる。Googleは「監督下での実行」を強調するが、自動化の恩恵と引き換えに、ユーザーはAIの挙動をどこまで制御し、理解し続けられるのかが焦点となる。AIを使いこなすスキルだけでなく、AIの判断を評価し、その行動を適切に監督するためのリテラシー向上が、今後の社会において極めて重要である。