Googleは、GeminiモデルとAIエージェントを統合的に扱う「Interactions API」を正式リリースした。従来のAPIから構造を抜本的に見直した本インターフェースは、開発者がAIエージェントを構築する際の新たな標準となる見通しである。
Googleが正式公開した「Interactions API」は、従来の「generateContent」が提供していた単発の推論型インターフェースとは一線を画す。Googleの技術文書によれば、本APIはステートフルな設計を採用し、一連の動作を「ステップ」として定義する新しいスキーマに基づいている。これにより、バックグラウンド処理やツール連携、セッション管理といった複雑なエージェントの挙動をAPI側で一元的に制御可能となり、開発者は複雑なAIエージェントの開発を大幅に簡素化できる。
Interactions APIの主要機能である「Managed Agents」は、API経由でリモートのLinuxサンドボックスを即座に構築できる環境を提供する。このサンドボックス内で、AIエージェントは自律的にコード実行やWeb検索、ファイル操作といったタスクをこなすことが可能だ。Googleの発表によれば、開発者はインフラの複雑さを意識することなく高度な自律型アプリケーションを迅速に構築できる。また、エージェントが最新のAPIパターンを学習する「gemini-interactions-api Skill」も提供され、開発支援が強化されている。
AI開発のトレンドは、単発の質問応答から、長時間のタスクを自律的に処理するエージェント構築へとシフトしている。Googleの報告では、2024年第1四半期にGemini APIのトークン処理量が1分あたり160億トークンに達しており、利用は拡大の一途を辿っている。この背景には、より複雑で実用的なユースケースに対応するため、AIが状態を保持し、複数のステップを経て目標を達成する能力が求められているという市場の要請がある。
Interactions APIの導入は、開発者に新たなスキルセットを求める。これまでのモデル呼び出し中心のアプローチから、エージェントのライフサイクル管理やステップ定義、状態管理といった広範な設計能力が重要となる。Googleは従来のAPIも当面はサポートする方針だが、今後投入される最先端のモデル機能はInteractions APIに優先的に実装されると明言しており、既存の開発者には事実上の移行が強く促されている。
Interactions APIの普及において、LiteLLMやAgnoといったサードパーティ製ライブラリの対応状況が鍵を握る。これらのライブラリが新APIパターンに迅速に対応し、移行コストを低減できれば普及は加速するだろう。またGoogleは、APIキーのセキュリティ強化のため、標準キーからGoogle Cloudサービスアカウントに紐付けられた認証キーへの移行も進めている。今後の普及スピードが、本APIがAIエージェント開発の真の標準となるかを決定づける。