ITBench-AAは、サイト信頼性エンジニアリング(SRE)の現場で発生するKubernetesの障害対応タスクを評価対象とする。ログ解析や依存関係の特定といった複雑なインフラ運用を模したこのベンチマークで、最先端AIモデルの性能は軒並み50%未満という厳しい結果となった[huggingface.co]。最も高いスコアを記録したAnthropicの「Claude Opus 4.7」でも47%に留まり、AIが自律的にITインフラを管理・復旧させるには、依然として高い壁が存在すると見られる[huggingface.co][finout.io]。
特筆すべきは、モデルの試行回数と精度の相関性である。今回の調査では、試行回数が多いモデルほど精度が向上するわけではないことが判明した。例えば、Googleの「Gemini 3.1 Pro Preview」は1タスクあたり平均83回ものターンを要しながらも正答率は30%に低迷している[huggingface.co]。対照的に、より少ないターン数で結論を導くモデルの方が高い精度を示す傾向があり、AIが「過剰な調査」によってノイズを拾い、誤った原因特定(偽陽性)を招いている実態が浮き彫りとなった[huggingface.co]。これは、現在のAIが文脈を深く理解して推論する能力よりも、膨大な情報から適切な情報を取捨選択する「判断力」において課題を抱えていることを示唆している。
コストパフォーマンスの観点からも興味深いデータが示された。Googleが2026年4月2日にリリースしたオープンウェイトモデル「Gemma 4 31B」は、1タスクあたり0.14ドルという低コストで37%のスコアを達成し、一部の高額なプロプライエタリモデルを凌駕する効率性を見せている[openrouter.ai][huggingface.co]。これは、企業がAIエージェントを導入する際、必ずしも最大規模のモデルや高価な商用モデルが最適解ではない可能性を示唆しており、費用対効果を考慮した選択が重要になると見られる。
ITBench-AAの結果は、AIエージェントが「補助ツール」から「自律的な運用担当者」へと進化するために、単なる推論能力の向上だけでなく、インフラ特有の複雑な因果関係を正確に把握するアーキテクチャの刷新が必要であることを強く示唆している[huggingface.co]。IBM Researchは、ITBenchを企業IT自動化におけるAI評価の業界標準として確立することを目指しており、今後FinOpsやセキュリティ運用といった領域への拡大も予定されている[huggingface.co][finout.io]。