OpenAIが挑む「科学的思考」の壁、新評価指標LifeSciBenchが突きつけるAIの限界

OpenAIは2026年6月17日、創薬や臨床試験といった複雑な科学研究分野におけるAIの推論能力を評価する新ベンチマーク「LifeSciBench」を公開した。OpenAIの発表によれば、これは単なる知識の検索に留まらず、不確実な条件下での多段階的な意思決定能力を測定し、AIの科学的信頼性を測る新たな基準となる。

なぜ従来のベンチマークでは科学的推論を測れないのか？

従来のAI評価指標は、多くの場合、事実の想起や単純な予測問題に焦点を当てており、現実の科学研究現場で求められる複雑な意思決定プロセスを十分に捉えきれていなかった。LifeSciBenchは、このギャップを埋めることを目的としている。本ベンチマークは、単に正解を導き出すだけでなく、実験の限界や生物学的なニュアンスを考慮した論理的なプロセスを、1万9020項目に及ぶ詳細なルーブリックで厳格に採点する。これにより、AIが不確実な条件下で多段階的な推論を行い、科学的妥当性のある判断を下せるかを評価することが可能となる。

博士号保持者173人が設計した「750の難問」とは何か？

LifeSciBenchは、バイオテクノロジーおよび製薬研究の博士号を持つ173人の専門家とOpenAIが共同で開発した。このベンチマークは、7つの生物学的研究ワークフローにわたる750の専門家が作成したタスクで構成されている。さらに、1,062個の図表やPDFなどのアーティファクトを統合して評価に用いる。例えば、FDAへの承認申請資料に対する批判的検討といったタスクでは、AIには単なるデータ処理だけでなく、規制当局の視点に立ったリスク評価と論理的妥当性が求められる。これらのタスクは、実務レベルの高度な論理的推論能力を測定するよう設計されている。

製薬企業がAI導入を判断する際の「客観的指標」になり得るか？

AI創薬市場は2035年までに439億ドルに達すると予測されており、すでに上位20社の製薬会社の78%が初期段階の創薬にAIを導入している。しかし、AI導入の意思決定においては、その性能を客観的に評価する基準が不足していた。LifeSciBenchは、79%のタスクが複数ステップの推論や意思決定を必要とすることから、AIを単なる回答生成機としてではなく、複雑なワークフローを管理するエージェントとして評価するための具体的な指標を提供すると見られる。これにより、製薬企業や研究機関は、AIモデルを選定する際の客観的な基準を得て、投資対効果を見極める上で重要な判断材料となるだろう。

AIの判断に「科学的責任」を負わせることは可能なのか？

LifeSciBenchは、AIが特定の生物学的ドメインにおいて専門家と同等の推論を行う可能性を示唆している。実際に、OpenAIのライフサイエンス研究向けモデルであるGPT-Rosalindは、LifeSciBenchにおいて他の主要モデルを上回る性能を示したと報告されている。しかし、科学研究の本質である「未知への挑戦」や「不確実性の中での意思決定」において、AIがどこまで責任ある判断を下せるかは依然として不透明である。AIが生成した回答の「責任の所在」をどう定義するかという倫理的・法的な課題は残されたままであり、ベンチマークの結果が実際の創薬開発におけるAI導入の成功率とどの程度相関するのかも今後の焦点となる。

OpenAIが挑む「科学的思考」の壁、新評価指標LifeSciBenchが突きつけるAIの限界

参照ソース

関連記事