OpenAIは、最新モデル「GPT-5.5 Instant」において医療分野での回答精度を大幅に引き上げたと発表した。医師による評価体制を構築し、緊急時の判断や不確実性の説明能力を強化することで、AIによる健康相談の信頼性向上を目指す。

なぜ「医師の評価」が医療AIの精度を飛躍させたのか?

OpenAIの技術文書によれば、GPT-5.5 Instantの開発サイクルには世界中の医師ネットワークによる評価プロセスが組み込まれた。医師がモデルの回答例をレビューし、理想的な挙動や失敗パターンを定義することで、AIの判断基準を人間が監督する体制を整えたのである。この取り組みにより、医療関連の回答における事実誤認の可能性が過去2カ月で71%減少したと報告されている。

HealthBenchで証明された「GPT-5.5 Instant」の医療判断能力

GPT-5.5 Instantは、専門的な評価指標「HealthBench Professional」において、従来のGPT-5.3 Instantから大幅な性能向上を達成した。OpenAIの発表によれば、医師が作成した回答と比較するブラインドテストでは、AIの回答が「より適切である」と評価される場面が増加している。特に、緊急性の高い症状の認識や、追加の文脈をユーザーに求める対話能力において、人間以上の精度を示すケースも確認された。

週2億人が利用する健康相談の現場で今何が起きているのか?

ChatGPTは毎週2億3,000万人以上が健康やウェルネスに関する相談に利用しており、日常的な健康相談のプラットフォームとして定着している。このような状況を踏まえ、OpenAIは医療知能の強化を最優先事項に掲げている。AIによる誤回答のリスクを低減し、より信頼性の高い情報提供を実現することが、同社の喫緊の課題である。

患者にとって「AIによる健康相談」の信頼性はどこまで高まるのか?

GPT-5.5 Instantの導入により、AIがより適切で文脈を汲み取った助言を提供できるようになることで、患者が専門医を受診する前の情報収集の質が向上すると期待される。これにより、自身の症状や健康に関する疑問をより正確に理解できるようになり、医療アクセスのハードルが下がる可能性がある。AIは医師に代わるものではなく、あくまで「健康に関する情報へのアクセスを支援するツール」としての役割が強調されている。

AIが誤った助言をした際の「責任」は誰が負うのか?

AIの性能向上は著しいものの、医療現場における実運用には未解決の課題が残る。特に、AIが誤った医療助言を行った際の法的・倫理的責任の所在は依然として不明確である。米国医師会(AMA)の報告では、AIの臨床現場への統合は複雑な法的責任をもたらすと指摘されており、人間の監督が最重要であると強調されている。地域ごとの医療事情や多言語環境への適応も、今後の焦点となるだろう。