AIの性能を定量化する評価試験のうち「これまでで最も難しい」とされる「人類最後の試験(Humanity's Last Exam)」について、OpenAIのAIエージェント「Deep research」が早くも26.6%という高いスコアを記録したことがわかりました。試験の公開から10日もたたずに最高スコアが183%増加したことになります。 OpenAI's Deep Research smashes records for the world's hardest AI exam, with ChatGPT o3-mini and DeepSeek left in its wake | TechRadar https://www.techradar.com/computing/artificial-intelligence/openais-deep-research-smashes-recor