世界最難と謳われるこの新しいAI試験に合格することは、AGIの最初の兆候を示す可能性がある

Live Science
研究者たちは、AIモデルが人間の知識レベルにどれだけ近づいているかを測る、2500問からなる困難な「人類最後の試験」を作成しました。

概要

AI安全・スケールAIセンターの研究者たちは、「人類最後の試験」(HLE)という、現在の最先端AIモデルが100以上の分野で人間の知識レベルに到達または超えているかを測定するために設計された厳格なテストを発表しました。この試験は、2,500の質問で構成されており、50カ国の500機関から集められた1,000人以上の専門家が検証しました。質問は、モデルが単純なウェブ検索や既知の訓練データで回答できないように、正確、明確、かつ非検索可能という厳しい基準が設けられています。初期テストではOpenAIのo1が8.3%と低調でしたが、研究者たちは2025年末までに50%の正答率に達する可能性があると予測しました。2026年2月12日現在、GoogleのGemini 3 Deep Thinkが48.4%で最高スコアを記録しており、人間の専門家の約90%には及んでいません。作成者は、HLEで高い精度を達成することは、検証可能な質問に対する専門家レベルのパフォーマンスを示すものの、それだけでは汎用人工知能(AGI)の到来を示唆するものではないと強調しています。

(出典:Live Science)