OpenAIの最新モデル「o3」がARC-AGIベンチマークで高スコア(87.5%)を記録したことを受け、「この成果は汎用人工知能(AGI)の実現に近づいた証拠なのか」という問いが活発に議論されています。 OpenAI o3 Breakthrough High Score on ARC-AGI-Pub しかし、ARC-AGI(Abstraction and Reasoning Corpus)は、未知のタスクに対する一般化能力を評価する目的で設計されたベンチマークですが、その妥当性や限界があると考えられます。 arxiv.org ARC-AGIの問題構造と課題 この論文で言及されている通り、AR…