これはOpenAIの「o1モデル」の計画能力を評価した研究です。特に、モデルの計画能力について「実行可能性」、「最適性」、「一般化」の三つの観点から評価しています。 www.arxiv.org 1. 実行可能性(Feasibility) 実行可能性は、モデルが目的を達成するための実行可能な計画を生成できるかどうかを評価するものです。この評価では、o1-previewモデルはGPT-4を上回る性能を発揮しましたが、特に複雑な空間的課題では依然として制約を無視した計画を立ててしまうことが課題として指摘されています。 具体的な問題:計画の中で必要な手順を省略したり、ルールを誤解してしまうケースが頻繁…