評価結果の概要 MLE-Benchは、AIエージェントの機械学習エンジニアリング能力を評価するために設計されたベンチマークです。評価には、Kaggleの75のコンペティションを使用し、現実のMLエンジニアリングスキルの幅広い評価を目指しています。 本評価では、AIエージェントの性能を様々な指標で分析し、最も有望なモデルは「o1-preview」であると特定されました。以下に、詳細な結果を表形式でまとめます。 評価項目 詳細 使用したタスク数 Kaggleの75のコンペティションから選定し、幅広い分野をカバー メダル獲得率 「o1-preview」モデルは、16.9%のコンペティションでブロンズ…