Kaggel

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

fenfenkunの日記•2年前

MLE-Bench: AIエージェントの評価結果詳細

評価結果の概要 MLE-Benchは、AIエージェントの機械学習エンジニアリング能力を評価するために設計されたベンチマークです。評価には、Kaggleの75のコンペティションを使用し、現実のMLエンジニアリングスキルの幅広い評価を目指しています。本評価では、AIエージェントの性能を様々な指標で分析し、最も有望なモデルは「o1-preview」であると特定されました。以下に、詳細な結果を表形式でまとめます。評価項目詳細使用したタスク数 Kaggleの75のコンペティションから選定し、幅広い分野をカバーメダル獲得率「o1-preview」モデルは、16.9%のコンペティションでブロンズ…

#LLM#Kaggel#AI#データ分析

関連ブログ

MLE-Bench: AIエージェントの評価結果詳細

関連ブログ