本記事は CADDi Tech/Product Advent Calendar 2025 22日目の記事です。 こんにちは、Data & Analysis部で機械学習エンジニアをしている由川です。 私は、製造業特化LLMを開発するための評価ベンチマークづくりに取り組んでいます。本記事では、この取り組みにおいて得られた知見や苦労していることを紹介したいと思います。 ドメイン特化LLMに関する評価ベンチマークを作ろうとしている方の参考になれば幸いです。 なぜ製造業特化の評価ベンチマークを作るのか ベンチマークタスクの定義 ベンチマークタスクのデータセット作成 評価対象となる図面の選定 評価対象の図…