LLMがシンプルなチャットボットを超え、「ツールを使い、自律的に思考する」エージェントへと進化する中で、避けて通れないのが「評価(Evaluation)」のプロセスと考えています。どのエージェントが、どのようなサイエンス業務で真に役立つのか、それを客観的に測る物差しが必要です。 現在、私は科学系AIエージェント(BiomniやOriGeneなど)の評価研究を進めていますが、その基盤として英国政府発のOSS「Inspect AI (https://inspect.aisi.org.uk/)」を暫定的に採用することに決めました。数日間の簡易的な試行錯誤を通じて見えてきた、Inspect AI選定の…