2026.04.26 覚書 / 2026.04.26 memo's 自分が参考になったブログの紹介します。 / Here are some blogs that I found helpful. AI github.com AIエージェントの「スキル(Skill)」をテストするためのCLIツール 自然言語タスク+評価ロジック(スクリプト or LLM)でスキルの正しさを検証 複数回実行して成功率(pass rate)を算出 → 回帰テスト的に使える AIスキルはちょっとした変更で壊れるため、「ユニットテスト的評価」が重要という課題を解決 CI/CDに組み込んで、エージェント品質を継続的に担保す…