日本語に特化したオープンなVision&Languageモデル(VLM)である、Asagiでスーパーマリオの画面が解釈できるのか試してみました。2B,8Bを試してみましたが、位置関係はかなり怪しい結果でした。残念。日本語のモデルは今後どんどん必要になるので、効率の良い学習方法含めて開発・研究が進みますよう。 今回利用した画像。 以下、2Bでの結果を示します。 プロンプト1 prompt = ("""以下は、タスクを説明する指示です。要求を適切に満たす応答を書きなさい。 ### 指示:<image>このゲームの画像を解析してください。状況を詳しく解析して詳細に回答します。マリオと敵キャラクターの…