AI100の疑問。No.001。Transformerでcifar10が上手く学習できない理由 疑問のステータス 未解決。 疑問の内容 Attention is all you needで有名なTransformerの画像への展開としてViT等があるが、これを画像のデータセットcifar10に適用した場合、たぶん、90%の正解が出せていないと思う。このデータセットは、CNN系のネットワークでは簡単に95%とか、もっと、98%とか出せる(当然、augmentationとかは使う)。 さて、これは何が原因か。 原因として考えられる方向性は2つ。 そもそもデータセットが不適切。CNN系のネットワーク…