本日読了。 Vision Transformer入門 Computer Vision Library 作者:山本 晋太郎,徳永 匡臣,箕浦 大晃,邱玥(QIU YUE),品川 政太朗 技術評論社 Amazon 良書。Transformerの画像への応用(ViT)について、最先端がわかる。 ViTおよびその応用は、画像系タスク全般で好成績を獲得している。しかしながら、ViT最強ではなく、旧来のCNNも、ViTアンチテーゼとしてのMLP(Attention不要論)も、それぞれ一長一短であり、三国時代であると述べる。 ViTは、CNNとの比較において、事前学習データ量を増やすことで精度が向上し、物体…