まえがき ROCmを試すためにRadeon Instinct MI50を買ってみて、PyTorchで使えるようにセットアップをしたのが前回。 hashicco.hatenablog.com 今回は取ったベンチマークの結果をご紹介! まとめ ROCmは本当にほぼコード変更無しでCUDA用のTensorFlow、PyTorch、Transformerのコードが動く。素晴らしい。 1GPUであればMI50のほうがP40よりも速い。特にFP16を利用する場合は4割くらい早く、結構実用的。 2GPUだとあまりまともな速度が出ない。処理速度に波があるような挙動を示すため、Gradientの集約に時間がかか…