python.distributedは、Point-to-Point通信や集団通信といった分散処理のAPIを提供しています。これにより、細かな処理をカスタマイズすることが可能です。 通信のbackendとしては、pytorch 1.13時点では、MPI、GLOO、NCCLが選択できます。各backendで利用できる通信関数の一覧は公式ドキュメントに記載されています。 この記事では、pytorch.distributedでMPI backendを使用する際のコンパイル手順を説明します。 pipでinstallしたpytorchではMPI backendは使えない build pytorch (1…