紹介する論文 Rajasekaran, S., Ghobadi, M., Kumar, G., & Akella, A. (2022, November). Congestion control in machine learning clusters. In Proceedings of the 21st ACM Workshop on Hot Topics in Networks (pp. 235-242). まとめ モチベーション 先行研究では単一ジョブの分散戦略やGPU間通信の効率化が行われてきた。 実際の計算環境では複数のMLジョブが同一ネットワークで実行されるため、このときの輻輳制…