最近、大規模言語モデル(LLM)の学習することが多いので、大規模なモデルの学習方法について記載します。 並列学習について Data parallelism (DP) ZeRO 概要 CPUオフロードについて Case1: オフロード無し Case2: OptimizerとParamをオフロードする Case3: Optimizerのみオフロードする Estimate Pinned Memory 実装例 Pipeline parallelism (PP) 並列学習について 巨大なパラメータをもつモデルの学習は非常に時間がかかってしまいます。そのため、計算時に並列を行っていく必要があります。大きく…