はじめに フウカチャン😭1 nikkieです。 trlというライブラリを使ったLLMのファインチューンのチュートリアルに過去に取り組みました。 その中で、自然言語のドキュメントではどうも細かい点が明確に分かりづらく、実装を見るのが手っ取り早そうと感じ始めました。 そこで今回は、データセットのテキストがどのようにトークンID列に変換されるか(=エンコーディングされるか)に絞って見ていきます。 目次 はじめに 目次 Gemmaのファインチューン SFTTrainerはどんなtokenizerを持つのか? SFTTrainerはどんなdata collatorを持つのか? SFTTrainerが持つ…