LLMに知識を追加するためのファインチューン手法を調べていたところ、限られたデータセットを量的に拡張する「データ拡張/Data Augmentation」という研究領域があることを知りました。 簡単に見てみると、データ拡張はテキストAIよりも画像AI・音声AIなどの分野で先行して注目されてきたそうです。 例えば「画像データの左右を反転させてデータ数を2倍にする」などStableDiffusionのLoRA学習でお馴染みの方法も、一種のデータ拡張と位置付けられるようです。 今回は言語モデルの学習におけるデータ拡張について知りたかったので、以下のサーベイ論文を斜め読みしてみました。 arxiv.o…