初めに 開発環境 詳細 初めに 開発環境 Ubuntu 22.02 詳細 以下で 並列でデータセットをtext化していきます。 CPUは最大限 並列化しています from datasets import load_dataset import os from tqdm import tqdm from joblib import Parallel, delayed # ja(日本語)のデータセットをダウンロード dataset = load_dataset("oscar-corpus/OSCAR-2301", "ja", split="train") # データセットをdictに変換(並列処理…