GPT-2のファインチューニングが簡単にできると聞いたので,試してみる. 1. 実行環境 Google Colab ランタイムにGPU(T4)を使用 2.1 訓練データの収集 まず「検索してはいけない言葉アットウィキ」に登録されている全ての言葉をスクレイピングにより取得した(なお,@wikiの利用規約を読み,スクレイピングが禁止されていないことを確認済である). 以下のプログラムでスクレイピングを行い,<s>危険度1[SEP]言葉</s>\nのような形式ですべての言葉をまとめた. from bs4 import BeautifulSoup import requests, time # wik…