フラクタル性

このタグの解説について

この解説文は、すでに終了したサービス「はてなキーワード」内で有志のユーザーが作成・編集した内容に基づいています。その正確性や網羅性をはてなが保証するものではありません。問題のある記述を発見した場合には、お問い合わせフォームよりご連絡ください。

サイエンスとサピエンス•10ヶ月前

Transformerの示すスケーリング則とフラクタル性

大規模言語モデルは文字通り深層学習のDeeperで規模が破格なモデルです。 GPTの系列を見てもその内部パラメータや訓練データの数値の大きさは圧倒的です。しかも、年々増加しているわけですね。 LLM製品公開年訓練データ量パラメータ数 GPT-1 2018 約30億トークン１２０,０００,０００ GPT-2 2019 約２８０億トークン１,５００,０００,０００ GPT-3 2020 約４０００億トークン１７,５０００,０００,０００ PaLM 2022 約７８００億トークン５４,００００,０００,０００ GPT-4 2023 （非公開；約１兆トークン）（非公開：数千億～数兆） …

#大規模言語モデル#フラクタル性#言語#ジップの法則#べき乗の法則

関連ブログ

Transformerの示すスケーリング則とフラクタル性

関連ブログ