はじめに 環境 開発環境構築 LLMをGGUFに変換 llama.cppの準備 モデルのダウンロード GGUFに変換 GGUFを量子化 GGUF化したモデルを動かす llama.cppをGPUで動かす環境を構築 cmakeをインストール CUDA Toolkitをインストール cuBLASを使えるようにする cuBLASを使ってGPU推論 最後に はじめに こちらは LLMアドベントカレンダー 23日目です。 ここ半年ほど新しく出てきたLLMを動かしたり、他の方が変換されたそのGGUFやAWQを動かしたりして遊んでいました。 しかし、自分でも変換くらいできるようになってデプロイまで使用してみよ…