画像では思考過程(Reasoning)が閉じられていますが中を見ることが可能です。はじめに話題のQwQ-32BをAutoAWQで量子化してChatUIから使いました。使用したPC プロセッサ Intel(R) Core(TM) i7-14700K 実装 RAM 96.0 GB GPU RTX 4090 (VRAM 24GB) 方法vLLM側の操作WSL2を使っています。量子化はv0.7.0環境を使いました。こちらを参照して下さい。 python run_awq.py -M Qwen/QwQ-32Bその後の実行ですが公式ページのこちらにはこのようにしろと書かれています。 vllm serve m…