TensorRT-LLMとは TensorRTをLLM用に多数の推論高速化技術を入れたNvidiaのオープンソースフレームワーク。 GPUメモリ使用率を半分に低減し、速度も1.5-2倍程度改善してくれる強力なフレームワーク。 www.alibabacloud.com TensorRT-LLMについてはこちらのAlibaba解説がわかりやすい。 特徴 量子化による省GPUメモリ 重み、Activation量子化を積極的に入れ込み、GPUメモリ使用量を半分以下に削減。 W8A8 SQ uses the SmoothQuant technique[2], which reduces the mode…