セッションの要約 本セッションは、UCバークレーのZhuohanとAnyscaleのCadeが主催し、両者はvLLMの開発において中心的な役割を担っています。vLLMは、Variable Large Language Modelの略で、UCバークレーが作成したオープンソースエンジンで、大規模言語モデルの推論と提供速度を向上させることを目的としています。GitHubで12,000以上のスターを獲得し、150人以上の個人が貢献しています。コミュニティからのフィードバックで進化し、企業や学術研究者にとって重要なツールです。vLLMのKVキャッシュはLLMサービングに画期的な変化をもたらし、ページアテ…