zako-lab929.hatenablog.com 前回、 BLIP-2 で Image Captioning (自動キャプショニング) を試してみました。 本日は、 Visual Question Answering (VQA) を試してみようと思います。