はじめにVision&Languageモデル(VLM)を使って写真の説明をしてもらいます。今回は軽量モデルの「moondream2」を使ってみました。 huggingface.co その他のVision&Languageモデル(VLM)touch-sp.hatenablog.com touch-sp.hatenablog.com touch-sp.hatenablog.com 画像と結果写真① 実行 python image2text.py -I image1.jpg -P "describe this image"結果 In the image, two children are sitti…