概要 所感 arxiv.org ざっと目を通したので概要と所感を記す. 概要 Googleが出したマルチモーダルモデルの「Gemini」に関する論文 マルチモーダルモデル,というのはテキスト,画像,音声,動画というように異なる形式データを同時に扱って出力するモデル. 出力例として,物理の問題を小学生が回答した内容が載っている画像と,それに関する質問をテキストで入力 (例:この回答あってる?間違っている?間違っているならどこが間違っていて,正しい回答をくれ).出力では,画像の中身を認識し,テキストに従い,理由+正しい回答付きで間違っている点をテキストで出力している. モデルサイズは大きいものから…