ChatGPTのような生成AIは、大規模言語モデルと呼ばれる仕組みが用いられている。このため、言葉でのやり取りには非常に強く、人間との会話もスムーズだ。しかし、画像解析や動画生成などにも利用されている。これはなぜだろう?とChatGPTに質問したところ、とても面白いことがわかったので、そのやりとりをご紹介したい。長いので3回に分けます(赤文字が私です)。 いま話題の生成AIは、大規模言語モデルというものが使われているよね?でもマルチモーダルで、画像や映像も扱える。言語を利用したAIがマルチメディアをどうして扱えるの? いい質問です。実は「言語モデルなのに画像や映像まで扱えるってどういうこと?」…