TL;DR Document Intelligenceを使ってPDFをテキストと画像に分離した。 テキストと画像を別々のデータとして扱わず、画像のリンクをテキストに組み込んでPDFの文脈を維持するようにした。 テキストと画像を用いた簡単なRAGを作成した。 自己紹介 NTTドコモ データプラットフォーム部(以下DP部)藤平です。 NTTドコモでは様々なサービスで機械学習やLLMを取り入れることでサービス価値の向上を目指しています。 データプラットフォーム部(以下DP部)ではこうした技術の適用を含め、全社におけるデータ活用をミッションとしています。 今回執筆いただいた協働者の鶴薗さんとは、DP部…