こんにちは、CCCMKホールディングス TECH LABの三浦です。 先日チームのメンバーに教えてもらい、試してみたいな・・・と思っていたライブラリを今回試すことが出来ました。"Docling"というライブラリで、PDFなどのファイルから、内容をマークダウンかjsonのテキストデータで抽出することが出来るライブラリです。RAGでの活用が期待できます。 試しに使ってみたところ、日本語のファイルでもかなり良い感じにテキストデータが取得出来ており、すごいなぁとビックリしました。 DoclingはarXivにテクニカルレポートがあり、そちらを読むことでどういったパイプラインで処理を行っているのかを理解…