Doclingは各種ドキュメントからの生成AI向け情報抽出が可能です。IBMのチームが開発しています。現在も開発は活発です。PDF, DOCX, PPTX, XLSXなど多様なフォーマットに対応している優れものです。このDoclingでお好みのMarkdownの形式にできるようにしてみました。 github.com 数表ならいざ知らず、表組してある日本語文書では複雑な構造となっているケースが多い。縦横にセル結合してあるような奴です。それをMarkdownに変換しようとすると、GitHubのMarkdown表形式では表現力が不足します。それを補うためHTML形式で出力するように固定にします。図も…