目次 目次 本業 副業① 副業② ピアノ 猫 本業 引き続き検索のためのクローラー・Webデータからの情報抽出をメインでやる部署で働いている。 データ周りの技術スタックとしてはApache HBase, Apache Sparkあたりを利用したクローラーや情報抽出システム開発をやりつつ、更新可能なテーブルフォーマットとしてのApache Icebergの検証・導入を新規に行っていた。 (Storage-Partitioned Joinという機能を活用したので、その記事をあとで書くかも) 来年は論文を読んでて興味を持ったMarkupLM/SimpDOMのようなHTMLを扱える情報抽出モデルを日本…