こんにちは、にょろりんこの備忘録的技術ブログです。 今回は、自作クローラシリーズの中核ともいえる「URL収集ロジック」について紹介してみようと思います。 静的なHTMLページはもちろん、JavaScriptでリンクが後から描画される動的ページ(SPAなど)にも対応できるように設計しています。 具体的には、Puppeteer と Node.js を使って、指定したページを開いて自動でスクロールし、`<a>` タグをすべて抽出する処理です。 補足:SPAとはなにか? SPA(Single Page Application)とは、「ページ遷移が発生しない」タイプのWebアプリケーションのことです。普…