こんにちは、にょろりんこの備忘録的技術ブログです。 今日は、クローリングやリンク収集処理の地味だけど超重要なパーツ、「URLの正規化」についてのお話です。 私が運用しているURLスクレイピング系のURL収集スクリプトでは、同じページを重複して処理しないために「URLの見た目」を正規化しています。たとえば、以下のようなケースです。 https://example.com/page/ と https://example.com/page → 同一 https://example.com/page#section1 と https://example.com/page → 同一 DB容量をちゃんと節…