Hatena::ブログ(Diary)

Curlとは? このページをアンテナに追加 RSSフィード

Curl公式HP   Curl実行環境   Curlアプリデモ   Curl統合開発環境

2006-04-26 スクリーンスクレイピング@梅村

[] スクリーンスクレイピング 15:54  スクリーンスクレイピング - Curlとは? を含むブックマーク  スクリーンスクレイピング - Curlとは? のブックマークコメント

某リッチクライアント技術の説明会に参加してきたのですが、

そこで、ちょうど今私の困っている「HTML情報の抽出」がすでに行われていて、驚きました。

ただの勉強不足かもしれませんが、HTML情報を解析し、必要な情報だけを抽出することを

「スクリーンスクレイピング」と呼ぶらしく、おもにアグリゲーションシステムなどで

利用されることが多いみたい。

考えていたのはまさにコレです。


スクレイピングのもととなるパターンの作成方法など考えることはまだありますが、

非常に助かりました。

Javaなどではモジュールとして提供されているものもあるらしいので、

早速勉強してみます。

2006-04-20 HTMLのパターンマッチ

[]HTMLのパターンマッチ 15:21 HTMLのパターンマッチ - Curlとは? を含むブックマーク HTMLのパターンマッチ - Curlとは? のブックマークコメント

任意のページからRSSタグなどの固定情報や、商品情報などある意味のかたまりを

パーシングして取得するサンプルを作っている。

ブログなどのXHTMLのページはパーシングがしやすいが、

YahooやらAmazonやら、重要な情報が埋まっているページの多くがHTMLで、頭を悩ましてます。


『HTMLのWebページの時代はもう終わっている。ような気がする。ただ生かされているだけ。

ブログの機能を組み込んだXHTMLでWebデザインを考える時だ。』

 −bitbizdesign.com


生かされているだけのHTMLを有効活用するには、どうすればいいだろうか。


HTMLをXHTMLに変換してみたが、正しく変換されない。

文字列として扱って、正規表現で切り取るしかないのかなぁ・・・。

どういう条件にすればいいんだろう。

こでんこでん 2006/04/21 11:30 俺もマジなやんでる…
できるのかな〜?