Hatena::ブログ(Diary)

旧toyoshiの日記 Twitter

2010-11-09

Nokogiriの覚書

使い方をいつも忘れるのでメモ

詳しい使い方は以下のURLが素晴らしい

基本

Nokogiriのノードオブジェクトを得る

require 'rubygems'
require 'nokogiri'
require 'open-uri'
doc = Nokogiri::HTML(open("http://www.google.com"))

検索

doc.Xpath('//html/body/center/div/div') # Xpathで上から順に探す
doc.Xpath('//*[@id="fll"]') # Xpathでid=fllのものを全タグから探す
doc.css('div.hello a') #CSSで探す

doc.css('div.hello').inner_html #要素の中身のHTMLを取得
doc.css('div.hello').inner_text #要素の中身のテキストだけを取得

#imgタグからsrc属性の値を取り出す
doc.css('img').each do |image|
  image.attribute("src").value
end

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証

トラックバック - http://d.hatena.ne.jp/toyoshi/20101109/1289294545
Connection: close