wgetコマンドの使い方から始まり、本格的なクローラーの作成方法が学べる良書だと思います。
Rubyについて熟知している必要はありませんが、多少の予備知識は必要な気がします。
少し残念なのは、サンプルコードで動かないものがいくつかありました。
原因は単純なものですが、サンプルコードがちゃんと動作確認されているのか不安になります。
・文字コードがUTR-16になっており、実行時エラーとなる
===============================
$ ruby sbcr1-parse.rb
sbcr1-parse.rb:1: invalid multibyte char (UTF-8)
===============================
・空白文字が入っており、実行時エラーとなる
===============================
$ ruby rss-reader.rb
Amazon.co.jp: Kindleストア > Kindle本 > コンピュータ・ITのベストセラー
rss-reader.rb:11:in `block in <main>': undefined local variable or method ` ' for main:Object (NameError)
===============================
また、サンプルコードを動作させるRubyのバージョン情報が2章に記載されており、分かりづらかったです。
前書きや1章などもっとはじめの方に記載して頂きたいです。
バージョン2.0.0で動作確認されているということですが、最新バージョン2.3.0でも問題なく動きました。
プライム無料体験をお試しいただけます
プライム無料体験で、この注文から無料配送特典をご利用いただけます。
非会員 | プライム会員 | |
---|---|---|
通常配送 | ¥410 - ¥450* | 無料 |
お急ぎ便 | ¥510 - ¥550 | |
お届け日時指定便 | ¥510 - ¥650 |
*Amazon.co.jp発送商品の注文額 ¥2,000以上は非会員も無料
無料体験はいつでもキャンセルできます。30日のプライム無料体験をぜひお試しください。
新品:
¥1,646¥1,646 税込
ポイント: 33pt
(2%)
無料お届け日:
3月21日 木曜日
発送元: Amazon 販売者: ブックスーパー神奈川
新品:
¥1,646¥1,646 税込
ポイント: 33pt
(2%)
無料お届け日:
3月21日 木曜日
発送元: Amazon
販売者: ブックスーパー神奈川
中古品: ¥40
中古品:
¥40

無料のKindleアプリをダウンロードして、スマートフォン、タブレット、またはコンピューターで今すぐKindle本を読むことができます。Kindleデバイスは必要ありません。
ウェブ版Kindleなら、お使いのブラウザですぐにお読みいただけます。
携帯電話のカメラを使用する - 以下のコードをスキャンし、Kindleアプリをダウンロードしてください。
Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 単行本 – 2014/8/23
{"desktop_buybox_group_1":[{"displayPrice":"¥1,646","priceAmount":1646.00,"currencySymbol":"¥","integerValue":"1,646","decimalSeparator":null,"fractionalValue":null,"symbolPosition":"left","hasSpace":false,"showFractionalPartIfEmpty":true,"offerListingId":"KXshcagj8R7mZ%2BA9LucmRC3yMcwE8U0gafrlsOjnNlswOtU70aCI%2F0CyaasfB7LbWRMu6B7cuYNiJ2jDuLL2GAIK4RMM8Vg3myG03dGfavSsMih3Fzoq918m9RUJxnoHDrla%2BhWixsotWBQL8uXz7czqMCjaAqoHAERNBHVODppEm6lZ1awYqCpTnMCce%2FxY","locale":"ja-JP","buyingOptionType":"NEW","aapiBuyingOptionIndex":0}, {"displayPrice":"¥40","priceAmount":40.00,"currencySymbol":"¥","integerValue":"40","decimalSeparator":null,"fractionalValue":null,"symbolPosition":"left","hasSpace":false,"showFractionalPartIfEmpty":true,"offerListingId":"KXshcagj8R7mZ%2BA9LucmRC3yMcwE8U0grEDqjRxL%2BDAjpKn6BUABDsHGW2K21WPwEHMhzEbMCquEg0If0MRaSABhJFmlcDWFlUErScxvj%2FyiA%2BCJEz4kImiMk8tuu%2F9OpKggSH0Bx2qH1OHfR2o%2FxBa%2FB4k0PDFMuTIfh7HdNTBt1%2FDIBIQu2A%3D%3D","locale":"ja-JP","buyingOptionType":"USED","aapiBuyingOptionIndex":1}]}
購入オプションとあわせ買い
Webクローラーの作り方をディープに解説!
Webから任意の情報を引き出す「クローラー」技術の概要と、
クローラーの作成方法を解説します。
汎用的なクローラーの作成から、
ブログ・Twitter・Facebookなどターゲットごとの活用法まで、
データ収集効率を劇的にアップするクローラー技術をディープに解説します。
■本書の「はじめに」より
本書はRubyでクローラーを開発・運用できるようにするための本です。
クローラーを使えば情報収集のスピードが速くなり、
最新情報をいち早く入手できるようになります。
本書を通じてクローラーを実際に開発・運用して、それを体感してください。
クローラーというのは、自動的にWebサイトを巡回して情報収集するプログラムのことです。
Google botなどの検索エンジンロボットが代表的ですが、
個人・ビジネスに関わらず、さまざまな場面で使われています。
そう聞くと難しそうに感じるかもしれませんが、
まったくそんなことはなく、小規模なクローラーはRuby初級者でも書けます。
実は、ファイルから情報を抜き出す普通のRubyスクリプトに、
たった1行加えるだけでクローラーに変身してしまいます。
もしかしたら知らず識らずのうちにあなたもクローラーを作っていたのかもしれません。
クローラーは身近な存在です。
■本書に掲載するクローラーサンプル
・Googleの検索結果を取得する
・ブログへのクローリング
・Amazonのデータを取得する
・Twitterのデータ収集
・Facebookへのクローリング
・画像を収集する
・YouTubeから動画を収集する
・iTunes Storeの順位を取得する
・Google Playの順位を取得する
・SEOに役立てる
・Wikipediaのデータを活用する
・キーワードを収集する
・流行をキャッチする
・企業・株価情報を収集する
・為替情報・金融指標を収集する
・郵便番号と緯度経度情報を取得する
・新刊情報を収集する
・荷物を追跡する
・不動産情報を取得する
・官公庁のオープンデータを活用する
・聞の見出しを集める
■目次
Chapter 1 10分クローラーの作成
Chapter2 クローラー作成の基礎
Chapter 3 収集したデータを分析する
Chapter 4 高度な利用方法
Chapter 5 目的別クローラーの作成
Chapter 6 クローラーの運用
Webから任意の情報を引き出す「クローラー」技術の概要と、
クローラーの作成方法を解説します。
汎用的なクローラーの作成から、
ブログ・Twitter・Facebookなどターゲットごとの活用法まで、
データ収集効率を劇的にアップするクローラー技術をディープに解説します。
■本書の「はじめに」より
本書はRubyでクローラーを開発・運用できるようにするための本です。
クローラーを使えば情報収集のスピードが速くなり、
最新情報をいち早く入手できるようになります。
本書を通じてクローラーを実際に開発・運用して、それを体感してください。
クローラーというのは、自動的にWebサイトを巡回して情報収集するプログラムのことです。
Google botなどの検索エンジンロボットが代表的ですが、
個人・ビジネスに関わらず、さまざまな場面で使われています。
そう聞くと難しそうに感じるかもしれませんが、
まったくそんなことはなく、小規模なクローラーはRuby初級者でも書けます。
実は、ファイルから情報を抜き出す普通のRubyスクリプトに、
たった1行加えるだけでクローラーに変身してしまいます。
もしかしたら知らず識らずのうちにあなたもクローラーを作っていたのかもしれません。
クローラーは身近な存在です。
■本書に掲載するクローラーサンプル
・Googleの検索結果を取得する
・ブログへのクローリング
・Amazonのデータを取得する
・Twitterのデータ収集
・Facebookへのクローリング
・画像を収集する
・YouTubeから動画を収集する
・iTunes Storeの順位を取得する
・Google Playの順位を取得する
・SEOに役立てる
・Wikipediaのデータを活用する
・キーワードを収集する
・流行をキャッチする
・企業・株価情報を収集する
・為替情報・金融指標を収集する
・郵便番号と緯度経度情報を取得する
・新刊情報を収集する
・荷物を追跡する
・不動産情報を取得する
・官公庁のオープンデータを活用する
・聞の見出しを集める
■目次
Chapter 1 10分クローラーの作成
Chapter2 クローラー作成の基礎
Chapter 3 収集したデータを分析する
Chapter 4 高度な利用方法
Chapter 5 目的別クローラーの作成
Chapter 6 クローラーの運用
- 本の長さ448ページ
- 言語日本語
- 出版社SBクリエイティブ
- 発売日2014/8/23
- 寸法15 x 2.3 x 21 cm
- ISBN-104797380357
- ISBN-13978-4797380354
よく一緒に購入されている商品

対象商品: Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例
¥1,646¥1,646
最短で3月21日 木曜日のお届け予定です
残り1点 ご注文はお早めに
¥3,520¥3,520
最短で3月21日 木曜日のお届け予定です
残り1点(入荷予定あり)
総額:
当社の価格を見るには、これら商品をカートに追加してください。
ポイントの合計:
pt
もう一度お試しください
追加されました
一緒に購入する商品を選択してください。
この商品を買った人はこんな商品も買っています
ページ 1 以下のうち 1 最初から観るページ 1 以下のうち 1
商品の説明
著者について
佐々木 拓郎
本業は、Web系のシステムアーキテクト。企画から設計開発、運用まで幅広く担当。
最近はクラウド×自動化をテーマに、できるだけ楽することを考えている。
休日はワインを飲みながら、趣味でアプリを開発している。またAWSやRubyをはじめとする、
いろいろなコミュニティに出没している。
るびきち
RubyとEmacsとw3mとScreenとratpoisonとLinuxがないと生きていけないガチガチCUI系フリーライター。
テキストブラウザw3mで快適にWebを駆け回るために多数の個人用クローラーを開発。
主な著書に『Ruby逆引きハンドブック(C&R研究所)』『Emacsテクニックバイブル(技術評論社)』。
メルマガ『Emacsの鬼るびきちのココだけの話』毎週土曜日発行。
本業は、Web系のシステムアーキテクト。企画から設計開発、運用まで幅広く担当。
最近はクラウド×自動化をテーマに、できるだけ楽することを考えている。
休日はワインを飲みながら、趣味でアプリを開発している。またAWSやRubyをはじめとする、
いろいろなコミュニティに出没している。
るびきち
RubyとEmacsとw3mとScreenとratpoisonとLinuxがないと生きていけないガチガチCUI系フリーライター。
テキストブラウザw3mで快適にWebを駆け回るために多数の個人用クローラーを開発。
主な著書に『Ruby逆引きハンドブック(C&R研究所)』『Emacsテクニックバイブル(技術評論社)』。
メルマガ『Emacsの鬼るびきちのココだけの話』毎週土曜日発行。
登録情報
- 出版社 : SBクリエイティブ (2014/8/23)
- 発売日 : 2014/8/23
- 言語 : 日本語
- 単行本 : 448ページ
- ISBN-10 : 4797380357
- ISBN-13 : 978-4797380354
- 寸法 : 15 x 2.3 x 21 cm
- Amazon 売れ筋ランキング: - 476,956位本 (本の売れ筋ランキングを見る)
- - 1,292位ソフトウェア開発・言語
- カスタマーレビュー:
著者について
著者をフォローして、新作のアップデートや改善されたおすすめを入手してください。

【Twitter】
@dkfj
https://twitter.com/dkfj
【経歴】
経済学部出身。Web寄りのSIerで勤務。システムの企画から設計・開発・運用まで一連の業務に従事してきた。
またシリコンバレーの支社に勤務時代には、オープンソースのR&Dや海外プロダクトの日本導入などに従事。最近の主な活動は、AWS事業の推進とモバイル開発。
【Blog】
プログラマになりたい
https://blog.takuros.net/
【過去の講演資料】
https://speakerdeck.com/takuros
http://www.slideshare.net/takurosasaki
-
トップレビュー
上位レビュー、対象国: 日本
レビューのフィルタリング中に問題が発生しました。後でもう一度試してください。
2016年2月28日に日本でレビュー済み
Amazonで購入
2014年9月7日に日本でレビュー済み
クローラーとは、
「システムが自動的にWebページを巡回して情報を収集するためのプログラムです」(P.2 原文ママ)
Rubyは、
「代表的な汎用スクリプト言語Perlに可読性の高い構文とシンプルかつ強力な
オブジェクト指向を加え、Lisp風の味つけをしたもの」(P.2 原文ママ)
あまりページを割いてないですが、
クローラーについては、実際にRubyでクローラーを作成する前に
先ずソフトウェア「GNU Wget」を通じて概要を知ることが出来ます。
プログラミング言語Rubyについても基礎的な説明があり、これから利用していこうという
初心者への配慮がございます。
・株価・為替など経済、ビジネスに関係した情報、SNS、YouTube動画など
交友目的、趣味の範囲での利用を目的別に紹介されています。
(目的別クローラーの作成については、目次から手軽に辿り着くことができます。
巻末には索引もあるので、書籍の検索性について問題はございません)
・トラブルが起きた時の対処方法について、著作権物の取り扱いについてなど
権利関係についても触れられていて、運用を開始してからのケアとしての内容・記述があります。
本書籍は、Rubyについてクローラーについて、初学者が学びやすいよう
配慮のある構成となっています。
本書籍、これから上記内容について学ぼうという方におすすめいたします。
「システムが自動的にWebページを巡回して情報を収集するためのプログラムです」(P.2 原文ママ)
Rubyは、
「代表的な汎用スクリプト言語Perlに可読性の高い構文とシンプルかつ強力な
オブジェクト指向を加え、Lisp風の味つけをしたもの」(P.2 原文ママ)
あまりページを割いてないですが、
クローラーについては、実際にRubyでクローラーを作成する前に
先ずソフトウェア「GNU Wget」を通じて概要を知ることが出来ます。
プログラミング言語Rubyについても基礎的な説明があり、これから利用していこうという
初心者への配慮がございます。
・株価・為替など経済、ビジネスに関係した情報、SNS、YouTube動画など
交友目的、趣味の範囲での利用を目的別に紹介されています。
(目的別クローラーの作成については、目次から手軽に辿り着くことができます。
巻末には索引もあるので、書籍の検索性について問題はございません)
・トラブルが起きた時の対処方法について、著作権物の取り扱いについてなど
権利関係についても触れられていて、運用を開始してからのケアとしての内容・記述があります。
本書籍は、Rubyについてクローラーについて、初学者が学びやすいよう
配慮のある構成となっています。
本書籍、これから上記内容について学ぼうという方におすすめいたします。
2016年8月7日に日本でレビュー済み
Amazonで購入
◼️文字コード
2014年8月22日
「Rubyによるクローラー開発技法」サンプルスクリプト
[…]
のzipファイルのサンプルはそのままでは動作しない。UTF-8への変換が必要(以下は上書きなので注意)です。
find RubyCrawlerSample/ -type f | xargs -n 10 nkf -w --overwrite
このサンプルは、著者というより出版社が用意したような感じなので、出版社側の問題なような気がしますが、修正をお願いします。
>SBクリエイティブ様
MACではfindはあってもnkfは標準ではないので、brew install nkfなどでインストール。
・MACでの注意点
MAC環境では、¥ではなく、バックスペース\(オプションキーを押しながら¥で入力)入力が必要であることに注意。私のように¥とバックスペースが同じと思っている人はハマるかも。。
・その他感想
rubyの勉強がてら動かしていますが、%rによる正規表現(/xxx/の代わりに%r!xxx!とかく)、map |(aurl,atitle),ymd|の理解、*ymdでの*による配列展開、[x, y, z, ...]によるリスト生成。など、少し手間取るところがありました。1章(10分クローラーの作成)までは、くどいくらいの説明で良いかもしれません。
まあ、何か言語をやったことのある人は、WEBで調べながらやるので問題ないかもしれませんが。
2014年8月22日
「Rubyによるクローラー開発技法」サンプルスクリプト
[…]
のzipファイルのサンプルはそのままでは動作しない。UTF-8への変換が必要(以下は上書きなので注意)です。
find RubyCrawlerSample/ -type f | xargs -n 10 nkf -w --overwrite
このサンプルは、著者というより出版社が用意したような感じなので、出版社側の問題なような気がしますが、修正をお願いします。
>SBクリエイティブ様
MACではfindはあってもnkfは標準ではないので、brew install nkfなどでインストール。
・MACでの注意点
MAC環境では、¥ではなく、バックスペース\(オプションキーを押しながら¥で入力)入力が必要であることに注意。私のように¥とバックスペースが同じと思っている人はハマるかも。。
・その他感想
rubyの勉強がてら動かしていますが、%rによる正規表現(/xxx/の代わりに%r!xxx!とかく)、map |(aurl,atitle),ymd|の理解、*ymdでの*による配列展開、[x, y, z, ...]によるリスト生成。など、少し手間取るところがありました。1章(10分クローラーの作成)までは、くどいくらいの説明で良いかもしれません。
まあ、何か言語をやったことのある人は、WEBで調べながらやるので問題ないかもしれませんが。
2016年8月8日に日本でレビュー済み
Amazonで購入
rubyをまったく知らない状態から、この本と「たのしいruby」を読んで、クローラーが自作できるようになりました。読んでいて一番困ったことは、本書に紹介されているツール類のインストールです。windowsとubuntuで同時並行で作業を進めました。紹介されているツールをインストールしながら、サンプルスクリプトを実行して動作を確認するのですが、一方のosで動くツールがもう一方では動かないことが多かったです。原因はツールの細かいバージョンの違いによるバグの有無でした。最初に紹介されているwgetで、すでに本書の説明どおり動かないバージョンがあり、あとはそんなもののオンパレードでした。おもなところではsqlite3とかfirefoxとかです。firefoxは3つのバージョンを試しましたが、seleniumで動作するのは、ひとつだけでした。また、Amazonのようにヘッダにutf8と書かれているのに実際はshitf-jisでエンコードされているサイトが取り上げられているのも疑問でした。本書の前半ではさもanemoneで取り扱えるように書いておきながら、後半ではあきらめて、文字化けした実行例を掲載していることにあぜんとしました。
私のような者がクローラーを作れるようになったのは、ひとえに本書のおかげです。感謝します。でもこの本を読み進めていくことは時間と根気が必要です。
私のような者がクローラーを作れるようになったのは、ひとえに本書のおかげです。感謝します。でもこの本を読み進めていくことは時間と根気が必要です。
2014年9月8日に日本でレビュー済み
Amazonで購入
テスト用のサーバーをつくるところからはじまって、応用までと意欲的な構成ですが、中身はanemoneとnokogiriの紹介を中心として、いろいろな例を出しているものの、著者のやりかたを教科書的に簡単に紹介しているようです。クローラーの作成をやった経験のある人(当然nokogiriもつかった経験ある)が、実務的な疑問があったり、他の人のうまいやり方を参考に発展させたい、というような場合は、この本には答はないかも知れません。ささっつと基礎をおさらいするにはいいかも知れませんが、詳しいことには深入りしていないので、実際にこれをみてクローラーをつくってみようという、初心者向けだと思います。
2014年8月24日に日本でレビュー済み
近年ではビッグデータの有効利用がさけばれていますが、ビッグデータの収集方法として
「Webスクレイピング」が注目されています。
インターネット上に存在する膨大なページからビッグデータに相当するデータを収集する事を指します。
ツイッターのつぶやきデータの収集等が有名な例としてあげられると思います。
本書では、この「Webスクレイピング」を実現するために「クローラー」を作成するとの流れになっています。
本書を読む事で
・「クローラー」の概要と作成する上で基本となる考え方
・「クローラー」作成に必要なライブラリの利用方法と生データの解析方法(形態素解析を含む自然言語処理)の概要
・より実用的な「クローラー」に育てて行くための考え方
・目的別「クローラー」の作成方法
・「クローラー」の運用方法
等の知識が学べます。
利用しているライブラリは「nokogiri」、「anemone」となっています。
「nokogiri」はHTMLやXMLをパース(解析)するためのライブラリです。
「anemone」は「クローラー」作成用のライブラリ(フレームワークの方が相応しい!?)です。
「クローラー」を初めて作る人を意識して書かれており、全般的に私には理解しやすかったです。
説明の順番も、まず動くものを提示し、その後に実際の実装方法の説明、
応用、各論的な内容が来て、最後に実際の運用方法の説明でしめるという流れが理想的であると感じます。
「Webスクレイピング」が注目されています。
インターネット上に存在する膨大なページからビッグデータに相当するデータを収集する事を指します。
ツイッターのつぶやきデータの収集等が有名な例としてあげられると思います。
本書では、この「Webスクレイピング」を実現するために「クローラー」を作成するとの流れになっています。
本書を読む事で
・「クローラー」の概要と作成する上で基本となる考え方
・「クローラー」作成に必要なライブラリの利用方法と生データの解析方法(形態素解析を含む自然言語処理)の概要
・より実用的な「クローラー」に育てて行くための考え方
・目的別「クローラー」の作成方法
・「クローラー」の運用方法
等の知識が学べます。
利用しているライブラリは「nokogiri」、「anemone」となっています。
「nokogiri」はHTMLやXMLをパース(解析)するためのライブラリです。
「anemone」は「クローラー」作成用のライブラリ(フレームワークの方が相応しい!?)です。
「クローラー」を初めて作る人を意識して書かれており、全般的に私には理解しやすかったです。
説明の順番も、まず動くものを提示し、その後に実際の実装方法の説明、
応用、各論的な内容が来て、最後に実際の運用方法の説明でしめるという流れが理想的であると感じます。
2016年9月1日に日本でレビュー済み
クローラー開発技法という趣旨からいって初心者が読む本ではないですね。スクレイピングやwebクローラーについて一定の知識及び自力である程度のスクリプトが書ける方でなければ本書を読むには早いでしょう。
まさしく私がその初心者だったわけで完全に理解できるとまでは思わないものの自分がしたいことのヒントでも見つかれば…と思い購入しました。が、残念ながら私の目的とする処理とは微妙にピントがずれていました。本書に記載されている情報を応用すれば達成できることなのかもしれませんがこれを応用するにはパソコン上級者レベルの知識が必要と判断し、とりあえず今は置いておきます。
内容的にはネットで情報収集するにあたって便利なツール・ソフトが数点紹介されており、インストール方法から動作サンプルまで事細かに記載されていました。anemone・capibaraに特にページを割かれています。すでにこの二つをガンガン使用している方にとっては本書はあまり参考にならないかも。
プログラミングに関してはド素人のため本書が真に有用かどうかという点について現時点で判断はできませんが、パソコン自動化の目的は達成できなかったのでとりあえず☆3評価とします。
まさしく私がその初心者だったわけで完全に理解できるとまでは思わないものの自分がしたいことのヒントでも見つかれば…と思い購入しました。が、残念ながら私の目的とする処理とは微妙にピントがずれていました。本書に記載されている情報を応用すれば達成できることなのかもしれませんがこれを応用するにはパソコン上級者レベルの知識が必要と判断し、とりあえず今は置いておきます。
内容的にはネットで情報収集するにあたって便利なツール・ソフトが数点紹介されており、インストール方法から動作サンプルまで事細かに記載されていました。anemone・capibaraに特にページを割かれています。すでにこの二つをガンガン使用している方にとっては本書はあまり参考にならないかも。
プログラミングに関してはド素人のため本書が真に有用かどうかという点について現時点で判断はできませんが、パソコン自動化の目的は達成できなかったのでとりあえず☆3評価とします。
2015年9月3日に日本でレビュー済み
Amazonで購入
WEBの基本的な仕組みと、Rubyの基礎知識さえあれば、すぐにやりたいことができる良書だと思います。
色々なサイトへのパターンが豊富に記載されているのもありがたいです。
色々なサイトへのパターンが豊富に記載されているのもありがたいです。