自然言語処理なサービスをつくりたい人は「入門ソーシャルデータ」も読むといいのでは

@overlastさん経由でオライリー・ジャパンの伊藤様より「入門ソーシャルデータ」を献本して頂きました。どうもありがとうございました。気になっていた本だったのでとても嬉しいです。
というわけで紹介記事を。


まず、本書は翻訳本なので翻訳の質が気になるところ。これについては@overlastさんや@nokunoさん、@mizuno_takaakiさんなど実力のある方が監訳されているので心配ないと思う。
さて。
本書はタイトルの通り、ソーシャルデータを扱って面白い事をしたい人のための本。でもソーシャルデータに限らずwebのデータを使ったサービスを作りたい人は読むとよさそう。
以前、自然言語処理を活用したwebサービスを作るときに参考になる書籍を5冊紹介したのだが、これもそこに加えてもいいかもしれない。

自然言語処理を活用したwebサービスをつくるときに参考になる5冊の書籍 - EchizenBlog-Zwei

本書はwebからデータを集めてくる部分、集めたデータでごにょごにょする部分が半々くらいで書いてある。 データというのはもちろんソーシャルなデータでTwitter,Facebook,LinkedInを主に扱っている。そしてデータでごにょごにょの部分では自然言語処理の技術を中心に書いてある。
半々で扱っていると書いたけれど、実際は扱うデータはあくまできっかけ。TwitterFacebookなどを題材にしてwebデータを扱って面白い事をするための技術を学ぶことを目的とした内容になっているので、興味のないテーマを扱った章でもちゃんと読んだほうがいい。
例えば、2章のマイクロフォーマットや3章のメールボックスの話は人によっては興味がないかもしれないがデータのクロール方法やスクレイピング、後の章でも使うツールの解説などがあるので読んでおきたい。
で本題の技術的な部分については必要最低限(といっても結構なボリュームになるけど)な事しか書いておらず、wikipediaへのリンクを紹介して終わっている部分も多い。ってそれじゃ使えなくねと思われるかもしれない。だが本書の一番大切な部分はそれらの技術がなぜ必要なのか?というモチベーションを得るところにあると思う。
上述のモチベーションというのは個人でwebサービスを作っていたり業務や研究で関わっている人はわりと自然に身についていたりするかもしれない。だが入門者が教科書の類を読んだだけだとなかなかピンと来ない部分だったりして、これ結局何に使うの?で終わってしまったりする部分が結構ある気がする。
本書はそうした諸々の技術を身につけるモチベーションを高めることができるという意味でとても価値があると思う。実際に個々の技術について知りたくなったら世の中に良書が豊富にあるので(上の方にリンクを張った「自然言語処理を活用した(ry」で紹介したものとか)、それらを読んだらいいと思う。
というわけでwebデータで何かしたい感じの入門者はまず本書を読むといいよ。非常にオススメ。
ただちょっと気になる部分もあって、ときおり説明なしで計算量の話がでてきたり、コラムで集合の濃度の話を始めたり「誰得だよ!?」な部分がチラホラあるのはどうなのかと思った。初心者には多分必要ない話なので軽やかにスルーして読むスキルが必要。

他の方もレビューを書いているので気になっている方は参考にどうぞ。

[O] ソーシャルデータ解析の入門書「入門 ソーシャルデータ」
入門 ソーシャルデータ (オライリー・ジャパン) - 射撃しつつ前転
『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ - 生駒日記