Hatena::ブログ(Diary)

図書館情報学を学ぶ

title photo by Thomas Hawk

2011年10月02日

『パターン認識と機械学習』を読み始めています

博士課程になっていまさらという気もしますが、機械学習の教科書として名高い『パターン認識と機械学習』を読み始めています。

以前紹介した『集合知プログラミング』とは対照的に、この本は機械学習の基礎理論となるガウス統計理論と良くつかわれる確率分布の理論を丁寧に解説しつつ、SVMニューラルネットワークなどの機械学習理論を紹介しています。カバーしている内容が広範囲に渡るため、この本で機械学習の理論の勉強をする人は多く、勉強会も数多く開かれているようです(参考:google:PRML+勉強会)。

今は隙間時間で読み進めており、3章「線形回帰分析」に行きついたところです。ただ、まだまだ細かい数式の展開を理解できていないので、いずれ勉強会に参加するなどして理解を深めたいと思っています。

2008年12月22日

海外ブログ続報

先日学術系ブロガーの皆さんに、どんな海外ブログを読んでいるか尋ねましたが、数名の方からフィードバックが来ましたので報告します。

教えていただいた海外ブログは以下。

また、海外の学術系メールマガジン、The Scout Reportも教えていただきました。

The Scout Report

ALAやOCLC、WorldCatなど代表格のブログもあれば、ライブラリアン個人のブログなど、非常に面白そうなブログも見つかってかなりテンションあがりました。

教えていただいたのは、id:argさん、id:min2-flyさん、田辺浩介さんの3名でした。どうもありがとうございますm(_ _)m

また、これとは別に自分も新たに以下の3件の海外ブログを発見しました。

これで私のRSSリーダーには20件の海外ブログが登録されました。冷静に考えてみるときちんと読みこなせるか心配ですが、まずは大量に読んで英語になれることが必要だと思うので頑張ってみようと思います。

いずれ海外ブログの状況をある程度把握できたら、LisBloggerなどに紹介記事などを書いてみようかと思います。これ以外にもおすすめの海外ブログがありましたら、ぜひまた教えてください。

2008年12月19日

ライブラリー・アカデミー受講生ブログのOPMLを作りました

ACADEMIC RESOURCE GUIDEの岡本真さん(id:arg)が開講されている「ライブラリー・アカデミー」の受講生の皆様が開設したブログが紹介されています。

図書館系ブログポータルを開設している私としては、図書館系ブロガーが増えて非常に嬉しいです。ブログを覗いてみましたが、現場での経験とWeb2.0の両方の視点で書かれた記事などがあり、興味深く思いました。

さて、私はブログの巡回をRSSリーダーで行っているのですが、18件のブログをリーダーに登録するのは手間がかかります。他にもRSSリーダーで巡回されている方は沢山いると思うので、この手間を省くのはブログの講読者数を増やすのに必要だと思います。

そこで、受講生ブログ18件を一度に登録できるように、OPMLファイルを独自に作成してみました。

http://www20.atwiki.jp/lis-blogger/pub/academy_lisblogger.opml

上のURLにあるOPMLファイルを、RSSリーダーにインポートしてみてください。「ライブラリー・アカデミー受講生」というフォルダにまとめられたRSSが登録されるはずです。

id:argさん、もしよろしければ受講生ブログの宣伝などでお使いいただければ幸いです。

関連記事(自サイト)

2008年12月17日

図書館システムの未来を創る一滴の雫 ―― パターン氏による図書館利用データ公開の本当の理由

つい先日、図書館の利用統計データを外部に提供するというアイデアについて考察しましたが、なんとそれを実現した大学図書館が現れました。

ハダーズフィールド大学図書館のパターン氏(Dave Pattern)が、自館で約13年間にわたり蓄積した、8万タイトル分・300万件の貸出記録をクリエイティブ・コモンズライセンスで公開しています。

公開したデータは貸出記録のほか、OPACで表示したレコメンデーション(「この本を借りた人は、この本も借りています」)記録、およびFRBR風の ISBNのインデクス(LibraryThingから抽出)などです。貸出やレコメンデーション記録は、統計的処理がほどこされています。

リンク先で紹介されているリリース記事を少し読んでみたところ、データ公開のきっかけとなったのはJISC*1が主催する「学習者の行動履歴の活用」をテーマとしたワークショップだったそうです。

このワークショップは、Library2.0の枠組み作りを推進する TILE Projectの一環として開かれたもので、学習行動とは何かといった概念的な話から、ローカルに埋もれた行動データを活用するソリューションの開発といった技術的な話まで包括な議論が行われていたようです。

今回、データを公開したパターン氏は、この経緯を見ると単にデータマイニング研究への協力ではなく、新たな図書館情報システムを開発する道筋を作るという大きな目的に拠っているのだということが分かります。実際、パターン氏は公開したデータを活用したWebサービスの開発やWeb APIの実装を予定としているようです。

「これは大きな絵の1ピースにしかすぎない」

パターン氏はまた、リリース記事でこう言っています。

このデータは一滴の雫、大きな絵を作る1ピースでしかない、あなたの図書館のデータをここに加えることをぜひ考えて欲しい、そうでなければ、何がデータ共有の障壁となっているのかを教えて欲しい。そうしてくれれば、私はその障壁をどうすれば乗り越えられるのか一緒に考えよう。

彼は非常に情熱的な筆致で多くの図書館への協力を要請しています。どうやら、彼の本当の狙いはあらゆる図書館の利用行動を抽出・統合した情報利用メタデータの作成にあるようなのです。

まだプランの段階ではありますが、これは非常に意義深い試みだと思います。もしこのようなデータがあれば、例えまだ設立したばかりの図書館であっても自館に高度なレコメンデーション機能を実装することができます。Library2.0の推進コストを下げ、全体的な環境の底上げを狙うことができるのではないでしょうか。

今回のデータ公開は、他人事として扱うべきではないと思います。ぜひとも日本の図書館も自館に埋もれている利用履歴を活用して、より良いサービス作りに向けてパターン氏の試みに協力する体制ができて欲しいですね。

自分もまた、このような動きに何らかの形で今後も参加していきたいと思います。

関連記事(自サイト)

関連記事(他サイト)

*1:教育・研究におけるICTの活用を推進するイギリスの団体。参照:http://www.jisc.ac.uk/

2008年11月16日

プログラマーに最適なデータマイニングの教科書 『集合知プログラミング』

集合知プログラミング

集合知プログラミング

当初はサンプルコードがPythonということで購入した本書ですが、読んでみると内容の素晴らしさに驚嘆しました。私が今までに読んだオライリーシリーズでも屈指の名作だと思います。

集合知プログラミング』とは

『集合知プログラミング』は、Amazonの協調フィルタリングのように、ウェブ上のデータを収集してユーザーの嗜好にあったコンテンツを推薦したり、大量のデータを分かりやすく分類・可視化するプログラムを簡単に実装する技術を解説した書籍です。Webプログラミングをかじったことのある方でしたら、だれしもAmazonのような推薦サービスを作ってみたいと思ったことがあるかと思いますが、そのような方には最適な書籍です。

データマイニングの教科書としての側面

本書はまた、データマイニングの優れた入門書でもあります。データマイニングとは大規模なデータをコンピューターで解析し、新たな知見を得る技術のことを指します。有名な例に「スーパーマーケットで紙おむつコーナーのそばにビールを置いておくと、ビールの売り上げが上がる」というものがあります。*1この例に見られるように、データマイニングを活用すると誰もが推測できなかった法則性を発見することができ、ビジネスや研究など様々な分野で戦略を立てる際に役立てることができます。

プログラミングをかじったことのある人がデータマイニングを勉強しようと思うなら、本書が最適だと私は思います。なぜなら、「内容が濃い」「分かりやすい」「実践的である」というプログラミングの技術書に重要な要素がすべて揃っているからです。

魅力1:内容が濃い

本書ではピアソン相関、SVM、K平均法によるクラスタリングや遺伝的プログラミングに至るまで、データマイニングの理論がこれでもかというぐらい紹介されています。私は以前「データマイニング」という講義を大学で受けたことがありますが、10回かけた講義内容と同じ内容が解説されています。

魅力2:分かりやすい

このように高度な理論が紹介されているにもかかわらず、本書では文系プログラマーに対してもきわめて親切な構成となっています。その1つに「いきなり数式を出さない」という点があります。一般的なデータマイニングの教科書は複雑な数式が登場するため、数学が得意ではない人にとっては文面を見るだけで敬遠がちです。しかし、本書では「似た嗜好を持った映画評価者を探す」といった身近な例と図式を用いて、それぞれの理論を数式抜きで解説してくれます。

もちろん後半の章ではそれぞれの理論について数式を用いた詳細な解説も載っており、データマイニングのアルゴリズムをしっかり理解しておきたいという人にも対応した親切な構成となっています。

魅力3:実践的である

本書の最大な魅力はここにあります。本書ではウェブ上のデータを解析するサンプルコードが掲載されており、読者は本書で得られたデータマイニングの素晴らしさをすぐに体感することができます。

例えば、第2章「推薦を行う」ではソーシャルブックマークサービスdel.icio.usのAPIを使って、似た内容に関心を持つブックマーカーを推薦するプログラムが紹介されています。このほかにもWebをクロールしてWebサイトの分類をするプログラムなど、データマイニングを最大限に活用した魅力的なプログラムをすぐに書くことができます。

それぞれのプログラムはPythonで書かれていますが、アルゴリズムが分かりやすいように平易に書かれているため、Pythonを知らなくとも理解できるソースコードになっています。

まとめ

以上、本書の魅力を3点に分けて解説しましたが、一言で言ってしまえば「難解なデータマイニングの理論をプログラミングを通して直感的に理解することができる」ということが、本書の最大の魅力です。

データマイニングなどの技術については自分も勉強中ですが、この本を片手に実際にウェブサービスの機能を実装できるまで上達していけるようがんばりたいと思いました。皆さんもぜひ本書を読んで、データマイニングの使い手になってください!

関連書籍

図解 よくわかるデータマイニング (B&Tブックス)

図解 よくわかるデータマイニング (B&Tブックス)

「データマイニング」の講義でお世話になったテキスト。プログラマでない方にとってはこちらの方が分かりやすいかもしれません。この本も数式をあまり出さずに図解によって解説しています。

Rによるデータサイエンス データ解析の基礎から最新手法まで

Rによるデータサイエンス データ解析の基礎から最新手法まで

Rという統計解析に特化したプログラム言語を用いてデータマイニングを行うための入門書。Rは最初からデータマイニングの処理を行う関数が定義されているので、解析プログラムを簡単に書くことができます。

Webサービスではなく、解析だけを目的としたプログラムを書きたいという方はこちらをお勧めします。

なお、「Tsukuba.R」という筑波大学生が中心となっているRの勉強会が最近開催されているようなので、こちらも要チェックです。

関連記事(他サイト)

この記事に先行してデータマイニングの観点から書評を書かれています。

本書のサンプルコードについての問題点が提示されています。プログラムを実践する人はこちらもご参照ください。

Pythonで書かれた本書のサンプルコードを、RubyやR言語に移植するという試みです。Pythonをメインに使っていない方はこちらを参考にするといいかもしれません。

関連記事(自サイト)

*1:ただし、これは実践された例ではなく、あくまで理論上の話だそうです。解説 > http://www.atmarkit.co.jp/aig/04biz/diapersandbeer.html

カテゴリー
言及した本
  • パターン認識と機械学習 上 - ベイズ理論による統計的予測
  • 不平等の再検討―潜在能力と自由
  • 経済学の名著30 (ちくま新書)
  • システムの科学
  • 未来をつくる図書館―ニューヨークからの報告― (岩波新書)
  • 図書館資料論 (新・図書館学シリーズ (7))
  • ウェブサイエンス入門―インターネットの構造を解き明かす (コミュニケーションサイエンスシリーズ)
  • 図解 よくわかるデータマイニング (B&Tブックス)
  • Rによるデータサイエンス データ解析の基礎から最新手法まで
  • 集合知プログラミング