Hatena::ブログ(Diary)

シコウサクゴ() このページをアンテナに追加 RSSフィード

2010-12-26

「ウェブサイエンス入門」

最近読んだ.というわけではなく,ちょっとした宣伝なのかも.なぜなら,うちの先生の著書だから(笑)

ゼミ生は買わずに頂けるのですが,僕がもらったのはゼミ配属よりはちょっと前,先生の授業の終わりに友達と一緒に先生の部屋へ質問に行ったときに,頂きました.

せっかくなので,目次ものっけます.

はじめに

第1章 ウェブページの検索とランキング

1.1 ウェブページコミュニティ

1.2 隣接行列と次数分布

1.3 ハブ&オーソリティ

1.4 HITSアルゴリズム

1.5 第1章のまとめ


第2章 ウェブネットワーク可視化

2.1 ネットワークでのノード間距離

2.2 多次元尺度法(MDS)による可視化

2.3 バネモデルによる可視化

2.4 クロスエントロピー法による可視化

2.5 球面可視化法による分析

2.6 第2章のまとめ


第3章 可視化によるウェブの分析事例

3.1 ブログ空間とSEOスパム

3.2 可視化によるネットワークの分析

3.3 SEOコミュニティの検出

3.4 第3章のまとめ


第4章 平均リンク数に基づく主要トピック抽出

4.1 主要トピック抽出法

column4.1 トピック抽出法SR

1 基本問題設定

2 緩和問題とその解法

3 量子化問題とその解法

4 抽出アルゴリズム

5 関連研究と議論

4.2 ブログデータによる評価

column4.2 抽出結果の定量評価

4.3 可視化によるトピック抽出結果の評価

4.4 第4章のまとめ

第5章 ネットワーク構造とトピック抽出

5.1 シミュレーションによる評価

5.1.1 スモールワールド

5.1.2 スケールフリー

5.1.1 近傍結合モデル:CNN

5.2 コア抽出法の適用結果

5.3 実験結果の考察

column5.1 各種相関グラフの計算法の詳細

5.4 抽出したコア部の視覚評価

5.5 第5章のまとめ


第6章 多重トピック抽出とその応用

6.1 単語出現頻度に基づく文書表現

6.2 多重トピック抽出法

column6.1 PMMによる多重トピック抽出性能

6.3 多重トピック抽出の応用

6.4 第6章のまとめ


第7章 トピックに関する認知実験

7.1 人手によるトピック抽出

7.2 実験による評価

7.3 ホットトピック抽出に向けて

7.4 第7章のまとめ


第8章 ネットワーク成長の性質

8.1 単語ノードの成長

8.2 単語共起ネットワークの成長

8.3 数値データに潜む法則発見に向けて

column8.1 法則発見アルゴリズム:RF5

8.4 第8章のまとめ


おわりに

あとがき

この本は,内容的にはうちの先生のやったことのある研究が基になっていると思っています.なので,トピックは分散気味ですが,ウェブを研究するときに考えるだろう問題への取り組みが載っていて面白いです.キーワードとなってくるのは「ネットワーク」で,問題の背後にネットワークを意識していたり,ネットワーク(グラフ)の性質を利用して問題解決したりなど,ところどころでネットワークは出てきます.

ネットワークの本だと,増田先生や今野先生らの著書が結構あります.増田先生や今野先生の本に比べると,この本はだいぶ応用的な内容です.もし,ウェブサイエンスを勉強するなら,増田先生や今野先生の本を先に読んでから,この斉藤先生の本を読んでみるといいかも知れません.あと,海外の複雑ネットワークの世界で有名な方の本も,翻訳されてあります.僕が特にオススメなのは,「新ネットワーク思考―世界のしくみを読み解く」です.複雑ネットワークの歴史が網羅されてるといってもいいのかもしれません.直接的にこの本には関係ないかも知れませんが,知っとくと面白いかなと思います.

話を戻しまして・・・,ただ,この本で残念なのは,内容が概要的な感じになっていることです.入門書であることと,ページ数の制限などもあるので仕方ないことだと思うのですが・・・.ただ,もっと知りたいという方には,「おわりに」に先生のコメント付きで参考文献が出ているので,そちらを見ていただくのがいいのかなと.

あと,意外とウェブサイエンスってタイトルに付く本はないんですよね.発売当初もそうですけど,それから約3年経った今も,ウェブサイエンスとタイトルに付いた本は他にないと思います.雑誌の記事では,例えば日経サイエンス2009年1月号で「ウェブサイエンスの誕生」という記事がありますね.

まだまだ歴史が浅い分野だと思いますが,ウェブもかなり進化してきて,これから注目される分野だと思っています.例えば,一昔前までは,ウェブ上のネットワークはページ間のハイパーリンクでした.しかし,最近はTwitterFacebook,日本ではMixiなどSNSの普及で,ページだけじゃなく,ウェブ上に人間間の繋がりが出来上がっています.昔から人間間には友人関係のネットワークが存在するという仮定で研究は進められてきましたが,実際のデータを得ることは困難でした.それが今,実際の繋がりをデータとして得ることが出来ます(まだまだ難しいところはありますが).こういった背景は,この研究の必要性を増してくれるんじゃないかなと勝手に思っています.

「ベイズな予測」

最近,友だちに借りて読みました.

ベイズな予測―ヒット率高める主観的確率論の話

ベイズな予測―ヒット率高める主観的確率論の話

とにかくベイジアンモデルの実用例がいっぱい出てる感じでした.基本的には,ナイーブベイズによる方法をベースに書いてありますけど,僕の知らない他分野での応用とか出てるので,「あーこういう風にも使えるんだぁ」という面白さはあります.

ただ,この本見ても実装はできないですね.実装するなら,僕的には「集合知プログラミング」でコードを書きながら勉強する方が,実際に動くものが出来るので,「やった感」は有るかも知れません.ただ,コード写してても頭入らなかったんですけど・・・.