Hatena::ブログ(Diary)

萌え理論ブログ

2008-11-05 はてなブックマークリニューアル発表会

株式会社はてな主催・「はてなブックマークリニューアル発表会」レポート

f:id:sirouto2:20081105110255j:image

概要

はてなブックマーク - ソーシャルブックマーク

2008年11月4日(火)、東京恵比寿の「恵比寿Seven.」にて、株式会社はてなは、報道メディアや個人ブロガーを招き「はてなブックマークリニューアル発表会」を開催した。

2008年11月25日(火)に正式リリースするという、ソーシャルブックマークサービス「はてなブックマーク」のリニューアルについて、その目的・変更点・技術面を、株式会社はてな・執行役員/最高技術責任者・伊藤直也氏(写真左)、株式会社プリファードインフラストラクチャー・最高技術責任者・太田一樹氏(写真中央)が説明した。

「はてなブックマーク」(はてブ)は、国内最大級のソーシャルブックマークサービスとして、2008年11月現在、約19万5千人ユーザー登録・被ブックマークエントリー総数1000万件・登録ブックマーク数3100万件・月間ユニークユーザー300万*1となっている。

筆者は実際に発表会に参加し、またリニューアルするはてなブックマークのアルファ版を一足先に体験した。その様子をお伝えしよう。

発表会レポート

f:id:sirouto2:20081105110254j:image

「新要素のまとめ」
  • 「はてなブックマークの三つの要素」
    • 「保存...新しいUIで保存しやすく」
    • 「発見...検索強化で発見しやすく」
    • 「共有...ソーシャル性強化で共有しやすく」

「(はてブは)もうITだけじゃない」(伊藤CTO)

改善点
  • 検索機能の貧弱さ
  • デザイン・インターフェースの古さ
  • (IT系などへの)話題の画一性
  • 「お気に入り」機能の利用率の低さ(約15%)
  • ページ作者への強すぎる影響力(いわゆるネガティブコメント(ネガコメ)問題)
  • 内部システムの拡張性の低さ

リニューアルに際して4〜6人でチームを組んだ。もともと開発合宿で短期間に勢いで作ったため拡張性が低かったが、今後の拡張性の確保のため、ソースコードをスクラッチから開発。当初は夏頃のリニューアル予定だったが、システムの拡張性を高めるだけでなく、機能面での改善も必要と判断したことで、リニューアルが遅れたという。目玉の全文検索については、「はてなブックマークに放り込んでおけば、簡単に検索できる」(伊藤CTO)。

  • 機能層
    • 検索機能・UIデザインなど、データベース・ツールの側面
  • 社会層
    • ソーシャル性・コミュニティのネガコメ問題など、コミュニケーション・メディアの側面
全文検索機能

はてなブックマークは、今までGoogleのAPIで検索していたが、はてな独自の検索アルゴリズムを構築し、ブックマーク元のページを全文検索するようにした。それによりユーザーは、はてなブックマーク全体の記事(約1000万件)と、マイブックマークから検索が行えるようになった。

ブックマークの新検索機能は、プリファードインストラクチャー社との共同開発によるもの。同社の大規模分散検索エンジン「Sedue(セデュー)」は、検索インデックスを圧縮、オンメモリでの高速検索を実現。プリファードインフラストラクチャーは、「ICPC(ACM国際大学対抗プログラミングコンテスト)」世界大会などで知り合ったメンバーが設立したベンチャー企業。未踏ソフトウェア創造事業でSedueの原型を開発した。

ブックマーク数・情報鮮度にもとづく独自アルゴリズムで、必ずしも公式サイトだけではなく、情報量の多い注目ページが上位に表示されるようにした。「(リニューアル後は)はてなブックマークらしいランキングが検索結果に表示される」(太田CTO)。

また、「本文抽出ライブラリ」をサイボウズ・ラボのオープンソースライブラリをもとに開発、オープンソース・ソフトウェア「HTML::ExtractContent」として公開。Google・基盤ソフトウェアのオープンソースクローンである、大規模分散処理フレームワーク「Hadoop」を活用した、はてなブックマーク用クローラーを新規開発*2

テキストマイニングにより、カテゴリを自動カテゴライズ。カテゴリ判定は「Compliment Naive bayes」アルゴリズムを採用。新聞記事なら90%を正確に分類できるという、高い分類精度を誇る。分類が不正確な場合はユーザーが修正可能で、修正内容を学習することでさらに分類を正確化する。*3

「トップ」「総合」「社会」「政治・経済」「生活・人生」「スポーツ・芸能・音楽」「科学・学問」「コンピュータ・IT」「ゲーム・アニメ」「おもしろ」「動画」に分類*4

伊藤氏は「『digg』(米国のソーシャルブックマークサービス)も最初はIT関連ニュースが70%を占めていたが、カテゴリーを細分化したらIT関連を20%にまで減った」と話す。

今後、「Yahoo/yahoo」といった表記揺れへの対応など検索精度の向上・キーワードの候補語や人気キーワードを提示する機能などを追加予定。

体験版レポート(予定地)

f:id:sirouto2:20081105110253j:image

関連記事まとめ

はてな公式
メディア
はてなブロガー
ブロガー
感想(レポートを読んで)
映像
全文検索・提携会社/技術関連

関連書籍

*1:Google Analytics による

*2:はてなにインターンとして来た学生が制作

*3:ただし、最初の時点ではスタッフのみが行う、というより実際のところ、伊藤氏のみが再分類を行っている

*4:新技術による自動カテゴライズは、「社会」〜「おもしろ」の8種

投稿したコメントは管理者が承認するまで公開されません。

スパム対策のためのダミーです。もし見えても何も入力しないでください
ゲスト


画像認証