Tocotonistの日記(晴れのち快晴) RSSフィード

2009-09-13(Sun)

[SBM研究会] 第3回 SBM研究会 のメモ


追ってそれぞれについてメモや感想などをほぼ講演と同時にupしていこうと思います。

  • 1000で40人くらい。はじまりました。男性率100%。
  • 1020で60人くらい。
  • 1311で70人くらい。男性率100%回避。
  • 1400で90人くらい。
  • 1500で90人くらい。これで安定化かな。
  • 1615で80人くらい。

SBM研究会は3回目ですが、今までで最も技術よりの会だったかなぁ。

個人的には来て良かったと思ったのは、岡野原さん、malaさん、江原さんの講演でした。



第3回SBM研究会のスケジュールがFIXしました!: Tomo’s HotLine


[] 佐々木 祥さん, 上村 理さんの講演

情報爆発の時代においてはユーザのニーズに合わせた情報発見のためのシステムとして,リコメンデーションの必要性は高まっている。しかしながら参加ユーザ数の増加,嗜好の多様化により,リコメンデーションに必要となる計算量は莫大となっている。

この問題に対し,計算処理の分散方法が各種提案されているが,これらの方法は複数の計算機を使い処理を行うため経済的側面や環境的側面から見ても「エコ」ではない。そこで,推薦の精度を保ちつつ,計算量削減を実現する方法を検討する。


以下は私のメモです。

  • 佐々木さんの講演
    • 1サイトにBMするだけではなく、2つのサイト間の関係としてBMするのも良い。
      • graphのlink構造を明示的に取ることはより効果的ということでしょうね。
    • CF(Collaborative Filtering)のお話
      • scaleしない
      • 分散処理もいいがアルゴリズム的な解決を考える
      • user to uesrやitem to itemの関係を出す元データを代表的、典型的なユーザだけに絞るなど簡単に取って、多少精度は落としてもreasonableな算出をする。よくありがちな方法
      • もっともprimitiveな方法。逃げの方法。非ゼロ考慮など、大規模系の力技はエコではないし、PFIさんにお任せということかな?
  • 上村(かみむら)さんの講演
    • 3R(本講演の焦点はRecycle?)
      • Reduce
        • 計算量の削減
        • 次元圧縮のようなことみたい
      • Reuse
        • cacheのこと
        • 計算結果の再利用
      • Recycle
        • profileの構造化
        • 解析を入れるということかな?
    • 提案Algorithm
      • まずNormalized Cut
        • リンクの弱いものから落としていって、componentに分割されるとそれをtreeの分岐とする。最小スパニングツリーのKruskal Algorithmの逆みたいな話
        • greedy algorithm過ぎるのでは?
      • 汎用性を出すためにprofile選択木の登場のようだが、とりあえずの方法かも?他の方法ではなくこの方法にする必然性は不明。
      • その後に何ホップ以内など近いもののプロファイルから
      • まあ結果はでるでしょうと思ったが予想外に、それほど良い結果は出ていないみたい
    • Anti-Folksonomy

  • Q&A
    • はてなのデータセット使ったのはなぜ(チームラボの高須さん)
      • すぐ使えたから
    • 解析データ数が少ないのが、結果が良くなかった原因かと予想されているが、数が増えれば計算量や精度の面では良いのか?
      • 精度は今のアルゴリズムでは確信はない
      • 計算量はそうなると思う。
    • f-measureを詳しくない人に説明して
      • かなり分かりにくい回答している、、、
      • 具体例を出した方が分かりやすいと思う。
        • 火事と火災警報器でいえば、火事が起こった時に火災警報器が鳴る確率と、火災警報器が鳴った時に火事が起こっていないエラー率が、ともにかなえるようにした(max-min)評価値。
    • SBMがはやるには
      • SBM listにすると広まるのではないかと思っている

[] 岡野原 大輔さんの講演

私の一番のmotivationはこのセッションでした。


本発表では、SBMの推薦アルゴリズムにおける精度、処理性能向上のための手法を最新の研究成果も含めて解説する。また、実例として、はてなブックマークにおける「関連エントリ」を弊社のシステムがどのように実現しているかを解説する。


以下は私のメモです。

  • PFIはもともとPurely Functional Infrastructureやったんや
    • 岡野原さんではないが、(大田さんかな)Haskell好きだったらしい
  • CF(協調フィルタリング)に注目
  • hatenaとの開発話
    • Thrift RPCを使う
      • C++(PFI側)とPerl(hatena側)間のデータのやりとり
    • Bayesian Set解説サイト
    • はてブの「関連エントリ」、ほぼタグだけを使って計算して表示
    • 大規模レコメンデーション
      • 数が大きくないと、機械がレコメンドするメリットが薄い
      • 主記憶上に載せるのが最優先
      • 相関はO(n)は無理
      • 圧縮とLSH(Locally Sensitive Hash) O(log n)
        • LSHはいいのか?
      • LSH(解説サイト
        • この説明は容赦なかったですね。法線とかは絵を載せた方が良かったと思います。
        • 私は雑誌記事を読んでいたのでこの部分は分かりました。
  • SBMはデータがきれい(スパム少)
    • より明示的な入力ということか?
  • コメントが面白いという点は(SBMのコメントの内容を見ずに共起だけでも十分という研究をしていた)東工大さんのコメントを聞いてみたい
    • 後で松尾さんが質問

  • Q&A
    • なぜLSHなのか?次元圧縮など他にも方法はあるはずだが?
      • いろいろ試してLSHが一番良かった。
      • LSHはそんなには良くないと言っている人もいるけどなぁ?
    • なぜcosine距離なのか?(なぜL1, L2ではないのか?)
      • 他は試していないが、cosineは他のメトリックと関係性が高くはずしてないはずという予想
      • hotateではcosineでfilterして、その後に精度を上げる計算として独自のメトリックを使っている
    • タコつぼ化しないために、ユーザが知らないものを出すには?amazonでは買っていないを基準にしていいかも知れないがが、はてブではどう?
      • 重要でいいテーマ。まだやっていない。技術屋さんというより企画屋さんが決めること。
    • LSHの代表ベクトルをランダムでとるのは良い?うまく切れば良くなるのでは
      • 問題に合わせてうまく切れば良くなる可能性はある。今回は計算効率が良い点からやっていない
      • スペクトルハッシュ、主成分分析など

[SBM研究会] 福冨 諭さんの講演

LT的発表


SBMは検索に強いミニブログの一種である。URLについたコメントの一覧は、ミニブログ全体からそのURLで検索したものである。そのほかタグで検索もできる。

URLを指定しないとコメントが書けないという欠点があるので、それを補うためにダミーのURLを生成する仕組みを作った。


以下は私のメモです。

  • はてバーぶろぐ
    • はてブの弱点は、URLのないものにコメントができないことと考えてみた
    • URLのないものにはダミーURLを付けてみた
  • SBMは検索に強いミニブログとのこと
    • 確かにtinyurlやbit.lyのような短縮URLを使うと検索しにくくなるが、対策や方法論は暗号化されているものを対象にしたものと同じで展開だと思うけど、こっちの方が比較的簡単かも?
  • 問題意識はたぶん同じで、実装方法が逆
  • twitterはSBMのsuper setだと思うけど、SBMはURLを加える制約を付けて特化する特長を出しているというものなんでしょうね。汎用化とリアルタイム化している感じ

Q&A

  • どのくらいでつくれました。
  • 複数の機能(基本機能実装、Android対応など)をそれぞれ1日ずつくらい

[] 中山心太さんの講演

有名なウェブサイトはSBMに登録されやすいという特徴がある。また、フィッシングサイトは平均寿命が三日であるため、SBMに登録される可能性が低いと考えられる。

そこで、正規サイトとフィッシングサイトのSBM登録率を調べ、SBM登録率がフィッシング検知に有効かどうかを明らかにする。また、フィッシング検知にSBMを用いた場合、どのようなことが将来起こりうるのかの予測を紹介する。


以下は私のメモです。

  • phishing site検知の改善を目的とする
  • phishing siteの検出アルゴリズムのprecision/recallが悪い。92%, 97%など
  • phishing siteはSBMされない
    • phishing site自身が短命でもあり、なぜならphishing siteをSBMする人がいない
  • SBMされたのはphishing siteでないだとすれば良いのでは?
  • SBMをするには、id(account)を取る必要があるようにすれば、black list化できて、対処できるのでは?
    • SBMのされ方でも判断できるでしょうしね。
  • Q&A
    • クローラーと変わらないんじゃないか?(高須さん)
      • 確かにその通り
    • irregularなものを解析するといいんではないか?
      • 検討の視野には入っている
    • black listではなく, white listでいいんじゃないか?
      • 銀行だけだとそれでもOK、でもそれ以外だと数が大きすぎて難しいものもある

[] 山田 剛一さんの講演

ブックマークコメントは、コンテンツの制作者にとっても、コンテンツの閲覧者にとっても、気になる存在である。しかし、コメントの内容は多種多様で、読みたいものはその一部であるため、何らかのフィルタの導入が有効であると考えられる。

ここではコメントの内容を言語表現に基づき分類し、目的別にフィルタリングする手法を紹介する。


以下は私のメモです。

  • はてブコメントを色んな側面から、内容を分類して解析
    • 要約・引用コメント
    • 意見・感想コメント
      • 評価
      • 疑問
      • 予想・希望
    • 自然言語処理にこだわった解析

Q&A

  • 引用の著作権の扱いは?新聞社によってはdeep linkを禁止している(M日新聞など)
    • その辺は厳密には考えてはいない
  • タグで会話する

う〜ん、興味はあるけど、あまり金になる気がしないです

[] malaさんの講演

このセッションを聴くmotivationも高かったです。


SBMにおいてソーシャル性を加速させるためには、参加ユーザがいま何を見て 何を考え 何を感じているのかをリアルタイムに共有する仕組みがカギになります。これを支える重要な技術となる“イベント通知API”の実装を、livedoor クリップの今後の進化の方向性などともからめてお話します。


以下は私のメモです。

  • イヴェントサーバをつくって、リアルタイム情報を取得・表示する
    • デモが面白い
  • Streaming API
  • Realtime UI
  • WebHook
  • pubsubhubbubを使っているらしい
  • livedoorは, SBMを外部化して、自らはつくる予定がない
  • livedoor clipリニューアル予定
    • リアルタイム、イヴェント制御
    • 他との連携
  • 今後

Q&A

  • 収益のことはどう考えている
    • あまり考えていない
    • なんでわざわざSBMに書くのという状態を変えたい
    • SBMはentry内のコメントに対して、自分のコントロール下にありつつも、サイトと連携しているという特徴。その特長をいかしたい。
  • 新しくなるとユーザにとって何が変わる
    • リアルタイムをいかにして自分好みに変えるかが重要
  • 他のサービスとの連携は両方向でする?(よそのサービスからclip, clipからよそのサービス)
    • 両方必要だと思っている

自分は好きだしものすごく期待しているが、innovatorsやearly adaptors向けの機能かも知れませんね?

[] 江原 遥さんの講演

  • 14:55〜15:25
  • 講師: 江原 遥さん(blog
  • 所属:東京大学 情報理工学系研究科 博士課程
  • 講演タイトル:SocialDict - 英文Webページのスマートな注釈・辞書引きシステム
  • 資料upあり
  • videoあり
  • 講演概要

私はSocialDictという英文Webページのスマートな注釈・辞書引きシステムを作成しています。どのようにスマートかというと、利用者の英語力を利用者が注釈の必要な箇所をクリックしたログから推定し、Webページ中のわからなさそうな単語をあらかじめ辞書で引いておいてくれる点がスマートです。推定には、TOEFLTOEICで使われているとされる項目反応理論と等価な手法である対数線形モデルを用いています。

現在は、まだα版なのですが、9月頭あたりから開発時間が取れるので、発表までには、ある程度完成させ、下記URLにて公開できればと思います。

http://socialdict.com/


以下は私のメモです。

  • Personalizedしてユーザが知らない単語を判定し、日本語注釈して出している。
  • pythonでつくっている
  • GAE(Google App Engine)を使った
    • 卒論、修論ならこれがいい
    • 楽(accountなど)
  • google 1-gram
  • 16人の被験者は12000単語の知っている知っていないなどの正解データをいれたみたい。8時間くらいかかるとのこと。
  • SVMと比較すると、遜色ない
  • 今後
    • Smart.fmなどと連携したい
    • 単語ではなくpageの英語難易度を出す
  • 判断ロジックにはIRT(項目反応理論)
    • Rasch model
    • N-gram
    • TOEICやTOEFLの採点などにも使われている手法らしい

Q&A

  • 単語ではなく、熟語のような単語間の関係によって意味をなすものに対してはどうする
    • 課題ではある
    • 1方法として熟語リストも採用する。それ以外の方法はまだ考えていない
  • 日本語で同様のことをするとなるとどういった課題があるの?
  • 初期段階はどうする
    • 平均的なものが出てくる
    • 知らないけど、知っている判定になっているものも訂正できるから大丈夫
  • 使い勝手をどう考える
    • 単に単語を出すのも良いがサービスとしては強くないので、smart.fmでその人に必要な単語を出すなどに発展させたい

[] 島津 悠樹さんの講演

ブックマークサービス" と呼ばれるサービス形態はWWW黎明期に登場し、エンジニアの間ではポピュラーな存在です。それにもかかわらず、ウェブ検索やウェブメールのような、一般ユーザへの普及が見られないのが実情です。普及の糸口となるものは何か? ひとつにユーザーインターフェース(UI)によるアプローチがあるように思います。Yahoo!ブックマークなど具体例を交えながら、その詳細についてお話できればと思います。


以下は私のメモです。

  • SBMとは
    • コミュニケーションツールの一つ
  • WEBメールに比べてSBMが普及していない(Y!JのSBMの利用率を出されたのは適切ではないと思うが、、、)のはIFの問題
  • UIをもっと突き詰めたい
    • SBMの普及に必要
  • Web系に限らず一般的にUsabilityのお話を分かりやすく説明
  • affordanceの話(マニュアルなくても分かるUI)
  • 課題
    • 表示
      • 整理されていない
      • 情報量が多い
    • 操作
      • 一貫性
      • 操作ステップ数
      • 分からない・迷う・混乱する
      • 使える感じがしない
    • 操作結果がすぐに得られない
      • 待たされる
      • 動作がもたついている
      • 操作が完了したか否かが分からない
  • こうゆうのはY!とY!Jは別々にやってるんだろうなぁ
  • deep tag/bookmark
  • 時系列概念を持ったbookmark
  • 富豪プログラミングの増井さんのファン(会場に(私の隣に)いらっしゃる)
  • すご録のキーワードによるTV録画のようにSBMを付けたいという話
    • 未来検索、prospective search結果をRSSリーダに引いて見るので良いのでは?
      • なぜSBMでやりたいのかは不明?
  • microformatsが普及してほしい
    • hReviewの活用
    • hBookmarksの提案
  • 新サービス・新機能・新概念の構築にあたる3カ条
    • 日常生活の延長としてサービスのあり方を考える
    • 新しいものを新しいものと意識させない
    • 比喩・メタファーを活用すること
      • naming大事

Q&A

  • 携帯対応はどう考えている(Y!J Bookmarkにもmobile版がないの?)
    • 対応するべき

  • 島津さんによるUIに関するお勧め本2冊
デザインの輪郭

デザインの輪郭

行為に溶けるデザインを目指すべきとのこと。

人間は、自分で決めて働いているのではなくて、環境に動かされている。

[] 大澤 昇平さんの講演

  • 16:45〜17:25
  • 講師: 大澤 昇平さん(twitter

Twitter の登場により、知識共有はより即時的なものへとシフトしていくことが予想されます。Twitter の世界では、Retweet の仕組みにより、通常のメディアよりさらに早く、多くの人に情報をリーチすることが可能になります。

本講演では、そうした Twitter の特性を生かしたSBMサービス「oneclip」について紹介する予定です。

講演者の大澤は、ここ数年、SBMのサービスプロバイダーとして活動しています。

2006年の未踏ユースでは、swimmie という Firefox のアドオンとして動作するSBMサービスを行い、その年のスーパークリエータを受賞しております。

oneclip : http://oneclip.jp/


以下は私のメモです。

  • 北川研ではWeb関連の研究に積極的であるので、まずその研究内容紹介。
    • HITSやってる
    • 隠れマルコフモデルやってる
      • bookmarkされる頻度で区別する
        • 頻度高い: 盛り上がり(hotな) page
        • 頻度低いけど長続き: 恒久的なpage
  • オライリーsemantic webの図
  • ユーザの入力をどうとるのか?
  • 未踏でSwimmieなるものをつくった
  • twib
  • twitterはクリック率が高い
  • twitterの使い方
  • twitterのお話
  • twitter vs. SBM
    • twitterもSBMのように使われている
    • 話題の鮮度はT
    • 検索はS
      • これは投稿数の問題かな。覚えとこうとか思わなくてもtwitterは入力するし。
    • 情報の根拠: Tは友人、SBMは群衆
      • はてなはSBMを友人化へ持っていきたいようではあるが、まだまだということか?
  • tumblrには触れないのかな?
  • bookmarklet
  • 1 click ReTweet
    • ここでtumblrに触れた
  • ユーザの投稿を利用した検索エンジンを目指す

Q&A

  • 学生起業が大変な件
    • もっと空気を読めたら良かったかも
  • ターゲットは?
    • SBMは敷居が高いが、twitterならやってもいいくらいの人