2009-09-13(Sun)
■ [SBM研究会] 第3回 SBM研究会 のメモ
追ってそれぞれについてメモや感想などをほぼ講演と同時にupしていこうと思います。
- 1000で40人くらい。はじまりました。男性率100%。
- 1020で60人くらい。
- 1311で70人くらい。男性率100%回避。
- 1400で90人くらい。
- 1500で90人くらい。これで安定化かな。
- 1615で80人くらい。
SBM研究会は3回目ですが、今までで最も技術よりの会だったかなぁ。
個人的には来て良かったと思ったのは、岡野原さん、malaさん、江原さんの講演でした。
第3回SBM研究会のスケジュールがFIXしました!: Tomo’s HotLine
- 日時:2009年9月13日(日) 10:00〜18:00
- 場所:東工大大岡山キャンパス 西6号館 W631
- Twitter用公式アカウント: http://twitter.com/sbm3/
- Twitter用公式ハッシュタグ: #sbmconf
- ustream powered by 高須さん@team-lab
- http://www.ustream.tv/channel/team-lab
- 各セッションの録画もされているよ(各セッションのエントリにリンクを付けました)
- http://www.ustream.tv/channel/team-lab
- SBM用公式タグ: SBM研究会
- プレゼン資料用URL: 第3回SBM研究会プレゼン資料: Tomo’s HotLine
- 自分のサイトなどここ以外に資料を置いている方もいます
- 10:00〜10:20
- 開会の挨拶(西谷 智広:SBM研究会事務局長)
- 注意事項の周知(宮田 高道:東工大助教:ローカルコーディネーター)
- 10:20〜11:00
- 講師:佐々木 祥 ,上村 理(東京工業大学 博士課程、修士課程)
- 講演タイトル:エコメンデーション
- 11:10〜11:50
- 講師:岡野原大輔(株式会社プリファードインフラストラクチャー(PFI)特別研究員)
- 講演タイトル:SBMの推薦アルゴリズム 〜はてなブックマークのレコメンド(関連エントリ)の仕組み〜
- 13:00〜13:15
- 講師:福冨 諭(Webプログラマ)
- 講演タイトル:SBMはミニブログです。
- 13:15〜13:45
- 講師:中山心太(NTT研究所)
- 講演タイトル:SBMを利用したフィッシングサイト検知とその展望 −集合知セキュリティという考え方−
- 13:45〜14:15
- 講師:山田 剛一(東京電機大学 未来科学部)
- 講演タイトル:言語表現に基づくブックマークコメントの分類とフィルタリング
- 14:30〜15:10
- 講師:mala(株式会社ライブドア ブログビジネスユニット 開発グループ マネージャー)
- 講演タイトル:Livedoor clip おもしろ大改造計画
- 15:10〜15:50
- 講師:江原 遥(東京大学 情報理工学系研究科 博士課程)
- 講演タイトル:SocialDict - 英文Webページのスマートな注釈・辞書引きシステム
- 16:05〜16:45
- 講師:島津悠樹(ヤフー株式会社)
- 講演タイトル:ブックマークサービス普及のためのユーザーインターフェース(UI)
- 16:45〜17:25
- 講師:大澤 昇平(筑波大学 学部生)
- 講演タイトル:oneclip - Twitterでソーシャルブックマーク
- 17:25〜17:35
- 閉会の挨拶及びTwitter研究会の概要発表(西谷 智広:SBM研究会事務局)
■[SBM研究会] 佐々木 祥さん, 上村 理さんの講演
- 10:20〜11:00
- 講師: 佐々木 祥さん(twitter), 上村 理さん(twitter)
- 所属:東京工業大学 博士課程、修士課程
- 講演タイトル:エコメンデーション
- 資料upあり
- videoあり
- 講演概要
情報爆発の時代においてはユーザのニーズに合わせた情報発見のためのシステムとして,リコメンデーションの必要性は高まっている。しかしながら参加ユーザ数の増加,嗜好の多様化により,リコメンデーションに必要となる計算量は莫大となっている。
この問題に対し,計算処理の分散方法が各種提案されているが,これらの方法は複数の計算機を使い処理を行うため経済的側面や環境的側面から見ても「エコ」ではない。そこで,推薦の精度を保ちつつ,計算量削減を実現する方法を検討する。
以下は私のメモです。
- 佐々木さんの講演
- 1サイトにBMするだけではなく、2つのサイト間の関係としてBMするのも良い。
- graphのlink構造を明示的に取ることはより効果的ということでしょうね。
- CF(Collaborative Filtering)のお話
- 1サイトにBMするだけではなく、2つのサイト間の関係としてBMするのも良い。
- 上村(かみむら)さんの講演
- 3R(本講演の焦点はRecycle?)
- Reduce
- 計算量の削減
- 次元圧縮のようなことみたい
- Reuse
- cacheのこと
- 計算結果の再利用
- Recycle
- profileの構造化
- 解析を入れるということかな?
- Reduce
- 提案Algorithm
- まずNormalized Cut
- リンクの弱いものから落としていって、componentに分割されるとそれをtreeの分岐とする。最小スパニングツリーのKruskal Algorithmの逆みたいな話
- greedy algorithm過ぎるのでは?
- 汎用性を出すためにprofile選択木の登場のようだが、とりあえずの方法かも?他の方法ではなくこの方法にする必然性は不明。
- その後に何ホップ以内など近いもののプロファイルから
- まあ結果はでるでしょうと思ったが予想外に、それほど良い結果は出ていないみたい
- まずNormalized Cut
- Anti-Folksonomy
- 3R(本講演の焦点はRecycle?)
- Q&A
- はてなのデータセット使ったのはなぜ(チームラボの高須さん)
- すぐ使えたから
- 解析データ数が少ないのが、結果が良くなかった原因かと予想されているが、数が増えれば計算量や精度の面では良いのか?
- 精度は今のアルゴリズムでは確信はない
- 計算量はそうなると思う。
- f-measureを詳しくない人に説明して
- かなり分かりにくい回答している、、、
- 具体例を出した方が分かりやすいと思う。
- 火事と火災警報器でいえば、火事が起こった時に火災警報器が鳴る確率と、火災警報器が鳴った時に火事が起こっていないエラー率が、ともにかなえるようにした(max-min)評価値。
- SBMがはやるには
- SBM listにすると広まるのではないかと思っている
- はてなのデータセット使ったのはなぜ(チームラボの高須さん)
■[SBM研究会] 岡野原 大輔さんの講演
私の一番のmotivationはこのセッションでした。
- 11:00〜11:50
- 講師: 岡野原 大輔さん(blog, twitter)
- 所属:株式会社プリファードインフラストラクチャー(PFI)特別研究員, 東京大学辻井研, 辻井研の論文
- 講演タイトル:SBMの推薦アルゴリズム 〜はてなブックマークのレコメンド(関連エントリ)の仕組み〜
- 資料upあり
- videoあり
- rf. はてなおやさんの資料
- 講演概要
本発表では、SBMの推薦アルゴリズムにおける精度、処理性能向上のための手法を最新の研究成果も含めて解説する。また、実例として、はてなブックマークにおける「関連エントリ」を弊社のシステムがどのように実現しているかを解説する。
以下は私のメモです。
- PFIはもともとPurely Functional Infrastructureやったんや
- 岡野原さんではないが、(大田さんかな)Haskell好きだったらしい
- CF(協調フィルタリング)に注目
- hatenaとの開発話
- Thrift RPCを使う
- Bayesian Set(解説サイト)
- Google setsみたいなことを実現
- この辺を読めということかな?
- Bayesian Sets: DO++
- Ghahramani and Heller, NIPS 05
- mots quotidiens.
- ベルヌーイ分布とベータ分布の共役
- 積分消去
- はてブの「関連エントリ」、ほぼタグだけを使って計算して表示
- 大規模レコメンデーション
- 数が大きくないと、機械がレコメンドするメリットが薄い
- 主記憶上に載せるのが最優先
- 相関はO(n)は無理
- 圧縮とLSH(Locally Sensitive Hash) O(log n)
- LSHはいいのか?
- LSH(解説サイト)
- この説明は容赦なかったですね。法線とかは絵を載せた方が良かったと思います。
- 私は雑誌記事を読んでいたのでこの部分は分かりました。
- SBMはデータがきれい(スパム少)
- より明示的な入力ということか?
- コメントが面白いという点は(SBMのコメントの内容を見ずに共起だけでも十分という研究をしていた)東工大さんのコメントを聞いてみたい
- 後で松尾さんが質問
- Q&A
- なぜLSHなのか?次元圧縮など他にも方法はあるはずだが?
- いろいろ試してLSHが一番良かった。
- LSHはそんなには良くないと言っている人もいるけどなぁ?
- なぜcosine距離なのか?(なぜL1, L2ではないのか?)
- 他は試していないが、cosineは他のメトリックと関係性が高くはずしてないはずという予想
- hotateではcosineでfilterして、その後に精度を上げる計算として独自のメトリックを使っている
- タコつぼ化しないために、ユーザが知らないものを出すには?amazonでは買っていないを基準にしていいかも知れないがが、はてブではどう?
- 重要でいいテーマ。まだやっていない。技術屋さんというより企画屋さんが決めること。
- LSHの代表ベクトルをランダムでとるのは良い?うまく切れば良くなるのでは
- なぜLSHなのか?次元圧縮など他にも方法はあるはずだが?
■ [SBM研究会] 福冨 諭さんの講演
LT的発表
SBMは検索に強いミニブログの一種である。URLについたコメントの一覧は、ミニブログ全体からそのURLで検索したものである。そのほかタグで検索もできる。
URLを指定しないとコメントが書けないという欠点があるので、それを補うためにダミーのURLを生成する仕組みを作った。
以下は私のメモです。
- はてバーぶろぐ
- SBMは検索に強いミニブログとのこと
- 確かにtinyurlやbit.lyのような短縮URLを使うと検索しにくくなるが、対策や方法論は暗号化されているものを対象にしたものと同じで展開だと思うけど、こっちの方が比較的簡単かも?
- 問題意識はたぶん同じで、実装方法が逆
- twitterはSBMのsuper setだと思うけど、SBMはURLを加える制約を付けて特化する特長を出しているというものなんでしょうね。汎用化とリアルタイム化している感じ
- この辺の議論はTwitter研究会でなされるんだろう
Q&A
- どのくらいでつくれました。
- 複数の機能(基本機能実装、Android対応など)をそれぞれ1日ずつくらい
■[SBM研究会] 中山心太さんの講演
有名なウェブサイトはSBMに登録されやすいという特徴がある。また、フィッシングサイトは平均寿命が三日であるため、SBMに登録される可能性が低いと考えられる。
そこで、正規サイトとフィッシングサイトのSBM登録率を調べ、SBM登録率がフィッシング検知に有効かどうかを明らかにする。また、フィッシング検知にSBMを用いた場合、どのようなことが将来起こりうるのかの予測を紹介する。
以下は私のメモです。
- phishing site検知の改善を目的とする
- phishing siteの検出アルゴリズムのprecision/recallが悪い。92%, 97%など
- phishing siteはSBMされない
- phishing site自身が短命でもあり、なぜならphishing siteをSBMする人がいない
- SBMされたのはphishing siteでないだとすれば良いのでは?
- SBMをするには、id(account)を取る必要があるようにすれば、black list化できて、対処できるのでは?
- SBMのされ方でも判断できるでしょうしね。
- Q&A
- クローラーと変わらないんじゃないか?(高須さん)
- 確かにその通り
- irregularなものを解析するといいんではないか?
- 検討の視野には入っている
- black listではなく, white listでいいんじゃないか?
- 銀行だけだとそれでもOK、でもそれ以外だと数が大きすぎて難しいものもある
- クローラーと変わらないんじゃないか?(高須さん)
■[SBM研究会] 山田 剛一さんの講演
ブックマークコメントは、コンテンツの制作者にとっても、コンテンツの閲覧者にとっても、気になる存在である。しかし、コメントの内容は多種多様で、読みたいものはその一部であるため、何らかのフィルタの導入が有効であると考えられる。
ここではコメントの内容を言語表現に基づき分類し、目的別にフィルタリングする手法を紹介する。
以下は私のメモです。
Q&A
- 引用の著作権の扱いは?新聞社によってはdeep linkを禁止している(M日新聞など)
- その辺は厳密には考えてはいない
- タグで会話する
う〜ん、興味はあるけど、あまり金になる気がしないです
■[SBM研究会] malaさんの講演
このセッションを聴くmotivationも高かったです。
- 14:30〜14:55
- 講師: malaさん(blog, blog about tech.)
- 所属:株式会社ライブドア ブログビジネスユニット 開発グループ マネージャー via h
- 講演タイトル:Livedoor clip おもしろ大改造計画
- 資料upなしかな
- videoあり
- 講演概要
SBMにおいてソーシャル性を加速させるためには、参加ユーザがいま何を見て 何を考え 何を感じているのかをリアルタイムに共有する仕組みがカギになります。これを支える重要な技術となる“イベント通知API”の実装を、livedoor クリップの今後の進化の方向性などともからめてお話します。
以下は私のメモです。
- イヴェントサーバをつくって、リアルタイム情報を取得・表示する
- デモが面白い
- Streaming API
- Realtime UI
- WebHook
- pubsubhubbubを使っているらしい
- livedoorは, SBMを外部化して、自らはつくる予定がない
- Greasemonkeyでマッシュアップ
- OAuthで権限委譲
- はてブならWebHooksに期待
- livedoor clipリニューアル予定
- リアルタイム、イヴェント制御
- 他との連携
- 今後
- livedoor Reader & livedoor clip
- Streaming API
- Realtime UI
Q&A
- 収益のことはどう考えている
- あまり考えていない
- なんでわざわざSBMに書くのという状態を変えたい
- SBMはentry内のコメントに対して、自分のコントロール下にありつつも、サイトと連携しているという特徴。その特長をいかしたい。
- 新しくなるとユーザにとって何が変わる
- リアルタイムをいかにして自分好みに変えるかが重要
- 他のサービスとの連携は両方向でする?(よそのサービスからclip, clipからよそのサービス)
- 両方必要だと思っている
自分は好きだしものすごく期待しているが、innovatorsやearly adaptors向けの機能かも知れませんね?
■[SBM研究会] 江原 遥さんの講演
- 14:55〜15:25
- 講師: 江原 遥さん(blog)
- 所属:東京大学 情報理工学系研究科 博士課程
- 講演タイトル:SocialDict - 英文Webページのスマートな注釈・辞書引きシステム
- 資料upあり
- videoあり
- 講演概要
私はSocialDictという英文Webページのスマートな注釈・辞書引きシステムを作成しています。どのようにスマートかというと、利用者の英語力を利用者が注釈の必要な箇所をクリックしたログから推定し、Webページ中のわからなさそうな単語をあらかじめ辞書で引いておいてくれる点がスマートです。推定には、TOEFLやTOEICで使われているとされる項目反応理論と等価な手法である対数線形モデルを用いています。
現在は、まだα版なのですが、9月頭あたりから開発時間が取れるので、発表までには、ある程度完成させ、下記URLにて公開できればと思います。
以下は私のメモです。
- Personalizedしてユーザが知らない単語を判定し、日本語注釈して出している。
- pythonでつくっている
- GAE(Google App Engine)を使った
- 卒論、修論ならこれがいい
- 楽(accountなど)
- google 1-gram
- 16人の被験者は12000単語の知っている知っていないなどの正解データをいれたみたい。8時間くらいかかるとのこと。
- SVMと比較すると、遜色ない
- 今後
- Smart.fmなどと連携したい
- 単語ではなくpageの英語難易度を出す
- 判断ロジックにはIRT(項目反応理論)
- Rasch model
- N-gram
- TOEICやTOEFLの採点などにも使われている手法らしい
Q&A
- 単語ではなく、熟語のような単語間の関係によって意味をなすものに対してはどうする
- 課題ではある
- 1方法として熟語リストも採用する。それ以外の方法はまだ考えていない
- 日本語で同様のことをするとなるとどういった課題があるの?
- 単語分割(=形態素解析?)が必要なるくらい
- 初期段階はどうする
- 平均的なものが出てくる
- 知らないけど、知っている判定になっているものも訂正できるから大丈夫
- 使い勝手をどう考える
- 単に単語を出すのも良いがサービスとしては強くないので、smart.fmでその人に必要な単語を出すなどに発展させたい
■[SBM研究会] 島津 悠樹さんの講演
- 15:40〜16:45
- 所属:ヤフー株式会社
- 講演タイトル:ブックマークサービス普及のためのユーザーインターフェース(UI)
- 資料upなし(後日にまとめなおしてY!J tech blogに載せ、今回の資料保管庫にリンクをはる予定とのこと)
- videoあり
- 講演概要
ブックマークサービス" と呼ばれるサービス形態はWWW黎明期に登場し、エンジニアの間ではポピュラーな存在です。それにもかかわらず、ウェブ検索やウェブメールのような、一般ユーザへの普及が見られないのが実情です。普及の糸口となるものは何か? ひとつにユーザーインターフェース(UI)によるアプローチがあるように思います。Yahoo!ブックマークなど具体例を交えながら、その詳細についてお話できればと思います。
以下は私のメモです。
- SBMとは
- コミュニケーションツールの一つ
- WEBメールに比べてSBMが普及していない(Y!JのSBMの利用率を出されたのは適切ではないと思うが、、、)のはIFの問題
- UIをもっと突き詰めたい
- SBMの普及に必要
- Web系に限らず一般的にUsabilityのお話を分かりやすく説明
- affordanceの話(マニュアルなくても分かるUI)
- 課題
- 表示
- 整理されていない
- 情報量が多い
- 操作
- 一貫性
- 操作ステップ数
- 分からない・迷う・混乱する
- 使える感じがしない
- 操作結果がすぐに得られない
- 待たされる
- 動作がもたついている
- 操作が完了したか否かが分からない
- 表示
- こうゆうのはY!とY!Jは別々にやってるんだろうなぁ
- deep tag/bookmark
- 時系列概念を持ったbookmark
- 富豪プログラミングの増井さんのファン(会場に(私の隣に)いらっしゃる)
- すご録のキーワードによるTV録画のようにSBMを付けたいという話
- microformatsが普及してほしい
- hReviewの活用
- hBookmarksの提案
- 新サービス・新機能・新概念の構築にあたる3カ条
- 日常生活の延長としてサービスのあり方を考える
- 新しいものを新しいものと意識させない
- 比喩・メタファーを活用すること
- naming大事
Q&A
- 携帯対応はどう考えている(Y!J Bookmarkにもmobile版がないの?)
- 対応するべき
- 島津さんによるUIに関するお勧め本2冊
誰のためのデザイン?―認知科学者のデザイン原論 (新曜社認知科学選書)
- 作者: ドナルド・A.ノーマン,D.A.ノーマン,野島久雄
- 出版社/メーカー: 新曜社
- 発売日: 1990/02
- メディア: 単行本
- 購入: 28人 クリック: 778回
- この商品を含むブログ (266件) を見る
- 作者: 深澤直人
- 出版社/メーカー: TOTO出版
- 発売日: 2005/11/10
- メディア: ハードカバー
- 購入: 7人 クリック: 85回
- この商品を含むブログ (121件) を見る
行為に溶けるデザインを目指すべきとのこと。
人間は、自分で決めて働いているのではなくて、環境に動かされている。
■[SBM研究会] 大澤 昇平さんの講演
- 16:45〜17:25
- 講師: 大澤 昇平さん(twitter)
- 所属:筑波大学 学部生
- 講演タイトル:oneclip - Twitterでソーシャルブックマーク
- 資料upなしかな
- videoあり
- 講演概要
Twitter の登場により、知識共有はより即時的なものへとシフトしていくことが予想されます。Twitter の世界では、Retweet の仕組みにより、通常のメディアよりさらに早く、多くの人に情報をリーチすることが可能になります。
本講演では、そうした Twitter の特性を生かしたSBMサービス「oneclip」について紹介する予定です。
講演者の大澤は、ここ数年、SBMのサービスプロバイダーとして活動しています。
2006年の未踏ユースでは、swimmie という Firefox のアドオンとして動作するSBMサービスを行い、その年のスーパークリエータを受賞しております。
oneclip : http://oneclip.jp/
以下は私のメモです。
- 北川研ではWeb関連の研究に積極的であるので、まずその研究内容紹介。
- HITSやってる
- 隠れマルコフモデルやってる
- bookmarkされる頻度で区別する
- 頻度高い: 盛り上がり(hotな) page
- 頻度低いけど長続き: 恒久的なpage
- bookmarkされる頻度で区別する
- オライリーのsemantic webの図
- ユーザの入力をどうとるのか?
- 未踏でSwimmieなるものをつくった
- リアルブックマークっぽい オンラインSBM
- twib
- twitterはクリック率が高い
- twitterの使い方
- コミニュケーションツールとして
- ブロードキャストツールとして
- twitterのお話
- twitter vs. SBM
- twitterもSBMのように使われている
- 話題の鮮度はT
- 検索はS
- これは投稿数の問題かな。覚えとこうとか思わなくてもtwitterは入力するし。
- 情報の根拠: Tは友人、SBMは群衆
- はてなはSBMを友人化へ持っていきたいようではあるが、まだまだということか?
- tumblrには触れないのかな?
- bookmarklet
- 1 click ReTweet
- ここでtumblrに触れた
- ユーザの投稿を利用した検索エンジンを目指す
Q&A
- 学生起業が大変な件
- もっと空気を読めたら良かったかも
- ターゲットは?
- SBMは敷居が高いが、twitterならやってもいいくらいの人
■[algorithm] Complement Naive Bayes
新はてなブックマークでも使われてるComplement Naive Bayesを解説するよ - 射撃しつつ前転
良い解説。
Classifierとして、1箇所に決めるなら良いけど、それぞれに分類される確率を求めるのは+αとしてちょっとした算数すればいいだけなんかな。


