崩壊現実-全てはvirtualに収束する-

この日記について|本棚|ブックマーク|Wiki|ついったー部日記
Twitter用人工無脳http://twitter.com/ha_ma寄付
crochet(凍結中)http://d.hatena.ne.jp/showyou/20000101
twitter bot アンケートhttp://d.hatena.ne.jp/showyou/20091225/1261712029

2011-12-30

今年一年を振り返る

去年も同じ事やってますが、今年も振り返ります


去年もいろいろ動きがあったけど今年もいろいろありました。というかありすぎました。でかいとこで言うと

  • 30になった
  • 転職した
  • 海外行った
  • 大地震食らって歩いて帰った
  • sinsai.infoに参加した

辺りです。


目標を去年、一昨年の結果と比較してみます

GAE
 一応サービス動かしてます。それ以降はあまり触ってないです。Kayは使いやすいのでWebサービスつくるならまた利用してもいいかもしれないですね
並列フレームワーク、KVS
 Hadoop, Cassandraあたり軽く触りますが、結局のとこTokyo Cabinetに落ち着いちゃってます。Kyoto tycoonは便利なのかな?Hadoopはなんか課長がノリ気?っぽいのと並列計算がそろそろ欲しくなってきたのでまた触る可能性高いです
「心」をもった人工無脳へ。連続性が重要
 このへんアバウト過ぎる目標ですが、PRMLに参加してHMMやCRFを知ったり、SIG-WI2でしましませんせいのおはなしを聞いて若干道を見つけたかなぁという気がします。モデルをきちんと作って学習するのがいいでしょうか
なんかしかけたい(仕事関係)
 別に仕掛けたわけじゃないですが無事に復帰できてフル勤務まで戻ってます。これが家族や友人に一番危惧されてた
さらによかったことを書いておきます。
 PRMLに参加したりして、LDAとかガウス分布の基礎とかを知りました
 今年後半はMySQLいじったりして、まだまだですが少し詳しくなりました
一方で今年残念なこともあります
 本の積ん読が多かったです。興味あるもんを少しずつ買っていったからなぁ
 まだ体調が全快はしてなくて、ちょくちょく休んではいます
 後半は仕事に注力してて、なかなかベイジアンとか数学とかに手が出せませんでした
 英語とかまだまだ不自由です。日本語もですが
 最近pythonばかり触ってて馬鹿なアルゴリズムになってて処理の無駄が多いです。後半勉強しようと思ってできてないですね

GAE全然触ってないです。前半AWSは触ってましたが(主にsinsai.info)。Hadoopは自宅でもちょくちょく動かしてましたが転職によりガチで使っています。Pigスクリプトもう見たくない・・人工無脳関連はやる時間あったのに進んでません。自主的にやるのはなかなか進まないですね。外部に発表とかで締め切り決めるかなぁ。仕事は仕掛けました。というかかけられた?年明け早々にエージェントに誘われて震災後に面接して決まりました。今更ですが経歴なんていくらでも偽れるしGithubとかにソース公開したほうが、エンジニア履歴書としてマシらしいです。アルゴリズムとか数学とかあまりやって・・AI-classはやりました。アメリカにも行って英語力上がったか・・と思ったらTOEIC落ちてました。まあ震災TOEIC延期になってそれ以来転職やらで全然勉強してなかったのもありますが。

それを踏まえて来年の目標を挙げます。
 積んでる本を片付ける。でもそれ以上にいろいろ買うだろうけど
 アルゴリズムを勉強する
 TOEICをとりあえず600点目指す其の次は700。できれば海外も行きたい。
しかしもっと全体的に目標立てるとこんな感じでしょうか。
 笑う。今年も比較的ポジティブよりに考えることで物事がいい方向にむかったので、これを続けます
 体調は引き続き気をつける
 もっと他人を信じる。というか少し期待と違ってても認めてあげる

本はまだ積んで読んで繰り返してます。ただ昨年積んでたHadoop本x2は今年やたら役に立ちました。アルゴリズムは考えずに富豪的に回しすぎたので来年は考えます英語TOEIC別にいいとして話したりはできたほうがいいですが、対面にアメリカ人いるので話せばいいだけですね。ポジティブ・・前半はよかったけど終盤はダメダメだったよ!


体調は一応気をつけてて土日は休むのに専念してて勉強会休んだり途中で帰ったりして維持してます。たまに風邪引いたりして寝込んだくらいです。他人を信じる・・ぜんぜんできてなかったなぁ。すいません。


来年目標

あと今年サンフランシスコ・シリコンバレー行きましたがまた海外行きたいです。長時間飛行機乗ると疲れるのでアジアくらいがいいです。台湾とか?北海道にもまた遊びに行きたいです。

2011-12-28

会社にHadoopを入れて、適切に使いこなすための方法

既に導入実績のある会社に転職する


・・は身も蓋も無いので少しまじめに考えますと、Hadoopを入れようと思った場合上司には2パターンの問題が出てきます


1. 「Excelと何が違うの?」という上司

2. 「Hadoop最強!なんでもできるよ!」と過剰な期待を持ってる上司


Excelと何が違うの?という上司

計算時間の違いを説明するといいんじゃないでしょうか。まあ計算時間の説明するならその前にスクリプト言語が出てきそうですが。単発マシンだとどうしても処理できる件数に天井が出てくるので、その辺のデータがあればいいです(GB単位メモリに乗らないレベル)。ところで最近普通マシンでも32GBくらい2万で積めますね。


それと、一般にはあまり知られてないかもしれませんがBIツールを使うのも手かもしれません。


そもそも扱ってるデータ量がHadoopを必要としないのかもしれません。その場合は大量データを扱ってる会社に転職しましょう。


Hadoop最強!なんでもできるよ!」と過剰な期待を持ってる上司

上の上司よりタチが悪いです。自分も詳しくないですが、少なくとも並列で回せるものほど早く、Map->Suffle->Reduce->Mapを繰り返すとものすごく遅いでしょう。できることとできないことをHadoop原理でも交えて説明したほうがいいと思います。用途によってはJubatusなんかがMap繰り返すやつよりでは早いのかもしれません。まだ開発中だけど。


それでも無理やりHadoopねじ込もうとするかもしれません。そんな会社長くないんで転職しましょう。転職先とか下の広告に載ってそうですね。


それか、もしくはid:shiumachiせんせーにお願いすると説明とか行ってくれるかもしれません。


余談ですが、別に自分も軽くHadoop触ってる程度ですが、今のビッグデータの騒ぎ方が若干数年前のクラウドとおんなじような感じで変な印象をもちます

ビッグデータ扱えてよろこぶ→扱いきれずにへこたれるっていう世界がもうすぐやってきそうです。

2011-11-27

第16回データマイニングWeb勉強会に参加しました

http://d.hatena.ne.jp/hamadakoichi/20111127/p1

参加してきました!

元々Kafkaに興味があったので聞きにきました。HadoopというよりRabbitQueueとかの一体化したパッケージという感じでした。この辺り少し試してみたいです。


2とか4の話は、業務に結構役立ちそうだと感じました。具体的には言えませんがw


ログ

1.Kafka(@yanaoki)
 大規模リアルタイム処理
 Facebook Insights
 Google Analytics
   UUの計算をリアルタイムで出すのが早い!
 Twitter Web Analytics
   Linkedin
     解析基盤Kafkaを開発
        運用監視
        リアルタイムに検索結果に反映
       
  Q:KafkaやStormはHadoopの上で動いているの?
  A:Hadoopは使っていない

     モデル。Producer, Kafka, Consumerとある。
  Flume, Scribeと違ってフロントからバックエンドに押し出すわけじゃなく、ProducerからKafkaに押し込み、Consumerは自分で取りに行く

    メッセージング設計
    Pub/Subメッセージングモデル    -> 応答性能が本来悪いがKafkaではコンシュマーが持つことでパフォーマンスを持つ

    分散に関する設計
     ・ロードバランサ
   プロデューサ/ブローカー間 パーティションで決める
   ブローカー/コンシュマー間 ZooKeeperが持つ接続情報
  ・コンシュマーグループ機能
   各コンシュマーグループに1つずつデータを投げる
                  実際にデータを用意して流れを説明するのは分かりやすい

     Q:プロデューサからKafkaに対し流すメッセージは冗長化されるのか?→されない
     Hadoopとかの対抗というより、RabbitMQの代わりと思ったほうがよい

     実験 KafkaでPumaみたいのを実験
  Twitterのログからja, enでHBASEにインクリメントする
   HBASEはEC2?いくら掛かるんだろう?
     Hadoopとの連携
  可能

     Q:データはいつまで蓄積されるのか?>expired timeが設定できる


ToDo: HBASEマシン欲しいなぁ。->今回用意したのはsmallx2. smallがっつり回すと3000円くらい。largeだと10000円くらい
自分でHDD5台用意すべきか?


2. データマイニング現場24時(kan_yukiko)
 ALBERTのデータマイニング現場の紹介
       レコメンドエンジンのチューニング、データ分析
  顧客からの分析依頼対応

   独自アルゴリズム作成コンサルティング
   Q:大規模はどのくらい? 現商品80万件 100万件
   ユーザ規模:4-500万人

   広告配信最適化のためのデータマイニング
   試行錯誤の連続

 データマイニングのひらめきを得るには
 1.分析課題に対する理解を深める
 2.分析手法に対する理解
 3.結果に対する理解

 形式を大胆に変える
  1/0データ <-> n/0データ
    非階層型クラスター分析では大きな違いが出ることがある
    大胆に変える
  商品ID→カテゴリ、テイスト、ブランドに分けて共起スコアの高いものを出す
 Color Taste Brand


 ALBERTの分析事例
   購入金額で顧客が買ってるカテゴリを推定
   買いたいタイミングを予測
   どんなカテゴリで商品を買って優良顧客になったか分析する
   推薦すべきカテゴリとそのタイミング
       長期間買わないものと短期間買うものを判別
 
   データマイニングはビジネスになるか?→Yes
       データはあるが分析ができない
   データ量が多すぎる/分析者が居ない/小難しそう
    →顧客分析、商品分析レポート
   分析結果からのアクションが思いつかない
    分析しただけで満足→分析結果の満足
     分析負荷が高い
     →ソリューション提供
      ソーシャル系は多いがソーシャルゲーム系はいない

   どういう時に施策に生かされやすいか
  実際に動く部門と一緒に動くのがいい


3.機械学習を使った英語習熟度の推定@langstat
 英語習熟度の判定の現状と課題
 日本人学習者の英作文のマイニング→習熟度の推定、日本人とネイティブの差の分析

   習熟度の推定ができない
 統一的な基準がない
 統計モデルもない
   学習者コーパス
  学習者が実際に算出したコーパス。習熟度別に言語の変更を見る
   Hylandのメタ談話標識
 分類方法:ランダムフォレスト
 1) 精度が高い
   2) 結果がわかりやすい
    Q:SVMはKernelにRBF使ったか? 使ったほうが性能あがるのでは?
  A:メモリ足りなかった 

   Q: 間違った20%での中でいい情報はあったか? 分野が違うと用法が異なってくる
   Q: 回帰させれば5段階だせるのでは?


4.売上予測のテキストからの分析@stakemura
    大本[Mishene 05]Blogから映画の売上の予測
 [Tumasjan 10],[Bolle 10], [Zhang 10] Twitterからの売上予測
    Q:ドロリッチや花王の不買運動は予測できたのか?
 Appleのレーティングから評価と売上の比較
 →ずっと売れてるタイトルは高い評価
  だが、評価が高いからといって売れ続けるとは限らない。

 評判分析アプローチ
      SentiWordNet converter

 分析方法
  1.教師あり機械学習
  Luceneから始めるのがおすすめ
      BM25でストップワードを検出した
      Naive Bayes vs 最大エントロピー ->後者の方がいい

 Q:テキストマイニングはどのタイミングでかけると効果的だろうか?

2011-11-22

寒くなってきた

最近は上着・・は別に普通のでいいけど、手先が結構つめたくなってきた。

2011-10-12

サンフランシスコに行って来ました

初めての海外旅行でしたが、サンフランシスコとシリコンバレーに行ってきました。

自分のスキル

英検は準二級まで

TOEIC は500点

ゆっくりならば聞き取れる。早いとぜんぜん無理。あと文法とかうろ覚え。発音は悪い

外国ははじめて

準備

  • パスポート、旅券、ホテルを手配しました。
  • またビザの代わりにESTAを申請しました。
  • ネットはローミングすると高いので無線LANの端末を5日7000円で借りました。

1日目

まずサンフランシスコに行く便がいきなり機材故障で5時間遅れ。仕方ないのでロサンゼルス行きの飛行機に乗りました。

行きはロスまで大体7時間半かかりました。中でRatatouille(レミーのおいしいごはん)とかカンフーパンダ2とか観てました。エコノミーは基本日本の電車より狭いのでスリッパとか持って行ってくつろいぐといいです。というかくつろがないとエコノミー症候群なります


ロスではまず入管でホテルの予約表がなくて怒られました(パスポートでチェックインできるしメールにしか予約表なかったけどネットに接続出来なかった)。日本語通じる係員に対応してもらってなんとかなりました。まあよっぽどのことが無い限り何らかしら引っかかるんじゃないでしょうか。言葉わかんないし。次に乗り換え便の場所がわからなくて係員に聞きました(隣のターミナルまで外でて歩くとか思いもしなかった)。


サンフランシスコに着いたあとはBartで中心部(ユニオンスクエア)まで行きました。運賃地下鉄の割に高く見えましたが実際距離もあるんでしょう。優先席の案内が「障害のある方や老人に席を譲らないと連邦法により処罰されることがあります」とかでものものしかったです。あと日本みたいに「次は何何」とかあまり言わないので、うっかり降り過ごしそうです。


サンフランシスコは結構急な坂のある町でした。簡単にいうとマクロスF。

ホテルで予約表見せたら「日本語からないの」と言われてしまいました。パスポート見せればよかった。。

ホテルは値段の割に結構広くて綺麗でした(後に友人から聞いた話だとアメリカはデフォルトで2人分かららしい)。あと壁が薄くて隣の部屋の音が(喘ぎ声とかも)結構聞こえました。


ユニオンスクエアの辺り軽く歩いていたら、抗議デモが見えてきました。Occupy Wall Streetのサンフランシスコ版(OccupySF)でした。OccupySFと叫んでるだけなんで別に襲われるってこともないと思います時間を問わず何回もやってました。


初日の夜は近所の安めの定食屋でディナー。初めてチップを出してみました。この辺日本人だとまず概念がないですね。


夜ホテルで止まってたらいきなり火災警報器みたいのが鳴って、「火災が発生したので即座に逃げ出してください」といった感じのアナウンスがされました。結局誤報だったのでよかったですが、初日にいきなり荷物すてて逃げるはめになりそうでした。。

2日目

この日は市内を観光。ケーブルカーに乗りフィッシャーマンズワーフに行って船を見た後、船で対岸のサウサリートに行きバスで戻って来ました。ケーブルカーは思ったより力技でブレーキをかけていました。下るときはジェットコースターみたいです。

フィッシャーマンズワーフではアルカトラズ島が見えましたがあれって案外近いですね。本当に逃げられなかったのでしょうか。


バスのシステムとかがわかってなくて、サンフランシスコ市内の公共交通で使える1日乗車券が使えなかったり入れたお金でお釣りが帰って来なかったりしました。市内は日中でも人少ないとこが物騒ですね。


U.C.バークレーでも見ようかと思いましたが、英語でやりとりするのに疲れたので行かずにホテルで休んでました。日本食やで日本語使えて涙が出てきました。

3日目

カルトレインでサンノゼまで行きました。途中(Xeroxとかスタンフォード大のある)パロアルトとか(Googleで有名な)マウンテンビューとか通りました。シリコンバレーは工業団地なイメージがありましたが、実際は100キロくらいある工業都市群って感じで広かったです。車社会でほとんど鉄道乗らないっすね。


その後友人に迎えに来てもらい友人とシリコンバレーの本社等を観てきました。


まずはクパチーノのアップル、

次にマウンテンビューのGoogle、

そしてスタンフォード大を観てきました。


アップルではジョブズ追悼で花などが備えられてました。Googleももっと小さいオフィスかと思ったら研究所みたなのが何棟も立ってました。

スタンフォード大はゆったりしていて綺麗で、いる人も頭良さそうな感じでした。

ところでこれらの環境に比べて日本は大分環境劣ると思うんですが、こんな条件下でガチでぶつかって果たして勝てるんでしょうか?

4日目

友人に車で空港まで送ってもらい、サンフランシスコ空港から成田まで戻って来ました。飛行機トラブルで二時間到着が遅れました。ここではパイレーツオブカリビアンとかフレンズが上映されてました。フレンズは英語勉強によさそうですね(性的な意味で)

まとめ

  1. Visa カードは持ちましょう。VISA>現金>>>>>>>>JCB
  2. 入国に必要なのはビザじゃなくてESTAです(アメリカ限定?)。期間によってビザかもしれない。
  3. パスポートは肌身離さない。なくすと日本帰れなくなります(大使館行けばいいんだろうけど)
  4. twitter, facebookは本家の国だけあって快適ですが、日本のWebサービスは物理的に遅くて繋がらないことが有りました。
  5. twitterやってると、ほっといても日本との時差がわかるようになる
  6. 文法とかより文化的に知らないことが多かった。チップとか鉄道の乗り方とか
  7. 英語は日本で案内として流れてるより大分速い。なんべんも聞き返してたので速い英語にに慣れたい
  8. 飲み水は買うもの
  9. ネットにない情報も多いしガイドブックはあると便利
  10. 初めて海外いくなら台湾とか韓国の方がいいかも。英語通じるか知らないけど
  11. OccupyWallStreetにちなんでOccupySFと叫ぶのが一日に何回も(夜中も)行われていた
  12. 基本的に語学力低いからって海外行かないのってもったいないと思うので行ってみるといいと思います。大変ですが。大変だから勉強するしか無いっすね。。。

f:id:showyou:20111010083511j:image

f:id:showyou:20111010083217j:image

f:id:showyou:20111010083113j:image

f:id:showyou:20111010082723j:image

f:id:showyou:20111010062458j:image

f:id:showyou:20111010062341j:image

f:id:showyou:20111010062232j:image

f:id:showyou:20111010061521j:image

f:id:showyou:20111010044310j:image

f:id:showyou:20111010070635j:image

f:id:showyou:20111010044035j:image

f:id:showyou:20111009235832j:image

f:id:showyou:20111009014948j:image

f:id:showyou:20111008074412j:image

f:id:showyou:20111009030345j:image

f:id:showyou:20111009024734j:image

f:id:showyou:20111009031034j:image

筆者:Showyou http://www3.to/showyou