Hatena::ブログ(Diary)

糞ネット弁慶

日本声優統計学会/声優統計についてはこちら

2009-08-29

[]NTTサイバーソリューション研究所でインターン 11:51 NTTサイバーソリューション研究所でインターンを含むブックマーク

Super Driver

Super Driver

インターン中毎朝バスの中で聴いてた曲。

というわけで8月はずっとYRP野比にあるNTTサイバーソリューション研究所でインターン(正確には夏季実習)してた。

テーマとしては、WebページのリンクデータからSPAMサイトを見つける古典的な問題を改善しつつ、途中からかなり新しい方向に進んで行ったりして、成果としては素晴らしい進歩があったというわけではないけれども、なんとかそれっぽい形にまとめて終了という感じ。

きっかけ

きっかけは学校から案内が来ていたこと。テーマはRuby機械学習などお馴染みのものが見えたので、受かったら運がいいかなぐらいの気持ちで送付。どうせ夏休みに研究室に通うわけでもなし、id:syou6162はてなインターンに行ってしまうしでやる事無かったし。

動機

動機として一番強かったのはid:mamorukさんの

大学院生の夏休みの過ごし方ガイド - 生駒日記

だと思う。上の記事だけでなく、Twittermamorukさんのpostを見るたびに「インターン楽しそうだのう」と思っていた。

また、一か月と期間が長いことも魅力的だった。恐らく一か月もあればじっくりと取り組めるだろうし、企業の研究所とか見たこともないから雰囲気を知ってみたかったし、天下のNTTだから一学生のクローラじゃ及びもつかないような大量のデータが貯め込んでありそうだし、それを処理するための計算機資源も潤沢そうだし、きっとHadoopなんかも回して計算できそうだし、何より選りすぐりの頭のいい人が大量にいるに違いない。他のインターン生だってそりゃもう凄い人ばかりだろう。そういう人達から色々学んだり刺激を受けたりしたいというどうしようもない期待を胸に応募。

実習

 実習始まってみるとno title経由で来てる学生が非常に多くて、最初のころは「なんで筑波のカッペが来てんだよ水戸納豆くせぇ」という視線をひしひしと感じて非常に疎外感を味わった。ホテルで会った人に「え、ITSPじゃない人ってなんで来てるんですか?」とか聞かれたしやばかった。でもまぁそんな気分も最初だけですぐに同じ部署の人とも仲良くなり、帰りのバスでは毎日「***が上手くいかない」「今日は***が何とか進んだ」などの相互進捗報告が繰り広げられ、よく言えば切磋琢磨悪く言えば牽制しあう仲となった。

テーマとしてはこれまでの分析を引き継ぐ形だったのでデータ構造とアルゴリズム、既存の分析結果などのレクチャーを受けた後はゴリゴリと論文読む→応用を考える→実装/実験するの繰り返しだった。テーマは古典と言えば古典なので腐るほど論文があるのでネタは尽きないけど、後半は論文が一つもないエリアに突入したのでなかなか辛かった。「後半の課題がうまくいけば論文になりますが…」とは指導者の方のお言葉だがそれを示すためにはあと一か月ほど時間が足りなかった。ウケる。

 席はブースで区切られた一区画にデスクトップとモニタが与えられる感じ。各自ブースで作業をしつつ、判らないことがあったら指導者の方の席に行って話しを聞いたり、ちょっと長くなりそうだと会議室に移動して話をしたり。お菓子がまとめて置いてあるテーブルがあったが怖くて結局手を出せなかった。そういう意味では「普通の研究室ってきっとこんな感じなんだろうなー」とかしみじみと思った。

 計算環境は非常に素晴らしいというか、まったくもってストレスフリー。メモリが128GByteもあるサーバなんて見たこと無かったし、こりゃメモリの心配せず済むうひひと思いながら読んだファイル全てHashに載せて好き放題計算した。Hadoopも使わせてもらえたので、Hadoop Streamingすげー標準入力から入れて標準出力に書くだけじゃんまじすげーという感じでうひうひした。あんなの使ってしまうと研究室のサーバなんかには戻れない。欲しい。メモリがあれば何でもできる。

 実習中は何度も他の部署のデモを見せてもらえた。いくつか見覚えのあるサービスもあり、「これを作ったのはあそこの席にいる人かー」など思ったり、建物が同じ通信研究所とはいえ、研究所が違えば内容もかなり違うのだなーとか感じたり。

 最終日一日前には部署内の人を集めるミーティングで実習生が発表。発表時間13分しかないのでスライドに詰め込むだけ詰め込んでも質疑応答でこちらの意図を汲みまくった質問ばかり飛んできてうおおおおとか思いつつも答えたり人によっては発表の長所を引き出してくれるかのように誘導する質問をしてくださったり。そんな感じで終了したあとは分析の引き継ぎをやったりして帰宅。指導者の方も「もし余裕があるならこのまま続けて一緒に論文に…」という感じで、実習生もこのまま研究のやりとりを続けて論文にしたいという人が何人か、というか一ヶ月やったぐらいからが本当の勝負だという感じなので続けたいという感じだったが続けようにもデータのやり取りなんかが煩雑というか、続けたいし余裕もあるけどNDA難しいなーとか話してた。

生活

 最初の書類では「宿泊はYRPホテル」と書かれておりぐぐるYRPの中に孤立して存在するホテルを発見。これは何もできないとラノベアニラジを大量に用意していると実際はもう何駅か手前の横須賀中央前のホテルだった。横須賀中央は付近にお店や飲食店が多く、暮らすには何不自由ない街だった。毎晩同じグループの実習生と夕食を食べに行っていたので飲食店が多いとは言えもう駅近くの大抵の店は制覇してしまった。

 ホテル暮らしは最初は慣れずに眠れなかったが、途中からは疲れて毎晩すぐ眠くなってしまい12時就寝7時起床という極めて健康的な生活を送ってしまった。土日も7時に起きてしまうなどの副作用があり、このまま大学が始まってしまうと危険。

まとめ

夏休みが暇で研究所に興味があって機会がある人は行けばいいと思う。中の人は「普通の会社はもっと厳しい」とおっしゃられていたが、企業というより大学や普段お世話になってるDBCLSに近い空気を感じていて、非常に集中して作業に取り組めた20日間だったと思う。僕は指導者には「正直第一印象は飄々としていて不安だった」とか他の実習生には「いつもニヤニヤして余裕そう」とか言われていたが毎日ひぃひぃ頭をかきむしりながら論文を読んでいたのでベルトの穴一つ分ぐらい痩せたりしましたが、「ああ大学入ってようやく研究っぽい事やったな」とか思えたりする非常に貴重な体験でございました。

kiwofusikiwofusi 2009/08/29 11:58 くやしい。

reposerepose 2009/08/29 12:00 nanigaja

sleepy_yoshisleepy_yoshi 2009/08/29 12:51 おつかれさまでした.残り少ない夏休みをゆっくり休んでください.

> 続けたいし余裕もあるけどNDA難しいなーとか話してた。
興味があれば,UK2007という公開スパムコーパスがあります.
http://barcelona.research.yahoo.net/webspam/datasets/uk2007/

リンク構造とスパムラベルはすぐにダウソできるんで,
こちらで試してみてはいかがでしょうか.

reposerepose 2009/08/29 12:54 こんなに早く見つかるとはw
ありがとうございます、とりあえず落としてみます。

うまいうまい 2009/08/29 20:55 まじで情報系かっこいい、初級シスアドくらい勉強してみようかな

reposerepose 2009/08/29 22:16 Rubyやろう

green-windgreen-wind 2009/08/30 03:41 うおおおお、研究やりましたって感じですごくいいな。
置いて行かれる感がはんぱねーぜ・・・。

junnya188junnya188 2009/08/30 23:01 なるほどね〜
最初の方は某HLの当初と関連した内容っぽいな、そいえばそこは今どうなんたんだ?w
しかしやっぱ優秀さ感じますね、羨ましい

reposerepose 2009/08/31 14:48 >green-wind
むしろ学校戻ってこれからが本当の地獄だ…

>junnya188
また9月からは研究室で色々アレします…