実験のためのデータが溜まってく

午前5時に起きて国際会議(ワークショップ)の原稿の添削。やはり〆切前にぐんぐんと原稿のクオリティが上がっていくのは気持ちがいい。自分も含め、〆切が近くならないと手を付けない人が多いので、添削が集中してしまうのが悩みの種であるが……。

午前中、夏休みは保育園でおやつの時間(9時半)まで見届けてから出勤しているのだが、遊んでほしいとやってくる子どもたちの様子がおもしろい。絵本を読んでと携えてくる子、おんぶや抱っこをせがんでくる子、などなど。娘は前者ではなく後者なのだが、他の子に絵本を読んであげると「みーせーてー!」とやってきて、4-5人が押し合いへし合いしながら絵本を読むのを聞いている。あぐらの中に入れるのは1人なので、奪い合いになるのだが、2人も3人も座ろうとしてきたりもする。おんぶ(お馬さん)を始めるとすぐに何人も乗ってきて、後ろが見えないので何人いるのか分からないがやたら重いと思っていたら、4歳になる子が乗っかってたりすることもしばしば(笑)

出勤してお昼からサーバの GPU の点検。昨年度の後半に NVIDIA Tesla K40m を4台購入していたのだが、8月からそのうち1台の速度がなぜか他と比較して6-7割でしか動かなくなっていたのである。残りの3台は問題なく使えるので、論文の〆切もあるので少し待っていたが、今回見てもらう、というわけである。

この真ん中のサーバが問題で、熱暴走ではないようだが結局原因は不明で、症状は確認できる(再現性がある)ということで、同等の K40c に交換してもらい、故障した GPU は工場で詳しく見てもらうことに。壊れるとしたら K40 のほうではなく。GeForce GTX TITAN X のほうが壊れそうだったので、ちょっと意外。Tesla 系列と GTX 系列で価格差がありすぎるので、電源の問題がなければ今後は基本的に GTX 系列を買うことになりそう。今月から 8 GPU のサーバが稼働予定だが、4U で 10 GPU まで行ける筐体もある(メモリと CPU つけて100万円くらい)ようなので、次に買うのはそちらにする予定。

午後はサーバに関連してファイルサーバの設置。もう常用のサーバのディスク使用量が90%を超えていて(卒業生のファイルは圧縮したりしているのだが)どうしようもなくなってきており、これから年度末に向けて実験をすることを考えると、このタイミングで増設するしかないのであった。

管理の手間を考えると設置のコストは最小限にしたかったので、ファイルサーバは QNAP で構成。GUI でいろいろ設定できて楽と聞いていたが、まずネットワークに接続するところで手間取って、そこが一番のボトルネックだった(サーバ室は DHCP が立ってないし、サーバしかないので GUI がそもそも使えなかった)。一度ネットワークに接続する方法が確立すれば、あとは確かに楽だったが……。

いろいろ試した結果、サーバ群とはローカル IP で接続することにし、サーバごとに2つある Ethernet ポートのうち1つに固定のローカル IP を振ることで接続に関しては対処。GUI による設定に関しては、ファイルサーバ用のローカルネットワークに入っている計算機に ssh でログインし、socks でプロキシを立てて設定することで解決。設定するとき毎回プロキシを切り替えないといけないのが面倒ではあるが、わざわざサーバ室まで物理的に来て設定する手間と比べると、遥かに楽である。

うちの研究室、特にウェブデータを使っているわけではないので、そんなにディスクは必要ないのかと思っていたが(ウェブデータを使うとすぐにディスク容量が足りなくなる)、深層学習の研究が始まってから、訓練の各 epoch の中間ファイル(パラメータが記述されたモデル)を保存するようになり、結構ディスクを食ってしまうようである。

あと、GPU サーバは 2.5 インチの HDD しか刺さらないので、これもあまり大容量化できないという観点から、あまり嬉しくない。システムディスクとホームディレクトリのディスク以外はとりあえず刺せるだけ刺して RAID 5 にしている(2TB の HDD を使って実効10TBくらいにはなる)が、ホームディレクトリもファイルサーバ上に置くことにして、システムディスク以外は完全に全部 RAID にしたほうが使い勝手はいいのかもしれない。(しかし /home をネットワーク上に置くと、誰かが1箇所で /home に負荷をかけるような誤った使い方をするだけで、研究室全体が迷惑することになるので、トレードオフ