研究では、大型計算機を色々使っている。具体的には、
の計算機たちといったところ。ま、用途別に使っているので、すべてを一気に使うってことは経済的にも能力的にもあまり起こらないけど。
で、TACCとSDSCは、Teragridという全米11の計算機拠点を高速につなぐ枠組み(基盤)に属していて、例えばTACCでゴリゴリ計算したデータを間髪入れずにSDSCで解析したり、なんてことが割りと楽にできるようになっているのです。
これをはじめて知ったとき、やっぱりさすがはアメリカだと思った。日本だとすごいのはトップクラスだけど(ESが数年最速をキープしたのは有名)、やっぱり数が限られているからなあ。それぞれの計算拠点にアカウントを申請しなくても、複数の拠点の計算機を並列使用して複数の計算を行ったりできるのもメリット。
で、タイトルの話に戻るとHPSSというのは、IBMが作った大規模なテープへの書き込み読み出し機(とそれにまつわるソフトウェア群)のこと(らしい)。要するに、計算してでてきた数テラバイトのデータを保管してくれるのだ。
ただ、めちゃくちゃ多数の(カセット)テープがあるものの、機械が同時にアクセスできるのは一つ(かいくつか?)のテープだけなので、データがいくつものテープに分かれちゃっていると、読み出しにとっても時間がかかってしまうわけです。なので使うコツは、ファイル数は少なくする、ってことなのです。最近学んだだけなんだが。
で、今たまったデータの解析をやろうとしているのだけど、全然コツをわかってなくて保存してしまったもんだから、1万個くらいファイルがある(一ファイルのサイズは50MBくらい)。そのダウンロードに、めちゃめちゃ時間がかかってしまってまずいことになっているのです。
このHPSSとの消耗戦、しばらく続きそうなのであります。。。
#comment2_kcaptcha