IT memo/linuxmemo4

Setting up isotope2.aori.u-tokyo.ac.jp

specification

Name: isotope2 (renewed on 2016)
IP: 157.82.233.10
Cluster system
Headnode: Xeon E5-2640 V4 2.4GHz 10Core×2
Compute node: 
 Xeon X5690 (3.46GHz, hexa core) x2x12
 Xeon E5-2697V2 (2.7GHz, 12Core) x2x2
Storage: 
 /data@isotope2:18TB, 
 /data1-10@vtfs1:11TBx10, 
 /data11-19@vtfs2:22~41TB, 
 /data20-27@vtfs3:37~146TB
Network: InfiniBand QDR (MPI/NFS)
OS: RedHat Enterprise Linux 5 (Server)

OS

旧isotope2を生研からAORIに移設し、計算ノード、通信装置、ストレージを増設した。

softwares

大抵はisotope2からそのまま引き継げでいる。詳しくは[IT memo/linuxmemo3]参照。

ganglia

Basic rules

  • Use /dataX directories. Minimize to use /home directory.
  • Use PBS (computing nodes) for long job. Head node (isotope2) is interactive use only.

Getting start

  • change your password
    $ passwd
  • change your login shell to /bin/tcsh (if your default is bash)
    $ chsh
  • copy /home/kei/.cshrc in your home directory
    $ cp /home/kei/.cshrc ~/
  • make your public key for isotope2
    $ ssh-keygen -t rsa
    (do not input passphrase)
  • save your id_rsa.pub as authorized_keys
    $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    $ chmod 600 ~/.ssh/authorized_keys
  • go to your working directory (/dataX/yyyy) and work.
    $ cd /dataX/yyyy

Manuals

  • &attachref(103-Torque取扱説明.pdf);
  • &attachref(301-MPI環境の使い方(クラスタ向け)v02.pdf);

Benchmark

NCEP/SIO GSM

  • http://http://g-rsm.wikispaces.com のグローバルモデルのテスト。
  • mvapich2+intelでコンパイル。
    Run1 (headnode only): 30.9s
    Run2 (node=1:ppn=8):  30.4s
    Run3 (node=2:ppn=4):  26.3s
    Run4 (node=4:ppn=2):  23.9s
    となり、nodeをまたいだほうが高速な結果が出た。本当かいな?

NCEP/SIO RSM

  • 上記と同様、領域版のテスト。
  • mvapich2+intelでコンパイル
    Run1 (node=2:ppn=12): 536.2s
    Run2 (node=3:ppn=8):  518.6s
    Run3 (node=4:ppn=6):  510.5s
    GSMの結果と同様に、nodeをまたいだほうが高速。CPUのBandwidthがボトルネックである可能性大。(だが、気にならないレベル)

NICAM

  • GL5RL0, Isotope/River入り実験。10並列、72時間。
  • mvapich2だとノードをまたぐジョブがうまく走らない。
    Run1 mvapich2 (node=1:ppn=10): 404s
    Run2 mpich1 (node=1:ppn=10): 401s
    Run3 mpich1 (node=2:ppn=5): 336s
    結構、分散型と集中型に差が出た。

MIROC5 offline MATSIRO

  • AR5用のMIROC5陸面のみ。1ヶ月計算。
    Run1 mvapich2-1.6 (node=2:ppn=10) 82s
    Run2 mvapich2-1.6 (node=4:ppn=5) 76s
    Run3 openmpi-1.5.4 (node=2:ppn=10) 83s
    Run4 openmpi-1.5.4 (node=4:ppn=5) 70s
    mpich2だとcannot connect to local mpdというエラーが出て止まる。