ジョブ管理

各計算ノードへのジョブの割り振りを管理する。複数導入することも可能なので、色々試してみて使いやすいものを使えばよい。

Platform LAVA

PlatformというHigh Performance Computing分野の会社の商用製品Platform LSFの機能をしぼってフリーにしたもの。KUSUでクラスタ構築しても導入される。優秀っぽい。

詳しくは、Platform LAVA?を参照。

TORQUE

http://www.ie.u-ryukyu.ac.jp:16080/howto/index.php?Howto%2FTORQUE
http://mikilab.doshisha.ac.jp/dia/research/report/2005/0809/003/report20050809003.html

割とよく知られたジョブ管理ソフトらしい。open PBSの派生型。ジョブの投入にはシェル・スクリプトを使う。

Condor

http://www.cs.wisc.edu/condor/
http://mikilab.doshisha.ac.jp/dia/research/report/2005/0820/011/report20050820011.html
http://www.jpgrid.org/event/2005/pdf/WS15_condor.pdf

University of Wisconsinが開発しているフリーのスケジューラ. チェックポイントシステムとプロセス移住をサポートしているのが特徴。

Maui scheduler

http://mauischeduler.sourceforge.net/

Parallel Virtual Machine

http://ja.wikipedia.org/wiki/Parallel_Virtual_Machine

様々なOSのPCの集合を1つの並列コンピューターとして使うことを可能にするパッケージ。

PVM (Parallel Virtual Machine) is a software package that permits a heterogeneous collection of Unix and/or Windows computers hooked together by a network to be used as a single large parallel computer. Thus large computational problems can be solved more cost effectively by using the aggregate power and memory of many computers. The software is very portable. The source, which is available free thru netlib, has been compiled on everything from laptops to CRAYs.

Network Queueing System (NQS)

http://umbc7.umbc.edu/nqs/nqsmain.html
http://web.kudpc.kyoto-u.ac.jp/lsc/modules/contents1/index.php?id=11#nqs

実質的な標準と書いてあるところもあるので、かなり使われているのだろう。現在はどうなのか? TORQUEと同じPBSベースなのか?

Sun Grid Engine

http://jp.sun.com/products/software/gridware/

Globus Toolkit

グリッドの提唱者の一人、米シカゴ大学のイアン・フォスター教授が中心となって設立した業界団体Globus Allianceが開発。
計算機:Globus?

プログラムの並列化

MPIライブラリ

openMPI, MPICHなどがあるがどれでもいい。LAM/MPIは現在メンテナンスのみが行なわれており、開発チームはOpen MPIに移っているようだ。

openMP

並列でないプログラムを手軽に並列化するには良いのかもしれない。

クラスタ管理のユーティリティー

これらも複数導入してみて使いやすいものを使えば良い。

Nagios

ネットワーク上のホスト(Windows, Linux)、プリンタ、ルーター、ファイイアーウォールなどの監視ツール。

Ganglia

クラスタの各ノードの状態を監視するツール。Webブラウザから監視することができる。

Cacti

こちらも同様にWebブラウザから設定や視覚的にサーバーの可動状態を監視できる。独自にデータベースを作成して、過去の時点の状態などを保存できるらしい。

Zenoss

これもWebブラウザベースのネットワーク監視ツール。比較的新しい?詳しい情報を出力するが、動作が少し遅いらしい(そんなこともないという意見もある)。設定が楽らしい。

CluMon

Lunixクラスター監視ツール。こんな感じで監視する?

C3

Cluster Command Control (C3) tools

The Cluster Command Control (C3) tools are a suite of cluster tools developed at Oak Ridge National Laboratory that are useful for both administration and application support. The suite includes tools for cluster-wide command execution, file distribution and gathering, process termination, remote shutdown and restart, and system image updates.

その他、あると良いもの

無停電電源装置

空調ファン

空気清浄機

クラスター構築キット

クラスターを簡単に構築&管理するためのツール集。今回はこれらの構築キットは使用していないが、我々が構築する試す過程で参考になったので記しておく。

Beowulf

Beowulfというのはクラスター構築の方式のことで特定のソフトウェアではない。

xCAT

ディスクレスノードや幅広いOSに対応し有望そうだ。インストールしてみたが、設定が謎なので挫折。構築キット自体が簡単に使えなくては意味がない。

  • 計算ノードのHDDブートに加え、ネットブートにも対応。
  • 対応OS:SLES10 SP2 & higher, RHEL5, CentOS5, Fedora8, Fedora 9, AIX 5.3, AIX 6.1。
  • 計算ノードの電源コントロール
  • 温度、ファン回転数、電圧などのセンサー対応
  • MACアドレスの収集

管理ノードにxCATをインストールする。現状(2009/3/31)ではFedora 9までしか正式には対応していないが、Fedora 10でもインストールは可能なようだ。

参考リンク:http://xcat.wiki.sourceforge.net/Fedora10kvm

wget http://xcat.sourceforge.net/yum/xcat-dep/fedora9/x86_64/conserver-8.1.16-8.x86_64.rpm
rpm -i conserver-8.1.16-8.x86_64.rpm
cd /etc/yum.repos.d
wget http://xcat.sourceforge.net/yum/devel/core-snap/xCAT-core-snap.repo
wget http://xcat.sourceforge.net/yum/xcat-dep/rh5/x86_64/xCAT-dep.repo
yum clean metadata
yum install xCAT

注意点:参考リンクの通りに進めてゆくと「yum install xCAT」で次のようなエラーが出た。

(省略)
---> Package ipmitool.x86_64 0:1.8.11-3 set to be updated
--> Processing Dependency: libcrypto.so.6()(64bit) for package: ipmitool
--> Finished Dependency Resolution
ipmitool-1.8.11-3.x86_64 from xcat-dep has depsolving problems
  --> Missing Dependency: libcrypto.so.6()(64bit) is needed by package ipmitool-1.8.11-3.x86_64 (xcat-dep)
Error: Missing Dependency: libcrypto.so.6()(64bit) is needed by package ipmitool-1.8.11-3.x86_64 (xcat-dep)

ipmitoolを手動でインストールする。Fedora 10 用のipmitoolのrpm(Fedora 10 for x86_64)を次のページからダウンロードした。このサイトはrpmを網羅的に検索できるらしい。

ipmitoolのrpmをダウンロードしたディレクトリに移ってから下のコマンドでインストールする。

rpm -i ipmitool-1.8.10-2.fc10.x86_64.rpm

その後、yum install xCATをすると正常にインストールが進む。

KUSU

商用版のクラスタ構築キットPlatform Open Cluster Stack (OCS) のコアとなっているフリーのパッケージらしい。ディスクレスノードにも対応しているが、Fedora core 6,Cento OS 5にしか対応していないので新しいハードウェアでは使えない。セットアップは簡単。

OSCAR

http://svn.oscar.openclustergroup.org/trac/oscar/wiki

クラスタ構築に必要な様々なツールをまとめたパッケージ。計算ノードへのOSのインストールなども自動化するらしい。もうやったから関係ない。ジョブ管理にはTORQUEやMAUI schedulerを採用。並列ライブラリにはMPI。Red Hat Enterprise Linux 5, Debian 4, Ubuntu 8.04, に対応。試してない。

ROCKS

計算ノードのネットワークブートには対応していないようだ。試してない。

openSSI

http://openssi.org/cgi-bin/view?page=openssi.html

計算ノードにLinuxをインストールする必要がないというのはよさそうだが情報が少ない。 SouceForgeを見ても、for Fedora Core 3 のテスト版が2008.01に出たきりなので、却下。


トップ   編集 凍結 差分 バックアップ 添付 複製 名前変更 リロード   新規 一覧 単語検索 最終更新   ヘルプ   最終更新のRSS
Last-modified: 2010-04-14 (水) 21:44:13 (2990d)