Tag Archives: monitoring

Scientific Linux 6.1 に Zabbix 1.8.10 をインストール

自宅の統合監視ツールをHobbit (現Xymon) からZabbixに変更した。Xymonは手軽に導入できるのは良いのだけど、独自の監視項目を加えようとしたりちょっとカスタマイズしようと思うとデバッグ機能が弱かったりしてすごく面倒なので、柔軟性のあるZabbixに乗り換えることにした。オープンソースの統合監視というとNagiosが有名だけど、そのままでは履歴やグラフ機能が弱いのと、設定がかなり面倒なので採用しなかった。統合監視ツールの比較は ThinkIT: オープンソース統合監視ツール導入指南 が参考になるだろう。

以下は Scientific Linux (SL) 6.1 にインストールする方法だが、Red Hat Enterprise Linux (RHEL) / CentOS / Oracle Linux でも同様だろう。ZabbixのRPMはZabbix純正 / ZABBIX-JP製 / EPEL製などがあるが、Yumリポジトリがあって国内での利用者が多いZABBIX-JP製を利用することにした。データベースには MySQL Community Edition を使用する。MySQLをインストールしていない場合は 複眼中心: Scientific Linux 6.1 に MySQL 5.1.52 をインストール を参照してほしい。

Zabbixは大きく分けると3つのコンポーネントで構成される。Zabbixサーバーは本体と言えるもので、各種監視結果を管理し、データベースに保存する。Zabbix Web インターフェースはデータベースに保存された情報をWebに表示する。Zabbixエージェントはインストールされたクライアント・マシンのリソース情報などを取得し、Zabbixサーバーに送信する。これら3つのコンポーネントとデータベースはそれぞれ別々のマシンにインストールすることも可能だが、このエントリーでは1台のマシンにすべてインストールしている。

Continue reading Scientific Linux 6.1 に Zabbix 1.8.10 をインストール

Linuxで BMC Watch Dog を使う

自宅サーバーに使用している Supermicro X7SPA-HF-D525BMC (Nuvoton WPCM450) という独立した小さなコンピューターのようなものを持っており、もしカーネル・パニックなどでOSがハングしたときに、BMCが自動的にマシンを再起動してくれる Watch Dog という機能がついている。BMCはOSの管轄外なので、OSがハングしてもBMCは問題なく動くことができる。

ではBMCはどうやってマシンがハングしていると判断するのだろうか。BMCは Watch Dog Timer というものを内蔵しており、それがカウントダウンしていってゼロになるとマシンを再起動する。なのでOSは Watch Dog Timer を定期的にリセットしてゼロにならないようにすれば再起動は掛からない。つまり「Watch Dog Timer をリセットできない」=「マシンがハングしている」というわけだ。

X7SPA-HF-D525の BMC Watch Dog Timer を有効にするには、BIOSの「Advanced > IPMI Configuration > BMC Watch Dog Timer Action」を Reset System などに変更し、BMC Watch Dog TimeOut でタイマーの時間を指定する。5 min とは5分間に1度でもタイマーをリセットすればよい一方、ハングしてから再起動が掛かるまで最大5分間のラグがあるということを意味する。X7SPA-HF-D525では5分、1分、30秒、10秒から選べるが、あまり短いとOSの負荷が高いためにタイマーをリセットできなかったときにも誤って再起動を掛けてしまう可能性が高くなるため、ラグが許容できる範囲で長いほうが安心だろう。なお、これを今すぐ設定しまうと、手動でタイマーを定期的にリセットする必要に迫られるので、実際には自動でタイマーをリセットできる環境を整えてから有効にしたほうが良いかもしれない。

Continue reading Linuxで BMC Watch Dog を使う