そのメッセージの重要度は?重要度で仕分けし、発生を抑制
まず考えられる対処法としては、監視を重要度で仕分けし、必要ないメッセージは届けないよう設定することだ。例えば監視する曜日や時間帯ごとに、監視間隔・しきい値を変えておく。夜間バッチの時間帯や朝の始業時のしきい値を昼間のオンライン時間帯よりも高くしておけば、この間の不要なメッセージは減少が期待できる。
テキストログ監視時の大量メッセージ抑制も有効だ。大量のエラー情報が検知されたら、以後の出力を一時的に抑制したうえで対応に当たるようにする。この利点には、他の重要メッセージの見逃しやパフォーマンス劣化を回避できることもある。
NRIが提供する運用管理ツール「Senju Familyでは、上記いずれの対応も可能だ。以降は同製品が実装する機能を紹介することで、メッセージやコールの抑制策として見ていきたい。
業務フローやサービスの視点が可能にする、効率的なジョブ管理
ジョブの監視を効率化することも重要だ。ジョブサービスに登録するのは、遅延が発した場合に業務・サービスに影響を与えるクリティカルジョブを中心にする。これにより、早急な対応が必要ないジョブによる障害コールは削減できる。
また、タイミングによって異常終了することが事前にわかっているジョブは、異常時の再ランを自動化しておく。異常時の切り分けやリカバリといった対応処理も、ネット登録してしまえば自動化が可能だ。
ジョブの所要時間に関する異常もコールの発生要因だが、あるジョブの遅延理由が単に先行するジョブの遅れにあれば、異常とカウントしないことも可能だろう。これはジョブを所要時間で監視できれば可能だ。
自動化できる対象は?必要なのは工数の削減そのもの
発生した障害メッセージの切り分けや、その結果に応じたアクションも最大限に自動化したいところだ。切り分けの条件としては、スケジュールやメッセージID、メッセージレベルなどで区切ったり、メッセージが発生したノードやグループレベル、プロセスや内容で区切ってもいい。そのうえで、対応するアクションとして、簡易メールやテンプレートメールの送信などを自動登録する。電話連絡やコマンド実行が必要になる場面でも、仕分けが自動化されていれば着手までの時間は短縮できるはずだ。
手順書に従い実施するダイレクトオペレーションも同様、自動化の対象だ。手順書を「チャプター」「セクション」「分岐」といった部品を組み合わせてシステム的に管理する「ブック」に置き換えれば、手作業を自動実行に置き換えることが可能だろう。作業の効率化だけでなく、オペレーションミスの削減も期待できる。
このように、メッセージやコールの削減方法は、管理の工数を最適化していくことに他ならない。管理者の発想しだいで、自社の業務フローに効率化の余地は見つかるはずだ。ここまで紹介した手法はSenju Familyに実装されている機能なので、より詳しく具体的な手法を知りたければ、ホワイトペーパーで確認が可能だ。