企画広告 提供:Splunk Services Japan合同会社

IIJが挑むクラウドネイティブ時代のシステム運用 オブザーバビリティの導入でイベントドリブン型の対応から プロアクティブなシステム改善の対応へ

メインビジュアル
クラウドネイティブな環境が一般化する中、安定したシステム運用のためには、従来の「監視手法」だけでは不足が生じる事態となっている。そうした中、IT企業大手のインターネットイニシアティブ(以下、IIJ)は、新たなサービスをリリースした。その最大の特徴は、これまでカバーしきれなかったシステム全体の可視化を実現するために「オブザーバビリティ」を導入している点にある。そこで用いられているのがオブザーバビリティツールの「Splunk Observability Cloud」だ。本稿では、IIJがSplunkを採用した理由と、今後のシステム運用における展望をテーマに、Splunkの末永 真理氏がモデレーターとしてIIJの福原 亮氏に話を伺った。
株式会社インターネットイニシアティブ クラウド本部 MSP推進部長 福原 亮氏
株式会社インターネットイニシアティブ
クラウド本部 MSP推進部長
福原 亮氏
Splunk Services Japan 合同会社 オブザーバビリティアドバイザー 末永 真理氏
Splunk Services Japan 合同会社
オブザーバビリティアドバイザー
末永 真理氏

クラウドネイティブ時代のニーズに応えるオブザーバビリティへの挑戦

末永(敬称略)まずは、IIJがこのほど新たにオブザーバビリティサービスをリリースされた理由について教えていただけますか。

福原(敬称略)IIJでは、アウトソーサーとして長らくお客様のシステムの監視運用を手掛けてきました。ですが、クラウドネイティブ環境におけるシステム運用を支援するためには、従来型の監視方法では限界を感じていたことから、この度、新たに「オブザーバビリティ」の領域にも挑戦することにしました。

 ここでいうオブザーバビリティとは、取得したログ・メトリクス・トレースなどのデータを基にシステム全体の状態を推測、把握する能力、取り組み、それを実現するアプローチ及び概念を指します。著名な評価機関でも、「戦略的テクノロジーのトップトレンドのひとつ」として取り上げるなど、グローバル規模で注目を集めています。

末永従来型の監視のあり方に限界を感じていらっしゃるとのことですが、オブザーバビリティの導入により、どのように問題を解決できると考えたのでしょうか。

福原クラウド化が進む中で、仮想サーバーだけでなく、サーバーレスやコンテナといったモダナイズされた環境の監視も必要になってきましたが、従来の監視方法では、すべてのインフラ領域をカバーしきれなくなってきています。さらに、モダナイズされた環境ではインフラ領域だけのカバーでは不十分です。そこで、特にクラウドネイティブなお客様向けに、インフラ領域だけでなく、アプリケーション領域、フロントエンド領域も含めてカバーできるオブザーバビリティを提供することとなりました。

末永クライアント向けに提供するMSPサービスだけでなく、IIJの社内でもオブザーバビリティを活用しているとのことですが、そちらの理由についても教えてください。

福原当社内については、大きく2つの理由からオブザーバビリティに取り組んでいます。まずは、コンテナ化されたサービス基盤の可視化が課題となっており、これを解決するためです。もう一つは、複雑化するアプリケーションの運用管理です。

 現在、アプリケーションは複雑化しているため、それぞれが正常に動作しているのか、どこで問題が発生しているかが、保守に際してわかりにくくなっています。そこで、オブザーバビリティを活用することで、これまで気づけなかった問題を事前に発見し、お客様により良い品質のサービスを提供できるようにしているのです。

全方位のデータ収集能力と将来を見据えた拡張性などを評価

末永なぜIIJでは、オブザーバビリティを実現するためのソリューションとしてSplunkを採用されたのでしょうか?

福原オブザーバビリティを支えるためのツールとして、いくつかの選択肢を比較検討しました。そして、実際にPoC(概念実証)も実施し、その中で最も魅力を感じたのが、Splunkだったのです。

 理由はいくつも挙げられますが、まずSplunkは、オブザーバビリティに必要となる機能を網羅しつつ、特にログ管理、分析、可視化に優れているという点で、私たちの戦略に最も合致していました。特に、Splunkは単にアプリケーションやネットワークといった技術レイヤーだけでなく、ビジネスレイヤーも含めて幅広い領域でオブザーバビリティを実現できるポートフォリオを持っており、経営的視点からも大きな価値を提供してくれるものと判断しました。

末永すでにIIJでは、Splunkを社内ログ基盤としても利用されていますが、その実績も採用のポイントとなったのでしょうか?

福原はい。IIJではすでに100以上のプロジェクトでSplunkを利用しており、サービス基盤のログを収集して分析することで、サービスレベルを把握するなど、データ分析基盤として活用しています。

末永Splunkのログ機能が特に優れているという評価もいただいておりますが、そのバリューはどこにあると見ていますか。

福原オブザーバビリティの3大要素として「ログ」「トレース」「メトリック」が挙げられますが、その中でもログは非常に重要な役割を果たします。例えば、アプリケーションを運用する現場では、何かアプリケーションの障害を検知した場合に、実際のサーバにログインしてログを調査するケースが良くあります。しかし、Splunkを導入することで、サーバーに直接アクセスしなくても、Splunkの画面でログの調査や原因分析を行えるようになるのです。

 さらにSplunkならではの強みは、全量のログを収集し、横断的に複数のサーバーやアプリケーションを解析できることにもあります。これにより、ユーザーのアクセスデータに紐づいた、ログの横断的な調査が可能になり、迅速な問題解決が実現できます。ログを一部だけではなく、すべてを取得してトレースできる点が重要で、確実な調査分析が可能になるのです。

末永SplunkのUI(ユーザーインターフェース)は使いやすい、との声もよく聞かれるとお伺いしましたが、具体的にはどのような点が評価されていますか?

福原SplunkのUIは非常にシンプルで直感的です。他社のツールを使っていたユーザーがSplunkへと移行したケースが多いのも納得ですね。社内からも、すぐに使えるという声をよく耳にします。特にダッシュボードは視覚的にわかりやすく、不具合がある箇所が赤く表示されるなど、素早く異常に気付けるデザインになっています。こうした操作性の良さは、運用現場での負担を軽減する大きな要素です。

末永オープンソースのオブザーバビリティフレームワークであるOpenTelemetryの対応についても伺いたいのですが、将来性を見据えてどのように捉えていますか?

福原OpenTelemetryは、今後の標準となる可能性が高く、エージェントに縛られずにデータを取得できる拡張性の高さが魅力です。Splunkは、こうしたOpenTelemetryにネイティブで対応しており、今後さらに進化していくことが期待されます。

 この高い柔軟性も、将来のシステム運用において非常に重要な要素になると考えています。

APMによるアプリケーションの可視化と問題解決の迅速化を実現

末永IIJでは自社システム運用に対してもオブザーバビリティへの取り組みを進められていると伺っています。従来の監視システムではどのような課題があったのでしょうか?

福原従来の監視システムでは、リソースやログの監視が中心でして、具体的にはCPUやメモリなどの個別の対象を指定して監視するというものでした。しかし、監視の範囲が限られており、調査に必要な情報が取得されていないケースもありました。例えば、CPUやメモリの使用状況は監視していたものの、スワップまでは監視していなかったため、初動対応が遅れてしまったといったイメージです。

 基本的にSplunkはあらゆる、システムリソースデータを標準で取得できるので、必要な情報が不足するということがありません。調査したいときにすべてのデータが揃っている──これこそが大きなメリットですね。ベストプラクティスに従って導入した結果、見たい情報がダッシュボードにそのまま表示されるほか、自身でカスタマイズもできるなど、より効率的な運用が実現できています。

末永アプリケーションパフォーマンス管理(APM)については、どのような効果がありましたか?

福原従来の監視システムでは実現困難だった領域で、まさに取り組みたかった部分です。このため、Splunkを導入することで、アプリケーション間のレスポンスや通信状況、トレース情報が自動的に描画され、可視化されるようになりました。

 これにより、どの部分に問題があるのかが迅速に特定でき、該当するログをすぐに確認して、アプリケーション調査をきっかけにインフラ全体まで調査を進めることも可能となりました。以前は見えなかった部分が明確になったことで、問題解決のスピードも向上しましたね。

末永インフラストラクチャーモニタリングに関して、特にコンテナ環境の監視の効果についてもお聞かせください。

福原ご存知のとおりコンテナ環境は極めて複雑であり、従来の監視手法ではBot間の通信やどんなパケットが流れているのかといった詳細な部分が把握できないという課題がありました。しかし、Splunkを導入したことで、これらの情報までも可視化され、今まで見えなかった部分も見えるようになりました。

 サービス提供者として、コンテナ環境において品質劣化の原因となる問題をきっちりと把握できるようになったのは非常に大きな成果です。これにより、サービス品質の向上にもつなげることができますから。

クラウド環境を含めた統合的な監視でDevOpsの実現にも寄与

末永従来のMSPサービスではどのような課題があり、Splunkの導入によってどのように解決されたのでしょうか?

福原IIJではパブリッククラウドのサービスを取り扱っていますが、従来の監視ツールでは、クラウド環境全体の可視化が難しい部分がありました。前述したようにコンテナやサーバーレス環境では、従来の監視ツールだと十分にカバーできない領域がどうしても出てきてしまいますし、APM領域が不足しています。

 そこで、この課題を解決するためにオブザーバビリティの実践が必要でした。Splunkを導入してオブザーバビリティを実現することで、クラウド環境でもシステム全体を迅速かつ的確に可視化できるようになり、これまで見えなかった領域をしっかりと監視できるようになったのです。

 もう1つの課題は、アプリケーション開発事業者やSaaSを提供するクライアントにおいて、インフラの管理まで手が回らないというコメントを多くいただいておりました。彼らはアプリケーション開発が主な業務ですが、DevOpsなどの普及もあってインフラ領域の運用にも入らざるを得ない状況だとも課題視されていました。そこでSplunkを活用することで、すべてのレイヤーを一元的に管理でき、ビジネスの価値を最大化するための運用が可能になると考えています。

末永Splunkを利用することで、クラウドネイティブな環境にどのようなメリットが生まれると感じていますか。

福原Splunkはクラウドネイティブなアーキテクチャに非常に強いという特徴があります。例えば、マルチクラウドを利用しているお客様にとって、複数のツールを使い分ける必要がなく、1つのツールでシステム全体を管理できる点が大きなメリットです。

 さらに、Splunkは料金体系が月平均の利用料に基づいて課金されるため、従来のピーク時のサイジングに合わせたモデルよりも、リソース状況がダイナミックに変化するクラウドネイティブな環境には非常に適していると言えます。クラウド環境では、コンテナの増減が頻繁に発生しますが、Splunkの料金モデルはこの変動に対応できるので、コスト管理の面でも大きなメリットがあります。

予兆予測の限界を超えるオブザーバビリティの役割への期待

末永日本におけるオブザーバビリティの認知度について、どのように見ていますか?

福原日本では、オブザーバビリティという概念の認知度はまだ高くありません。ですが、クラウド環境におけるシステム全体の可視化が重要視されている中、これからは日本の企業にとっても必要不可欠なツールとなるでしょう。従来のようなシステムインフラにフォーカスした監視ではなく、システム全体をカバーするオブザーバビリティの導入が、今後ますます重要になっていくと感じています。

末永今後、システム運用において特に必要とされることは何でしょうか?

福原従来の運用は「イベントドリブン型」で、エラーが発生してから対処するという方法が主流でした。しかし、クラウドやコンテナ技術が発展する中で、自動修復機能が普及してきていますので、これからは、問題が発生する前に予測し、適切な対策を講じることが必要になってきます。そのためには、システムを横断的に分析するための、メトリクス・トレース・ログの情報が必須であり、オブザーバビリティツールを活用して、これまで気づけなかったことに気付ける仕組みが求められるのです。

末永予兆予測の重要性が増しているということですね。

福原そうです。ただし、従来の予兆予測という概念には限界があります。現場ではイベントドリブンで大量の通知を受け取っており、ここに予兆予測の通知を加えるとさらに増加してしまいます。だからこそ、オブザーバビリティのように、実際に何が起きているか、何が起こり得るかに気づくことが出来る、“インサイト”を得ることが重要だと考えています。

末永運用の立場も大きく変わっていきそうですね。

福原はい。従来の運用は、問題が起きてから対応するためいかにミスをしないかの戦いであり、まさに“減点方式”でした。しかし、今後はオブザーバビリティを活用することで、事前に改善提案が行えるようになります。こうして運用からの提案でシステムライフサイクルをより効率的に回せるようになることで、運用チームが社内でプロアクティブな役割を果たし、システムの健全性が担保できるようになっていくと期待しています。

クラウドネイティブ時代の監視体制の最適解について議論を深める2人
クラウドネイティブ時代の監視体制の最適解について議論を深める2人
提供      :Splunk Services Japan合同会社 企画/制作   :朝日インタラクティブ株式会社 営業部 掲載内容有効期限:2025年4月30日
このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]