「運用」を取り巻くシステムの現状、
背景を知る
―― 田口氏も参加された鼎談では、日本企業がデジタル化に迫られている状況などが説明されました。それを踏まえて、日本企業の課題やIT部門が抱えている悩みを教えてください。
田口氏大まかに言えば、データのサイロ化やシステムの複雑さが増していることに尽きます。「デジタル化します」と言いますが、つまりは、今まで定量化していなかったものを、センサーなどでデータを集めて定量化するわけです。最初からデータの収集方法などを定義していれば良いですが、それがないままだとデータが散在してしまいます。
そうなると、今度はバラバラなデータを結び付けて意味あるものにしようとしますが、システム構成が複雑になり、結果として「システムのデータをどう扱うべきか」「システムをどう運用すれば良いか」と手間がかかり、コスト削減のためなのに、むしろコストがかさんでしまうのです。
DevOpsでも開発側のスピードが速くなりがちで、いざ本番に入ると運用が回らず、取り残されてしまう状況が見られます。人材不足も進む中で、これからの運用をどう維持していくのか大きな課題になるでしょう。
福田氏デジタルネイティブな企業は、最初からデジタルを前提にしたデータやシステムの環境を整えていますが、製造業をはじめとするほとんどの大手企業は、システムを開発し終えたら運用側にわたすといった従来のやり方のままです。ようやくクラウドを検討するようになり、また、IoTなどの新しい要素も出てきました。
田口氏製造分野で1つ注目すべき点は、設備のライフサイクルの違いです。ITのハードウェアの耐用年数は3~5年ですが、製造設備は20~30年と長く、しかもIoTなどもともと想定していませんから、後付けではうまく機能しませんし、できたとしても中途半端です。それをやりやすい装置もありますが、そのコストで製造原価が増すと、既存設備で生まれていた利益が生まれにくくなるので、本格的に取り組もうというのは難しいですよね。
一方で、例えば、電気自動車関連などの新しい設備は、従来とは異なるコンセプトになるので、新しい取り組みをしやすいです。人手をかけない、人手不足になる前提で構築しますから、ロボットを活用して、何かあればセンサーで検知しアラートを発する、明確な目的を持ってセンサーで取得したデータをクラウドに上げるといった仕組みを最初から備えられます。このように新しい設備においては、伝統的な企業でも取り組みが進んでいます。
福田氏そうなると、既存システムと新しいシステムのそれぞれ運用することになりますよね。
田口氏はい、既にその状態が起きています。IT部門の視点だと、異なるシステムの運用をできるだけ1つにしたいですが、例えば、製造業では、既存システムの投資と新システムの投資は全く違います。新しいシステムでは最初から予算に組み込めますし、最小限の費用でエレガントな仕組みを作れますが、既存システムでは利益を見込んだ予算が組まれていて、大きな追加投資ができません。おのずと実現できることが異なります。
福田氏ある企業で、古いシステムと新しいシステムにそれぞれ別の運用チームを充てていると聞いたことがあります。古いシステムの運用コストがかかり過ぎている一方、新システムの運用コストは小さく、複雑な運用体制にジレンマを抱えているそうです。
田口氏合理的な運用のやり方があるはずですが、古いシステムの運用では多くのリソースを割くやり方が定着してしまい、それを前提に予算を組まれている実態があると思います。これを変えるのは難しいでしょうね。事業側は、新しい仕組みを従来と同じやり方やコストで構築したいわけではありませんし、まずは新しいシステムに即した上手なやり方を考える方が健全かもしれません。
福田氏その通りですね。また、従来のシステムの運用を外部に長らく委託していて、今さら変えるのが難しい事情もあるようですね。
Koto Online編集長 田口紀成氏
田口氏私は「Koto Online」を通じて、いろいろな企業を取材しています。最近、自前でやろうという企業が増えていると感じます。システムを外部に委託しようとしても人員不足や費用に見合わないと断られたり、委託先のサービス品質に不満を感じたりして、そのまま待ってはいられませんから、社内人材の育成に乗り出し、育った人材が実績を出し始めています。IT部門に、ERPなど従来のシステムだけではなく、DXの「攻めのIT」のような新しい事業とそれに必要なシステムを担うアーキテクトやアナリストなどの人材も参加するようになり、自社で担うべき領域と外部に出して良い領域を意思決定していますね。
福田氏いわゆる「内製」ですね。古いITインフラが無いデジタルネイティブな企業は、最初から内製していますが、実は内製化に乗り出した伝統的な企業で新旧システムや開発、運用などの会話をしていた際、ある若手の方が「運用とは何ですか? ピンと来ません」と話され、ショックを受けたことがありました。
「開発と運用は別ですよね?」と聞くと、「違うのですか?あまり運用はしません」と言います。システム開発が一段落してもそのまま開発者が運用にも入るそうで、伝統的な企業の中にも、デジタルネイティブな企業のようなところが登場しています。
田口氏私が取材した中部地方の工作機械メーカーでも、まるで飛行機のコックピットのようなダッシュボードを構築して、生産状態や設備の稼働状態などの監視を実践していました。外部の力をほとんど借りず、市販の分析ツールを使って内製でものすごくきれいなものに仕上げていて、まさに「ここは自分たちの本業だ」と腰を据えたのでしょう。大都市圏と違って委託先も限られますから、社内の意思のある人たちをメンバーにアサインして、うまく内製していますね。
福田氏大事な部分は自分たちでする。コアコンピテンシーを大切にしているわけですね。私は長らくシステム監視やAPMに携わってきましたが、製造業でAPMを導入されるのは、生産現場や受発注など外部連携するシステムの領域です。つまり、そこが“命綱”であって、それ以外の領域は、まだAPMの優先度がそれほど高くはない状況でした。
―― そのような現状にあって製造業でのシステムの課題は、やはり運用にあるのでしょうか。
田口氏運用は、むしろこれから課題になるでしょう。先述したように、製造設備の運用期間は20~30年で、ITは3~5年ほどですから、10年後に今の担当者が異動している、20年後に退職していなくなっている状況を想定しているかが重要です。問題はそういったタイミングに起こりがちですから。
福田氏仮に製造設備の運用を30年とすれば、ITとの関係性では、特に何がネックになりますか。
田口氏やはり耐用年数です。今の機械は本当に壊れにくく20~30年と使えますが、なぜかそこにコンピューターが関係すると、5年をたたずにダメになってしまうことが多くあります。では、5年後も全く同じものが手に入るかと言えば、これが本当に手に入らない。現在はまだその事実が考慮されていません。
5年後に同じものを入手できない前提だと、今と全く同じデータを5年後には収集できなくなります。センサーが異なる、取得したデータを一次処理するコンピューターが違うといった理由で、そうしたことが起こり得ます。10年後に存在しない可能性のあるセンサーやコンピューターをどう維持すべきかあまり考慮されていないのです。
福田氏単に同じような機器で入れ替えれば良いわけではないのですね。
田口氏日本のサプライヤーは、欠品しないようなるべく在庫を確保しますが、それでもセンサーやコンピューターを一緒にして在庫を確保し続けてくれるのかというと、難しいですよね。ですから、新しいデジタルチームだけで対処しようとすると、できないということが起きるでしょう。極端に言えば、データの送り先のクラウドは良いですが、中間にある“エッジ”で、いま述べたような懸念がくすぶり続けるかもしれません。
福田氏そのような現状にあって、さらに監視はどうしているのですか。
田口氏監視も難しいです。ネットワーク接続ができる機器はまだいいですが、センサーを装着する必要がある機器は難しい。先ほども言いましたが、今はできていても、5年後も同じセンサーが存在しているかが分かりません。センシングしたデータを蓄積、利用する(クラウド)側は良いですが、センシングする側に変更が生じかねないという問題があります。
ITの運用や監視に根強く残る課題、
改善への道筋は?
―― ここまで製造業の環境を例に解説していただきましたが、IT環境での運用や監視についてはどうでしょうか。
田口氏変化に追従すべく開発側がアジャイルやDevOpsを取り入れている中で、ITの運用が同じままではいけません。今は問題を早く検知して正す、対応することが求められています。リアルタイムにアクションができる体制、業務フローにしていくことが重要です。その点がまだあまり考慮されていないかもしれませんが、前回の鼎談でも触れたオブザーバビリティを取り入れていく必要があると思います。
―― レガシーなシステムの運用では、昔からきちんと手順書を整備したり、コマンド操作で監視をしたりしています。それだけではリアルタイムな対応は難しいのでしょうか。
田口氏蓄積したログを定期的にチェックしたり、検知した障害に対応したりしていますが、リアルタイムでの対応は、本当に致命的な問題が発生した場合に限られると思います。さらに、例えば通知が来たらすぐこの作業を行うというようなリアルタイム性の高い業務に変えていく必要があります。今運用しているシステムの安定稼働から範囲が広がり、「センシングで異常を検知したら通知し、状況を把握して状況毎にこう対応する」というように、業務がプロセスとしてつながるようになれば、人が常駐をしなくて済む、などというように業務を最適化することができます。
福田氏システムの重要性が増し、企業にとって本業に直結するものに変わりつつあるにも関わらず、運用のスタイルは昔からあまり変わっていません。私は1990年代から監視ツールに携わっていますが、当時から「たくさんのアラートで混乱していませんか?」「きちんとアラートを集約できていますか?」「アラートへの対応プロセスが整っていますか?」を聞いてきましたが、今もほとんど変わらず、ずっと同じままです。いざ大規模障害が起きて原因を追究しようとすると、運用はおろか実質的に誰も監視をしていなかったという事故も多いですよね。
田口氏数年間起きなかったことはもう起きないものだと、つい思い込んでしまいます。「大変だから、しなくていいか」となりがちですが、人の手でしようとするから大変なんですね。
本来の運用は問題が起きる前提であるべきで、今のシステムやDevOpsはビジネスの中枢にまで入ってきていますから、監視もクリティカルを対象にするのは当たり前として、ポーリングで人がわざわざ見に行くのではなく、通知がプッシュされて能動的に動くようにする、いろいろな兆候が集まって通知されアクションを教えてくれるというように変えていくべきでしょうね。
―― そのような能動的な運用や監視をできるようにするには、どんな要素が必要なのでしょうか。
田口氏運用や監視は、サステナビリティの一部になると思います。持続性などとも言いますが、業務を含めてビジネス全体を同じ状態に維持することです。人や設備が変化しても同じように機能し続けること、人が変わってもビジネスが問題なく続くようにしないといけませんよね。今はAIの手助けも活用され始めましたが、極論すれば、誰が携わってもビジネスが継続される状態にしていくべきです。
福田氏オブザーバビリティが使われるようになりました。日本語で「可観測性」と言いますけど、個人的には「観測性」という表現が好きで、要は観測したいのです。
サイバーセキュリティには、「観測する」という発想がもともとあり、例えば1週間前から何が起きていたのかを分析したいと、ログやデータを蓄積しておいて、後から見えるようにしています。しかしシステムの監視は、クリティカルなことが起きてアラートを発するまでで、今何が起きたのかしか見ていません。もう少し観測できるようにしておかないと、何が起きたのかが分かりづらくなってきていますし、将来に備えるためにも過去を分析しておかなければよく分からない時代になってきています。
オブザーバビリティでは、よく「メトリクス」「ログ」「トレース」という言葉を使いますが、要は昔から言い続けていることと同じです。現在はそれを観測できるように、さまざまなデータをひも付けて分析可能にしておく必要があり、まさに属人化しないために運用で考えておくべきなのだと思います。
オブザーバビリティを活用する
“プロアクティブ”な運用のこれから
―― データをきちんと蓄積、観測できるようにしたとして、次のアクションにつなげるためには、どのようなことが必要になりますか。
田口氏これからの時代は、「このデータとこのデータを組み合わせれば良い」というセオリーが難しくなります。どんなデータが求められるのかも分かりにくくなっていますから、ハブのようなものを介して、データを連携しやすいようにしておくことが必要ですね。
―― 実際に開発側も未来や変化を見据えたスタイルになってきてますから、運用や監視も同じようにして、システムの全体像を捉えた設計が大切になってきますね。
福田氏お客さまは、まさに観測できることにオブザーバビリティのメリットを感じているようです。特にデジタルネイティブな企業は、そのようなスタイルが当り前ですから、障害が起きれば開発者が調べ始めます。膨大な量のログから一発で原因を突き止めるのは、どんなに優れた専門家でも難しいでしょう。多角的に分析をして何かしらの共通項を探ろうと。まさに観測です。
Elasticsearch株式会社 ソリューションズアーキテクチャ シニアマネージャ 福田慎氏
本来この視点は従来型のシステムでも必要ですが、結局は「膨大なログを見てもよく分からない」「どこから始めれば分からない」と一様に言われます。オンプレミス環境の昔ながらのシステムであっても、観測するという視点がとても役立つはずです。
田口氏想像できないことが起こり得る時代です。例えば、異常値らしいものの検出をAIに任せてアラートを発するような仕組みなら、あらゆるデータをそろえておき、AIが普段と違う兆候を見つけるのは得意ですから、AIが検出してそこから調べるという行動に移すこともできます。今までのように何日もかかって判明するようだと、手遅れになってしまうことがありますからね。
福田氏Elasticsearchの特徴の1つは、オブジェクトストレージなどをコスト効率良く利用できることで、大量のログを蓄積し、高速に分析できる点に優位性があります。検索というコア技術があるからこその強みです。
今日でも多くの課題がある運用や監視ですが、きちんと動いて当り前という世界が近づく中で、少し工夫をするだけで多くが解決されるのではないかと考えています。
AIもようやく使えるようになりつつありますが、実は「AIOps」という言葉は、10年ほど前から既にありました。
田口氏確かにそうですね。生成AIが登場して、運用でのAI利用をある程度可能にしてくれている感覚はありますよね。
福田氏ここまで述べてきた運用が属人化して多数のアラートが出て問題解決ができないという課題も、豊富なデータを観測できるようになりAIのようなツールも生かすことができれば、大部分が解決されていくのではないかと思います。
―― 今後そのようになっていく上で、Elasticsearchのオブザーバビリティは重要な武器の1つになりますね。
福田氏現在のオブザーバビリティは、従来の監視ツールが異常を発報するものであったのに対し、運用のシンプルな部分を自動化して、人が対応しないといけないものをきちんと分析できるものに変化しました。
田口氏Elasticsearchを使っていると、とにかく速く、長期間のデータを取得していても、きちんと検索性と可視性が維持されています。クラウドサービスの同様の機能よりもコンパクトにまとまっていて使いやすく、業務に集中できますよね。
福田氏監視ツールで分析をしようとすると、実はログについては弱いところがありました。万能なイメージのAPMの登場で、ログ分析のような“泥臭い”ことをしなくてもよいような風潮にもなりました。しかし、実際にはそんなことはなく、ログばかりを見なくてはいけないことが多くあり、それを分析したい、ほかのデータを集めたいといったニーズに1つで対応できる、うまくまとまっている製品だと自負しています。