SREの現場に必要なのは“雑食性”--ITインフラの信頼性を高める技術者とは - (page 2)

藤本和彦 (編集部)

2018-03-01 07:00

「cyboze.com」のインフラ管理を一手に担う

 例えば、サイボウズの運用本部サービス運用部では、SREチームがクラウドサービス「cyboze.com」のインフラ設計・開発・運用を担当している。サービスレベル目標(SLO)を踏まえた指標管理を徹底しており、セキュリティ対策や緊急パッチの適用、監視システムの開発・運用、データセンター間ネットワークの設計、ハードウェアの調達・更新など、さまざまな業務をこなしている。

 cyboze.comは、「サイボウズOffice」や「サイボウズ ガルーン」「kintone」「メールワイズ」といったアプリケーションをSaaSで展開するためのクラウド基盤。法人向けサービスという特性上、データセンターの見学やサーバなどの機材管理を求める顧客の要望に応えるため、自社データセンターで運用している。

 毎年数百台の規模でサーバの増強や更新が発生するSREチームでは、ハードウェア構築からOSインストール、BIOS設定やリモートアクセスまでをツールで自動化し、管理工数を抑えている。仮想マシンの自動構築や自動フェールオーバー、自動バックアップなどのシステムも自社で構築した。

サイボウズのSREチーム
左から運用本部 サービス運用部 SREチームの内田公太氏と執行役員 運用本部 副本部長の山本“ymmt”泰宇氏

 深夜の障害対応時や各種ツールの連携、アラート通知にはチャットシステム「Slack」を活用する。タスク管理やSREへの依頼窓口、外部業者とのやり取り、機材管理、社内他部署との連絡には、自社サービス「kintone」を利用している。

 「(サイボウズのSREチームは)Googleのように人材が豊富ではないし、全員が高いプログラミングスキルを持っているわけではない。ただ、自動化できるものは、なるべく自動化していこうという考え方が浸透してきている」と執行役員 運用本部 副本部長の山本“ymmt”泰宇氏は振り返る。

 従来は重厚長大な手順書を数日かけて書いていたが、今ではその時間を使ってスクリプトをまとめるようになったという。ただ、2016年9月のチーム設立から1年半近くがたつが、手作業はまだ膨大にあるとのこと。

 自動化を阻む要因の一つとして、スクリプトで自動化することの難しさがある。例えば、ある一連の処理をスクリプトとしてまとめるには、まれに発生するエラーなどを徹底的に排除しないといけない。スクリプト化した後ではバグが紛れ込んでいてもなかなか気付けなくなってしまうためだ。“やっつけで自動化”をしてしまうと、かえって運用効率を悪化させかねない。

 また、自動化に合わない処理もある。Meltdown/Spectreの脆弱性など、突発的に発生するセキュリティ対応はその一つだという。昨今は重要なセキュリティ情報がTwitter経由でいち早く流れてくることもあり、まだ機械任せにできない部分が残っているとする。

 「通常の運用でオペレーターの操作を必要とするケースは、それそのものがバグ(不具合)であると考えている。SREチームでは、それを“Toil”(労苦)と呼んで極力減らしていこうとしている」(山本氏)

ZDNET Japan 記事を毎朝メールでまとめ読み(登録無料)

ZDNET Japan クイックポール

注目している大規模言語モデル(LLM)を教えてください

NEWSLETTERS

エンタープライズ・コンピューティングの最前線を配信

ZDNET Japanは、CIOとITマネージャーを対象に、ビジネス課題の解決とITを活用した新たな価値創造を支援します。
ITビジネス全般については、CNET Japanをご覧ください。

このサイトでは、利用状況の把握や広告配信などのために、Cookieなどを使用してアクセスデータを取得・利用しています。 これ以降ページを遷移した場合、Cookieなどの設定や使用に同意したことになります。
Cookieなどの設定や使用の詳細、オプトアウトについては詳細をご覧ください。
[ 閉じる ]