少数精鋭でサービスの急成長に対応
クラウド会計ソフトのfreeeは、2017年4月時点でおよそ80万の事業所が利用するサービスに急成長。創業期からの急速な事業の拡大に伴い、ごく少人数のインフラ技術者だけで運用を回していくためには工夫が必要だった。そのような中で、自然にSREのような考え方を持つようになったという。
同社がSREチームを設立したのは2017年1月。サービス信頼性に対する責任の所在を明確にする狙いがあった。ITインフラをソフトウェアのように扱えるようになった点も大きい。「Amazon Web Services(AWS)をはじめとするクラウドプラットフォームによって、さまざままなものがプログラマブルになった。繰り返しの作業を自動化し、可能な限り手作業をなくしたい」とプロダクト基盤本部長 浅羽義之氏は話す。
現在、freeeでは、AWSのマネージドサービスを活用して、監視するポイントを根本から減らしているという。また、障害が起きることを前提にインフラを設計し、単一障害点を作り出さないようにしたり、リトライ処理を前提としたコードを書くようにしたりしている。

左からプロダクト基盤本部 SREチームの九岡佑介氏、プロダクト基盤本部長の浅羽義之氏、SREチームの坂井学氏
「人やお金に関わる情報漏えいは絶対に起こしてはならない」(浅羽氏)とセキュリティ対策には特に慎重な姿勢を見せる。従来は手動で脆弱性に対応していたが、管理対象が多いと時間がかかっていた。セキュリティパッチの適用など、煩雑で時間のかかる繰り返し作業を完全に自動化し、処理を並列化することで時間を短縮。本番環境に迅速にパッチを適用できるようにした。
また、サービス妨害(DoS)攻撃やリスト型攻撃を自動的に遮断する仕組みも構築した。深夜や早朝など手薄な時間帯でも、余裕を持って調査できるようになったという。「アイデア次第でセキュリティ強化も自動化できる」と浅羽氏は話す。
SREの現場で必要なスキルやマインドについては、プログラミングができること、コードが書けることに加えて、フルスタックの能力が求められるとする。何でもやりたい、新しいことに挑戦したい、変化を怖がらないなど、「雑食系」(浅羽氏)が向いているという。
また、決して無鉄砲なわけではなく、リスクを抑えた上で攻められる、ある程度の失敗経験も必要だとした。