「SRE」とは「Site Reliability Engineering」の略で、米Googleが提唱したシステム管理とサービス運用の方法論。日本語では「サイト信頼性エンジニアリング」と訳されることが多い。ITシステムの安定運用を支えるための手法として、IT系企業を中心に採用され始めている。
SREは基本的に、システム運用業務にソフトウェア技術者のスキルやノウハウを適用しようというもの。従来、システムごとに発生していた多くの手作業を自動化することで、サービス信頼性や運用効率性の向上を実現する。
「Infrastructure as Code」(コードによるITインフラの管理)や、開発部門と運用部門が協働する「DevOps」というアプローチとともに、システム運用の新しい方法として近年、注目を集めている。
Googleのブログによると、SREチームは、可用性の確保、レイテンシの低減、パフォーマンスの管理、作業の効率化、変更管理、モニタリング、障害対応、キャパシティ管理といった日常業務を担当し、ソフトウェア開発の能力が求められる。
国内企業では、サイボウズやリクルートテクノロジーズ、freee、Retty、クラウドワークス、クラスメソッド、メルカリなどがSRE部門を新設し、自社のサービス運用に生かしている。