Datadogは米国時間6月20日、「Data Jobs Monitoring」の一般提供を発表した。問題のある「Apache Spark」や「Databricks」のジョブをデータパイプラインで検出し、失敗したジョブや実行時間の長いジョブを迅速に修正し、過度にプロビジョニングされているコンピューターリソースを最適化してコスト削減を支援する。
Data Jobs Monitoringは、最適化と信頼性向上が必要な特定のジョブをただちに表示する。ジョブの実行トレースを掘り下げ、ジョブのテレメトリーをクラウドインフラと関連付け、迅速にデバッグすることを可能にする。
Data Jobs Monitoringは次の特徴を持つ。
- ジョブの失敗とレイテンシーの急上昇を検出:すぐに使い始められるアラートは、ジョブが失敗したり、自動的に検知される基準を大幅に超えたりした場合に直ちに通知し、エンドユーザー体験に悪影響をもたらす前に対応可能にする。推奨フィルターは、ジョブやクラスターの健全性に影響を与える最重要の問題を明らかにし、優先順位が付けられるようにする。
- エラーのあるジョブをピンポイントで特定して迅速に解決:詳細なトレースビューは、ジョブが実行フローのどこで失敗したかを正確に示すことで、完全なコンテキストを把握し、素早いトラブルシューティングを可能にする。複数のジョブの実行では、一つ一つを比較することで根本原因の分析を促進し、実行期間、Sparkパフォーマンスメトリクス、クラスター使用率、構成における傾向と変更を特定できるようにする。
- コスト削減の機会を特定:リソース使用率やSparkアプリケーションメトリクスにより、必要以上にプロビジョンされたクラスターのコンピュートコストを削減し、非効率なジョブの実行を最適化する。