チームの運用業務で Datadog をフル活用してみた話

こんにちは!フルサポート開発チームの高畑です。

先日バス釣りに出かけた時に暑すぎて腕を捲りながら過ごしていたら夏休み明けの小学生のような日焼けをしてしまいどこか懐かしい気持ちになりました。

さて今回は、フルサポート開発チームで実施している「運用週」についてのご紹介と、運用するにあたってサーバ監視&分析ツールである Datadog をフル活用してみたお話をしていきたいと思います!

運用週について

現在、フルサポート開発チームでは「運用週」というものを実施しています。

元々運用業務に関しては特定の人にバイネームで Slack のメンションが飛んできて調査・対応するといった所謂属人化してしまっている状態でした。

そこで、チーム内でこの属人化してしまっている現状をどうにかできないかと議論を行い、2 人 1 組になり 1 週間交代で運用を回していく運用週というものを始めました。

運用週を実施する上での決め事はざっくり以下の通りです。

  • とりあえずすぐ受付する(一時対応)
  • 自分ですぐ対応できそうなものはそのまま対応、そうでないものは詳しそうな人にエスカレする(一生懸命調べると、大概それなりに時間がかかるので初見のものはさっさと聞く)
  • エスカレされた人は緊急度が高くなければ運用週担当者とペア調査・ペア対応をやってみる(Zoom / 対面)
  • エラーログを普段より気にしてみてみる
  • 毎週金曜日に運用振り返りの MTG で共有する

特に 自分ですぐ対応できそうなものはそのまま対応、そうでないものは詳しそうな人にエスカレすると最初に定めておくことが重要で、エスカレすることへの心理的な障壁を下げることができるのと、エスカレして一緒に対応することで運用に関する知見を溜められるといったメリットがあります。

Datadog で運用ダッシュボードを作ってみた

これまで運用業務を行う上で、「こういう時はこうしたらいい」だとか「このツールを使ってどう調査する」いった情報が各地(esa、Slack、GitHub・・・)に散らばっていて情報を探す旅に出たり、エラーログを追うのに GCP の Logging にクエリを流して絞り込んだりと結構手間暇がかかっているような状態でした。

この状態では例えば新しくジョインしたメンバーはどこを見たらいいのかが分からなかったり、情報を探し出すのに時間を使ってしまって通常業務に手が回らなくなったりしてしまう可能性が十分にあります。

そこで、普段システムの監視で利用している Datadog を活用して運用に関する情報をまとめたダッシュボードを作って活用することにしました。

実際の Datadog ダッシュボード(一部モザイク)

Datadog のダッシュボード機能を利用して、運用に関するお役立ちリンク集や Tips、エンドポイントごとのエラーログ、過去の運用ログを表示できるようにしています。

また、フルサポート開発チームで特に監視すべきエンドポイント(管理画面系の特定エンドポイント)で発生したエラーは都度 Slack へ通知を送っており、通知内にこの Datadog ダッシュボードへのリンクを貼っているのですぐに詳細を確認・対応できるようになっています。

エラーログの Slack 通知

運用週と Datadog を組み合わせてみて

このように Datadog を活用することで、運用業務に関する知識等を 1 ヶ所に集約することができたので大分楽になったように感じますし、新しくチームにジョインした方も Datadog を見れば全てまとまっている状態を作り出せたので良かったです。

特に「こういった問い合わせにはこういう調査・対応をする」といった情報は属人化しやすい要素だったりもするので、運用週を週替わりで実施して毎週チーム内で「こういうことがあってこう対応したよ」と共有することも大切です。

皆さんも Datadog を活用してみてはいかがでしょうか!

エンジニアを募集しています

ビザスクでは、エンジニアとして働きたい方を募集しています。
ご興味のある方は下記よりお気軽にご連絡ください。