こんにちは。SREチームでリーダーをやっている木村です。
座右の名は「明日自分が交通事故にあっても、システムの運用を滞りなくする」です。
先日、ビザスク SRE チームでオフサイト (半日程時間をとって集中して、テーマに関して議論する時間です) を行って「次の半年でやりたいこと」を議論しましたので、 こちらの内容を生々しくお伝えしていきたいと思います。
なぜオフサイトを開いたのか?
日々の業務で SRE チームは同期・非同期的な積極的にコミュニケーションを取りながら日々の仕事をしていますが、 日々の中だとどうしても目の前の課題にフォーカスした内容になり、中長期的なちょっと遠い目線の話しは後回しになりがちです。
とはいえ中長期的にどこに目指すのか?の目線あわせをしないと、意思疎通や認識齟齬が発生をして「こう思っていた」や「そうだと思っていた」 という思い込みによる無駄が発生します。
そのような無駄が発生しないように半年に一回、SRE メンバーの目線合わせを時間をかけて行っています。
合宿のゴール
ビザスクの SRE では、チーム内の Manifest を掲げており、そのマニフェストは公開された GitHub リポジトリで管理しています。
GitHub visasq/recruting-public
ビザスクの SREチームは、これから働く未来の仲間と常に共有できるように採用情報に集約しています。
今回のゴールはこのマニフェストを最新の状態にするのがゴールになります。
ビザスクのSRE チームの歴史
ビザスクの SREチームは、2022 年 3月に新生 SRE チームとして再始動しました。
前の SRE と 新生 SRE チームの大きな違いは
- Core SRE
- 機能横断な SRE に関する活動を主とする SRE メンバー
- Embedded SRE
- サービス開発チームに帯同して SRE の活動をする SRE メンバー
というチーム構成にして
- 技術面 (ハード) における課題の解消
- 組織面 (ソフト) における課題の解消
この2つを同時に行い、 Dev と Ops の垣根を無くすのをミッションとしています。
(詳細は GitHub visasq/recruting-public に記載していますす)
メンバーも 2022 年 2月から、新たに3名加わり、チームとしては、タックマンモデル でいう 形成期 でした。
新生 SRE チームが発足後すぐに1回目のオフサイトを行ったのですが、その当時の課題はこんな感じでした。
- 属人化
- ルール決まりごと
- 現状の課題と改善
- 未来投資
- チームビルディング
等、見事にチームとしてこれから何やっていこうかな。って課題がいっぱいでした。
(まさしく形成期ですね)
ビザスクの SREチームのオフサイトでは、テーマに対して
- チーム課題
- システム課題
のまとめを毎回出しているのですが、その当時のまとめはこんな感じです。
チーム課題のまとめ
この半年で、「チーム内外への知識、SRE Practiceの共有」と「日々のタスクコストをどの程度使っているかを整理する」
システム課題のまとめ
「何がわからないか」が見えたが、チーム課題を最初の半年で整理する中で改めてシステム課題を整理する必要がある
とこんな感じで、模索している感満載のまとめになっています。
これが半年後経つとどんな変化が起きたのか?
前回のオフサイトでまとめたものでできたもの
前回のオフサイトでまとめたものでできていないもの
- 現状の課題と改善
- トイルのアクション (わからないものが見えてきたが、アクションができていない)
- 未来投資
- SRE として価値を出す
とちょっと文面だけでは伝わりづらいと思いますが、全体的に具体的な課題になってきたかな。と思っています。 続いて、2回目のまとめですがこんな感じです。
2回目のチーム、システム課題のまとめ
チーム課題としては、人手不足から引き起こる未来投資ができないジレンマに陥っていて、属人化は解消されつつあるが、まだまだ属人化に課題があり、改善余地がある。
というのが見えてきました。
またシステム課題としては、人手不足でできることが限られているので、価値があるものを選定するために
現状を「当たり前」にしないために、課題感を即Issueとして書き出す(チームとして認知する)書き出してやる期限が決まらないものはCloseすることで適切なIssue数を保つ
という価値ドリブンな思考からのエンジニアリングができるようにしようという結論になりました。
この2つのチーム、システム課題を踏まえて次の半年では、
- 各 SRE ができることを増やす
- そのためには、ペア作業を更に推進する
- トイルを削減して、一つ一つのやることの量減らす
- エンジニアリングによる自動化
- 作業手順ドキュメント等のさらなる整理
- トイルを闇雲にやるのではなく、優先順位をチームメンバーで常に考えてやることを集中してやろう
- 人手不足は、採用の母数を増やすしかないので、SRE の情報をもっと外に発信していこう
という結論になりました。
オフサイトを実施後
2022年2月以前は、システムリプレース の SRE 担当版として、2名で1年以上やってきていましたが、2名のチームと5名のチームだと、より一層チームとしての課題が増えてきて、このような暗黙的な課題は抽象的なものが多く、議論する時間も必要なので、このようにどこかで立ち止まって議論をすることが重要だな。と思いました。
また、メンバーが増えてきたことで、色々な考えが増えてきて、結果、元からいたメンバーの成長と新たに Join した SRE メンバーの価値観が融合された結果、全体での成長実感が見えてきたな。と思っています。
最後に
ビザスクの SRE チームは、このように短期的な目線と中長期な目線の両軸で、SRE の活動を続けています。
SRE は継続的な改善を仕組みと対話の両軸で行っているので、興味がある方は 是非こちらも見てください。