良いポストモーテムを執筆するために必要な5つのポイント

nwiizo

2022.5.18

SREにおいてポストモーテムの文化を根付かせることは必要不可欠です。
ポストモーテムはSREの導入効果をより高め、結果としてシステムの信頼性向上に繋がる体制が作れます。

本記事では、良いポストモーテムの形成方法について解説します。ポストモーテムの作り方で悩んでいる担当者の方、SRE導入を検討している方は最後までお付き合いください。

ポストモーテムの必要性とメリット

ポストモーテム(post mortem) は「事後」を意味し、SREにおいては「失敗から学び、同じ過ちを繰り返さないこと」に重点を置いた考え方になります。

サービス運用において障害や失敗が発生した後、「ひとまず問題は解決したし、収束したからOK」とするのではなく、原因を追求し再発防止策をしっかり取ることが重要です。

なお、ポストモーテムが「担当者やチームの吊し上げの場」となってはいけません。吊るし上げが怖くて失敗を隠してしまうような環境ではなく、「問題の起因となったアクションを特定し、その問題を正しくドキュメント化、影響を及ぼす全ての根本原因が理解される」という目的のもと取り組む必要があります。

良いポストモーテムを執筆するために必要な5つのポイント

ここからは良いポストモーテムを解説していきます。以下5つは良いポストモーテムを執筆するために考慮すると良いポイントです。

  • 明確さ
  • 具体的なアクションアイテム
  • 非難を行わない
  • 周辺への影響度の深さ
  • 即時性と簡潔さ

より具体的に理解するために、下記のポストモーテムの例を見ながら解説します。

参照:Example Postmortem

まず、上記の例ではポストモーテムとして必要不可欠な要素である「具体的な事象や状況」「発生原因」「発生した影響」「発覚と対応の経緯」はしっかり記載されており、良いポストモーテムの例として最適であることが確認できます。

明確さという点においては、アクションアイテムの項目で「Type」が記載されている点に注目します。アクションアイテムのTypeがひと目で判断できれば、担当者の割り当てが容易になり、より迅速な問題解決に繋がるでしょう。

また、「Summary」や「Impact」の箇所ではインシデントについての有益なデータを、定量的に数値で記載している点も良い点と言えます。数値データの透明性をしめるためにオリジナルデータが格納されているソースへのリンクなどがあるとよりよくなると考えられます。

具体的なアクションアイテムの箇所では、「Type(種類)」「Owner(担当)」「Bug(バグ)」の3点が記載されていますが、さらに「importance(重要度)」があるとより良いでしょう。インシデントが発生した際に重要度や優先順位を即座に判断するのは難しいためです。誰がどのような優先順位でアクションすべきか判断できるようにしておくことが大切です。

ポストモーテムの文化では「非難をしない事」が非常に重要になります。「誰が」ではなく「何が」失敗を引き起こしてしまったのかを明確に書くと良いでしょう。

インシデントの影響度合いについては「深刻度(深さ)」「根本原因」「トリガー」「解決策」が書かれていることを確認しましょう。解決にいたるまでに使われたソースなども記載しておくと良いポストモーテムが出来上がります。

また、担当メンバーがタイムライン上で事象を記載することで、相互にコミュニケーションを取っているのは良い点です。後々、時系列での事象確認をすることができるため、些細なアクションでも残しておくと役立つかもしれません。

ポストモーテム文化を根付かせるための施策

安定かつ信頼性の高いシステムの実現にはポストモーテムは欠かせませんが、ポストモーテムを根付かせる為には、非常に大きな労力がかかることもまた事実です。

ポストモーテムを根付かせるための有効的な施策としては、

  • ポストモーテムに対する報酬
  • ポストモーテムのオープンな共有
  • ツールやテンプレートの活用

などが挙げられます。資産性の高いポストモーテムを執筆したエンジニアには報酬を与えながら、皆が積極的に取り組むことで組織が強固になっていく仕組みを検討すると良いでしょう。また、ポストモーテムを根付かせるために定期的なチーム間レビューや報告会を行うといった取り組みも有効です。ポストモーテムを書いたものの活用されていないとなると、エンジニアとしてもやりがいを感じることは難しいでしょう。

そのほか、ポストモーテムを書くにあたって「PagerDuty」などのテンプレートを使ったり、ポストモーテムを書くべきインシデントの基準(データの損失、ダウンタイムが一定の閾値を超える、など)を設けてあげるなど、書きやすい環境を整えることも重要です。

まずは完璧なポストモーテムを目指すのではなく、試験的に取り入れることから始めてみると良いかもしれません。

ポストモーテム文化およびSRE組織の形成ならお任せください

前述した通り、ポストモーテムはSREの導入に欠かせない取り組みですが、すぐに目に見えて効果が出るものではなく、労力もかかるため後回しにしがちです。しかし、インシデントが再発してからではその損失を抑えることが出来ないのも事実です。

まずは試験的でも良いのでポストモーテムの取り組みを始めてみてください。
「どのように書けばよいのかわからない」「最適なポスモーテムの書き方を教えてほしい」という企業様がいらっしゃいましたら、ぜひ弊社にお任せください。SRE導入のお手伝いもさせていただきますので、まずは気軽にお問い合わせいただければと思います。

ブログ一覧へ戻る

お気軽にお問い合わせください

SREの設計・技術支援から、
SRE運用内で使用する
ツールの導入など、
SRE全般についてご支援しています。

資料請求・お問い合わせ