この記事では、SRE導入に欠かせないインシデント管理ツール「PagerDuty」について解説します。

インシデント管理ツール「PagerDuty」とはなにか [特徴・機能・メリット]

nwiizo

2021.10.1

「PagerDuty」は様々な監視ツールと連携して、システムのインシデントを一元管理するツールです。Googleが提唱するSREを導入する組織が増加するとともに、広く利用されるようになりました。

以下では、インシデント管理ツール「PagerDuty」の仕組みやできること、特徴について解説していきます。

インシデント管理ツールとは

大前提として「インシデント」は、「情報漏洩」や「ウイルス感染」といったセキュリティ上の「インシデント」だけではなく、「サービスにアクセス・ログインできない」「サービス利用中に処理落ちしてしまう」といった利用上の不具合を含むのが一般的です。

つまりインシデント管理ツールは、「通常状態とは異なる何か」がおこった場合に検知・通知し、根本となる原因を探ってくれるツールです。

障害検知や監視ツールでは、Nagios、Zabbix、Prometheus、Mackerelといったサービスがありますが、その上で「なぜインシデント管理ツールが必要か」というと、「様々な監視ツールのアラートを集約する必要がある」ためです。

ひとつのサービスないしシステムの中で、様々な監視ツールや障害検知ツールが含まれていると、そのツールに依存した条件やタイミング、異なる通知方法でエンジニアにバラバラに連絡がいってしまいます。大きな組織になればなるほど関わるエンジニアは増えるため、そのアラートに対して誰がどのタイミングで対応するのか、そもそも対応済みなのかといった管理が難しくなり、現場が混乱してしまう可能性があるのです。

そこで必要なのが今回紹介するPagerDutyのような、アラートを一元管理して通知してくれるインシデント管理ツールなのです。複数の監視ツールの中から必要なアラートだけを担当者へ確実に通知するシステムは、サービス運用におけるインシデント管理において欠かせないツールといえます。

PagerDutyの特徴と導入のメリット

インシデント管理ツールの中でも非常に機能が豊富で利便性の高いPagerDutyですが、どのような事ができるのでしょうか。早速見ていきましょう。

PagerDutyの特徴

画像参照:https://www.pagerduty.com/platform/analytics/

ここではPagerDutyの大きな特徴を4つ紹介していきます。

  • アプリケーションのアラートを確実に通報
    • 連携アプリは300以上。重要度の重み付けや対応マニュアルの添付により、シームレスな対応が可能となります。また、インシデントの重要度な重みづけにより「今すぐに対応すべき業務」が明確化されるため、エンジニアにかかる無駄な負担を削減します。
  • 規範的なダッシュボードとセルフサービス分析
    • 運用指標とKPIを視覚化、組織間での調整を行い、より良いビジネス成果を実現します。
  • 運用状況をレポート機能で可視化
    • インシデント対応ワークフローをすべて1か所で管理しながら、アプリケーション、サービス、インフラストラクチャの状態を視覚化します。
  • オンコールエンジニアのスケジューリングが可能
    • チームやスタッフの負荷などを把握することが可能です。

このようにPagerDutyはインシデントに関わる通知を最適化し、運用フローの効率化を手助けしてくれます。

PagerDutyの導入メリット

PagerDutyを導入することで、インシデントの管理ははもちろんのこと、障害を未然に防ぐ環境や障害時の対応といったオペレーションの効率向上を図ることも可能です。また、これまで運用面で工数がかかっていたトイルを削減することで運用コストを下げることもできます。

  • 障害を未然に防ぐ
    • 障害の発生後には高度な分析と詳細レポートにより、インシデントの根本原因を追求し、将来のインシデントに備えることが可能です。
  • オペレーション効率の向上
    • インシデントが発生した際に対応すべきフローを事前に登録しておくことが可能です。事前にフローを組んでおくことで、属人化を排除し適切かつ迅速な障害対応を可能にします。エンジニアの負荷状況もダッシュボードで管理することができ、状況にあわせた柔軟な割り振りを行い、オペレーションの効率化を図ります。
  • コスト削減
    • インシデント発生から解決までの調査・改善工数を減らし、再発を防ぎます。結果としてオンコール要因の削減、属人化の削減を行うことで運用コストを削減することが可能です。
  • 顧客満足度の向上
    • インシデント対応によるサービスのダウンタイムを減らすことで、顧客満足度のアップに貢献します。また安定性・信頼性を担保することで、結果としてサービスのスケーラビリティにも大きく貢献します。

インシデント管理を含んだSRE支援もお任せください

当社は、お客様企業に対するSREの導入支援を行うかたわら、PagerDutyの構築運用支援を実施しています。

当社は「お客様企業に対してSREサービスを提供する」ビジネスが主軸であるため、当社のエンジニアは単に「PagerDutyを知っている」「導入できる」、というレベルではなく、「SREを組織に根付かせるために、PagerDutyをいかに運用すべきか」という観点で日々コンサルティングを行っています。よって、貴社のサービスや組織に応じた構築運用をご提案できます。

「まずはPagerDutyの導入だけお願いしたい」というケースでも、「PagerDutyの導入に加えて、SRE組織の立ち上げ支援まで検討したい」というケースでも、ぜひご相談ください。

ブログ一覧へ戻る

お気軽にお問い合わせください

SREの設計・技術支援から、
SRE運用内で使用する
ツールの導入など、
SRE全般についてご支援しています。

資料請求・お問い合わせ