はじめに
Sreake事業部の岩﨑です。

2025年2月25日、ObservabilityCON on the Road Tokyo 2025 が東京ポートシティ竹芝で開催されました。初めての参加でしたが、Grafana Labsのオブザーバビリティに対する熱意を肌で感じることができ、大変有意義なものとなりました。
本記事では、各セッションで取り上げられたツール、機能について紹介します。
ツール・機能紹介
Drilldown
Explorerという機能の名前が変更され、Drilldownとして紹介されていました。
Grafanaには、3つの方法でインサイトを取得できます。
- Query 実行
- Query Builder
- DrillDown
LogQLやPromQLなどのクエリ言語に精通していれば、複雑なクエリを実行し、自分が欲しい詳細なインサイトを確認することができます。ただし、クエリ言語に慣れていないエンジニアにとっては、習得のハードルが高いかもしれません。そこで、Query Builderを使用すると、UIを操作するだけでクエリを作成できるため、クエリ言語を扱わずに目的のインサイトを確認できます。この2つの方法は、自分が欲しいインサイトをクエリを組み立てて取得することに特化しています。しかし、障害が発生した際に担当エンジニアがどのインサイトを確認すれば良いか分からない状況に陥るのはよくある話です。
3つ目の機能であるDrillDownでは、予め用意されたインサイトの一覧をすぐに確認できるため、調査の手がかりを素早く掴みやすくなります。
各テレメトリのDrilldownは以下のドキュメントを参照してください。
Alloy
Alloyは、OpenTelemetry Colletorをforkし、Grafana用にカスタマイズされた新しいコレクターです。Grafana Cloudでは、テレメトリ収集用にAlloyを利用していることを前提とした機能が多く提供されています。そのため、Grafana Cloudを利用する際のデファクトスタンダードになりそうです。
既存のオブザーバビリティツール(現状Datadogのみ)を利用しているユーザにとって、AlloyやGrafana Cloudへの移行がスムーズに行えることを強調していました。Alloyが提供しているDatadog Receiverを利用することで、現在のデータ収集の仕組みを変更することなく、移行を容易に進められることをアピールしていました。
Beyla
Beylaは、eBPFを用いたノーコードでのアプリケーション計装ツールです。詳細は弊社エンジニアが執筆したブログを参照してください。
セッションの中で、Grafana CloudにおけるAlloy + Beylaを用いたトレースの可視化のデモが実施されていました。

Frontend Observability
Frontend Observabilityは、Grafana Labsが提供するOSSライブラリであるFaro Web SDKを使用してフロントエンドの様々なテレメトリを収集し、Grafanaで可視化する機能です。Realtime User Monitoringによるユーザの画面操作追跡やWeb Vitalsでのパフォーマンス確認が可能です。
OSS版でもGrafanaで可視化することは可能ですが、テレメトリの管理にLokiとTempoを構築する必要があります。一方、Grafana Cloud版では様々なダッシュボードが用意されており、ダッシュボードを1から作成することなく素早くテレメトリーの可視化、分析を開始できます。
Synthetic Monitoring(Cloud版のみ)
Synthetic Monitoringは、アプリケーションやウェブサイトの動作を定期的に確認する機能です。ヘルスチェック用エンドポイントへの簡単なPingのみならず、ブラウザやスクリプトを使用したアクセスチェックも実施できます。また、マルチステップモニタリングでユーザの操作に類似させた一連のリクエストでのチェックも可能です。これにより、柔軟なシナリオの作成し、さまざまな角度からアプリケーションの可用性を測定できます。
k6
k6はシステムのパフォーマンスを評価測定するための負荷テストツールです。元々はOSSとしてLoad Impact社が公開していましたが、2021年にGrafana Labsに買収されました(参考)。k6に関連するさまざまなツールが提供されていますが、代表的なものを紹介します。
- k6 CLI:OSSで提供されている負荷テストツール。API経由でのテストの他に、ヘッドレスブラウザでのテストが可能。javascriptベースのスクリプトででテストコードを記述。Prometheusへテスト結果をエクスポートすることで、ブラウザでの確認が可能。
- k6 Operator:Kubernetesクラスタ上でk6の負荷テストを分散実行するためのツール。Kubertenesのスケーラビリティを活かし、高負荷をかけるテストを実行可能。
- k6 Studio:デスクトップアプリで動作する、テストコードを生成するサポートツール。ブラウザ操作を記録し、テストコードに変換することが可能。
- Grafana Cloud k6:負荷テスト用のリソースを準備する必要なく、Grafana上でテストの実施が可能。様々なダッシュボードが用意されており、素早く結果の確認が可能。
セッションの中で、スイスチーズモデルの例でFrontend Observability、k6、Synthetic Monitoringが紹介されていました。ある事象に対して、様々なアプローチで対策を講じることで事故やトラブルを軽減する多層防御の考え方が示されていました。つまり、Grafanaの様々なサービスを掛け合わせ、アプリケーションを異なる角度から評価し改善を続けることで、より信頼性の高いアプリケーションに成長させていくことが重要であると説明していました。

Adaptive Telemetry(Cloud版のみ)
Grafana Cloudの料金体系は基本料金+従量課金です。そのため、テレメトリデータを大量に取り込むと、意図しない金額が請求される可能性があります。Adaptive Telemetryは、チームに最も価値のあるテレメトリだけを保存するよう推奨し、コストを最適化するための機能です。推奨事項に基づいて対象テレメトリのドロップレートを設定します。現在、Adaptive MetricsとAdaptive Logsが提供されています。
Asserts(Cloud Advanced版のみ)
Assertsは、点在するテレメトリデータから重要なインサイトを抽出し可視化する次世代の機能です。誰でも理解しやすいダッシュボードを提供することで、IRM(Incident & Response Management)における影響範囲の可視化を実現し、属人化を防ぎ、対応のスピードを飛躍的に向上させることができます。

SLO(Cloud版のみ)
SLOは、サービスレベル指標を設定・監視・可視化するための機能です。
セッションの中では、インシデントのライフサイクルを検出→応答→学習→検出…のサイクルとして定義していました。

また、それぞれのステップでのベストプラクティスも紹介していました。
検出

応答

学習

SLOには、インシデントライフサイクルのベストプラクティスを実践するための多様な機能が備わっており、サービスレベル指標に基づいた適切なインシデント運用を実現できることを強調していました。
おわりに
いかがでしたでしょうか。Grafana Cloud版のみ提供されている機能の紹介が多かったですが、他のオブザーバビリティツールと遜色ないところまで機能が充実してきたのではないでしょうか。
個人的に気になった機能はAssertsです。LLMの発達に伴い、さまざまな分野での応用が進む中、監視運用の領域にもLLMが適用されつつあります。単にテレメトリを収集するだけではインシデントとの関連性を見極めることが難しい場面が多いため、AIによる独自のインサイトを活用することで、インシデント対応のスピードを飛躍的に向上させることが出来ると思いました。

「トラブルシューティングの民主化」とは、属人化されたナレッジを分かりやすく共有し、誰もが対応できる環境を構築することだと解釈しました。特定のエンジニアや専門チームだけがトラブルシューティングを担当するのではなく、より多くの人が問題の調査・解決に関与できるようツール導入や文化を築いていき、表面化しにくい暗黙知を形式知へと転換していくことで、チーム全体の対応力を底上げさせシステムの継続的な改善に繋がっていくと考えています。