「稼働時間」以上のものを求める CloudOps チームのための Azure パフォーマンス メトリック

Azure監視シリーズの第3弾となる今回は、パフォーマンスに焦点を当てています。Azure環境が拡張されるにつれて、稼働時間だけでは不十分になります。ユーザーエクスペリエンス、サービスの健全性、そしてビジネスへの影響を実際に反映する指標を把握する必要があります。このブログでは、最も重要なAzure指標を詳しく解説します。[…]
所要時間
2025 年 5 月 8 日
ニシャント・カブラ

Azure監視シリーズの第3弾となる今回は、パフォーマンスに焦点を当てています。Azure環境が拡張されるにつれて、稼働時間だけでは不十分になります。ユーザーエクスペリエンス、サービスの健全性、そしてビジネスへの影響を実際に反映する指標を把握する必要があります。このブログでは、最も重要なAzure指標を詳しく解説します。これにより、チームは無駄な作業に追われることなく、真に重要なもの、つまり速度、安定性、そして実環境におけるパフォーマンスの最適化に取り組むことができます。ぜひご覧ください。 全シリーズ.


クラウド アーキテクチャは基本的な IaaS 展開を超えて進化しており、利用可能なメトリックが何千もあるため、CloudOps チームは「どれが実際に重要なのか」というよくある課題に直面しています。

最も効果的なチームは、すべてを監視しようとはせず、ビジネス成果を促進する指標に焦点を当てます。成功の鍵は、生のデータ収集よりも、パフォーマンス、ユーザーエクスペリエンス、そしてコスト効率を優先することです。

TL; DR

すべての Azure メトリックが時間の価値があるわけではありません。

  • すべてを追跡するとノイズが発生します。優れたCloudOpsチームは、ユーザーエクスペリエンスとパフォーマンスに直接関連するシグナルに重点を置いています。

  • CPU パーセンタイルとキューの長さにより、使用率の急上昇だけでなく、実際のボトルネックも明らかになります。

  • メモリの傾向とリクエストの不一致は、AKS のサイズを適正化し、リソースの無駄を回避するのに役立ちます。

  • ネットワークの遅延や接続障害は、多くの場合、アプリの動作が遅くなる隠れた原因です。

  • ストレージとデータベースのレイテンシは、IOPS や生のスループットよりも正確な情報を提供します。

  • トランザクション成功率とサービス レベル指標 (SLI) は、技術の健全性とビジネス成果を結び付けます。

  • 適切な指標があれば、推測をやめて改善を始めることができます。

重要なインフラ指標:基本的な利用率を超えて

インフラストラクチャのパフォーマンスは、あらゆるクラウド環境の基盤です。CPU、メモリ、ネットワーク、ストレージにおけるわずかな非効率性でさえ、ユーザーエクスペリエンスやアプリケーションの信頼性に影響を与える、より大きなパフォーマンス問題へと発展する可能性があります。チームは、単なる使用率の数値を追跡するのではなく、パフォーマンスに真に影響を与えるパターンやボトルネックを深く掘り下げて調査する必要があります。

CPU パフォーマンス: パーセンテージよりもコンテキストが重要な理由

CPU使用率が高いとトラブルの兆候だと思いがちですが、必ずしもそうとは限りません。実際、CPU使用率を人為的に低く抑えることは、十分に活用されていないCPUに対して過剰な料金を支払っている兆候かもしれません。本当に重要なのは、CPUが時間の経過とともに、そして負荷がかかった状態でどのように動作するかです。

パーセンタイルベースの指標(P95、P99)を使用して、持続的な使用パターンを特定します。バースト可能なVMを実行している場合は、クレジット残高に注意してください。クレジット残高が不足すると、即座にパフォーマンスが低下します。また、CPUキューの長さも見逃さないでください。使用状況に問題がなくても、キューの長さは何か待ち行列に何かがあることを示す危険信号となることがよくあります。

LogicMonitor Envisionでは、過去のパフォーマンスパターンに基づいて動的しきい値が自動的に調整されます。つまり、静的しきい値を超えたときだけでなく、環境の正常な状態から実際に逸脱した場合にのみアラートが通知されます。

プロのヒント
バッチワークロードの上限が 60% の場合、効率が悪く、コストがかかっています。

メモリメトリクス: 障害が発生する前に問題を検出する

メモリの問題は自然に解決することは稀です。静かに蓄積され、やがて全てを破壊します。クラッシュを待つのではなく、メモリ使用量の増加を経時的に追跡し、リークを早期に発見しましょう。

ページファイルアクティビティの高負荷は、使用量に問題がなくても、隠れた負荷の兆候となる可能性があります。また、メモリの空き容量を常にパーセンテージだけでなく絶対値で監視してください。アプリによっては、最小予約量を下回ると深刻な動作不良を起こす場合があります。

プロヒント: AKS のようなコンテナ化されたワークロードでは、メモリ要求と実際の使用量を比較して注意してください。要求が少ないと、負荷が中程度のポッドのエビクションが発生する可能性があります。要求が多すぎると、リソースとコストが無駄になります。
しかし、メモリメトリクスは単なる不具合対応のためだけのものではありません。キャパシティプランニングの重要な情報源でもあります。使用パターンを経時的に追跡することで、クラスターの適正化、過剰なプロビジョニングの回避、そして未使用メモリに予算を浪費することなく重要なアプリケーションに十分な余裕を確保するのに役立ちます。

ネットワークメトリクス:ユーザーエクスペリエンスを阻害する隠れた要因

アプリケーションの動作が遅いのは必ずしもサーバーの問題ではなく、ネットワークパフォーマンスが見落とされがちです。以下のネットワーク指標は、ユーザーに影響を与える問題を早期に発見するのに役立ちます。

  • リージョン間レイテンシ: これは Azure Front Door または Traffic Manager を使用するグローバルに分散されたアプリには不可欠です。
  • TCP 接続失敗率: 単純なスループット メトリックよりも便利な、失敗した接続はネットワークの不安定さを示します。
  • DNS 解決時間: DNS ルックアップが遅いと、すべてのリクエストが遅延し、アプリケーション全体に波及効果が生じる可能性があります。
  • 接続の再試行またはパケットの再送信: これらは多くの場合、帯域幅グラフには表示されないものの、アプリケーションの応答性に直接影響する、より深刻なトランスポート レベルの問題を示しています。

プロヒント: 複数リージョンに展開する場合は、レイテンシのベースラインを設定し、逸脱を監視します。Azureでは、ルーティングの変更による予期せぬ速度低下を常に通知できるとは限りませんが、LogicMonitorなら通知します。LM Envisionは、動的なしきい値と過去のパフォーマンスベースラインを使用して、ネットワーク動作の異常を検出できます。   ユーザーは遅延を感じます。

ストレージパフォーマンス: IOPSよりもレイテンシが重要な理由

ストレージパフォーマンスはアプリケーションの応答性に直接影響しますが、多くのチームは実際のパフォーマンス指標ではなくIOPSに固執しています。最も有用なストレージ指標は、以下の点に焦点を当てています。

  • I/Oレイテンシ(スループットだけではない): データの実際の読み取り/書き込み速度はどのくらいですか? 応答時間が遅い場合、IOPS が高くてもあまり意味がありません。
    ストレージのレイテンシの傾向とキューの長さ: 特にディスク IOPS またはスループットの制限に近づいている場合は、レイテンシはキューの深さのみよりも優れた早期警告信号となることがよくあります。
  • ストレージ層別のトランザクションレート: パフォーマンスを犠牲にすることなくコストを最適化します。下位層のストレージは安価ですが、使い方を誤るとアプリの速度が低下する可能性があります。

多くのチームが次のように尋ねます。 「Azure ではストレージは無制限と表示されていますが、実際に使用しているストレージ容量を確認するにはどうすればよいでしょうか?」 そこで、使用状況のベースライン設定が不可欠になります。Azure のネイティブツールではこの機能は提供されていませんが、LogicMonitor では利用可能です。LM Envision は、動的なしきい値と履歴ベースラインを使用することで、異常値の特定、実際の使用状況の経時的な追跡、そしてストレージの動作がサポートするサービスに与える影響の把握を支援します。

プロのヒント

負荷の高いアプリケーションでは、CPU、メモリ、ネットワークに問題がなくても、ストレージスロットリングによってパフォーマンスが徐々に低下する可能性があります。ストレージのレイテンシをリアルタイムで追跡することで、予期せぬ速度低下を防止できます。

Azure Blob Storage について説明します。
ブログを読む

アプリケーションパフォーマンスメトリクス:ユーザーの体験を見る

インフラストラクチャは健全に見えても、アプリが遅いと、ダッシュボードの見やすさはユーザーには関係ありません。だからこそ、CloudOpsチームは、特に分散サービス全体にわたるアプリケーションの動作を可視化する必要があります。

これはコードの詳細なプロファイリングではなく、理解することです サービスがどのように連携して機能するか 負荷がかかった際にパフォーマンスが低下する箇所を特定します。具体的には、以下のような点を追跡します。

  • リクエストのレイテンシパターン(P95、P99)
  • バックエンドサービスの遅延
  • 遅いAPI呼び出しまたはデータベースのボトルネック
  • サービスレベルのエラー率

LM Envision は、インフラストラクチャ、サービス、ユーザー向けトランザクション全体のテレメトリを相関させるため、従来の APM ツールがなくても、チームは速度低下、セッションの中断、エクスペリエンスの低下の「原因」を明らかにすることができます。

サービスレベル指標:技術指標とビジネス成果の結びつき

結局のところ、監視とはデータを収集し、サービスがビジネス目標を満たしていることを確認することです。 サービスレベル指標(SLI) 技術的なパフォーマンスとユーザー エクスペリエンスの橋渡しに役立ちます。

SLIをビジネスの優先事項に合わせる

効果的な SLI は、技術データをエンジニアとビジネス リーダーの両方にとって有意義な洞察に変換します。

  • 取引完了率: 重要なビジネス プロセスが実際に成功する頻度を測定します。
  • 時間ベースの可用性: 従来の稼働時間メトリックは実際のユーザー エクスペリエンスを反映しません。応答時間に基づいてサービスの健全性を追跡します。
  • 機能別のパフォーマンス: 主要なユーザー ジャーニーを個別に監視し、ビジネス クリティカルな機能が常に適切に実行されるようにします。

SLIが最も重要になるのは、単なる個別の指標ではなく、サービス全体で実際に何が起こっているかを反映する場合です。ユーザーエクスペリエンスが低下し始めていることを示すパターンを捉えることが重要です。

LogicMonitor の Edwin AI は、レイテンシ、エラー率、トランザクション障害などの指標全体にわたって相関する異常を自動的に検出することでこの点を支援します。そのため、大量の断片的なアラートを受け取る代わりに、実際にストーリーを伝える 1 つの統合されたインシデントを受け取ることができます。

Azure の監視を簡素化して重要なことに集中できるようにします
ブログを読む

エラー率と障害閾値

エラー メトリックにより、ユーザーに影響を与える問題が明確に示されます。

  • エラー率とエラー数: トラフィックの急増時に誤報を回避するために、リクエスト量で正規化します。
  • エラーバジェットの追跡: サービス レベル目標 (SLO) に対して信頼性を測定します。
  • ユーザーセグメントによるエラーの影響: 影響を受けるユーザーまたはトランザクションに基づいて修正の優先順位を決定します。
プロのヒント

エラーの重大度と継続時間に基づいて異なる対応プロトコルをトリガーする、複数レベルのしきい値を実装します。重要なサービスの場合、低レベルのエラー率であっても、それが継続する場合は調査が必要になる場合があります。

ユーザーエクスペリエンスの指標

システムの健全性とユーザーエクスペリエンスは必ずしも同じではありません。サーバーは正常に動作しているかもしれませんが、シンガポールでログインページがタイムアウトしたり、ドイツで決済フローが滞ったりすると、ユーザーはそれを感じ、チームはその影響を負うことになります。

それでも、一部の ITOps チームは、ユーザーの視点からパフォーマンスを測定することに抵抗し、「制御できない問題については責任を負わせないでください」と言います。

確かにそうですね。しかし、アウトサイドイン監視は責任追及を目的としたものではありません。特にグローバルに分散した環境においては、状況を明確に把握することが目的です。パフォーマンスが低下した場合、どこで発生しているかを把握することで、自信を持って対応できるようになります。

想像してみてください。カナダではページの読み込みが遅いのに、他の地域では問題がない。グローバルに分散されたチェック機能があれば、それがシステム全体の問題なのか、それともその地域のモバイルプロバイダーの障害などなのかを素早く特定できます。アプリは正常です。これでそれを証明できます。

LogicMonitor は、次のような機能により、CloudOps チームがユーザーに影響を与える問題を未然に防ぐのに役立ちます。

  • 実際のユーザーアクションを模倣したHTTPチェックとスクリプトフロー
  • 地域劣化を明らかにするための世界的な監視地点
  • パフォーマンスの低下が発生する場所を特定するための段階的なタイミング

ユーザーが速度低下を報告するのを待つ代わりに、チームはリアルタイムでパフォーマンスの低下を捉え、サービス レベル アグリーメント (SLA) や顧客エクスペリエンス (CX) に悪影響が出る前に対策を講じることができます。

プロのヒント

インフラストラクチャ監視の上にユーザー エクスペリエンス チェックを重ねるとループが閉じられ、システムを監視するだけでなく、サービス エクスペリエンス全体を保護できるようになります。ユーザーの目によって、監視戦略がシステムの信頼性と顧客満足度の両方を確実に高めます。

パフォーマンス指標を行動に変える

Azureのどのメトリックが重要かを知ることが最初のステップです。それに基づいて行動することで、真の価値が発揮されます。

優れたCloudOpsチームは、すべてを監視するわけではありません。成果につながる要因を監視します。トランザクションに影響を与えるレイテンシの急上昇、主要なワークフローを遅らせるストレージの遅延、そしてサービスが滞っていることを示す早期警告サインなどを追跡します。パフォーマンスとビジネスへの影響を結び付け、最適化を継続します。

LogicMonitor を使用すると、より迅速に行動し、よりスマートに応答し、ユーザー エクスペリエンスを最優先にするためのコンテキストが得られます。


次に、役立つ指標について詳しく見ていきましょう。 Azureの支出を管理する パフォーマンスを損なうことなく、無駄を特定し、使用傾向を追跡し、サービス、チーム、成果にコストをマッピングする方法を学びます。

Azure の監視がどれだけ簡単になるかをご覧ください。
無料体験

よくある質問

1. 組織で優先すべき Azure パフォーマンス メトリックをどのように決定すればよいですか?

焦点を合わせる ネットワーク遅延, CPUパーセンタイル、トランザクション成功率などです。これらの指標は、生の利用率の数値よりも、実際のユーザーエクスペリエンスをより正確に反映します。

2. IOPS とストレージレイテンシの違いは何ですか? どちらを追跡する必要がありますか?

ストレージのレイテンシ データの読み取り/書き込み速度を表示します。 IOPS 操作数のみをカウントします。IOPSが高くても応答時間が遅いということは、真のパフォーマンスが得られていないことを意味します。重要なアプリケーションの場合、レイテンシはボトルネックをより明確に示します。 Azure ストレージのパフォーマンス.

3. Azure Kubernetes Service (AKS) で問題が発生する前にメモリ リークを検出するにはどうすればよいですか?

メモリ増加の傾向を追跡し、コンテナ内の実際の使用量と要求されたメモリを比較します。 AKS モニタリングリクエストが不足すると、負荷がかかった状態でポッドが強制的に再起動され、リクエストが過剰になるとバジェットが無駄になります。ページファイルアクティビティの増加と利用可能なメモリの減少に注意してください。

4. マルチリージョンの Azure 環境でユーザー エクスペリエンスに最も影響を与えるネットワーク メトリックは何ですか。

目を離さないでください リージョン間レイテンシ, TCP接続失敗、DNS解決時間など。これらは、アプリのパフォーマンス低下の背後にある目に見えない要因であることが多い。 分散型 Azure アプリケーション.

5. サービス レベル インジケーター (SLI) は、ビジネス関係者にパフォーマンスの問題を証明するのにどのように役立ちますか?

Azure の SLI レイテンシやエラー率といった技術的な指標を、トランザクションの成功率やページの読み込み速度といった実際の成果と結び付けることで、重要なユーザージャーニーが遅れているタイミングを把握できます。

6. Azure のグローバル リージョン全体でユーザー エクスペリエンスを追跡する最適な方法は何ですか?

  アウトサイドイン監視 HTTPチェックと複数の場所からの合成フローを備えています。LogicMonitorなどのソリューションは、実際のユーザーをシミュレートし、地域特有の問題を早期に検知して、脅威が侵入する前に対処します。 Azure SLAコンプライアンス またはCXに影響を与えます。

ニシャント・カブラ著
ハイブリッドクラウドオブザーバビリティ担当シニアプロダクトマネージャー
結果重視で細部にこだわる技術プロフェッショナル。製品管理、IT コンサルティング、ソフトウェア開発、フィールド イネーブルメント、戦略計画、ソリューション アーキテクチャの経験を持ち、20 年以上にわたって顧客中心のソリューションを提供しています。
免責事項: このブログで述べられている見解は著者の見解であり、LogicMonitor またはその関連会社の見解を必ずしも反映するものではありません。

14日間フルアクセス LogicMonitor プラットフォーム