SLA、SLI、SLO の実装: ベスト プラクティスを監視するためのガイド

リソースカード

SLA、SLI、および SLO の実装は、効果的な監視と最適なシステム パフォーマンスの維持に不可欠です。 企業が成長するにつれて、IT 資産に負担をかける大量の KPI が追加され、システムの動作が遅くなり、従業員から苦情が寄せられる可能性があります。 開発者は、ビジネス ニーズと IT プロセスのバランスを取る必要があり、SLA、SLI、および SLO は、このバランスを達成するのに役立ちます。

この記事では、SLA、SLI、および SLO が監視において重要な役割を果たし、IT チームがパフォーマンス目標を設定し、指標を追跡し、改善すべき領域を特定できるようにする方法について説明します。 これらの重要な監視ツールを活用することで、組織はシステムをより深く理解し、データ主導の決定を下してシステム パフォーマンスを最適化することができます。

SLA(サービスレベルアグリーメント)とは何ですか?

SLAは、サービスレベルアグリーメントの略で、サービスまたはソリューションを サードパーティベンダー。 たとえば、ベンダーとクライアント間のSLAは、99.999パーセントのネットワーク可用性の期待値を設定する場合があります。

ほとんどの企業は、ネットワーク可用性の99.999%がニーズを満たしているか超えていることに気づいています。 ベンダーは、さらに信頼性の高い可用性を提供できる可能性がありますが、わずかな改善でも、サービスに費用を追加する膨大なリソースが必要になります。 企業が年間15分XNUMX秒の接続を失うことに耐えられない場合を除いて、より手頃なオプションを選択します。

SLAは、ネットワークの可用性を確保するだけではありません。 SLAで定義されているその他の一般的なメトリックは次のとおりです。

  • セキュリティ関連 –ウイルス対策の更新とパッチをインストールし、データ侵害やその他のサイバー攻撃を防止するための予防措置を講じるベンダーの義務。
  • 不良率 –クライアントがベンダーから受け入れることができるエラーの数または割合。 欠陥には、不完全なデータバックアップからネットワークエラーまで、あらゆるものが含まれる可能性があります。 理想的には、SLAは欠陥としてカウントされるイベントを定義します。
  • 技術的品質 – SLAは、サードパーティツールの成功に対するクライアントの期待を確立します。これには、製品内のコーディング欠陥の数や特定のデータ範囲内にとどまることが含まれる可能性があります。
  • 業績 –業績は、他の要因よりも最近SLAに追加されました。 KPIは、クライアントの業界と目標によって大幅に異なる可能性があります。 SLAは、混乱を避けるために、クライアントとサードパーティプロバイダーがKPIを計算する方法も定義する必要があります。

企業がSLAを満たしていない場合はどうなりますか?

SLAは、実際の期待を確立する拘束力のある契約です。 彼らは、サービスプロバイダーがクライアントのために何をするかを定義する必要があります。 また、期待を下回った場合の影響も定義する必要があります。

SLAペナルティは、サービスプロバイダーとクライアントに利益をもたらします。 契約にペナルティがなければ、クライアントはビジネス関係から離れることができます。 技術的には、サービスプロバイダーが契約を破ったため、クライアントは関係を継続する義務を負いません。 ペナルティを追加することにより、サービスプロバイダーは目標を達成するための金銭的インセンティブを得ることができます。 彼らはまた、クライアントを失うことに代わるものを手に入れます。

SLAペナルティの簡略版では、「クライアントAは、セキュリティ違反ごとに50,000ドルのクレジットを受け取ります」と言う場合があります。 セキュリティ違反が発生した場合、サービスプロバイダーはペナルティを支払います。 ペナルティは確かに彼らの経済的見通しを損ないますが、彼らはクライアントを維持することから利益を得ます。 ただし、失敗が繰り返されると、クライアントは契約の終了時に競合他社を選択するようになります。

全体として、SLAは、企業がクライアントと締結する単なる合意です。 多くの場合、SLAはSLOとSLIによってさらに分類されます。 従来、SLAとそのコンポーネントは通常、SREチームに関連するチームを含む運用チームによって焦点が当てられていました。 基本的に、SLOとSLIは、SLAを技術レベルで測定できる小さな断片に分割し、開発者チームがSLA内で概説されているクライアントの期待を本当に満たしているかどうかを判断するために使用します。 全体として、SLIはSLOの基盤を形成し、SLOはSLAの基盤を形成します。 以下のSLOとSLIの役割の詳細を確認してください。   

SLO(サービスレベル目標)とは何ですか?

SLOは、サービスレベル目標の略であり、クライアントとの確立された合意を満たすために会社が満たさなければならない目標または目標です。 SLOはSLIによって測定され、通常はSLAで概説されています。 ただし、SLAは企業とクライアント間の一般的な合意として機能しますが、SLOは、クライアントの期待を満たすために企業が満たさなければならない特定の個々のメトリックの期待を概説するために使用されます。 

可能であれば、サービスプロバイダーはSLOに改善の余地を追加したいと考えています。 予期しない出来事が企業のサービス提供能力にどのように影響するかを予測することは、不可能ではないにしても、困難です。 たとえば、サービスレベル目標では、サービスプロバイダーがクライアントのデータをXNUMX時間ごとにバックアップすることを示している場合があります。 技術的な問題によりその目標が不可能になった場合、契約上の義務を損なうことなく、できるだけ早くデータをバックアップできます。

SLI(サービスレベルインジケーター)とは何ですか?

SLIは、サービスレベルの指標を表し、企業が達成しようとしている実際の数値または指標の概要を示します。 基本的に、SLO内で概説されている目標または目的には、明確な数値の期待値が与えられ、これらの数値の期待値は、一般にパーセンテージとして定義され、SLIを構成します。 

全体として、サービスレベルインジケーターは、クラウドサービスプロバイダーなどのIT企業から取得した特定のサービスを調べ、そのサービスのパフォーマンスの定量化されたビューを提供します。 これは、DevOpsやその他の技術分野以外の人には複雑に聞こえるかもしれません。 基本的に、これは、クライアントが、会社またはサービスプロバイダーがサービスの期待を達成した(または満たしていない)ことを示す、直接的で正確なデータを取得することを意味します。

企業が細心の注意を払っている最も一般的なサービスレベルの指標には、次のものがあります。

  • 待ち時間または応答時間 –ユーザーが要求を送信してから応答を受信するまでの合計時間。
  • エラー率または品質 –通常、データの品質と発生するエラー率。
  • 稼働時間 –ホスティングサービスは、稼働時間を使用して、サーバーが機能している時間をパーセンテージで表します。
  • 商品在庫 –非常に多くの企業が、稼働時間と可用性が同じことを測定すると信じています。 稼働時間はサーバーの機能時間を表し、可用性は会社のWebサイトや機能などのサービスが利用できる時間を表します。 小さな中断は、稼働時間に影響を与えることなく可用性を低下させる可能性があります。

測定する指標の決定 

サービスプロバイダーは、競合他社のより良い代替手段として自社を売り込む必要があります。 一部の企業は、法外な数のメトリックを測定することを約束することにより、クライアントを引き付けようとしています。

企業は、一部の指標が他の指標よりもかなり重要であることを認識する必要があります。 不要な、または役に立たないメトリックを追跡すると、リソースと時間が浪費される可能性があり、企業が約束したサービスを提供することはほぼ不可能になります。

実用的なアプローチを取り、重要なメトリックを特定し、クライアントにとって本当に重要なメトリックの処理能力を確保する方が理にかなっています。 他の人は、サービスプロバイダーの成功に不可欠な計算時間やその他のリソースを吸い上げながら、気を散らすだけです。

これらはSRE(サイト信頼性エンジニアリング)にとって何を意味しますか?

SREは多くの場合DevOpsと連携して機能します、したがって、これらの専門家は、間違いが顧客に影響を与えるのを防ぐ方法を深く理解しています。

知識のある読者は、企業がサービスプロバイダーに依存しているレベルに気付くでしょう。したがって、SLA、SLI、およびSLOに概説されている保証があります。

企業がサードパーティのサービスプロバイダーを比較する場合、これらの期待を真剣に受け止める必要があります。 信頼できるサービスプロバイダーは、過去の過ちを認め、それらの課題をどのように克服するかを説明します。 すべてのテクノロジー企業はつまずきます。 問題を適応させて解決する能力は、完璧な記録以上のものを意味するかもしれません。 一部の人にとって、完璧な記録はかなり疑わしいように見えます。

エンジニアの観点からは、期待は将来のプロジェクトのニーズを満たす必要があります。 クラウドサービスプロバイダーは、ユーザー側で遅延を発生させることなくソフトウェア更新を実行するのに十分な処理能力へのアクセスを保証できますか?

経営幹部はエンジニアを会話に参加させ、チームが現在および将来の目標を最小限の中断で達成するために必要なリソースとサービスを確実に利用できるようにする必要があります。

これらはITOpsにとって何を意味しますか?

IT 運用 (ITOps) チーム システムがビジネス要件を満たし、確実に機能するようにする上で重要な役割を果たします。 SLA、SLI、および SLO は、システム パフォーマンスを測定および最適化するためのフレームワークを提供し、ITOps チームが積極的に問題を特定し、システムをスムーズに実行し続けることができるようにします。

SLA、SLI、および SLO を効果的に実装するには、ITOps チームはビジネス要件とユーザーの期待を深く理解している必要があります。 これには、利害関係者との緊密な協力が必要であり、サービス レベルの目標を定義し、追跡する適切な主要業績評価指標を選択する必要があります。

また、ITOps チームは、適切な監視ツールを選択して、関連する指標を追跡し、潜在的な問題を警告する必要があります。 これには、問題を迅速かつ効率的に解決できるように、インシデント対応とエスカレーションの明確なプロセスを確立することが含まれます。

ITOps チームは、システムがユーザーのニーズとビジネス目標を確実に満たすように、システム パフォーマンスに対して積極的なアプローチを取ることができます。 適切なツールとプロセスを導入することで、ITOps チームは特定し、 重大な問題になる前に問題を解決する、システムのスムーズな稼働を維持し、ダウンタイムを最小限に抑えます。

これらの指標は、すべてのITにとって同じことを意味しますか?

SLA、SLI、およびSLOは、ITの領域全体で同じ一般的な意味を持っています。 ただし、エンジニアまたはプログラマーの懸念は、達成したいことによって異なります。

SLA、SLI、およびSLOに関しては、企業がWebサイトで何を達成したいかに応じて、ニーズが指数関数的に増大する可能性があります。 彼らはリードを生成するために画像とテキストベースのCTAを使用しますか? その場合、処理能力は大きな問題にはなりません。 会社は、ターゲットビデオをストリーミングし、自動化されたインタラクションをトリガーし、訪問者の行動を追跡したいと考えていますか? それにはより多くのリソースが必要になるため、開発者とプログラマーはサービスプロバイダーに期待できることに細心の注意を払う必要があります。

企業がビジネスインテリジェンス分析のために大量のデータを収集して分析したい場合、期待のレベルはさらに高まる可能性があります。

これらはすべて監視にどのように結びついているのでしょうか?

SLA、SLI、および SLO は、効果的な監視戦略に不可欠なコンポーネントです。 明確なサービス レベルの目標と指標を定義することにより、組織は許容可能なシステム パフォーマンスのベースラインを確立し、改善すべき領域を特定できます。 次に、監視ツールを使用してメトリックを追跡し、これらの目標に対するパフォーマンスを評価するために使用されるデータを収集できます。

たとえば、組織が重要なシステムに対して 99.9% のアップタイムの SLO を定義している場合、監視ツールを構成して、サーバーの応答時間、データベースのクエリ速度、ネットワークの待機時間などの重要なパフォーマンス指標を追跡できます。 これらのメトリックが許容範囲外にある場合、監視ツールはアラートをトリガーして、IT チームに潜在的な問題を通知できます。

メトリックの追跡に加えて、監視ツールを使用して、システムの動作に関する追加の洞察を提供するトレースとログを収集することもできます。 これらのトレースを分析して、パフォーマンスの問題の根本原因を特定し、将来の改善に役立てることができます。

最終的に、効果的な監視には、SLA、SLI、SLO、およびさまざまなツールと手法を組み込んだ総合的なアプローチが必要です。 これらの概念を活用することで、組織はシステムをより深く理解し、ユーザーが期待するパフォーマンスと信頼性を提供していることを確認できます。

用語解説

これはすべて長すぎましたか? 問題ない! この投稿で取り上げる用語の簡単な用語集は次のとおりです。

  • SLA: サービスレベル契約
  • SLI: サービスレベルインジケーター
  • SLO: サービスレベル目標
  • 指標: システムのパフォーマンスと動作を評価するために使用される定量的測定
  • トレース: 問題の診断や動作の理解に使用される、システム内のイベントまたは相互作用の記録
  • アラート: システム動作の潜在的な問題または異常を示す、事前定義された条件またはしきい値によってトリガーされる通知
  • ダッシュボード: システム パフォーマンスの監視に使用される主要なメトリックまたはデータ ポイントを XNUMX つのビューに集約して表示する視覚的な表示
  • APM: アプリケーションパフォーマンス管理

12 年 2021 月 2023 日に最初に公開されました。XNUMX 年 XNUMX 月に更新されました