DevOps の世界では、一秒一秒が重要です。 問題は迅速に修正する必要がありますが、何か問題が発生した場合の正当な目的で修正することを意図しています。 継続的な監視は次のことに役立ちます オートメーション 適切な種類のアラートを設定します。 システムが混乱している場合、行動しないと事態が悪化する可能性があります。 そのため、可観測性と継続的な効果的な監視を可能にするために、インテリジェントなアラートが重要です。
すぐに使用できるインテリジェントなアラートはゲームチェンジャーです
実用的でインテリジェントなアラートに関する最も重要なニーズの XNUMX つは、自動化です。 体系的な安全性を確保するには、すべてを監視して正常性をチェックし、システム内の複雑さを分析する必要があります。 迅速なアクションが可能であるという考えに基づいて構築された、システムが常に監視されているとします。 その場合、販売している製品やサービスに関係なく、お客様の最善の利益のために XNUMX 時間体制で取り組んでいると信頼できるため、顧客との関係が強化されます。
読みやすいダッシュボード う DevOpsチーム 何が起こっているのか、いつ、規範的なワークフローと同じように、多くのトレーニングや教育を必要とせずに、ユーザーを高いレベルから低いレベルに導くことができるかを把握する - 進化するしきい値に関するエスカレーション チェーンのおかげで IT に情報を提供し続けるワークフローは、アプリケーションの回復力の強化につながります。それが作る ITOps 仕事が楽になります。
アラートへの重大度レベルの追加
重大度レベルを設定すると、問題がどれほど深刻で、どれだけ迅速に対処する必要があるか、システムが監視できるかどうか、または人間が関与する必要があるかどうかを示す、より合理化されたパフォーマンス監視につながる可能性があります。 重要なのは、このデータが存在し、将来のデータ収集のために行動できるリポジトリです。
調査時間を短縮すると、インシデントに情報とコンテキストが提供されます。 XNUMX つのインシデント内で何が起こったかを示すデータを収集すると、重大度をすばやく確認できます。 これらのインシデントが発生した場合、どのサービスまたはサービス インスタンスが実行されていたか、および回復プロトコルがどのようになるかを知ることが重要です。
アラートが重要な理由
システムの健全性を監視している企業は、次のような構造的および競合する力が原因で発生する可能性がある、一定のアラートを望んでいません。
- 常に誤検知で警告する過度に機密性の高いシステム
- あまりにも多くの非問題が警告され、重要な問題が発生した場合、誰も真剣に受け止めません
- 新しいテクノロジーのペースについていくと、知識のギャップが生じる可能性があります
- 互いに通信しない複数のシステムを使用することによるサイロ化された情報
すべてが永遠ではない
リソースは、どのような状況でも有限ではありません。 リソースが表示されたり消えたりすると、リソース メトリックの追跡が困難になる場合があります。 ホストが数時間のうちに XNUMX から XNUMX に移行している場合でも、誰かがシステムを攻撃している場合でも、チームはスタック全体でアラートを受け取る必要があり、システム内を移動するものについて常にデータをチェックインする必要があります。
スマート アラートの重要なコンポーネント
データ監視は、サービス マップと依存関係を収集して計算し、問題を関連付けるメトリクスと情報のスナップショットをユーザーに提供する必要があります。
- クラスタ ノードとインフラストラクチャ
- サービス インスタンス
- 構築されたフレームワーク
- ランドスケープ全体に分散されたトレース
- プロセスおよびランタイム環境
- サービスの依存関係
さらに、次の機能を提供します。
- ログ異常
- トレースするには (メトリック アラート -> トレース -> サービスのログへ)
- 動的しきい値に基づく合成アラート -> トレースへ
- メトリクス アラートのハブとなり、コンテキストでメトリクスを確認してトラブルシューティングを特定する
実際のコンテキストの可能性があるため、時間を大幅に短縮できます。 情報は詳細であるため、DevOps チームの解決プロセスに最適なシナリオが作成され、DevOps チームは分散システムとアプリケーション全体の情報で武装します。
カスタマイズはモールの T シャツだけではありません
ソフトウェアは、チームがこれらすべてを実行し、カスタマイズ可能な環境を作成するのに役立つ必要があります。 (私たちはこれを手伝うことができます。)
開発者は、何が起こっているかを知っている必要がありますが、後で情報を調べることができるように、データ リポジトリ内に留まる必要があります。 将来の問題解決のためのプレイブックを作成するのに役立ちます。 この方法論は、ボトルネックやベンチマークの対象を可視化するのにも役立ちます。
戦略には何がありますか?
ビジネス ニーズに応じて、システムを客観的に使用するように設定したり、さらに重要なこととしてカスタマイズしたりして、目の前の実際の問題に基づいてアラートを発するようにすることができます。
多くの場合、一般的なビジネス目標には、アラートの対象となるボトルネックを探すこと、高機能を優先すること、重要なものを特定すること、DevOps チームがビジネスに影響を与えながらアップタイムを達成するのに役立つアラートを作成することが含まれます。 私たちは皆、顧客にサービスを提供しており、それが常に目標であり、システムを可能な限りスムーズに稼働させ続けることを忘れないでください。
企業は、モバイル クラッシュ、Javascript エラー、API、サービス アラート、ページの読み込み時間、およびサービスの遅延についてアラートを設定する必要があります。 Kubernetes を使用しているチームの場合、稼働時間、ポッドの正常性、コンテナー、およびネットワーク ルーティングのアラートを設定できます。 メトリックのリストがない場合は、サービス レベル目標 (SLO) を使用して、チームの優先順位を反映するメトリックと KPI を作成することもできます。
これは顧客に関するものであり、DevOps チームがプロセス内でどれだけ深く迷子になるかではありません。 お客様にサービスを提供することは常に最優先事項です。 アップタイムは成功に不可欠であり、プロセスを合理化して効果を維持することで、ビジネスの良い面と悪い面を区別できます。
アラートは、チームが注意を払っている場合にのみ役立ちます。 人々が正しく反応するようにアラートを設定します。兆候が見過ごされたら意味がありません。 アラートはチームに役立ちます。 厳しさのバランスを取り、文化の一部としてチームを保護するためのガイドラインを作成します。
アラートは顧客のビジネスを動かし続けるための手段であるため、顧客への影響とビジネスの成果を優先する必要があります。 顧客は内部プロセスには関心がありません。サービスがどれだけ成功しているかに関心があります。
インシデントの後、何が機能し、何が機能しなかったかを確認します。 影響力のあるアラートを作成し、DevOps チームに情報を提供して準備を整えておくのではなく、単なる「情報警告」としてラベルを付けます。
警戒フラグが立った後はどうなりますか?
プロセスの設定、特に透明性と効果的なプロセスの設定は重要です。 この単純なシステムに従って、複雑なプロセスで失われない結果を確認することをお勧めします。
- 構成
監視と AIOps をセットアップして、異常検出、イベント相関、自動化、カバレッジにアクセス、監査、検索します。
- 検出
フラグが通知された場合は、Slack などのコラボレーション ツールに送信します。
- 組み合わせて洗練する
問題を診断およびトラブルシューティングして根本原因を突き止めるための、実用的なインシデントを XNUMX つ作成します。
- トリアージと割り当て
さまざまな根本原因に優先順位を付けて解決策を決定し、インシデントを対応できるチームにルーティングします。
- 修復 & レトロ
解決策を実行します: スケジューリング、ルーティング、エスカレーション、開発、テスト、コラボレーション。 次に、分析、事後分析、およびプロセスに関する将来の問題を防ぐために確認します。
長期的な体系的な健全性と成長の管理にとってアラートが重要である理由について詳しく知りたい場合は、お話しましょう。 私たちは常に、お客様の繁栄、革新、そして最も重要なことへの集中を維持するための最善の方法を探しています。