モニタリングの成熟度はどのくらいですか？

あなたが監視していることはあなたのIT効率について多くを語っています。 ITチームと開発チームが使用するツールとプロセスを詳しく調べることで、組織の監視成熟度モデルを評価できます。

IT組織が監視の成熟度のどこに位置するかを知ることは、より良い財務上の意思決定を促進し、改善するためにどの領域に焦点を当てるべきかについてのトップレベルのアイデアを提供するのに役立ちます。

成熟度の監視のXNUMXつの段階は、暫定、診断、統合、インテリジェント、および予測です。このガイドを使用して、チームがどこに座っているか、および一般的な課題を克服して、より拡張性が高く、より観察しやすいIT環境を実現する方法を特定します。

にジャンプする：

暫定段階
診断段階
統合ステージ
インテリジェントステージ
予測段階

暫定段階

暫定ステージの概要

暫定段階の組織には監視ツールがあります–おそらくそれらの多くです。しかし、それらはサイロで機能し、多くの場合、手作業を伴います。多くの場合、彼らが受け継いだツールは、他の購入品、つまり、独自の限定された監視機能が組み込まれているエンタープライズアプリケーションまたはハードウェアに付属しています。

暫定ステージ運用組織は、限られたコンテキストでトラブルシューティングを行っています。これは、問題に対応し、深夜に不要なアラートを処理するエンジニアにとっては苛立たしいことです。さらに悪いことに、頻繁なアラートストームの結果として重大なアラートを無視することもあります。コンテキストが制限されていると、問題のトラブルシューティングを効率的に行うことができなくなります。

インフラストラクチャ全体の可視性は、非常に多くの異なるツールでは不可能です。チームは、さまざまなデータセットとさまざまなアラートシステムを使用する必要があります。問題の根源に到達するために問題を関連付けることは、別の言語で電話のゲームをプレイするようなものであり、チーム間およびチーム内での指差しや不和につながります。

暫定段階にある兆候

クラウドの敏捷性 –クラウドを使用していないか、他の実装と統合されていません。

アーキテクチャ – ITアーキテクチャは、一元化されたオンプレミスアーキテクチャです。

技術スタック –サイロで機能するツールがあり、多くの場合、手動で実装されます。

チームと開発 – ITOpsは、チケットの取得と重大なエラーの修正で構成されており、組織全体の改善のための時間はほとんどありません。大小の問題に対するアラートストームは定期的に発生します。 DevOpsは存在せず、あらゆるソフトウェア開発にウォーターフォールアプローチを採用しています。

暫定段階のIT組織に共通する課題

暴風雨と指さしの警告 –暫定段階にある多くの組織は、テクノロジーベンダーによってサイロ化された監視を行っています。一元化されたアラートシステムがないと、さまざまなツールが独自のアラートを発します。これにより、アラートストームが発生します。システム全体の可視性が欠如しているため、信号をノイズから分離するために必要なコンテキストがチームにありません。また、チームは問題が発生しているという事実にのみ警告され、問題が発生している場所ではないため、問題を解決する代わりに指さしで時間を無駄にします。

戦略的意思決定の難しさ – IT組織は、サイズと複雑さの両方で成長しているインフラストラクチャの健全性に責任があります。ただし、パフォーマンスデータは暫定段階のツール内で分離されているため、過去のパフォーマンスとシステム全体の傾向を高次で表示することは不可能になります。これは、長期的で戦略的な意思決定を複雑にします。

たとえば、購入の決定は、予測への全体的なアプローチなしに行うことは困難であり、これらの決定を経営陣に正当化することは、それらをバックアップするデータがなければフラストレーションの練習になる可能性があります。

ITはコストセンターと見なされます –必要なデータが別々のテクノロジーに格納されているため、完全に不可能ではないにしても、システム全体のパフォーマンスと稼働時間のレポートは困難です。チームがビジネスに提供している価値を実証する能力がなければ、ITはコストセンターとして認識され、予算の削減につながり、戦略的な意思決定から除外される可能性があります。

暫定段階のIT組織のために改善するための戦略

監視サイロの削減 –マルチベンダー環境をサポートするXNUMXつ以上のツールを優先して、ベンダー提供の監視ツールをできるだけ多く削除します。サイロ化されたツールは、必要なエンドツーエンドの可視性とコンテキストを提供しません。ツールを統合ビューに統合すると、突然、チームは同様のデータセットを操作し、同じダッシュボードを表示します。根本的な原因はより簡単に発見されるため、チームは指を指す時間を減らし、問題の解決により多くの時間を費やします。

より詳細な監視 –これは、サービスとデバイスのポーリング頻度をXNUMX分ごとからXNUMX分間隔に増やすのと同じくらい簡単に実現できます。これにより、記録されるデータの量と粒度が向上します。監視の粒度が広がることで、履歴の追跡と予測可能性と同様に、問題の解決がより効果的になります。

サービスパフォーマンスの監視 –多くの組織は、ITのデバイス中心のビューから離れて、ハイブリッドで複雑な環境を支持しています。ダッシュボードは、サービスのコンポーネント（つまり、サービスのパフォーマンスに寄与するすべてのデバイス）とレポートするKPIを定義するだけで、データをまとめてサービス関連のパフォーマンスをレポートできます。経営幹部と上級管理職は、これらのタイプのダッシュボードビューを簡単に消化できるため、ビジネスの戦略的意思決定をより自信を持って行うことができます。

診断段階

診断段階の概要

この段階の組織は、ビジネスの成長に伴って受け継いだテクノロジー固有のポイント監視ソリューションを放棄しました。これは、より効率的な運用に向けた重要なステップです。

ポイントソリューションに伴う消火活動に対処するのではなく、診断段階の組織は、多くのテクノロジーをカバーする専用の監視ツールを購入するという賢明な決断を下しました。その結果、平均解決時間（MTTR）が改善され、SLAに対するパフォーマンスが向上し、チームがより幸せになった可能性があります。

しかし、この段階のIT組織は、可能な限り効率的ではありません。監視は、依然として複数の独立したシステム内に収容されている可能性があります。このシナリオで運用チームが直面する主な課題は、トラブルシューティングのために複数のツールと複数のデータセットを参照する必要があることです。関連するデータを複数のシステム間で手動で関連付ける必要がある場合、根本的な原因を特定することは非常に困難です。結果は、私たちがそれほど愛情を込めて「椅子の回転」と呼ぶ用語です。

あなたが診断段階にある兆候

クラウドの敏捷性 –クラウドにいますが、個別のSaaSまたはIaaSサービスを使用しています。

アーキテクチャ –オンプレミスの仮想化をサポートし、アーキテクチャのいくつかの要素をクラウドに配置します。

テックスタック –技術スタックのほとんどまたはすべてを追跡できるツールがありますが、それらは統合されておらず、一部は他よりも非常に好まれています。

チームと開発 – ITOpsチームには、すべてを機能させるために信頼できる部族の知識の専門家が数人いる可能性があります。開発はアジャイルです。

診断段階のIT組織に共通する課題

制度的知識と専門家の燃え尽き症候群 –複数の監視ツールがある場合、それぞれに特定のトレーニングが必要です–すべてのツールを学習および管理する時間や傾向を持っている人は一人もいません。ツールの数が増えると、エンジニアリングチーム内の特定の組織の知識も増えます。エンジニアは、他のツールではなく一部のツールに習熟していることに気付きます。これにより、さまざまなイニシアチブが特定の専門家の参加に依存し、燃え尽き症候群につながります。

椅子の回転– さまざまなツールによって監視されるデバイス間の相関を必要とする問題が常に発生します。個別に監視されているデバイス間でデータを相互に関連付けることは手動で行うため、根本原因を効率的に特定することは非常に困難です。

ITビジネス価値の伝達 –健全なインフラストラクチャを維持する責任があります。稼働時間の確保と問題のトラブルシューティングには、デバイスレベルでのきめ細かい監視が必要ですが、それをIT以外のチームが理解できる用語に変換することはほぼ不可能です。サービスレベルのレポートを入力します。デバイスのパフォーマンスよりも高いレベルに監視を抽象化できる場合は、サービスのパフォーマンスとSLAについて話し始めることができます。ミッションクリティカルなアプリケーションとサービスを支えるサブシステム（さまざまなツールによって監視される）間でデータを相互に関連付ける簡単な方法がないため、これは独立した監視ツールでは不可能です。

診断段階のために改善するための戦略

既存のツールセットを評価する –さまざまなデータセット全体で最も可視性を提供するツールを決定します。異種のツールを最も包括的なオプションに統合する必要があります。インフラストラクチャをエンドツーエンド（ハイブリッド環境、パブリッククラウド、リモートデータセンター、オンプレミスにまたがる）で単一のガラス枠で監視できるということは、チームがサービスの状態を監視およびレポートできることを意味します。基盤となるインフラストラクチャに加えて、ミッションクリティカルなアプリケーション。最適なパフォーマンスを確保し、ダウンタイムを最小限に抑えます。

しきい値を設定する –デバイスグループとサービス全体にしきい値を設定して、重大度、デバイス、テクノロジー、グループ、さらには時刻に基づいてアラートをさまざまなチームにルーティングします。これにより、問題に対処するのに最適な人/チームに確実に到達できるようになるため、ノイズが減少し、アラートの伝達がより正確になります。

最も説得力のある統合を特定する –チケットシステム、プロアクティブなリソース割り当て、および障害分析の自動化の実装を開始します。

統合ステージ

統合ステージの概要

統合ステージ組織は、チームとテクノロジーのサイロによって引き起こされる消防を超えて、通常、環境のエンドツーエンドの可視性を享受しています。これは、組織が複数の監視ツールを単一の監視システムに統合するために取った困難でありながら影響力のある手順のおかげで可能になりました。

統合ステージでは、IT組織は、インフラストラクチャの大部分（ネットワーク、コンピューティング、ストレージ）をXNUMXつの統合されたビューで視覚化できます。その結果、単一のデータプールから発生するため、トラブルシューティングおよびレポート機能が向上しました。

統合された組織は通常、ビジネスの俊敏性を最適化するためにDevOpsの文化とフレームワークを採用しています。このレベルでは、コードからリリースまで、開発パイプライン全体を監視することが不可欠です。これを行うために、運用チームと開発チームは、Chef、Puppet、Ansibleなどの自動化ツールを活用して、より多くのコラボレーション、より迅速なアプリケーション展開、およびより迅速なトラブルシューティングを可能にします。

これらの機能が十分に活用されると、ITチームはより戦略的になり、解放された時間とリソースを使用して、ビジネスを前進させるプロジェクトを遂行できるようになります。さらに優れた、そしてこれは非常に重要です。エグゼクティブからエンジニアまで、誰もがダッシュボードとレポートを使用してビジネスの健全性を明確に把握できます。その場合、ITはもはやコストセンターではなく、ビジネスの重要な推進力と見なされます。

統合ステージのITチームは、ワークフローに機械学習を採用しようとしています。ただし、予測機能がない場合でも、手間のかかる作業の多くは手動です。この段階でチームを引き留めるには、いくつかの課題があります。

統合段階にある兆候

クラウドの敏捷性 – ITは通常、内部的にクラウドに拡張されます。

アーキテクチャ –クラウドとオンプレミスのアーキテクチャは相互に連携して機能し、成長の余地を提供し、拡張の可能性を広げます。

テックスタック –ツールは、環境全体を調整および監視するために使用され、すべてが連携して機能します。

チームと開発– 多くの場合、ITOpsチームは通常のタスクを自動化できるため、プロアクティブな開発の余地があります。開発はDevOpsの考え方で行われます。

統合ステージIT組織の一般的な課題

手動相関要件 –機械学習がなければ、リソース/デバイスの動作のパターンを検出し、それらを問題に関連付けるために手動で作業する必要があります。コンテキストは重要ですが、手動で開発するのは難しく、問題解決の効率が低下します。 AI（または機械学習）は、時間の経過に伴う行動のパターンをより効率的に検出できるため、アラートがよりインテリジェントになり、運用マネージャーは根本原因の分析をより効果的に行うことができます。

手動予測と容量計画 –チームはインフラストラクチャ全体のかなりの部分について統一されたビューを持っていますが、容量を適切に予測および計画するには、多くのソースからのデータを集約する必要がある可能性があります。

統合ステージのために改善するための戦略

楽しみにする –監視ツールを活用して、履歴データとグラフの予測を表示します。アラートのしきい値を超える時期を予測し、ダウンタイムなしで計画的な成長を可能にします。

振り返って -イベント履歴のプロアクティブな追跡を実装して、傾向のある障害の分析を可能にします。これにより、不要なアラートを作成することなく、「通常」をより正確に反映する動的なしきい値が可能になります。

監視をカスタマイズしてサービスレベルに引き上げる –監視機能を拡張して、動的でミッションクリティカルなサービスをサポートします。これにより、サービスを支える多くの基盤となるリソースやデバイスからサービスを推定するのではなく、サービスの状態をレポートできます。ミッションに固有のカスタムメトリックとデバイスを含めるようにKPIを設定します。

フルスタックの可観測性の実現

インテリジェントステージ

インテリジェントステージの概要

インテリジェントな段階にある組織は、機械学習を使用して、運用データの大規模なプールから重要な洞察を抽出します。これらの洞察は、ITシステムに教えて、根本原因を識別する能力を継続的かつ独立して向上させるために使用されます。

最終状態は何ですか？システムは、インフラストラクチャ内の障害を学習し、パターンを修正することによって、時間の経過とともに意見が分かれるようになります。本質的に、システムはオペレーターのパーソナルコンシェルジュのようになります。

あなたがインテリジェントな段階にある兆候

クラウドの敏捷性 –ハイブリッドITは、複数のクラウド展開と仮想化によって実現され、シームレスなスケーラビリティを実現します。

アーキテクチャ –コンテナーとマイクロサービスアーキテクチャにより、複数の環境をシームレスに最大限に活用するための柔軟性を提供しながら、迅速に拡張できます。

テックスタック– ツールは、技術スタックの監視にとどまらず、デバイスとリソースを一緒に集約することによって、またデバイスレベルを超えて重要度にアラートを出すことによって、可観測性を実現できます。

チームと開発 – ITの問題はまれであり、問題を修正するプロセスは安定しており、タイムリーに実行されるため、問題を先取りして改善するための時間を増やすことができます。 ITOP、DevOps、およびDevSecOpsの間の境界線があいまいになり、堅牢な開発プロセスが作成されます。

インテリジェントステージ機械学習

この段階では、機械学習は、前の段階に存在する組織が経験するいくつかの課題に対処します。できる：

停止シナリオを理解して防止する –問題のあるデータの調査は、特定のシナリオがどのように電圧低下または停止につながるかについての理解を深めるために使用されます。システムは、毎回詳細な分析を実行することなく、潜在的に危険または悪意のある情報について運用チームに警告できるようになります。これにより、修復が劇的に高速化され、差し迫った停止が発生する前に防止されます。

根本原因の分析と修復を自動化する –事実上、介入、根本原因の特定、および問題の修正の負担は、人間からシステムに移されます。これは、特にオンプレミス、リモートデータセンター、および/またはパブリッククラウドにまたがる異種環境での問題解決にとって重要です。

Intelligent Stage組織は、ロギング、アプリケーションパフォーマンス、および監視全体で最高のツールセットを統合することにより、インフラストラクチャのより高度な可視性を実現します。これにより、ITの真のエンドツーエンドの可視性が実現します。この段階の組織は、単に問題を特定するだけでなく、それらの問題をプロアクティブに解決することにも移行します。言い換えれば、彼らは必然的に、システムが問題を解決し、最終的に防止するための最善の行動方針を推奨する場所に到達します。

プロアクティブな解決の利点は非常に大きいです。内部的には、日常業務に必要なITOpsツールが少なくて済み、メンテナンスに必要な工数が少ないため、コストが大幅に削減されます。このシナリオでは、ITチームは本質的に事後対応から真に戦略的なものへと劇的に移行します。より幸せな顧客は、外部のメリットを要約します。これにより、サービスの可用性と信頼性が向上します。

革新する機会

完全に自動化されたIT運用に昇進する組織の能力を加速できるXNUMXつの特定の領域があります。

監視を追加のビジネス管理システムに統合する –これにより、修復オプションを関連するコストと相関させることができるため、大幅なコストの最適化につながります。運用チームは、最も低コストのソリューション、最も便利なソリューションなどの最適化とフィルタリングを開始します。

多変量解析を使用して機械学習を強化する –多変量解析により、問題を特定して予測するシステムの機能が高速化され、最も関連性の高い修復が自動化されます。

さらに革新するための重要なステップは次のとおりです。

分析による現状把握 –履歴監視データを機械学習および予測分析エンジンに直接送信して、問題の自動検出を可能にします。

反応します –予測された障害に基づいて、自己修復インフラストラクチャのプロセスを自動化します。

管理 –プロアクティブなサービスレベルの監視を実装し、冗長なリソース割り当て、フェイルオーバーの自動化を可能にし、最終的にITインフラストラクチャ管理を「ライトアウト」します。

予測段階

予測段階の概要

最終的な形では、Predictive Stage組織の基本的なインフラストラクチャの監視と管理が完全に自動化されているため、ITチームの焦点を戦略的なビジネスイニシアチブに移すことができます。ここで、顧客主導でテクノロジーを活用したデジタルトランスフォーメーションの完全なビジョンが実現します。

この段階では、自動化されたIT運用について説明します。この段階では、AIOpsを使用することで、ほとんどの問題の監視、分析、および修正が自動的に行われます。この段階では、監視システムがそれ自体でほとんどの問題を監視、分析、および修復し、ユーザーに問題の20％未満を表示します。提起される問題は、修復がまだ自動化されていない問題のみです。

この超効率の状態に到達するには、組織は、ユーザー入力なしで問題を特定して最終的に解決する方法をシステムに教えるために必要な膨大な量の履歴データを利用するように自らを位置付ける必要があります。

つまり、組織には、自己修復アルゴリズムをトレーニングするためのこのタイプのデータとルールにアクセスできるツールが必要です。さらに良いことに、マルチテナントデータセットから時間の経過とともに継続的に学習および改善できる、ハイブリッド対応のインフラストラクチャSaaS監視プラットフォーム。

あなたが予測段階にある兆候

クラウドの敏捷性 –完全にハイブリッドであるだけでなく、クラウドの意思決定はビジネス価値に基づいて行われます。

アーキテクチャ –次世代アーキテクチャは完璧に成長することができます。

テックスタック –技術スタックのあらゆる側面で完全な可視性を利用でき、問題になるずっと前に異常を検出するために機械学習が実装されています。

チームと開発 – Opsチームはビジネス自体と緊密に連携し、利用可能なテクノロジーに基づいて何が可能かを決定します。スケーリングされたDevSecOps。

自己回復プラットフォームは、監視、分析、および行動という最新の監視システムのXNUMXつの段階すべてで成熟度を発揮します。自己回復の成熟度は、ルールに基づいて単純なインフラストラクチャタスクを自動化し、インフラストラクチャ内の問題をプロアクティブに修正することから始まります。これは、アラートへの依存からの重要な移行を示しています。これらのルールは、次のXNUMXつ以上のソースから派生しています。

組織の知識ベース –これには、監視システムによって収集されたメトリック、イベント、およびトランザクションを使用してオペレーターが作成できるヒューリスティックルールが含まれます。これらのルールは通常、Runbookとして文書化されており、インフラストラクチャで特定の状態が発生し、データで検出されると自動的にトリガーされます。

動的に派生したスコープ –動的に派生したスコープは、収集されたデータ内で学習されたパターンであり、インフラストラクチャスタック全体の任意の時点での正常な状態と異常な状態を示します。これらの条件は、RunbookまたはITポリシーを使用して構成された自動アクションをトリガーします。

インテリジェントに学習されたパターン –マルチテナント環境全体の履歴パターンから学習した自己修復システムは、インフラストラクチャ内で発生する特定の条件に基づいてアクションを実行します。自己修復システムは、「強化学習」などの高度なAI技術を使用して、複数の顧客からのデータセット全体で実行された履歴アクションから自動化を学習します。

LogicMonitorが予測段階に到達するのにどのように役立つか

LogicMonitorでは、世界で最高のAIOps製品を提供するための旅に乗り出しました。これは、ネットワークからクラウドまでのインフラストラクチャを自動化するというお客様の使命と一致しています。

LogicMonitorは、次の目的でAIOps機能を提供します。

アラートノイズをインテリジェントに低減 アラートストームと無効なアラートの発生を防ぐことによって。

残りのアラートをより意味のあるものにする 相関関係とメタデータを提供して問題の根本原因をより迅速に特定し、イベントとアラートに関するよりインテリジェントなコンテキストを提供することで、実用的です。

サービスに影響を与える前に問題を回避する 機械学習を使用して予測を提供し、予測パターンを特定し、異常、変化率、パフォーマンスの傾向などを警告します。

洗練されたインフラストラクチャの対決を可能にする ビジネスユニットまたはサービス/アプリケーションに起因するコスト分析。

LogicMonitorは、最も拡張性の高いハイブリッド監視プラットフォームであり、インフラストラクチャを完全に自動化するための包括的なAIOps機能と可視性を提供します。 LogicMonitorをまだ使用していない場合は、logicmonitor.comにアクセスして無料トライアルを行い、ITOpsを自動化して、あなたとあなたのチームがイノベーションと収益の創出に集中できるようにする方法を紹介しましょう。

LogicMonitor を使ってみる

ありがとうございました。