ブレーキを踏む: AIOps への移行における重要な考慮事項

ブレーキを踏む: AIOps への移行における重要な考慮事項

この記事は、IT 運用のための人工知能 (AIOps) を活用して、より効率的で信頼性が高く、俊敏性があり、費用対効果が高く、最適化された IT インフラストラクチャを提供することに関する 4 部構成のシリーズの XNUMX 番目です。

十分に油を差したマシンにはアクセルペダルとブレーキペダルの両方が必要です。 私たちの記事のタイトルが IT チームが AIOps の機能を活用する方法 このアナロジーでのアクセル ペダルであれば、この文章は、組織が IT 運用に人工知能 (AI) と機械学習 (ML) を統合する際に行うべき教育的なピットストップを検討するためのことわざのブレーキとなります (AI Ops).

AIOps は、IT 運用管理とアプリケーションのパフォーマンスを強化する計り知れない可能性を秘めています モニタリング (APM) とアラート、分析、インシデント管理、自動化。 AIOps を IT 運用の主導権に据えたい組織は、考えられるいくつかの欠点に注意する必要があります。

AIOps システムの実装と管理は複雑で、専門的なスキルが必要です。

たとえば、 AIOps を導入する DevOps 以下のスキルアップが必要です:

  • ML とデータ サイエンスは、データ サイエンティストと協力して、AIOps システムで使用される機械学習モデルを開発および微調整します。
  • 既存のシステムと統合するためのコードを開発するためのプログラミング スクリプトと言語。
  • プロセス、ワークフロー、AIOps システム (データ収集、自動化、および応答展開) をさらに自動化するための自動化およびオーケストレーション ツール。

AIOps システムのネットワーク運用担当者は、以下のスキルを向上させる必要があります。

  • プロトコル、ファイアウォール、ロード バランサー、およびネットワーク セキュリティに重点を置いたネットワーク アーキテクチャ。
  • 監視ツールを AIOps システムと統合することで、プラットフォームの数を効率化し、理想的には削減できるようになります。
  • トラブルシューティング ネットワーク トラフィック パターン、パフォーマンスのボトルネックの診断、ネットワーク構成の最適化など、AIOps システムによって提供される洞察に基づいて問題を解決します。

サイト信頼性エンジニア (SRE) は、以下に関する深い知識を持っている必要があります。

  • AWS や Azure などのクラウド コンピューティング プラットフォームと、AIOps ツールを使用してクラウド環境を監視および管理するそのコンポーネント、サービス、展開モデル。
  • アラート、インシデントの分類、組織のエスカレーション手順などの自動対応を備えたインシデント対応ワークフローを設計および実装します。

データ品質は、AIOps 導入を構築するエンジンです。 スムーズな統合と、開発者とユーザーのエクスペリエンスを確実に向上させるには、AIOps 導入前および導入中に、データ ガバナンスと継続的な品質監視プロセスをフル稼働させる必要があります。 侵害された情報や古い情報がシステムに取り込まれた場合、誤った予測、誤検知、誤検知により、組織の AI を活用した洞察や自動化されたソリューションによる進歩が台無しになります。 

偽陽性と偽陰性は、実際にはインシデントが単に燃え尽きたドーム ライトである場合に、「チェック エンジン」ライトが点灯するのと同じです。 誤検知の一例は、AIOps システムがネットワーク トラフィックの軽微な異常を検出し、セキュリティ警告アラートを発行する場合です。 チームがこの問題を調査すると、その異常はセキュリティ イベントとして誤ってフラグが立てられたユーザー アクティビティの一時的な急増であることがわかりました。

アルゴリズムが本物のインシデントを識別できない場合、それは偽陰性です。 

例: 不正確な情報を処理する AIOps アルゴリズムは、クラウド インフラストラクチャのパフォーマンス低下の初期指標を見逃す可能性があり、それがエスカレートしてダウンタイムの問題として二次的なインシデントを引き起こすまで、異常にフラグを立てない可能性があります。 

ある IT クラウド コミュニケーション会社が自動化をどのように活用したかをご覧ください。 運用効率の向上 ダウンタイムを 80% 削減します。

AIOps は、パターンと異常を特定するために履歴データに大きく依存します。 歴史的背景が欠如している組織、または最近インフラストラクチャの大幅な変更 (旧バージョンからの移行など) を経験した組織 モノリシックからマイクロサービスまで アーキテクチャ) は、履歴データが現在の環境を実際に表すまで、AIOps ツールやプラットフォームを統合する準備ができていない可能性があります。

AIOps システムには、人間のオペレーターが提供する判断力や状況の理解が欠けています。 確かに、AI アルゴリズムは無限のソースからの膨大なデータを超高速で処理する脳の能力を上回っていますが、AI は複雑なコンテキスト情報に苦戦しており、微妙な決定を下すことが困難です。 自動化プロセス 人間の介入と組み合わせることで、最適な結果が保証されます。

AIOps ソリューションを組織全体に導入すると、物流上および技術上の課題が生じる可能性があります。 チームには、複数のツールの統合、モデルのトレーニング、自動化されたワークフローの確立が求められますが、これらすべてに慎重な計画と実行が必要です。 組織は、問題に迅速に対応できるよう、導入に先立って適切なリソース (熟練した従業員の割り当て、時間とコストの確保) を配置する必要があります。 

従業員の雇用やスキルアップは、AIOps に移行する際に考慮すべきコストの一部にすぎません。 システムの実装と保守には、新しいツール、担当者向けのトレーニング ソリューション、および管理インフラストラクチャの変更の可能性が必要です。 組織は、AIOps が IT 運用にもたらす長期的な価値を考慮する際に、潜在的なメリット、組織の準備状況、財務投資を慎重に比較検討する必要があります。

IT 運用への AIOps の統合を検討している組織にとって、この記事で説明されている考慮事項を積極的に特定し、対処することが重要です。 LogicMonitor は、組織が AIOps 導入をスムーズに加速できるよう、次の無料の教育リソースを提供できることを誇りに思っています。

AIOps時代のAPMはどのようになりますか?

Schneider Electric、LogicMonitor で監視ツールを 83% 統合 

AIOps早期警告システムによるプロアクティブな監視 

監視のための包括的な AIOps

効果的なITアラートのベストプラクティス

ITプロフェッショナルがレガシー監視ツールを捨てる6つの理由