助けて! コレクターがダウンしています:6つのステップでトラブルシューティング

助けて! コレクターがダウンしています:6つのステップでトラブルシューティング

LogicMonitorソリューションの中核には、LogicMonitorコレクターがあります。 コレクターはにインストールされている小さなJavaアプリです 監視対象データを収集する環境内のサーバー さまざまなデバイスから送信し、そのデータをLogicMonitorに送信して保持および表示します。 コレクターは、環境をクラウドに接続し、どこからでもアクセスできるようにするものです。 ただし、これらのコレクターがダウンすることがあり、監視のギャップにつながる可能性があります。 明らかに、これは迅速に解決したい問題ですが、方法がわからない場合があります。 LogicMonitorサポートチームがいつでもお手伝いしますが、適切なトラブルシューティング戦略とLogicMonitor Collectorの機能を理解することで、問題をはるかに迅速に解決できる場合があります。 このガイドは、コレクターがどのように機能するか、その知識を使用してダウンしたコレクターを稼働状態に戻す方法、およびコレクターの復元力を最大化するためのいくつかのベストプラクティスを理解することを目的としています。 

コレクターを稼働状態に戻す方法を理解するには、コレクターがアップまたはダウンとして宣言される方法を理解することが重要です。 コレクターダウンアラートは、LogicMonitorのクラウドサーバーがコレクターから5分以上データを受信しなかった場合に作成されます。 コレクターのダウンの発生の大部分を導くいくつかの一般的な根本原因があり、先のステップでは、それぞれを見つけて修正する方法について説明します。  

サービスを確認してください

まず、コレクターがインストールされているホストマシンが機能していることを確認してから、LogicMonitorコレクターサービスとウォッチドッグサービスの両方が稼働していることを確認します。 通常、WatchdogサービスはCollectorサービスが停止すると再起動しますが、それが行われない場合もあるため、両方のサービスがホストマシンで実行されていることを確認することが重要です。 コレクターサービスとウォッチドッグサービスを開始できない場合は、確認できる一般的な事項がいくつかあります。 

資格情報を確認してください 

Windowsコレクターの一般的な問題は、コレクターサービスとウォッチドッグサービスの資格情報に十分なアクセス許可がない場合に発生します。 サポートされているWindows資格情報の構成は次のとおりです。 

  1. 同じドメイン内のコレクターおよび監視対象のリソース、ローカル管理者特権を持つドメインアカウントとして実行されているコレクターおよびウォッチドッグサービス。
  2. 同じドメインにないコレクターと監視対象のリソース、ローカル管理者アカウントとして実行され、ローカル管理者の資格情報(LogicMonitorのwmi.userプロパティとwmi.passプロパティを使用して設定)を使用して各ホストに接続するコレクターサービスとウォッチドッグサービス。 

さらに、LogicMonitor Collectorサービスには、ホストOSのローカルセキュリティポリシー設定の[ローカルポリシー/ユーザー権利の割り当て]で[サービスとしてログオン]を付与する必要があります。

接続を確認してください

CollectorサービスとWatchdogサービスの両方が実行されていることを確認したら、次に、これらのサービスがLogicMonitorのクラウドサーバーと通信できるかどうかを確認します。 コレクターは、ポート443とHTTPS / TLSプロトコルを使用して、LogicMonitorのデータセンターと通信します。 CollectorがLogicMonitorサーバーへの発信接続を確立できるかどうかを確認する簡単な方法は、LogicMonitorポータルにアクセスすることです(https://<company>.logicmonitor.com)コレクターホストのWebブラウザーから。 これに概説されているホワイトリスト手順に従うことをお勧めします サポートセンターの記事。 可能な場合はDNSベースのホワイトリストを作成することをお勧めしますが、このページのIP範囲は最新の状態に保たれているため、通信が維持されるように、環境のファイアウォールで定期的に確認および更新する必要があります。 私たちの目を離さないでください リリースノート ホワイトリストの更新について。

ウイルス対策ソフトウェアの確認

CollectorサービスとWatchdogサービスが稼働中であり、CollectorホストがLogicMoniorのサーバーと通信できることを確認したら、次に、Collectorホストで実行されているAntiVirusソフトウェアを確認します。 Windowsコレクターでは、LogicMonitorディレクトリを確認する必要があります C:\ Program Files(x86)\ LogicMonitor \ 再帰的にアンチウイルスソフトウェアの除外として追加されます。 ウイルス対策ソフトウェアは、コレクタサービスに問題のフラグを誤って付け、LogicMonitorまたは監視対象デバイスの実行または通信を妨げる可能性があります。 セキュリティのベストプラクティスの詳細については、こちらをご覧ください。 ここ.

上記の手順を実行すると、コレクターがバックアップされて実行される可能性が高くなります。 これは、問題の根本原因が何であったか、および将来どのように防止される可能性があるかを確認する絶好の機会です。 ファイアウォールルールやアンチウイルス構成など、環境内で何かが変更された場合は、更新を確認し、変更プロセスに継続的な監視機能を確保するためのプロビジョニングが含まれていることを確認することをお勧めします。 上記の手順でコレクターが復旧して実行されない場合は、LogicMonitorサポートに連絡してください。エンジニアが問題の詳細を収集し、コレクターログを確認して問題を特定して修正します。

コレクターの状態を確認する

コレクターの動作を理解するためのLogicMonitorのもうXNUMXつの便利なツールは、コレクターステータスです。 これにアクセスするには、LogicMonitorポータルのコレクターに移動し、[管理]アイコンをクリックしてから、[サポート]ドロップダウンをクリックします。 

コレクターを管理する際のコレクターステータスオプションは、コレクターの問題のトラブルシューティングに役立ちます。

コレクターステータスは、コレクターの状態を確認するのに最適な場所です。 これは、潜在的に問題のある負荷の問題と、異常に多数の失敗したポーリングを伴うLogicModuleを示している可能性があります。 

コレクターステータスの上部には、それを構成するさまざまなメトリックのステータスの概要が表示されます。 警告およびエラーステータス項目は、さらに調査する必要があります。
コレクターステータスを構成するさまざまなメトリックは、問題になる前に潜在的な負荷関連の問題を示すことができます。 これらは潜在的な問題を示すために色が変わり、役立つメッセージが含まれています。

コレクターステータスは、コレクターのパフォーマンスを完全に表示することを目的としたものではありませんが、原因不明の問題の原因を迅速かつ効率的に特定するための優れたツールです。 強調表示された問題は、懸念事項を示し、現在のコレクター構成が処理する予定の監視負荷に適しているかどうかを判断するのに役立ちます。 

コレクターのサポートメニューからも、コレクターイベントにアクセスできます。 このリストは、コレクターの再起動を追跡し、ウォッチドッグによって報告されたコレクターが遭遇する可能性のある特定のタイプのエラーを明らかにすることができます。 これは、複数回ダウンしたり、調べている動作が繰り返し発生するコレクターを探す場合に特に便利です。 コレクターイベントはパターンを見つけるのに最適で、コレクターの日常の行動を理解するのに役立ちます。 

正常なコレクターのコレクターイベント。毎日の再起動と資格情報のローテーションを示します。

レジリエントモニタリングの設定

これは、現在のコレクターフェイルオーバー構成を検討する絶好の機会でもあります。 バックアップコレクターは優れた選択肢ですが、自動バランスコレクターグループを検討することもできます。 自動バランスコレクターグループを使用すると、コレクターのグループ間の負荷分散が可能になり、グループ内のコレクターのXNUMXつがダウンした場合のフォールトトレランスがさらに向上します。 自動バランスコレクターグループの詳細を読むことができます ここ

これで、LogicMonitorコレクター、それがどのように機能するか、および環境内でそれを維持する方法について、はるかによく理解できたはずです。 また、コレクターのパフォーマンスを理解するために使用できるLogicMonitor環境で使用可能なツールのいくつかを確認する必要があります。 この知識を使用して、継続的なデータ収集を確実にするために冗長性を備えたコレクターを構成します。 コレクターのダウンアラートは、多くの場合、説明した手順でわずか数分で解決できます。 出て行って、自信を持って監視してください!

上記の手順の簡単な要約

以下は、コレクターがダウンした場合の対処方法の便利なリストです。 上記の手順を要約しました。 ダウンコレクターに遭遇した場合は、これを参照として自由に使用してください。 

  1. コレクターサービスとウォッチドッグサービスの両方が実行されていることを確認します。 
  2. CollectorホストがHTTPS / TLSを介してポート443を介してLogicMonitorサーバーと通信できることを確認します。 これは、インターネット接続とホワイトリストが最新であることの両方をチェックすることを意味します。 
  3. CollectorおよびWatchdogサービスの資格情報に、サポートされている十分な権限があることを確認してください。
  4. アンチウイルスソフトウェアがコレクターサービスの機能を妨げていないことを確認してください。 
  5. コレクターステータスとコレクターイベントを確認します。
  6. コレクターがダウンした場合でも監視を維持できるように、必ずバックアップコレクターまたは自動バランスコレクターグループを設定してください。