AWS ServiceHealthダッシュボードのモニタリング

ほとんどの人は、データソースをLogicMonitorの監視機能の基本と考えています。 データソースは、数値データの監視に適しているため、最も一般的に使用されるLogicModuleです。 これらは、時間の経過に伴うデータの傾向を提供し(トラブルシューティング時に貴重なコンテキストを提供できます)、ほとんどの監視プロトコルと互換性があります。 そうは言っても、LogicMonitorのEventsourceモニタリングは過小評価されるべきではありません。  

イベントソースは、コレクターが受信または収集した非同期メッセージを警告するために使用でき、テキストデータをレポートできます。 対照的に、データソースは、コレクターにデータをポーリングさせて、アラートをトリガーするタイミングを決定し、数値データに限定します。 通常、Eventsource監視は、WindowsイベントログとSyslogの監視に使用されます。 しかし、最近、新しい スクリプトEventsource収集方法 これにより、ほぼすべてのイベントを監視できます。 監視に使用することにしました アマゾンウェブサービス(AWS)のサービスステータス.

LogicMonitorのAWSMonitoringは、CloudWatch APIを利用してCloudWatchメトリクスを収集し、AWSSDKを利用してCloudWatchによってレポートされないメトリクスを収集します。 どちらのメカニズムも、AWSサービスが正しく機能することに依存しています。 AWSに問題があり、EC2インスタンスが利用できない場合、それらを監視することはできません。 では、報告された問題がインフラストラクチャ内から発生しているのか、AWS内から発生しているのかをどのようにして知ることができますか? 前述のEventsourceをキューに入れます。

AWSステータスRSSフィードを解析し、AWSが問題を報告したときにLogicMonitorアラートをトリガーするスクリプトEventsourceを作成しました。 各Eventsourceアラートには、RSSフィードへの投稿が行われた時刻、投稿されたメッセージ、および投稿へのリンクが含まれます。 このEventsourceを使用すると、監視対象のAWSリソースがアラートになっているときに、AWSで問題が発生しているかどうかをすばやく参照できます。

たとえば、AWSの シドニー地域における最近のサービスの中断, シドニーの2つのアベイラビリティーゾーンにあるサーバーが使用できなくなったことがわかりました。 次のグラフは、XNUMX台のSydney ECXNUMXサーバーのCPUグラフの線が消え、もうXNUMX台のサーバーのCPUが増加して余分な負荷を吸収していることを示しています。

blog1

追加のコンテキストがなければ、問題は私たちの環境にあると簡単に推測できました。 ただし、同じ期間に、この地域のAWS ServiceHealthアラートが表示されました。

blog2

AWSのAP-Southeast-2リージョンで報告された多数の接続の問題は、問題が実際にはAWS自体にあることを示唆していました。 案の定、さらなる調査により、AWSでサービスの中断が発生していることがわかりました。 AWS Service Healthアラートがなければ、おそらくこの結論に達することができたでしょうが、それによって問題をより迅速に特定することができました。

すべてのAWSサービスまたはリージョンの通知を受け取ることに関心がないとします。 イベントソースにフィルターを追加するだけで、気にしないサービスや地域のアラートを除外できます。

blog3

または、少数のサービスや地域のみを気にする場合は、フィルターを追加してすべてをフィルターで除外できます。 以下は除く 必要なアラートの場合:

blog4

我々は出来た データソースを使用してこのAWSステータス情報を監視しましたが、監視対象のデータは数値である必要があるため、正常でないステータスごとにコンテキストメッセージを提供することはできません。 さらに、AWSがいつ正しく機能しているかはあまり気にしません。 イベントソースのモニタリングは、何かが正しくない場合にのみアラートを出します。実際には、AWSがいつかを知りたいだけです。 ありません 正常に動作しています。 

AWS Service Health Eventsourceは、コアリポジトリで利用できるようになりました。 イベントソースをインポートした後([設定]、[イベントソース]、[追加]、[LogicMonitorリポジトリから])、[適用先]フィールドを編集して、イベントソースがアカウント内のデバイスに適用されるようにする必要があります。 可能な限り完全な画像を取得するには、status.aws.amazon.comを監視対象デバイスとして追加し、そのデバイスにEventsourceを適用することをお勧めします。 または、Eventsourceを環境内の他のデバイスに適用することもできます。