アラートが発動したら、目標は明確です。問題を迅速に解決することです。しかし、従来のトラブルシューティングでは、なかなかそれが容易になりません。すぐに意思決定モードに突入してしまうのです。
- デバイスにリモート接続しますか? 再起動しますか? サービスを再起動しますか?
- アクセスできるのでしょうか?
- ログはツール内で入手できますか、それともシステムに埋め込まれていますか?
- クエリ言語を知っていますか?
- 別のチームが介入できるようにチケットをログに記録しますか?
その間も、時間は刻々と過ぎていきます。次に何をすべきか迷っている時間が長ければ長いほど、ダウンタイムは長引いていき、付加価値のないエンジニアリング時間を浪費することになります。
LogicMonitor Logs は、ログを問題を引き起こした正確なメトリック、リソース、アラートと自動的に相関させることでこの状況を変えるため、ゼロから始める必要はありません。
問題が発生した場所のコンテキストでログが表示され、パフォーマンスの傾向やシステムの動作も表示されます。
LM Logs は、ノイズをかき分けるのではなく、稀な異常、突発的なスパイク、そしてこれまでに見たことのない機械学習によるパターンなど、際立った特徴を浮き彫りにします。LM Logs は、何かが起こったことだけでなく、なぜ起こったのかを示すよう設計された、組み込みのインテリジェンスを備えた可観測性です。
適切なデータが手に入ったら、次のステップはそれをどう活用するかを考えることです。
トラブルシューティングを迅速化し、平均解決時間 (MTTR) を改善するように設計された構造化されたワークフローを見ていきましょう。
ステップ1:概要タブで状況に素早くアクセスする
アラートが発生したら、まず最初にすべきことは、状況を素早く把握することです。 [概要]タブ LogicMonitor では、何が起こったかについての重要な事実をすぐに把握できます。
- アラートの概要: どのリソースがアラートをトリガーしたか、どのメトリックがしきい値を超えたか、および重大度 (警告、エラー、重大) を正確に確認します。
- トリガー時間: 問題が発生し始めた時期を正確に記録します。これは、システムの変更や展開との相関関係を調べる上で重要です。
- 現在のステータス: 問題がアクティブであるか、チームによって認識されているか、すでに解決されているかをすぐに確認します。
- 影響を受けるリソース: 問題の原因となっている特定のデバイス、サービス、またはインスタンスをすぐに特定します。
- 閾値と値: 正常限度を超えた実際の値を明確に表示して、当面の問題を正確に特定します。
- エスカレーションチェーンと通知: 誰が問題を認識しているか、何がすでに行われているか、どのようなエスカレーション手順が実施されているかを確認します。
- 最近のアラート履歴: 繰り返し発生するパターンや過去の発生を素早く見つけて、問題のより広いコンテキストを理解します。

この概要により、重要な詳細がすぐにわかり、次のトラブルシューティング手順に役立ちます。
ステップ2: グラフタブでパフォーマンスの傾向と指標を調べる
では、このアラートがパフォーマンス履歴にどのように影響するかを詳しく見ていきましょう。 [グラフ]タブ 何が起こっているかを視覚化します。
- 時系列グラフアラートがトリガーされた時点の前後のパフォーマンスを時系列で確認します。突然の急増だったのか、それとも徐々に増加したのかを確認します。
- 閾値指標: しきい値を超えた場所と時間を正確に把握し、イベントのタイムラインを明確に把握できます。
- ズームと時間範囲のコントロール: 時間枠を拡大または縮小して、傾向や重要な瞬間をより適切に見つけます。
- 複数のメトリックオーバーレイ: 関連するメトリックをグラフ ビューに追加して、相関する影響や連鎖的な障害があるかどうかを確認します。
- 通常の行動との比較: 表示されているものが特異なイベントなのか、それとも進行中の傾向やパターンの一部なのかをすぐに判断します。

グラフは視覚的な文脈を与えるが、完全に説明できない可能性がある 現在も将来も、 何かが起こりました。それが私たちの次のステップです。
ステップ3: グラフタブのログ異常セクションでログ異常を特定する
ログには、指標だけでは明らかにできない手がかりが隠されていることがよくあります。 ログ異常 さらに詳しく調べるには、グラフ タブの下部にあるセクションを参照してください。
- 紫色の異常柱: これらは、LogicMonitor の AI が異常とフラグ付けしたログ (システムが通常は検出しないイベント) を視覚的に強調表示します。
- アラートに対するこれらのログスパイクの正確なタイミングに注意してください。それらは問題と密接に一致していますか?

ログの異常により、パフォーマンスの問題の隠れた原因やわかりにくい原因が頻繁に発見され、迅速に絞り込むことができます。
ステップ4: ログタブで生のログを詳細に調べる
異常が興味深いが、さらに詳細が必要な場合は、完全なログ データを調べてください。
- に切り替える ログタブ 「ログ異常」から「 「すべてのログ。」
- アラートの正確な時間枠内でログを表示していることを確認します。
- 検索とフィルタリングのオプション キーワード、重大度 (エラー、重大、警告)、またはタイムスタンプでログをふるいにかけ、関連するエントリをすばやく表示します。

生のログには、多くの場合、根本的な原因を明確に示す詳細なエラー メッセージ、スタック トレース、または特定の構成の警告が含まれています。
ステップ5: ログタブのログパターンを使用してログ調査を簡素化する – パターンビュー
読み取るログが多すぎますか? LogicMonitor Envision は、繰り返し発生するパターンを自動的に識別して役立ちます。
- トグル 「パターンとして表示する」 類似のログをグループ化して、データを大幅に簡素化します。
- パターンを最も頻度の低い順に並べ替えます。まれなパターンは、多くの場合、固有の問題や非常に特殊な問題を示しています。(逆に、頻繁に発生するログは、多くの場合、背景の「ノイズ」を表しています。)
- アラート時間付近で発生した異常なログ パターンやメッセージを特定し、根本原因の特定に近づきます。

パターンを使用すると、ノイズの多いログを効率的に切り抜け、意味のある洞察をすぐに明らかにすることができます。
ステップ6: 自動ログ分析で洞察を深める
さらに詳しい情報が必要な場合は、LM Logsの ログ分析 この機能により、複雑なクエリや深いログの専門知識がなくても、重要なログの洞察が即座に明らかになります。
- クリックして ログ分析 LM ログ内で、自動 AI 駆動型分析をトリガーします。
- 「感情スコア」によって自動的にランク付けされたログを確認すると、問題の原因または問題に関連する可能性が最も高いログがすぐに特定されます。
- これらの感情的なログを簡単にドリルダウンして、膨大な手作業をかけずに明確で実用的な洞察を明らかにします。

ログ分析は従来のトラブルシューティングを変革し、推測を排除して問題の特定を大幅に高速化します。
ステップ7: 必要に応じて調査を延長する
場合によっては、より広範なログや履歴データにわたる詳細な調査が必要になることがあります。
- クリック 「ログを新しいタブで開く」 現在のビューから直接アクセスできます。LM Logs はアラートの期間とリソースのコンテキストを自動的に保持するため、フィルターを再入力する時間を無駄にしません。

- より包括的な分析を行うには、追加のキーワード、構文、または拡張日付範囲を使用して検索をさらに絞り込みます。

- 次回この問題が発生したときにトラブルシューティングを迅速化するために、役立つクエリを保存します。

LM ログによるトラブルシューティング: MTTR を数時間から数分に短縮
LogicMonitorの構造化されたワークフローは、従来の監視をはるかに超え、迅速かつプロアクティブなトラブルシューティングを可能にします。メトリック、イベント、ログ、トレースをシームレスに組み合わせることで、LM Logsは対応時間を短縮するだけでなく、問題発生の原因をチームが理解し、問題を未然に防ぐ能力も提供します。
この構造化されたアプローチを採用すると、ダウンタイムが大幅に短縮され、信頼性が向上し、複雑な環境をより簡単かつ正確に自信を持って管理できるようになります。
ログ監視分野の専門家であり、製品管理、プリセールス セールス エンジニアリング、ポストセールス PS/サポートの役割にわたる 25 年以上の経験があります。
私たちのブログを購読する
このような記事をあなたの受信箱に直接お届けします