初心者が解決したCiscoスイッチの温度の問題

ここLogicMonitorの新入社員が組織の運営をサポートするために連れてこられたとき、私にはXNUMXつの当面のタスクがありました。 SaaSベースのモニタリング お客様のサーバーを監視すると同時に、独自のインフラストラクチャを学習します。

私は認めるよりも長い間SysAを務めてきました。複雑な環境で新しい仕事を始めると、会社に何らかの価値を提供する前に、スピンアップするまでに謙虚な期間が生じる可能性があります。 組織のテクノロジーとアーキテクチャの哲学を採用し、会社の資産であると主張する前にそれらを独自のものにすることには、多くの場合、急で、時には苦痛を伴う学習曲線があります。

でも今回は違いました。 LogicMonitorの創設者であるSteveFrancisが私の右側に座っており、そのチーフアーキテクトが私の左側にいるので、インフラストラクチャの状態を確認するために、独自のLogicMonitorポータルに飛び込むように勧められました。 ちなみに、ポータルは、お客様が自分の資産を見に行く個別のWebサイトです。 ポータルから、サーバー、ストレージ、スイッチからアプリケーション、電源、ロードバランサーまで、すべてのデータセンターリソースの素晴らしいビューを取得できます。 はい、LogicMonitorのリモートインスタンスを使用して、独自のインフラストラクチャを監視しています。 SysAの話では、これを「自分のドッグフードを食べる」と呼んでいます。

ログインするとすぐに、XNUMXつの石でXNUMX羽の鳥を殺し、インフラストラクチャに慣れて、ソフトウェアがどのように機能するかを確認することにしました。 上から始めて、Ciscoスイッチを調べて、何が何に接続されているかを確認しました。 LogicMonitorは、データセンターハードウェア上のAPIにフックを取得する作業をすでに行っているため、IPまたはホスト名を持つデバイスにコレクターを向けて、それが何であるかを伝えるだけです(LinuxまたはWindowsホスト、CiscoまたはHPスイッチなど)いくつかの資格情報と「Voila!」を提供します統計ときれいなグラフが出てきます。 私のポータルで私が目の前にいたのは、Ciscoスイッチに求めることができるすべての監視情報でした。

私が最初に見たスイッチで、その内部温度センサーが不規則な温度を読み取っていることに気づきました。 温度はまだCiscoの仕様の範囲内であり、アラートはまだトリガーされていませんでしたが、それまでの数か月間ほど安定していなかったことは確かです。 健全性チェックのために、私はそのすぐ隣のスイッチにある同じセンサーを見ました。 気温も同様に不安定でした。 別のデータセンターにある別のスイッチのペアで同じセンサーをチェックすると、数か月間安定した温度測定値が示されました。

LogicMonitorの気の利いた「スマートグラフ」機能を使用して、グラフを切り替えて、必要なデータ範囲だけを確認することができました。 温度センサーの出力を新しいダッシュボードビューに追加しました。 新しく見つけたデータを使用して、ジェフとスティーブとグラフを共有し、次のように尋ねました。 これは正常ですか?」

ジェフは3秒間一瞥し、顔をしかめ、こう言いました。 データセンターのチケットでチケットを開いて、見てもらいましょう!」

その作業は少し大変でした。 すべてのシステムが正常を示しているときにHVACに問題があることをデータセンターのオペレーターに納得させるには、少し持続性が必要です。 グラフを用意して、DCプロバイダーのサポートスタッフと一緒に食物連鎖を上っていきました。 キャビネットの入出力温度を確認し、空気の流れを妨げる異物がないことを確認しました。 そこにすべて良い。 ここで、システムの負荷に影響を与え、温度変動を引き起こすような変更を加えていないことを再確認しました。 ここでは変更はありません。 しかし、思い切って、彼は私たちのキャビネットにより多くの空気を通すことができるものに床タイルを変更しました。 そして、見よ、結果:

グラフを見ると、13月18日までは気温がほぼ安定していたことがわかります。21月1日に初めてLogicMonitorを覗き込んでいました。 (文字通り、初めて)そして2月6日金曜日に解決されたチケットを作成しました。新しい換気タイルが取り付けられた後、温度が下がり、再び安定する瞬間を見ることができます。 (不思議に思うかもしれませんが、グラフの下部にあるデータソースをクリックすると、グラフでの表示が切り替わります。別のデータにあるため、sw-coreXNUMX&XNUMX.laxXNUMXスイッチを「オフ」にしました。センター)

これらすべてに対するスティーブの反応は、「素晴らしい! あなたは付加価値を提供しています! 多分私達はあなたを保ちます。 今それについてのブログ投稿を書いてください!」

そして、私はあなたにこれを残しておきます:監視はSysAsにとって厄介な仕事になる可能性があります。 私たちは通常、それを自分で構築してサポートする必要があります。そうすれば、実際に使用するのに十分に理解できるのは私たちだけです。 頻繁に監視することは、手遅れになって停止するまで、それにふさわしい時間を得ることができません。 LogicMonitorを使用すると、インフラストラクチャの監視を短時間で簡単かつ効果的に行うことができます。 SysAがインフラストラクチャで作業できるように、構築、サポート、および理解を容易にしました。

またはブログ。