占い:予防保全の芸術

オンコールであることは最悪です。 ページングを取得することは、午後3時に面白くなく、午前3時にさらに面白くありません。 それはあなたやあなたのパートナーの美容休息にとって有益なことは何もしません。 オンコールよりも悪いのは、既知の問題、別名「時限爆弾」を次の人に渡すことだけです。

LogicMonitor運用チームは、アクティブなアラートを最小限に抑えてオンコールを引き渡すことができる人を対象に、継続的な社内競争を行っています。 これにより、各オンコールエンジニアは、緊急の注意が必要なアラートと、警告の方向に向かっていることを示す警告の両方に注意を向けることができます。 事前に対処される問題が多ければ多いほど、睡眠が増え、ストレスが減ります。

問題を解決するために一生懸命働くことは素晴らしいことですが、財務チームがサーバーの購入を承認するために事前の時間を必要とする場合はどうしますか? より多くの容量が必要になるまでの期間を予測できますか? その警告が本格的な問題として夜中に目覚めるまでにどれくらいの時間がかかるかを予測できますか? 入る 予報。 手相占いやタロットカードについて話しているのではありません。 むしろ、過去のデータに基づいて将来の発生の概算を与える洗練された数学的モデルを参照しています。

数週間前、オンコールになるのは私の番でした。 新しい記録とぐっすり眠ることを追求して野生の警告を探している間、私はいくつかのマシンがSSD使用率のアラートモードに出入りしていることに気づきました。
スクリーンショット2015-11-17 15.53.50

これは正常に見えましたが、このアプリケーションはIOバウンドであることがわかっているため、長期間にわたる傾向を調べて、追加の調査を行いました。

スクリーンショット2015-11-17 15.54.14

長い期間を経て、それは増加しているように見え始めました。 そこで、予測を実行して、このシステムが問題を解決するまでにどれだけの時間がかかったかを確認しました。

スクリーンショット2015-11-17 15.55.09

予報によると、クリスマスの日にこの休憩を心配する必要はありませんでした。その時までにTechOpsが呼び出されていたからです。 逆に、クリスマス前に完了するとわかっていたこのマシンのメンテナンスをスケジュールできるようになりました。 アクティブなアラートの数が最も少ないという記録を破ったことはないかもしれませんが、少なくとも、その週に電話をかけている人は誰でも少し楽に眠れることを知っていました。 私もそうです。

これは、予測テストでの最初の成功を垣間見るだけです。まもなく行われるさらに大規模な展開にご期待ください。