ホスト名スキーム:名前の内容は本当に重要です

昨夜、私たちの サーバー監視 これまでに見たことのないインフラストラクチャ内のサーバーのCPU負荷に関するテキストアラートを送信しました。 (私は通常NOCエスカレーションを行っていませんが、通常のNOCチームでは、6人の男性が無制限の休暇ポリシーを利用してヨーロッパで充電し、他の6人がボストンに向かう途中でAnsibleFestで講演していました。)目が覚めた; 誤ったCPUを見た; 私の電話のLogicMonitorを介してサーバーを簡単にチェックしました。 「SDT90」でテキストに返信して、このアラートをXNUMX時間のスケジュールされたダウンタイムに入れ、CPUがXNUMX%を超えて稼働している状態でスリープ状態に戻りました。

これまでこのサーバーに出くわしたことがなかったのに、このアラートをSDTするだけで安全だとどうやって知ったのでしょうか。 それが私たちのインフラストラクチャの重要な部分であり、その高いCPUが悪いことを引き起こしていた場合はどうなりますか? その名前が教えてくれました。

この特定のテキストアラートは、と呼ばれるサーバーのCPU負荷に言及していました idm1.dc7。 だから、これは私にXNUMXつのことを教えてくれました:

  1. これはID管理を担当するマシンでした。顧客に直接影響を与えるのではなく、ID管理システムが内部で使用されています。 さまざまなデータセンターに複製され、最悪の場合、すべてのノードに障害が発生すると、sshアクセスがロックアウトされ、コンソールのみが残ります。 (そして、午前2時に、それが起こっていたとしても、私たちのチームの誰もが大いに気にかけていたとは思えません。)
  2. これは、まだ顧客と一緒に使用されていない新しいデータセンターDC7にあるマシン用でした。

このサーバーがガンダルフ、アスガルド、または意味を伝えない他の気まぐれな名前と呼ばれていたとしたら、サーバーが何をしたのか、そしてサーバーの高負荷が何に影響を与えているのかを理解するためにベッドから出なければならなかったでしょう。

意味を伝えるためにホストに名前を付けます。 明確で、サーバーの場所と機能を伝えるホスト名スキームを使用します。 サーバーに多くの役割がある場合(たとえば、フリート内の多くのサーバーのそれぞれでDB、サーバー、およびキャッシュを実行している場合)、それらを単にdb1、db2と呼ぶことはできませんが、それらが本番かステージングかを示すことができます。 、またはQA、およびそれらの場所、および混合を実行する場合は、それらが物理サーバーであるか仮想サーバーであるか。 (たとえば、vqa2.dc7 – dc2データセンターにあるそのクラスの番号7の仮想qaサーバー。または、純粋にデータベースの場合はvqadb2.dc7。)

それで、これはベッドから出る必要がないこと以外に重要ですか? はい–監視の設定にかかる作業を大幅に節約できます。 LogicMonitorの動的グループを使用して、ホスト名に文字列「DC7」が含まれているすべてのホストが「DCデータセンター」グループのメンバーであることを指定できます。 また、「QAシステム」と呼ばれる別のグループには、名前が「qa」と一致するすべてのホストが含まれる場合があります(これには、すでにDC7グループに含まれる一部のホストが含まれる場合があります。場所、生産段階、および機能でホストを同時にグループ化できない理由はありません)。 これにより、アラートルーティングの変更が非常に簡単になるため、一貫して名前を付けている限り、QAグループのホストに目覚めることはありません。 動的グループを使用してしきい値を管理することもできます(したがって、QAシステムのしきい値はステージングシステムや本番システムとは異なります)。 または、監視目的で所有権を委任することもできます。 QAシステムがBatman、SuperMan、Hulkと呼ばれ、本番システムがIronManとThorと呼ばれている場合は、実行が困難です。 ((待ってください–スーパーマンは戦いでアイアンマンを打ち負かしますか? それはスーパーマンが生産であることを意味しますか? 午前2時に考えたいことではありません…)

命名規則の一貫性はホスト名を超えて拡張されます–すべての論理オブジェクトは論理的に構築された名前を持つ方が良いです。 たとえば、ストレージアレイは高価なシステムであることが多いため、部門間で共有される場合があります。 多くのストレージアレイがあり、それぞれに多くのボリュームがある場合、ボリュームに一貫した名前が付けられていれば、ビジネスユニットのスペース使用量を示す集計グラフを簡単に作成できます。 「/ vol / * Retail *」に一致するすべてのボリュームに使用されるスペースの合計をグラフ化するように監視を構成するのは簡単です。 小売部門がボリューム「sales01」、「retmail」、「backup.orig」、および「sales03」を所有しているが、「salesmain」は所有していないことを理解することは不可能です。 または、サーバーを追加および削除する場合でも、マウントポイントが一貫している限り、データベースSSDで使用されているすべてのスペースを示す単一のグラフは簡単です。

DBU使用法

したがって、ガンダルフをあきらめて、ホストと論理オブジェクトに論理スキームを採用します。 午前2時に感謝します。